1 / 13

Szöveg- és karakterkódolás XML alapokon

Szöveg- és karakterkódolás XML alapokon. Király Péter Arcanum Adatbázis Kft. A projektek. Hungarológiai alapkönyvtár Klasszikus társadalomtudományi (művelődéstörténeti) művek: „spenót” (irodalomtörténet) Magyar néprajz II–VIII. Magyar színháztörténet

kory
Download Presentation

Szöveg- és karakterkódolás XML alapokon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Szöveg- és karakterkódolás XML alapokon Király PéterArcanum Adatbázis Kft.

  2. A projektek • Hungarológiai alapkönyvtár • Klasszikus társadalomtudományi (művelődéstörténeti) művek: • „spenót” (irodalomtörténet) • Magyar néprajz II–VIII. • Magyar színháztörténet • Demeter Tibor 40 kötetes bibliográfiája (magyar irodalom idegen nyelven) • „saját” adatbázisaink Szöveg- és karakterkódolás xml alapokon

  3. Szedés • Szövegrögzítés • Általában kézi szedés • Rögzített szedési útmutatás (szintek, jegyzetek, képek, különleges karakterek) • Szövegszerkesztővel történik (MS Word, Unipad) • Kapott anyagok konvertálása (MS Word, nyomdai anyagok /QuarkPress, FrameMaker/, adatbázisok /Access, MySQL, PgSQL/, egyedi/ritkán használt/elavult szoftverek ld. Drótos Laci előadásait) • Automatikus karakterfelismerés Szöveg- és karakterkódolás xml alapokon

  4. Szedés: problémák • Képes-e a szedő tagelni? • Milyen formában? • Nem csökkentjük-e drasztikusan azt a hatékonyságot, amiben ő a legjobb? • Az egyedi szoftver korlátai (karakterek, szintek, szemantikus elemek) • Hogyan olcsóbb és/vagy gyorsabb? Szöveg- és karakterkódolás xml alapokon

  5. Korrektúra • Mindig „kézi” korrektúra (létezik – bár kihalóban – a „korrektor” nevű szakmunkatárs, régebben a nyomdák környékén volt fellelhető) • Korrektúrázási útmutató (általában azonos a szedési útmutatóval) • A szedés kinyomtatásával, papíron, tollal történik • Általában többszöri korrektúraforduló hoz csak kielégítő* eredményt Szöveg- és karakterkódolás xml alapokon

  6. Korrektúra: problémák • „Ragaszkodás a tipográfiához” • „Ragaszkodás a helyesíráshoz” • Mindig az adott projekt dönti el, hogy hogy írjuk át a szöveget (akadémiai helyesírás, korabeli ízek megtartása, vélelmezett sajtóhibák) [a közép-latin oklevélszöveg és az indoeurópai nyelvészet professzorának találkozása a korrektúrapéldány fölött] • „pont, pont, vesszőcske” hibák észrevétele • Előre elképzelni az adatbázist, és aszerint dolgozni • „visszajavító” foglalkoztatása szükséges Szöveg- és karakterkódolás xml alapokon

  7. Adatbázisépítés • NEM XML! hanem • Teljes szövegű adatbáziskezelő, ami • tud egy sor dolgot, amit az XML ígér • tudunk belőle XML fájlt konvertálni • Alternatívák: • Folio, Word, WordPerfect, QuarkXPress, FrameMaker, OpenOffice, egyedi szoftverek, pl. Classical Text Editor Szöveg- és karakterkódolás xml alapokon

  8. …vagy közvetlen szerkesztés • XML-szerkesztők • oXygen, XML Spy, Stylus Studio • Általános szerkesztők plug-inekkel • jEdit, Emacs, TEI-Emacs, Eclipse • Programozók egyszerű, de nagyszerű szövegszerkesztői • TextPad, UltraEdit, NoteTab Quark Xpress Szöveg- és karakterkódolás xml alapokon

  9. konvertálás • Folio->FFF (Folio Flat File) • FFF > (Perl scriptek) >XML • Validálás, hibajavítás (az FFF-ben), újra konvertálás • XML + XSL > (xsl processzor) > HTML (vagy ami tetszik) • Igény szerint utófeldolgozás (Perl) • HTML validálás, hibakeresés, visszajavítás Quark Xpress Szöveg- és karakterkódolás xml alapokon

  10. Konvertálás: problémák • Az XSLT a rekurzióra épül, ami nagyon forrásigényes algoritmus • Nincsenek kiforrott, gyors processzorok • Nagy fájlok esetén nehézkes a használata (vagy különféle kompromisszumokat kell kötni) • Karakterkonverziók („natív” ansi/ascii karakterek, karakter egyedek) Quark Xpress Szöveg- és karakterkódolás xml alapokon

  11. Előnyök • Robosztus, többé-kevésbé kompromisszummmentes (ld. szövegkritikai DTD), tartósítható állomány • Beépített hibaellenőrzés • Egyszerűbb újrafelhasználni, mint a valamilyen célra „kihegyezett” formátumokat • Ha nem is a „megígért” ütemben, de mégiscsak gyarapodó támogatás Szöveg- és karakterkódolás xml alapokon

  12. Nehézségek • Konverziós problémák • Nagyfokú munkafegyelem és kooperációs készség szükséges • Pontos előzetes megállapodások, folyamatos konzultáció • Nincsenek kézhezálló, valóban kényelmesen és gyorsan használható eszközök • Számos dolog csak ígéret és nem jelenvalóság (pl. szofisztikált keresés) • költséges Szöveg- és karakterkódolás xml alapokon

  13. < ez nem az a kulcs • Kérdések, problémák, konzultációs és bosszankodási/bosszantási lehetőség: kiru@arcanum.hu Szöveg- és karakterkódolás xml alapokon

More Related