260 likes | 336 Views
DML-CZ: Česká matematická digitální knihovna. Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy. Projekt DML-CZ. Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků
E N D
DML-CZ: Česká matematická digitální knihovna Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy
Projekt DML-CZ Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků Finančně podporováno Grantovou agenturou Akademie věd ČR v rámci národního výzkumného programu Informační společnost Doba řešení: 2005–2009 Předpokládaný rozsah: 150–200 tisíc stran
Řešitelé Matematický ústav AVČR (Praha): koordinátor projektu, výběr a příprava materiálů k digitalizaci, autorská práva a problémy copyrightu, obsluha a údržba stávajícího DML-CZ Ústav výpočetní techniky, Masarykovauniverzita (Brno): technická integrace, vývoj digitální knihovny, koordinace pořizování metadat a začlenění do WDML Fakulta informatiky, Masarykova Univerzita (Brno): zpracování OCR, techniky pro vyhledávání a prezentování digitálních dokumentů, prezentační formáty a vývoj a testování relevantních technologií Matematicko fyzikální fakulta Univerzity Karlovy (Praha): uživatelské požadavky, specifikace metadat, linkování do Zentralblatt MATH a Mathematical Reviews Knihovna AV ČR (Praha): digitalizace, OCR, archivace a prezentace digitalizovaného materiálu v rámci Akademie věd ČR
Testovací vzorek Československý matematický časopis / Czechoslovak Mathematical Journal 1951–1991 klasický tisk (téměř 30 000 stran), od roku 1992 elektronicky - TeX multilijazyčnost: čeština, slovenština, ruština, angličtina, němčina, francouzština, italština první dva výtisky byly vydány současně česky, rusky a v multijazyčné formě ruční kresby, grafy, tabulky a fotografie
Skenování a základní metadata Digitalizační centrum Knihovny AV ČRhttp://digit.lib.cas.cz/ Skener Zeutschel OS 7000 (90 A4 stran za hodinu při 600 DPI) šedá škála, 600 (644) DPI, 4~bit TIFF BookRestorer (i2S, France) pro grafické vylepšení skenovaných stran – především ořez, binarizace a rovnání řádků úvodní OCR (vše kromě matematických „specialit“): ABBYY FineReader integrovaný v produkčním systému Sirius (Elsyst Engineering, ČR) vytváření základních metadat s využitím částečně automatizovaných postupů (DTD – Kramerius)
Od digitalizovaných stran k článkům 1. Seřazení naskenovaných obrazů stran v adresářích v hierarchické struktuře Titul časopisu / Ročník / Výtisk • prováděno v rámci skenovacího procesu
Od digitalizovaných stran k článkům 2. Aplikace OCR FineReader pro běžný text a InftyReader pro matematické části Problémy: • detekce jazyků na úrovni odstavců • detekce čísel stránek (v některých případech čísla stran chybí) • pokud OCR nedetekuje číslo strany není obrázek automaticky spojen s číslem strany – je nutný manuální zásah scanned page PDF IML, MathML, TeX FineReader InftyReader
Od digitalizovaných stran k článkům 3. Vytvoření úvodního seznamu článků v příslušném vydání časopisu • využití metadat z existujících databází - Mathematical Reviews (MR) and Zentralblatt MATH (Zbl) • nalezení začátků a konců článků pomocí OCR • identifikace strany s obsahem a jejích položek pomocí OCR Tímto získáme základní podklady pro následující kroky. Problémy: • OCR může způsobit nesprávné rozdělení článků na části • databáze nejsou absolutně spolehlivé • identifikace obsahu může být složitá, zatím není zcela dořešeno
Od digitalizovaných stran k článkům 4. Autodetekce deskriptivních metadat z externích databázía/neboz OCR • některá metadata jsou získána pomocí OCR již během skenovací fáze • metadata jsou využitá v dalším kroku pro kontrolu Problémy (zejména s referencemi): • identifikace začátků článků, rozdělení článků na logické části, nalezení URL, … • multijazyčnost (Reference, Referencie, References, Bibliography, Bibliographie, Literaturverzechnis, Littérature, Literatura, Литература)
Od digitalizovaných stran k článkům 5. Manuální revizečlánků a jejich obsahů • nezbytné pro následující kroky ve workflow • prováděno manuálně pomocí vyvinutého Metadata Editorukterý umožňuje • vizuální kontrolu obrázků stran • náhled článku • přesun stran uvnitř článku a mezi články • zrušení nesprávně identifikovaných článků a vytvoření nových • odstranění prázdných stran • …
Od digitalizovaných stran k článkům 6. Manuální kontrola popisných metadat • důležité pro kvalitu obsahu DML, ne pro workflow • také prováděno s Metadata Editorem Problémy: • jména autorů • transliterace • kdo je rozhodující – Zbl, MR, auroritní báze? • příklady: Zakharov/Zaharov, Solomencev/Solomentsev, Nikolskiĭ/Nikol’skiĭ/Nikol’skij, … • chybějící MSC (Mathematics Subject Classification)
Od digitalizovaných stran k článkům 7. Generování PDF souborů po článcích • dvouvrstvé PDF umožňující vyhledávání • při generování se využívá seznam článků a odpovídající čísla stran • nepřepokládá se využití formátu DjVu (PDF od verze 6.0 podporuje kompresní algoritmus JBIG2)
Od digitalizovaných stran k článkům 8. Import článků a metadat do publikačního systému Problémy: • rozhodnutí, který systém využít • Kramerius • DSpace • vytvoření vlastního? • začlenění DML-CZ do WDML
Autorská a vlastnická práva Problems: • podle českého práva je elektronická verze tištěného dokumentu považována za zcela nový dokument – je nutné povolení od autora • elektronické verze nemohou tedy být vystaveny veřejně na Internetu • jednání s vydavateli / distributory (např. pohyblivé okno – prezentace dokumentu v tomto okně)
Budoucí kroky • vyřešení problémů • zpracování další literatury • Aplikace matematiky, Kybernetika a některé další • konferenční sborníky, knihy, dizertační práce • zpracování born-digital materiálů • zpracování materiálu digitalizovaného na univerzitě v Göttingenu • zpracování Slovak časopisů • spolupráce s dalšími digitalizačními iniciativami • OCR matematických částí • indexace a vyhledávání matematických částí • klasifikace • prolinkování referencí
Děkuji za pozornost DML–CZ http://dml.muni.cz/ lhotak@lib.cas.cz