1 / 26

DML-CZ: Česká matematická digitální knihovna

DML-CZ: Česká matematická digitální knihovna. Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy. Projekt DML-CZ. Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků

kanoa
Download Presentation

DML-CZ: Česká matematická digitální knihovna

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DML-CZ: Česká matematická digitální knihovna Martin Lhoták, Jiří Rákosník, Petr Sojka, Martin Šárfy

  2. Projekt DML-CZ Cíl: zpřístupnění digitalizované matematické literatury publikované v průběhu historie v českých zemích, popis jednotlivých článků Finančně podporováno Grantovou agenturou Akademie věd ČR v rámci národního výzkumného programu Informační společnost Doba řešení: 2005–2009 Předpokládaný rozsah: 150–200 tisíc stran

  3. Řešitelé Matematický ústav AVČR (Praha): koordinátor projektu, výběr a příprava materiálů k digitalizaci, autorská práva a problémy copyrightu, obsluha a údržba stávajícího DML-CZ Ústav výpočetní techniky, Masarykovauniverzita (Brno): technická integrace, vývoj digitální knihovny, koordinace pořizování metadat a začlenění do WDML Fakulta informatiky, Masarykova Univerzita (Brno): zpracování OCR, techniky pro vyhledávání a prezentování digitálních dokumentů, prezentační formáty a vývoj a testování relevantních technologií Matematicko fyzikální fakulta Univerzity Karlovy (Praha): uživatelské požadavky, specifikace metadat, linkování do Zentralblatt MATH a Mathematical Reviews Knihovna AV ČR (Praha): digitalizace, OCR, archivace a prezentace digitalizovaného materiálu v rámci Akademie věd ČR

  4. Testovací vzorek Československý matematický časopis / Czechoslovak Mathematical Journal 1951–1991 klasický tisk (téměř 30 000 stran), od roku 1992 elektronicky - TeX multilijazyčnost: čeština, slovenština, ruština, angličtina, němčina, francouzština, italština první dva výtisky byly vydány současně česky, rusky a v multijazyčné formě ruční kresby, grafy, tabulky a fotografie

  5. Skenování a základní metadata Digitalizační centrum Knihovny AV ČRhttp://digit.lib.cas.cz/ Skener Zeutschel OS 7000 (90 A4 stran za hodinu při 600 DPI) šedá škála, 600 (644) DPI, 4~bit TIFF BookRestorer (i2S, France) pro grafické vylepšení skenovaných stran – především ořez, binarizace a rovnání řádků úvodní OCR (vše kromě matematických „specialit“): ABBYY FineReader integrovaný v produkčním systému Sirius (Elsyst Engineering, ČR) vytváření základních metadat s využitím částečně automatizovaných postupů (DTD – Kramerius)

  6. Od digitalizovaných stran k článkům 1. Seřazení naskenovaných obrazů stran v adresářích v hierarchické struktuře Titul časopisu / Ročník / Výtisk • prováděno v rámci skenovacího procesu

  7. Od digitalizovaných stran k článkům 2. Aplikace OCR FineReader pro běžný text a InftyReader pro matematické části Problémy: • detekce jazyků na úrovni odstavců • detekce čísel stránek (v některých případech čísla stran chybí) • pokud OCR nedetekuje číslo strany není obrázek automaticky spojen s číslem strany – je nutný manuální zásah scanned page PDF IML, MathML, TeX FineReader InftyReader

  8. Od digitalizovaných stran k článkům 3. Vytvoření úvodního seznamu článků v příslušném vydání časopisu • využití metadat z existujících databází - Mathematical Reviews (MR) and Zentralblatt MATH (Zbl) • nalezení začátků a konců článků pomocí OCR • identifikace strany s obsahem a jejích položek pomocí OCR Tímto získáme základní podklady pro následující kroky. Problémy: • OCR může způsobit nesprávné rozdělení článků na části • databáze nejsou absolutně spolehlivé • identifikace obsahu může být složitá, zatím není zcela dořešeno

  9. Od digitalizovaných stran k článkům 4. Autodetekce deskriptivních metadat z externích databázía/neboz OCR • některá metadata jsou získána pomocí OCR již během skenovací fáze • metadata jsou využitá v dalším kroku pro kontrolu Problémy (zejména s referencemi): • identifikace začátků článků, rozdělení článků na logické části, nalezení URL, … • multijazyčnost (Reference, Referencie, References, Bibliography, Bibliographie, Literaturverzechnis, Littérature, Literatura, Литература)

  10. Od digitalizovaných stran k článkům 5. Manuální revizečlánků a jejich obsahů • nezbytné pro následující kroky ve workflow • prováděno manuálně pomocí vyvinutého Metadata Editorukterý umožňuje • vizuální kontrolu obrázků stran • náhled článku • přesun stran uvnitř článku a mezi články • zrušení nesprávně identifikovaných článků a vytvoření nových • odstranění prázdných stran • …

  11. Od digitalizovaných stran k článkům 6. Manuální kontrola popisných metadat • důležité pro kvalitu obsahu DML, ne pro workflow • také prováděno s Metadata Editorem Problémy: • jména autorů • transliterace • kdo je rozhodující – Zbl, MR, auroritní báze? • příklady: Zakharov/Zaharov, Solomencev/Solomentsev, Nikolskiĭ/Nikol’skiĭ/Nikol’skij, … • chybějící MSC (Mathematics Subject Classification)

  12. Od digitalizovaných stran k článkům 7. Generování PDF souborů po článcích • dvouvrstvé PDF umožňující vyhledávání • při generování se využívá seznam článků a odpovídající čísla stran • nepřepokládá se využití formátu DjVu (PDF od verze 6.0 podporuje kompresní algoritmus JBIG2)

  13. Od digitalizovaných stran k článkům 8. Import článků a metadat do publikačního systému Problémy: • rozhodnutí, který systém využít • Kramerius • DSpace • vytvoření vlastního? • začlenění DML-CZ do WDML

  14. Autorská a vlastnická práva Problems: • podle českého práva je elektronická verze tištěného dokumentu považována za zcela nový dokument – je nutné povolení od autora • elektronické verze nemohou tedy být vystaveny veřejně na Internetu • jednání s vydavateli / distributory (např. pohyblivé okno – prezentace dokumentu v tomto okně)

  15. Budoucí kroky • vyřešení problémů • zpracování další literatury • Aplikace matematiky, Kybernetika a některé další • konferenční sborníky, knihy, dizertační práce • zpracování born-digital materiálů • zpracování materiálu digitalizovaného na univerzitě v Göttingenu • zpracování Slovak časopisů • spolupráce s dalšími digitalizačními iniciativami • OCR matematických částí • indexace a vyhledávání matematických částí • klasifikace • prolinkování referencí

  16. Děkuji za pozornost DML–CZ http://dml.muni.cz/ lhotak@lib.cas.cz

More Related