1 / 8

Vkladanie diakritiky s využitím štatistickej analýzy textu

Vkladanie diakritiky s využitím štatistickej analýzy textu. Matej Sabo Vyh ľadávanie informácií 2010/2011. Opis problému. Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov - > „naučenie sa ako vkladať diakritiku“.

inga-dixon
Download Presentation

Vkladanie diakritiky s využitím štatistickej analýzy textu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011

  2. Opis problému • Práca s databázou • Vstup – text bez diakritiky • Výstup – text s diakritikou • Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavaniainformacii z internetu (informationretrieval). Dozvedia sa akesuzakladne modely pre vyhladavanie a ziskavanieinformacii, ako sa dahodnotituspesnost, akesu techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (informationretrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

  3. Motivácia • Užitočnosť programu (šetrenie času, námahy) • Použitie v praxi • Forma experimentu

  4. Prípad použitia

  5. Popis dát • Dve druhy databáz: • Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: • Slovo bez diakritiky a alternatívy s diakritikou • Napr. spat spať späť špať špát • Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: • Názov súbora – [analyzované_slovo].txt. • Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

  6. Implementácia • Java (Eclipse) -> multiplatformovosť • Prevažne práca so súbormi a string-ami • Aplikácia s GUI (využitie awt, swing) • Jednoduché ovládanie • Kód – 8 tried v 3 balíkoch: • main – trieda Main • gui – trieda používateľského rozhrania • logic – ostatných 6 tried s hlavnou logikou programu

  7. Zhodnotenie • Dobrá použiteľnosť programu • Vysoká úspešnosť v testovaní: • Testovanie na článkoch Sme a texte diplomovej práce • Úspešnosť správneho prekladu slova podľa databázy – 97,5% • Ďalšie možnosti zlepšenia • Nevýhody: • Potreba databáz (20 MB) • Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)

  8. Ďakujem za pozornosť Matej Sabo

More Related