1 / 10

TagCloud

TagCloud. Bc . Alojz Gomola. Obsah. Motiv ácia Návrh Implementácia Nasadenie v projekte PlaDeS Pokrytie slovníkových metód Porovnanie s metódou Qgramy Použitá literatúra. Motivácia. V ytvorenie zásuvného modulu do projektu PlaDeS. I mplemen ácia frekvenčn ých metód

rhys
Download Presentation

TagCloud

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TagCloud Bc. Alojz Gomola

  2. Obsah • Motivácia • Návrh • Implementácia • Nasadenie v projekte PlaDeS • Pokrytie slovníkových metód • Porovnanie s metódou Qgramy • Použitá literatúra

  3. Motivácia • Vytvoreniezásuvnéhomodulu do projektuPlaDeS. • Implemenáciafrekvenčnýchmetód • Vyhodnotenie podobnosti pomocou metódy TF/IDF. • FrekvenčnémetódysúpoužívanéajnagenerovanieTagCloud-u (Mraktagov).   • Vizualizáciouzískanéhovýsledku.

  4. Návrh • Vychádzal z daností projektu PlaDeS • CSharp/.NET platforma • Monolitické, neškálovateľné spracovanie dokumentov • Navrhnutý aplikačný vzor pre spracovanie • Lematizácia • Synonimizácia • Odstránenie stop slov • Spracovanie *.doc, *.pdf súborov • Navrhnuté frekvenčné metódy • TF-IDF [8] • TF [8] • IDF [8,9] • WF –IDF [9] • WF [9] • asd

  5. Implementácia • Standalone aplikácia • Spracovanie dokumentov • Tokenizácia • Lematizácia • Synonimizácia • Vizualizácia pomocou TagCloud-u • Port do projektu Plades • Výpočet frekvenčného vektora dokumentu • Porovnávanie dokumentou metódou TF-IDF • Prepojenie na existujúce štruktúry a metódy porovnávania • Export výsledkov

  6. Nasadenie v projekte PlaDeS 1/2 • Frekvenčná metóda na porovnávanie dokumentov • TF-IDF vektorová metóda • Normalizácia výsledkov • Obohatenie o vizualizáciu pomocou TagCloudu • Side-by-side view • Štatistika výskytu slova v dokumente • Pridanie škálovateľnej štruktúry • Slovníkové metódy • Uchovávanie korpusu mimo operačnej pamate • Zrýchlenie predspracovania PDF dokumentov

  7. Nasadenie v projekte PlaDeS 2/2 • Príklad vizualizácie pomocou farebnej interaktívnej matice

  8. Pokrytie slovníkových metód • Celkovo bolo spracovaných 978 774 slov v 79dokumentoch • Z toho bolo 896 144významovýchslov. • Z toho bolo 779 394slovlematizovatelných. • Z toho bolo  35 863slovsynonimizovateľných. • Relatívnepokrytielematizácie: 86,97 % • Absolútnepokrytielematizácie:76,63 % • Relatívnepokrytiesynonimizácie:4,57% • Absolútnepokrytiesynonimizácie: 3,66%

  9. Výsledky porovnania s metódou Qgramy

  10. Použitá literatúra [1] ItextSharp - PrepisITextkniznice (OpenSource, Java) pre prostredie C# a platformu .NET [2] AbiWord - Opensourcenastrojnaeditáciu a spracovaniedokumentov MS office Word (*.doc) [3] Regular Expression Classes C# .NET MSDN [4] Stop slová z portálu SEO-SERVIS.CZ (Modifikovanáverzia z projektu Plades) [5] GARABIK, R.: Slovak morphology analyzer based on Levenshtein edit operations. Bratislava: JÚLŠ, 2006. [6] BERNSTEIN, D.J.: CDB File format. [7] OpenThesaurus-SK - OtvorenýSlovenskýSynonymickýSlovník [8] TF-IDF (Wikipedia) [9] Scoring, term weighting and the vector space model (IR Stanford) [10] Word Cloud (Tag Cloud) Generator Control for .NET Windows.Forms in C#

More Related