1 / 24

Projekty

Projekty. Odovzdať Software do 1 7 .1 Emailom s popisom ako spustit Zavesiť na web na vyskúšanie Môžem poskytnúť konto na unix kde sa to dá nainštalovať Osobne na UISAV Laclavik 312 alebo Seleng 308 Text 3 strany Čo: Idea Ako: postup, literatura

seda
Download Presentation

Projekty

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekty • Odovzdať • Software do 17.1 • Emailom s popisom ako spustit • Zavesiť na web na vyskúšanie • Môžem poskytnúť konto na unix kde sa to dá nainštalovať • Osobne na UISAV Laclavik 312 alebo Seleng 308 • Text 3 strany • Čo: Idea • Ako: postup, literatura • Overenie: porovnanie výsledkov recall, precission • Záver 11.10.2007

  2. Skúška • Prvý termín • 24.1 • Predtermín • Ak bude záujem • Musí byť na poslednej prednáške vypracovaný projekt 11.10.2007

  3. Textové operácie Vyhľadávanie informácií Michal Laclavík 11.10.2007

  4. Architektúra 11.10.2007

  5. Hlavné témy • Konverzia na text • Tokenizácia • Stemming • Detekcia objektov • URL • čísla 11.10.2007

  6. I/0 • Vstup: dokument, text • Výstup: • reťazce – termy • Objekty, linky .... 11.10.2007

  7. Lexikálne analyzátory • Proces rozdelenia textu na základné značky • Lexery • aj v predspracovaní programu pre kompiláciu • Aj v IR • Lexikálna značka • mrož, WORD • 17.3, FLOAT • ; , SEMICOLON • 16.05.1993, DATE • http://google.com/, LINK 11.10.2007

  8. Lexikálne analyzátory (2) • Úprava kódovania • Lowercase • Spracovanie diakritiky • Lexer • http://flex.sourceforge.net/ 11.10.2007

  9. Identifikácia jazyka • štatistických prístupoch • Počet slov so slovníka • využívajúc techniku n-gramov • monte carlo prístup • kombináciu n-gram a markovovských modelov • NALIT z NAZOU projektu 11.10.2007

  10. Stop slová • Slovenčina • a, o, alebo, ale, sú, táto • Angličtina • A, the, and, of • N – najčastejšie sa vyskytujúcich slov 11.10.2007

  11. Základný tvar slov • Zahrnutie rôznych morfologických tvarov slov • fishing, fished, fish, fisher = fish • Lematizácia – základný tvar slova • Stemming – koreň slova 11.10.2007

  12. Lematizácia • Väčšinou na slovníkovom princípe za pomoci morfologického slovníka • Nevýhody • Nedá sa získať tvar pre slová ktoré nie sú v slovníku • „mier“ môže byť morfologickým variantom významovo rozličných slov: „mier“, „miera“ „mieriť“. • WordNet – výkladový slovník, obsahuje aj morfologické vatrianty – angličtina • a-spell, http://www.sk-spell.sk.cx/ 11.10.2007

  13. Stemming • Proces redukcie na koreň slova alebo základný tvar, rovnaký pre všetky morfologické tvary • Problémy, metriky • Pre-stemmovanie • pod-stemmovanie • Angličtina – Porterov algoritmus • Google od 2003 11.10.2007

  14. Stemming algoritmy • Brute force • orezávajúce sufixy • if the word ends in 'ed', remove the 'ed' • if the word ends in 'ing', remove the 'ing' • if the word ends in 'ly', remove the 'ly‚ • POS tagging – slovné druhy a aplikácia pravidiel • stochastické algoritmy vytvárajúce pravdepodobnostný model na základe známych relácií medzi koreňmi a morfologickými tvarmi slov. • Zložitosť záleží od jazyka • Angličtina jednoduchšie ale má slová ako run, ran • E.g. slovenčina zložité 11.10.2007

  15. Lematizácia v Slovenčine • Ešte rok dozadu google nepodporoval lematizáciu slovenčiny ani na slovníkovom princípe • koreň slova „rada“ koreň je „rad“ pričom tento koreň zahŕňa pri uvažovaní bez diakritiky nasledovné slová: rada – podstatné meno, orgán; rád – podstatné meno, vyznamenanie; rád – sloveso; rad - podstatné meno, zoradenie; rada – podstatné meno, ponaučenie. 11.10.2007

  16. Problém diakritiky • Rôzne kódovania • win-1250, ISO-8859-2 alebo UTF-8 • HTML značky začínajúce „&#“. • Emaily – často bez diakritiky • Forma s.r.o. • Tvorí jazykové knižnice pre Microsoft • Spellcheck atd. • www.zbierka.sk 11.10.2007

  17. Stemming slovenčina • Korpus.juls.savba.sk • Slovenský národný korpus (SNK) je elektronická databáza slovenského jazyka zahŕňajúca široké spektrum jazykových štýlov, žánrov a vecných oblastí, obsahujúca prídavné jazykovedné informácie a výkonný vyhľadávací systém. • Ručne naplnené dáta o niektorých slovných druhoch a tvaroch 11.10.2007

  18. JULS lematizer • Slovníkový princíp • Koncovky slov • Levensteinové operácie • Beta verzia lematizátora • Cieľ iný ak v IR 11.10.2007

  19. Tvaroslovník • UPJŠ • Najdlhší koniec slov • Slovník slovenského jazyka – oskenovaný • Keď sa vypne overovanie v slovníku môže slúžiť aj ako stemmer • Projekt (1) 11.10.2007

  20. Prečo treba algoritmické stemmer • „Štefan Luby“ a „Štefanovi Lubymu“ • Rôzne výsledky • Slová ktoré nie sú v slovníku • Názvy miest a obcí, priezviská a mená • Stempel - poľština • Kombinácia slovníka, kvôli štatistike • Leo Galamboš algoritmus • Projekt (8) 11.10.2007

  21. Levensteinové operácie • Vloženie • Vymazanie • Nahradenie • Ucho, uši • Pes, psík • Použitie v Lematizácii ale aj podobnosť slov, spellcheck • Podobnosť podľa kosínusovej vzdialenosti • Prípadne úprava odporučenie query pri preklepoch • SimMetrics 11.10.2007

  22. Part of Speach Tagging • POS sa využíva pri spracovaní textu • Identifikácia objektov • Lematizácia • Identifikácia termov zložených s viac slov • Ďalšie aplikácie • V slovenčine neexistuje • Angličtina QTag library 11.10.2007

  23. Spracovanie odkazov • < href=http://nieco/stranka/>Text odkazu</a> • Text odkazu sa prida k dokumentu linky 11.10.2007

  24. Spracovanie URL • Tokenizácia cez _ alebo NazovDokumentu • Tiez / • Osobitne domena 11.10.2007

More Related