Download
jana kravalov n.
Skip this Video
Loading SlideShow in 5 Seconds..
Pavouk - svahilština PowerPoint Presentation
Download Presentation
Pavouk - svahilština

Pavouk - svahilština

151 Views Download Presentation
Download Presentation

Pavouk - svahilština

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Jana Kravalová Pavouk - svahilština

  2. Zadání • program, který leze po webu, stahuje texty, čistí je a vypisuje na výstup • program na trénování statistiky, která rozpozná jazyk dokumentu • rozšíření pavouka o modul, který podle natrénovaných statistik rozpozná jazyk • vytipování počátečního url pro zadaný jazyk (svahilštinu)‏

  3. Kiswahili ni lungha ya kibatu yenye misamiati mingi ya kiarabu inayozungumzwa katika eneo kubwa la Afrika ya Mashariki. Svahilština (swahili, kiswahili)‏

  4. Vytipování počátečního url • zjistit, kde se mluví danou řečí • wikipedia: swahili např. v Tanzánii • zjistit několik slov v daném jazyce • např. svahilsky noviny, novinky = habari • složit dohromady + google: • www.habaritanzania.com :o)‏ • zde přes 2.5 milionu slov

  5. Rozpoznání jazyka • swahili patří mezi jazyky, které nemají mnoho serverů • jakmile server opustíme, jsme na anglické stránce • zakážeme vylézat ze zadané domény • rozpoznávání jazyka přímočaře použitím vzorce z přednášky

  6. Kódování • Modul LWP::UserAgent - metoda decoded_content() • specifikace decoded_content(): • returns the content with any Content-Encoding undone and strings mapped to perl's Unicode strings. • if the Content-Encoding or charset of the message is unknown this method will fail by returning undef

  7. HTML entity • decode_entities() převede do Unicode HTML entity • při odstraňování opakovaných bílých znaků nutno započítat i pevnou mezeru: • $text ~= s/(\s|\xa0)+/ /g;

  8. Zacyklení, časté odstavce • navštívená url v hashi • do fronty dávat pouze nenavštívená url • obsahy navštívených stránek v hashi • obsahy zahešovány pomocí md5 • funkce md5_hex nefunguje na unicode řetězcích, nutno překódovat na posloupnost bajtů, např. utf8 • md5_hex encode("utf8",$content); • obsahy odstavců v hashi • nebrat ty, které se vyskytly víc jak 5x, 10x, konstanta-krát

  9. Hotový korpus • Nejčastější slova: • ya, na, wa, kwa, za, katika, ni, kuwa, la, |, >>, alisema, cha, hiyo, Habari, Tanzania, serikali, kama, Kitaifa, mwaka, baada, vya • Překlad: • ya (of), na (and, with), wa (be, have), kwa (for, with, by, to), za (of), … • alisema (řekl/a), serikali (vláda), kitaifa (stát)‏ • | se na serveru používá jako oddělovač • >> se používá jako ukazatel na odkaz