1 / 14

Re-usable Libraries for Processing Web Pages

Re-usable Libraries for Processing Web Pages. 21.10.2009 Michal Barla. Prečo. Viacerí z nás potrebujú spracovávať webové stránky Dostať zo stránky to čo je podstatné (text) Získať kľúčové slová Prečo by to mal robiť každý sám, keď môžeme svoje sily spojiť. Čo potrebujeme. Readability

evelia
Download Presentation

Re-usable Libraries for Processing Web Pages

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Re-usable Libraries for Processing Web Pages 21.10.2009 Michal Barla

  2. Prečo • Viacerí z nás potrebujú spracovávať webové stránky • Dostať zo stránky to čo je podstatné (text) • Získať kľúčové slová • Prečo by to mal robiť každý sám, keď môžeme svoje sily spojiť

  3. Čo potrebujeme • Readability • vyseknezo stránky podstatný text • GoogleTranslate proxy • POSTne text, späť ho dostane v angličtine • Tagthe.net proxy • POSTne text, späť dostane kľúčové slová • Delicious proxy • Na zadanú URL vráti populárne tagy (ak sú)

  4. Čo potrebujeme • OpenCalais proxy • POSTne text, späť ho dostane opoznámkovaný • TermExtraction libka • Algoritmy pre analýzu textu (extrakciu kľúčových slov)

  5. Čo máme • Nejaký work-in-progress, ale použiteľný a hlavne pripravený na vaše zapojenie sa • Tomáš Jelínek, Lucia Jastrzembská [OP] • Ja • Tomáš Kramár

  6. Čo máme • JKEY_EXTRACTOR [Java] • Wrapper nad JATR libkou – sada algoritmov na extrakciu kľúčových slov z URL/textu v anglickom jazyku • Delicious proxy • TagTheNet proxy • Zo zadanej URL sa však vysekne text (Readability) a preloží sa do angličtiny (Google translate)

  7. Príklad JKeyExtractor ke = new JKeyExtractor(); ke.addAlgorithm(new JATRKeyExtractor(JATR_ALGORITHM.CValue)); ke.addAlgorithm(new JATRKeyExtractor(JATR_ALGORITHM.GlossEx)); ke.addAlgorithm(new JATRKeyExtractor(JATR_ALGORITHM.TermEx)); ke.addAlgorithm(new JATRKeyExtractor(JATR_ALGORITHM.TFIDF)); ke.addAlgorithm(new JATRKeyExtractor(JATR_ALGORITHM.Weirdness)); List<String> list = ke.getAllKeysForURL(“http://nejaka-url"); ke.addAlgorithm(new TagTheNetKeyExtractor()); ke.addAlgorithm(new DeliciousKeyExtractor()); ke.getAllKeysForText(string);

  8. Under the hood • Readability libka [jruby] • Podľa bookmarkletu http://lab.arc90.com/experiments/readability/ get_html_content(url) get_plain_text_from_html(html) get_plain_text(url)

  9. Under the hood • TagTheNet proxy [jruby] • get_tags_for_text(string) • GoogleTranslate proxy [jruby] • detect_language(string) • translate(string,from="",to="en") • Všetko z jruby je volateľné z javy (ak performance nie je issue )

  10. Čo s tým chcem ja? • Jednoduchý UM v otvorenom informačnom priestore založený na tagoch • Pre každú stránku, ktorú používateľ navštívi extrahujem kľúčové slová a uložím ich do modelu používateľa • Niektoré sa budú určite objavovať častejšie  

  11. Proxy UserAgentString: Firefox Proxy Browser patcher

  12. Proxy UserAgentString: Firefox, AUID=123 Proxy QuickProxyPlugin pre Firefox UM AUID Timestamp URL keywords

  13. Social Networking AUID = XYZ AUID = XYZ Relax AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ AUID = XYZ

  14. Späť k libke/libkám • http://nimbus.fiit.stuba.sk/hg/jkey-extractor/ • browse (AIS login) • Pošli public_key (open-ssh) ak chceš prispieť • ToDo: • Pridanie OpenCalais providera (Peter Bugáň ) • Refaktoring • Handlovanie škaredých stavov

More Related