modelovanie pou vate a mikroblogu n.
Download
Skip this Video
Download Presentation
Modelovanie používateľa mikroblogu

Loading in 2 Seconds...

play fullscreen
1 / 17

Modelovanie používateľa mikroblogu - PowerPoint PPT Presentation


  • 181 Views
  • Uploaded on

Modelovanie používateľa mikroblogu. Bc. Marcel Kanta. Vedúci: Ing. Marián Šimko, PhD. Motivácia. Zahltenie informáciami Odporúčať používateľom obsah Zohladnenie lokality trendov Model používateľa Presnejší Dobrý zdroj dát – mikroblogy (Twitter)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Modelovanie používateľa mikroblogu' - alvin-grant


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
modelovanie pou vate a mikroblogu

Modelovanie používateľa mikroblogu

Bc. Marcel Kanta

Vedúci: Ing. Marián Šimko, PhD.

motiv cia
Motivácia
  • Zahltenie informáciami
  • Odporúčať používateľom obsah
    • Zohladnenie lokality trendov
  • Model používateľa
    • Presnejší
    • Dobrý zdroj dát – mikroblogy (Twitter)
  • Model používateľa mikroblogu v doméne odporúčaní noviniek s ohľadom na trendy a ich lokalitu
vizualiz cia probl mu

L1

Vizualizácia problému

Výstup: linky

L2

Používateľ

  • Vstup: príspevky

Novinky

Model používateľa

Trendy

technick postup
Technický postup
  • Získanie dát do hadoopu
    • Lokalita používateľa
      • 2k
    • Metadata o linkoch
      • 550k
  • Predspracovanie dát
  • Spracovanie dát
z skanie d t
Získanie dát
  • Lokalita používateľa
  • Vstup: .csv, Výstup: .kml
  • <Placemark>
    • <description>[userId]</description>
    • <Point>
      • <coordinates>-3.435973,55.378051,0</coordinates>
    • </Point>
    • <address>United Kingdom United Kingdom, United Kingdom United Kingdom</address>
    • <styleUrl>#0</styleUrl>
  • </Placemark>
z skanie d t1
Získanie dát
  • Stiahnutie metadát zo semanticproxy.com
  • Paralelne!!!
z skanie d t pewe
Získanie dát: PeWe
  • Technology/Internet (70.5%)
  • Technology_Internet (SocialTag)importance: 2
  • New York City (City)relevance: 15.1%resolutions: New York City,New York,United StatesInstance Info
  • 2011 Outstanding Paper Award(EntertainmentAwardEvent)relevance: 16.4%Instance Info
  • Institute Of Informatics (Facility)relevance: 50.4%Instance Info
  • Slovak University Of Technology (Facility)relevance: 31.3%Instance Info
  • Informal Research (IndustryTerm)relevance: 31.3%Instance Info
  • Adaptive Social Web-Based Systems (IndustryTerm)relevance: 31%Instance Info
  • Web-Based Systems (IndustryTerm)relevance: 30.6%Instance Info
  • Semantic And Social Web (IndustryTerm)relevance: 30.6%Instance Info
  • Web Content Annotation (IndustryTerm)relevance: 14.3%Instance Info
  • Web-Based Learning (IndustryTerm)relevance: 8.6%Instance Info
  • Video Stream (NaturalFeature)relevance: 6.5%Instance Info
  • PeWe (Organization)nationality: N/Aorganizationtype: N/Arelevance: 68.6%Instance Info
  • Faculty Of Informatics And Information Technologies(Organization)nationality: N/Aorganizationtype: N/Arelevance: 63.7%Instance Info
  • Slovak University Of Technology (Organization)nationality: Slovakorganizationtype: N/Arelevance: 31.3%Instance Info
  • Institute Of Informatics And Software Engineering(Organization)nationality: N/Aorganizationtype: N/Arelevance: 31.3%Instance Info
  • ACM Czech Chapter (Organization)nationality: N/Aorganizationtype: N/Arelevance: 20.6%Instance Info
  • IIT.SRC Slovakia ACM Chapter (Organization)nationality: Slovakianorganizationtype: N/Arelevance: 9.5%Instance Info
  • Martin Labaj (Person)commonname: Martin Labajnationality: N/Apersontype: N/Arelevance: 55.3%Instance Info
  • Michal Tomlein (Person)commonname: Michal Tomleinnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info
  • Peter Kr (Person)commonname: Peter Krnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info
  • Michal Holub (Person)commonname: Michal Holubnationality: N/Apersontype: N/Arelevance: 7.1%Instance Info
  • Michal Kompan (Person)commonname: Michal Kompannationality: N/Apersontype: N/Arelevance: 5.4%Instance Info
  • ACM SPY (Position)relevance: 48.5%Instance Info
predspracovanie
Predspracovanie
  • Lokalita používateľa
    • Generovanie kvartérneho stromu
  • Vytvorenie vstupu do hadoopu (.csv.zip)
  • Čas Región TweetId UserId Relevancia Topic
spracovanie
Spracovanie
  • Obohatenie
  • Trénovacia, testovacia vzorka
  • Tvorba modelov
    • TF-IDF používateľa
    • TF-IDF regiónov
  • Filtrovanie
  • Validácia
    • Získanie množiny odporúčaných linkov
    • Odporúčanie
    • Precision P@n, MRR
spracovanie obohatenie
Spracovanie – obohatenie
  • create table enriched(cas string, region int,tweetid string, userid int, relevance double, word string) stored as sequencefile;
  • insert overwrite table enriched
  • select a.cas, a.region, a.tweetid, a.userid, sum(a.relevance), a.word from
  • (select * from train
  • union all
  • select t.cas, t.region, t.tweetid,t.userid,u.relevance,u.word from
  • (select * from train where word like 'http://%') t
  • join urlWordUnique u on t.word=u.url
  • ) a group by a.cas,a.region,a.tweetid,a.userid,a.word;
spracovanie tr ning test
Spracovanie – tréning/test
  • Trénovacia vzorka
    • select * from inWord where cas='00_2011' or cas='45_2010' or cas='46_2010' or cas='47_2010' or cas=b' or cas=b' or cas='50_2010‚or cas='51_2010' or cas='52_2010';
  • Testovacia vzorka
    • select * from inWord where cas='01_2011';
spracovanie efektivita
Spracovanie – efektivita
  • set mapred.reduce.tasks=500;
    • insert overwrite table RecommendationLocal
    • SELECT ... FROM ... JOIN ... ON ...
    • GROUP BY ...
    • HAVING ...
    • ORDER BY ... desc;
  • Total MapReduce CPU Time Spent:
  • 4 days 0 hours 20 minutes 11 seconds 920 msec
  • Time taken: 5679.552 seconds
spracovanie efektivita1
Spracovanie – efektivita
  • Riešenie: Filtrovanie
    • where relevance>0.3
    • where tfidf>0.01
spracovanie valid cia
Spracovanie – validácia
  • Validácia
    • Získanie množiny odporúčaných linkov
      • select distinct userId,word from test where word like 'http://%';
    • Odporúčanie
      • Kosínusova podobnosť modelov a linkov
      • Zoradenie
      • Vybrať top n pre každý región
    • Precision P@n, MRR
aktu lny stav
Aktuálny stav
  • Dáta získané
  • Modely spravené
  • Spracovanie spravené
  • Overovanie spravené
    • Porovnanie s implementáciou Gao et al. 2011
      • efektívne
aktu lny stav1
Aktuálny stav
  • Dáta získané
  • Modely spravené
  • Spracovanie spravené
  • Overovanie spravené
  • Dolaďovanie
    • Hive
    • Vybrať top n pre každý región
zdroje
Zdroje
  • Abel, F., Gao, Q., Houben, G.J., and Tao, K: Analyzing User Modeling on Twitter for Personalized News Recommendations. User Modeling, Adaption and Personalization, (2011), 1–12 [citované november 2011]
  • Gao, Q., Abel, F., and Houben, G: Interweaving Trend and User Modeling for Personalized News Recommendation. Web Intelligence and Intelligent Agent Technology WIIAT 2011, (2011) [citované november 2011]
  • Hecht, B., Hong, L., Suh, B., and Chi, E.H.: Tweets from Justin Bieber ’ s Heart : The Dynamics of the “ Location ” Field in User Profiles. Electrical Engineering, (2011), 237-246 [citované december 2011]
  • http://www.webresourcesdepot.com/wp-content/uploads/image/world-map-svg.gif
  • http://rst.gsfc.nasa.gov/Intro/type-C-172.png
  • http://www.articlesweb.org/blog/wp-content/gallery/local-news-reflects-you/local-news-reflects-you-2.jpg
  • http://www.unmatchedstyle.com/wp-content/uploads/2010/11/user.jpg
  • http://blog.locomu.com/wp-content/uploads/2011/12/new-twitter-logo.png
  • http://www.wewillraakyou.com/wp-content/uploads/2010/09/twitterstreams-505x319.jpg
  • http://www.imgbase.info/images/safe-wallpapers/miscellaneous/1_other_wallpapers/14374_1_other_wallpapers_the_world.jpg
  • http://www.gettyicons.com/free-icons/124/web-2.0/png/256/twitter_256.png
  • http://aux.iconpedia.net/uploads/2106003206.png
  • http://www.wpclipart.com/computer/humour/debugging.png.html