Modelovanie pou vate a mikroblogu
This presentation is the property of its rightful owner.
Sponsored Links
1 / 17

Modelovanie používateľa mikroblogu PowerPoint PPT Presentation


  • 109 Views
  • Uploaded on
  • Presentation posted in: General

Modelovanie používateľa mikroblogu. Bc. Marcel Kanta. Vedúci: Ing. Marián Šimko, PhD. Motivácia. Zahltenie informáciami Odporúčať používateľom obsah Zohladnenie lokality trendov Model používateľa Presnejší Dobrý zdroj dát – mikroblogy (Twitter)

Download Presentation

Modelovanie používateľa mikroblogu

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Modelovanie pou vate a mikroblogu

Modelovanie používateľa mikroblogu

Bc. Marcel Kanta

Vedúci: Ing. Marián Šimko, PhD.


Motiv cia

Motivácia

  • Zahltenie informáciami

  • Odporúčať používateľom obsah

    • Zohladnenie lokality trendov

  • Model používateľa

    • Presnejší

    • Dobrý zdroj dát – mikroblogy (Twitter)

  • Model používateľa mikroblogu v doméne odporúčaní noviniek s ohľadom na trendy a ich lokalitu


Vizualiz cia probl mu

L1

Vizualizácia problému

Výstup: linky

L2

Používateľ

  • Vstup: príspevky

Novinky

Model používateľa

Trendy


Technick postup

Technický postup

  • Získanie dát do hadoopu

    • Lokalita používateľa

      • 2k

    • Metadata o linkoch

      • 550k

  • Predspracovanie dát

  • Spracovanie dát


Z skanie d t

Získanie dát

  • Lokalita používateľa

  • Vstup: .csv, Výstup: .kml

  • <Placemark>

    • <description>[userId]</description>

    • <Point>

      • <coordinates>-3.435973,55.378051,0</coordinates>

    • </Point>

    • <address>United Kingdom United Kingdom, United Kingdom United Kingdom</address>

    • <styleUrl>#0</styleUrl>

  • </Placemark>


Z skanie d t1

Získanie dát

  • Stiahnutie metadát zo semanticproxy.com

  • Paralelne!!!


Z skanie d t pewe

Získanie dát: PeWe

  • Technology/Internet (70.5%)

  • Technology_Internet (SocialTag)importance: 2

  • New York City (City)relevance: 15.1%resolutions: New York City,New York,United StatesInstance Info

  • 2011 Outstanding Paper Award(EntertainmentAwardEvent)relevance: 16.4%Instance Info

  • Institute Of Informatics (Facility)relevance: 50.4%Instance Info

  • Slovak University Of Technology (Facility)relevance: 31.3%Instance Info

  • Informal Research (IndustryTerm)relevance: 31.3%Instance Info

  • Adaptive Social Web-Based Systems (IndustryTerm)relevance: 31%Instance Info

  • Web-Based Systems (IndustryTerm)relevance: 30.6%Instance Info

  • Semantic And Social Web (IndustryTerm)relevance: 30.6%Instance Info

  • Web Content Annotation (IndustryTerm)relevance: 14.3%Instance Info

  • Web-Based Learning (IndustryTerm)relevance: 8.6%Instance Info

  • Video Stream (NaturalFeature)relevance: 6.5%Instance Info

  • PeWe (Organization)nationality: N/Aorganizationtype: N/Arelevance: 68.6%Instance Info

  • Faculty Of Informatics And Information Technologies(Organization)nationality: N/Aorganizationtype: N/Arelevance: 63.7%Instance Info

  • Slovak University Of Technology (Organization)nationality: Slovakorganizationtype: N/Arelevance: 31.3%Instance Info

  • Institute Of Informatics And Software Engineering(Organization)nationality: N/Aorganizationtype: N/Arelevance: 31.3%Instance Info

  • ACM Czech Chapter (Organization)nationality: N/Aorganizationtype: N/Arelevance: 20.6%Instance Info

  • IIT.SRC Slovakia ACM Chapter (Organization)nationality: Slovakianorganizationtype: N/Arelevance: 9.5%Instance Info

  • Martin Labaj (Person)commonname: Martin Labajnationality: N/Apersontype: N/Arelevance: 55.3%Instance Info

  • Michal Tomlein (Person)commonname: Michal Tomleinnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info

  • Peter Kr (Person)commonname: Peter Krnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info

  • Michal Holub (Person)commonname: Michal Holubnationality: N/Apersontype: N/Arelevance: 7.1%Instance Info

  • Michal Kompan (Person)commonname: Michal Kompannationality: N/Apersontype: N/Arelevance: 5.4%Instance Info

  • ACM SPY (Position)relevance: 48.5%Instance Info


Predspracovanie

Predspracovanie

  • Lokalita používateľa

    • Generovanie kvartérneho stromu

  • Vytvorenie vstupu do hadoopu (.csv.zip)

  • Čas Región TweetId UserId Relevancia Topic


Spracovanie

Spracovanie

  • Obohatenie

  • Trénovacia, testovacia vzorka

  • Tvorba modelov

    • TF-IDF používateľa

    • TF-IDF regiónov

  • Filtrovanie

  • Validácia

    • Získanie množiny odporúčaných linkov

    • Odporúčanie

    • Precision [email protected], MRR


Spracovanie obohatenie

Spracovanie – obohatenie

  • create table enriched(cas string, region int,tweetid string, userid int, relevance double, word string) stored as sequencefile;

  • insert overwrite table enriched

  • select a.cas, a.region, a.tweetid, a.userid, sum(a.relevance), a.word from

  • (select * from train

  • union all

  • select t.cas, t.region, t.tweetid,t.userid,u.relevance,u.word from

  • (select * from train where word like 'http://%') t

  • join urlWordUnique u on t.word=u.url

  • ) a group by a.cas,a.region,a.tweetid,a.userid,a.word;


Spracovanie tr ning test

Spracovanie – tréning/test

  • Trénovacia vzorka

    • select * from inWord where cas='00_2011' or cas='45_2010' or cas='46_2010' or cas='47_2010' or cas=b' or cas=b' or cas='50_2010‚or cas='51_2010' or cas='52_2010';

  • Testovacia vzorka

    • select * from inWord where cas='01_2011';


Spracovanie efektivita

Spracovanie – efektivita

  • set mapred.reduce.tasks=500;

    • insert overwrite table RecommendationLocal

    • SELECT ... FROM ... JOIN ... ON ...

    • GROUP BY ...

    • HAVING ...

    • ORDER BY ... desc;

  • Total MapReduce CPU Time Spent:

  • 4 days 0 hours 20 minutes 11 seconds 920 msec

  • Time taken: 5679.552 seconds


Spracovanie efektivita1

Spracovanie – efektivita

  • Riešenie: Filtrovanie

    • where relevance>0.3

    • where tfidf>0.01


Spracovanie valid cia

Spracovanie – validácia

  • Validácia

    • Získanie množiny odporúčaných linkov

      • select distinct userId,word from test where word like 'http://%';

    • Odporúčanie

      • Kosínusova podobnosť modelov a linkov

      • Zoradenie

      • Vybrať top n pre každý región

    • Precision [email protected], MRR


Aktu lny stav

Aktuálny stav

  • Dáta získané

  • Modely spravené

  • Spracovanie spravené

  • Overovanie spravené

    • Porovnanie s implementáciou Gao et al. 2011

      • efektívne


Aktu lny stav1

Aktuálny stav

  • Dáta získané

  • Modely spravené

  • Spracovanie spravené

  • Overovanie spravené

  • Dolaďovanie

    • Hive

    • Vybrať top n pre každý región


Zdroje

Zdroje

  • Abel, F., Gao, Q., Houben, G.J., and Tao, K: Analyzing User Modeling on Twitter for Personalized News Recommendations. User Modeling, Adaption and Personalization, (2011), 1–12 [citované november 2011]

  • Gao, Q., Abel, F., and Houben, G: Interweaving Trend and User Modeling for Personalized News Recommendation. Web Intelligence and Intelligent Agent Technology WIIAT 2011, (2011) [citované november 2011]

  • Hecht, B., Hong, L., Suh, B., and Chi, E.H.: Tweets from Justin Bieber ’ s Heart : The Dynamics of the “ Location ” Field in User Profiles. Electrical Engineering, (2011), 237-246 [citované december 2011]

  • http://www.webresourcesdepot.com/wp-content/uploads/image/world-map-svg.gif

  • http://rst.gsfc.nasa.gov/Intro/type-C-172.png

  • http://www.articlesweb.org/blog/wp-content/gallery/local-news-reflects-you/local-news-reflects-you-2.jpg

  • http://www.unmatchedstyle.com/wp-content/uploads/2010/11/user.jpg

  • http://blog.locomu.com/wp-content/uploads/2011/12/new-twitter-logo.png

  • http://www.wewillraakyou.com/wp-content/uploads/2010/09/twitterstreams-505x319.jpg

  • http://www.imgbase.info/images/safe-wallpapers/miscellaneous/1_other_wallpapers/14374_1_other_wallpapers_the_world.jpg

  • http://www.gettyicons.com/free-icons/124/web-2.0/png/256/twitter_256.png

  • http://aux.iconpedia.net/uploads/2106003206.png

  • http://www.wpclipart.com/computer/humour/debugging.png.html


  • Login