1 / 34

Personalizované odporúčanie zaujímavých textov

Personalizované odporúčanie zaujímavých textov. Michal Kompan kompan05@studen.fiit.stuba.sk vedúca: prof. Mária Bieliková. Nárast počtu slov, obrázkov, reklám, tabuliek, odkazov na webových stránkach (2x oproti r2003) Zahltenie používateľov informáciami

jersey
Download Presentation

Personalizované odporúčanie zaujímavých textov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Personalizované odporúčanie zaujímavých textov Michal Kompan kompan05@studen.fiit.stuba.sk vedúca: prof. Mária Bieliková

  2. Nárast počtu slov, obrázkov, reklám, tabuliek, odkazov na webových stránkach (2x oproti r2003) • Zahltenie používateľov informáciami • Kvalita portálov meraná množstvom pridaných informácií

  3. Používatelia vs. Portály • Používatelia: • Používateľ strávi na spravodajskom portáli cca 16 minút denne (2 návštevy) • Množstvo pridávaných článkov – navigácia • Portály: • Čo najvyššia návštevnosť • Personalizované odporúčanie

  4. Personalizované odporúčanie • Odporúčanie založené na obsahu • Podobnosť obsahu • Kolaboratívne odporúčanie • Odporúčanie nenavštíveného obsahu hodnoteného pozitívne skupinou • Zmiešané metódy

  5. Doména spravodajských portálov • Dynamicky sa meniace informácie • Stovky pridávaných článkov denne • Rýchla degradácia hodnoty informácie • Texty (150-300 slov), fotografie, videá

  6. Existujúce systémy • OTS (Chen, 2001) • Pure (Yoneta, 2007) • NewsMe (Brusilovsky, 2007) • NewsBrief (EC)

  7. SME.SK • Najväčší spravodajský portál SK • Denne pridaných cca 250+ článkov • Priemerný počet návštev 353 252 (cookie) • Projekt SMEFiiT

  8. Navrhnutý prístup

  9. Metóda zisťovania podobnosti • Odporúčanie založené na obsahu – nutnosť zistiť podobné články • Extrakcia dát • Predspracovanie článkov • Reprezentácia článkov • Zistenie podobnosti

  10. Reprezentácia článkov 1 • Vektorová reprezentácia

  11. Reprezentácia článkov 2 • Názov článku • Váha na základe TF (počet výskytu slov) • TF slov z názvu v obsahu • Nekorešpondujúce nadpisy • Váha slov z nadpisu ako TF v obsahu

  12. Reprezentácia článkov 3 • Kategórie • Hierarchia • Váhy vypočítané na základe „hĺbky stromu“

  13. Reprezentácia článkov 4 • Mená,Názvy • Osoby, lokácie, organizácie... • Kľúčové slová • N najrelevantnejších kľúčových slov • Index čitateľnosti • CLI

  14. Výpočet podobnosti • Definícia podobnosti – využitie váh • Kosínusová podobnosť • Jaccard index

  15. Metóda personalizovaného odporúčania 1 • Vstup • Zoznam podobných článkov • Aktivita používateľa (článok, čas, identifikátor) • Výstup • Zoznam N odporúčaných článkov pre používateľa (identifikátor)

  16. Metóda personalizovaného odporúčania 2

  17. SME.SK – realizácia metódy 1

  18. Realizácia metódy - predspracovanie • Jazykovo závislé • Lexikálna analýza • Stop slová • Cca 300 slov, TF-IDF • Lematizácia • Lematizátor JULS

  19. Realizácia metódy - reprezentácia • Mená a názvy • Začiatočné veľké písmeno pred ktorým nie je ukončená veta (precision = 0.934, recall = 0.863) • Kľúčové slová • TF-IDF + slovník JULS - podstatné mená

  20. Realizácia metódy - podobnosť • Jaccard Index , Kosínusová podobnosť • Nový článok sa porovná s oknom 10 000 článkov • Nájdeme max. 10 najpodobnejších článkov • Spätne týmto 10 článkom upravíme zoznamy podobných

  21. Realizácia metódy – model používateľa • Identifikátor používateľa – cookie • Zoznam navštívených článkov za časové obdobie • Implicitná spätná väzba • Na strane servera

  22. Realizácia metódy

  23. Realizácia metódy

  24. Realizácia metódy

  25. Realizácia metódy

  26. Overenie riešenia 1 • Testovacie dáta • Overenie podobnosti • Manuálne ohodnotená podobnosť (vzorka 100 článkov) – 5 stupňov • Dátová vzorka REUTERS • Podobné články označené autormi • Overenie odporúčania • 5.3 - 8.3 (cca 500 000 kliknutí) • 47 000 článkov

  27. Overenie riešenia 2 • Podobnosť • Zrýchlenie 2.46x (kosínusová pod.), 2x (jaccard index)

  28. Overenie riešenia 3 • Štandardná odchýlka 1,207 • Reprezentácia • 4x lepšie výsledky ako len názov • 1,4x lepšie výsledky ako len kľúčové slová • Kategória vylepšila výsledky 1,15x

  29. Overenie riešenia 4 • Odporúčanie • Syntetické testy (3 dni)

  30. Overenie riešenia 5

  31. Overenie riešenia 6 • Pridanie článku – cca. 0,9s (10 000 článkov) • Predspracovanie – cca 10 min (10 000 článkov)

  32. Titler • Úsporná reprezentácia obsahu • Metóda personalizovaného odporúčania v reálnom čase • Využite váh umožňuje „predefinovať“ podobnosť • Prezentácia výsledkov

  33. Váhy • „Slepý algoritmus“ • Fitnes – presnosť, pokrytie – F1 • Jeden výpočet cca 15s • 6 váh – optimálne riešenie „raz“ dostaneme • Nutnosť obmedziť hodnotu váh (0,01-10) – cca 17h

More Related