keyword extraction based on implicit feedback n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Keyword Extraction Based on Implicit Feedback PowerPoint Presentation
Download Presentation
Keyword Extraction Based on Implicit Feedback

Loading in 2 Seconds...

play fullscreen
1 / 12
oprah-cline

Keyword Extraction Based on Implicit Feedback - PowerPoint PPT Presentation

94 Views
Download Presentation
Keyword Extraction Based on Implicit Feedback
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Keyword Extraction Based on Implicit Feedback Jakub Kříž Vedúci práce: Ing. Tomáš Kramár

  2. Implicitná spätná väzba • Všetko, čo používateľ robí počas prezerania stránky • Čo vieme zachytiť v prehliadači • Čas strávený na stránke • Poloha stránky v prehliadači • Poloha a pohyb a klikanie myši • Vstup z klávesnice

  3. Využitie implicitnej spätnej väzby • Zistiť, či dokument používateľa zaujal • Zistiť, ktoré časti dokumentu používateľa naozaj zaujali • Na základe týchto dát, presnejšia extrakcia metadát z dokumentu, konkrétne kľúčových slov, pre zlepšenie modelu používateľa

  4. Zbieranie spätnej väzby • Stránku rozdelíme na elementy podľa jej HTML štruktúry • Najčastejšie odstavce • Snažíme sa zistiť záujem o jednotlivé elementy ako aj o celú stránku • Záujem o element stránky detekujeme pomocou tzv. indikátorov záujmu

  5. Indikátory záujmu • Lokálne: • Kopírovanie textu • Výber textu • Klikanie na text • „Sledovanie textu“ • Vzdialenosť elementu od pohybujúceho sa kurzora • Vzdialenosť elementu od statického kurzora • Čas strávený na obrazovke • Globálne: • Uloženie si, bookmarkovanie alebo vytlačenie stránky • Čas strávený scrollovaním • Písanie do formulára

  6. Indikátory záujmu • Kopírovanie a výber textu sú najpresnejšie • Je možné ich použiť priamo na extrakciu textu • Obmedzené dĺžkou označenia a frekvenciou • Niektoré závisia od konkrétneho používateľa • Napr. vzdialenosť elementu od pohybujúceho sa kurzora - pri aktívnejšom používateľovi má vyššiu váhu

  7. Spracovanie indikátorov • Hodnotenie každého elementu je na začiatku nulové • Pri detekcii indikátora pripočítame skóre elementu, pre ktorý bol zachytený • Výsledné skóre elementu bude: • Výsledné skóre stránky bude súčet skóre elementov

  8. Detekcia neaktivity používateľa • V prípade, že sa istú dobu nevyskytne žiadny vstup z klávesnice alebo myši • Doba závisí od konkrétneho používateľa • Prestaneme detekovať indikátory a pripočítavať skóre

  9. Využitie spätnej väzby • Extrahovanie slov priamo z textu • Pri zachytení dvoch najsilnejších indikátorov – kopírovanie a výber textu • Kombinácia zaužívanej metódy tf-idf s nadobudnutou spätnou väzbou • Extrakcia slov pomocou tf-idf z ohodnotených elementov pre lepšie ohodnotenie kľúčových slov

  10. Implementácia • JavaScript súbor, ktorý môže byť pridaný do ľubovoľnej stránky • Realizácia na PeWe proxy

  11. Experiment • Predbežné testovanie priamej extrakcie kľúčových slov • Používatelia hodnotili kľúčové slová extrahované z textu • Kopírovanie a výber textu vyzerajú ako vhodné indikátory pre tento účel

  12. Zhrnutie • Za pomoci implicitných indikátorov záujmu hodnotenie častí textu dokumentu • Extrakcia kľúčových slov • Metódou tf-idf na základe hodnotenia častí textu • Priamo z textu pri zachytení najpresnejších indikátorov • Otázky?