1 / 15

HITS Hypertext induced topic search

HITS Hypertext induced topic search. Павле Бајић 2011/3398 bp113398m@student.etf.rs. Садржај. Увод Проблем Идеја Алгоритам Примена Недостаци Закључак Библиографија. Увод. Hypertext induced topic search Link analysis алгоритам Развијен 1998 . (у исто време PageRank)

kasi
Download Presentation

HITS Hypertext induced topic search

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HITSHypertext induced topic search Павле Бајић 2011/3398 bp113398m@student.etf.rs

  2. Садржај • Увод • Проблем • Идеја • Алгоритам • Примена • Недостаци • Закључак • Библиографија

  3. Увод • Hypertext induced topic search • Link analysis алгоритам • Развијен 1998. (у исто време PageRank) • Jon M. Kleinberg, Dept. of Computer Science, Cornell University • Рангирање страница на основу унетог критеријума претраге

  4. Увод • Друштвене мреже (social networks) • Дисциплина која проучава друштвене ентитете - Учесници и односи међу њима • Усмерени граф • Библиометрија • Квантитавна анализа научне и технолошке литературе • Радови А и Б цитирају К => А и Б су у неком односу • Рад К цитира А и Б => А и Б су у неком односу

  5. Проблем - куповина аутомобила • Који производ је најбољи? • Како одабрати онај који највише одговара? • Коме веровати при куповини?

  6. Идеја • Hubs – странице којима можемо даверујемо да указују на ‘праве’ странице • Authorities – страницe које садрже оно што нам треба • Свакој страници доделити две вредности • Hub value (h)– на колико других страница указује страница p(out-links) • Authorityvalue(a)– колико других страница указују на страницу p(in-links)

  7. Идеја

  8. Идеја • Претрага σ (text search)враћа резултате Q • Скуп Sσ од t≈ 200страница који се анализира треба да задовољи следеће премисе: • Sσје мали скуп • Sσје садржи релевантне странице • Sσ садржи већину најауторитарнијих страница

  9. Алгоритам • Претрага σ и дохватање резултата (Qσ) • Пронаћи корени скуп Rσ⊆ Qσ (типично 200 стр.) • Експандовање Rσдо базног скупа Sσ • Пронаћи d ≤ 50 страница које су улазне или излазне ∀p∈Rσ • Рачунање вредности сваке странице

  10. Алгоритам • Међусобна рекурзија ∀p∈ Sσa(p) = 1, h(p) = 1 a ( p ) = Σ h ( q) ← authority q → p (in-links) нормализација h ( p ) = Σ a ( q ) ← hub p → q(out-links) нормализација

  11. S := set of pages for each page p in S do p.auth = 1 // p.auth is the authority score of the page p p.hub = 1 // p.hub is the hub score of the page p function HubsAndAuthorities(S) for step from 1 to k do norm = 0 // update all authority values first for each page p in S do p.auth = 0 // p.incomingNeighbors is the set of pages that link to pfor each page q in p.incomingNeighborsdo p.auth += q.hub norm += square(p.auth) // calculate the sum of the squared auth values to normalize norm = sqrt(norm) // normalize the auth values for each page p in S do p.auth = p.auth / norm norm = 0 // then update all hub values for each page p in S do p.hub = 0 //p.outgoingNeighbors is the set of pages that p links to for each page r in p.outgoingNeighborsdo p.hub += r.auth norm += square(p.hub) // calculate the sum of the squared hub values to normalize norm = sqrt(norm) // normalize the hub values for each page p in S do p.hub = p.hub / norm Алгоритам - псеудокод

  12. Примена • Ask.com – купио Teoma претраживач • Clever – IBM претраживач, у развоју

  13. Недостаци • Зависи од критеријума претраге • Извршава се тек пошто се дохвате странице • Лако се спамује • Додавање out-link-ова у било коју страницуповећава како h вредност, тако и a вредност • Лутање у садржају • Странице проширеног скупа можда и нису у вези са оргиналном темом • Неефикасан??? • Операције проширења скупа ирачунања вредности a и h коштају

  14. Закључак • Како побољшати? • Избацити странице qiкоје су на истом доменукао страница p • Избацити страницу wиз експандованог скупаако се разликује по садржају од корених • Дати тежину страници на основу сличностиhref (anchor text) и саме претраге, а не 1

  15. Библиографија • J. Kleinberg, “Authoritative Sources in a hyperlinked environment”, Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, January 1998 • http://www.cs.uic.edu/~liub/teach/cs583-fall-07/cs583.html • Bing Liu, “Web data mining”, Springer 2007 • http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Lecture4/lecture4.html • http://en.wikipedia.org/wiki/HITS_algorithm • http://en.wikipedia.org/wiki/Bibliometrics

More Related