1 / 35

XRANK

XRANK. Ранжированный поиск ключевых слов в коллекциях XML. Структура доклада. Цель доклада X ML HTML vs XML XRANK DIL, RDIL, HDIL. Цель доклада. Получение упорядоченных по релевантности результатов информационного поиска в наборе XML-документов. XML ( eXtensible Markup Language).

siusan
Download Presentation

XRANK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. XRANK Ранжированный поиск ключевых слов в коллекциях XML

  2. Структура доклада • Цель доклада • XML • HTML vs XML • XRANK • DIL, RDIL, HDIL

  3. Цель доклада Получение упорядоченных по релевантности результатов информационного поиска в наборе XML-документов.

  4. XML (eXtensible Markup Language) • XML • <workshop date=”28 July 2000”> • <title> XML and IR: A SIGIR 2000 Workshop </title> • <editors> David Carmel, YoelleMaarek, AyaSoffer </editors> • <proceedings> • <paper id=”1”> • <title> XQL and Proximal Nodes </title> • <author> Ricardo Baeza-Yates </author> • <author> Gonzalo Navarro </author> • <body> • Info • <cite ref=”2”>Querying XML in Xyleme</cite> • <cite xlink=”../paper/xmlql/”>A Query … </cite> • </body> • </paper> • <paper id=”2”> • <title> Querying XML in Xyleme </title> • <body> bla... </body> • </paper> • </proceedings> • </workshop>

  5. XML

  6. HTML:

  7. XML:

  8. HTML и XML ● ищут целые документы ● ранжируют целые документы ● близость слов определяется положением в тексте ● ищут XML- элементы ● ранжируют XML- элементы ● близость слов определяется и положением в дереве

  9. Трудности с XML ● Как учесть структуру и ссылок, и самих XML-деревьев? ● Как считать близость слов запроса в разных XML-элементах?

  10. XRANK Решение – XRANK XRANK - обобщение с HTML на XMLпоиска на основе PageRank

  11. ПЛАН 1. Постановка задачи 2. ElemRank 3. Обработка запросов

  12. Постановка задачи ● Что имеем ● Что ищем ● Как ранжируем ● Архитектура XRANK

  13. Что имеем Набор XML-документов – граф G = (V, CE, HE) V – вершины: XML-элементы CE – дуги вложенности HE – дуги ссылок

  14. Что ищем R1 – множество XML-элементов, где каждый результат является наиболее глубоким предком элементов, содержащих все слова запроса.

  15. Критерии функции ранжирования Критерии: а) специфичность результатов б) близость ключевых слов в) учёт ссылок

  16. Как ранжируем Имеем: v1 in R, ElemRank(v) (~PageRank)

  17. Функция ранжирования для одного элемента Q = (k1, ..., kn) – запрос R– результаты поиска ki in Q, v1.contains*(ki), тогда есть (v1,v2), (v2,v3), ..., (vn-1, vn) из CE: vnнепосредственно содержит ki r(v1, ki) := ElemRank(vn) * q^(n-1)

  18. Если ключевых слов в элементе результата несколько kiin Q, v1.contains(ki) m раз тогда ř(v1, ki) := f(r1, ..., rm), где f = max или ∑

  19. Функция ранжированияp = 1 / размер_окна (мера близости слов)

  20. ElemRank ElemRank(v) – мера важности XML-элемента, вычисляемая на основе структуры гиперссылок

  21. Вычисление PageRank PageRank для HTML : d = 0.85 Nd – общее число документов Nh(u) – число ссылок из u

  22. Вычисление ElemRank Переход от HTML к XML: a) дуги из HE и CE разных весов b) дуги из CE двунаправлены c) ранг элемента зависит от рангов детей

  23. Вычисление ElemRank

  24. Вычисление ElemRank d1 – вероятность, что пришли в v по ссылке Nh(u) – число ссылок из элемента u d2 – вероятность, что пришли в v из родителя Nс(u) – число детей у элемента u d3 – вероятность, что пришли в v из потомка Nde – число предков v

  25. Архитектура XRANK

  26. Обработка запросов • Наивный подход • Dewey Inverted List • Ranked Dewey Inverted List • Hybrid Dewey Inverted List

  27. Наивная обработка запросов Обращаться с каждым XML-элементом как с отдельным документом: 1) надо много памяти 2) результаты поиска будут повторяться 3) не учитывается специфичность

  28. Dewey Inverted List (DIL)

  29. Dewey Inverted List (DIL)

  30. Dewey Inverted List (DIL) Основная идея: сливать списки, одновременно вычисляя самый длинный общий префикс Dewey ID в разных списках Недостатки: список ответов может оказаться очень длинным, а пользователю нужны только самые важные.

  31. Ranked Dewey Inverted List RDIL – DIL, отсортированный не по Dewey ID, а по ElemRank. Взамен храним B+ дерево по Dewey ID. Недостатки: если слова в запросе слабо коррелируют, возможно, придётся просмотреть все списки.

  32. Hybrid Dewey Inverted List Хранить: + (полный DIL+B+tree) + начало RDIL Начинать поиск с RDIL – если медленно идёт, переходить на DIL

  33. Результаты работы

  34. Вопросы?

More Related