1 / 37

Сычев А.В., Баженов М.М.

О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией. Сычев А.В., Баженов М.М. Проблема. Каталог vis поиск по индексу ?

niabi
Download Presentation

Сычев А.В., Баженов М.М.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией Сычев А.В., Баженов М.М.

  2. Проблема • Каталогvis поиск по индексу? • Пополнение каталога: вручную или автоматическое? • Где искатьи как искать новые ресурсы? • Какую информацию использовать: контент и/или связь между документами? RCDL 2007

  3. Подход • Учет связи между документами (анализ топологии локального веб-графа) • Ценность веб-ресурса проявляется в его авторитетности (входящие ссылки) или концентрированности (исходщие) ссылки • Не все гиперссылки являются “релевантными” • Поиск веб-сообществ. Согласуется с отдельными интуитивными представлениями о характере связности между релевантными ресурсами, но не является совершенным инструментом • Дополнительная проверка по контенту RCDL 2007

  4. Построение веб-графа RCDL 2007

  5. Построение веб-графа • Выбираются зерновые ресурсы (множество N0). • Строится список узлов, имеющих ссылки хотя бы на один из зерновых ресурсов (при помощи запросов к системе Yandex.XML) – множество N0‘. • Добавляются к полученному на этапе 2 списку зерновые ресурсы и проводится построение веб-графа до глубины 2 (т.е. максимальная длина кратчайшего пути в таком графе будет равна двум). • Кроме того, N1 – множество ресурсов, на которые ссылаются узлы множества (N0U N0‘), а - N2множество ресурсов, на которые ссылаются узлыиз N1. RCDL 2007

  6. Поиск компонент сильной связности (КСС) • Для разбиения веб-графа G(V,E) на связанные компоненты был использован алгоритм Тарьяна RCDL 2007

  7. Фильтрация • Фильтрация производилась на основе оценки качества документов из КСС • Из зерновых ресурсов выделялись ключевые слова, характеризующие их тематику, затем происходило объединение этих слов в список, представляющий собой тематику веб-сообщества в целом. Далее, ключевые слова каждого члена веб-сообщества сравнивались с ключевыми словами тематики, и по степени их соответствия делался вывод о принадлежности к тематике. • Значение параметра t в алгоритме (своего рода топ-рейтинг ключевых слов) стоит выбирать, руководствуясь законами Ципфа. • Принятие решения о смысловом соответствии словоформ при сравнении ключевых слов может быть реализовано различными способами – от простого посимвольного сравнения, до усовершенствованных вариантов метода TF*IDF. RCDL 2007

  8. Фильтрация RCDL 2007

  9. Исходные данные • Экперимент проводился на базе каталога Яндекс (http://yaca.yandex.ru). В качестве зерновых ресурсов использовались сайты разделов каталога • Учеба/Науки/Технические науки” • Учеба/Науки/Гуманитарныенауки/История/История России RCDL 2007

  10. Раздел “Учеба/Науки/Технические науки” • Авиация и космонавтика(A) • Высокие технологии(HT) • Вычислительная техникаи электроника(CHE) • Информатика, информационные системы(CSIS) • Прочее(O) • Универсальное(U) RCDL 2007

  11. Раздел“Учеба/Науки/Технические науки” RCDL 2007

  12. Раздел “Учеба/Науки/Гуманитарные науки/История/История России” • Археология (Arc), • Военнаяистория (WH), • Генеалогия (G), • Древниймир (Anc), • Новая и новейшая история (N), • Прочее (O), • Средние века (M), • Универсальное (U), • Этнография и история народов(E) RCDL 2007

  13. Раздел“Учеба/Науки/Гуманитарные науки/История/История России ” RCDL 2007

  14. Кэширование документов • Для хранения скачанных документов и последующих экспериментов с ними на жестком диске был организован кэш, содержащий папки (соответствующие именам доменов) и сами документы (внутри папок-доменов). RCDL 2007

  15. Характеристики веб-графов • Учеба/Науки/Технические науки (без использования прореживания гиперссылок) RCDL 2007

  16. Характеристики веб-графов • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2) RCDL 2007

  17. Характеристики веб-графов • “Учеба/Науки/Гуманитарные науки/История/История России” (с параметром прореживания, равным 2) RCDL 2007

  18. Пересечения рубрик по вх. ссылкам • Учеба/Науки/Технические науки RCDL 2007

  19. Пересечения рубрик по вершинам веб-графа • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2) RCDL 2007

  20. Распределение вх. гиперссылок по зернам в рубриках RCDL 2007

  21. Схема эксперимента RCDL 2007

  22. Результаты по подрубрике “Учеба/Науки/Технические науки” RCDL 2007

  23. Результаты по подрубрике “Учеба/Науки/Технические науки” Распределение оценки качества для узлов КСС (для подрубрики каталога “Учеба/Науки/Технические науки”) RCDL 2007

  24. Выбор зерновых ресурсов Исследовалась зависимость результата идентификации веб-сообществ (с последующей оценкой качества) от: • выбора единственного зернового ресурса из рубрики (веб-граф строился на основе одноэлементного зернового множества) – схема Singles; • размера зернового множества (наращивание множества происходило за счет инкрементного добавления зерен в порядке убывания их ранга r) - схема Reduced. RCDL 2007

  25. Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles) RCDL 2007

  26. Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles) Параметры: • InL - ранг зерна • N(G) - количество узлов в построенном модулем WebCrawler веб-графе G • N(DG) - количество узлов веб-графе после доменного укрупнения (DG) • E(G) - количество ребер в веб-графе G • E(DG) - количество ребер в веб-графе DG • MQ - среднее качество членов КСС (исключая зерновые) • W - удельный размер КСС (вес) Наибольшую оценку получили зерна: • http://www.virste.ru (НТП ВИРАЖ-ЦЕНТР - издатель научно-технических журналов), • http://www.techbook.ru (Горячая линия-Телеком) • http://www.bsuproduct.by (БГУ - Научно-Техническая Продукция) RCDL 2007

  27. Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced) RCDL 2007

  28. Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced) Зависимость результата выявления веб-сообществ из веб-графа от количества выбранных зерен (для рубрики каталога “Учеба/Науки/Технические науки/Универсальное”) RCDL 2007

  29. Экспертная оценка • Расчет показателей полноты и точности при автоматической фильтрации основывался на экспертной оценке релевантности элементов данной КСС по отношению к тематике рубрики. Использовалась шкала: 1 – “да”, 0.66 – “скорее да”, 0.33 - “скорее нет”, 0 - “нет”. Порог релевантности Пр был равен 0.5 RCDL 2007

  30. Прореживание • Как показали эксперименты, существенную часть построенного модулем WebCrawler веб-графа G составляют узлы, используемые для навигации внутри домена и другие малорелевантные для тематики ресурсы. И хотя значительная их часть удаляется после работы модуля DomainGraph (результат – доменный граф DG), приходится затрачивать существенную часть машинных ресурсов на их обработку на этапе построения веб-графа Gмодулем WebCrawler. • Прореживание: • Из каждой страницы берётся только lim_num + ln (реальное количество ссылок) ссылок из одного домена • Ссылки выбираются случайно и равновероятно RCDL 2007

  31. Прореживание Зависимость времени обработки tдокумента dот размера графа |V| RCDL 2007

  32. Прореживание RCDL 2007

  33. Прореживание RCDL 2007

  34. Направления дальнейшего исследования • Исследование большего числа рубрик • Разработка подхода к оценке полноты и точности всей методики в целом • Возможно: исследование других веб-каталогов • Отдельное направление: оценка веб-ресурсов на основе исследования корреляции между рубриками веб-каталога RCDL 2007

  35. Благодарности Компании Яндекс за грантовую и техническую поддержку RCDL 2007

  36. Вопросы RCDL 2007

  37. Спасибо за внимание! sav@cs.vsu.ru RCDL 2007

More Related