slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Сычев А.В., Баженов М.М. PowerPoint Presentation
Download Presentation
Сычев А.В., Баженов М.М.

Loading in 2 Seconds...

play fullscreen
1 / 37

Сычев А.В., Баженов М.М. - PowerPoint PPT Presentation


  • 142 Views
  • Uploaded on

О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией. Сычев А.В., Баженов М.М. Проблема. Каталог vis поиск по индексу ?

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Сычев А.В., Баженов М.М.' - niabi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией

Сычев А.В., Баженов М.М.

slide2
Проблема
  • Каталогvis поиск по индексу?
  • Пополнение каталога: вручную или автоматическое?
  • Где искатьи как искать новые ресурсы?
  • Какую информацию использовать: контент и/или связь между документами?

RCDL 2007

slide3
Подход
  • Учет связи между документами (анализ топологии локального веб-графа)
  • Ценность веб-ресурса проявляется в его авторитетности (входящие ссылки) или концентрированности (исходщие) ссылки
  • Не все гиперссылки являются “релевантными”
  • Поиск веб-сообществ. Согласуется с отдельными интуитивными представлениями о характере связности между релевантными ресурсами, но не является совершенным инструментом
  • Дополнительная проверка по контенту

RCDL 2007

slide5
Построение веб-графа
  • Выбираются зерновые ресурсы (множество N0).
  • Строится список узлов, имеющих ссылки хотя бы на один из зерновых ресурсов (при помощи запросов к системе Yandex.XML) – множество N0‘.
  • Добавляются к полученному на этапе 2 списку зерновые ресурсы и проводится построение веб-графа до глубины 2 (т.е. максимальная длина кратчайшего пути в таком графе будет равна двум).
  • Кроме того, N1 – множество ресурсов, на которые ссылаются узлы множества (N0U N0‘), а - N2множество ресурсов, на которые ссылаются узлыиз N1.

RCDL 2007

slide6
Поиск компонент сильной связности (КСС)
  • Для разбиения веб-графа G(V,E) на связанные компоненты был использован алгоритм Тарьяна

RCDL 2007

slide7
Фильтрация
  • Фильтрация производилась на основе оценки качества документов из КСС
  • Из зерновых ресурсов выделялись ключевые слова, характеризующие их тематику, затем происходило объединение этих слов в список, представляющий собой тематику веб-сообщества в целом. Далее, ключевые слова каждого члена веб-сообщества сравнивались с ключевыми словами тематики, и по степени их соответствия делался вывод о принадлежности к тематике.
  • Значение параметра t в алгоритме (своего рода топ-рейтинг ключевых слов) стоит выбирать, руководствуясь законами Ципфа.
  • Принятие решения о смысловом соответствии словоформ при сравнении ключевых слов может быть реализовано различными способами – от простого посимвольного сравнения, до усовершенствованных вариантов метода TF*IDF.

RCDL 2007

slide9
Исходные данные
  • Экперимент проводился на базе каталога Яндекс (http://yaca.yandex.ru). В качестве зерновых ресурсов использовались сайты разделов каталога
    • Учеба/Науки/Технические науки”
    • Учеба/Науки/Гуманитарныенауки/История/История России

RCDL 2007

slide10
Раздел “Учеба/Науки/Технические науки”
  • Авиация и космонавтика(A)
  • Высокие технологии(HT)
  • Вычислительная техникаи электроника(CHE)
  • Информатика, информационные системы(CSIS)
  • Прочее(O)
  • Универсальное(U)

RCDL 2007

slide12
Раздел “Учеба/Науки/Гуманитарные науки/История/История России”
  • Археология (Arc),
  • Военнаяистория (WH),
  • Генеалогия (G),
  • Древниймир (Anc),
  • Новая и новейшая история (N),
  • Прочее (O),
  • Средние века (M),
  • Универсальное (U),
  • Этнография и история народов(E)

RCDL 2007

slide13
Раздел“Учеба/Науки/Гуманитарные науки/История/История России ”

RCDL 2007

slide14
Кэширование документов
  • Для хранения скачанных документов и последующих экспериментов с ними на жестком диске был организован кэш, содержащий папки (соответствующие именам доменов) и сами документы (внутри папок-доменов).

RCDL 2007

slide15
Характеристики веб-графов
  • Учеба/Науки/Технические науки (без использования прореживания гиперссылок)

RCDL 2007

slide16
Характеристики веб-графов
  • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2)

RCDL 2007

slide17
Характеристики веб-графов
  • “Учеба/Науки/Гуманитарные науки/История/История России” (с параметром прореживания, равным 2)

RCDL 2007

slide18
Пересечения рубрик по вх. ссылкам
  • Учеба/Науки/Технические науки

RCDL 2007

slide19
Пересечения рубрик по вершинам веб-графа
  • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2)

RCDL 2007

slide20
Распределение вх. гиперссылок по зернам в рубриках

RCDL 2007

slide22
Результаты по подрубрике “Учеба/Науки/Технические науки”

RCDL 2007

slide23
Результаты по подрубрике “Учеба/Науки/Технические науки”

Распределение оценки качества для узлов КСС (для подрубрики каталога “Учеба/Науки/Технические науки”)

RCDL 2007

slide24
Выбор зерновых ресурсов

Исследовалась зависимость результата идентификации веб-сообществ (с последующей оценкой качества) от:

  • выбора единственного зернового ресурса из рубрики (веб-граф строился на основе одноэлементного зернового множества) – схема Singles;
  • размера зернового множества (наращивание множества происходило за счет инкрементного добавления зерен в порядке убывания их ранга r) - схема Reduced.

RCDL 2007

universal singles
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles)

RCDL 2007

universal singles1
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles)

Параметры:

    • InL - ранг зерна
    • N(G) - количество узлов в построенном модулем WebCrawler веб-графе G
    • N(DG) - количество узлов веб-графе после доменного укрупнения (DG)
    • E(G) - количество ребер в веб-графе G
    • E(DG) - количество ребер в веб-графе DG
    • MQ - среднее качество членов КСС (исключая зерновые)
    • W - удельный размер КСС (вес)

Наибольшую оценку получили зерна:

  • http://www.virste.ru (НТП ВИРАЖ-ЦЕНТР - издатель научно-технических журналов),
  • http://www.techbook.ru (Горячая линия-Телеком)
  • http://www.bsuproduct.by (БГУ - Научно-Техническая Продукция)

RCDL 2007

universal reduced
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced)

RCDL 2007

slide28

Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced)

Зависимость результата выявления веб-сообществ из веб-графа от количества выбранных зерен (для рубрики каталога “Учеба/Науки/Технические науки/Универсальное”)

RCDL 2007

slide29
Экспертная оценка
  • Расчет показателей полноты и точности при автоматической фильтрации основывался на экспертной оценке релевантности элементов данной КСС по отношению к тематике рубрики. Использовалась шкала: 1 – “да”, 0.66 – “скорее да”, 0.33 - “скорее нет”, 0 - “нет”. Порог релевантности Пр был равен 0.5

RCDL 2007

slide30
Прореживание
  • Как показали эксперименты, существенную часть построенного модулем WebCrawler веб-графа G составляют узлы, используемые для навигации внутри домена и другие малорелевантные для тематики ресурсы. И хотя значительная их часть удаляется после работы модуля DomainGraph (результат – доменный граф DG), приходится затрачивать существенную часть машинных ресурсов на их обработку на этапе построения веб-графа Gмодулем WebCrawler.
  • Прореживание:
    • Из каждой страницы берётся только lim_num + ln (реальное количество ссылок) ссылок из одного домена
    • Ссылки выбираются случайно и равновероятно

RCDL 2007

slide31
Прореживание

Зависимость времени обработки tдокумента dот размера графа |V|

RCDL 2007

slide34
Направления дальнейшего исследования
  • Исследование большего числа рубрик
  • Разработка подхода к оценке полноты и точности всей методики в целом
  • Возможно: исследование других веб-каталогов
  • Отдельное направление: оценка веб-ресурсов на основе исследования корреляции между рубриками веб-каталога

RCDL 2007

slide35
Благодарности

Компании Яндекс

за грантовую и техническую поддержку

RCDL 2007