370 likes | 530 Views
О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией. Сычев А.В., Баженов М.М. Проблема. Каталог vis поиск по индексу ?
E N D
О проблеме выбора зерновых ресурсов в задаче автоматического пополнения каталога веб-ресурсов на основе выявления компонент сильной связности с последующей контентной фильтрацией Сычев А.В., Баженов М.М.
Проблема • Каталогvis поиск по индексу? • Пополнение каталога: вручную или автоматическое? • Где искатьи как искать новые ресурсы? • Какую информацию использовать: контент и/или связь между документами? RCDL 2007
Подход • Учет связи между документами (анализ топологии локального веб-графа) • Ценность веб-ресурса проявляется в его авторитетности (входящие ссылки) или концентрированности (исходщие) ссылки • Не все гиперссылки являются “релевантными” • Поиск веб-сообществ. Согласуется с отдельными интуитивными представлениями о характере связности между релевантными ресурсами, но не является совершенным инструментом • Дополнительная проверка по контенту RCDL 2007
Построение веб-графа RCDL 2007
Построение веб-графа • Выбираются зерновые ресурсы (множество N0). • Строится список узлов, имеющих ссылки хотя бы на один из зерновых ресурсов (при помощи запросов к системе Yandex.XML) – множество N0‘. • Добавляются к полученному на этапе 2 списку зерновые ресурсы и проводится построение веб-графа до глубины 2 (т.е. максимальная длина кратчайшего пути в таком графе будет равна двум). • Кроме того, N1 – множество ресурсов, на которые ссылаются узлы множества (N0U N0‘), а - N2множество ресурсов, на которые ссылаются узлыиз N1. RCDL 2007
Поиск компонент сильной связности (КСС) • Для разбиения веб-графа G(V,E) на связанные компоненты был использован алгоритм Тарьяна RCDL 2007
Фильтрация • Фильтрация производилась на основе оценки качества документов из КСС • Из зерновых ресурсов выделялись ключевые слова, характеризующие их тематику, затем происходило объединение этих слов в список, представляющий собой тематику веб-сообщества в целом. Далее, ключевые слова каждого члена веб-сообщества сравнивались с ключевыми словами тематики, и по степени их соответствия делался вывод о принадлежности к тематике. • Значение параметра t в алгоритме (своего рода топ-рейтинг ключевых слов) стоит выбирать, руководствуясь законами Ципфа. • Принятие решения о смысловом соответствии словоформ при сравнении ключевых слов может быть реализовано различными способами – от простого посимвольного сравнения, до усовершенствованных вариантов метода TF*IDF. RCDL 2007
Фильтрация RCDL 2007
Исходные данные • Экперимент проводился на базе каталога Яндекс (http://yaca.yandex.ru). В качестве зерновых ресурсов использовались сайты разделов каталога • Учеба/Науки/Технические науки” • Учеба/Науки/Гуманитарныенауки/История/История России RCDL 2007
Раздел “Учеба/Науки/Технические науки” • Авиация и космонавтика(A) • Высокие технологии(HT) • Вычислительная техникаи электроника(CHE) • Информатика, информационные системы(CSIS) • Прочее(O) • Универсальное(U) RCDL 2007
Раздел“Учеба/Науки/Технические науки” RCDL 2007
Раздел “Учеба/Науки/Гуманитарные науки/История/История России” • Археология (Arc), • Военнаяистория (WH), • Генеалогия (G), • Древниймир (Anc), • Новая и новейшая история (N), • Прочее (O), • Средние века (M), • Универсальное (U), • Этнография и история народов(E) RCDL 2007
Раздел“Учеба/Науки/Гуманитарные науки/История/История России ” RCDL 2007
Кэширование документов • Для хранения скачанных документов и последующих экспериментов с ними на жестком диске был организован кэш, содержащий папки (соответствующие именам доменов) и сами документы (внутри папок-доменов). RCDL 2007
Характеристики веб-графов • Учеба/Науки/Технические науки (без использования прореживания гиперссылок) RCDL 2007
Характеристики веб-графов • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2) RCDL 2007
Характеристики веб-графов • “Учеба/Науки/Гуманитарные науки/История/История России” (с параметром прореживания, равным 2) RCDL 2007
Пересечения рубрик по вх. ссылкам • Учеба/Науки/Технические науки RCDL 2007
Пересечения рубрик по вершинам веб-графа • “Учеба/Науки/Технические науки” (с параметром прореживания, равным 2) RCDL 2007
Распределение вх. гиперссылок по зернам в рубриках RCDL 2007
Схема эксперимента RCDL 2007
Результаты по подрубрике “Учеба/Науки/Технические науки” RCDL 2007
Результаты по подрубрике “Учеба/Науки/Технические науки” Распределение оценки качества для узлов КСС (для подрубрики каталога “Учеба/Науки/Технические науки”) RCDL 2007
Выбор зерновых ресурсов Исследовалась зависимость результата идентификации веб-сообществ (с последующей оценкой качества) от: • выбора единственного зернового ресурса из рубрики (веб-граф строился на основе одноэлементного зернового множества) – схема Singles; • размера зернового множества (наращивание множества происходило за счет инкрементного добавления зерен в порядке убывания их ранга r) - схема Reduced. RCDL 2007
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles) RCDL 2007
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки”(схема Singles) Параметры: • InL - ранг зерна • N(G) - количество узлов в построенном модулем WebCrawler веб-графе G • N(DG) - количество узлов веб-графе после доменного укрупнения (DG) • E(G) - количество ребер в веб-графе G • E(DG) - количество ребер в веб-графе DG • MQ - среднее качество членов КСС (исключая зерновые) • W - удельный размер КСС (вес) Наибольшую оценку получили зерна: • http://www.virste.ru (НТП ВИРАЖ-ЦЕНТР - издатель научно-технических журналов), • http://www.techbook.ru (Горячая линия-Телеком) • http://www.bsuproduct.by (БГУ - Научно-Техническая Продукция) RCDL 2007
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced) RCDL 2007
Результат для рубрики Universal из подрубрики “Учеба/Науки/Технические науки” (схема Reduced) Зависимость результата выявления веб-сообществ из веб-графа от количества выбранных зерен (для рубрики каталога “Учеба/Науки/Технические науки/Универсальное”) RCDL 2007
Экспертная оценка • Расчет показателей полноты и точности при автоматической фильтрации основывался на экспертной оценке релевантности элементов данной КСС по отношению к тематике рубрики. Использовалась шкала: 1 – “да”, 0.66 – “скорее да”, 0.33 - “скорее нет”, 0 - “нет”. Порог релевантности Пр был равен 0.5 RCDL 2007
Прореживание • Как показали эксперименты, существенную часть построенного модулем WebCrawler веб-графа G составляют узлы, используемые для навигации внутри домена и другие малорелевантные для тематики ресурсы. И хотя значительная их часть удаляется после работы модуля DomainGraph (результат – доменный граф DG), приходится затрачивать существенную часть машинных ресурсов на их обработку на этапе построения веб-графа Gмодулем WebCrawler. • Прореживание: • Из каждой страницы берётся только lim_num + ln (реальное количество ссылок) ссылок из одного домена • Ссылки выбираются случайно и равновероятно RCDL 2007
Прореживание Зависимость времени обработки tдокумента dот размера графа |V| RCDL 2007
Прореживание RCDL 2007
Прореживание RCDL 2007
Направления дальнейшего исследования • Исследование большего числа рубрик • Разработка подхода к оценке полноты и точности всей методики в целом • Возможно: исследование других веб-каталогов • Отдельное направление: оценка веб-ресурсов на основе исследования корреляции между рубриками веб-каталога RCDL 2007
Благодарности Компании Яндекс за грантовую и техническую поддержку RCDL 2007
Вопросы RCDL 2007
Спасибо за внимание! sav@cs.vsu.ru RCDL 2007