210 likes | 361 Views
Система TAGME. подготовил Сергей Рябов. Постановка задачи. Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести оценки её эффективности по сравнению с аналогичными системами. TAGME. Предварительная обработка Устранение многозначности
E N D
Система TAGME подготовил Сергей Рябов
Постановка задачи • Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME • Привести оценки её эффективности по сравнению с аналогичными системами
Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка
Предварительная обработка • Словарь анкеров (3M) • является ли токен анкером? • Каталог страниц (2.7M) • пары страница-набор анкеровиз ведущих на неё ссылок • Граф ссылок (147M)
Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка
Устранение многозначности • precision = |retrieved relevant| / |retrieved| • recall = |retrieved relevant| / |relevant|
Устранение многозначности • если для p Pg(a) выполняется Pr(p|a) < ,то это значение удаляется • при слишком больших , уменьшается precision • при слишком маленьких – скорость
Устранение многозначности • relatedness • подсчет «голосов» • commonness
Устранение многозначности • Disambiguation by Classifier (DC) • классификатор на основе relatedness и commonness выбирает одно значение • Disambiguation by Threshold (DT) • для каждого анкера aотбирается eзначений p с наилучшими показателями relatedness • из этих eзначений выбирается одно с максимальным показателем commonness
Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка
Удаление несущественных анкеров • link-probability анкера - lp(a) • coherence значения (смысла) a p с остальными уникальными значениями
Удаление несущественных анкеров • (a p) – итоговая оценка • либо среднее арифметическое • либо линейная комбинация • если выполняется (a p) < (NA), то аннотация удаляется
Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка
Milne & Witten • выделение контекста • мера связности страниц • когерентность страницы с контекстом
Chakrabarti • оценка аннотации a pдвумя методами - локальная и глобальная оценки • аннотирование – поиск такого соответствия анкеров и страниц, которое максимизирует суммарную оценку
Предварительная обработка • Устранение многозначности • Удаление несущественных анкеров • Обзор аналогичных работ • Оценка
Оценка • Wiki-Disamb30 • 1.4M коротких фрагментов, около 30 слов в каждом • 400K для обучения и 1M для тестов • Wiki-Annot30 • 150K фрагментов, в среднем по 10 анкеров • 50 K – обучение, 100K - тестирование
Оценка Производительность DT в зависимости от значений eи MC – Most Common (e = 100%) MR – Most Related(e = 0%) Производительность алгоритма устранения многозначности
Оценка Оценка производительности всей системы: аннотирование Оценка производительности всей системы: определение тем