330 likes | 567 Views
Анализ данных. Ранжирование и оценка информационного поиска. План. VSM для ранжирования Основные приемы ранжирования Оценка информационного поиска Основные цели: ознакомиться с некоторыми приемами ранжирования и оценки поиска. Вспомним VSM.
E N D
Анализ данных Ранжирование и оценка информационного поиска
План • VSM для ранжирования • Основные приемы ранжирования • Оценка информационного поиска Основные цели: ознакомиться с некоторыми приемами ранжирования и оценки поиска
Вспомним VSM Документ представлен в виде набора терминов и их значимости для этого документа
Сравнение двух VSM • Есть два векторных представления: • Запрос обычно содержит значительно меньше слов, чем документ
Косинусная мера сходства • Числитель – скалярное произведение векторов • Знаменатель – произведение евклидовых норм векторов
Базовый алгоритм ранжирования • Задача найти Kнаиболее релевантных документов и отсортировать их • Запрос q • Количество документоввсей коллекции N Создадим массив Счет: Счет[номер документа] = релевантность запросу По умолчанию релевантность запросу = 0
Базовый алгоритм ранжирования Для каждого термина t из q: • Вычислить wfтермина t • Извлечь инвертированный индекс t • Для каждой пары документа d и wf: • Обновить счет документа ( +=sim) • Для каждого документа: • Счет = счет / длина документа • Вернуть K документов из массива Счет * Перепишите себе, мы к этому будем часто обращаться
Базовый алгоритм ранжирования • Почему еще лучше убирать из запроса стоп-слова? • Зачем делить в шаге 4?
Приемы ранжирования • Сокращение индекса за счет порога idf • Чемпионский список • Статический ранг • Отсечение кластеров
Неточный поиск • Основная задача: найти K документов, которые вероятно являются наиболее релевантными • Нужно, чтобы сократить объем обрабатываемой информации • Важно, чтобы пользователь при этом остался доволен результатами
Сокращение индекса за счет порога idf Рассмотрим только документы с высоким idf • idf стоп-слов – мал (все документы / большой список) • Из запроса сразу можно убрать стоп-слова
Чемпионский список Определение для каждого термина r наиболее релевантных документов на этапе индексации • При сложном запросе результатом будет пересечение/объединение чемпионских списков • По сути это кеширование результатов
Статический ранг • Каждый сайт имеет параметр «авторитет» • Каждый документ независимо от его содержания, имеет ссылки на себя, которые повышают авторитет документа • Примеры: PR, тИЦ
Кратко о PageRank • Зависит от количества и качества ссылок на страницу • С – количество входящих ссылок • t – страницы, ссылающиеся на А • d – коэффициент нормировки (около 0.85 для GPR)
От чего зависит PageRank • Внутренние ссылки влияют на PR. • Ссылки с тематических сайтов влияют сильнее. • Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы. • Несколько одинаковых ссылок с одной страницы считаются за одну. • Сайт может быть забанен за ссылки на забаненные сайты.
Отсечение кластеров В коллекции обычно много похожих документов • Разделим случайно документы на ведущие(N) и ведомые(M) • Для каждого ведущего найдем среди ведомых наиболее близкие • Индекс сократился на M документов
Отсечение кластеров • Ищем документы по запросу q среди N • Ранжируем документы в подходящем кластере как обычно
Оценка поиска Нужна для: • численной оценки качества поиска • корректировки ранжирования • вычисления эффективности приемом
Правильность • Пробуем найти единую меру оценки поиска: • Данные несимметричны (релевантных меньше, чем нерелевантных) • Максимальная правильность = все документы нерелевантны
F-мера Баланс между точностью и полнотой: Среднее гармоническое взвешивание Можно добавить коэффициент, регулирующий важность P и R:
Свойства F-меры Те же свойства у среднего гармонического: • Возвращая все документы и вычисляя среднее арифметическое, можно добиться 50% правильности • Если 1 документ из 10000 является релевантным, то среднее гармоническое = 0.02% • Среднее гармоническое всегда меньше средних арифметического и геометрического
Оценка релевантности • Человеческий эксперт – лучший инструмент определения релевантности • Человеческие суждения о релевантности – субъективны и переменчивы • В конечном итоге важно удовлетворить потребности именно субъективных пользователей
Условия оценки релевантности • Эксперты корректируют результаты поиска (сами ищут только в случае неполноты) • Оцениваются кластеры • Каждая пара документ-запрос оценивается несколько раз
Оценка согласованности Применяется для определения достоверности оценки в условиях субъективного мнения экспертов • P(A) – доля совпавших оценок экспертов • P(E) – ожидаемая доля случайно совпавших оценок
Свойства каппа-статистики • Если эксперты всегда соглашаются, то K=1 • Если совпадают случайно, то K=0 • Отрицательная, если расхождений больше, чем это можно объяснить случайностью
Маргинальная статистика • В каппа-статистике доля случайных совпадений зависит от количества классов (для двух – 0.5) • Распределение классов асимметрично, поэтому используются статистики по определенному ответу эксперта
Пример вычислений Доля согласованных выводов: Маргинальные статистики:
Пример вычислений Вероятность того, что мнения экспертов совпали случайно: Каппа-статистика:
Свойства маргинальной релевантности • В отличии от релевантности рассматривает полезность документа после просмотра других. Документ с высокой релевантностью может оказаться вторичным. • Маргинальная статистика предъявляет требования к поисковым результатам: • новизна • разнообразие