Извлечение объектов из поисковых запросов
Download
1 / 24

?????????? ???????? ?? ????????? ???????? - PowerPoint PPT Presentation


  • 229 Views
  • Uploaded on

Извлечение объектов из поисковых запросов. Михаил Обухов, Михаил Долинин. Что такое объекты?. ООО « Мэйл.Ру ». Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д. Яхрома. 15-18 февраля 2012 г. ISBN: 978-1405187848. ГОСТ 2.001-93.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '?????????? ???????? ?? ????????? ????????' - fathi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
2845551

Извлечение объектов из поисковых запросов

Михаил Обухов,

Михаил Долинин


2845551
Что такое объекты? поисковых запросов

ООО «Мэйл.Ру»

  • Названия организаций

  • Имена людей

  • Названия должностей

  • Адреса

  • Названия программ

  • и т.д.

Яхрома

15-18 февраля 2012 г.

ISBN:978-1405187848

ГОСТ 2.001-93


2845551

детский поисковых запросовнафтизин инструкция

Справочники

Парсер запросов


2845551
Для чего нужны объекты? поисковых запросов

  • Классификация поисковых запросов

  • Вопросно-ответные задачи

  • Переформулировки

  • Индексация

  • Обогащение поисковых запросов


2845551
Задача поисковых запросов

Лог поисковых запросов

NEX*

Объекты

Парсинг запросов

Индексация

*NEX – Named Entity eXtraction


2845551
Какие решения существуют? поисковых запросов

  • Машинное обучение

    • Классификаторы (Naïve Bayes, ME Models, …)

    • Последовательные модели (HMM, CRF, …)

  • Системы основанные на правилах

    • Ручное составление

    • Автоматическое

  • Использование онтологий

    • Wikipedia, DbPedia

    • Imdb


2845551
Особенности поисковых запросов поисковых запросов

  • Малая длина (в среднем 3слова)

  • Слабая грамматическая структура

  • Не являются текстом на ЕЯ

  • Отражают потребности пользователей

Купить квартиру бесплатно

Е мобиль когда начнут продавать

Мать и сын

Кино где купить

История происхождения шотландских вислоухих


2845551
Основные предположения поисковых запросов

  • Объекты одного типа встречаются в одинаковых контекстах

  • Объект является самостоятельным поисковым запросом


2845551
Общая структура метода поисковых запросов

Фаза извлечения шаблонов

Лог запросов

Шаблоны

Seed

Лог запросов

Лог запросов

Фаза генерации объектов

Лог запросов

Фаза генерации объектов

Фаза извлечения объектов

Объекты


2845551
Фаза извлечения шаблонов поисковых запросов

Фаза извлеченияшаблонов

Лог запросов

Шаблоны

Seed

Лог запросов

Лог запросов

Фаза генерации объектов

Лог запросов

Фаза генерации объектов

Фаза извлечения объектов

Объекты


2845551
Фаза извлечения шаблонов поисковых запросов

  • Исходные данные:

    • Лог поисковых запросов

    • Начальный список шаблонов (1-2 шаблона)

  • Результат: список шаблонов с весами


2845551
Шаг 1:извлечение начальных объектов

  • Для каждого запроса из лога

    • Пробуем извлечь объект

    • Если получилось, сохраняем

  • Очистка извлеченных объектов

    • Не встречающихся как самостоятельный запрос

смотреть <название>

смотреть сериал <название>\d+ сезон \d+ серия онлайн бесплатно в хорошем качестве

Начальные шаблоны должны быть точными!


2845551
Шаг 2: извлечение кандидатов объектов

  • Для каждого начального объекта

    • Из каждого запроса, где он встречается

    • Создаем шаблон

смотреть сериал счастливы вместе онлайн серия 2

смотреть сериал <название>онлайн серия \d+


2845551
Шаг 3: Взвешивание кандидатов объектов

  • Рассчитываем вес для каждого кандидата

  • Удаляем кандидатов имеющих низкий вес

кол-во извлеченных начальных объектов

Полнота (кандидат) =

общее кол-во начальных объектов

кол-во извлеченных доверенных*объектов

Точность (кандидат) =

общее кол-во извлеченных объектов

*Доверенный – объект извлеченный N и более различными шаблонами


2845551

сериал объектов(.+) \d+ сезон смотреть онлайнбесплатно:0.95

сериал (.+) \d+ сезон \d+ серия смотреть онлайн:0.93

(.+) \d+ сезон смотреть онлайн:0.90

(.+)смотреть:0.07

скачать (.+):0.03


2845551
Фаза извлечения объектов объектов

Фаза извлечения шаблонов

Лог запросов

Шаблоны

Seed

Лог запросов

Лог запросов

Фаза генерации объектов

Лог запросов

Фаза генерации объектов

Фаза извлеченияобъектов

Объекты


2845551
Фаза извлечения объектов объектов

  • Исходные данные:

    • Лог поисковых запросов

    • Список шаблонов (полученный ранее)

  • Результат: список объектов с весами


2845551
Шаг 1: извлечение кандидатов объектов

  • Для каждого шаблона из списка

    • Сохраняем все объекты, которые он может извлечь

  • Очистка извлеченных объектов

    • Не встречающихся как самостоятельный запрос

    • Не частотные объекты

    • Содержащие слова из списка шаблонов


2845551
Шаг 2: Взвешивание объектов объектов

  • Рассчитываем вес для каждого объекта в списке

  • Удаляем объекты имеющие низкий вес

Log(сколько раз объект был извлечен)

Вес (объект) =

Log(кол-во уникальных запросов содержащих объект)


2845551
Метод оценки результата объектов

  • Точность первых N объектов (10, 50, 100 …)

  • Точность случайной выборки (100)


2845551
Результаты: объектов


2845551
Достоинства и недостатки объектов

  • Достоинства

    • Простая реализация

    • Масштабируемость

    • Хорошая точность

  • Недостатки

    • Требует ручного вмешательства (начальный список шаблонов)

    • Требует задания порогов


2845551

СПАСИБО! ВОПРОСЫ? объектов

Михаил Обуховobuhov@corp.mail.ru

Михаил Долинин

dolinin@corp.mail.ru


ad