1 / 11

Особенности регионального ранжирования Яндекса. Украинская формула

Особенности регионального ранжирования Яндекса. Украинская формула. Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики. ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ. Обучающие данные Набор запросов q ( i ) Набор документов d j ( i ) для каждого запроса q ( i )

santo
Download Presentation

Особенности регионального ранжирования Яндекса. Украинская формула

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики

  2. ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ Обучающие данные Набор запросов q(i) Набор документов dj(i)для каждого запроса q(i) Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)

  3. ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f1(q,d) , …, fN(q,d)) Конкурс «Интернет-математика – 2009»: N=245 «Яндекс на РОМИП’2009»: N=163 (коллекция BY.WEB); N=69 (коллекция KM.RU, без ссылочных факторов)

  4. ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные • длина документа в словах; • язык запроса. Текстовые • наличие точного вхождения запроса в тексте документа; • наличие точного вхождения запроса в заголовке документа; • tf*idf; • различные модификации формулы Okapi_BM25.

  5. ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные • PageRank; • логарифм количества ссылок на документ; • процент ссылок на документ, содержащих точное вхождение запроса. Географические • регион сайта; • язык документа.

  6. ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d),…,fN(q,d)) Построение функции релевантности с помощью генетических алгоритмов: 1. Выбор метрики («Яндекс на РОМИП’2009»: pfound – максимизация вероятности найти релевантный результат) 2. Подбор вида функции («Яндекс на РОМИП’2009»: полином∑aIf1i1f2i2… fNiN) 3. Подбор коэффициентов

  7. СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА Обучающий алгоритм Определение значений факторов F(q(i), dj(i)) Обучающие данные (q(i), dj(i)), i=1,…,n; j=1,…m(n). Rel(q(i), dj(i)) Асессоры Fr(F(q,d)) Тестовые данные (q, dj), j=1,…,m Определение значений факторов F(q, dj) Ранжирующий алгоритм Fr(F(q, dj))

  8. РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: • 19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и др. • Общероссийская • Украина • Белоруссия • Казахстан Отличаться могут не только коэффициенты, но и сам вид функций!

  9. ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ Постановка эксперимента Выбор исследуемого фактора Генерация тестовых коллекций • Варьирование исследуемого фактора • Фиксация остальных факторов Индексация тестовых коллекций Анализ результатов Принятие решения о характере влияния исследуемого фактора на функцию релевантности

  10. УКРАИНСКАЯ ФОРМУЛА Фактор: Количество употреблений термина запроса (tf) Характер зависимости: Прямая Фактор: Длина документа в словах Характер зависимости: Обратная Фактор: Количество употреблений самого частотного термина Характер зависимости: Обратная

  11. Спасибо за внимание! Пожалуйста, задавайте вопросы Для продолжения темы посетите Корпорация РБС 115191, Россия, Москва, ул. Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза» Телефон: (495) 772-97-91 (многоканальный) ICQ-консультант: 377-169-437 http://rbsgroup.ru | http://bdbd.ru | http://mediaguru.ru | http://webvisor.ru

More Related