520 likes | 732 Views
Страницы: 1 из 51 Следующая. Некоторые факты о том, что пользователи ленивы Маркерный метод как это было и почему это было плохо Поведенческие метрики какие бывают метрики доказать, что работает графики поведения Плохие запросы плохие и трудные запросы Сплит-тестирование
E N D
Страницы:1из 51Следующая • Некоторые факты • о том, что пользователи ленивы • Маркерный метод • как это было и почему это было плохо • Поведенческие метрики • какие бывают метрики • доказать, что работает • графики поведения • Плохие запросы • плохие и трудные запросы • Сплит-тестирование • тестирование новых фич Обзор доклада
Страницы:2из 51Следующая Факты о поведении пользователей • Анализ выдачи до первого клика – 20 секунд • Анализ первого результата – 60 секунд (tmr) 60 сек анализ первого результата (1tm) 20 cек анализ до 1-го клика
Страницы:3из 51Следующая Факты о поведении пользователей Распределение по кликам (c0) 0 кликов (c1) 1 клик 3 и больше (c2) 2 клика
Страницы:4из 51Следующая Факты о поведении пользователей Посетители не ходят вглубь первая страница (kpg) доля следующих страниц
Страницы:5из 51Следующая Факты о поведении пользователей Посетители не просматривают основную часть доступных документов 98% не просматривается 2% просматривается
Страницы:6из 51Следующая Факты о поведении пользователей Трафик падает очень быстро При условии одного клика второму результату достаётся намного меньше, чем первому первый результат второй результат третий результат от 4-го до 15-го
Страницы:7из 51Следующая Факты о поведении пользователей • При одном клике второму результату достаётся в 4 раза меньше трафика, чем первому • Правильный ответ с плохой аннотацией снижает трафик в десятки раз • Посетители не прокручивают страницу браузера вниз Пользователи ленивы, это нельзя исправить, под это нужно подстраиваться
Страницы:8из 51Следующая Качество поиска в широком смысле • Скорость выдачи, полнота индекса, скорость обновления индекса, надежность, опечатки, подсказки… • Релевантность(правильный ответ желателен на 1-2 месте + хорошая аннотация) Маркеры оценивают релевантностьрезультатов
Страницы:9из 51Следующая Обзор доклада • Некоторые факты • о том, что пользователи ленивы • Маркерный метод • как это было и почему это было плохо • Поведенческие метрики • какие бывают метрики • доказать, что работает • графики поведения • Плохие запросы • плохие и трудные запросы • Сплит-тестирование • тестирование новых фич
Страницы:10из 51Следующая Что такое маркерный метод Примеры маркеров для тестирования поиска • Запрос «xxx» сайт «yyy» на 1 стр., хорошо (+1) • Запрос «xxx» сайт «yyy» на 1 месте, хорошо, (+10) • Запрос «xxx», в выдаче есть фраза «zzz», хорошо (+3) Мы вводим в поиск много запросов и считаем сумму правильных ответов
Страницы:11из 51Следующая Разногласия между экспертами Эксперты между собой часто имеют разногласия по поводу сайта на первой позиции Например, запрос «лучший unix редактор» Посетители могут иметь мнение, отличное от мнения экспертов
Страницы:12из 51Следующая Сложные запросы • Как найти людей, которые способны оценивать сложные запросы? • snmp applet • kafka svejk krusovice • лучшее из оформления парилок • java diagram drawing software • И как пригласить их поработать оценщиками в поиске?
Страницы:13из 51Следующая Сложные запросы Сложные запросы – это сленг • Пользователи поисковика разговаривают на своём сленге • Эксперты оценщики их не понимают • Сложность запросов увеличивается Маркерный метод не может охватить сложные запросы, это дорого и неэффективно
Страницы:14из 51Следующая Проблемы маркерного метода • Не обеспечивает полноты • Не видит персонализации • Не видит географической оптимизации • Разногласиямежду экспертами • Плохая точность • Сайты иногда умирают: требуется регулярная проверка на актуальность
Страницы:15из 51Следующая Проблемы маркерного метода Проблемы маркерного метода вынуждают нас искать новые способы измерять качество поиска Интересные возможности предоставляют поведенческие технологии
Страницы:16из 51Следующая Метрики для метрик Прежде чем искать новые метрики качества, нам нужно решить, как мы будем их сравнивать Критерии оценки метрик: • Как много нужно данных/времени/ресурсов • Точность (можно ли увидеть 1 процент улучшений)
Страницы:17из 51Следующая Обзор доклада • Некоторые факты • о том, что пользователи ленивы • Маркерный метод • как это было и почему это было плохо • Поведенческие метрики • какие бывают метрики • доказать, что работает • графики поведения • Плохие запросы • плохие и трудные запросы • Сплит-тестирование • тестирование новых фич
Страницы:18из 51Следующая Поведение – метрика качества Время на анализ поисковой выдачи и сайтов свидетельствует об удовлетворенности • Чем меньше 1tm (время до первого клика) – тем лучше • Если tmr меньше 15 секунд – это плохо (1tm) 20 cек анализ до 1-го клика (tmr) 60 сек анализ первого результата
Страницы:19из 51Следующая Поведенческие метрики Их довольно много: • Клики: c0,с1,ds, click-entropy • Время: 1tm, tmr,oldtime • Глубина поиска: c1t1, kpg • Лояльность, возвращаемость: kret Метрики – статистические коэффициенты на основе логов действий пользователей
Страницы:20из 51Следующая Зависимость поведенческих метрик Эти зависимости довольно сложные
Страницы:21из 51Следующая Доказать, что работает Качество поиска – ненаблюдаемый явно параметр
Страницы:22из 51Следующая Доказать, что работает: эксперимент Улучшим качество и посмотрим, какие метрики изменились
Страницы:23из 51Следующая Доказать, что работает: эксперимент Ухудшим качество на небольшой части аудитории, какие метрики изменились в обратную сторону?
Страницы:24из 51Следующая Метрики – найти и отфильтровать • Мозговой штурм – придумываем метрики • Выбираем 1/128 аудитории для опытов • Повторяем эксперимент несколько раз • Оставляем только те метрики, которые зависят от качества Остаются только статистически значимые метрики
Страницы:25из 51Следующая с1t1 – одна из хороших метрик с1t1 – доля первого результата при одном клике Среднее значение c1t1 – 0.4 x 0.35 = 14% (с0) 0 кликов (с1) 1 клик 3 клика и больше (с2) 2 клика (t1)первый результат (t2)второй результат (t3)третий результат от 4-го до 15-го
Страницы:26из 51Следующая Удовлетворенность с1t1 Для двухсловных и трехсловных запросов удовлетворенность поиском увеличивается в течение всего 2009 года
Страницы:27из 51Следующая c1t1 – корзины запросов • Чем более редкие запросы, тем выше сложность запросов • Чем выше сложность запросов, тем хуже удовлетворенность поиском
Страницы:28из 51Следующая Удовлетворенность c1t1 – день недели Максимум удовлетворенности наблюдается в понедельник
Страницы:29из 51Следующая Удовлетворенность c1t1 – время суток Максимум в 8-9 утра, минимум в 3 ночи
Страницы:30из 51Следующая Качество, сложность и удовлетворенность Метрики показывают удовлетворенность поиском, а не качество поиска. Мы вводим модель, которая их связывает. • Качество поиска – свойство алгоритмов, оборудования • Сложность запросов – свойство посетителей • Удовлетворенность посетителей - Качество поиска / Сложность запросов Наша простая модель не учитывает усталость посетителей, воздействие рекламы и другие эффекты
Страницы:31из 51Следующая Удовлетворенность – усредняем по неделям Сложность запроса меняется в течение недели, поэтому усредняем по неделям
Страницы:32из 51Следующая Сложность запросов Сложность запросов растет Чтобы удовлетворять посетителей, поиск вынужден непрерывно мониторить поведенческие метрики Ежедневно находить сложные (плохие) запросы и улучшать их
Страницы:33из 51Следующая Обзор доклада • Некоторые факты • о том, что пользователи ленивы • Маркерный метод • как это было и почему это было плохо • Поведенческие метрики • какие бывают метрики • доказать, что работает • графики поведения • Плохие запросы • плохие и трудные запросы • Сплит-тестирование • тестирование новых фич
Страницы:34из 51Следующая Плохие запросы c0 Доля нулевых кликов. Среднее значение для c0 – 30% (c0) 0 кликов (c1) 1 клик 3 и больше (c2) 2 клика
Страницы:35из 51Следующая Плохие запросы c1 Доля одного клика. Среднее значение для c1 – 35% (c0) 0 кликов (c1) 1 клик 3 и больше (c2) 2 клика
Страницы:36из 51Следующая Плохие запросы с1t1 с1t1 – доля первого результата при одном клике Среднее значение c1t1 – 0.4 x 0.35 = 14% (с0) 0 кликов (с1) 1 клик 3 клика и больше (t1)первый результат (с2) 2 клика (t2)второй результат (t3)третий результат от 4-го до 15-го
Страницы:37из 51Следующая Плохие запросы с1t1
Страницы:38из 51Следующая Плохие запросы acp Среднее место кликов по результатам поиска (acp) – 3.3
Страницы:39из 51Следующая Плохие запросы ts ts –доля, где среднее время просмотра результатов меньше 20 секунд
Страницы:40из 51Следующая Списки трудных запросов Не для всех запросов удаётся повысить удовлетворенность
Страницы:41из 51Следующая Обзор доклада • Некоторые факты • о том, что пользователи ленивы • Маркерный метод • как это было и почему это было плохо • Поведенческие метрики • какие бывают метрики • доказать, что работает • графики поведения • Плохие запросы • плохие и трудные запросы • Сплит-тестирование • тестирование новых фич
Страницы:42из 51Следующая Тестирование новых фич Внедрение подсказок и опечаток в июле 2009 г. Как изменилось качество поиска, удовлетворенность посетителей и сложность запросов?
Страницы:43из 51Следующая Июль 2009 – внедрение подсказок и опечаток Вспомним, что качество можно оценить через сложность и удовлетворенность При постоянном качестве поиска и увеличении сложности запросов удовлетворенность падает Удовлетворенность = качество/сложность запросов Качество = сложность запросов * удовлетворенность
Страницы:44из 51Следующая Июль 2009 – внедрение подсказок и опечаток Двухсловных запросов стало больше однословных, запросы стали более сложными
Страницы:45из 51Следующая Июль 2009 – внедрение подсказок и опечаток Несмотря на увеличение сложности запросов, удовлетворенность также увеличилась
Страницы:46из 51Следующая Июль 2009 – внедрение подсказок и опечаток Обычный графический способ Удовлетворенность примерно увеличилась на 20-40% Нам мешает множество возмущаемых факторов Сплит-система Удовлетворенность увеличилась на 27.7% Точность улучшается в сотни раз
Страницы:47из 51Следующая Сплит-система: внедряем новые фишки Последовательное увеличение аудитории новой фишки • Выбрать критерий качества f(c1t1, acp, c0, c1, kpg,…) • Запустить новую функциональность на 1/128 аудитории • Проверить, что наша новая поведенческая релевантностьулучшилась относительно оставшихся 127/128 • Увеличить аудиторию до 1/64, 1/32…127/128
Страницы:48из 51Следующая Сплит-система: внедряем новые фишки • Эффект1: у разных посетителей – разная выдача поиска • Эффект2: мы можем увидеть улучшения в 1 процент, потратив всего несколько дней • Эффект3: мы можем одновременно тестировать десятки фишек • Эффект4: это бесплатно!
Страницы:49из 51Следующая Итоги на ноябрь 2009 года • Запущены опечатки и подсказки в поисковой строке • Новое оборудование, скорость поиска • Новый дата-центр для повышения надежности • На части аудитории тестируются новые фишки и алгоритмы • Удовлетворенность увеличилась на 60%