400 likes | 619 Views
Успешные корпоративные поисковые порталы на основе SharePoint 2013. Алексей Кожемякин. Как сделать крутой поиск. Алексей Кожемякин. Обо мне. Solution Architect @ epam Focusing on search Sharepoint Search FAST/2010/2013 Apache Lucene, Solr, elasticsearch , Oracle Endeca…
E N D
Успешные корпоративные поисковые порталы на основе SharePoint 2013 Алексей Кожемякин
Как сделать крутой поиск Алексей Кожемякин
Обо мне • Solution Architect @epam • Focusing on search • Sharepoint Search FAST/2010/2013 • Apache Lucene, Solr, elasticsearch, Oracle Endeca… • http://powersearching.wordpress.com
О чем будем говорить • Корпоративный поисковый портал • Как «работает» поиск в SP2013 • Ключевые изменения • Магия – расчет релевантности • Полезные практики
Типичные сценарии поиска • Я знаю что я ищу и я знаю где это найти • Я знаю что я ищу, но НЕ знаю где это найти • Я НЕ знаю что я ищу http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
Поисковый портал • Предпосылки: • Компания растет • Зоопарк из систем • Решение: • поисковый портал, «маленький гугл» • Быстрая бизнес польза от внедрения: • Единая точка поиска информации • Сокращение времени на поиск информации • Улучшение климата внутри компании
Но после внедрения… • «Поиск плохо ищет» • Из коробки поиск ничего не знает про вас • «Но… • … Microsoft позаботились о хорошем алгоритме» • … мы не уверены что сделаем лучше» • ... нам не нужен поиск, у нас все знают что где лежит» • … сделайте нам как в Гугл\Бинг»
Почему это сложно • Неоднозначные короткие запросы • Разнородный неоптимизированный контент • Разная терминология составителей и потребителей контента • Ограниченность ресурсов, в то время как в интернет-поисковиках • Ручное и автоматическое измерение качества (асессоры) • Постоянное улучшение
Поиск - двухфазный процесс • Матчинг – все документы с ключ.словами • Лингвистика: стемминг, фонетика • Синонимы • Ранжирование • «Фичи» • TF-IDF, BM25 • Вес полей • Тип файла • Дата изменения • Популярность • …
Ранжирование в FAST • Линейная комбинация фич
Ранжирование в FAST • Вклад отдельных компонент в результат
Ранжирование в SP2013 • Основная модель релевантности • Две последовательные нейронные сети • Дата документа не учитывается • Фичи
Ранжирование в SP2013 • Основная модель релевантности
Расшифровка релевантности • /_layout/15/explainrank.aspx • rankdetail property
Расшифровка релевантности • Ручная проверка в екселе
Успешные практики • Поисковая аналитика • Тонкая настройка и адаптация • Регулярное тестирование • Анализ проблем с конфиденциальностью • Популяризация • Адаптация контента
1. Поисковая аналитика • Поисковая аналитика • Поисковая аналитика • Поисковая аналитика
1. Поисковая аналитика • Стандартно в SP2013 • Наиболее популярные запросы • «Неудачные» запросы • Сторонние системы (Google Analytics, Omniture, WebTrends) • Измерение качества поиска • % кликов на результаты • на какие результаты • обратные переходы • Анализ сессии • Сегментация запросов
Сегментация запросов • Анализировать не только самые популярные, а классы запросов
2. Тонкая настройка • Authoritative Pages • Быстрая выгода – приоритет источников контент • Query Rules • Поиск становится умным в глазах пользователей • Synonyms • Отдельныймаппинг файл • Только экспансия • Синонимы термсетовнеработают • Модели релевантности
Authoritative Pages • Влияет на ClickDistance • ClickDistance, UrlDepthимеют сильное влияние на итоговую релевантность • Конфигурируются в CA, CSOM
Query Rules (Rule + Action) • Основной инструмент имитации разума • Интерактивная реакция на запросы • Пост обработка запроса • Навигационные ключевые слова • …
Условия для Query Rules • Query Matches Keyword Exactly • Advanced Query Text Match • Query Matches Dictionary Exactly • Query Contains Action Term • Query More Common in Source • Result Type Commonly Clicked
Действия для Query Rules • Create and display a result block • Change ranked search results • Best Bets • XRANK • Работает аддитивно • Не отображается в rankdetail • Правильный выбор веса?
Шаблоны для QueryRules • Типичные комбинации из нашего портала • Software, soft, download, install • How to • Policy, Blog • Portal • Music, Video • Presentation, Documents, Report • Training, tutorial • Book, ebook • У вас будут другие!
Custom Rank Models • Сбор Query Judgments • Настройка коэффициентов нейронной сети машинным обучением • Gradient Descent, Lambda Rank • Microsoft.Office.Server.Search.RankerTuning
Custom Rank Models • Модифицируйте простую модель сделанную руками • A/B тестирование весов • Измерение, метрики :Precision, NDCG
Custom Rank Models • Пример – модель поиска людей
3. Тестирование поиска • Зачем? Это компас. • «Юнит тестирование» • Ручное тестирование, периодически
4. Аудит «безопасности» • Внедрение поиска выявляет проблемы с правами доступа • Security by obscurity • Например: • «конфиденциально» • Зарплаты, подробности интервью • Решение – автоматический мониторинг чувствительных запросов
5. Адаптация контента • Работа с подразделениями • Помощь в мониторинге аналитики • Гайдлайн по оформлению контента • Базовый SEO • Оформление заголовков • Оформление урлов • Мета тэги <meta name=… • Title, description • Автоматически протянутся в crawled properties
6. Популяризация • Имидж – «здесь найдется все» • Интеграция с другими системами • Поиск как сервис • Виджет «поискать во всех системах» • Бэджи, гемификация
Популяризация • Социальные Best-bets
Понимать естественный язык • В общем виде задача не решается • Аналитика + кропотливая работа • см выше набор практик • NLP – question answering • Rocket science • English only • Part of speech tagging, dependency parsing • Stanford NLP, Open NLP, IR
«Литература» • Patents - http://goo.gl/20sbR • Explain Rank page - http://goo.gl/o3ZmN • How SP2013 relevancy models works - http://goo.gl/arf0P • MS Enterprise Search approach - http://goo.gl/x8SDO • Customizing ranking models in SP 2013 - http://goo.gl/lBJAp
Спасибо за внимание Skype: Alexey_Kozhemiakin Email: Alexey.Kozhemiakin@gmail.com Blog: http://powersearching.wordpress.com