1 / 45

Построение поисковых приложений на основе FAST Search Server for SharePoint

Код сессии OFS206. Microsoft. Сергей Якимчук. Microsoft. Построение поисковых приложений на основе FAST Search Server for SharePoint. Сергей Пиминов. Содержание. Обзор поисковых продуктов Microsoft Демонстрация базовых возможностей FS4SP Архитектура FAST Search for SharePoint

pascal
Download Presentation

Построение поисковых приложений на основе FAST Search Server for SharePoint

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Код сессии OFS206 Microsoft Сергей Якимчук Microsoft Построение поисковых приложений на основе FAST SearchServerforSharePoint Сергей Пиминов

  2. Содержание • Обзор поисковых продуктов Microsoft • Демонстрация базовых возможностей FS4SP • Архитектура FAST Search for SharePoint • Демонстрация решения База знаний • Приложения на базе поисковых алгоритмов • Демонстрация разработки на платформе FAST • Производительность FAST for SharePoint • Самая важная новость про FAST Search for SharePoint

  3. Структура современного портала Информация Поиск Cоциальнаясеть

  4. Главное средство доступа к информации Полнофункциональный настраиваемый поиск приложения на базе поиском Учет социальных пользовательских предпочтений, визуализация, учет контекста Еще коннекторы, Права доступа, Релевантность++, Производительность, Администрирование+, Масштабируемость++ Полнофункциональный поиск Неглубокая настройка Учет пользовательских предпочтений (теги, рейтинги) Коннекторы, Права доступа, Релевантность, Производительность, Администрирование, Масштабируемость • Стандартная клиентская лицензияSharePoint + Серверная лицензия SharePoint • SharePoint Enterprise CAL + Серверная лицензия • FAST Search for SharePoint

  5. FAST в топологии фермы SharePoint SharePoint Server SharePoint Search FAST Search Обработка контента Обход контента Управление контентом Поиск людей Обход контента Обработка запросов Хранение данных Поиск данных Администрирование поиска Поиск данных Запросы в базы данных Сервисы администрирования

  6. Применение в любой отрасли • Быстро наполнить информацией новый портал • Предоставить механизм управления релевантностью • Обогатить портал удобными интерактивными интерфейсами

  7. Стандартныевозможности FS4SP Демонстрация

  8. Что мы увидели? • Изменение интерфейса поиска (превью, количество найденных, дубликаты, поиск похожих) • Выявление Людей, Компаний, Местоположений и других словарей • Привязку к метаданным • Профили релевантности • Поиск по маске (wildcards)

  9. Index Dispatcher N / Index Cluster Index Dispatcher N / Index Cluster Index Dispatcher (indexingdispatcher) N / Index Cluster Content Distributor N per Installation :16100 Add columns for content capacity and doc grouping 7-10 mill +/- docs/column To other columns Search Node N partitions per node QR Server (qrserver) N/Installation data/data_index/ index_n_m Site Manager N / Crawler node QT Pipeline fsearch (index_2_m) :157xx Site Workers N/Crawler Node fdispatch (1/search node) :15700 RP Pipeline fsearch (index_1_m) fsearch (index_0_m) :15100 results Rows and columns Each column holds a unique subset of the complete data Each row holds the complete data Scale for volume by adding columns Scale for queries by adding rows The Top Level Dispatcher sends the same query to ONE node in each column and then merges the results. 75-100 QPS / row Logging from ESP components all servers Monitoring – ServiceConfig Daemon or standalone mode XML-RPC /HTTP clients /esp/etc/ NodeConf.xml nctrl start [<process>] stop [<process>] reloadcfg status NODE CONTROLLER 1/host Monitoring Service 1/host Архитектура решения Queries In Content In Results Out NOTE: All port numbers are given relative to a base port of 13000. For other base ports, please subtract 13000 from port number given and then add your base port to arrive at corresponding port number for your installation Callbacks by client polling Content distributor failover through Name Service (backup CD registers as master) FAST Plugin Callbacks: secured (stored fixml), completed (live) SharePoint ISS Central Administration Moss InfoTool HTTP(S) callbacks: completed (processed) SAM Admin Manage Service Applications Business Data Catalog Processor Server FS14 pipeline: Name Server etc/PipelineConfig.xml (owned by ConfigServer) indexeradmin Extended Connector Application SAM configuration DocInit Configserver Document Submitter Worker Admin Object Model (OM) indexerinfo Document Manager MS- FAST Interface MSS Gatherer MSS Pipeline Cust. Protocol Handlers Docproc code and configuration DocumentRetriever Site Collection Administration Resource Store URLProcessor columns /lib/python2.5/ processors <stage>.py(c) Decompressor Email SAM Worker • Keywords • Site promotion/demotion • User context docapi Indexer (indexer) Application Server getfixml Crawler <procs> Demarshaller, RSS,SiteMap User Monitor Search Filter generator File shares exclusion list data/data_fixml PropFeedingFixture ACL Monitor Last Minute Access Rights UTFDetectorConverter Various config files generated by bliss /etc/processors/ <stage>.xml converter_rules.xml (deside what converter to use) Web Content fixmlindex <format>Detectors 1 / partition <format>Converters Simple, PFD, Ifilter. SearchExport data/data_index rtsearchrc.xml (fetched from CS at startup) FS14 Powershell Cmdlet • Configuration of: • Ssic connector • Schema • Document processing • Admin XML formatted Config data Admin Object Model (OM) LanguageAnd EncodingDetector Multi-node scheduler multinode setup only crawleradmin :15900/status Passive Fault Tolerance by 2nd indexer row only receiving FiXML optional EncodingNormalizer Multinode installations: Top level dispatcher (TLD) used in multicolumn installations only QRServer looks up TLD name in: esp/etc/qrserver/webcluster.spec TLD started by Node Controller: nctrl start topfdispatch -G -f FastHTMLParser Contextual Keyword managenent Index copying (multinode only) Crawler config (internal format) Node Scheduler 1 /Crawler Node SPAttributeLookup Keyword Replacement WebAnalyzer QueryFormatter ppdup Duplicate detector (Multinode only) Synonym Expansion TeaserGenerator Featured Content WALinkStorerReceiver Best Bet RSS LinkNormalizer Text files SS Query Search Server (People search) Promotion (Xrank query mod) WALinkStorer Query Web Service BrowserEngine WAAttributeLookup WALookupDB Web Content postprocess 1/Crawler Node Search Service Application Top Level Dispatch (topfdispatch) (optional) :15151 WALinkRankAnchor TextFormatter DB Query Proxy Crawler cache (store) crawlerfs Many/Crawler Node Search Web Parts EEPropertiesMapper waconfig.xml postprocess Build Query Key Word query Completion Rendering Presenting EETokenizer Query Object Model Federation Object Model Query OffensiveEntityFilter QR server Proxy Dictionaries FS 14 Query WCF <Entity Extraction> Persons, Companies, Locations, mail, date & Time, Price,terms, filenames, URL FAST Search API User Context Exctractor connect.bat config file db.xml results esp/var/searchctrl/ etc/enginesrc-15150 PowerShell Vectorizer Alert from psctrl when schema is updated ContextualUser Properties Java Connection Manager jdbc FastXML files PropertiesMapper Get User Properties Report discovered crawled properties Database Configure PropertiesReporter /var/logs/ querylogs FS 14 Query Completion Matcher FW false Tokenizer fsearchctrl Responsible for configuring partitions and switching in new indexes Lemmatizer State DB Conenctor & Log config FastXML files DateTime Doc Procs Lotus Notes Content Connector WARankDocument Lotus Notes MSPermissionDecoder Lotus Notes User Directory Connector DocSecurityUnknown FIXMLGenerator FiXML to be indexed RTSOutput File Traverser 30-120 QPS / QR Node Config Database Content Database Logging info from doc processors -l , -a. or doc-id ”doctrace on” ”debug on” File shares psctrl doclog admin server Centrally managed Config files /esp/etc/config_data/* Index Profile uploaded through Schema Object Model Components read their data at startup /esp/etc/config_data/ RTSearch/<cluster>/ index-profile Log Files Log server FAST MiddleWare /esp/etc/ PipelineConfig.xml Metrics Config config server • Win 2008 Server • Event Log • WMI • Perfromance Counters bliss psctrl Property backend Collections List /esp/etc/ CSConfig.xml Alert pipeline of updated schema Operations Manager (SCOM 2007) CONFIG SERVER 1/installation loose text

  10. Архитектура решения Запросы Контент Результаты Ферма SharePoint Обработка контента Поставщик контента Декомпрессор Детектор формата Конвертер Язык и кодировка HTML парсер Нормализатор Web Analyzer Выявление сущностей «Векторизатор» Привязка свойств Отчет по индексированию Токенизатор Выявление лемм Выявление времени Ранга Применение правил безопасности Генератор FIXML Модуль безопасности доступа (SAM) Коннектор к SharePoint Индекс Администрирование поиска Web Crawler • JDBC коннектор Поиск (определение соответствия индекса запросу) Обработка запросов TLD-диспетчер Сервер обработки pipeline результатов • Сервер обработки pipeline запроса SharePoint FrontEnd Экстрактор контекста пользователя Сопоставление похожим запросам Web-части Web-сервис запросов Коннектор к Lotus Notes Файловый сервер Сервисы логирования и конфигурирования

  11. Применение технологии FAST • Интеграция со скоростью мысли • Бизнес анализ без «кубов» • Базы знаний • Повышение заинтересованности пользователей

  12. База знаний FS4SP Демонстрация

  13. Итак, мы увидели как FAST помогает в • Подготовке отдела продаж • Поддержке call-центров • Обмене данных между сотрудниками

  14. FAST для разработчика Запросы Контент Расширение поисковой выдачи Веб-части и интерфейс Разработка коннекторов Внесение изменений в процесс обработки контента Результаты Ферма SharePoint Очистка контента Поставщик контента Декомпрессор Детектор формата Конвертер Язык и кодировка HTML парсер Нормализатор Web Analyzer Выявление сущностей «Векторизатор» Привязка свойств Отчет по индексированию Токенизатор Выявление лемм Выявление времени Ранга Применение правил безопасности Генератор FIXML Модуль безопасности доступа (SAM) Коннектор к SharePoint Индекс Администрирование поиска Web Crawler Коннектор к JDBC Поиск (определение соответствия индекса запросу) Обработка запросов TLD-диспетчер Сервер обработки pipeline результатов • Сервер обработки pipeline запроса SharePoint FrontEnd Экстрактор контекста пользователя Сопоставление похожим запросам Web-части Web-сервис запросов Коннектор к Lotus Notes Файловый сервер

  15. Разработка коннекторовКлассификация

  16. Инструменты для разработки коннекторов • SharePoint Designer 2010 • Создание BDC моделей для стандарныхтипов BDC подключений (SQL, Web/WCF Services и .NET Assemblies) • Экспорт файлов BDC моделей между службамиBCS • Ограниченный набор возможностей • Visual Studio 2010 • Создание.NET BDC коннектора(шаблон BDC модели в VS2010) • РазработканастраиваемогоBDC коннектора(Нет шаблонав VS2010)

  17. Расширения в Content Processor • Элемент процессинга (custom stage) • Выявление сущностей и метаданных • Добавление логики в процесс индексации • Обогащение информации своими данными

  18. Расширение поисковой выдачи • Профили релевантности • Пользовательский контекст • Язык запросов FQL (FAST Query Language) • NEAR, ONEAR, RANK, XRANK и т.д.

  19. Веб-части и интерфейс • Настройка веб-частей (XML, XSLT) • Разработка собственных веб-частей • Панель уточнений • Deep refiners • ASP.NET MVC

  20. Демонстрация процесса разработки на платформе FAST FS4SP Пример

  21. Задача • Формирование превью веб-страниц при индексировании веб-сайтов

  22. Архитектура демо-сценария OpenSearch Web Site Enterprise Crawler Query Processor Indexer Content Processor Federation People Search PipelineExtensibility Search Center Index Partition Web Service

  23. Веб-сервис Создание веб-сервиса формирования изображения веб-страницы по ее URL адресу

  24. Управляемые свойства Добавление свойств (Crawled Property и Managed Property) для хранения ссылки на файл изображения • “PreviewCP” – Crawled Property • “Preview” – Managed Property

  25. Создание элемента процессинга Настройка файла PipelineExtensibility.XML <PipelineExtensibility> <Run command="fastpreview.exe %(input)s %(output)s"> <Input> <CrawledProperty propertySet="11280615-f653-448f-8ed8-2915008789f2" varType="31" propertyName="url"/> </Input> <Output> <CrawledProperty propertySet="00130329-0000-0130-c000-000000131346" varType="31" propertyName="previewcp"/> </Output> </Run> </PipelineExtensibility>

  26. Настройкаконнектора “Enterprise Crawler” Правим файл crawlerconfigtemplate.xml <?xml version="1.0"?> <CrawlerConfig> <DomainSpecification name="sp"> <attrib name="start_uris" type="list-string"> <member> http://www.adventure-works.com </member> </attrib> … </DomainSpecification> </CrawlerConfig>

  27. Запускконнектора “Enterprise Crawler” С:\FASTSeacrh\bin> crawleradmin -f crawlerconfigtemplate-adv.xml

  28. Демонстрация процесса разработки на платформе FAST FS4SP Демонстрация

  29. Итак, мы увидели, что FAST позволяет: • Создавать собственные элементы процессинга с вызовом внешних веб-сервисов • Гибко настраивать интерфейс поиска с использованием XLST и JQuery

  30. Масштабирование FAST for SharePoint • Масштабируемость в различных контекстах • Обработка запросов • Построение индекса • Обновление индекса • Отказоустойчивость • Для поиска • Для индексации Произв. запросов Поиск и индексация Произв. индекса Обработка поисковых запросов и выдача результатов Индексация и обработка контента

  31. Рекомендации по оборудованию CPU: Dual 6 core Memory: 32 GB Disk: 70GB (RAID) CPU: Dual 6 core Memory: 32 GB Disk alternatives: 1.0 TB: 8 x 300 GB, SAS, 10K RPM in (RAID 10) 1.8 TB: 8 x 300 GB, SAS, 10K RPM (RAID 5) 3.6 TB: 16 x 300 GB, SAS, 10K RPM (RAID 5+0) 6.0 TB: 12 x 1 TB, NL SAS, 7.2K RPM (RAID 10) SAN: Configured for “database performance”

  32. Пилот или стенд для разработки • Ограничения • Query rate: < 2 QPS • Content: < 1M items

  33. Маленькая ферма • Ограничения • Среднее количестводокументов • Query rate: < 25 QPS • Content: < 15 M items • Большое количество документов • Query rate < 10 QPS • Content < 40 M items

  34. Типовая ферма среднего размера • Ограничения • Среднее количестводокументов • Query rate: < 25 QPS • Content: < 45 M items • Большое количество документов • Query rate < 10 QPS • Content < 120 M items

  35. Большая ферма

  36. Примертеста с использованием Hyper-V • 480M Items • Email • Web content • SharePoint • Query rate < 10 QPS • 100% virtual

  37. Примертеста с использованием Hyper-V • 12 Hosts • 256 GB RAM • 4 x 8 Core Processors • Dedicated SAN • 100,000 IOPS • 49 VMs

  38. Внедрение в интрасети Microsoft

  39. И наконец… Service Pack 1 для FAST Search for SharePoint вышел: • Повысилась производительность за счет лучшего использования памяти, очистки дисков и поддержки объемных данных • Возможность добавлять и удалять столбцы указателя и поиска в работающей системе. • Более гибкие настраиваемые средства извлечения свойств. • Проверка орфографии и выделение корней слов для греческого языка. • Улучшенное извлечение заголовков из документов Word и презентаций PowerPoint. • Усовершенствованная схема по умолчанию для улучшения релевантности. • Снято ограничение на 5дополнительных справочников в CustomPropertyExtractors

  40. Сессии по теме Корпоративный поиск в SharePoint 2010 Ричард Райли в 16.00 в зале №3

  41. Ресурсы • Загрузить FAST Search for SharePoint:http://technet.microsoft.com/ru-ru/evalcenter/ee424282.aspx • О Service pack: http://support.microsoft.com/kb/2460039

  42. Обратная связь Уважаемые участники! Ваше мнение очень важно для нас! В блокноте, который находится в инфопаке участника, вы найдете анкету для оценки докладов Пожалуйста, оцените доклад и сдайте анкету при выходе из зала модератору Для участия в конкурсе заполненных анкет, отметьте в анкете номер, который указан на вашем бейдже Спасибо!

  43. Вопросы • OFS206 • Сергей Пиминов • spiminov@microsoft.com • Сергей Якимчук • sergeyy@microsoft.com • Вы сможете задать вопросы докладчику в зоне Microsoft в зале №17 в течение часа после завершения этой сессии

More Related