1 / 37

Управление информацией организаций

Управление информацией организаций. DQS , MDS, SSIS, проект « Barcelona ». Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft. Содержание. Введение Возможности MDS и DQS в SQL Server 2012 Методы выявления дублей и ошибок

nerys
Download Presentation

Управление информацией организаций

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Управление информацией организаций DQS, MDS, SSIS, проект «Barcelona» Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft

  2. Содержание • Введение • Возможности MDS и DQS в SQL Server 2012 • Методы выявления дублей и ошибок • SSIS и совместное использование с DQS/MDS • Проект «Barcelona» • Заключение

  3. Иван КосяковMicrosoft Введение в EIM

  4. Потребность в достоверных данных • Увеличение эффективности • Уменьшение затрат • Увеличение доходов и прибыльности Достоверные корректные данные Решения • Уменьшение производительности • Неудовлетворенность клиентов • Несоответствие стандартам • Уменьшение доходов и прибыльности Некорректные и/или неполные данные Решения

  5. Базовые компоненты аналитических решений Анализ данных Организация хранилищ данных Бизнес-пользователи Знания Достоверные корректные данные Управление

  6. Постановка задачи Источники • Автоматизация загрузки данных из источников, управление загрузкой • Автоматическая корректировка новых данных, управление правилами корректировки • Сопоставление со справочной информацией, управление справочниками • Анализ данных в различных источниках информации, отслеживание преобразований, управление изменениями ERP CRM ХД HRMS

  7. Компоненты Microsoft BI Бизнес-аналитика SharePoint PowerPivot Power View SQL Server Analysis Services SQL Server Reporting Services Бизнес-пользователи Хранилища данных Знания SQL Server Database Engine Fast Track Data Warehouse Parallel Data Warehouse Достоверные данные Microsoft Office Enterprise InformationManagement SQL Server Integration Services  Управление Master Data Services Data Quality Services

  8. Голубицкий ЕвгенийРуководитель проектов практики Интеграционных и НСИ решений ВозможностиMDS и DQSв SQL Server 2012

  9. Проблемы Novartis 9

  10. Система анализа и планирования в компании Novartis

  11. Архитектура решения для Novartis SSIS

  12. Архитектура решения для Novartis SSAS

  13. Роль MDS в ИТ инфраструктуре Novartis 13

  14. Недостатки MDS 2008 R2 Неудобный интерфейс Отсутствует группировка сущностей Отсутствует модуль согласования

  15. Интерфейс MDS 2008 R2

  16. Интерфейс MDS 2012 16

  17. в 2.5 раза!! Быстрее 17 28 сек 11 сек MDS 2012 MDS 2008 R2

  18. Надстройка MDS 2012 для Excel 2010

  19. Data Quality Service

  20. Data Quality Services Демонстрация

  21. Максим Гончаров, Microsoft Алгоритмы определения дубликатов и ошибок в DQS

  22. Выявление дубликатов Для выявления дубликатов мы задаем: • Пороговое значение похожести записей • Список столбцов, которые должны совпадать • Список столбцов, которые мы анализируем на похожесть • Весовые коэффициенту учета похожести каждого отдельного атрибута Алгоритм работает так: • Сравниваются только те пары записей, у которых совпадают обязательные атрибуты • Определяются степени похожести между парами атрибутов • Определяется степень похожести пары записей усреднением степеней похожести пар атрибутов с весами • Если степень похожести больше порога – сохраняем как дубль.

  23. Выявление дубликатов Как DQS определяется степень похожести между строками? Популярные метрики: • Hammingdistance. Описывает «расстояние» между двумя строками одинаковой длины и является числом позиций в строках, в которых стоят разные значения. dH(1011101, 1001001) = 2 • Levenshteindistance. Минимальное число элементарных операций (вставка, удаление, замена одного символа), необходимые для приведения одной строки в другую. Иногда перестановка двух соседних символов считается также одной элементарной операцией. dL("kitten", "sitting" is) = 3 kitten → sitten (замена 's' на 'k') sitten → sittin (замена 'i' на 'e') sittin → sitting (добавление 'g' в конце) • Jaccardindex. Отношения числа одинаковых символов в двух строках к общему числу символов.

  24. Выявление дубликатов Реализация в DQS: Levenshtein distance SELECT[internal_core].[CalculateEditDistanceScore](N'abc',N'acb', 0, 100, 1) 0,66 SELECT[internal_core].[CalculateEditDistanceScore](N'abc',N'acb', 0, 100, 0) 0,33

  25. Выявление синтаксических ошибок Алгоритм «Анна Каренина» (Всесчастливыесемьипохожидругнадруга, каждаянесчастливаясемьянесчастливапо-своему): • Если запись встречается часто, то скорее всего она правильно написана • Если запись уникальна, но похожа на часто встречающуюся запись, то скорее всего она ошибочна.

  26. Иван КосяковMicrosoft Интеграционные проектыIntegration Services + MDS/DQS, проект Barcelona

  27. Улучшения в SSIS 2012 Улучшенное размещение, конфигурирование и управление Большее удобство использования • Интерфейс • Начальное обучение • Продуктивность ETL-разработки • Разделяемые менеджеры подсоединений • Ключевые запросы пользователей • Отмена операций (Undo) • Новый формат пакетов • Гибкий порядок авторства • SSIS Server • Новая модель проекта для объединения пакетов и размещения (.ispac) • Поддержка параметров (упрощение конфигурирования) • Возможность использовать SSIS для диагностики работы SSIS • Журналирование • Отчетность

  28. Полностью интегрированное EIM-решение • DQS Cleansing transformation для очистки данных на лету • Промежуточные таблицы и представления MDS для доступа к мета-данным • SSIS – платформа для загрузки и извлечения мета-данных

  29. Примеры EIM-пакетов в SSIS с использованием MDS/DQS Демонстрация

  30. Иван КосяковMicrosoft Проект «Barcelona»

  31. Исследовать, связать и вывести поток данных Плоский файл SSIS SQL File, implied columns Packages, data flows, connection managers, columns, etc. Servers, databases, tables, views, columns, sprocs, etc.

  32. Исследование метаданных с помощью проекта Barcelonahttp://projectbarcelona.cloudapp.net Демонстрация

  33. Project BarcelonaАрхитектура Интерфейс информационного эксперта Интерфейс DBA/IT Pro Интерфейс администратора Сторонние интерфейсы и приложения для вертикальных решений API запросов к графу метаданных, аннотирования Сервер индексирования API анализа собранных данных (crawler) SQL IS Share Point Excel Другие сборщики Microsoft Сборщики сторонних разработчиков

  34. Иван КосяковMicrosoft Заключение

  35. Фазы процесса управления информацией Enterprise Information Management (EIM) • Project Barcelona • Integration Services • Обнаружение происхожденияи связей между объектами • Лидирующий инструмент ETL и интеграции данных • Обнаружение • Получение • Интуитивное решение для создания и управления НСИ • Очистка и сопоставление данных, основанные на знаниях • Управление • Наращивание • Data Quality Services • Master Data Services

  36. Сценарий интегрированного управления данными Инвентаризировать Barcelona Очистить, сопоставить DQS Временная таблица Источникиданных Извлечь SSIS Обнаружить Barcelona Согласовать MDS Потребитель Справочное хранилище MDS Views Сопоставить, дедуплицировать DQS Опубликовать SSIS

  37. Ресурсы Официальные ресурсы • Русский сайт про SQL Server • Microsoft BI на TechNet • BI на Microsoft.com • Books online for SQL Server 2012 Блог MicrosoftBI.ru • Управление информацией организаций • SQL Server 2008 R2 Master Data Services • Новые возможности в SQL Server 2012 CTP3 для бизнес-аналитики

More Related