Анализ Данных
Download
1 / 35

Анализ Данных - PowerPoint PPT Presentation


  • 317 Views
  • Uploaded on

Анализ Данных. Лекция 1 Введение в Анализ Данных. План лекции. От БД до АД Определение Анализа Данных Типы задач АД Основные понятия Основная цель: определение АД и спектра его применения. Вначале были данные. Есть база данных: Например, БД банка.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Анализ Данных' - leoma


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Анализ Данных

Лекция 1 Введение в Анализ Данных


План лекции

  • От БД до АД

  • Определение Анализа Данных

  • Типы задач АД

  • Основные понятия

    Основная цель: определение АД и спектра его применения


Вначале были данные

Есть база данных:

Например, БД банка.

Хранит персональные данные, счета, кредиты и т.д.

БД

* Рисуйте

у себя тоже


Источник данных

  • Сама по себе БД пользы не несет

  • Добавим оперативный источник данных (ОИД)

ОИД

БД

ОИД

  • Для банка это терминалы, базы локальных отделений и т.д.


Работа с транзакциями

  • Нужна обработка данных в БД

  • Добавим Online Transaction Processing (OLTP)

OLTP

ОИД

БД

OLTP

ОИД

  • Взаимодействует с ОИД и БД.

  • Примеры операция для банка: узнать счет, перевести деньги, пополнить баланс.


Особенности OLTP

  • Важна скорость работы – результат максимум за пару секунд

  • Простые операции с данными (около CRUD)

  • Высокая частота вызовов => постоянная средняя загруженность процессора

  • Работа только с оперативными данными


Возможности OLTP

Вопрос:

Можно ли с помощью OLTP определить кредитоспособность человека?

Как?


Возможности OLTP

Вопрос:

Можно ли с помощью OLTP определить кредитоспособность тысяч человекза час?


Аналитическая система

  • Нужна более сложная система для работы с БД

  • Добавим Online Analytical Processing (OLAP)

OLTP

ОИД

БД

OLAP

OLTP

ОИД

  • Взаимодействует с БД.

  • Примеры для банка: найти подозрительные переводы, определить кредитоспособность


Особенности OLAP

  • Важна точность анализа

  • Сложные запросы, функции, процедуры

  • Периодические вызовы чередуются с простоем. Нагрузка на процессор непостоянна.

  • Работа с большой коллекцией данных


Oltp olap
OLTP и OLAP во время работы

Сотрудники ушли на обед

Попросили оценить кредитоспособность

Анализируем все операции за день

Начало рабочего дня

Выдали результат, больше запросов нет,

отключаемся

OLTP всегда готова выполнить запрос


Возможности OLAP

Может:

  • Определить кредитоспособность по имеющимся правилам

  • Прогнозировать прибыль банка на основе моделей и гипотез

    Не может:

  • Предложить правило оценки кредитоспособности

  • Сгенерировать модель или гипотезу


Анализ данных

  • Нужна система генерации гипотез

  • Вот и Анализ Данных (Data Mining)

OLTP

ОИД

OLAP

БД

OLTP

ОИД

Data Mining

  • Примеры для банка:

  • Выяснить зависимость кредитоспособности человека от наличия высшего образования

  • Каковы признаки подозрительных переводов?


Система поддержки принятия решений

СППР

OLTP

ОИД

OLAP

БД

OLTP

ОИД

Data Mining

  • Комплекс для сбора, хранения и анализа информации


Определение решений

Анализ Данных - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.



Примеры для самопроверки решений

Какие правила являются успешным результатом анализа данных:

  • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам

  • Во время беспорядков повышается спрос на бейсбольные биты

  • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка

  • Вместе с хлебом люди часто покупают молоко

  • Люди старше 60 не ищут ночные клубы в Москве


Примеры для самопроверки решений

Какие правила являются успешным результатом анализа данных:

  • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам

    - уже известная информация

  • Во время беспорядков повышается спрос на бейсбольные биты

    + полезно на будущее

  • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка

    - тривиальная информация

  • Вместе с хлебом люди часто покупают молоко

    + можно продавать комплектом

  • Люди старше 60 не ищут ночные клубы в Москве

    - практически бесполезное знание


Типичные задачи АД решений

  • Классификация (Classification)

  • Кластеризация (Clustering)

  • Ассоциация (Associations)

  • Визуализация (Visualization, Graph Mining)

  • Последовательность (Sequence)

  • Прогнозирование (Forecasting)

  • Определение отклонений (DeviationDetection)

  • Анализ связей (Link Analysis)


Примеры задач классификации решений

  • Определение DDoS-атак

  • Спам-фильтры

  • Привлечение выгодных клиентов (определение целевой аудитории продукта)

  • Определение профиля ДНК


Примеры задач кластеризации решений

  • Группировка документов по темам

  • Идентификация людей на записях с камер видеонаблюдения

  • Кластеризация тикетов

  • Кластеризация структуры фондового рынка


Примеры задач поиска ассоциаций и последовательностей

  • Рекомендации товаров

  • Обнаружение скрытых факторов влияния


Примеры задач визуализации и последовательностей

  • Связи в социальных сетях

  • Пробки на дорогах

  • Инфографика


Семейство направлений АД и последовательностей

  • Web Mining – специализируется на анализе страниц в интернете (определение тИЦ, выделение модульной сетки сайта)

  • Opinion Mining – специализируется на анализе отношений пользователей к различным объектам (whatdoestheinternetthink.net)

  • Information Retrieval – поиск неструктурированной информации в текстовых документах (поисковые системы)


Основные определения и последовательностей

  • Данные – необработанный материал, используемый для формирования информации на основе данных.

Blablabla

Например, текст документа


Основные определения и последовательностей

  • Объект - описывается как набор атрибутов

Blablabla

Сам текстовый документ


Основные определения и последовательностей

  • Атрибут - свойство, характеризующее объект.

Имя: Текстовый документ (42).txt

Размер документа: 5кб

Дата создания: 05.09.2011

Blablabla


Основные определения и последовательностей

  • Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя.

  • Выборка (sample) - часть генеральной совокупности

Полная база документов

50 случайных

документов


Основные определения и последовательностей

  • Параметры - числовые характеристики генеральной совокупности.

  • Статистики - числовые характеристики выборки.

Параметры:

Научные статьи: 30%

Анекдоты: 70%

Статистика:

Научные статьи: 32%

Анекдоты: 68%


Основные определения и последовательностей

  • Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.

Гипотеза:

Если файл < 5кб, то он

скорее всего содержит анекдоты

I lol’d


Основные определения и последовательностей

  • Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.

I lol’d

Количество слов:

количество пробельных символов + 1


Шкалы измерений и последовательностей

Номинальная шкала (nominalscale) -содержит только категории

  • Нельзя упорядочить

  • Доступные операции: ==, !=

    Пример: месяцы, царства животного мира, категории статей

    Дихотомическая шкала (dichotomousscale) - шкала, содержащая только две категории.

    Пример: бит, пол


Шкалы измерений и последовательностей

Порядковая шкала (ordinalscale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними.

  • Доступные операции: ==, !=, >, <

    Пример: место в рейтинге


Шкалы измерений и последовательностей

Интервальная шкала (intervalscale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла.

  • Доступные операции: ==, !=, >, <, +, -

    Пример: температура


Шкалы измерений и последовательностей

Относительная шкала (ratioscale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы.

  • Доступные операции: ==, !=, >, <, +, -, *, /

    Пример: вес и размеры предметов


ad