slide1
Download
Skip this Video
Download Presentation
Анализ Данных

Loading in 2 Seconds...

play fullscreen
1 / 35

Анализ Данных - PowerPoint PPT Presentation


  • 320 Views
  • Uploaded on

Анализ Данных. Лекция 1 Введение в Анализ Данных. План лекции. От БД до АД Определение Анализа Данных Типы задач АД Основные понятия Основная цель: определение АД и спектра его применения. Вначале были данные. Есть база данных: Например, БД банка.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Анализ Данных' - leoma


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Анализ Данных

Лекция 1 Введение в Анализ Данных

slide2
План лекции
  • От БД до АД
  • Определение Анализа Данных
  • Типы задач АД
  • Основные понятия

Основная цель: определение АД и спектра его применения

slide3
Вначале были данные

Есть база данных:

Например, БД банка.

Хранит персональные данные, счета, кредиты и т.д.

БД

* Рисуйте

у себя тоже

slide4
Источник данных
  • Сама по себе БД пользы не несет
  • Добавим оперативный источник данных (ОИД)

ОИД

БД

ОИД

  • Для банка это терминалы, базы локальных отделений и т.д.
slide5
Работа с транзакциями
  • Нужна обработка данных в БД
  • Добавим Online Transaction Processing (OLTP)

OLTP

ОИД

БД

OLTP

ОИД

  • Взаимодействует с ОИД и БД.
  • Примеры операция для банка: узнать счет, перевести деньги, пополнить баланс.
slide6
Особенности OLTP
  • Важна скорость работы – результат максимум за пару секунд
  • Простые операции с данными (около CRUD)
  • Высокая частота вызовов => постоянная средняя загруженность процессора
  • Работа только с оперативными данными
slide7
Возможности OLTP

Вопрос:

Можно ли с помощью OLTP определить кредитоспособность человека?

Как?

slide8
Возможности OLTP

Вопрос:

Можно ли с помощью OLTP определить кредитоспособность тысяч человекза час?

slide9
Аналитическая система
  • Нужна более сложная система для работы с БД
  • Добавим Online Analytical Processing (OLAP)

OLTP

ОИД

БД

OLAP

OLTP

ОИД

  • Взаимодействует с БД.
  • Примеры для банка: найти подозрительные переводы, определить кредитоспособность
slide10
Особенности OLAP
  • Важна точность анализа
  • Сложные запросы, функции, процедуры
  • Периодические вызовы чередуются с простоем. Нагрузка на процессор непостоянна.
  • Работа с большой коллекцией данных
oltp olap
OLTP и OLAP во время работы

Сотрудники ушли на обед

Попросили оценить кредитоспособность

Анализируем все операции за день

Начало рабочего дня

Выдали результат, больше запросов нет,

отключаемся

OLTP всегда готова выполнить запрос

slide12
Возможности OLAP

Может:

  • Определить кредитоспособность по имеющимся правилам
  • Прогнозировать прибыль банка на основе моделей и гипотез

Не может:

  • Предложить правило оценки кредитоспособности
  • Сгенерировать модель или гипотезу
slide13
Анализ данных
  • Нужна система генерации гипотез
  • Вот и Анализ Данных (Data Mining)

OLTP

ОИД

OLAP

БД

OLTP

ОИД

Data Mining

  • Примеры для банка:
  • Выяснить зависимость кредитоспособности человека от наличия высшего образования
  • Каковы признаки подозрительных переводов?
slide14
Система поддержки принятия решений

СППР

OLTP

ОИД

OLAP

БД

OLTP

ОИД

Data Mining

  • Комплекс для сбора, хранения и анализа информации
slide15
Определение

Анализ Данных - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

slide17
Примеры для самопроверки

Какие правила являются успешным результатом анализа данных:

  • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам
  • Во время беспорядков повышается спрос на бейсбольные биты
  • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка
  • Вместе с хлебом люди часто покупают молоко
  • Люди старше 60 не ищут ночные клубы в Москве
slide18
Примеры для самопроверки

Какие правила являются успешным результатом анализа данных:

  • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам

- уже известная информация

  • Во время беспорядков повышается спрос на бейсбольные биты

+ полезно на будущее

  • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка

- тривиальная информация

  • Вместе с хлебом люди часто покупают молоко

+ можно продавать комплектом

  • Люди старше 60 не ищут ночные клубы в Москве

- практически бесполезное знание

slide19
Типичные задачи АД
  • Классификация (Classification)
  • Кластеризация (Clustering)
  • Ассоциация (Associations)
  • Визуализация (Visualization, Graph Mining)
  • Последовательность (Sequence)
  • Прогнозирование (Forecasting)
  • Определение отклонений (DeviationDetection)
  • Анализ связей (Link Analysis)
slide20
Примеры задач классификации
  • Определение DDoS-атак
  • Спам-фильтры
  • Привлечение выгодных клиентов (определение целевой аудитории продукта)
  • Определение профиля ДНК
slide21
Примеры задач кластеризации
  • Группировка документов по темам
  • Идентификация людей на записях с камер видеонаблюдения
  • Кластеризация тикетов
  • Кластеризация структуры фондового рынка
slide22
Примеры задач поиска ассоциаций и последовательностей
  • Рекомендации товаров
  • Обнаружение скрытых факторов влияния
slide23
Примеры задач визуализации
  • Связи в социальных сетях
  • Пробки на дорогах
  • Инфографика
slide24
Семейство направлений АД
  • Web Mining – специализируется на анализе страниц в интернете (определение тИЦ, выделение модульной сетки сайта)
  • Opinion Mining – специализируется на анализе отношений пользователей к различным объектам (whatdoestheinternetthink.net)
  • Information Retrieval – поиск неструктурированной информации в текстовых документах (поисковые системы)
slide25
Основные определения
  • Данные – необработанный материал, используемый для формирования информации на основе данных.

Blablabla

Например, текст документа

slide26
Основные определения
  • Объект - описывается как набор атрибутов

Blablabla

Сам текстовый документ

slide27
Основные определения
  • Атрибут - свойство, характеризующее объект.

Имя: Текстовый документ (42).txt

Размер документа: 5кб

Дата создания: 05.09.2011

Blablabla

slide28
Основные определения
  • Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя.
  • Выборка (sample) - часть генеральной совокупности

Полная база документов

50 случайных

документов

slide29
Основные определения
  • Параметры - числовые характеристики генеральной совокупности.
  • Статистики - числовые характеристики выборки.

Параметры:

Научные статьи: 30%

Анекдоты: 70%

Статистика:

Научные статьи: 32%

Анекдоты: 68%

slide30
Основные определения
  • Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.

Гипотеза:

Если файл < 5кб, то он

скорее всего содержит анекдоты

I lol’d

slide31
Основные определения
  • Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.

I lol’d

Количество слов:

количество пробельных символов + 1

slide32
Шкалы измерений

Номинальная шкала (nominalscale) -содержит только категории

  • Нельзя упорядочить
  • Доступные операции: ==, !=

Пример: месяцы, царства животного мира, категории статей

Дихотомическая шкала (dichotomousscale) - шкала, содержащая только две категории.

Пример: бит, пол

slide33
Шкалы измерений

Порядковая шкала (ordinalscale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними.

  • Доступные операции: ==, !=, >, <

Пример: место в рейтинге

slide34
Шкалы измерений

Интервальная шкала (intervalscale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла.

  • Доступные операции: ==, !=, >, <, +, -

Пример: температура

slide35
Шкалы измерений

Относительная шкала (ratioscale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы.

  • Доступные операции: ==, !=, >, <, +, -, *, /

Пример: вес и размеры предметов

ad