1 / 20

HP Vertica

HP Vertica. Гиоев Артур Технический директор HP Software по России и Странам СНГ. Введение в vertica. Big Data, Data Analytics ... Simply Fast. Мы живем в мире аналитики. Создавая новые возможности !. Все больше данных , и они постоянно прибывают

yael
Download Presentation

HP Vertica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HP Vertica Гиоев Артур Технический директор HP Software по России и Странам СНГ

  2. Введение в vertica Big Data, Data Analytics ... Simply Fast

  3. Мы живем в мире аналитики Создавая новые возможности! Все больше данных, и они постоянно прибывают Больше не тратить ночи на загрузки данных Смешивать загрузку данных и доступ разнообразных пользователей Необходимость сохранять исторические данные для последующего анализа

  4. Вы готовы к анализу данных? 100%компанийиз списка Каждый Объем информации растет; IDC предсказывает роств в следующем десятилетии нуждается в информации,а не только аналитики Fortune 2000 44 раза анализируютданные Нужно анализироватьи адаптировать РАЗНЬЕ ROI Аналитические платформы активновнедряются, происходит данные и связи между ними «Return on Information»- сколько денегможно получить заинформацию?Новая метрика. смещение трат на специализи-рованные системы *IDC report 2009 4

  5. Зачем нужна бизнес-аналитика в Реальном Времени? Повышение адекватности и качества принимаемых решений! 5 • Снижение рисков в быстроменяющемся мире • Изучение и прогнозирование поведения клиентов, поставщиков и регуляторов • Оптимизация взаимодействия с вышеперечисленными • Уменьшение и оптимизация операционных расходов, контроль ключевых KPI • Фрод-мониторинг: отслеживание подозрительных сделок • Оценка общественных и экономических тенденций • Упреждающая реакция на изменения настроений заказчиков и рынка

  6. Размер и классификация хранилища данных, сегодня Большие Данные это сколько? 6 <500ГБ– Маленькое 500ГБ > 20ТБ– Типовое 20ТБ > 50ТБ – Большое >50ТБ – очень Большое Несколько лет назад хранилище размером больше нескольких ТБ было редкостью

  7. Даже очень больших Пример Больших Данных 7 40 млн. игроков регистрируется каждый клик 3ТБ данных в день 200 машин в кластере - анализ в реальном времени и мгновенное предоставление информации в виде рекомендаций - непрерывная работа 24х7х365 – никаких «окон» на загрузку данных

  8. The Vertica Аналитическая платформа Реального времени Интегрированное решение разработанное для ответа аналитическим задачам сегодня и завтра Аналитика“точно вовремя” в 50–1000 разбыстрее среднее время обработки запросов чем в традиционных построчных системах До10x приростскоростизагрузки данных Простотаустановки/использования Высокаямасштабируемостьи полный параллелизм Индустриально стандартнаяплатформа x86 Гибридная in-memory/on-disk архитектура Хранение данных близко к процессору Большие масштабы, широкие возможности

  9. Обзор технологии Vertica

  10. Verticaпозволяет • Повышение производительности в 10 – 100 раз • Высокая масштабируемость от TB к PB • Простая интеграция с существующими решениями ETL и BI • Высочайшая производительность на доступной аппаратной платформе • Высокая гибкость развертывания Основной функционал Vertica Технический обзор Vertica Колоночное хранение Продвинутое сжатие Обработка данных с массовым параллелизмом(MPP) Автоматизированный Дизайнер БД Встроенная поддержка высокой доступности Стандартный SQL интерфейс

  11. Колоночное хранение • Verticaинтелектуально организует данные на диске для каждой колонки • Читаются только колонки участвующие в запросе, а не каждая как в случае с построчным хранением • Чтение и Запись блоков очень большого размера • Идеально для интенсивной работы в режиме ЗАГРУЗКА/ЧТЕНИЕ с серьезным сокращением операций ввода/вывода Колоночное хранение –читаются 3 колонки • SELECT • avg(price) • FROM • tickstore • WHERE • symbol = ‘AAPL’ • AND • date = ‘5/06/09’; NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 143.74 143.75 37.03 37.13 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 5/05/09 5/06/09 5/05/09 5/06/09 AAPL AAPL BBY BBY Строчное хранение - читаются все колонки AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE143.74NYSE NYSENYSE5/05/09 AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE143.74NYSE NYSENYSE5/06/09 BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE37.03NYSE NYSENYSE5/05/09 BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE37.13NYSE NYSENYSE5/06/09

  12. Продвинутое сжатие • Verticaзаменяет медленные операции ввода/вывода быстрыми циклами процессора через агрессивное сжатие • Используют свойства данных такие как сортировка Работает на больших объемах чисел и строк • Может работать без первичного раскодирования Интеллектуальное раскодирование как можно позднее Диск: Кодирование +Сжатие 100.25 100.50 100.75 100.25 100.75 101.00 101.25 100.75 101.25 100.75 100.00 100.50 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 0000001 0000001 0000003 0000003 0000005 0000011 0000011 0000020 0000026 0000050 0000051 0000052 Механизм раскодирования Раскодирование на лету Несколько значений Отсортировано Много значений Целое Может быть отсортировано Много значений Отсортировано Transaction Date CustomerID Trade Буфер: Только распаковка 100 .25 1 2 3 1 3 4 5 3 5 3 0000001 0 2 2 4 10 10 19 25 49 5/05/2009, 16 Множество других… Engine: Раскодирование блоков Сеть: Раскодированные блоки + возможно использованиеLZO Раскодированный результат Просто во время GCD DeltaVal RLE Сырые данные Сжатые данные

  13. 100% пиринговая сеть – нет блокировок Нет специализированных узлов Загрузка данных и запросы на любом узле Линейная масштабируемость Больше кластер = больше местадля данных + выше производительность Автоматическая репликация и восстановление после сбоев Кластеризация (MPP) Горизонтальное масштабирование, массовая параллельная обработка Внешняя сеть Кластерная сеть

  14. Автоматизированный дизайн и Администрирование • Vertica Database Designer рекомендован для наилучшей оптимизации дизайна БД • Оптимизация для потребностей пользовательских запросов • Минимизацияусилий администраторов БД затрачиваемых на физический дизайн БД • Запуск и работа дизайнера БД в режиме ONLINE без влияния на текущую обработку Администраторы БД БД дизайнер создает • Логическую схему • Создание таблиц • “Тестовый набор” • Типичные запросы • Примеры данных • Уровень защиты от сбоев • k-safety • Физическую схемудля: • Выполнения запросов в тестовом наборе быстро • Подходит для плавной загрузки требований • Уверенность в том, что все SQL запросы могут быть отвечены A B C B A C (A B C | A) (B A C | B A)

  15. Native High Availability • Функциональность как у RAID внутри БД • Проекции распределены по по ячейкам для отказоустойчивости • Нет нужны в ручном восстановлении на основе логов • Verticaпродолжает загрузку данных и исполнение запросов даже когда один из узлов не доступен • Пропавшие данные восстанавливаются с оставшихся узлов кластера VerticaКластер из трех узлов A1 B1 C1 Узел 1 Узел 3 Узел 2 B2 A2 C2 B1 A1 C1 B3 A3 C3 A3 B3 C3 A2 B2 C2 B1 A1 C1 A3 B3 C3

  16. Стандартный интерфейс на основе SQL Verticaподдерживает ANSI SQL-99 plus Analytics для минимизации интеграционных затрат существующими инструментами BI и ETL • ANSI SQL-99 +Analytics • Простая интеграция • Vertica’sHadoop Connector • Коннекторы БД для • JDBC • ODBC • ADO.NET SQL, ODBC, JDBC Массовая и поточная загрузка ETL, Replication, Data Quality Analytics, Reporting HP Confidential

  17. Платформа Vertica • Пример HP/Vertica • HP c7000 • Загрузка и запросы в реальном времени • 100-250x (ср.) быстрее запросы • Масштабируемо (просто добавьте лезвие) • Строенная высокая доступность • Прямо из коробки интеграция сETL исервисами отчетности Процессоры x86-64 (Intel/AMD) Хранилище: SAS, SATA, SAN и SSD Gigabit Ethernet Backbone Linux • Red Hat Enterprise Linux • SUSE • Debian • CentOS Не требуется дополнительных затрат на лицензии при увеличении аппаратной платформы HP Confidential

  18. Заказчики

  19. 360+ Заказчиков и продолжает расти HP Confidential

  20. Спасибо

More Related