SlideShare una empresa de Scribd logo
1 de 51
Descargar para leer sin conexión
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
СУБД Vertica
Платформа для анализа «больших данных» в реальном
времени
Андрей Кириленков / 25 Июля, 2014
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Интеграция с Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3
Содержание
1. Предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4
• Ограничения традиционных платформ
• Big Data
«Узкие места»
• Разделяемый ресурс
• «Массивное» чтение с дисков
• Сеть внутри кластера
Два вызова в хранении и анализе данных
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5
Традиционные платформы
• Не могу загружать данные и одновременно их
анализировать
• Слишком долго выполняются запросы и отчеты
• Строю агрегаты и не могу спуститься к детальным
данным
• Перемещаю данные в инструменты для сложного
анализа и data mining
• Сложно сопровождать
• Не успеваю за ростом нагрузки и объема данных
• Дорого и сложно обеспечить высокую доступность
• Не хватает дополнительных сред (тестирование,
разработка...)
Типовые недоумения клиентов
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6
Объем (Volume)
• 10% организаций обрабатывают 1+ Пб данных
• Социальные сети – миллионы транзакций в минуту
Скорость (Velocity)
• 30% организаций имеют 100+ Гб/день
• Данные обновляются и нужны раз в день, час
Разнообразие (Variety)
• Тексты, Аудио и видео файлы
• Блоги, сообщения в сетях – для изучения клиентов
• Внутренние источники данных
Сложность
• Осмысленные связи
• Преобразование
• Очистка
Разно-
образие
СложностьСкорость
Объем
Цели:
• Эффективность
• Удовлетворение клиентов
• Снижение риска
• Расширение бизнеса
Вызов:
извлечь из Big Data важное
для бизнеса
Big Data: информационный вызов
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
“Big Data и традиционные
данные – две части единой
стратегии данных и их анализа”
Том Давенпорт (один из трех лучших
консультантов мира в области аналитики)
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Стратегия Vertica - анализ больших объемов данных.
Vertica спроектирована именно для быстрого анализа
...
Ovum считает, что высокопроизводительные
колоночные СУБД сегодня нужны компаниям,
ищущим замены традиционным платформам. Vertica
вполне отвечает их ожиданиям.
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10
HP Vertica: история и замысел
Vertica Systems основана в 2005 г., куплена НР в 2011 г.
Vertica Analytical DB – коммерческая версия
исследовательского прототипа C-Store (M.
Stonebraker)
Платформа для аналитических нагрузок (десятки
запросов в сек, большой объем данных в запросе)
Shared nothing – архитектура, МРР
Простая линейная масштабируемость на «обычных»
серверах
ACID (Atomicity, Consistency, Isolation, Durability)
SQL , реляционная СУБД, любая реляционная модель
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.11
Гартнер: магический квадрат
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12
2500+ клиентов, начиная с 2006
20 ?
500?
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13
2500+ клиентов, начиная с 2006
20+ Петабайт данных
500+ узлов в кластере
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.14
Старое хранилище HP Vertica Выгода для бизнеса
• Загрузка шла 14 hours
• Цена $120К за TB – только
лицензии
• Загрузка за 1 час
• Цена ниже значительно
• Экономия бюджета
• Анализ в реальном времени
(свежие данные)
Невозможен скоринг кредитных карт
в реальном времени
(подтверждение или отказ карты)
Кластер из 4 узлов в 2 раза быстрее
кластера из 12 узлов и дешевле на
70%
• Экономия $20М на лиц.
• Экономия $4М на лиц. и
серверах в смежном проекте
• Достигнуты SLAs
Запросы выполняются по 20 часов • Ускорение запросов в 40-80x раз
• Стоимость нового решения - 5%
от стоимости старого
• Сокрадение операционных
расходов на 90%
• ROI - 3 месяцв
• Находят в 10 раз больше
потенциальных клиентов
HP Vertica в больших компаниях
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16
Базовые принципы
Быстрый отклик на запросы Простая и
линейная масштабируемость
Экономия дискового
пространства
Загрузка и запросы одновременно,
Работа 24x7
Columnar storage
and execution
Clustering Compression
Continuous
performance
Автоматическая настройка
производительности
Дизайн БД
Временные ряды, география, клики,
SDK для разработки
Сложный анализ
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17
Колоночное хранение
• Читает только колонки, нужные для запроса
• Данные в колонках можно обновлять
• Идеально для интенсивной нагрузки ЗАГРУЗКАЧТЕНИЕ, значительное снижение
I/O
AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/05/09
5/05/09
5/06/09
5/05/09
5/06/09
143.74
143.75
37.03
37.13
AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/06/09
BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.03 NYSE NYSE NYSE 5/05/09
BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.13 NYSE NYSE NYSE 5/06/09
SELECT
avg(price)
FROM
tickstore
WHERE
symbol = ‘AAPL”
and
date = ‘5/06/09’;
Колоночное хранение – Читает 3 колонки
Строчное хранения – Читает все колонки
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
AAPL
AAPL
BBY
BBY
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.18
Кодирование и сжатие
• Использует свойства данных
(сортировка, мощность - cardinality)
• Работает на большом числе строк
Не медленное обращение к дискам, а быстрая работу CPU (мощное сжатие)
• Раскодирование – как можно позже
• 15 алгоритомов сжатия
• Тип сжатия подбирается автоматически
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19
Проекции: оптимальное хранение
• Основная таблица (супер-проекция) не
отсортирована
• Физический дизайн прозрачен для приложений
• Данные хранятся в отсортированном, сжатом виде
• Индексы НЕ нужны (колонка сама себе индекс)
• Оптимизатор выбирает лучшую проекцию для
выполнения запроса
• Всегда актуально, не нужно перестраивать /
обновлять
• Предварительное объединение таблиц (pre-join
projections, N:1 joins)
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20
Партиционирование
• Локальные партиции - на одном узле
− CREATE TABLE ... PARTITION BY <expr> - как правило по времени
− Вложенности нет
− Быстрое удаление данных через партиции, быстрее запросы
− На уровне таблиц и распространяется на все проекции
• Сегментация: или распределение по узлам кластера
− Для каждой проекции
− Репликация на каждый узел или сегментация (HASH(col1..coln))
− Создается автоматически с помощью Data base designer
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.21
Партиционирование
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22
Массивно-параллельная обработка данных
• Распределенное хранение и рабочая нагрузка
• Shared-nothing архитектура
• Линейная масштабируемость на х86_64 серверах. (Больше данных? Выше
производительность? Больше пользователей? Добавь новые узлы)
Клиентская сеть (1 Гбитс) ODBC, JDBC, ADO.NET
Внутри-кластерная сеть (10 Гбитс, full duplex)
8-12 TB 8-12 TB 8-12 TB
Node 1
 2 x 10-12 Core
 128+GB RAM
Node 2
 2 x 10-12 Core
 128+GB RAM
Node 3
 2 x 10-12 Core
 128+GB RAM
Узлы кластера
– Все узлы
равнозначны
– Загрузка/Запросы –
на любой узел
– Непрерывная/в
реальном времени
загрузка и анализ
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23
Распределённое выполнение запросов
• Балансировщик (Vertica или Linux) нагрузки отправляет запрос на один из узлов кластера
(инициатор)
• Инициатор разбирает запрос и составляет план выполнения (cost-based)
• Инициатор распределяет запрос по исполнителям
• Все узлы выполняет запрос и посылают свою часть результата инициатору
• Инициатор собирает результат и отправляет ответ пользователю
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24
Автоматический дизайн
A B A
(A B C | A) (B A C | B A)
B C C
> Физическая модель, сжатие:
 Быстрое выполнение типовых запросов
 Поддержка всех загрузок
 Гарантия, что все SQL запросы будут отвечены
Database Designer:Архитектор:
> Логическая модель
 Create table
> “Типовой набор”
 Типичные запросы
 Выборки данных
> Уровень устойчивости к
сбоям
 k-safety
• Минимальная нагрузка на архитектора в части управления физической моделью данных
• Инкрементальная перестройка БД под новые данные и запросы
• Запуск в любое время, выполнение без остановки БД
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25
Гибридное и гибкое хранение
• Загрузка и запросы одновременно (гибридное хранение)
• Производительность загрузки масштабируется линейно (реально 35 Tб в час)
• Vertica’s FlexStore™ : размещение горячих данных на быстрых носителях (SSD...)
• Update = Delete (порождает историю) + Insert
• Delete – только метка: снимок БД в момент времени AT TIME 'timestamp' SELECT...
Асинхронный перенос
данных
TUPLE MOVER
Read Optimized Store (ROS)
• На дисках
• Сортировка / Сжатие
• Сегментация
• Прямая загрузка больших объемов
(A B C | A)
A B C
Непрерывная
загрузка
Write Optimized
Store (WOS)
 Находится в памяти
 Нет сортировки / Нет сжатия
 Сегментация
 Свежие данные / Небольшие
быстрые вставки
A B C
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.27
Встроенная высокая доступность (k-safety)
• Колонки дублируются на соседних узлах согласна k-safety (1 или 2)
• Не нужно ручное восстановление из журналов
• Система принимает загрузки и запросы, когда узел отключен
• Данные на отключенном узле запрашиваются на других узлах
• Возвращение узла в работу – без остановки кластера
• Восстановление после сбоя: Last good epoch или из резервной копии
A3 B3 C3 A2 B2 C2
B1 A1 C1B2 A2 C2 B1 A1 C1
A3 B3 C3 A1 B1 C1
B3 A3 C3
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28
Защита от катастроф
Вариант 1: Загрузка данных в обе системы.
(Для больших объемов)
За: Обе системы активны
Против: ETL обеспечивает
согласованность данных
Вариант 2: Репликация снимков
Vertica Backup
За: Минимальный риск не-
согласованности данных
Против: Во время синхронизации 2-й
кластер не активен
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29
Легко расширяемый кластер
Простое добавление новых серверов
• Добавь узел и повысь емкость или быстродействие
• Vertica автоматически перераспределяет данные
Система работает без остановки
• Система принимает запросы во время ре-
балансировки кластера
Быстрое перераспределение данных
• Пример из жизни: расширение от 11 TB и 16 узлов до
32 nodes прошло за 65 минут без остановки системы!
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.30
Мониторинг: Vertica Management Console
• Управление кластерами через веб-приложение
• Полный контроль за работой БД и кластера
• Корреляция работы системы и БД
Кластер 1 Кластер 2 Кластер 3
Vertica
Management
Console
Browser
Access
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31
Tactical
General
Analytic User 1
Управление рабочей нагрузкой
• Нет главного узла, т.е. нет узкого места в кластере!
− Инициация запросов - равномерно по узлам
− Число одновременных запросов растет по мере добавления новых узлов
• Настраиваемый менеджер ресурсов
− Ресурсные пулы для разных рабочих нагрузок (I/O, CPU, memory, bandwidth, concurrency,
duration)
− Границы ресуров для пула, пользователя, сессии
• Управление в реальном времени
− Сменить приоритет запроса
− Снять запрос
tactical tactical
analytic
Analytic User 2
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.32
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
1. Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.33
SQL, адаптированный для Big Data
Возможности
•ANSI SQL-99
•Развитые функции для работы со временем
•Временные ряды:
– Заполнением пробелов
– Разбивка на окна
– Разбивка на сессии потока «кликов»
•Статистика
•Поддержка R (анализ и data mining)
•Пакет гео-пространственных функций
•Анализ текстов
analytic_function ( arguments ) OVER( analytic_clause )
Примеры
•Ранжировать клиентов по лояльности и регионами
•Вычислить скользящее среднее объема продаж за
период времени
•Найти высший балл среди всех студентов одного
курса
•Сравнить текущий бонус каждого из продавцов с
его предыдущим бонусом
•Анализ «кликов» с помощью шаблонов
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.34
Временной ряд: интерполяция
•Система интеллектуального учета нерегулярно поставляет данные о потреблении энергии
•Данные нужно хранить в БД за каждые 10 минут без пробелов
•Все пробелы нужно заполнить
select meter_id,
interval_5min,
ts_first_value(power_consumption, 'linear')
from energy_readings
timeseries interval_5min as '5 minutes'
over (partition by meter_id
order by reading_date);
Пример: Подготовить данные с устройств для анализа (smart meter data)
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.35
Поддержка R
• Что такое R?
• Язык для статистического анализа с открытым кодом
• Много пакетов для сложного исследования данных (data mining) и статистического анализа
• Преимущества пользовательских расширений (Udx) в R
• Vertica автоматически за-параллеливает вычисления R
• Оптимизирована передача данных между Vertica и R
Verticaкластер
Исходный код в R
UDx в R, пример: метод K-средних
# Example: K-means (k=5)
# Input: two-dimensional points
# Output: the point coordinates plus their assigned
# cluster
kmeansClu <- function(x)
{
cl <- kmeans(x,5,10)
res <- data.frame(x[,1:2], cl$cluster)
res
kmeansCluFactory <- function()
{
list(name=kmeansClu,
udxtype=c("transform"),
intype=c("float","float"),
outtype=c("float","float","int"),
outnames=c("x","y","cluster") )
}
Создание и
использование функции
-- Define function
CREATE LIBRARY rlib
AS ‘/path/rcode.R’ LANGUAGE 'R';
CREATE TRANSFORM FUNCTION Kmeans
AS LANGUAGE 'R' NAME 'kmeansCluFactory'
LIBRARY rlib;
-- Use function
CREATE TABLE point_data (
x FLOAT, y FLOAT );
SELECT Kmeans(x, y)
OVER() FROM point_data;
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.37
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.38
Внешние таблицы
• Внешняя таблица: файл доступен для Vertica (SQL), но не управляем ею (DML
невозможен)
• «Холодные» данные хранятся на дешевых носителях – анализ по мере надобности
• Передача данных из других SQL СУБД, HDFS (User Defined Load)
• Можно объединять (Join) данные из внешних источников с данными из Vertica
VMart=> create external table ext (x integer) as copy from '/home/dbadmin/ext.dat';
Vertica
External Table External TableExternal Table
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.39
Unstructured Dark Data
Гибкая таблица, зона (Flex Zone)
Native
Vertica
Data
Flex Zone
Быстрый, ежедневный анализПредварительный анализ
Внешние
структурированные данные
Внешние таблицы
• MapReduce
• Sqoop
• HDFS
Анализируй данные, не зная их структуры
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.40
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
1. Внешние и гибкие таблицы
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.41
Интеграция с Hadoop
Быстрая СУБД должна быть
интегрирована с Hadoop, а не
встроена в него
Hadoop / Vertica: Сложный анализ
MapReduce / Pig Job
DFS Block 1
DFS Block 1
DFS Block 1
DFS Block 2
DFS Block 2
DFS Block 2
DFS Block 3 DFS Block 3
Map
Map
Map
Reduce Vertica
Data
data data data data da
data data data data data
data data data data data data
data data data data data data
data data data data data data
data data data data data data
data data data data data data
data data data data data data
data data data data data data
MapReduce / Pig Job
DFS Block 1
DFS Block 1
DFS Block 1
DFS Block 2
DFS Block 2
DFS Block 2
DFS Block 3 DFS Block 3
Map
Map
Map
Reduce
VerticaVertica
Hadoop / Vertica: преобразование данных
HDFS File
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.42
Интеграция с Hadoop
HDFS connector
• Загрузка в Vertica из HDFS через COPY оптимальная параллельность
– SQL к HDFS через внешнюю таблицу
– Безопасность через авторизацию Kerberos
Hadoop & Pig Connector
• Перемещение данных между Hadoop и Vertica
• Запросу к Hadoop из Vertica
• JDBCODBC для Windows, Linux, Solaris, AIX и др.
Hcatalog
• Запросу к Hadoop из Vertica
• Доступ через внешние таблицы
• Open SQL on Hadoop
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.43
Как работает коннектор к HDFS?
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.44
Содержание
1. Big data и предпосылки к созданию HP Vertica
2. HP Vertica: история, основы, практика
3. HP Vertica: Архитектура
4. Высокая доступность
5. Управление рабочей нагрузкой
6. Возможности
• Анализ
• Внешние и гибкие таблиВнешние и гибкие табли
• Hadoop
7. Развитие
8. Итоги
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.45
Ближайшая версия Vertica “Dragline”
FY14 FY15
• Проекции-агрегаты: ускорение ресуроемких агрегирующих
функций
• Динамическое управление смешанной рабочей нагрузкой
• Vertica Pulse: анализ текстов и окраски высказываний в соц.сетях
• Vertica Place: хранение и анализ гео-пространственных данных
• Расширение SQL над Hadoop
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.46
HP Vertica в развитии
Vertica “Crane” (7.0)
- Key-Value Lookups с
интерфейсом к NoSQL
Vertica “Dragline”
- Проекции-агрегаты
- Гео-и-текстовая аналитика
- Текстовый поиск
Vertica “Excavator”
- In-Memory
- Кубы
- Текстовый поиск
Vertica “Frontloader”
- Streaming
- Federation for Read and
Write – Unified SQL
- Navigation and joins-
across HBase and Other
NoSQL Tools
ВИДЕНИЕ
Fast self-
service
analytics for
consumers
FY14 FY15
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.47
Кратко о Vertica
• Колоночное: быстрый доступ к нужным данным, снижение I/O
• Загрузка и запросы в реальном времени
• Автоматический дизайн
• MPP кластер х86_64 серверов, просто расширяемый до Петабайтов данных
• Мощная аналитика:
– встроенные аналитические функции, полная поддержка R,
– среда для разработки UDFUDX
• Flex Zone: Быстрый и дешевый анализ непонятных данных без создания схем данных в
Vertica
• Тесная интеграция с MapR, Hadoop
• Внешние таблицы: передача данных из SQL СУБД, HDFS
• Встроенная высокая доступность
• Управление рабочей нагрузкой
Платформа нового поколения
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.48
Ещё раз о выгодах
Быстрая отдача
• Загрузка и запросы
одновременно
• Автоматический
дизайн
• Простая инсталляция
и управление
Быстрый анализ
• В одном темпе с
бизнесом
• Реальное время
Расширяй
платформу по мере
необходимости
• Без остановки
кластера
• Иногда без докупки
лицензий
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Спасибо!
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.50
Приложения
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.51
Системные ограничения
Item Limit
Number of nodes Maximum 128 (without HP Vertica assistance).
Database size Approximates the number of files times the file size on a platform, depending on the maximum disk configuration.
Table size 2^64 rows per node, or 2^63 bytes per column, whichever is smaller.
Row size 32 MB. The row size is approximately the sum of its maximum column sizes, where, for example, a VARCHAR(80) has a maximum size of 80 bytes.
Key size Limited only by row size
Number of tables/projections per
database
Limited by physical RAM, as the catalog must fit in memory.
Number of concurrent
connections per node
Default of 50, limited by physical RAM (or threads per process), typically 1024.
Number of concurrent
connections per cluster
Limited by physical RAM of a single node (or threads per process), typically 1024.
Number of columns per table 1600.
Number of rows per load 2^63.
Number of partitions 1024.
•While HP Vertica supports a maximum of 1024 partitions, few, if any, organizations will need to approach that maximum. Fewer partitions are likely to
meet your business needs, while also ensuring maximum performance. Many customers, for example, partition their data by month, bringing their
partition count to 12. HP Vertica recommends you keep the number of partitions between 10 and 20 to achieve excellent performance.
Length for a fixed-length column 65000 bytes.
Length for a variable-length
column
65000 bytes.
Length of basic names 128 bytes. Basic names include table names, column names, etc.
Query length No limit.
Depth of nesting subqueries Unlimited in FROM, WHERE, or HAVING clause.

Más contenido relacionado

La actualidad más candente

Новости и анонсы конференции Oracle Open World 2013
Новости и анонсы конференции Oracle Open World 2013Новости и анонсы конференции Oracle Open World 2013
Новости и анонсы конференции Oracle Open World 2013Andrey Akulov
 
Кирилл Алешин, Ламбда Архитектура на практике
Кирилл Алешин, Ламбда Архитектура на практикеКирилл Алешин, Ламбда Архитектура на практике
Кирилл Алешин, Ламбда Архитектура на практикеTanya Denisyuk
 
Кирилл Алешин - Big Data и Lambda архитектура на практике
Кирилл Алешин - Big Data и Lambda архитектура на практикеКирилл Алешин - Big Data и Lambda архитектура на практике
Кирилл Алешин - Big Data и Lambda архитектура на практикеIT Share
 
Резервное копирование и оптимизация хранения данных
Резервное копирование и оптимизация хранения данныхРезервное копирование и оптимизация хранения данных
Резервное копирование и оптимизация хранения данныхAndrey Karpov
 
4 sas and big data short
4 sas and big data short4 sas and big data short
4 sas and big data shortantishmanti
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Fwdays
 
High load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rusHigh load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rusVladd Ev
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...IT-Portfolio
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системAndrey Akulov
 
Александр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comАлександр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comOntico
 
Modern apps Windows Azure
Modern apps Windows AzureModern apps Windows Azure
Modern apps Windows AzureZaur Abutalimov
 
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверов
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверовTCO аренда облачной IT инфраструктуры Онланты vs покупка серверов
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверовZaur Abutalimov
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015rusbase
 
Web весна 2012 лекция 6
Web весна 2012 лекция 6Web весна 2012 лекция 6
Web весна 2012 лекция 6Technopark
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...IT-Portfolio
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиAndrey Akulov
 
2016 06 VMEx - intro (russian)
2016 06 VMEx - intro (russian)2016 06 VMEx - intro (russian)
2016 06 VMEx - intro (russian)Andrey Karpov
 

La actualidad más candente (20)

Новости и анонсы конференции Oracle Open World 2013
Новости и анонсы конференции Oracle Open World 2013Новости и анонсы конференции Oracle Open World 2013
Новости и анонсы конференции Oracle Open World 2013
 
Кирилл Алешин, Ламбда Архитектура на практике
Кирилл Алешин, Ламбда Архитектура на практикеКирилл Алешин, Ламбда Архитектура на практике
Кирилл Алешин, Ламбда Архитектура на практике
 
Кирилл Алешин - Big Data и Lambda архитектура на практике
Кирилл Алешин - Big Data и Lambda архитектура на практикеКирилл Алешин - Big Data и Lambda архитектура на практике
Кирилл Алешин - Big Data и Lambda архитектура на практике
 
Резервное копирование и оптимизация хранения данных
Резервное копирование и оптимизация хранения данныхРезервное копирование и оптимизация хранения данных
Резервное копирование и оптимизация хранения данных
 
4 sas and big data short
4 sas and big data short4 sas and big data short
4 sas and big data short
 
Azure for retails
Azure for retailsAzure for retails
Azure for retails
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
 
High load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rusHigh load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rus
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных систем
 
Александр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.comАлександр Соловьёв, Griddynamics.com
Александр Соловьёв, Griddynamics.com
 
Modern apps Windows Azure
Modern apps Windows AzureModern apps Windows Azure
Modern apps Windows Azure
 
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверов
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверовTCO аренда облачной IT инфраструктуры Онланты vs покупка серверов
TCO аренда облачной IT инфраструктуры Онланты vs покупка серверов
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015
 
Web весна 2012 лекция 6
Web весна 2012 лекция 6Web весна 2012 лекция 6
Web весна 2012 лекция 6
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
 
2016 06 VMEx - intro (russian)
2016 06 VMEx - intro (russian)2016 06 VMEx - intro (russian)
2016 06 VMEx - intro (russian)
 

Destacado

Ed Snelson. Counterfactual Analysis
Ed Snelson. Counterfactual AnalysisEd Snelson. Counterfactual Analysis
Ed Snelson. Counterfactual AnalysisVolha Banadyseva
 
Brian Bulkowski. Aerospike
Brian Bulkowski. AerospikeBrian Bulkowski. Aerospike
Brian Bulkowski. AerospikeVolha Banadyseva
 
Thomas Jensen. Machine Learning
Thomas Jensen. Machine LearningThomas Jensen. Machine Learning
Thomas Jensen. Machine LearningVolha Banadyseva
 
Ramunas Urbonas. The Journey
Ramunas Urbonas. The JourneyRamunas Urbonas. The Journey
Ramunas Urbonas. The JourneyVolha Banadyseva
 
Tadas Pivorius. Married to Cassandra
Tadas Pivorius. Married to CassandraTadas Pivorius. Married to Cassandra
Tadas Pivorius. Married to CassandraVolha Banadyseva
 
Dionizas Antipenkovas. Big Data Intro
Dionizas Antipenkovas. Big Data IntroDionizas Antipenkovas. Big Data Intro
Dionizas Antipenkovas. Big Data IntroVolha Banadyseva
 
Ramunas Balukonis. Research DWH
Ramunas Balukonis. Research DWHRamunas Balukonis. Research DWH
Ramunas Balukonis. Research DWHVolha Banadyseva
 
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL database
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL databaseСергей Сверчков и Виталий Руденя. Choosing a NoSQL database
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL databaseVolha Banadyseva
 
Ernestas Sysojevas. Hadoop Essentials and Ecosystem
Ernestas Sysojevas. Hadoop Essentials and EcosystemErnestas Sysojevas. Hadoop Essentials and Ecosystem
Ernestas Sysojevas. Hadoop Essentials and EcosystemVolha Banadyseva
 

Destacado (9)

Ed Snelson. Counterfactual Analysis
Ed Snelson. Counterfactual AnalysisEd Snelson. Counterfactual Analysis
Ed Snelson. Counterfactual Analysis
 
Brian Bulkowski. Aerospike
Brian Bulkowski. AerospikeBrian Bulkowski. Aerospike
Brian Bulkowski. Aerospike
 
Thomas Jensen. Machine Learning
Thomas Jensen. Machine LearningThomas Jensen. Machine Learning
Thomas Jensen. Machine Learning
 
Ramunas Urbonas. The Journey
Ramunas Urbonas. The JourneyRamunas Urbonas. The Journey
Ramunas Urbonas. The Journey
 
Tadas Pivorius. Married to Cassandra
Tadas Pivorius. Married to CassandraTadas Pivorius. Married to Cassandra
Tadas Pivorius. Married to Cassandra
 
Dionizas Antipenkovas. Big Data Intro
Dionizas Antipenkovas. Big Data IntroDionizas Antipenkovas. Big Data Intro
Dionizas Antipenkovas. Big Data Intro
 
Ramunas Balukonis. Research DWH
Ramunas Balukonis. Research DWHRamunas Balukonis. Research DWH
Ramunas Balukonis. Research DWH
 
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL database
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL databaseСергей Сверчков и Виталий Руденя. Choosing a NoSQL database
Сергей Сверчков и Виталий Руденя. Choosing a NoSQL database
 
Ernestas Sysojevas. Hadoop Essentials and Ecosystem
Ernestas Sysojevas. Hadoop Essentials and EcosystemErnestas Sysojevas. Hadoop Essentials and Ecosystem
Ernestas Sysojevas. Hadoop Essentials and Ecosystem
 

Similar a Andrei Kirilenkov. Vertica

3 hp minsk_june_25_2015
3 hp minsk_june_25_20153 hp minsk_june_25_2015
3 hp minsk_june_25_2015trenders
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi octantishmanti
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхAndrey Akulov
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
Евгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cЕвгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cExpolink
 
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данныхИван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данныхIBS
 
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...IBS
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open LabDell_Russia
 
Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Andrey Akulov
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
програмные миры Hp2014 нн v2.7_wosub
програмные миры Hp2014 нн v2.7_wosubпрограмные миры Hp2014 нн v2.7_wosub
програмные миры Hp2014 нн v2.7_wosubi-Teco & Vitte Consulting
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данныхElizaveta Alekseeva
 
Защита данных от Dell Software
Защита данных от Dell SoftwareЗащита данных от Dell Software
Защита данных от Dell SoftwareDell_Russia
 

Similar a Andrei Kirilenkov. Vertica (20)

3 hp minsk_june_25_2015
3 hp minsk_june_25_20153 hp minsk_june_25_2015
3 hp minsk_june_25_2015
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi oct
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
Евгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cЕвгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12c
 
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данныхИван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
 
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
Thin client HP
Thin client HPThin client HP
Thin client HP
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
програмные миры Hp2014 нн v2.7_wosub
програмные миры Hp2014 нн v2.7_wosubпрограмные миры Hp2014 нн v2.7_wosub
програмные миры Hp2014 нн v2.7_wosub
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
 
Защита данных от Dell Software
Защита данных от Dell SoftwareЗащита данных от Dell Software
Защита данных от Dell Software
 

Más de Volha Banadyseva

Андрей Светлов. Aiohttp
Андрей Светлов. AiohttpАндрей Светлов. Aiohttp
Андрей Светлов. AiohttpVolha Banadyseva
 
Сергей Зефиров
Сергей ЗефировСергей Зефиров
Сергей ЗефировVolha Banadyseva
 
Валерий Прытков, декан факультета КСиС, БГУИР
Валерий Прытков, декан факультета КСиС, БГУИРВалерий Прытков, декан факультета КСиС, БГУИР
Валерий Прытков, декан факультета КСиС, БГУИРVolha Banadyseva
 
Елена Локтева, «Инфопарк»
Елена Локтева, «Инфопарк»Елена Локтева, «Инфопарк»
Елена Локтева, «Инфопарк»Volha Banadyseva
 
Татьяна Милова, директор института непрерывного образования БГУ
Татьяна Милова, директор института непрерывного образования БГУТатьяна Милова, директор института непрерывного образования БГУ
Татьяна Милова, директор института непрерывного образования БГУVolha Banadyseva
 
Trillhaas Goetz. Innovations in Google and Global Digital Trends
Trillhaas Goetz. Innovations in Google and Global Digital TrendsTrillhaas Goetz. Innovations in Google and Global Digital Trends
Trillhaas Goetz. Innovations in Google and Global Digital TrendsVolha Banadyseva
 
Александр Чекан. 28 правДИвых слайдов о белорусах в интернете
Александр Чекан. 28 правДИвых слайдов о белорусах в интернетеАлександр Чекан. 28 правДИвых слайдов о белорусах в интернете
Александр Чекан. 28 правДИвых слайдов о белорусах в интернетеVolha Banadyseva
 
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в store
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в storeМастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в store
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в storeVolha Banadyseva
 
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App Store
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App StoreБахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App Store
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App StoreVolha Banadyseva
 
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...Volha Banadyseva
 
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google Play
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google PlayЕвгений Невгень. Оптимизация мета-данных приложения для App Store и Google Play
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google PlayVolha Banadyseva
 
Евгений Козяк. Tips & Tricks мобильного прототипирования
Евгений Козяк. Tips & Tricks мобильного прототипированияЕвгений Козяк. Tips & Tricks мобильного прототипирования
Евгений Козяк. Tips & Tricks мобильного прототипированияVolha Banadyseva
 
Егор Белый. Модели успешной монетизации мобильных приложений
Егор Белый. Модели успешной монетизации мобильных приложенийЕгор Белый. Модели успешной монетизации мобильных приложений
Егор Белый. Модели успешной монетизации мобильных приложенийVolha Banadyseva
 
Станислав Пацкевич. Инструменты аналитики для мобильных платформ
Станислав Пацкевич. Инструменты аналитики для мобильных платформСтанислав Пацкевич. Инструменты аналитики для мобильных платформ
Станислав Пацкевич. Инструменты аналитики для мобильных платформVolha Banadyseva
 
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...Volha Banadyseva
 
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...Volha Banadyseva
 
Юлия Ерина. Augmented Reality Games: становление и развитие
Юлия Ерина. Augmented Reality Games: становление и развитиеЮлия Ерина. Augmented Reality Games: становление и развитие
Юлия Ерина. Augmented Reality Games: становление и развитиеVolha Banadyseva
 
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позже
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позжеАлександр Дзюба. Знать игрока: плейтест на стадии прототипа и позже
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позжеVolha Banadyseva
 

Más de Volha Banadyseva (20)

Андрей Светлов. Aiohttp
Андрей Светлов. AiohttpАндрей Светлов. Aiohttp
Андрей Светлов. Aiohttp
 
Сергей Зефиров
Сергей ЗефировСергей Зефиров
Сергей Зефиров
 
Eugene Burmako
Eugene BurmakoEugene Burmako
Eugene Burmako
 
Heather Miller
Heather MillerHeather Miller
Heather Miller
 
Валерий Прытков, декан факультета КСиС, БГУИР
Валерий Прытков, декан факультета КСиС, БГУИРВалерий Прытков, декан факультета КСиС, БГУИР
Валерий Прытков, декан факультета КСиС, БГУИР
 
Елена Локтева, «Инфопарк»
Елена Локтева, «Инфопарк»Елена Локтева, «Инфопарк»
Елена Локтева, «Инфопарк»
 
Татьяна Милова, директор института непрерывного образования БГУ
Татьяна Милова, директор института непрерывного образования БГУТатьяна Милова, директор института непрерывного образования БГУ
Татьяна Милова, директор института непрерывного образования БГУ
 
Trillhaas Goetz. Innovations in Google and Global Digital Trends
Trillhaas Goetz. Innovations in Google and Global Digital TrendsTrillhaas Goetz. Innovations in Google and Global Digital Trends
Trillhaas Goetz. Innovations in Google and Global Digital Trends
 
Александр Чекан. 28 правДИвых слайдов о белорусах в интернете
Александр Чекан. 28 правДИвых слайдов о белорусах в интернетеАлександр Чекан. 28 правДИвых слайдов о белорусах в интернете
Александр Чекан. 28 правДИвых слайдов о белорусах в интернете
 
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в store
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в storeМастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в store
Мастер-класс Ильи Красинского и Елены Столбовой. Жизнь до и после выхода в store
 
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App Store
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App StoreБахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App Store
Бахрам Исмаилов. Продвижение мобильного приложение - оптимизация в App Store
 
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...
Евгений Пальчевский. Что можно узнать из отзывов пользователей в мобильных ма...
 
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google Play
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google PlayЕвгений Невгень. Оптимизация мета-данных приложения для App Store и Google Play
Евгений Невгень. Оптимизация мета-данных приложения для App Store и Google Play
 
Евгений Козяк. Tips & Tricks мобильного прототипирования
Евгений Козяк. Tips & Tricks мобильного прототипированияЕвгений Козяк. Tips & Tricks мобильного прототипирования
Евгений Козяк. Tips & Tricks мобильного прототипирования
 
Егор Белый. Модели успешной монетизации мобильных приложений
Егор Белый. Модели успешной монетизации мобильных приложенийЕгор Белый. Модели успешной монетизации мобильных приложений
Егор Белый. Модели успешной монетизации мобильных приложений
 
Станислав Пацкевич. Инструменты аналитики для мобильных платформ
Станислав Пацкевич. Инструменты аналитики для мобильных платформСтанислав Пацкевич. Инструменты аналитики для мобильных платформ
Станислав Пацкевич. Инструменты аналитики для мобильных платформ
 
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...
Артём Азевич. Эффективные подходы к разработке приложений. Как найти своего п...
 
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...
Дина Сударева. Развитие игровой команды и ее самоорганизация. Роль менеджера ...
 
Юлия Ерина. Augmented Reality Games: становление и развитие
Юлия Ерина. Augmented Reality Games: становление и развитиеЮлия Ерина. Augmented Reality Games: становление и развитие
Юлия Ерина. Augmented Reality Games: становление и развитие
 
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позже
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позжеАлександр Дзюба. Знать игрока: плейтест на стадии прототипа и позже
Александр Дзюба. Знать игрока: плейтест на стадии прототипа и позже
 

Andrei Kirilenkov. Vertica

  • 1. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. СУБД Vertica Платформа для анализа «больших данных» в реальном времени Андрей Кириленков / 25 Июля, 2014
  • 2. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Интеграция с Hadoop 7. Развитие 8. Итоги
  • 3. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3 Содержание 1. Предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 4. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4 • Ограничения традиционных платформ • Big Data «Узкие места» • Разделяемый ресурс • «Массивное» чтение с дисков • Сеть внутри кластера Два вызова в хранении и анализе данных
  • 5. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5 Традиционные платформы • Не могу загружать данные и одновременно их анализировать • Слишком долго выполняются запросы и отчеты • Строю агрегаты и не могу спуститься к детальным данным • Перемещаю данные в инструменты для сложного анализа и data mining • Сложно сопровождать • Не успеваю за ростом нагрузки и объема данных • Дорого и сложно обеспечить высокую доступность • Не хватает дополнительных сред (тестирование, разработка...) Типовые недоумения клиентов
  • 6. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6 Объем (Volume) • 10% организаций обрабатывают 1+ Пб данных • Социальные сети – миллионы транзакций в минуту Скорость (Velocity) • 30% организаций имеют 100+ Гб/день • Данные обновляются и нужны раз в день, час Разнообразие (Variety) • Тексты, Аудио и видео файлы • Блоги, сообщения в сетях – для изучения клиентов • Внутренние источники данных Сложность • Осмысленные связи • Преобразование • Очистка Разно- образие СложностьСкорость Объем Цели: • Эффективность • Удовлетворение клиентов • Снижение риска • Расширение бизнеса Вызов: извлечь из Big Data важное для бизнеса Big Data: информационный вызов
  • 7. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. “Big Data и традиционные данные – две части единой стратегии данных и их анализа” Том Давенпорт (один из трех лучших консультантов мира в области аналитики)
  • 8. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 9. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Стратегия Vertica - анализ больших объемов данных. Vertica спроектирована именно для быстрого анализа ... Ovum считает, что высокопроизводительные колоночные СУБД сегодня нужны компаниям, ищущим замены традиционным платформам. Vertica вполне отвечает их ожиданиям.
  • 10. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10 HP Vertica: история и замысел Vertica Systems основана в 2005 г., куплена НР в 2011 г. Vertica Analytical DB – коммерческая версия исследовательского прототипа C-Store (M. Stonebraker) Платформа для аналитических нагрузок (десятки запросов в сек, большой объем данных в запросе) Shared nothing – архитектура, МРР Простая линейная масштабируемость на «обычных» серверах ACID (Atomicity, Consistency, Isolation, Durability) SQL , реляционная СУБД, любая реляционная модель
  • 11. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.11 Гартнер: магический квадрат
  • 12. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12 2500+ клиентов, начиная с 2006 20 ? 500?
  • 13. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13 2500+ клиентов, начиная с 2006 20+ Петабайт данных 500+ узлов в кластере
  • 14. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.14 Старое хранилище HP Vertica Выгода для бизнеса • Загрузка шла 14 hours • Цена $120К за TB – только лицензии • Загрузка за 1 час • Цена ниже значительно • Экономия бюджета • Анализ в реальном времени (свежие данные) Невозможен скоринг кредитных карт в реальном времени (подтверждение или отказ карты) Кластер из 4 узлов в 2 раза быстрее кластера из 12 узлов и дешевле на 70% • Экономия $20М на лиц. • Экономия $4М на лиц. и серверах в смежном проекте • Достигнуты SLAs Запросы выполняются по 20 часов • Ускорение запросов в 40-80x раз • Стоимость нового решения - 5% от стоимости старого • Сокрадение операционных расходов на 90% • ROI - 3 месяцв • Находят в 10 раз больше потенциальных клиентов HP Vertica в больших компаниях
  • 15. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 16. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16 Базовые принципы Быстрый отклик на запросы Простая и линейная масштабируемость Экономия дискового пространства Загрузка и запросы одновременно, Работа 24x7 Columnar storage and execution Clustering Compression Continuous performance Автоматическая настройка производительности Дизайн БД Временные ряды, география, клики, SDK для разработки Сложный анализ
  • 17. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17 Колоночное хранение • Читает только колонки, нужные для запроса • Данные в колонках можно обновлять • Идеально для интенсивной нагрузки ЗАГРУЗКАЧТЕНИЕ, значительное снижение I/O AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/05/09 5/05/09 5/06/09 5/05/09 5/06/09 143.74 143.75 37.03 37.13 AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/06/09 BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.03 NYSE NYSE NYSE 5/05/09 BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.13 NYSE NYSE NYSE 5/06/09 SELECT avg(price) FROM tickstore WHERE symbol = ‘AAPL” and date = ‘5/06/09’; Колоночное хранение – Читает 3 колонки Строчное хранения – Читает все колонки NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS AAPL AAPL BBY BBY
  • 18. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.18 Кодирование и сжатие • Использует свойства данных (сортировка, мощность - cardinality) • Работает на большом числе строк Не медленное обращение к дискам, а быстрая работу CPU (мощное сжатие) • Раскодирование – как можно позже • 15 алгоритомов сжатия • Тип сжатия подбирается автоматически
  • 19. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19 Проекции: оптимальное хранение • Основная таблица (супер-проекция) не отсортирована • Физический дизайн прозрачен для приложений • Данные хранятся в отсортированном, сжатом виде • Индексы НЕ нужны (колонка сама себе индекс) • Оптимизатор выбирает лучшую проекцию для выполнения запроса • Всегда актуально, не нужно перестраивать / обновлять • Предварительное объединение таблиц (pre-join projections, N:1 joins)
  • 20. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20 Партиционирование • Локальные партиции - на одном узле − CREATE TABLE ... PARTITION BY <expr> - как правило по времени − Вложенности нет − Быстрое удаление данных через партиции, быстрее запросы − На уровне таблиц и распространяется на все проекции • Сегментация: или распределение по узлам кластера − Для каждой проекции − Репликация на каждый узел или сегментация (HASH(col1..coln)) − Создается автоматически с помощью Data base designer
  • 21. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.21 Партиционирование
  • 22. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22 Массивно-параллельная обработка данных • Распределенное хранение и рабочая нагрузка • Shared-nothing архитектура • Линейная масштабируемость на х86_64 серверах. (Больше данных? Выше производительность? Больше пользователей? Добавь новые узлы) Клиентская сеть (1 Гбитс) ODBC, JDBC, ADO.NET Внутри-кластерная сеть (10 Гбитс, full duplex) 8-12 TB 8-12 TB 8-12 TB Node 1  2 x 10-12 Core  128+GB RAM Node 2  2 x 10-12 Core  128+GB RAM Node 3  2 x 10-12 Core  128+GB RAM Узлы кластера – Все узлы равнозначны – Загрузка/Запросы – на любой узел – Непрерывная/в реальном времени загрузка и анализ
  • 23. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23 Распределённое выполнение запросов • Балансировщик (Vertica или Linux) нагрузки отправляет запрос на один из узлов кластера (инициатор) • Инициатор разбирает запрос и составляет план выполнения (cost-based) • Инициатор распределяет запрос по исполнителям • Все узлы выполняет запрос и посылают свою часть результата инициатору • Инициатор собирает результат и отправляет ответ пользователю
  • 24. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24 Автоматический дизайн A B A (A B C | A) (B A C | B A) B C C > Физическая модель, сжатие:  Быстрое выполнение типовых запросов  Поддержка всех загрузок  Гарантия, что все SQL запросы будут отвечены Database Designer:Архитектор: > Логическая модель  Create table > “Типовой набор”  Типичные запросы  Выборки данных > Уровень устойчивости к сбоям  k-safety • Минимальная нагрузка на архитектора в части управления физической моделью данных • Инкрементальная перестройка БД под новые данные и запросы • Запуск в любое время, выполнение без остановки БД
  • 25. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25 Гибридное и гибкое хранение • Загрузка и запросы одновременно (гибридное хранение) • Производительность загрузки масштабируется линейно (реально 35 Tб в час) • Vertica’s FlexStore™ : размещение горячих данных на быстрых носителях (SSD...) • Update = Delete (порождает историю) + Insert • Delete – только метка: снимок БД в момент времени AT TIME 'timestamp' SELECT... Асинхронный перенос данных TUPLE MOVER Read Optimized Store (ROS) • На дисках • Сортировка / Сжатие • Сегментация • Прямая загрузка больших объемов (A B C | A) A B C Непрерывная загрузка Write Optimized Store (WOS)  Находится в памяти  Нет сортировки / Нет сжатия  Сегментация  Свежие данные / Небольшие быстрые вставки A B C
  • 26. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 27. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.27 Встроенная высокая доступность (k-safety) • Колонки дублируются на соседних узлах согласна k-safety (1 или 2) • Не нужно ручное восстановление из журналов • Система принимает загрузки и запросы, когда узел отключен • Данные на отключенном узле запрашиваются на других узлах • Возвращение узла в работу – без остановки кластера • Восстановление после сбоя: Last good epoch или из резервной копии A3 B3 C3 A2 B2 C2 B1 A1 C1B2 A2 C2 B1 A1 C1 A3 B3 C3 A1 B1 C1 B3 A3 C3
  • 28. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28 Защита от катастроф Вариант 1: Загрузка данных в обе системы. (Для больших объемов) За: Обе системы активны Против: ETL обеспечивает согласованность данных Вариант 2: Репликация снимков Vertica Backup За: Минимальный риск не- согласованности данных Против: Во время синхронизации 2-й кластер не активен
  • 29. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29 Легко расширяемый кластер Простое добавление новых серверов • Добавь узел и повысь емкость или быстродействие • Vertica автоматически перераспределяет данные Система работает без остановки • Система принимает запросы во время ре- балансировки кластера Быстрое перераспределение данных • Пример из жизни: расширение от 11 TB и 16 узлов до 32 nodes прошло за 65 минут без остановки системы!
  • 30. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.30 Мониторинг: Vertica Management Console • Управление кластерами через веб-приложение • Полный контроль за работой БД и кластера • Корреляция работы системы и БД Кластер 1 Кластер 2 Кластер 3 Vertica Management Console Browser Access
  • 31. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31 Tactical General Analytic User 1 Управление рабочей нагрузкой • Нет главного узла, т.е. нет узкого места в кластере! − Инициация запросов - равномерно по узлам − Число одновременных запросов растет по мере добавления новых узлов • Настраиваемый менеджер ресурсов − Ресурсные пулы для разных рабочих нагрузок (I/O, CPU, memory, bandwidth, concurrency, duration) − Границы ресуров для пула, пользователя, сессии • Управление в реальном времени − Сменить приоритет запроса − Снять запрос tactical tactical analytic Analytic User 2
  • 32. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.32 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности 1. Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 33. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.33 SQL, адаптированный для Big Data Возможности •ANSI SQL-99 •Развитые функции для работы со временем •Временные ряды: – Заполнением пробелов – Разбивка на окна – Разбивка на сессии потока «кликов» •Статистика •Поддержка R (анализ и data mining) •Пакет гео-пространственных функций •Анализ текстов analytic_function ( arguments ) OVER( analytic_clause ) Примеры •Ранжировать клиентов по лояльности и регионами •Вычислить скользящее среднее объема продаж за период времени •Найти высший балл среди всех студентов одного курса •Сравнить текущий бонус каждого из продавцов с его предыдущим бонусом •Анализ «кликов» с помощью шаблонов
  • 34. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.34 Временной ряд: интерполяция •Система интеллектуального учета нерегулярно поставляет данные о потреблении энергии •Данные нужно хранить в БД за каждые 10 минут без пробелов •Все пробелы нужно заполнить select meter_id, interval_5min, ts_first_value(power_consumption, 'linear') from energy_readings timeseries interval_5min as '5 minutes' over (partition by meter_id order by reading_date); Пример: Подготовить данные с устройств для анализа (smart meter data)
  • 35. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.35 Поддержка R • Что такое R? • Язык для статистического анализа с открытым кодом • Много пакетов для сложного исследования данных (data mining) и статистического анализа • Преимущества пользовательских расширений (Udx) в R • Vertica автоматически за-параллеливает вычисления R • Оптимизирована передача данных между Vertica и R Verticaкластер
  • 36. Исходный код в R UDx в R, пример: метод K-средних # Example: K-means (k=5) # Input: two-dimensional points # Output: the point coordinates plus their assigned # cluster kmeansClu <- function(x) { cl <- kmeans(x,5,10) res <- data.frame(x[,1:2], cl$cluster) res kmeansCluFactory <- function() { list(name=kmeansClu, udxtype=c("transform"), intype=c("float","float"), outtype=c("float","float","int"), outnames=c("x","y","cluster") ) } Создание и использование функции -- Define function CREATE LIBRARY rlib AS ‘/path/rcode.R’ LANGUAGE 'R'; CREATE TRANSFORM FUNCTION Kmeans AS LANGUAGE 'R' NAME 'kmeansCluFactory' LIBRARY rlib; -- Use function CREATE TABLE point_data ( x FLOAT, y FLOAT ); SELECT Kmeans(x, y) OVER() FROM point_data;
  • 37. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.37 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 38. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.38 Внешние таблицы • Внешняя таблица: файл доступен для Vertica (SQL), но не управляем ею (DML невозможен) • «Холодные» данные хранятся на дешевых носителях – анализ по мере надобности • Передача данных из других SQL СУБД, HDFS (User Defined Load) • Можно объединять (Join) данные из внешних источников с данными из Vertica VMart=> create external table ext (x integer) as copy from '/home/dbadmin/ext.dat'; Vertica External Table External TableExternal Table
  • 39. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.39 Unstructured Dark Data Гибкая таблица, зона (Flex Zone) Native Vertica Data Flex Zone Быстрый, ежедневный анализПредварительный анализ Внешние структурированные данные Внешние таблицы • MapReduce • Sqoop • HDFS Анализируй данные, не зная их структуры
  • 40. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.40 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ 1. Внешние и гибкие таблицы • Hadoop 7. Развитие 8. Итоги
  • 41. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.41 Интеграция с Hadoop Быстрая СУБД должна быть интегрирована с Hadoop, а не встроена в него Hadoop / Vertica: Сложный анализ MapReduce / Pig Job DFS Block 1 DFS Block 1 DFS Block 1 DFS Block 2 DFS Block 2 DFS Block 2 DFS Block 3 DFS Block 3 Map Map Map Reduce Vertica Data data data data data da data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data MapReduce / Pig Job DFS Block 1 DFS Block 1 DFS Block 1 DFS Block 2 DFS Block 2 DFS Block 2 DFS Block 3 DFS Block 3 Map Map Map Reduce VerticaVertica Hadoop / Vertica: преобразование данных HDFS File
  • 42. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.42 Интеграция с Hadoop HDFS connector • Загрузка в Vertica из HDFS через COPY оптимальная параллельность – SQL к HDFS через внешнюю таблицу – Безопасность через авторизацию Kerberos Hadoop & Pig Connector • Перемещение данных между Hadoop и Vertica • Запросу к Hadoop из Vertica • JDBCODBC для Windows, Linux, Solaris, AIX и др. Hcatalog • Запросу к Hadoop из Vertica • Доступ через внешние таблицы • Open SQL on Hadoop
  • 43. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.43 Как работает коннектор к HDFS?
  • 44. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.44 Содержание 1. Big data и предпосылки к созданию HP Vertica 2. HP Vertica: история, основы, практика 3. HP Vertica: Архитектура 4. Высокая доступность 5. Управление рабочей нагрузкой 6. Возможности • Анализ • Внешние и гибкие таблиВнешние и гибкие табли • Hadoop 7. Развитие 8. Итоги
  • 45. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.45 Ближайшая версия Vertica “Dragline” FY14 FY15 • Проекции-агрегаты: ускорение ресуроемких агрегирующих функций • Динамическое управление смешанной рабочей нагрузкой • Vertica Pulse: анализ текстов и окраски высказываний в соц.сетях • Vertica Place: хранение и анализ гео-пространственных данных • Расширение SQL над Hadoop
  • 46. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.46 HP Vertica в развитии Vertica “Crane” (7.0) - Key-Value Lookups с интерфейсом к NoSQL Vertica “Dragline” - Проекции-агрегаты - Гео-и-текстовая аналитика - Текстовый поиск Vertica “Excavator” - In-Memory - Кубы - Текстовый поиск Vertica “Frontloader” - Streaming - Federation for Read and Write – Unified SQL - Navigation and joins- across HBase and Other NoSQL Tools ВИДЕНИЕ Fast self- service analytics for consumers FY14 FY15
  • 47. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.47 Кратко о Vertica • Колоночное: быстрый доступ к нужным данным, снижение I/O • Загрузка и запросы в реальном времени • Автоматический дизайн • MPP кластер х86_64 серверов, просто расширяемый до Петабайтов данных • Мощная аналитика: – встроенные аналитические функции, полная поддержка R, – среда для разработки UDFUDX • Flex Zone: Быстрый и дешевый анализ непонятных данных без создания схем данных в Vertica • Тесная интеграция с MapR, Hadoop • Внешние таблицы: передача данных из SQL СУБД, HDFS • Встроенная высокая доступность • Управление рабочей нагрузкой Платформа нового поколения
  • 48. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.48 Ещё раз о выгодах Быстрая отдача • Загрузка и запросы одновременно • Автоматический дизайн • Простая инсталляция и управление Быстрый анализ • В одном темпе с бизнесом • Реальное время Расширяй платформу по мере необходимости • Без остановки кластера • Иногда без докупки лицензий
  • 49. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Спасибо!
  • 50. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.50 Приложения
  • 51. © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.51 Системные ограничения Item Limit Number of nodes Maximum 128 (without HP Vertica assistance). Database size Approximates the number of files times the file size on a platform, depending on the maximum disk configuration. Table size 2^64 rows per node, or 2^63 bytes per column, whichever is smaller. Row size 32 MB. The row size is approximately the sum of its maximum column sizes, where, for example, a VARCHAR(80) has a maximum size of 80 bytes. Key size Limited only by row size Number of tables/projections per database Limited by physical RAM, as the catalog must fit in memory. Number of concurrent connections per node Default of 50, limited by physical RAM (or threads per process), typically 1024. Number of concurrent connections per cluster Limited by physical RAM of a single node (or threads per process), typically 1024. Number of columns per table 1600. Number of rows per load 2^63. Number of partitions 1024. •While HP Vertica supports a maximum of 1024 partitions, few, if any, organizations will need to approach that maximum. Fewer partitions are likely to meet your business needs, while also ensuring maximum performance. Many customers, for example, partition their data by month, bringing their partition count to 12. HP Vertica recommends you keep the number of partitions between 10 and 20 to achieve excellent performance. Length for a fixed-length column 65000 bytes. Length for a variable-length column 65000 bytes. Length of basic names 128 bytes. Basic names include table names, column names, etc. Query length No limit. Depth of nesting subqueries Unlimited in FROM, WHERE, or HAVING clause.