SlideShare a Scribd company logo
1 of 45
Download to read offline
Информационные технологии
в эру Больших данных
к.э.н. Сергей Вячеславович Макрушин
s-makrushin@yandex.ru
https://www.linkedin.com/in/smakrushin
октябрь 2015
1
Что такое Большие данные?
2ОБЪЕМ ДАННЫХ
Нелинейный рост объема данных
экзабайт = «мега * терабайт» = 2^20 * 2^40 = 2^60 байт
3СИНЕРГИЯ ДАННЫХ
Небывалая концентрация данных
в рамках одной IT-сиcтемы
1998 2008
4ДОМИНИРОВАНИЕ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ
Доля структурированных данных
в цифровом мире становится все меньше
5СПЕЦИФИКА ЗАДАЧ ИЗ ОБЛАСТИ БОЛЬШИХ ДАННЫХ - 4V
6ВЫЗОВЫ БОЛЬШИХ ДАННЫХ
• Объёмы данных
Хранилища достигли невероятных размеров. Только за 2009 и 2010 годы в базах было
сохранено больше информации, чем за всю предыдущую историю человечества.
• Связанность данных
Информация перестала быть изолированной. Каждый кусочек знаний как-то связан с
данными в других хранилищах информации.
• Обработка данных при помощи независимых сервисов
Обработка информации происходит параллельно во множестве изолированных
систем, зачастую принадлежащих разным владельцам. Все чаще поставщики данных
не участвуют в интеграции систем, а предоставляют их «как есть».
• Слабая структурированность данных
Пример: описание товара в магазине. Если раньше было достаточно 5-6 полей, чтобы
описать товар, то теперь их бывает до нескольких десятков (причем различных для
разных товаров). Стало очень сложно поддерживать структуру базы данных.
7
Как обработать Большие данные?
8ПЕРЕХОД К РАСПРЕДЕЛЕННЫМ ВЫЧИСЛЕНИЯМ: ПРОЦЕССОРЫ
Альтернативные формулировки закона Мура:
«число транзисторов в производимых чипах удваивается каждые два года»
«тактовая частота микропроцессоров удваивается каждые 18 месяцев»
Тактовая частотаЧисло транзисторов
В 2005 году эпоха одноядерных процессоров
(однопоточных приложений) закончилась
9ПЕРЕХОД К РАСПРЕДЕЛЕННЫМ ВЫЧИСЛЕНИЯМ: КЛАСТЕРЫ
Экономика диктует применение
систем с массовым параллелизмом
VS
10МАСШТАБИРУЕМОСТЬ ПРИЛОЖЕНИЙ ДЛЯ БОЛЬШИХ ДАННЫХ
Для Больших данных необходима
настоящая масштабируемость приложений
11ПРОБЛЕМА МАСШТАБИРУЕМОСТИ: ЗАКОН АМДАЛА
Массовый параллелизм требует
смены парадигмы программирования
12РЕШЕНИЕ ПРОБЛЕМЫ МАСШТАБИРУЕМОСТИ
• Качественное изменение в обрабатываемых данных
(объем, неструктурированность)
• Качественное изменение в аппаратных решениях для
обработки данных
• Качественное изменение в методах хранения и
обработки данных
Неизбежно
13РЕШЕНИЕ «НЕРЕШАЕМЫХ» ПРОБЛЕМ
• Качественное изменение в обрабатываемых данных
(объем, неструктурированность)
• Качественное изменение в аппаратных решениях для
обработки данных
• Качественное изменение в методах хранения и
обработки данных
• Качественное изменение в результатах обработки
данных
Неизбежно
Неожиданно!
14МАШИННОЕ ОБУЧЕНИЕ
Алгоритмы машинного обучения –
killer app для Больших данных
15ЭКОСИСТЕМА БОЛЬШИХ ДАННЫХ
КАК?
• Хранение данных:
• NoSQL
• Распределенные
файловые системы
• Обработка данных:
• Распределенные
вычисления (map-
reduce и пр.)
ЗАЧЕМ?
• Машинное обучение
16ПОНЯТИЕ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ
Технологии БД, в широком смысле, это
технологии обработки и анализа данных
17
Как применить технологии
Больших данных?
18IT BUZZWORD`S - МОДНЫЕ СЛОВА ПРОДАЮЩИЕ IT ТЕХНОЛОГИИ
Большие данные – очередное
модное слово в IT
#Mobile
#Social
#Web 2.0
#Data mining
#Dot com
#Big Data
#Cloud
#IoT
19
Большие данные – очередная
волна синергии в IT
СИНЕРГИЯ БОЛЬШИХ ДАННЫХ
20ПОПУЛЯРНОСТЬ БОЛЬШИХ ДАННЫХ
Тема Больших данных перегрета
Вложения в технологии Больших данных
Поисковые тренды по Big Data (google.com)
21КРИВАЯ ГАРТНЕРА
Нас ждет разочарование и…
внедрение технологий Больших данных
22HADOOP MAP REDUCE
User
Program
Worker
Worker
Master
Worker
Worker
Worker
fork
fork
fork
assign
map
assign
reduce
read
local
write
remote
read,
sort
Output
File 0
Output
File 1
write
Split 0
Split 1
Split 2
Input Data
23ЛОВУШКА МОДЫ НА HADOOP
Трезво оцените свои потребности
…
…
…
…
24ПУТИ ВНЕДРЕНИЯ БОЛЬШИХ ДАННЫХ
Выйти из мира
малых данных
Остаться в мире
малых данных
• Присмотреться к своим данным
• Начать хранить «лишние» данные
• Обогащение данных
• Данные из Web / Мобильных
устройств / соцсетей
• Данные от устройств
• Конверсия технологий
Больших данных
25ДОСТУПНОСТЬ ДАННЫХ В РАЗНЫХ ОТРАСЛЯХ
Во многих отраслях Больших
данных пока просто нет
Удельный объем данных по отраслям
26КОНВЕРСИЯ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ
Во многих случаях конверсия технологий
Больших данных – лучший выбор
27
Обзор подходов NoSQL
28РЕЛЯЦИОННЫЙ ПОДХОД К ПОСТРОЕНИЮ БД
• ACID (Atomicity, Consistency, Isolation, Durability — атомарность,
согласованность, изолированность, долговечность),
• Типизированные столбцы
• Простые структуры данных
• Нормализованные данные
• Обеспечение целостности данных
• Поддержка широкого класса запросов
• Многопользовательский доступ к данным
• Привилегии и права доступа
• Встроенный оптимизатор запросов
• Стандартизованный способ доступа к данным (SQL)
• Множество инструментальных средств
29РОСТ СЛОЖНОСТИ ДАННЫХ
30ОГРАНИЧЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ СУБД
31CAP ТЕОРЕМА
«Теорема CAP» (Брюера)
• Невозможно одновременно обеспечить
согласованность данных (consistancy),
доступность (availability, в смысле
корректность отклика по любому запросу) и
устойчивость к расщеплению системы на
распределённые (изолированные) части
(partition tolerance).
• Возможные варианты: CA, CP, AP
• Отход от ACID (Atomicity, Consistency,
Isolation, Durability — атомарность,
согласованность, изолированность,
долговечность), обеспечиваемых
традиционными реляционными СУБД,
позволяет создавать масштабируемое
производительное решение с высокой
доступностью и устойчивостью к
разделению
Согласованность
во всех вычислительных
узлах в один момент
времени данные не
противоречат друг другу
Доступность
любой запрос к
распределённой
системе завершается
корректным
откликом
Устойчивость к расщеплению
расщепление распределённой системы на
несколько изолированных секций не приводит к
некорректности отклика от каждой из секций
32NoSQL – НОВЫЕ ПОДХОДЫ К ХРАНЕНИЮ И ОБРАБОТКЕ ДАННЫХ
NoSQL — ряд подходов, к реализации хранилищ баз данных, имеющих
существенные отличия от реляционных СУБД.
• NoSQL = Not ONLY SQL. Подход NoSQL не является отрицанием реляционного
подхода (SQL), а рассматривает его как важный и полезный, но не универсальный
инструмент.
Черты, присущие подходам NoSQL (к некоторым подходам относятся не все св-ва)
• Является большим хранилищем сериализованных объектов
• Поиск информации по ID
• В общем случае сложные запросы к данным не поддерживаются
• Не имеют структурированной (а подчас и вообще какой-либо) схемы (нет реляционной
модели)
• Ориентированы на работу с денормализованными данными
• Являются готовыми решениями для создания распределенных хранилищ данных (на
основе кластеров ) из-за этого не поддерживают требований ACID
• Любой узел распределенного хранилища может отвечать на любой запрос
• Любое изменение (добавление) информации может выполнятся для любого узла
хранилища и со временем распространится на другие узлы
33АГРЕГИРОВАННОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ
Нормализованное представление
Агрегированное представление
34АГРЕГИРОВАННОЕ ПРЕДСТАВЛЕНИЕ – ПЛЮСЫ И МИНУСЫ
35ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ
Key-Value (Ключ-Значение) базы данных
Очень простые по своей идее хранилища. Фактически это очень большие
хэш-таблицы, где каждому ключу поставлено в соответствие значение.
Такие базы могут очень быстро оперировать колоссальными объемами
информации, но они имеют серьезные ограничения в языке запросов.
Представители: Dynomite, Voldemort, Tokyo, Redis.
36ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ
Документо-ориентированные базы данных
Документо-ориентированные базы напоминают Key-Value базы, но в
данном случае, база данных знает, что из себя представляют значения.
Обычно, значением является некоторый документ или объект, к структуре
которого можно делать запросы.
Представители: CouchDB и MongoDB.
{
first_name: “Oleg”,
last_name: “Kachan”,
contacts: {
twitter: “maximalno”,
email: “683009@gmail.com”
},
skills: [“php”, “node.js”, “mongodb”]
}
_id: ObjectId(“4daf…”) => db.users.insert({ first_name: “Oleg” })
db.users.find()
db.users.find({}, { first_name: 1 })
db.users.find({first_name: “Oleg” }).sort({
_id: -1 }).skip(1).limit(10)
37ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ
Column-oriented («колоночные») базы данных
База представляет собой большую таблицу с тремя измерениями: колонки,
строки и временны'е метки. Такая архитектура позволяет добиться очень
высокой производительности, кроме того, она хорошо масштабируется на
множество компьютеров. Но это не реляционная база, и она не
поддерживает многие возможности реляционных баз. В частности в
сolumn-oriented БД нет join-ов, нет сложных запросов и т.д.
Представители: Hadoop, Hypertable иCassandra.
38ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ
Графовые базы данных
Такие базы ориентированы на поддержку сложных взаимосвязей между
объектами, и основываются на графовом представлении данных. Структура
данных в таких базах представляет собой набор узлов, связанных между
собой ссылками. При этом и узлы и ссылки могут обладать некоторым
количеством атрибутов.
Представители: Neo4j, AllegroGraph, Sones graphDB.
39КЛАССИФИКАЦИЯ ТИПОВ И ВИДОВ СУБД В CAP ПРОСТРАНСТВЕ
40ТЕОРЕМА CAP - CA
Система, во всех узлах которой данные согласованы и обеспечена доступность,
жертвует устойчивостью к распаду на секции. Такие системы возможны на основе
технологического программного обеспечения, поддерживающего транзакционность
в смысле ACID.
Примерами таких систем могут быть решения на основе кластерных систем
управления базами данных или распределённая служба каталогов LDAP.
41ТЕОРЕМА CAP - CP
Распределённая система, в каждый момент обеспечивающая целостный результат
и способная функционировать в условиях распада, в ущерб доступности может не
выдавать отклик.
Устойчивость к распаду на секции требует обеспечения дублирования изменений
во всех узлах системы, в этой связи отмечается практическая целесообразность
использования в таких системах распределённых пессимистических блокировок
для сохранения целостности
42ТЕОРЕМА CAP - AP
Распределённая система, отказывающаяся от целостности результата.
Большинство NoSQL-систем принципиально не гарантируют целостности данных, и
ссылаются на теорему CAP как на мотив такого ограничения.
Задачей при построении AP-систем становится обеспечение некоторого
практически целесообразного уровня целостности данных, в этом смысле про AP-
системы говорят как о «целостных в конечном итоге» (eventually consistent) или как
о «слабо целостных» (weak consistent)
43POLYGLOT PERSISTANCE
СПАСИБО ЗА ВНИМАНИЕ!
к.э.н. Сергей Вячеславович Макрушин
s-makrushin@yandex.ru
https://www.linkedin.com/in/smakrushin
октябрь 2015
http://www.cioacademy.ru/hc-program-2015-autumn/

More Related Content

What's hot

Инструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииИнструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииAndrei Nikolaenko
 
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTУправление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTКРОК
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхDenodo
 
Управление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell SoftwareУправление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell SoftwareDell_Russia
 
Платежная система Деньги@Mail.Ru
Платежная система Деньги@Mail.RuПлатежная система Деньги@Mail.Ru
Платежная система Деньги@Mail.RuMax Babich
 
максим бабич
максим бабичмаксим бабич
максим бабичkuchinskaya
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruLviv Startup Club
 
Модернизируем сеть вместе с Dell
Модернизируем сеть вместе с DellМодернизируем сеть вместе с Dell
Модернизируем сеть вместе с DellDell_Russia
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...IT-Portfolio
 
Управление Данными. Лекция 5
Управление Данными. Лекция 5Управление Данными. Лекция 5
Управление Данными. Лекция 5Dmitriy Krukov
 
Высокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellВысокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellDell_Russia
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
Преимущества Dell
Преимущества DellПреимущества Dell
Преимущества DellDell_Russia
 
Microsoft Exchange: почта и управление рабочим временем в облаке
Microsoft Exchange: почта и управление рабочим временем в облакеMicrosoft Exchange: почта и управление рабочим временем в облаке
Microsoft Exchange: почта и управление рабочим временем в облакеActiveCloud
 

What's hot (19)

Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)
 
Инструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииИнструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграции
 
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULTУправление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
Управление данными и защита от сбоев. Решения КРОК на основе продуктов COMMVAULT
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
Управление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell SoftwareУправление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell Software
 
Платежная система Деньги@Mail.Ru
Платежная система Деньги@Mail.RuПлатежная система Деньги@Mail.Ru
Платежная система Деньги@Mail.Ru
 
максим бабич
максим бабичмаксим бабич
максим бабич
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Управление данными (Введение в СУБД)
Управление данными (Введение в СУБД)Управление данными (Введение в СУБД)
Управление данными (Введение в СУБД)
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
Модернизируем сеть вместе с Dell
Модернизируем сеть вместе с DellМодернизируем сеть вместе с Dell
Модернизируем сеть вместе с Dell
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
 
Управление Данными. Лекция 5
Управление Данными. Лекция 5Управление Данными. Лекция 5
Управление Данными. Лекция 5
 
Управление данными (реляционная модель)
Управление данными (реляционная модель)Управление данными (реляционная модель)
Управление данными (реляционная модель)
 
Высокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellВысокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе Dell
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Управление данными (дополнительно)
Управление данными (дополнительно)Управление данными (дополнительно)
Управление данными (дополнительно)
 
Преимущества Dell
Преимущества DellПреимущества Dell
Преимущества Dell
 
Microsoft Exchange: почта и управление рабочим временем в облаке
Microsoft Exchange: почта и управление рабочим временем в облакеMicrosoft Exchange: почта и управление рабочим временем в облаке
Microsoft Exchange: почта и управление рабочим временем в облаке
 

Viewers also liked

Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...
Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...
Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...ETWIE
 
Презентація до теми 3
Презентація до теми 3Презентація до теми 3
Презентація до теми 3NinaDrokina
 
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contribution
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contributionImpacts, Adaptation and Vulnerability: Overview of AR5 WGII contribution
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contributionipcc-media
 
Telecommunication Services for High Rise Buildings
Telecommunication Services for High Rise BuildingsTelecommunication Services for High Rise Buildings
Telecommunication Services for High Rise BuildingsPang Shuen
 

Viewers also liked (11)

2015.10.12新聞剪報
2015.10.12新聞剪報2015.10.12新聞剪報
2015.10.12新聞剪報
 
Your Tormenting Thought Life: You or Satan?
Your Tormenting Thought Life: You or Satan?Your Tormenting Thought Life: You or Satan?
Your Tormenting Thought Life: You or Satan?
 
Portfólio 2015
Portfólio 2015Portfólio 2015
Portfólio 2015
 
Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...
Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...
Davy Jacobs - Een heroriëntatie van de scenografie, publiekswerking en commun...
 
inno marta diaz
inno marta diazinno marta diaz
inno marta diaz
 
Certificate
CertificateCertificate
Certificate
 
Презентація до теми 3
Презентація до теми 3Презентація до теми 3
Презентація до теми 3
 
Лекція 4 обмін речовин
Лекція 4 обмін речовинЛекція 4 обмін речовин
Лекція 4 обмін речовин
 
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contribution
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contributionImpacts, Adaptation and Vulnerability: Overview of AR5 WGII contribution
Impacts, Adaptation and Vulnerability: Overview of AR5 WGII contribution
 
Telecommunication Services for High Rise Buildings
Telecommunication Services for High Rise BuildingsTelecommunication Services for High Rise Buildings
Telecommunication Services for High Rise Buildings
 
WEARABLE BIOSENSORS
WEARABLE BIOSENSORSWEARABLE BIOSENSORS
WEARABLE BIOSENSORS
 

Similar to Информационные технологии в эру Больших данных

Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БДAndrew Sovtsov
 
Поддержка NoSQL и платформ MongoDB, Hive и Teradata в продуктах Embarcadero
Поддержка NoSQL и платформ MongoDB, Hive и Teradata  в продуктах EmbarcaderoПоддержка NoSQL и платформ MongoDB, Hive и Teradata  в продуктах Embarcadero
Поддержка NoSQL и платформ MongoDB, Hive и Teradata в продуктах EmbarcaderoAndrew Sovtsov
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015Shamim bhuiyan
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub.NET User Group Dnipro
 
как из трех стоек сделать две.
как из трех стоек сделать две.как из трех стоек сделать две.
как из трех стоек сделать две.Serguei Gitinsky
 
Безопасность ЦОД-часть 2
Безопасность ЦОД-часть 2Безопасность ЦОД-часть 2
Безопасность ЦОД-часть 2Cisco Russia
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данныхОмские ИТ-субботники
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
 
сафаев дз2
сафаев дз2сафаев дз2
сафаев дз2OrtiqSafayev
 
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)Ontico
 
Дедупликацию в каждый ЦОД
Дедупликацию в каждый ЦОДДедупликацию в каждый ЦОД
Дедупликацию в каждый ЦОДКРОК
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхDenodo
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможностиStanislav Makarov
 
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...Cisco Russia
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТVasily Ryzhonkov
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. SberbankNewprolab
 

Similar to Информационные технологии в эру Больших данных (20)

Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Поддержка NoSQL и платформ MongoDB, Hive и Teradata в продуктах Embarcadero
Поддержка NoSQL и платформ MongoDB, Hive и Teradata  в продуктах EmbarcaderoПоддержка NoSQL и платформ MongoDB, Hive и Teradata  в продуктах Embarcadero
Поддержка NoSQL и платформ MongoDB, Hive и Teradata в продуктах Embarcadero
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub
 
как из трех стоек сделать две.
как из трех стоек сделать две.как из трех стоек сделать две.
как из трех стоек сделать две.
 
Безопасность ЦОД-часть 2
Безопасность ЦОД-часть 2Безопасность ЦОД-часть 2
Безопасность ЦОД-часть 2
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
2014-01-04 02 Алексей Зиновьев. Выбор NoSQL базы данных
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
 
сафаев дз2
сафаев дз2сафаев дз2
сафаев дз2
 
Градус эффективности цод
Градус эффективности цодГрадус эффективности цод
Градус эффективности цод
 
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
 
Дедупликацию в каждый ЦОД
Дедупликацию в каждый ЦОДДедупликацию в каждый ЦОД
Дедупликацию в каждый ЦОД
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...
Развитие решений Cisco для ЦОД глазами специалиста по серверам и приложениям...
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 

Информационные технологии в эру Больших данных

  • 1. Информационные технологии в эру Больших данных к.э.н. Сергей Вячеславович Макрушин s-makrushin@yandex.ru https://www.linkedin.com/in/smakrushin октябрь 2015
  • 3. 2ОБЪЕМ ДАННЫХ Нелинейный рост объема данных экзабайт = «мега * терабайт» = 2^20 * 2^40 = 2^60 байт
  • 4. 3СИНЕРГИЯ ДАННЫХ Небывалая концентрация данных в рамках одной IT-сиcтемы 1998 2008
  • 5. 4ДОМИНИРОВАНИЕ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ Доля структурированных данных в цифровом мире становится все меньше
  • 6. 5СПЕЦИФИКА ЗАДАЧ ИЗ ОБЛАСТИ БОЛЬШИХ ДАННЫХ - 4V
  • 7. 6ВЫЗОВЫ БОЛЬШИХ ДАННЫХ • Объёмы данных Хранилища достигли невероятных размеров. Только за 2009 и 2010 годы в базах было сохранено больше информации, чем за всю предыдущую историю человечества. • Связанность данных Информация перестала быть изолированной. Каждый кусочек знаний как-то связан с данными в других хранилищах информации. • Обработка данных при помощи независимых сервисов Обработка информации происходит параллельно во множестве изолированных систем, зачастую принадлежащих разным владельцам. Все чаще поставщики данных не участвуют в интеграции систем, а предоставляют их «как есть». • Слабая структурированность данных Пример: описание товара в магазине. Если раньше было достаточно 5-6 полей, чтобы описать товар, то теперь их бывает до нескольких десятков (причем различных для разных товаров). Стало очень сложно поддерживать структуру базы данных.
  • 9. 8ПЕРЕХОД К РАСПРЕДЕЛЕННЫМ ВЫЧИСЛЕНИЯМ: ПРОЦЕССОРЫ Альтернативные формулировки закона Мура: «число транзисторов в производимых чипах удваивается каждые два года» «тактовая частота микропроцессоров удваивается каждые 18 месяцев» Тактовая частотаЧисло транзисторов В 2005 году эпоха одноядерных процессоров (однопоточных приложений) закончилась
  • 10. 9ПЕРЕХОД К РАСПРЕДЕЛЕННЫМ ВЫЧИСЛЕНИЯМ: КЛАСТЕРЫ Экономика диктует применение систем с массовым параллелизмом VS
  • 11. 10МАСШТАБИРУЕМОСТЬ ПРИЛОЖЕНИЙ ДЛЯ БОЛЬШИХ ДАННЫХ Для Больших данных необходима настоящая масштабируемость приложений
  • 12. 11ПРОБЛЕМА МАСШТАБИРУЕМОСТИ: ЗАКОН АМДАЛА Массовый параллелизм требует смены парадигмы программирования
  • 13. 12РЕШЕНИЕ ПРОБЛЕМЫ МАСШТАБИРУЕМОСТИ • Качественное изменение в обрабатываемых данных (объем, неструктурированность) • Качественное изменение в аппаратных решениях для обработки данных • Качественное изменение в методах хранения и обработки данных Неизбежно
  • 14. 13РЕШЕНИЕ «НЕРЕШАЕМЫХ» ПРОБЛЕМ • Качественное изменение в обрабатываемых данных (объем, неструктурированность) • Качественное изменение в аппаратных решениях для обработки данных • Качественное изменение в методах хранения и обработки данных • Качественное изменение в результатах обработки данных Неизбежно Неожиданно!
  • 15. 14МАШИННОЕ ОБУЧЕНИЕ Алгоритмы машинного обучения – killer app для Больших данных
  • 16. 15ЭКОСИСТЕМА БОЛЬШИХ ДАННЫХ КАК? • Хранение данных: • NoSQL • Распределенные файловые системы • Обработка данных: • Распределенные вычисления (map- reduce и пр.) ЗАЧЕМ? • Машинное обучение
  • 17. 16ПОНЯТИЕ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ Технологии БД, в широком смысле, это технологии обработки и анализа данных
  • 19. 18IT BUZZWORD`S - МОДНЫЕ СЛОВА ПРОДАЮЩИЕ IT ТЕХНОЛОГИИ Большие данные – очередное модное слово в IT #Mobile #Social #Web 2.0 #Data mining #Dot com #Big Data #Cloud #IoT
  • 20. 19 Большие данные – очередная волна синергии в IT СИНЕРГИЯ БОЛЬШИХ ДАННЫХ
  • 21. 20ПОПУЛЯРНОСТЬ БОЛЬШИХ ДАННЫХ Тема Больших данных перегрета Вложения в технологии Больших данных Поисковые тренды по Big Data (google.com)
  • 22. 21КРИВАЯ ГАРТНЕРА Нас ждет разочарование и… внедрение технологий Больших данных
  • 24. 23ЛОВУШКА МОДЫ НА HADOOP Трезво оцените свои потребности … … … …
  • 25. 24ПУТИ ВНЕДРЕНИЯ БОЛЬШИХ ДАННЫХ Выйти из мира малых данных Остаться в мире малых данных • Присмотреться к своим данным • Начать хранить «лишние» данные • Обогащение данных • Данные из Web / Мобильных устройств / соцсетей • Данные от устройств • Конверсия технологий Больших данных
  • 26. 25ДОСТУПНОСТЬ ДАННЫХ В РАЗНЫХ ОТРАСЛЯХ Во многих отраслях Больших данных пока просто нет Удельный объем данных по отраслям
  • 27. 26КОНВЕРСИЯ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ Во многих случаях конверсия технологий Больших данных – лучший выбор
  • 29. 28РЕЛЯЦИОННЫЙ ПОДХОД К ПОСТРОЕНИЮ БД • ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, долговечность), • Типизированные столбцы • Простые структуры данных • Нормализованные данные • Обеспечение целостности данных • Поддержка широкого класса запросов • Многопользовательский доступ к данным • Привилегии и права доступа • Встроенный оптимизатор запросов • Стандартизованный способ доступа к данным (SQL) • Множество инструментальных средств
  • 32. 31CAP ТЕОРЕМА «Теорема CAP» (Брюера) • Невозможно одновременно обеспечить согласованность данных (consistancy), доступность (availability, в смысле корректность отклика по любому запросу) и устойчивость к расщеплению системы на распределённые (изолированные) части (partition tolerance). • Возможные варианты: CA, CP, AP • Отход от ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, долговечность), обеспечиваемых традиционными реляционными СУБД, позволяет создавать масштабируемое производительное решение с высокой доступностью и устойчивостью к разделению Согласованность во всех вычислительных узлах в один момент времени данные не противоречат друг другу Доступность любой запрос к распределённой системе завершается корректным откликом Устойчивость к расщеплению расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций
  • 33. 32NoSQL – НОВЫЕ ПОДХОДЫ К ХРАНЕНИЮ И ОБРАБОТКЕ ДАННЫХ NoSQL — ряд подходов, к реализации хранилищ баз данных, имеющих существенные отличия от реляционных СУБД. • NoSQL = Not ONLY SQL. Подход NoSQL не является отрицанием реляционного подхода (SQL), а рассматривает его как важный и полезный, но не универсальный инструмент. Черты, присущие подходам NoSQL (к некоторым подходам относятся не все св-ва) • Является большим хранилищем сериализованных объектов • Поиск информации по ID • В общем случае сложные запросы к данным не поддерживаются • Не имеют структурированной (а подчас и вообще какой-либо) схемы (нет реляционной модели) • Ориентированы на работу с денормализованными данными • Являются готовыми решениями для создания распределенных хранилищ данных (на основе кластеров ) из-за этого не поддерживают требований ACID • Любой узел распределенного хранилища может отвечать на любой запрос • Любое изменение (добавление) информации может выполнятся для любого узла хранилища и со временем распространится на другие узлы
  • 34. 33АГРЕГИРОВАННОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ Нормализованное представление Агрегированное представление
  • 36. 35ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ Key-Value (Ключ-Значение) базы данных Очень простые по своей идее хранилища. Фактически это очень большие хэш-таблицы, где каждому ключу поставлено в соответствие значение. Такие базы могут очень быстро оперировать колоссальными объемами информации, но они имеют серьезные ограничения в языке запросов. Представители: Dynomite, Voldemort, Tokyo, Redis.
  • 37. 36ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ Документо-ориентированные базы данных Документо-ориентированные базы напоминают Key-Value базы, но в данном случае, база данных знает, что из себя представляют значения. Обычно, значением является некоторый документ или объект, к структуре которого можно делать запросы. Представители: CouchDB и MongoDB. { first_name: “Oleg”, last_name: “Kachan”, contacts: { twitter: “maximalno”, email: “683009@gmail.com” }, skills: [“php”, “node.js”, “mongodb”] } _id: ObjectId(“4daf…”) => db.users.insert({ first_name: “Oleg” }) db.users.find() db.users.find({}, { first_name: 1 }) db.users.find({first_name: “Oleg” }).sort({ _id: -1 }).skip(1).limit(10)
  • 38. 37ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ Column-oriented («колоночные») базы данных База представляет собой большую таблицу с тремя измерениями: колонки, строки и временны'е метки. Такая архитектура позволяет добиться очень высокой производительности, кроме того, она хорошо масштабируется на множество компьютеров. Но это не реляционная база, и она не поддерживает многие возможности реляционных баз. В частности в сolumn-oriented БД нет join-ов, нет сложных запросов и т.д. Представители: Hadoop, Hypertable иCassandra.
  • 39. 38ОСНОВНЫЕ ТИПЫ NoSQL ХРАНИЛИЩ Графовые базы данных Такие базы ориентированы на поддержку сложных взаимосвязей между объектами, и основываются на графовом представлении данных. Структура данных в таких базах представляет собой набор узлов, связанных между собой ссылками. При этом и узлы и ссылки могут обладать некоторым количеством атрибутов. Представители: Neo4j, AllegroGraph, Sones graphDB.
  • 40. 39КЛАССИФИКАЦИЯ ТИПОВ И ВИДОВ СУБД В CAP ПРОСТРАНСТВЕ
  • 41. 40ТЕОРЕМА CAP - CA Система, во всех узлах которой данные согласованы и обеспечена доступность, жертвует устойчивостью к распаду на секции. Такие системы возможны на основе технологического программного обеспечения, поддерживающего транзакционность в смысле ACID. Примерами таких систем могут быть решения на основе кластерных систем управления базами данных или распределённая служба каталогов LDAP.
  • 42. 41ТЕОРЕМА CAP - CP Распределённая система, в каждый момент обеспечивающая целостный результат и способная функционировать в условиях распада, в ущерб доступности может не выдавать отклик. Устойчивость к распаду на секции требует обеспечения дублирования изменений во всех узлах системы, в этой связи отмечается практическая целесообразность использования в таких системах распределённых пессимистических блокировок для сохранения целостности
  • 43. 42ТЕОРЕМА CAP - AP Распределённая система, отказывающаяся от целостности результата. Большинство NoSQL-систем принципиально не гарантируют целостности данных, и ссылаются на теорему CAP как на мотив такого ограничения. Задачей при построении AP-систем становится обеспечение некоторого практически целесообразного уровня целостности данных, в этом смысле про AP- системы говорят как о «целостных в конечном итоге» (eventually consistent) или как о «слабо целостных» (weak consistent)
  • 45. СПАСИБО ЗА ВНИМАНИЕ! к.э.н. Сергей Вячеславович Макрушин s-makrushin@yandex.ru https://www.linkedin.com/in/smakrushin октябрь 2015 http://www.cioacademy.ru/hc-program-2015-autumn/