Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
2. Big Data: План презентации
• Что это? Определение Big Data.
• История, формирование понятия.
• Принципы Big Data.
• Где применяется.
• Будущее Big Data.
• Обсуждение.
• Кейсы.
3. Big Data – что это такое?
И с чем его «едят»...
4. Big Data: Определение
Большие данные (от англ. Big Data) — серия подходов, инструментов
и методов обработки структурированных и неструктурированных
данных огромных объёмов и значительного многообразия для
получения воспринимаемых человеком результатов.
Big Data - альтернатива традиционным системам управления базами
данных и решениям класса Business Intelligence.
5. Big Data – работа с данными
• Big Data – это когда цифровых данных больше, чем 100Гб, 500Гб и даже 1ТБ.
• Big Data – это такие данные, которые невозможно просто обработать в MS Excel.
• Big Data – это такие данные, которые невозможно обработать на одном ПК/сервере.
• Вig Data – это вообще любые данные.
• Big Data не существует, ее придумали маркетологи.
8. История Big Data: Появление нового тренда
• 2008: Клиффорд Линч, редактор журнала Nature, впервые упомянул о термине BIG DATA в
специальном номере журнала с темой «Как могут повлиять на будущее науки технологии,
открывающие возможности работы с большими объёмами данных?», в котором были собраны
материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и
технологических перспективах в парадигме вероятного скачка «от количества к качеству».
• 2009: Термин широко распространился в деловой прессе, международных публицистических
изданиях.
• 2010: Появление первых продуктов и решений, относящихся исключительно и непосредственно к
проблеме обработки больших данных. Большинство ИТ-гигантов мира в своих деловых стратегиях
используют понятие о больших данных, в том числе Hewlett-Packard, IBM, Oracle, Microsoft, EMC,
а основные аналитики рынка информационных технологий посвящают публику в концепции Big
Data.
• 2011: Gartner отмечает большие данные как тренд номер два в информационно-технологической
инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и
мониторинг). Прогнозируется, что внедрение технологий больших данных наибольшее влияние
окажет на информационные технологии в торговле/финансах, здравоохранении, государственном
управлении, производстве, а также в сферах и отраслях, где регистрируются индивидуальные
перемещения ресурсов.
12. Big Data в действии: Кейс №2 – Target (USA)
• Однажды в магазин Target (США) зашел мужчина и
потребовал вызвать менеджера. В своих руках он сжимал
огромную кипу купонов магазина, полученных его
дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она
еще в школу ходит, а вы посылаете ей купоны на детскую
одежду и памперсы? Да как вы смеете! Вы хотите таким
способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую
одежду, детскую мебель – действительно, они были
адресованы дочери рассерженного мужчины. Менеджер
принес свои извинения.
Источник: http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца
звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме
происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои
извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост –
благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной
аналитиком компании Эндрю Полом, который уже имел опыт работы в области Big Data.
13. Big Data в действии: Кейс №2 – Target (USA)
Законно ли?
Как вы думаете, насколько законно
было магазином Target использовать
полученные данные, при том, что они
передавались третьей компании по
продаже подгузников и т.п.?
Источник: http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html
14. Big Data в действии: Кейс №2 – Target (USA)
Законно ли?
Закон в США позволяет компаниям проводить
исследования с тем, чтобы лучше узнать своих
потребителей и продвигать свои продукты
наиболее подходящим способом.
Известно, что Target передает информацию другим
организациям, не входящим непосредственно в
торговую сеть Target: продавцам, бизнес-
партнерам и другим компаниям.
Помимо этого, на законодательном уровне
существует мало препятствий для такой передачи
данных, она должна лишь соответствовать
политике конфиденциальности компании.
Источник: http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html
ВЫВОД?
16. Big Data: Принцип 3-V
• Volume – Огромный объем данных.
• Variety – Слабо структурированные и разнородные данные.
• Velocity – Скорость прироста данных, данные в режиме real-time.
17. Big Data: Задачи
1. Хранение и управление
Объем данных в сотни терабайт или петабайт не позволяет легко
хранить и управлять ими с помощью традиционных реляционных баз
данных.
2. Неструктурированная информация
Большинство всех данных Big Data являются неструктурированными.
Т.е. как можно организовать текст, видео, изображения, и т.д.?
3. Анализ Big Data
Как анализировать неструктурированную информацию? Как на
основе Big Data составлять простые отчеты, строить и внедрять
углубленные прогностические модели?
IT
Статистика
18. Методы анализа, используемые в Big Data
• Классификация
• Кластерный анализ
• Когнитивная графика и визуализация
• Регрессионный анализ (иногда)
• Рекомендательные системы (нечеткая логика, системная динамика)
• Нейронные сети (машинное обучение)
• Сравнение выборок (A/B statistic)
19. Решения BigData
• Hewlett-Packard Enterprise:
• SW: HPE Haven OnDemand;
• HW+SW: HPE Helion Cloud;
• IBM:
• SW: IBM Analytics;
• HW+SW: Cloud Data Services;
• Oracle Cloud (HW+SW);
• И другие ИТ-гиганты/
20. Big Data: Где применяется?
Кто и как этим пользуется
21. Основные сферы применения Big Data
1. Финансы/Торговля
1. Детекция аномального поведения на рынке;
2. Анализ кредитных рисков;
3. Страховое моделирование.
2. Здравоохранение
1. Генетический анализ;
2. Анализ клинических испытаний;
3. Экспертные системы.
3. Государственное управление
4. High-tech и интернет-гиганты (Google, Yandex, Bing и т.п.)
1. Сегментация рынка;
2. Моделирование приобретения и оттока клиентов;
3. Рекомендательные системы;
4. Анализ социальных медиа.
5. Большие производственные компании
6. Другие отрасли
22. Big Data вокруг нас
Прогноз погоды, Маршруты самолетов, Генеалогические древа и т.д...
23. Big Data в действии: Кейс №3 - Facebook
Существует
математический
алгоритм, в 70% случаев
верно определяющий
любовников среди
друзей в Facebook, даже
если они не афишируют
свои отношения.
А другие модели
использования Big Data
могут даже
спрогнозировать распад
такого союза в
ближайшее время с
вероятностью 80%.
25. «Дикие» данные
Корпорации сегодня, можно сказать "утопают" в данных, от миллиардов датчиков в умных домах
и зданиях до сообщений в социальных сетях представителей президентов. Организации изменили
свое отношение к данным, предоставляя конечному заказчику обработанное ядро своих цифровых
расчетов, а не просто побочный продукт из собранных данных.
• 2017: Этот год может стать годом "Chief Data Officer" (CDO), поскольку всё больше и больше
организаций создают позиции C-уровня для управления важной информацией и понимания,
как использовать данные компании, как одно из своих конкурентных преимуществ на рынке.
Недавнее исследование Forrester, проведенное более чем с 3000 руководителей компаний в США,
показало, что 45% компаний-респондентов уже имеют CDO по сравнению с двумя прошлыми
годами, когда такие должности только-только начинали появляться в компаниях-гигантах.
• По мере того, как на рынке растет спрос на CDO, также как и популярность тренда Big Data,
2017 год будет свидетельствовать о повышении внимания ИТ-сообщества ко всякого рода
"Промежуточному ПО Обработки Данных", основная задача которых - управление,
каталогизация, аналитика, подготовка данных к выводу, ведь уже сейчас заметно изобилие
различных аналитических утилит у провайдеров облачных решений, баз данных и других ИТ-
гигантов.
Источник: http://venturebeat.com/2017/01/14/enterprise-it-trends-for-2017-fog-computing-internet-sensors-the-second-coming-of-silicon/
26. Перспективы профессии в области Big Data
По некоторым данным, сеть Target (см. Кейс №2 выше) ежегодно тратит около 4 миллионов
долларов на содержание аналитического отдела из 50 человек, базирующихся в США и Индии
(см. популярность тренда выше). Конечно, далеко не все западные торговые сети могут позволить
себе такие команды (да и специалистов не просто найти) и мощные инструменты анализа
поведения покупателей.
На данный момент специалистов в области Big Data на постсоветском пространстве очень мало и
за их таланты ожесточенно борятся пара-тройка крупных игроков. Все потому, что для такой
работы требуется комбинация навыков и знаний статистика, бизнес-аналитика и программиста,
которые смогут проанализировать огромные массивы данных, выявить скрытые паттерны,
корреляции (по-нашему, правила и соотношения:) и коммерчески полезные зависимости. Таких
«самородков» в наше время нечасто встретишь.
Источник: https://habrahabr.ru/post/147284/
29. «Данные - как нефть.
Она ценна, но без переработки она не может быть по-настоящему
использована. Она должна быть превращена в газ, пластик,
химикаты, и т.д., чтобы создать ценность, влекущую за собой
прибыль.
Так и данные, их нужно проанализировать и «раскусить», чтобы
они стали ценными.»
Michael Palmer, 2006
Business Marketing Association at ANA (Association of National Advertisers)
30. Big Data в действии: Кейс №4 - Google
Поисковый гигант Google узнаёт про
беременность женщины раньше ее мужа,
просто отслеживая вопросы, которые она
задает в поисковике.
И, не ожидающий подвоха, муж, весьма
своевременно, получает спецпредложения по
коляскам и детским кроваткам.
31. ИТОГ
1. Big Data не имеет четкого определения и границ.
2. Big Data - это две стороны: ИТ и Статистика.
3. Для Big Data не всегда нужны специальные инструменты.
4. Big Data - это адаптация использования классических методов с
большими массивами данных.
33. Использованные материалы
1. Google Trends, Google Books, Google Images;
2. Yandex School;
3. Big Data: всё проще или включим фантазию (http://www.sostav.ru/publication/big-data-vsyo-
proshche-ili-vklyuchim-fantaziyu-10203.html/);
4. How Companies Learn Your Secrets (http://www.nytimes.com/2012/02/19/magazine/shopping-
habits.html).