SlideShare una empresa de Scribd logo
1 de 22
Обработка больших данных
в интересах бизнеса
1Бизнес и данные
Мы накопили много информации. В средней организации может насчитываться, например:
Основные данные:
клиенты, товары,
активы, и др.
~ 100 000 единиц
Транзакционные данные:
первичные документы,
задачи, звонки и др.
~ 1 000 000 единиц
Данные бизнес-процессов:
АСУТП, измерения,
операции и др.
~ 1 000 000 000 ед.
Мир вокруг нас наполнен данными.
С помощью данных мы познаем мир.
На основе данных работает бизнес.
Но… можно увеличить выгоду от данных на порядок!
2IoT, M2M, Big Data
Но этого мало. Благодаря развитию цифровых устройств
любое предприятие или организация ежедневно получает
миллиарды единиц информации о состоянии своих активов,
телеком-оператор – о приоритетах абонентов, и так далее.
90% всех данных в мире
создано за последние 10 лет.
Объем данных удваивается каждые два года,
и этот интервал сокращается.
Взрывной рост объема данных
будет продолжаться с ускорением.
Как мы используем эту информацию?
Переходит ли количество в качество?
http://rg.ru/2013/05/14/infa-site.html
3Главный вопрос
ПОЧЕМУ ПОЛЬЗА ОТ ЭТИХ ДАННЫХ
НЕ ПРОПОРЦИОНАЛЬНА ИХ ОБЪЕМУ?
ПОЧЕМУ МЫ НЕ ОЩУЩАЕМ КАЧЕСТВЕННЫХ ИЗМЕНЕНИЙ
К ЛУЧШЕМУ ОТ ИХ ИСПОЛЬЗОВАНИЯ
НИ В ОБЩЕСТВЕ, НИ В БИЗНЕСЕ?
4Ответы на главный вопрос
I. Потому, что эти данные мало используются.
Это происходит потому, что:
• Данные слабо связаны между собой, разрозненны.
• Отсутствуют адекватные программные инструменты и методики их обработки.
• Для использования данных требуется серьезная аналитическая работа.
II. Потому, что бизнес (за редким исключением)
не ставит задач, которые можно решить с их помощью,
не хочет, не умеет работать с проблемами через данные.
Это происходит потому, что:
• Многие не знают, что подобные задачи вообще решаемы.
• Отсутствует мотивация или ответственность за эффективное развитие бизнеса.
• Любой человек инстинктивно боится сложностей, стремится все упростить.
5Связность данных и выгода
Почему связность данных так важна?
Мы утверждаем, что зависимость между связностью данных
и выгодой от их использования имеет приблизительно такой вид:
Порядок
получаемой
выгоды, тыс. руб.
(условно)
Число связанных
источников
(условно)
10
100
1000
10000
1 2 3 4
Конкретные цифры варьируются
в зависимости от вида бизнеса
и конкретных условий, но
Каждый новый
уровень связности
добавляет порядок
или более к размеру
выгоды от
использования данных
6Пример зависимости выгоды от связности данных
Проиллюстрируем это на простом примере –
работе с персоналом с точки зрения корпоративной безопасности.
1. Данные о сотруднике в корпоративной
системе. Можно поставить задачи,
следить за работой, начислить зарплату.
Порядок выгоды: десятки тысяч рублей.
2. Данные о сотруднике в соцсети.
Можно узнать о его мотивации и личных
качествах, использовать эту информацию
в управлении персоналом.
Порядок выгоды: сотни тысяч рублей.
3. Данные о сотруднике в картотеках
судебных дел и БД судебных приставов.
Можно предотвратить прием на работу
недобросовестного сотрудника, вовремя
выявить его личные проблемы.
Порядок выгоды: миллионы рублей.
4. Данные о регистрации юр. лиц.
Можно предотвратить открытие
сотрудником собственной фирмы на имя
друга/родственника, работу против
интересов компании с использованием
ее ресурсов, клиентов, поставщиков.
Порядок выгоды: десятки млн. рублей.… а еще есть биллинг корпоративного телефона и многое другое.
7Уровень задач и выгода
Легко заметить, что простые задачи
относятся к операционному уровню –
текущему управлению и краткосрочному
анализу; более сложные задачи
соответствуют стратегическому анализу
с целью достижения долгосрочного
эффекта от оптимизации;
наконец, самые сложные задачи
связаны с прогнозированием для
предотвращения нежелательных событий
или использования желательных.
Таким образом,
Уровень выгоды
от использования данных
напрямую зависит от
масштаба поставленной цели.
Порядок
получаемой
выгоды, тыс. руб.
(условно)
10
100
1000
10000
8Примеры решаемых задач
1. Контроль промышленного оборудования с целью предотвращения аварий,
составление оптимальных программ ремонта и модернизации,
управление энергоэффективностью.
2. Оптимизация бизнес-процессов на основе достоверной информации о том,
как они протекают – практически в любой сфере бизнеса.
3. Анализ и своевременное предотвращение проблем безопасности.
4. Анализ хода инвестиционных и иных проектов, предотвращение срывов и потерь.
5. Поиск преимуществ и новых потенциальных сделок на рынке.
6. Практически любые прогнозные задачи – предсказание поведения систем,
возможных вариантов развития ситуаций.
7. Анализ поведения потребителей для формирования адресных, эффективных
маркетинговых предложений.
Анализ связанных больших данных из разных источников можно применять,
например, для решения таких задач:
9Задачи и решения
Для того, чтобы
решать такие задачи – нужно,
чтобы бизнес их ставил.
А мы предлагаем для этого соответствующие
программные и методические инструменты.
Слово «соответствующий» означает,
что эффективность применения инструмента для решения бизнес-задач
обеспечивает превосходство выгоды от использования данных
над стоимостью их хранения и обработки на 1-2 порядка.
Требования к инструменту анализа данных
Каким должен быть инструмент, обеспечивающий осмысленную обработку
связанных корпоративных данных из разных источников?
1. Он должен позволять аналитику (или даже «Первому Лицу»!) самому
«задавать вопросы» данным, не обращаясь к помощи программиста.
2. Он должен позволять изменять модель данных по ходу эксплуатации системы,
«отвечать» на те виды вопросов, которые не были предусмотрены заранее.
3. Он должен импортировать, связывать и обрабатывать любые данные
любой структуры из любых источников, включая хранилища Big Data и сервисы.
4. Он должен позволять оперативно создавать и подключать новые приложения,
расчетные модели и алгоритмы для обработки данных с минимальными
производственными задержками.
5. Он должен хранить формализованные экспертные знания и автоматически
применять их для анализа поступающей информации.
10
Big Data как бизнес-инструмент
Технологии Big Data позволяют:
• Хранить и параллельно обрабатывать терабайты информации;
• Использовать алгоритмы машинного обучения
для решения конкретных бизнес-задач.
Однако, эти технологии:
• Применяются для обработки данных однообразной,
несложной структуры;
• Ориентированы на обработку данных при помощи фиксированных
алгоритмов, реализуемых императивным программированием;
• Не имеют цели предоставить пользователю доступ к исследованию
самих исходных данных.
11
Архитектура логической витрины данных
Наше решение позволяет использовать преимущества Big Data и устранить их недостатки.
Архитектура компонентов нашего решения – логической витрины данных:
Хранилище
информационной
модели и правил
Интерфейс
редактирования
модели и правил
Интерфейс
построения
запросов и
вывода ответов
Источники
данных
`
… и любые
другие
Логическая
витрина
данных
12
13Сценарий работы решения
Какова стоимость мероприятий,
проведенных в прошлом году
на трубопроводах, приборы
учета на которых показывают
превышение показателем X
значения Y?
Информационная модель
• Мероприятие
• Трубопровод
• Прибор учета
• Показатель X
• …
Какова стоимость…
Шина(ESB)
Источник 1
Источник 2
ПОвитрины
агрегация
ответа
интерпретация
запроса
представление
результата
Порядок работы с логической витриной данных.
1. Аналитик делает запрос в терминах
своей предметной области.
Витрина:
2. Представляет его в виде запроса
к информационной модели.
3. Определяет, где находятся данные,
необходимые для ответа на этот запрос.
4. Выполняет частные запросы исходных
данных к разным источникам, фильтруя их.
5. Получает и интегрирует ответы
в единое представление – граф.
6. Выполняет пост-обработку графа,
заключающуюся, например, в применении
правил логического вывода для получения
новых знаний на основании новых данных.
7. Выполняет на нем исходный запрос,
и возвращает ответ аналитику.
14Простой пример
Приведем простой демонстрационный пример использования логической витрины данных.
Рассмотрим некий промышленный комплекс, обладающий огромным количеством оборудования,
снабженного различными датчиками и сенсорами, регулярно сообщающими сведения о его состоянии.
Для простоты рассмотрим только два агрегата, котел и резервуар, и три датчика: температуры котла
и резервуара, а также давления в котле. Эти датчики контролируются АСУ разных производителей
и выдают информацию в разные хранилища: сведения о температуре и давлении в котле поступают
в HBase, а данные о температуре в резервуаре пишутся в лог-файлы, расположенные в HDFS.
Следующая схема иллюстрирует процесс сбора данных.
15Простой пример
На реальном предприятии мы имели бы дело с таким порядком числа сущностей:
Сущность Порядок числа записей Тип хранилища (пример)
Единицы оборудования Тысячи Система управления мастер-
данными
Датчики, сенсоры Сотни тысяч БД PostgreSQL
Показания датчиков Десятки миллиардов в год Файлы в HDFS, HBase
Пусть мы хотим предоставить аналитику возможность делать запросы такого типа:
• Какие единицы маслонаполненного оборудования работали при температуре
выше 300 градусов за последнюю неделю?
• Какое оборудование находится в состоянии, выходящем за пределы
рабочего диапазона?
Выполнение любого из них требует связывания данных из разных источников,
в том числе из находящихся за пределами нашего модельного примера.
16Простой пример
Рассмотрим пример простого запроса, на который можно найти ответ в нашем
наборе информации. Пусть аналитик интересуется
оборудованием, установленные на котором сенсоры одновременно измерили
температуру больше 4000 и давление больше 5 мПа в течение заданного времени.
В этой фразе мы выделили жирным слова, соответствующие сущностям информационной модели: оборудование,
сенсор, измерение. Курсивом выделены атрибуты и связи этих сущностей. Наш запрос можно представить
в виде такого графа (под каждым типом данных мы указали хранилище, в котором они находятся):
17Простой пример
Схема выполнения запроса такова. Сначала нужно отфильтровать измерения
температуры за заданный период со значением больше 4000 C, и измерения давления
со значением больше 5 мПа; затем нужно найти среди них те, которые выполнены
сенсорами, установленные на одной и той же единице оборудования, и при этом
выполнены одновременно. Именно так и будет действовать витрина данных.
Аналитик через несколько
секунд получит ответ на вопрос,
на который без витрины смог
бы ответить только с помощью
программиста, через несколько
часов или дней труда.
Благодаря витрине аналитик
может непосредственно
использовать данные, выдвигать
и проверять гипотезы.
18Интерфейс редактирования модели и правил
В интерфейсе редактирования модели и правил задается как концептуальная модель предметной области,
в терминах которой аналитик строит запрос, так и сведения о том, в каких источниках находятся данные,
соответствующие элементам модели.
Дерево информационной модели Форма редактирования настроек исходных данных
19Интерфейс запросов и вывода ответов
Аналитик строит запрос при помощи одного из интерфейсов Системы Управления Знаниями.
Среди этих интерфейсов – как формальные конструкторы, так и средство поиска на контролируемом
естественном языке.
Построение запроса Форма вывода результатов запроса
на контролируемом языке
Статистика извлечения данных
20Особенности решения
Технические и функциональные особенности нашего решения:
1. Решение способно интегрировать информацию из «традиционных» массивов данных с информацией,
находящейся в хранилищах Big Data.
2. Информация о сущностях одного типа может храниться в любом числе источников одновременно.
3. Витрина данных не только компонует и связывает информацию из различных источников,
но и делает логические выводы на ней в соответствии с заданными правилами на основе
концептуальной модели предметной области бизнеса и экспертных знаний.
4. В качестве источников данных могут выступать не только хранилища, но и сервисы.
За сервисами могут быть «спрятаны» любые сложные расчетные алгоритмы,
в т.ч. использующие технологии Big Data (MapReduce, машинное обучение средствами Spark MLlib).
Витрина «подает на вход» этих алгоритмов данные, выбранные аналитиком.
5. Запросы к источникам данных могут выполняться не просто асинхронно, но даже при отсутствии онлайн-связи
с ними – на этот случай предусмотрен специальный механизм передачи запроса и получения ответа.
6. Результаты выполнения запроса могут не просто выдаваться пользователю в виде таблицы или выгружаться
в Excel, но и попадать напрямую в BI-систему в виде набора данных для дальнейшего анализа.
7. Возможен контроль прав доступа пользователей к результатам выполнения запросов.
Логическая витрина для доступа к большим данным

Más contenido relacionado

La actualidad más candente

Моделе-ориентированные ИТ-архитектуры
Моделе-ориентированные ИТ-архитектурыМоделе-ориентированные ИТ-архитектуры
Моделе-ориентированные ИТ-архитектурыSergey Gorshkov
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхYury Samoylenko
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDMOleksii Tsipiniuk
 
Оптимизация страховых запасов
Оптимизация страховых запасовОптимизация страховых запасов
Оптимизация страховых запасовABC Consulting
 
лабораторная работа №3 Михалюк В.А.
лабораторная работа №3 Михалюк В.А.лабораторная работа №3 Михалюк В.А.
лабораторная работа №3 Михалюк В.А.Верочка Михалюк
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияDell_Russia
 
Подход КРОК к построению MDM
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDMКРОК
 
Стандарт оформления Rules в calculation manager
Стандарт оформления Rules в calculation managerСтандарт оформления Rules в calculation manager
Стандарт оформления Rules в calculation managerIvan Shamaev
 
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...Expolink
 
BIS DE
BIS DEBIS DE
BIS DEMag0s
 
Необходимые условия качества данных: MDM, Шина, Хранилище данных
Необходимые условия качества данных: MDM, Шина, Хранилище данныхНеобходимые условия качества данных: MDM, Шина, Хранилище данных
Необходимые условия качества данных: MDM, Шина, Хранилище данныхКРОК
 
венчурам презентация Calligraph
венчурам презентация Calligraphвенчурам презентация Calligraph
венчурам презентация CalligraphВладимир Лосев
 
CXP Analyzer
CXP AnalyzerCXP Analyzer
CXP AnalyzerMag0s
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview RussianTimur Bagirov
 
Как спроектировать полезную CMDB
Как спроектировать полезную CMDBКак спроектировать полезную CMDB
Как спроектировать полезную CMDBCleverics
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analyticsCleverDATA
 

La actualidad más candente (20)

Моделе-ориентированные ИТ-архитектуры
Моделе-ориентированные ИТ-архитектурыМоделе-ориентированные ИТ-архитектуры
Моделе-ориентированные ИТ-архитектуры
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данных
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
 
Оптимизация страховых запасов
Оптимизация страховых запасовОптимизация страховых запасов
Оптимизация страховых запасов
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
лабораторная работа №3 Михалюк В.А.
лабораторная работа №3 Михалюк В.А.лабораторная работа №3 Михалюк В.А.
лабораторная работа №3 Михалюк В.А.
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
РИФ 2016, Предикативная аналитика
РИФ 2016, Предикативная аналитикаРИФ 2016, Предикативная аналитика
РИФ 2016, Предикативная аналитика
 
Подход КРОК к построению MDM
Подход КРОК к построению MDMПодход КРОК к построению MDM
Подход КРОК к построению MDM
 
Стандарт оформления Rules в calculation manager
Стандарт оформления Rules в calculation managerСтандарт оформления Rules в calculation manager
Стандарт оформления Rules в calculation manager
 
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...
Iba Group, Лубневский "Опыт внедрения решений по управлению эффективностью пр...
 
BIS DE
BIS DEBIS DE
BIS DE
 
Необходимые условия качества данных: MDM, Шина, Хранилище данных
Необходимые условия качества данных: MDM, Шина, Хранилище данныхНеобходимые условия качества данных: MDM, Шина, Хранилище данных
Необходимые условия качества данных: MDM, Шина, Хранилище данных
 
венчурам презентация Calligraph
венчурам презентация Calligraphвенчурам презентация Calligraph
венчурам презентация Calligraph
 
CXP Analyzer
CXP AnalyzerCXP Analyzer
CXP Analyzer
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
 
Как спроектировать полезную CMDB
Как спроектировать полезную CMDBКак спроектировать полезную CMDB
Как спроектировать полезную CMDB
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analytics
 

Similar a Логическая витрина для доступа к большим данным

Vertica: Подключения, приносящие бизнес-результаты
Vertica: Подключения, приносящие  бизнес-результаты Vertica: Подключения, приносящие  бизнес-результаты
Vertica: Подключения, приносящие бизнес-результаты Yuri Yashkin
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данныхYuri Yashkin
 
От больших данных к знаниям: преимущества для операторов связи
От больших данных к знаниям: преимущества для операторов связиОт больших данных к знаниям: преимущества для операторов связи
От больших данных к знаниям: преимущества для операторов связиElizaveta Alekseeva
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхElizaveta Alekseeva
 
От Больших данных к знаниям: преимущества для операторов связи
От Больших данных  к знаниям: преимущества  для операторов связиОт Больших данных  к знаниям: преимущества  для операторов связи
От Больших данных к знаниям: преимущества для операторов связиYuri Yashkin
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russiarusbase.vc
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услугCisco Russia
 
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикой
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикойЭлектронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикой
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикойYuri Yashkin
 
Инфо-драйверы роста бизнеса
Инфо-драйверы роста бизнесаИнфо-драйверы роста бизнеса
Инфо-драйверы роста бизнесаTri-A-Da Group Simple Smart
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииAlexander Barakov
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentationAlgoMost
 
Индустрия 4.0
Индустрия 4.0Индустрия 4.0
Индустрия 4.0IBA Group
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?Mikhail Alekseev
 
Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!КРОК
 
Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. iECARUS
 
Бизнес-аналитика каналов продаж
Бизнес-аналитика каналов продаж Бизнес-аналитика каналов продаж
Бизнес-аналитика каналов продаж Pavel Ivanov
 

Similar a Логическая витрина для доступа к большим данным (20)

Vertica: Подключения, приносящие бизнес-результаты
Vertica: Подключения, приносящие  бизнес-результаты Vertica: Подключения, приносящие  бизнес-результаты
Vertica: Подключения, приносящие бизнес-результаты
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
 
От больших данных к знаниям: преимущества для операторов связи
От больших данных к знаниям: преимущества для операторов связиОт больших данных к знаниям: преимущества для операторов связи
От больших данных к знаниям: преимущества для операторов связи
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данных
 
От Больших данных к знаниям: преимущества для операторов связи
От Больших данных  к знаниям: преимущества  для операторов связиОт Больших данных  к знаниям: преимущества  для операторов связи
От Больших данных к знаниям: преимущества для операторов связи
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russia
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
 
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикой
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикойЭлектронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикой
Электронная книга «Как IT-служба HPE научила бизнес пользоваться аналитикой
 
Инфо-драйверы роста бизнеса
Инфо-драйверы роста бизнесаИнфо-драйверы роста бизнеса
Инфо-драйверы роста бизнеса
 
Data-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной КомпанииData-driven business: Информационная основа деятельности современной Компании
Data-driven business: Информационная основа деятельности современной Компании
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
 
Индустрия 4.0
Индустрия 4.0Индустрия 4.0
Индустрия 4.0
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!
 
Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”.
 
Бизнес-аналитика каналов продаж
Бизнес-аналитика каналов продаж Бизнес-аналитика каналов продаж
Бизнес-аналитика каналов продаж
 
DataLift.DA
DataLift.DADataLift.DA
DataLift.DA
 

Логическая витрина для доступа к большим данным

  • 1. Обработка больших данных в интересах бизнеса
  • 2. 1Бизнес и данные Мы накопили много информации. В средней организации может насчитываться, например: Основные данные: клиенты, товары, активы, и др. ~ 100 000 единиц Транзакционные данные: первичные документы, задачи, звонки и др. ~ 1 000 000 единиц Данные бизнес-процессов: АСУТП, измерения, операции и др. ~ 1 000 000 000 ед. Мир вокруг нас наполнен данными. С помощью данных мы познаем мир. На основе данных работает бизнес. Но… можно увеличить выгоду от данных на порядок!
  • 3. 2IoT, M2M, Big Data Но этого мало. Благодаря развитию цифровых устройств любое предприятие или организация ежедневно получает миллиарды единиц информации о состоянии своих активов, телеком-оператор – о приоритетах абонентов, и так далее. 90% всех данных в мире создано за последние 10 лет. Объем данных удваивается каждые два года, и этот интервал сокращается. Взрывной рост объема данных будет продолжаться с ускорением. Как мы используем эту информацию? Переходит ли количество в качество? http://rg.ru/2013/05/14/infa-site.html
  • 4. 3Главный вопрос ПОЧЕМУ ПОЛЬЗА ОТ ЭТИХ ДАННЫХ НЕ ПРОПОРЦИОНАЛЬНА ИХ ОБЪЕМУ? ПОЧЕМУ МЫ НЕ ОЩУЩАЕМ КАЧЕСТВЕННЫХ ИЗМЕНЕНИЙ К ЛУЧШЕМУ ОТ ИХ ИСПОЛЬЗОВАНИЯ НИ В ОБЩЕСТВЕ, НИ В БИЗНЕСЕ?
  • 5. 4Ответы на главный вопрос I. Потому, что эти данные мало используются. Это происходит потому, что: • Данные слабо связаны между собой, разрозненны. • Отсутствуют адекватные программные инструменты и методики их обработки. • Для использования данных требуется серьезная аналитическая работа. II. Потому, что бизнес (за редким исключением) не ставит задач, которые можно решить с их помощью, не хочет, не умеет работать с проблемами через данные. Это происходит потому, что: • Многие не знают, что подобные задачи вообще решаемы. • Отсутствует мотивация или ответственность за эффективное развитие бизнеса. • Любой человек инстинктивно боится сложностей, стремится все упростить.
  • 6. 5Связность данных и выгода Почему связность данных так важна? Мы утверждаем, что зависимость между связностью данных и выгодой от их использования имеет приблизительно такой вид: Порядок получаемой выгоды, тыс. руб. (условно) Число связанных источников (условно) 10 100 1000 10000 1 2 3 4 Конкретные цифры варьируются в зависимости от вида бизнеса и конкретных условий, но Каждый новый уровень связности добавляет порядок или более к размеру выгоды от использования данных
  • 7. 6Пример зависимости выгоды от связности данных Проиллюстрируем это на простом примере – работе с персоналом с точки зрения корпоративной безопасности. 1. Данные о сотруднике в корпоративной системе. Можно поставить задачи, следить за работой, начислить зарплату. Порядок выгоды: десятки тысяч рублей. 2. Данные о сотруднике в соцсети. Можно узнать о его мотивации и личных качествах, использовать эту информацию в управлении персоналом. Порядок выгоды: сотни тысяч рублей. 3. Данные о сотруднике в картотеках судебных дел и БД судебных приставов. Можно предотвратить прием на работу недобросовестного сотрудника, вовремя выявить его личные проблемы. Порядок выгоды: миллионы рублей. 4. Данные о регистрации юр. лиц. Можно предотвратить открытие сотрудником собственной фирмы на имя друга/родственника, работу против интересов компании с использованием ее ресурсов, клиентов, поставщиков. Порядок выгоды: десятки млн. рублей.… а еще есть биллинг корпоративного телефона и многое другое.
  • 8. 7Уровень задач и выгода Легко заметить, что простые задачи относятся к операционному уровню – текущему управлению и краткосрочному анализу; более сложные задачи соответствуют стратегическому анализу с целью достижения долгосрочного эффекта от оптимизации; наконец, самые сложные задачи связаны с прогнозированием для предотвращения нежелательных событий или использования желательных. Таким образом, Уровень выгоды от использования данных напрямую зависит от масштаба поставленной цели. Порядок получаемой выгоды, тыс. руб. (условно) 10 100 1000 10000
  • 9. 8Примеры решаемых задач 1. Контроль промышленного оборудования с целью предотвращения аварий, составление оптимальных программ ремонта и модернизации, управление энергоэффективностью. 2. Оптимизация бизнес-процессов на основе достоверной информации о том, как они протекают – практически в любой сфере бизнеса. 3. Анализ и своевременное предотвращение проблем безопасности. 4. Анализ хода инвестиционных и иных проектов, предотвращение срывов и потерь. 5. Поиск преимуществ и новых потенциальных сделок на рынке. 6. Практически любые прогнозные задачи – предсказание поведения систем, возможных вариантов развития ситуаций. 7. Анализ поведения потребителей для формирования адресных, эффективных маркетинговых предложений. Анализ связанных больших данных из разных источников можно применять, например, для решения таких задач:
  • 10. 9Задачи и решения Для того, чтобы решать такие задачи – нужно, чтобы бизнес их ставил. А мы предлагаем для этого соответствующие программные и методические инструменты. Слово «соответствующий» означает, что эффективность применения инструмента для решения бизнес-задач обеспечивает превосходство выгоды от использования данных над стоимостью их хранения и обработки на 1-2 порядка.
  • 11. Требования к инструменту анализа данных Каким должен быть инструмент, обеспечивающий осмысленную обработку связанных корпоративных данных из разных источников? 1. Он должен позволять аналитику (или даже «Первому Лицу»!) самому «задавать вопросы» данным, не обращаясь к помощи программиста. 2. Он должен позволять изменять модель данных по ходу эксплуатации системы, «отвечать» на те виды вопросов, которые не были предусмотрены заранее. 3. Он должен импортировать, связывать и обрабатывать любые данные любой структуры из любых источников, включая хранилища Big Data и сервисы. 4. Он должен позволять оперативно создавать и подключать новые приложения, расчетные модели и алгоритмы для обработки данных с минимальными производственными задержками. 5. Он должен хранить формализованные экспертные знания и автоматически применять их для анализа поступающей информации. 10
  • 12. Big Data как бизнес-инструмент Технологии Big Data позволяют: • Хранить и параллельно обрабатывать терабайты информации; • Использовать алгоритмы машинного обучения для решения конкретных бизнес-задач. Однако, эти технологии: • Применяются для обработки данных однообразной, несложной структуры; • Ориентированы на обработку данных при помощи фиксированных алгоритмов, реализуемых императивным программированием; • Не имеют цели предоставить пользователю доступ к исследованию самих исходных данных. 11
  • 13. Архитектура логической витрины данных Наше решение позволяет использовать преимущества Big Data и устранить их недостатки. Архитектура компонентов нашего решения – логической витрины данных: Хранилище информационной модели и правил Интерфейс редактирования модели и правил Интерфейс построения запросов и вывода ответов Источники данных ` … и любые другие Логическая витрина данных 12
  • 14. 13Сценарий работы решения Какова стоимость мероприятий, проведенных в прошлом году на трубопроводах, приборы учета на которых показывают превышение показателем X значения Y? Информационная модель • Мероприятие • Трубопровод • Прибор учета • Показатель X • … Какова стоимость… Шина(ESB) Источник 1 Источник 2 ПОвитрины агрегация ответа интерпретация запроса представление результата Порядок работы с логической витриной данных. 1. Аналитик делает запрос в терминах своей предметной области. Витрина: 2. Представляет его в виде запроса к информационной модели. 3. Определяет, где находятся данные, необходимые для ответа на этот запрос. 4. Выполняет частные запросы исходных данных к разным источникам, фильтруя их. 5. Получает и интегрирует ответы в единое представление – граф. 6. Выполняет пост-обработку графа, заключающуюся, например, в применении правил логического вывода для получения новых знаний на основании новых данных. 7. Выполняет на нем исходный запрос, и возвращает ответ аналитику.
  • 15. 14Простой пример Приведем простой демонстрационный пример использования логической витрины данных. Рассмотрим некий промышленный комплекс, обладающий огромным количеством оборудования, снабженного различными датчиками и сенсорами, регулярно сообщающими сведения о его состоянии. Для простоты рассмотрим только два агрегата, котел и резервуар, и три датчика: температуры котла и резервуара, а также давления в котле. Эти датчики контролируются АСУ разных производителей и выдают информацию в разные хранилища: сведения о температуре и давлении в котле поступают в HBase, а данные о температуре в резервуаре пишутся в лог-файлы, расположенные в HDFS. Следующая схема иллюстрирует процесс сбора данных.
  • 16. 15Простой пример На реальном предприятии мы имели бы дело с таким порядком числа сущностей: Сущность Порядок числа записей Тип хранилища (пример) Единицы оборудования Тысячи Система управления мастер- данными Датчики, сенсоры Сотни тысяч БД PostgreSQL Показания датчиков Десятки миллиардов в год Файлы в HDFS, HBase Пусть мы хотим предоставить аналитику возможность делать запросы такого типа: • Какие единицы маслонаполненного оборудования работали при температуре выше 300 градусов за последнюю неделю? • Какое оборудование находится в состоянии, выходящем за пределы рабочего диапазона? Выполнение любого из них требует связывания данных из разных источников, в том числе из находящихся за пределами нашего модельного примера.
  • 17. 16Простой пример Рассмотрим пример простого запроса, на который можно найти ответ в нашем наборе информации. Пусть аналитик интересуется оборудованием, установленные на котором сенсоры одновременно измерили температуру больше 4000 и давление больше 5 мПа в течение заданного времени. В этой фразе мы выделили жирным слова, соответствующие сущностям информационной модели: оборудование, сенсор, измерение. Курсивом выделены атрибуты и связи этих сущностей. Наш запрос можно представить в виде такого графа (под каждым типом данных мы указали хранилище, в котором они находятся):
  • 18. 17Простой пример Схема выполнения запроса такова. Сначала нужно отфильтровать измерения температуры за заданный период со значением больше 4000 C, и измерения давления со значением больше 5 мПа; затем нужно найти среди них те, которые выполнены сенсорами, установленные на одной и той же единице оборудования, и при этом выполнены одновременно. Именно так и будет действовать витрина данных. Аналитик через несколько секунд получит ответ на вопрос, на который без витрины смог бы ответить только с помощью программиста, через несколько часов или дней труда. Благодаря витрине аналитик может непосредственно использовать данные, выдвигать и проверять гипотезы.
  • 19. 18Интерфейс редактирования модели и правил В интерфейсе редактирования модели и правил задается как концептуальная модель предметной области, в терминах которой аналитик строит запрос, так и сведения о том, в каких источниках находятся данные, соответствующие элементам модели. Дерево информационной модели Форма редактирования настроек исходных данных
  • 20. 19Интерфейс запросов и вывода ответов Аналитик строит запрос при помощи одного из интерфейсов Системы Управления Знаниями. Среди этих интерфейсов – как формальные конструкторы, так и средство поиска на контролируемом естественном языке. Построение запроса Форма вывода результатов запроса на контролируемом языке Статистика извлечения данных
  • 21. 20Особенности решения Технические и функциональные особенности нашего решения: 1. Решение способно интегрировать информацию из «традиционных» массивов данных с информацией, находящейся в хранилищах Big Data. 2. Информация о сущностях одного типа может храниться в любом числе источников одновременно. 3. Витрина данных не только компонует и связывает информацию из различных источников, но и делает логические выводы на ней в соответствии с заданными правилами на основе концептуальной модели предметной области бизнеса и экспертных знаний. 4. В качестве источников данных могут выступать не только хранилища, но и сервисы. За сервисами могут быть «спрятаны» любые сложные расчетные алгоритмы, в т.ч. использующие технологии Big Data (MapReduce, машинное обучение средствами Spark MLlib). Витрина «подает на вход» этих алгоритмов данные, выбранные аналитиком. 5. Запросы к источникам данных могут выполняться не просто асинхронно, но даже при отсутствии онлайн-связи с ними – на этот случай предусмотрен специальный механизм передачи запроса и получения ответа. 6. Результаты выполнения запроса могут не просто выдаваться пользователю в виде таблицы или выгружаться в Excel, но и попадать напрямую в BI-систему в виде набора данных для дальнейшего анализа. 7. Возможен контроль прав доступа пользователей к результатам выполнения запросов.