Логическая витрина для доступа к большим данным

Обработка больших данных
в интересах бизнеса

1Бизнес и данные
Мы накопили много информации. В средней организации может насчитываться, например:
Основные данные:
клиенты, товары,
активы, и др.
~ 100 000 единиц
Транзакционные данные:
первичные документы,
задачи, звонки и др.
~ 1 000 000 единиц
Данные бизнес-процессов:
АСУТП, измерения,
операции и др.
~ 1 000 000 000 ед.
Мир вокруг нас наполнен данными.
С помощью данных мы познаем мир.
На основе данных работает бизнес.
Но… можно увеличить выгоду от данных на порядок!

2IoT, M2M, Big Data
Но этого мало. Благодаря развитию цифровых устройств
любое предприятие или организация ежедневно получает
миллиарды единиц информации о состоянии своих активов,
телеком-оператор – о приоритетах абонентов, и так далее.
90% всех данных в мире
создано за последние 10 лет.
Объем данных удваивается каждые два года,
и этот интервал сокращается.
Взрывной рост объема данных
будет продолжаться с ускорением.
Как мы используем эту информацию?
Переходит ли количество в качество?
http://rg.ru/2013/05/14/infa-site.html

3Главный вопрос
ПОЧЕМУ ПОЛЬЗА ОТ ЭТИХ ДАННЫХ
НЕ ПРОПОРЦИОНАЛЬНА ИХ ОБЪЕМУ?
ПОЧЕМУ МЫ НЕ ОЩУЩАЕМ КАЧЕСТВЕННЫХ ИЗМЕНЕНИЙ
К ЛУЧШЕМУ ОТ ИХ ИСПОЛЬЗОВАНИЯ
НИ В ОБЩЕСТВЕ, НИ В БИЗНЕСЕ?

4Ответы на главный вопрос
I. Потому, что эти данные мало используются.
Это происходит потому, что:
• Данные слабо связаны между собой, разрозненны.
• Отсутствуют адекватные программные инструменты и методики их обработки.
• Для использования данных требуется серьезная аналитическая работа.
II. Потому, что бизнес (за редким исключением)
не ставит задач, которые можно решить с их помощью,
не хочет, не умеет работать с проблемами через данные.
Это происходит потому, что:
• Многие не знают, что подобные задачи вообще решаемы.
• Отсутствует мотивация или ответственность за эффективное развитие бизнеса.
• Любой человек инстинктивно боится сложностей, стремится все упростить.

5Связность данных и выгода
Почему связность данных так важна?
Мы утверждаем, что зависимость между связностью данных
и выгодой от их использования имеет приблизительно такой вид:
Порядок
получаемой
выгоды, тыс. руб.
(условно)
Число связанных
источников
(условно)
10
100
1000
10000
1 2 3 4
Конкретные цифры варьируются
в зависимости от вида бизнеса
и конкретных условий, но
Каждый новый
уровень связности
добавляет порядок
или более к размеру
выгоды от
использования данных

6Пример зависимости выгоды от связности данных
Проиллюстрируем это на простом примере –
работе с персоналом с точки зрения корпоративной безопасности.
1. Данные о сотруднике в корпоративной
системе. Можно поставить задачи,
следить за работой, начислить зарплату.
Порядок выгоды: десятки тысяч рублей.
2. Данные о сотруднике в соцсети.
Можно узнать о его мотивации и личных
качествах, использовать эту информацию
в управлении персоналом.
Порядок выгоды: сотни тысяч рублей.
3. Данные о сотруднике в картотеках
судебных дел и БД судебных приставов.
Можно предотвратить прием на работу
недобросовестного сотрудника, вовремя
выявить его личные проблемы.
Порядок выгоды: миллионы рублей.
4. Данные о регистрации юр. лиц.
Можно предотвратить открытие
сотрудником собственной фирмы на имя
друга/родственника, работу против
интересов компании с использованием
ее ресурсов, клиентов, поставщиков.
Порядок выгоды: десятки млн. рублей.… а еще есть биллинг корпоративного телефона и многое другое.

7Уровень задач и выгода
Легко заметить, что простые задачи
относятся к операционному уровню –
текущему управлению и краткосрочному
анализу; более сложные задачи
соответствуют стратегическому анализу
с целью достижения долгосрочного
эффекта от оптимизации;
наконец, самые сложные задачи
связаны с прогнозированием для
предотвращения нежелательных событий
или использования желательных.
Таким образом,
Уровень выгоды
от использования данных
напрямую зависит от
масштаба поставленной цели.
Порядок
получаемой
выгоды, тыс. руб.
(условно)
10
100
1000
10000

8Примеры решаемых задач
1. Контроль промышленного оборудования с целью предотвращения аварий,
составление оптимальных программ ремонта и модернизации,
управление энергоэффективностью.
2. Оптимизация бизнес-процессов на основе достоверной информации о том,
как они протекают – практически в любой сфере бизнеса.
3. Анализ и своевременное предотвращение проблем безопасности.
4. Анализ хода инвестиционных и иных проектов, предотвращение срывов и потерь.
5. Поиск преимуществ и новых потенциальных сделок на рынке.
6. Практически любые прогнозные задачи – предсказание поведения систем,
возможных вариантов развития ситуаций.
7. Анализ поведения потребителей для формирования адресных, эффективных
маркетинговых предложений.
Анализ связанных больших данных из разных источников можно применять,
например, для решения таких задач:

9Задачи и решения
Для того, чтобы
решать такие задачи – нужно,
чтобы бизнес их ставил.
А мы предлагаем для этого соответствующие
программные и методические инструменты.
Слово «соответствующий» означает,
что эффективность применения инструмента для решения бизнес-задач
обеспечивает превосходство выгоды от использования данных
над стоимостью их хранения и обработки на 1-2 порядка.

Требования к инструменту анализа данных
Каким должен быть инструмент, обеспечивающий осмысленную обработку
связанных корпоративных данных из разных источников?
1. Он должен позволять аналитику (или даже «Первому Лицу»!) самому
«задавать вопросы» данным, не обращаясь к помощи программиста.
2. Он должен позволять изменять модель данных по ходу эксплуатации системы,
«отвечать» на те виды вопросов, которые не были предусмотрены заранее.
3. Он должен импортировать, связывать и обрабатывать любые данные
любой структуры из любых источников, включая хранилища Big Data и сервисы.
4. Он должен позволять оперативно создавать и подключать новые приложения,
расчетные модели и алгоритмы для обработки данных с минимальными
производственными задержками.
5. Он должен хранить формализованные экспертные знания и автоматически
применять их для анализа поступающей информации.
10

Big Data как бизнес-инструмент
Технологии Big Data позволяют:
• Хранить и параллельно обрабатывать терабайты информации;
• Использовать алгоритмы машинного обучения
для решения конкретных бизнес-задач.
Однако, эти технологии:
• Применяются для обработки данных однообразной,
несложной структуры;
• Ориентированы на обработку данных при помощи фиксированных
алгоритмов, реализуемых императивным программированием;
• Не имеют цели предоставить пользователю доступ к исследованию
самих исходных данных.
11

Архитектура логической витрины данных
Наше решение позволяет использовать преимущества Big Data и устранить их недостатки.
Архитектура компонентов нашего решения – логической витрины данных:
Хранилище
информационной
модели и правил
Интерфейс
редактирования
модели и правил
Интерфейс
построения
запросов и
вывода ответов
Источники
данных
`
… и любые
другие
Логическая
витрина
данных
12

13Сценарий работы решения
Какова стоимость мероприятий,
проведенных в прошлом году
на трубопроводах, приборы
учета на которых показывают
превышение показателем X
значения Y?
Информационная модель
• Мероприятие
• Трубопровод
• Прибор учета
• Показатель X
• …
Какова стоимость…
Шина(ESB)
Источник 1
Источник 2
ПОвитрины
агрегация
ответа
интерпретация
запроса
представление
результата
Порядок работы с логической витриной данных.
1. Аналитик делает запрос в терминах
своей предметной области.
Витрина:
2. Представляет его в виде запроса
к информационной модели.
3. Определяет, где находятся данные,
необходимые для ответа на этот запрос.
4. Выполняет частные запросы исходных
данных к разным источникам, фильтруя их.
5. Получает и интегрирует ответы
в единое представление – граф.
6. Выполняет пост-обработку графа,
заключающуюся, например, в применении
правил логического вывода для получения
новых знаний на основании новых данных.
7. Выполняет на нем исходный запрос,
и возвращает ответ аналитику.

14Простой пример
Приведем простой демонстрационный пример использования логической витрины данных.
Рассмотрим некий промышленный комплекс, обладающий огромным количеством оборудования,
снабженного различными датчиками и сенсорами, регулярно сообщающими сведения о его состоянии.
Для простоты рассмотрим только два агрегата, котел и резервуар, и три датчика: температуры котла
и резервуара, а также давления в котле. Эти датчики контролируются АСУ разных производителей
и выдают информацию в разные хранилища: сведения о температуре и давлении в котле поступают
в HBase, а данные о температуре в резервуаре пишутся в лог-файлы, расположенные в HDFS.
Следующая схема иллюстрирует процесс сбора данных.

На реальном предприятии мы имели бы дело с таким порядком числа сущностей:
Сущность Порядок числа записей Тип хранилища (пример)
Единицы оборудования Тысячи Система управления мастер-
данными
Датчики, сенсоры Сотни тысяч БД PostgreSQL
Показания датчиков Десятки миллиардов в год Файлы в HDFS, HBase
Пусть мы хотим предоставить аналитику возможность делать запросы такого типа:
• Какие единицы маслонаполненного оборудования работали при температуре
выше 300 градусов за последнюю неделю?
• Какое оборудование находится в состоянии, выходящем за пределы
рабочего диапазона?
Выполнение любого из них требует связывания данных из разных источников,
в том числе из находящихся за пределами нашего модельного примера.

Рассмотрим пример простого запроса, на который можно найти ответ в нашем
наборе информации. Пусть аналитик интересуется
оборудованием, установленные на котором сенсоры одновременно измерили
температуру больше 4000 и давление больше 5 мПа в течение заданного времени.
В этой фразе мы выделили жирным слова, соответствующие сущностям информационной модели: оборудование,
сенсор, измерение. Курсивом выделены атрибуты и связи этих сущностей. Наш запрос можно представить
в виде такого графа (под каждым типом данных мы указали хранилище, в котором они находятся):

Схема выполнения запроса такова. Сначала нужно отфильтровать измерения
температуры за заданный период со значением больше 4000 C, и измерения давления
со значением больше 5 мПа; затем нужно найти среди них те, которые выполнены
сенсорами, установленные на одной и той же единице оборудования, и при этом
выполнены одновременно. Именно так и будет действовать витрина данных.
Аналитик через несколько
секунд получит ответ на вопрос,
на который без витрины смог
бы ответить только с помощью
программиста, через несколько
часов или дней труда.
Благодаря витрине аналитик
может непосредственно
использовать данные, выдвигать
и проверять гипотезы.

18Интерфейс редактирования модели и правил
В интерфейсе редактирования модели и правил задается как концептуальная модель предметной области,
в терминах которой аналитик строит запрос, так и сведения о том, в каких источниках находятся данные,
соответствующие элементам модели.
Дерево информационной модели Форма редактирования настроек исходных данных

19Интерфейс запросов и вывода ответов
Аналитик строит запрос при помощи одного из интерфейсов Системы Управления Знаниями.
Среди этих интерфейсов – как формальные конструкторы, так и средство поиска на контролируемом
естественном языке.
Построение запроса Форма вывода результатов запроса
на контролируемом языке
Статистика извлечения данных

20Особенности решения
Технические и функциональные особенности нашего решения:
1. Решение способно интегрировать информацию из «традиционных» массивов данных с информацией,
находящейся в хранилищах Big Data.
2. Информация о сущностях одного типа может храниться в любом числе источников одновременно.
3. Витрина данных не только компонует и связывает информацию из различных источников,
но и делает логические выводы на ней в соответствии с заданными правилами на основе
концептуальной модели предметной области бизнеса и экспертных знаний.
4. В качестве источников данных могут выступать не только хранилища, но и сервисы.
За сервисами могут быть «спрятаны» любые сложные расчетные алгоритмы,
в т.ч. использующие технологии Big Data (MapReduce, машинное обучение средствами Spark MLlib).
Витрина «подает на вход» этих алгоритмов данные, выбранные аналитиком.
5. Запросы к источникам данных могут выполняться не просто асинхронно, но даже при отсутствии онлайн-связи
с ними – на этот случай предусмотрен специальный механизм передачи запроса и получения ответа.
6. Результаты выполнения запроса могут не просто выдаваться пользователю в виде таблицы или выгружаться
в Excel, но и попадать напрямую в BI-систему в виде набора данных для дальнейшего анализа.
7. Возможен контроль прав доступа пользователей к результатам выполнения запросов.

Логическая витрина для доступа к большим данным

Логическая витрина для доступа к большим данным

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Логическая витрина для доступа к большим данным

Similar a Логическая витрина для доступа к большим данным (20)

Логическая витрина для доступа к большим данным