Презентация семинара по анализу больших данных и машинному обучению 16.11.2016 г.
- Чем искусственный интеллект может помочь бизнесу?
- Что такое глубинное обучение и какие инновационные технологии можно создать на его основе?
- Почему аналитик больших данных самая сексуальная профессия XXI века?
Организаторы семинара:
Лаборатория аналитики потоковых данных и машинного обучения НГУ,
Центр обучения Big Data Analytics "НГУ-Экспасофт". Евгений Павловский — сертифицированный EMC Data Science Associate, Кандидат физико-математических наук, старший преподаватель Кафедры Общей Информатики НГУ, заведующий лабораторией аналитики потоковых данных и машинного обучения НГУ-Экспасофт,
Business Development Director в «ExpaSoft».
https://expasoft.com/edu/
1. Голограмма коллектива
Руководитель проекта магистерской программы
«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений Николаевич
Директор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.
Или какая нам от этого польза?
2. 2010 - …
ООО "Экспасофт"
ООО "Исследовательские системы"
ЭКСПАСОФТ
1999 - 2003
Выпускники НГУ
(к.ф.-м.н.)
2003 - 2011
ИМ СО РАН, лаборатория анализа данных
История создания
2015 - …
Лаборатория аналитики потоковых данных и машинного обучения НГУ
3. Экспасофт
· 2010, ЛША
· «Исследовательские системы», 2011 – н.в.
· FRiS – уникальная методология анализа данных,
школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика,
медицина, безопасность, нефтедобыча, финансы, ритейл,
облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
6. Услуги Экспасофта
· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков
· алгоритм распознавания клиентов, которые воспользуются дополнительными услугами
только после коммуникации с ними
· прогнозирование экспрессии генов, связь транскрипционных факторов
· распознавание марок автомашин по фотографии
· прогнозирование нагрузки на сервера
· распознавание и идентификация посетителей сети магазинов
· скоринговая модель по микрокредитам
· Программное обеспечение:
· библиотека алгоритмов Expasoft FRiS Studio
· представление текста в виде сетевой модели, пополнение базы данных извлечёнными из
текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование
9. 4V
· Volume
· Объём данных
· Velocity
· Скорость создания и обработки данных
· Variety
· Разнообразие источников и форм
хранения данных
· Value
· Ценность
13. Большие данные – это не только
данные
· Технологии получения, хранения, обработки, удаления данных
· Методы обработки и представления данных
· Проблема нехватки ресурсов для обработки
· Социальный феномен
· Данные большого объёма, разнообразия, темпа роста, распределённые
· Большой потенциальной ценности
15. Изменение парадигм
· Больше источников – выше достоверность
· Больше данных – выше точность
· Больше данных – ниже требования к качеству данных
· Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
· Неперемещаемость данных => параллелизм и вычисления по месту хранения
· Отказ от структурированности => технологии извлечения информации и знаний
16. Проблемы в области Больших данных
· Нет культуры обезличивания, передачи данных
(ФЗ-152)
· Нет понимания пользы от анализа данных
· Недостаточные компетенции в статистике
· "Мы закончили университет, сами разберёмся"
· Отсутствие брокеров данных
· Проекты по анализу данных имеют высокий риск
· Недостаточно данных
19. Отказ от структурированности
N = всё
сбор данных впрок
не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение
Отказ от структуры
Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System
Параллелизм обработки
Резервирование
20. Неперемещаемость
· идея использовать вычислительные мощности на месте хранения
· MapReduce
· Hadoop
· TeraData Hortonworks
· IBM BigInsights
· Cloudera
· Spark
· реально быстро!
· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга
реального времени »)
21. Новые источники достоверных
данных
· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между
устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
22. Сокращение сроков вычислений
· in-memory
· SAP HANA
· 256Tb RAM
· Oracle TimesTen
· Опыт в РФ
· СургутНефтегаз
· опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)
· сокращение сроков формирования отчётов на порядки
· MapReduce
· Hadoop
23. Статистификация
· обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights)
· неожиданные связи в данных
· скрытые закономерности
· отказ от причинности
25. Спрос
РЕАЛЬНЫЙ
· 1) Банковский сектор, скоринг
· 2) Real time bidding (RTB)
платформы
· 3) Микрофинансы
· 4) Ведомственные структуры
(РКН, МВД, ФСБ и др.)
· 5) телекомы
· 6) Авиакопании
· 7) Медицина. Текущий этап:
сбор данных. Региональные
дата-центры. НИР.
8) Госуслуги. Рекомендации.
Оценка качества. СМЭВ. 300млрд.
Электронная Москва.
26. Маркетинговое "давление"
· 1) реклама и продвижение вендоров:
· Хард+софт:Oracle, IBM, SAP, EMC, Microsoft
2) евангелисты:
· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры
· Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло-
машина, Сноуден
27. Реальные основания для "давления"
· Потенциальные рынки данных:
· Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др.
· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.)
· Рыночные факторы:
· Снижение себестоимости хранения, вычислений
· Возможность получать "всю" информацию о явлении (богатство сенсоров)
· Отход от структурированности (NoSQL базы) и синхронности (отход от ACID)
· Уход в параллелизм (закон Мура перестал действовать)
29. Магистерские программы
ВШЭ:
· Big Data Systems
· Науки о данных
МГУ:
· «Интеллектуальный анализ больших данных»
· «Большие данные: инфраструктуры и методы
решения задач»
НГУ
· Big Data Analytics
· Компьютерное моделирование
30. Онлайн
Онлайн: - от недели до полугода
· Coursera, edX (http://rusbase.com/list/bigdatye-kursy/)
· Интуит (Введение в аналитику больших массивов данных) http://bit.ly/IntuitBDA
31. Доп. образование
1 неделя - 3 месяца - 2 года
· ШАД – https://yandexdataschool.ru/
· Цифровой октябрь – http://newprolab.ru (для программирования)
· Билайн - http://bigdata.beeline.digital/datamba (для бизнес-задач)
· Экспасофт – http://expasoft.com/edu/ (для бизнес-задач)
32. •самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайн
Онлайн-курсы
bit.ly/IntuitBDA
•вовлекаем в мобильность
•готовим для индустрии и для науки
Магистратура
bigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образование
expasoft.com/edu
Образовательная стратегия в Экспасофт
33. Орг-формы
ИППК или ЦДО НГУ
Образовательный центр Экспасофт
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
Геофизика
Астрономия
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
Воздух
Унискан,
ТИОН
Игры
Splunk
Игры
Alawar
МТС
Транзакции
Таргетинг, чат-
боты
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
34. Первый в России онлайн-курс по
Big Data Analytics
Загоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин Юрий
Александрович
Зырянов Александр
Олегович
д. т. н., академик МАИ, профессор,
зав. лаб. анализа данных ИМ СО РАН
к.ф.-м.н., директор по развитию
«Экспасофт»
к.т.н., ассистент кафедры
общей информатики ФИТ
НГУ
к.т.н., преподаватель кафедры
общей информатики ФИТ НГУ
Data-аналитик,
ООО Экспасофт
Введение в
когнитивный анализ
данных
Введение в «большие
данные»
Области применения
больших данных
Основы языка R
Разработка
алгоритмов на
базе FRiS-
функции
Обзор технологий
хранения больших
данных
Программирование
на языке R
Инструменты Data
Mining
http://bit.ly/IntuitBDA
46. Выбор жены
Python для обработки анкет.
12 ложных своих анкет.
Боты для ответов на вопросы (чтобы увидеть ответы
просматриваемых). Забанили. Научил их вести себя по-
человечески. (Понаблюдал за другом, сымитировал его
поведение).
Через 3 недели получил 6 000 000 ответов от более чем
20 000 женщин.
Не спал ночами, отложил диссертацию.
Кластеризация K-Modes.
5000 анкет собрал для контроля.
Получилось 7 кластеров.
47. Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.
· Text-mining двух кластеров - ключевые интересы.
· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
48.
49. Навигация
· 1839 год. Мори Мэтью Фонтейн, ВМС
США, позже начальник архива морских
карт в Вашингтоне.
· «Датифицировал» архивы моряков.
· «Физическая география моря» в 1855
году
1. Карта навигации, короткие пути
(из Нью-Йорка к экватору вместо 40
суток только 24)
2. Потоки течений, океанография
3. Закладка трансатлантического
телеграфного кабеля
51. Восстановление данных фракционного
состава добываемой смеси
Данные:
· 3 исходных параметра ($10k)
· 3 целевых параметра ($200k)
· 5 участков данных
· Частота измерений – раз в минуту
· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
59. GPU
Мобильные нейронные сети
$2 000
387,6 Вт
270×100×35 мм
детектирование пешеходов
3,5 Вт
23×23 мм
72%
детектирование лиц 91%
Обработка видео в режиме реального времени
78%
95%
ARM
$50
64. Пушкин
A.I.
Зафонствуя попруг,
Ивисшивый чела,
На воспопе днего,
Я могина бесслужел,
Катирей свети довой,
Из увядебиле меня,
И на гразой шле, далодной
Вольностью примстают;
Я, водешил перцов
миренья?
Н.И.Путинцев, лаборатория аналитики потоковых данных и машинного обучения ММФ НГУ
66. Генетика обуславливает неверность жен
· В переделах определённого генетического кластера наличие
большего количества генов, общих для гетеросексуальной пары,
повышает вероятность женской неверности
· Университет Нью-Мексико
· Мы запрограммированы на избегание инбридинга (скрещивания
близко-родственных форм в пределах одной популяции), поскольку
генетическое многообразие имеет важные преимущества
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
67. Молодые люди пускают слюни по поводу
спортивных автомобилей
· У студентов мужского пола вырабатывается
заметно больше слюны, когда им показывают
изображения спортивных автомобилей или денег
· Школа менеджмента Келлога Северо-Западного
университета США
· Потребительские импульсы психологически
сходны с чувством голода
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
68. Курильщики реже страдают от заболеваний,
вызванных повторяющимися движениями
· В некоторых видах рабочего окружения курящие люди менее подвержены
развитию туннельного синдрома запястья
· Крупная столичная газета, исследовавшая состояние здоровья своего
персонала
· Курильщики чаще делают перерывы в работе
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
69. Террористы-смертники
не страхуют свою жизнь
· Анализ банковских данных показал, что предполагаемые
террористы обычно не имеют полиса страхования жизни
· Крупный британский банк
· Самоубийство аннулирует полис страхования жизни
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
70. Уровень преступности
повышается после выборов
· В Индии уровень преступности снижается в год выборов, но сразу после выборов
резко возрастает
· Исследователи из Индии
· Действующие политики активизируют борьбу с преступностью, чтобы обеспечить
себе переизбрание
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
71. Желтые и оранжевые автомобили реже
попадают в аварию
· реже всего в аварии попадают автомобили оранжевого,
желтого, коричневого и фиолетового цвета. Так, на общее
количество желтых машин, имеющих страховку, приходится
только 1% страховых возмещений, на автомобили оранжевого
цвета немного больше — 8%.
· одна из ведущих страховых компаний в России
· Часто в аварии попадают машины красных оттенков (в общем
количестве страховых возмещений по ДТП их доля составляет
62%)
· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.
· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если
владелец красного авто и едет спокойно и правила соблюдает,
надо быть внимательным к другим участникам дороги.
73. Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
75. Зачем управленцам математика? - HBR
• Подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
• Пройдите программу статистики для руководящих
работников или онлайновый курс обучения или
поучитесь у своих аналитиков, поработав с ними
вместе над проектами
• Обратиться к специалистам по планированию
экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей
специализации
• Гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи
• гипотезы
• донесение результатов до заинтересованных лиц
• Задавайте по ходу дела много вопросов
• больше деталей
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
http://bit.ly/HBRbigdata
76. Материалы для повышения
квалификации по направлению курса
· Видео лекции ШАД по машинному
обучению
· http://shad.yandex.ru/lectures/mac
hine_learning.xml
· Курс по большим данным на Интуит
· http://bit.ly/IntuitBDA
· Курс по озёрам данных
· https://educast.emc.com/learn/dat
a-lakes-for-big-data-may-june
Курсы на Coursera.org
· Introduction to Data Science
· https://www.coursera.org/course/datasci
· Machine Learning
· https://www.coursera.org/course/ml
· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm
· Natural Language processing
· https://www.coursera.org/course/nlp
· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data,
Exploratory Data Analysis, Reproducible Research, Statistical
Inference, Regression Models, Practical Machine Learning,
Developing Data Product, Capstone Project
· Core Concepts of Data Analysis
· https://www.coursera.org/course/datan
78. Курс «Аналитика больших данных для
бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС
10:00 – 11:20
18:00 – 19:20 18:00 – 19:20 11:30 – 13:00
19:30 – 21:00 19:30 – 21:00
• Диплом НГУ о повышении квалификации на 96 часов
• с 20 ноября по 20 января
• Проектная работа над известными кейсами и кейсом вашей компании
80. Роли – голограмма коллектива
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
DataScientist
CIO
Бизнес-
аналитик, дата-
аналитик
Разработчик
DBA
81. Научитесь делать
· Ставить задачи в области больших данных.
· Понимать и самостоятельно писать программы на языке Python.
· Работать с Tableau (визуализация, представление данных).
· Представлять результаты анализа внутренним и внешним заказчикам.
82. Принесёте в компанию
· Новое понимание ролей всех участников процесса работы с большими
данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для
решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов
анализа данных.
· Понимание создания новых бизнес-моделей на основе данных
83. Заказчики
· Унискан, Вымпелком, Сигнатек, Битриксоид, Агентство инвестиционного
развития Новосибирской области, The Invaders, Explainy, ОптиПлат, УНИПРО.
· ИТ-кластер НСО – 10 мест
90. Домашнее задание №1
· Прочитать статью:
· F. Jack Smith. Data Science As An Academic Discipline // Data Science Journal, Volume 5, 19 October
2006. URL: http://www.webcitation.org/6Dy5h9X14
· Выделить основные тезисы статьи.
· Написать эссе:
· 1) привести аргументы «за»,
· 2) оспорить.
· Ответить на вопросы:
· В чём отличие Data Science от Computer Science?
· В чём отличие Computer Science от Software Engineering?
· В чём отличие Data Scientist от Data Engineer и Data Analyst?
· Прислать эссе до 18:00 20.11.2016 на адрес Pavlovskiy@post.nsu.ru с темой «эссе на тему Data
Science»
Notas del editor
Исторически, компания Экспасофт выделилась из лаборатории анализа данных Института математики им. С.Л. Соболева СО РАН и с момента своего основания остается в поле технологий связанных с решением машинными методами интеллектуальных задач.
Технологический стек компании:
Artificial Intelligence: Python (Scikit learn, Numpy, Pandas), R (Revolution R), Azure ML, SPSS Climentine, Knime, Vowpal wabbit
Deep learning: CNN, LSTM, DNN, Café, Theano, Tensor flow
Natural Language Processing: Rule based, Bag of words, TFIDF, Latent semantic analysis, Word2vec, Doc2vec
Big Data: Spark, Hadoop, MlLib, AWS (Redshift)
Знают как «Исследовательские системы»
Строго придерживаемся методов анализа данных
Прошли достаточно большой путь обкатки мат.методов для бизнеса и понимания проблем предприятий
Сформировали уникальную экспертизу по прогнозной аналитике
На данный момент успешно реализовано более двух десятков проектов. Наиболее именитые клиенты: ЦФТ, Сигнатек, Унискан, ГК Холидей , Parallels, НИИПК им. Е.Н. Мешалкина, Schlumberger, Baker Hughes, EMC, Министерство обороны РФ.
Третьей характеристикой выделяют разнообразие. Действительно, мы наблюдаем большое количество оцифрованной информации в виде каких-то документов, таблиц, баз данных, сайтов и т.п. Если базы данных достаточно понятны в машинной обработке, то XML (полуструктурированные данные) и текстовые документы (неструктурированная информация) представляют определённую проблему, т.к. для них таких нет универсальных методов таких, как SQL для СУБД. Если они и разрабатываются где-то, то ещё так не распространены. Основной проблемой в обработке неструктурированной информации представляется извлечение смыслов текстов, решению которой посвящено целое направление научных исследований (Semantic Web), в т.ч. в корпорациях Google и Яндекс. Есть и другие проблемы с обработкой неструктурированной информации, об этом позже.
Сейчас область машинного обучения переживает настоящую революцию, связанную с успешным применением глубоких нейронных сетей в тех областях, где до сих пор "машине" не удавалось достигать результатов сравнимых с человеческими. В первую очередь, речь идет о распознавании изображений, анализе видео и аудио контента, распознавании речи, обнаружении аудио-событий, идентификации дикторов и т.д.
Это оказалось возможным благодаря переводу процесса решения этих задач из области "качественного" в область "количественного". Другими словами, теперь достижение требуемого качества решения некоторой задачи, может быть сведено к организации правильного процесса сбора информации в количествах достаточных для обучения глубоких нейронных сетей.
Компания Экспасофт располагает необходимым оборудованием и имеет положительный опыт обучения глубоких нейронных сетей для решения широкого спектра задач, речь о которых пойдет далее.
Системы распознавания лиц решают две задачи:
задача верификации
задача идентификации
Задача верификации заключается в сравнении двух фотографий с целью понять, являются ли запечатленные на них люди одним и тем же человеком или это фотографии разных людей (one-to-one). Зачастую данная задача возникает в системах охраны, когда необходимо понять является ли человек тем, за кого себя выдает.
Задача идентификации заключается в понимании, кто именно из заданного набора персон запечатлен на данной фотографии (one-to-many). Задача идентификации является технически более сложной, т.к. это задача многоклассовой классификации.
Получено решение задачи автоматической идентификации изображений бланков документов, относящихся к следующим классам:
паспорт гражданина РФ
заграничный паспорт гражданина РФ
страховое свидетельство обязательного пенсионного страхования
водительское удостоверение
свидетельство о регистрации ТС
На базе технологии глубоких нейронных сетей создано решение, позволяющее детектировать на изображении наличие людей и транспортных средств с точностью порядка 95%.
Реализована технология идентификации аудио-событий.
С высокой степенью достоверности (не менее 98%) распознаются:
крик ребенка
лай собаки
звон разбитого стекла
выстрел
пожарная сирена
Ведутся работы по переносу глубоких нейронных сетей на мобильные платформы.
Была разработана С++ реализация нейросетей предназначенных для распознавания звуковых событий, детектирования пешеходов и детектирования лиц, адаптированная для работы на ARM процессорах.
Полученное решение было успешно протестировано на платформе Raspberry Pi:
работая в режиме реального времени одна нейронная сеть потребляет порядка 30-40% одного ядра
точность распознавания снижается не более чем на 6%