SlideShare una empresa de Scribd logo
1 de 65
Голограмма коллектива
Руководитель проекта магистерской программы
«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений Николаевич
Директор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.
Или какая нам от этого польза?
Экспасофт
· 2010, ЛША
· «Исследовательские системы», 2011 – н.в.
· FRiS – уникальная методология анализа данных,
школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика,
медицина, безопасность, нефтедобыча, финансы, ритейл,
облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
А.Д.
биоинформатика
медицина
безопасность
криминалистика
нефтедобыча
финансы
маркетинг
ритейл
облачные
вычисления
образование
Бизнес-домены
А.Д. – анализ данных
• Сложные продажи
• Неочевидная бизнес-польза
• НИР и ОКР
Услуги Экспасофта
· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков
· алгоритм распознавания клиентов, которые воспользуются дополнительными услугами
только после коммуникации с ними
· прогнозирование экспрессии генов, связь транскрипционных факторов
· распознавание марок автомашин по фотографии
· прогнозирование нагрузки на сервера
· распознавание и идентификация посетителей сети магазинов
· скоринговая модель по микрокредитам
· Программное обеспечение:
· библиотека алгоритмов Expasoft FRiS Studio
· представление текста в виде сетевой модели, пополнение базы данных извлечёнными из
текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование
Машинное обучение
Кластеризация Распознавание Прогнозирование Цензурирование
Выбор
информативных
признаков
Феномен Больших данных
· 50 лет
· 2002, 50% в цифре
· 2008, Nature
· 2011, McKinsey
4V
· Volume
· Объём данных
· Velocity
· Скорость создания и обработки данных
· Variety
· Разнообразие источников и форм
хранения данных
· Value
· Ценность
2014
2015
Особенности
больших данных
Чем отличаются от маленьких по существу?
Отказ от структурированности
N = всё
 сбор данных впрок
 не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение
 Отказ от структуры
 Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System
 Параллелизм обработки
 Резервирование
Неперемещаемость
· идея использовать вычислительные мощности на месте хранения
· MapReduce
· Hadoop
· TeraData Hortonworks
· IBM BigInsights
· Cloudera
· Spark
· реально быстро!
· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга
реального времени »)
Новые источники достоверных
данных
· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между
устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
Сокращение сроков вычислений
· in-memory
· SAP HANA
· 256Tb RAM
· Oracle TimesTen
· Опыт в РФ
· СургутНефтегаз
· опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)
· сокращение сроков формирования отчётов на порядки
· MapReduce
· Hadoop
Статистификация
· обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights)
· неожиданные связи в данных
· скрытые закономерности
· отказ от причинности
Какие отрасли первыми
будут пытаться внедрять
эти технологии?
наличие реального спроса в РФ
Спрос
РЕАЛЬНЫЙ
· 1) Банковский сектор, скоринг
· 2) Real time bidding (RTB)
платформы
· 3) Микрофинансы
· 4) Ведомственные структуры
(РКН, МВД, ФСБ и др.) +
телекомы
· 5) Авиакопании
ОПАЗДЫВАЮЩИЙ
· 1) Медицина. Текущий этап:
сбор данных. Региональные
дата-центры. НИР.
2) Госуслуги. Рекомендации.
Оценка качества. СМЭВ. 300млрд.
Электронная Москва.
Маркетинговое "давление"
· 1) реклама и продвижение вендоров:
· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights), SAP HANA, EMC
Pivotal HD
· 2) "вольные" евангелисты:
· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры
· Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло-
машина, Сноуден
Реальные основания для "давления"
· Потенциальные рынки данных:
· Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др.
· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.)
· Рыночные факторы:
· Снижение себестоимости хранения, вычислений
· Возможность получать "всю" информацию о явлении (богатство сенсоров)
· Отход от структурированности (NoSQL базы) и синхронности (отход от ACID)
· Уход в параллелизм (закон Мура перестал действовать)
Отвечаем на вызов
"Кадры решают всё!" (на основе данных)
•самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайн
Онлайн-курсы
bit.ly/IntuitBDA
•вовлекаем в мобильность
•готовим для индустрии и для науки
Магистратура
bigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образование
expasoft.com/edu
Образовательная стратегия в Экспасофт
Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
Первый в России онлайн-курс по
Big Data Analytics
Загоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин Юрий
Александрович
Зырянов Александр
Олегович
д. т. н., академик МАИ, профессор,
зав. лаб. анализа данных ИМ СО РАН
к.ф.-м.н., директор по развитию
«Экспасофт»
к.т.н., ассистент кафедры
общей информатики ФИТ
НГУ
к.т.н., преподаватель кафедры
общей информатики ФИТ НГУ
Data-аналитик,
ООО Экспасофт
Введение в
когнитивный анализ
данных
Введение в «большие
данные»
Области применения
больших данных
Основы языка R
Разработка
алгоритмов на
базе FRiS-
функции
Обзор технологий
хранения больших
данных
Программирование
на языке R
Инструменты Data
Mining
http://bit.ly/IntuitBDA
Учебный план магистратуры
Data
BUSINESS
UNDERSTANDING
DATA UNDERSTANDING
DATA PREPARATION
MODELING
EVALUATION
DEPLOYMENT
CRISP-DM
https://infocus.emc.com/william_schmarzo/bills-most-excellent-data-scientist-adventure/
Команда
Конкурсы
· 1е место, 2015, AVITO
· 1е место, 2015, eKapusta
· 4е место среди 619 команд, 2009, Data Mining Cup
Чай-перерыв
Кейсы
Анализа больших данных
НГУ-Parallels
· Прогнозирование нагрузок на
сервера по характеру запросов к
ним
Препринт научной статьи
Выбор жены
http://www.wired.com/2014/01/how-to-hack-okcupid/all/
Chris McKinlay. Математик, 35 лет. Сайт знакомств
OkCupid. Алгоритмы рекомендаций. Послал десятки
писем рекомендованным. Сходил на 6 свиданий.
Базовый алгоритм OkCupid определил менее 100 анкет
(из 80000 в Лос-Анджелесе) с совместимостью более
90%.
Выбор жены
Python для обработки анкет.
12 ложных своих анкет.
Боты для ответов на вопросы (чтобы увидеть ответы
просматриваемых). Забанили. Научил их вести себя по-
человечески. (Понаблюдал за другом, сымитировал его
поведение).
Через 3 недели получил 6 000 000 ответов от более чем
20 000 женщин.
Не спал ночами, отложил диссертацию.
Кластеризация K-Modes.
5000 анкет собрал для контроля.
Получилось 7 кластеров.
Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.
· Text-mining двух кластеров - ключевые интересы.
· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
Навигация
· 1839 год. Мори Мэтью Фонтейн, ВМС
США, позже начальник архива морских
карт в Вашингтоне.
· «Датифицировал» архивы моряков.
· «Физическая география моря» в 1855
году
1. Карта навигации, короткие пути
(из Нью-Йорка к экватору вместо 40
суток только 24)
2. Потоки течений, океанография
3. Закладка трансатлантического
телеграфного кабеля
Нефть,
это наше всё
Востребованы конкурентоспособные решения
Восстановление данных фракционного
состава добываемой смеси
Данные:
· 3 исходных параметра ($10k)
· 3 целевых параметра ($200k)
· 5 участков данных
· Частота измерений – раз в минуту
· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
Сравнение алгоритмов
Алгоритмы прогнозирования gas oil water
LinearRegression 0,0326 0,1734 0,2018
ZeroR 0,0652 0,1022 0,1103
M5P 0,0326 0,1695 0,1619
MultilayerPerceptron 0,0426 0,3623 0,3484
IsotonicRegression 0,06 0,143 0,1439
LeastMedSq 0,02 0,281 0,3569
PaceRegression 0,0281 0,1993 0,3656
RBFNetwork 0,0651 0,1023 0,1105
SimpleLinearRegression 0,027 0,1939 0,227
SMOreg 0,0229 0,3306 0,4426
IBk 0,0635 0,1519 0,1528
LWL 0,0633 0,112 0,1164
ConjunctiveRule 0,0637 0,1042 0,1173
M5Rules 0,0326 0,1695 0,1601
DecisionTable 0,062 0,104 0,1124
DecisionStump 0,063 0,1099 0,1125
REPTree 0,0616 0,1416 0,1595
KStar 0,0645 0,1041 0,1124
Неожиданные
открытия
Кейсы из книги
«Прогнозируя Будущее: Кто кликнет, купит, соврет
или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Чем больше общих генов в паре, тем
больше вероятность неверности жены
Молодцы пускают слюни по поводу
спортивных автомобилей
Курильщики реже страдают от туннельного
синдрома запястья
Террористы-смертники
жизнь не страхуют
После выборов преступность увеличивается
Желтые и оранжевые автомобили реже
попадают в аварию
· реже всего в аварии попадают автомобили оранжевого,
желтого, коричневого и фиолетового цвета. Так, на общее
количество желтых машин, имеющих страховку, приходится
только 1% страховых возмещений, на автомобили оранжевого
цвета немного больше — 8%.
· одна из ведущих страховых компаний в России
· Часто в аварии попадают машины красных оттенков (в общем
количестве страховых возмещений по ДТП их доля составляет
62%)
· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.
· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если
владелец красного авто и едет спокойно и правила соблюдает,
надо быть внимательным к другим участникам дороги.
CAPEX & OPEX
Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
Как делает Beeline?
BigData-процесс в Вымпелкоме (2014)
«Фабрика идей»
•Формализация
•Анализ
•План
Фабрика
идей
•Источники
•Пилот
•Доработка
•Оценка
•Выпуск
решения
Реализация
•Актуальность
•Доступность
•Производительность
•Масштабируемость
•Работа с
инцидентами
Результат
Секретные ингредиенты от Билайна
· Инфраструктура для БД
· «Фабрика идей»
· Вовлечённость всех подразделений
· Команда, мотивированная на результат и открытия
· Соответствие потребностям бизнеса
· Получить быстрый результат
https://events.yandex.ru/lib/talks/2948/
, НГУ
Зачем управленцам математика? - HBR
• Подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
• Пройдите программу статистики для руководящих
работников или онлайновый курс обучения или
поучитесь у своих аналитиков, поработав с ними
вместе над проектами
• Обратиться к специалистам по планированию
экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей
специализации
• Гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи
• гипотезы
• донесение результатов до заинтересованных лиц
• Задавайте по ходу дела много вопросов
• больше деталей
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
http://bit.ly/HBRbigdata
Материалы для повышения
квалификации по направлению курса
· Видео лекции ШАД по машинному
обучению
· http://shad.yandex.ru/lectures/mac
hine_learning.xml
· Курс по большим данным на Интуит
· http://bit.ly/IntuitBDA
· Курс по озёрам данных
· https://educast.emc.com/learn/dat
a-lakes-for-big-data-may-june
Курсы на Coursera.org
· Introduction to Data Science
· https://www.coursera.org/course/datasci
· Machine Learning
· https://www.coursera.org/course/ml
· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm
· Natural Language processing
· https://www.coursera.org/course/nlp
· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data,
Exploratory Data Analysis, Reproducible Research, Statistical
Inference, Regression Models, Practical Machine Learning,
Developing Data Product, Capstone Project
· Core Concepts of Data Analysis
· https://www.coursera.org/course/datan
Запишитесь на курс
Только хардкор – только офлайн
Курс «Аналитика больших данных для
бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС
10:00 – 11:20
18:00 – 19:20 18:00 – 19:20 11:30 – 13:00
19:30 – 21:00 19:30 – 21:00
• Диплом НГУ о повышении квалификации на 96 часов
• с 20 октября по 20 декабря
• Проектная работа над известными кейсами и кейсом вашей компании
Нити-дисциплины
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
Роли – голограмма коллектива
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
DataScientist
CIO
Бизнес-
аналитик, дата-
аналитик
Разработчик
DBA
Научитесь делать
· Ставить задачи в области больших данных.
· Понимать и самостоятельно писать программы на языке Python.
· Работать в студии анализа данных Orange.
· Работать с Tableau (визуализация, представление данных).
· Представлять результаты анализа внутренним и внешним заказчикам.
Принесёте в компанию
· Новое понимание ролей всех участников процесса работы с большими
данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для
решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов
анализа данных.
· Понимание создания новых бизнес-моделей на основе данных
Ждём вас на курсах

Más contenido relacionado

Destacado

Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
bigdatabm
 
Радченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данныеРадченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данные
bigdatabm
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетях
LiloSEA
 
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
bigdatabm
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
bigdatabm
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
bigdatabm
 
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
bigdatabm
 

Destacado (20)

282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиа282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиа
 
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
 
Prote on moscow
Prote on moscowProte on moscow
Prote on moscow
 
Радченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данныеРадченко И. Открытые биомедицинские данные
Радченко И. Открытые биомедицинские данные
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетях
 
Roadmap бессмертие final
Roadmap бессмертие finalRoadmap бессмертие final
Roadmap бессмертие final
 
трудные люди
трудные людитрудные люди
трудные люди
 
Командоварение. Хозяйкам на заметку.
Командоварение. Хозяйкам на заметку.Командоварение. Хозяйкам на заметку.
Командоварение. Хозяйкам на заметку.
 
внедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMвнедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAM
 
Обучение Linux в корпоративном секторе
Обучение Linux в корпоративном сектореОбучение Linux в корпоративном секторе
Обучение Linux в корпоративном секторе
 
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
 
основные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVESTосновные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVEST
 
Выстраиваем фреймворк обучения от команды до компании
Выстраиваем фреймворк обучения от команды до компанииВыстраиваем фреймворк обучения от команды до компании
Выстраиваем фреймворк обучения от команды до компании
 
Ключ к венчурному финансированию
Ключ к венчурному финансированиюКлюч к венчурному финансированию
Ключ к венчурному финансированию
 
Codename one epam
Codename one epamCodename one epam
Codename one epam
 
Управление проектами в Cactussoft
Управление проектами в CactussoftУправление проектами в Cactussoft
Управление проектами в Cactussoft
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
 
Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)
 
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
 

Similar a 2015 голограмма коллектива

Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАНВычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
BDA
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
Игорь Мызгин
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
DEVTYPE
 
Geolab it - general presentation
Geolab it - general presentationGeolab it - general presentation
Geolab it - general presentation
ekurin
 

Similar a 2015 голограмма коллектива (20)

Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспекты
 
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАНВычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАНВычислительная и коммуникационная инфраструктура Академгородка и СО РАН
Вычислительная и коммуникационная инфраструктура Академгородка и СО РАН
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...
Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...
Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...
 
Geolab it - general presentation
Geolab it - general presentationGeolab it - general presentation
Geolab it - general presentation
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Bd telehelth
Bd telehelthBd telehelth
Bd telehelth
 
Skolkovo cybersecurity, Jan 2018
Skolkovo cybersecurity, Jan 2018Skolkovo cybersecurity, Jan 2018
Skolkovo cybersecurity, Jan 2018
 
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
 
A.g.demenev(perm su) 2014
A.g.demenev(perm su) 2014A.g.demenev(perm su) 2014
A.g.demenev(perm su) 2014
 
Артамонова Ю.С.
Артамонова Ю.С. Артамонова Ю.С.
Артамонова Ю.С.
 

Más de Evgeniy Pavlovskiy

Más de Evgeniy Pavlovskiy (6)

Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетинге
 
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
 
Total science slam 2016: Е.Павловский, "Кого мы учим?"
Total science slam  2016: Е.Павловский, "Кого мы учим?"Total science slam  2016: Е.Павловский, "Кого мы учим?"
Total science slam 2016: Е.Павловский, "Кого мы учим?"
 
2015 11-24 ключник больших данных
2015 11-24 ключник больших данных2015 11-24 ключник больших данных
2015 11-24 ключник больших данных
 
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
 
What is big data
What is big dataWhat is big data
What is big data
 

2015 голограмма коллектива

  • 1. Голограмма коллектива Руководитель проекта магистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт» Открытый семинар по кейсам больших данных. Или какая нам от этого польза?
  • 2. Экспасофт · 2010, ЛША · «Исследовательские системы», 2011 – н.в. · FRiS – уникальная методология анализа данных, школа Н.Г. Загоруйко · 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг · Услуги по анализу данных
  • 4. Услуги Экспасофта · Построение прогнозных моделей: · прогнозирование биофизических свойств по аминокислотному составу белков · алгоритм распознавания клиентов, которые воспользуются дополнительными услугами только после коммуникации с ними · прогнозирование экспрессии генов, связь транскрипционных факторов · распознавание марок автомашин по фотографии · прогнозирование нагрузки на сервера · распознавание и идентификация посетителей сети магазинов · скоринговая модель по микрокредитам · Программное обеспечение: · библиотека алгоритмов Expasoft FRiS Studio · представление текста в виде сетевой модели, пополнение базы данных извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения · Образование
  • 5. Машинное обучение Кластеризация Распознавание Прогнозирование Цензурирование Выбор информативных признаков
  • 6. Феномен Больших данных · 50 лет · 2002, 50% в цифре · 2008, Nature · 2011, McKinsey
  • 7. 4V · Volume · Объём данных · Velocity · Скорость создания и обработки данных · Variety · Разнообразие источников и форм хранения данных · Value · Ценность
  • 8.
  • 10. 2015
  • 12.
  • 13. Отказ от структурированности N = всё  сбор данных впрок  не знаем, какие вопросы будем задавать NoSQL - Not Only SQL: документо-ориентированные, ключ-значение  Отказ от структуры  Отказ от консистентности в пользу доступности или параллелизма HDFS – Hadoop Distributed File System  Параллелизм обработки  Резервирование
  • 14. Неперемещаемость · идея использовать вычислительные мощности на месте хранения · MapReduce · Hadoop · TeraData Hortonworks · IBM BigInsights · Cloudera · Spark · реально быстро! · (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)
  • 15. Новые источники достоверных данных · Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами. · Социальные сети (скоринг по соц. профилю, RTB) · Открытые данные: http://data.gov.ru/, http://data.mos.ru/
  • 16. Сокращение сроков вычислений · in-memory · SAP HANA · 256Tb RAM · Oracle TimesTen · Опыт в РФ · СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”) · сокращение сроков формирования отчётов на порядки · MapReduce · Hadoop
  • 17. Статистификация · обращение к статистическим методам · обращение к интеллектуальному анализу данных (Data Mining) · поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности · отказ от причинности
  • 18. Какие отрасли первыми будут пытаться внедрять эти технологии? наличие реального спроса в РФ
  • 19. Спрос РЕАЛЬНЫЙ · 1) Банковский сектор, скоринг · 2) Real time bidding (RTB) платформы · 3) Микрофинансы · 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) + телекомы · 5) Авиакопании ОПАЗДЫВАЮЩИЙ · 1) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР. 2) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.
  • 20. Маркетинговое "давление" · 1) реклама и продвижение вендоров: · Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights), SAP HANA, EMC Pivotal HD · 2) "вольные" евангелисты: · В. Майер-Шёнбергер, Р. Смолан и др. · 3) осознание возможностей BigData в обществе, подтверждающие примеры · Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло- машина, Сноуден
  • 21. Реальные основания для "давления" · Потенциальные рынки данных: · Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др. · Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.) · Рыночные факторы: · Снижение себестоимости хранения, вычислений · Возможность получать "всю" информацию о явлении (богатство сенсоров) · Отход от структурированности (NoSQL базы) и синхронности (отход от ACID) · Уход в параллелизм (закон Мура перестал действовать)
  • 22. Отвечаем на вызов "Кадры решают всё!" (на основе данных)
  • 23. •самая широкая аудитория (школьники, разработчики, бакалавры) •средство привлечения из онлайн в офлайн Онлайн-курсы bit.ly/IntuitBDA •вовлекаем в мобильность •готовим для индустрии и для науки Магистратура bigdatansu.ru •укрепление научных школАспирантура •повышение квалификации в области обработки больших данных Доп. Образование expasoft.com/edu Образовательная стратегия в Экспасофт
  • 24. Орг-формы ИППК или ЦДО НГУ ГАУ «Центр» - межвуз. маг. КА Сухорукова Компетенции ЦЕРН Нейросети ФЭЧ ИЯФ Спутники Нейросети Военка ИАЭ FRiS, оптим. алг, онтологии, логика Распознавание ИМ Банки данных CUDA, DNA Биоинформатика ИЦиГ, УНИПРО, НПС Архивы Онтологии, логика Информатика ИСИ СО РАН ССКЦ Информатика ИВТ, ИВМиМГ СОРМ Сбор, хранение Безопасность Сигнатек ? Безопасность Безопасность СИБ Инициативы Магистерская программа Аспирантура Краткосрочные курсы СХД 1 Pb Хранение Кардиология, Радиология НИИПК ? Хранение Медицина НИИТО FRiS, оптим. алг, онтологии, логика, управление BDA Безопасность, медицина, финансы, сервера Экспасофт Приборы ? Унискан, ТИОН Игры Slpunk Игры Alawar МТС Транзакции Таргетинг Eyeline Банки Транзакции Финансы ЦФТ ? Вычисления, хранение ИЦКТ Потребители ? Обработка, образование Медицина, биология, физика, ИТ, и др. НГУ Карты Геопространство Карты DataEast
  • 25. Первый в России онлайн-курс по Big Data Analytics Загоруйко Николай Григорьевич Павловский Евгений Николаевич Борисова Ирина Артёмовна Аникин Юрий Александрович Зырянов Александр Олегович д. т. н., академик МАИ, профессор, зав. лаб. анализа данных ИМ СО РАН к.ф.-м.н., директор по развитию «Экспасофт» к.т.н., ассистент кафедры общей информатики ФИТ НГУ к.т.н., преподаватель кафедры общей информатики ФИТ НГУ Data-аналитик, ООО Экспасофт Введение в когнитивный анализ данных Введение в «большие данные» Области применения больших данных Основы языка R Разработка алгоритмов на базе FRiS- функции Обзор технологий хранения больших данных Программирование на языке R Инструменты Data Mining http://bit.ly/IntuitBDA
  • 30.
  • 31.
  • 32. Конкурсы · 1е место, 2015, AVITO · 1е место, 2015, eKapusta · 4е место среди 619 команд, 2009, Data Mining Cup
  • 35. НГУ-Parallels · Прогнозирование нагрузок на сервера по характеру запросов к ним Препринт научной статьи
  • 36. Выбор жены http://www.wired.com/2014/01/how-to-hack-okcupid/all/ Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий. Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.
  • 37. Выбор жены Python для обработки анкет. 12 ложных своих анкет. Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по- человечески. (Понаблюдал за другом, сымитировал его поведение). Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин. Не спал ночами, отложил диссертацию. Кластеризация K-Modes. 5000 анкет собрал для контроля. Получилось 7 кластеров.
  • 38. Выбор жены · Понравилось два кластера. Создал и оптимизировал под них профили A и B. · Text-mining двух кластеров - ключевые интересы. · Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
  • 39.
  • 40. Навигация · 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне. · «Датифицировал» архивы моряков. · «Физическая география моря» в 1855 году 1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24) 2. Потоки течений, океанография 3. Закладка трансатлантического телеграфного кабеля
  • 41. Нефть, это наше всё Востребованы конкурентоспособные решения
  • 42. Восстановление данных фракционного состава добываемой смеси Данные: · 3 исходных параметра ($10k) · 3 целевых параметра ($200k) · 5 участков данных · Частота измерений – раз в минуту · Всего 66052 измерения 12мм 13мм 11мм 12мм 13мм
  • 43. Сравнение алгоритмов Алгоритмы прогнозирования gas oil water LinearRegression 0,0326 0,1734 0,2018 ZeroR 0,0652 0,1022 0,1103 M5P 0,0326 0,1695 0,1619 MultilayerPerceptron 0,0426 0,3623 0,3484 IsotonicRegression 0,06 0,143 0,1439 LeastMedSq 0,02 0,281 0,3569 PaceRegression 0,0281 0,1993 0,3656 RBFNetwork 0,0651 0,1023 0,1105 SimpleLinearRegression 0,027 0,1939 0,227 SMOreg 0,0229 0,3306 0,4426 IBk 0,0635 0,1519 0,1528 LWL 0,0633 0,112 0,1164 ConjunctiveRule 0,0637 0,1042 0,1173 M5Rules 0,0326 0,1695 0,1601 DecisionTable 0,062 0,104 0,1124 DecisionStump 0,063 0,1099 0,1125 REPTree 0,0616 0,1416 0,1595 KStar 0,0645 0,1041 0,1124
  • 44. Неожиданные открытия Кейсы из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 45. Чем больше общих генов в паре, тем больше вероятность неверности жены
  • 46. Молодцы пускают слюни по поводу спортивных автомобилей
  • 47. Курильщики реже страдают от туннельного синдрома запястья
  • 50. Желтые и оранжевые автомобили реже попадают в аварию · реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%. · одна из ведущих страховых компаний в России · Часто в аварии попадают машины красных оттенков (в общем количестве страховых возмещений по ДТП их доля составляет 62%) · Объясняется это тем, что красный выбирают в основном водители молодые, имеющий маленький водительский стаж. · Другая возможная причина: красный цвет вызывает у человека активизацию процессов, возбуждённость. Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги.
  • 52. Big Data проекты сбор данных (CAPEX) • Сервера • Облака • Инфраструктура извлечение пользы (value) (OPEX) • команда • Data Scientist • Data Engineer • Manager • процесс • сбор данных • инвентаризация источников • доступ к данным • физический • юридический • мощности по обработке данных • Hadoop - обрабатываем прямо там, где хранятся • в облаках • на локальных машинах • аналитические инструменты • Splunk • PreCog • BigML
  • 54. BigData-процесс в Вымпелкоме (2014) «Фабрика идей» •Формализация •Анализ •План Фабрика идей •Источники •Пилот •Доработка •Оценка •Выпуск решения Реализация •Актуальность •Доступность •Производительность •Масштабируемость •Работа с инцидентами Результат
  • 55. Секретные ингредиенты от Билайна · Инфраструктура для БД · «Фабрика идей» · Вовлечённость всех подразделений · Команда, мотивированная на результат и открытия · Соответствие потребностям бизнеса · Получить быстрый результат
  • 57. Зачем управленцам математика? - HBR • Подучите азы регрессионного анализа, статистического анализа и планирования экспериментов • Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами • Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании) • Сотрудничайте с аналитиками подходящей специализации • Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент • Наладить контакты между аналитиками и всеми службами (матричная организация) - чтобы были коммуникации • Сосредоточьтесь на начальной и конечной стадиях • постановка задачи • гипотезы • донесение результатов до заинтересованных лиц • Задавайте по ходу дела много вопросов • больше деталей • Создавайте культуру исследования, а не защиты • поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные http://bit.ly/HBRbigdata
  • 58. Материалы для повышения квалификации по направлению курса · Видео лекции ШАД по машинному обучению · http://shad.yandex.ru/lectures/mac hine_learning.xml · Курс по большим данным на Интуит · http://bit.ly/IntuitBDA · Курс по озёрам данных · https://educast.emc.com/learn/dat a-lakes-for-big-data-may-june Курсы на Coursera.org · Introduction to Data Science · https://www.coursera.org/course/datasci · Machine Learning · https://www.coursera.org/course/ml · Probabilistic Graphical Models · https://www.coursera.org/course/pgm · Natural Language processing · https://www.coursera.org/course/nlp · Data Science Specialization – 9 курсов + проект · Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project · Core Concepts of Data Analysis · https://www.coursera.org/course/datan
  • 59. Запишитесь на курс Только хардкор – только офлайн
  • 60. Курс «Аналитика больших данных для бизнеса» ПН ВТ СР ЧТ ПТ СБ ВС 10:00 – 11:20 18:00 – 19:20 18:00 – 19:20 11:30 – 13:00 19:30 – 21:00 19:30 – 21:00 • Диплом НГУ о повышении квалификации на 96 часов • с 20 октября по 20 декабря • Проектная работа над известными кейсами и кейсом вашей компании
  • 61. Нити-дисциплины BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML Алгоритмы Модели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum
  • 62. Роли – голограмма коллектива BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML Алгоритмы Модели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum DataScientist CIO Бизнес- аналитик, дата- аналитик Разработчик DBA
  • 63. Научитесь делать · Ставить задачи в области больших данных. · Понимать и самостоятельно писать программы на языке Python. · Работать в студии анализа данных Orange. · Работать с Tableau (визуализация, представление данных). · Представлять результаты анализа внутренним и внешним заказчикам.
  • 64. Принесёте в компанию · Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели. · Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании. · Предметные знания всех основных направлений машинного обучения. · Понимание областей применения «джентельменского набора» алгоритмов анализа данных. · Понимание создания новых бизнес-моделей на основе данных
  • 65. Ждём вас на курсах

Notas del editor

  1. Знают как «Исследовательские системы» Строго придерживаемся методов анализа данных Прошли достаточно большой путь обкатки мат.методов для бизнеса и понимания проблем предприятий Сформировали уникальную экспертизу по прогнозной аналитике
  2. Третьей характеристикой выделяют разнообразие. Действительно, мы наблюдаем большое количество оцифрованной информации в виде каких-то документов, таблиц, баз данных, сайтов и т.п. Если базы данных достаточно понятны в машинной обработке, то XML (полуструктурированные данные) и текстовые документы (неструктурированная информация) представляют определённую проблему, т.к. для них таких нет универсальных методов таких, как SQL для СУБД. Если они и разрабатываются где-то, то ещё так не распространены. Основной проблемой в обработке неструктурированной информации представляется извлечение смыслов текстов, решению которой посвящено целое направление научных исследований (Semantic Web), в т.ч. в корпорациях Google и Яндекс. Есть и другие проблемы с обработкой неструктурированной информации, об этом позже.