SlideShare una empresa de Scribd logo
1 de 90
Голограмма коллектива
Руководитель проекта магистерской программы
«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений Николаевич
Директор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.
Или какая нам от этого польза?
2010 - …
ООО "Экспасофт"
ООО "Исследовательские системы"
ЭКСПАСОФТ
1999 - 2003
Выпускники НГУ
(к.ф.-м.н.)
2003 - 2011
ИМ СО РАН, лаборатория анализа данных
История создания
2015 - …
Лаборатория аналитики потоковых данных и машинного обучения НГУ
Экспасофт
· 2010, ЛША
· «Исследовательские системы», 2011 – н.в.
· FRiS – уникальная методология анализа данных,
школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика,
медицина, безопасность, нефтедобыча, финансы, ритейл,
облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
Клиенты и партнеры
А.Д.
биоинформатика
медицина
безопасность
криминалистика
нефтедобыча
финансы
маркетинг
ритейл
облачные
вычисления
образование
Бизнес-домены
А.Д. – анализ данных
• Сложные продажи
• Неочевидная бизнес-польза
• НИР и ОКР
Услуги Экспасофта
· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков
· алгоритм распознавания клиентов, которые воспользуются дополнительными услугами
только после коммуникации с ними
· прогнозирование экспрессии генов, связь транскрипционных факторов
· распознавание марок автомашин по фотографии
· прогнозирование нагрузки на сервера
· распознавание и идентификация посетителей сети магазинов
· скоринговая модель по микрокредитам
· Программное обеспечение:
· библиотека алгоритмов Expasoft FRiS Studio
· представление текста в виде сетевой модели, пополнение базы данных извлечёнными из
текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование
Машинное обучение
Кластеризация Распознавание Прогнозирование Цензурирование
Выбор
информативных
признаков
Феномен Больших данных
· 50 лет
· 2002, 50% в цифре
· 2008, Nature
· 2011, McKinsey
4V
· Volume
· Объём данных
· Velocity
· Скорость создания и обработки данных
· Variety
· Разнообразие источников и форм
хранения данных
· Value
· Ценность
2014
2015
Большие данные – это не только
данные
· Технологии получения, хранения, обработки, удаления данных
· Методы обработки и представления данных
· Проблема нехватки ресурсов для обработки
· Социальный феномен
· Данные большого объёма, разнообразия, темпа роста, распределённые
· Большой потенциальной ценности
Изменение парадигм
· Объектом деятельности является не программа и код, а гипотезы и данные
Изменение парадигм
· Больше источников – выше достоверность
· Больше данных – выше точность
· Больше данных – ниже требования к качеству данных
· Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
· Неперемещаемость данных => параллелизм и вычисления по месту хранения
· Отказ от структурированности => технологии извлечения информации и знаний
Проблемы в области Больших данных
· Нет культуры обезличивания, передачи данных
(ФЗ-152)
· Нет понимания пользы от анализа данных
· Недостаточные компетенции в статистике
· "Мы закончили университет, сами разберёмся"
· Отсутствие брокеров данных
· Проекты по анализу данных имеют высокий риск
· Недостаточно данных
Особенности
больших данных
Чем отличаются от маленьких по существу?
Отказ от структурированности
N = всё
 сбор данных впрок
 не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение
 Отказ от структуры
 Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System
 Параллелизм обработки
 Резервирование
Неперемещаемость
· идея использовать вычислительные мощности на месте хранения
· MapReduce
· Hadoop
· TeraData Hortonworks
· IBM BigInsights
· Cloudera
· Spark
· реально быстро!
· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга
реального времени »)
Новые источники достоверных
данных
· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между
устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
Сокращение сроков вычислений
· in-memory
· SAP HANA
· 256Tb RAM
· Oracle TimesTen
· Опыт в РФ
· СургутНефтегаз
· опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)
· сокращение сроков формирования отчётов на порядки
· MapReduce
· Hadoop
Статистификация
· обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights)
· неожиданные связи в данных
· скрытые закономерности
· отказ от причинности
Какие отрасли
первыми внедряют
технологии?
наличие реального спроса в РФ
Спрос
РЕАЛЬНЫЙ
· 1) Банковский сектор, скоринг
· 2) Real time bidding (RTB)
платформы
· 3) Микрофинансы
· 4) Ведомственные структуры
(РКН, МВД, ФСБ и др.)
· 5) телекомы
· 6) Авиакопании
· 7) Медицина. Текущий этап:
сбор данных. Региональные
дата-центры. НИР.
8) Госуслуги. Рекомендации.
Оценка качества. СМЭВ. 300млрд.
Электронная Москва.
Маркетинговое "давление"
· 1) реклама и продвижение вендоров:
· Хард+софт:Oracle, IBM, SAP, EMC, Microsoft
2) евангелисты:
· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры
· Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло-
машина, Сноуден
Реальные основания для "давления"
· Потенциальные рынки данных:
· Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др.
· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.)
· Рыночные факторы:
· Снижение себестоимости хранения, вычислений
· Возможность получать "всю" информацию о явлении (богатство сенсоров)
· Отход от структурированности (NoSQL базы) и синхронности (отход от ACID)
· Уход в параллелизм (закон Мура перестал действовать)
Отвечаем на вызов
"Кадры решают всё!" (на основе данных)
Магистерские программы
ВШЭ:
· Big Data Systems
· Науки о данных
МГУ:
· «Интеллектуальный анализ больших данных»
· «Большие данные: инфраструктуры и методы
решения задач»
НГУ
· Big Data Analytics
· Компьютерное моделирование
Онлайн
Онлайн: - от недели до полугода
· Coursera, edX (http://rusbase.com/list/bigdatye-kursy/)
· Интуит (Введение в аналитику больших массивов данных) http://bit.ly/IntuitBDA
Доп. образование
1 неделя - 3 месяца - 2 года
· ШАД – https://yandexdataschool.ru/
· Цифровой октябрь – http://newprolab.ru (для программирования)
· Билайн - http://bigdata.beeline.digital/datamba (для бизнес-задач)
· Экспасофт – http://expasoft.com/edu/ (для бизнес-задач)
•самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайн
Онлайн-курсы
bit.ly/IntuitBDA
•вовлекаем в мобильность
•готовим для индустрии и для науки
Магистратура
bigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образование
expasoft.com/edu
Образовательная стратегия в Экспасофт
Орг-формы
ИППК или ЦДО НГУ
Образовательный центр Экспасофт
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
Геофизика
Астрономия
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
Воздух
Унискан,
ТИОН
Игры
Splunk
Игры
Alawar
МТС
Транзакции
Таргетинг, чат-
боты
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
Первый в России онлайн-курс по
Big Data Analytics
Загоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин Юрий
Александрович
Зырянов Александр
Олегович
д. т. н., академик МАИ, профессор,
зав. лаб. анализа данных ИМ СО РАН
к.ф.-м.н., директор по развитию
«Экспасофт»
к.т.н., ассистент кафедры
общей информатики ФИТ
НГУ
к.т.н., преподаватель кафедры
общей информатики ФИТ НГУ
Data-аналитик,
ООО Экспасофт
Введение в
когнитивный анализ
данных
Введение в «большие
данные»
Области применения
больших данных
Основы языка R
Разработка
алгоритмов на
базе FRiS-
функции
Обзор технологий
хранения больших
данных
Программирование
на языке R
Инструменты Data
Mining
http://bit.ly/IntuitBDA
Учебный план магистратуры
Data
BUSINESS
UNDERSTANDING
DATA UNDERSTANDING
DATA PREPARATION
MODELING
EVALUATION
DEPLOYMENT
CRISP-DM
Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC
2
PROVEN PROFESSIONAL
Data Analytics Lifecycle
37
Discovery
Operationalize
Model
Planning
Data Prep
Model
Building
Communicate
Results
Do I have enough
information to draft an
analytic plan and share for
peer review?
Do I have
enough good
quality data to
start building
the model?
Do I have a good idea
about the type of model
to try? Can I refine the
analytic plan?
Is the model robust
enough? Have we
failed for sure?
1
2
3
4
6
5
Команда
Конкурсы
· 1е место, 2015, AVITO
· 1е место, 2015, eKapusta
· 4е место среди 619 команд, 2009, Data Mining Cup
Чай-перерыв
Кейсы
Анализа больших данных
НГУ-Parallels
· Прогнозирование нагрузок на
сервера по характеру запросов к
ним
Выбор жены
http://www.wired.com/2014/01/how-to-hack-okcupid/all/
Chris McKinlay. Математик, 35 лет. Сайт знакомств
OkCupid. Алгоритмы рекомендаций. Послал десятки
писем рекомендованным. Сходил на 6 свиданий.
Базовый алгоритм OkCupid определил менее 100 анкет
(из 80000 в Лос-Анджелесе) с совместимостью более
90%.
Выбор жены
Python для обработки анкет.
12 ложных своих анкет.
Боты для ответов на вопросы (чтобы увидеть ответы
просматриваемых). Забанили. Научил их вести себя по-
человечески. (Понаблюдал за другом, сымитировал его
поведение).
Через 3 недели получил 6 000 000 ответов от более чем
20 000 женщин.
Не спал ночами, отложил диссертацию.
Кластеризация K-Modes.
5000 анкет собрал для контроля.
Получилось 7 кластеров.
Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.
· Text-mining двух кластеров - ключевые интересы.
· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
Навигация
· 1839 год. Мори Мэтью Фонтейн, ВМС
США, позже начальник архива морских
карт в Вашингтоне.
· «Датифицировал» архивы моряков.
· «Физическая география моря» в 1855
году
1. Карта навигации, короткие пути
(из Нью-Йорка к экватору вместо 40
суток только 24)
2. Потоки течений, океанография
3. Закладка трансатлантического
телеграфного кабеля
Нефть,
это наше всё
Востребованы конкурентоспособные решения
Восстановление данных фракционного
состава добываемой смеси
Данные:
· 3 исходных параметра ($10k)
· 3 целевых параметра ($200k)
· 5 участков данных
· Частота измерений – раз в минуту
· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
Сравнение алгоритмов
Алгоритмы прогнозирования gas oil water
LinearRegression 0,0326 0,1734 0,2018
ZeroR 0,0652 0,1022 0,1103
M5P 0,0326 0,1695 0,1619
MultilayerPerceptron 0,0426 0,3623 0,3484
IsotonicRegression 0,06 0,143 0,1439
LeastMedSq 0,02 0,281 0,3569
PaceRegression 0,0281 0,1993 0,3656
RBFNetwork 0,0651 0,1023 0,1105
SimpleLinearRegression 0,027 0,1939 0,227
SMOreg 0,0229 0,3306 0,4426
IBk 0,0635 0,1519 0,1528
LWL 0,0633 0,112 0,1164
ConjunctiveRule 0,0637 0,1042 0,1173
M5Rules 0,0326 0,1695 0,1601
DecisionTable 0,062 0,104 0,1124
DecisionStump 0,063 0,1099 0,1125
REPTree 0,0616 0,1416 0,1595
KStar 0,0645 0,1041 0,1124
Распознавание изображений Распознавание звуков Машинное чтение текстов
Глубинное обучение
https://expasoft.com/services/
Распознавание лиц
Верификация
Точность на LWF = 98%
≠
=
Идентификация
Точность на LFW = 86%
Травина И. А.
Пермяков
Р. А.
Касперская Н.И
Распознавание пола и возраста
Age: 55
Gender: Male
Age: 35
Gender: Male
Age: 47
Gender: Female
Age: 39
Gender: Female
Распознавание документов
Детектирование людей и автомобилей
Распознавание звуковых событий
GPU
Мобильные нейронные сети
$2 000
387,6 Вт
270×100×35 мм
детектирование пешеходов
3,5 Вт
23×23 мм
72%
детектирование лиц 91%
Обработка видео в режиме реального времени
78%
95%
ARM
$50
Семантическая сегментация
http://arxiv.org/pdf/1511.00561v2.pdf
Раскраски
http://tinyclouds.org/colorize/
Skull surface restore
No formulae
No negative examples
Neural networks, autoencoders
Articles for revision
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Пушкин
A.I.
Зафонствуя попруг,
Ивисшивый чела,
На воспопе днего,
Я могина бесслужел,
Катирей свети довой,
Из увядебиле меня,
И на гразой шле, далодной
Вольностью примстают;
Я, водешил перцов
миренья?
Н.И.Путинцев, лаборатория аналитики потоковых данных и машинного обучения ММФ НГУ
Неожиданные
открытия
Кейсы из книги
«Прогнозируя Будущее: Кто кликнет, купит, соврет
или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Генетика обуславливает неверность жен
· В переделах определённого генетического кластера наличие
большего количества генов, общих для гетеросексуальной пары,
повышает вероятность женской неверности
· Университет Нью-Мексико
· Мы запрограммированы на избегание инбридинга (скрещивания
близко-родственных форм в пределах одной популяции), поскольку
генетическое многообразие имеет важные преимущества
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Молодые люди пускают слюни по поводу
спортивных автомобилей
· У студентов мужского пола вырабатывается
заметно больше слюны, когда им показывают
изображения спортивных автомобилей или денег
· Школа менеджмента Келлога Северо-Западного
университета США
· Потребительские импульсы психологически
сходны с чувством голода
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Курильщики реже страдают от заболеваний,
вызванных повторяющимися движениями
· В некоторых видах рабочего окружения курящие люди менее подвержены
развитию туннельного синдрома запястья
· Крупная столичная газета, исследовавшая состояние здоровья своего
персонала
· Курильщики чаще делают перерывы в работе
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Террористы-смертники
не страхуют свою жизнь
· Анализ банковских данных показал, что предполагаемые
террористы обычно не имеют полиса страхования жизни
· Крупный британский банк
· Самоубийство аннулирует полис страхования жизни
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Уровень преступности
повышается после выборов
· В Индии уровень преступности снижается в год выборов, но сразу после выборов
резко возрастает
· Исследователи из Индии
· Действующие политики активизируют борьбу с преступностью, чтобы обеспечить
себе переизбрание
Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
Желтые и оранжевые автомобили реже
попадают в аварию
· реже всего в аварии попадают автомобили оранжевого,
желтого, коричневого и фиолетового цвета. Так, на общее
количество желтых машин, имеющих страховку, приходится
только 1% страховых возмещений, на автомобили оранжевого
цвета немного больше — 8%.
· одна из ведущих страховых компаний в России
· Часто в аварии попадают машины красных оттенков (в общем
количестве страховых возмещений по ДТП их доля составляет
62%)
· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.
· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если
владелец красного авто и едет спокойно и правила соблюдает,
надо быть внимательным к другим участникам дороги.
CAPEX & OPEX
Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
https://events.yandex.ru/lib/talks/2948/
, НГУ
Зачем управленцам математика? - HBR
• Подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
• Пройдите программу статистики для руководящих
работников или онлайновый курс обучения или
поучитесь у своих аналитиков, поработав с ними
вместе над проектами
• Обратиться к специалистам по планированию
экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей
специализации
• Гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи
• гипотезы
• донесение результатов до заинтересованных лиц
• Задавайте по ходу дела много вопросов
• больше деталей
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
http://bit.ly/HBRbigdata
Материалы для повышения
квалификации по направлению курса
· Видео лекции ШАД по машинному
обучению
· http://shad.yandex.ru/lectures/mac
hine_learning.xml
· Курс по большим данным на Интуит
· http://bit.ly/IntuitBDA
· Курс по озёрам данных
· https://educast.emc.com/learn/dat
a-lakes-for-big-data-may-june
Курсы на Coursera.org
· Introduction to Data Science
· https://www.coursera.org/course/datasci
· Machine Learning
· https://www.coursera.org/course/ml
· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm
· Natural Language processing
· https://www.coursera.org/course/nlp
· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data,
Exploratory Data Analysis, Reproducible Research, Statistical
Inference, Regression Models, Practical Machine Learning,
Developing Data Product, Capstone Project
· Core Concepts of Data Analysis
· https://www.coursera.org/course/datan
Запишитесь на курс
Только хардкор – только офлайн
Курс «Аналитика больших данных для
бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС
10:00 – 11:20
18:00 – 19:20 18:00 – 19:20 11:30 – 13:00
19:30 – 21:00 19:30 – 21:00
• Диплом НГУ о повышении квалификации на 96 часов
• с 20 ноября по 20 января
• Проектная работа над известными кейсами и кейсом вашей компании
Нити-дисциплины
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
Роли – голограмма коллектива
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
DataScientist
CIO
Бизнес-
аналитик, дата-
аналитик
Разработчик
DBA
Научитесь делать
· Ставить задачи в области больших данных.
· Понимать и самостоятельно писать программы на языке Python.
· Работать с Tableau (визуализация, представление данных).
· Представлять результаты анализа внутренним и внешним заказчикам.
Принесёте в компанию
· Новое понимание ролей всех участников процесса работы с большими
данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для
решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов
анализа данных.
· Понимание создания новых бизнес-моделей на основе данных
Заказчики
· Унискан, Вымпелком, Сигнатек, Битриксоид, Агентство инвестиционного
развития Новосибирской области, The Invaders, Explainy, ОптиПлат, УНИПРО.
· ИТ-кластер НСО – 10 мест
Оценка результатов
ПК-1 Понимать возможности технологий анализа больших
данных при проведении бизнес-анализа.
ПК-2 Способность принимать решения на основе данных
ПК-3 Знать: основные элементы процесса анализа больших
данных, основные подходы к обработке больших
массивов данных.
ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3
2 3 2 2 1 3 3 3 3 2,3 2,3 2,7
2 2 2 2 1 3 3 3 3 2,3 2,0 2,7
1 1 1 2 1 3 3 3 3 2,0 1,7 2,3
2 3 2 2 2 2 3 3 3 2,3 2,7 2,3
0 1 0 3 3 3 1,5 2,0 1,5
2 0 1 3 3 3 2,5 1,5 2,0
3 3 3 1 3 3 3 3 3 2,3 3,0 3,0
2 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,5
1 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,5
1 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,8
1 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,5
0 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,5
0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,0
1 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5
1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,3
0,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741
Данилова СреднееПавловский Дюбанов Аникин
ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3
2 3 2 2 1 3 3 3 3 2,3 2,3 2,7
2 2 2 2 1 3 3 3 3 2,3 2,0 2,7
1 1 1 2 1 3 3 3 3 2,0 1,7 2,3
2 3 2 2 2 2 3 3 3 2,3 2,7 2,3
0 1 0 3 3 3 1,5 2,0 1,5
2 0 1 3 3 3 2,5 1,5 2,0
3 3 3 1 3 3 3 3 3 2,3 3,0 3,0
2 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,5
1 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,5
1 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,8
1 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,5
0 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,5
0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,0
1 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5
1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,3
0,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741
3 4 3 0 0 0 2 0 2 0 0 0 5 4 5
5 4 5 1 7 0 1 1 1 0 0 0 7 12 6
Данилова СреднееПавловский Дюбанов Аникин
Подготовлено 6 проектов по анализу данных, по задачам компаний
(с) Пресс-служба НГУ
Работали над курсом
Никита
Крутиков
дизайнер
Магистрант НГУ
Баир
Тучинов
администрирование
Операционный
директор
Ждём вас на
курсах
http://bit.ly/ABDpark
Зафолловить
· https://vk.com/siberiadatamining
· https://vk.com/ml_shad_nsk
· https://vk.com/deeplearning
· https://www.facebook.com/groups/siberiandatascience
http://www.kdnuggets.com/
Домашнее задание №1
· Прочитать статью:
· F. Jack Smith. Data Science As An Academic Discipline // Data Science Journal, Volume 5, 19 October
2006. URL: http://www.webcitation.org/6Dy5h9X14
· Выделить основные тезисы статьи.
· Написать эссе:
· 1) привести аргументы «за»,
· 2) оспорить.
· Ответить на вопросы:
· В чём отличие Data Science от Computer Science?
· В чём отличие Computer Science от Software Engineering?
· В чём отличие Data Scientist от Data Engineer и Data Analyst?
· Прислать эссе до 18:00 20.11.2016 на адрес Pavlovskiy@post.nsu.ru с темой «эссе на тему Data
Science»

Más contenido relacionado

Destacado

Destacado (10)

Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016
Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016
Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016
 
Александр Яшкин – FANUC Russia – ICBDA2016
Александр Яшкин – FANUC Russia – ICBDA2016Александр Яшкин – FANUC Russia – ICBDA2016
Александр Яшкин – FANUC Russia – ICBDA2016
 
Александр Хайтин — Yandex Data Factory — ICBDA2016
Александр Хайтин — Yandex Data Factory — ICBDA2016Александр Хайтин — Yandex Data Factory — ICBDA2016
Александр Хайтин — Yandex Data Factory — ICBDA2016
 
Владислав Лисицкий — Rubbles — ICBDA2016
Владислав Лисицкий — Rubbles — ICBDA2016Владислав Лисицкий — Rubbles — ICBDA2016
Владислав Лисицкий — Rubbles — ICBDA2016
 
Евгений Власов — CallTouch — ICBDA 2015
Евгений Власов — CallTouch — ICBDA 2015Евгений Власов — CallTouch — ICBDA 2015
Евгений Власов — CallTouch — ICBDA 2015
 
Артем Плешаков — Intency DSP — ICBDA 2015
Артем Плешаков — Intency DSP — ICBDA 2015Артем Плешаков — Intency DSP — ICBDA 2015
Артем Плешаков — Intency DSP — ICBDA 2015
 
Ксения Ачкасова — TNS Россия — ICBDA 2015
Ксения Ачкасова — TNS Россия — ICBDA 2015Ксения Ачкасова — TNS Россия — ICBDA 2015
Ксения Ачкасова — TNS Россия — ICBDA 2015
 
Антон Бут — Auditorius — ICBDA 2015
Антон Бут — Auditorius — ICBDA 2015Антон Бут — Auditorius — ICBDA 2015
Антон Бут — Auditorius — ICBDA 2015
 
Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетинге
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
 

Similar a Искусственный интеллект и Big Data в бизнесе

нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13
Vladimir Krylov
 
Информационно- телекоммуникационные системы
Информационно- телекоммуникационные системыИнформационно- телекоммуникационные системы
Информационно- телекоммуникационные системы
ITMO University
 

Similar a Искусственный интеллект и Big Data в бизнесе (20)

Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспекты
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива
 
2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
Big data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаBig data и bi в медицине 5 волна
Big data и bi в медицине 5 волна
 
!Predictive analyticbasics part1
!Predictive analyticbasics part1!Predictive analyticbasics part1
!Predictive analyticbasics part1
 
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
 
нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13
 
Skolkovo cybersecurity, Jan 2018
Skolkovo cybersecurity, Jan 2018Skolkovo cybersecurity, Jan 2018
Skolkovo cybersecurity, Jan 2018
 
Информационно- телекоммуникационные системы
Информационно- телекоммуникационные системыИнформационно- телекоммуникационные системы
Информационно- телекоммуникационные системы
 
Семантическая обработка медицинских данных в задачах диагностики и управления...
Семантическая обработка медицинских данных в задачах диагностики и управления...Семантическая обработка медицинских данных в задачах диагностики и управления...
Семантическая обработка медицинских данных в задачах диагностики и управления...
 
DataTalks #6. Погружение в науку о данных
DataTalks #6. Погружение в науку о данныхDataTalks #6. Погружение в науку о данных
DataTalks #6. Погружение в науку о данных
 
Bd telehelth
Bd telehelthBd telehelth
Bd telehelth
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
Igor Kaufman "State of AI. Financial and Healthcare applications"
Igor Kaufman "State of AI. Financial and Healthcare applications"Igor Kaufman "State of AI. Financial and Healthcare applications"
Igor Kaufman "State of AI. Financial and Healthcare applications"
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
внутренние угрозы Ph days_26 05 2015_final
внутренние угрозы Ph days_26 05 2015_finalвнутренние угрозы Ph days_26 05 2015_final
внутренние угрозы Ph days_26 05 2015_final
 

Искусственный интеллект и Big Data в бизнесе

  • 1. Голограмма коллектива Руководитель проекта магистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт» Открытый семинар по кейсам больших данных. Или какая нам от этого польза?
  • 2. 2010 - … ООО "Экспасофт" ООО "Исследовательские системы" ЭКСПАСОФТ 1999 - 2003 Выпускники НГУ (к.ф.-м.н.) 2003 - 2011 ИМ СО РАН, лаборатория анализа данных История создания 2015 - … Лаборатория аналитики потоковых данных и машинного обучения НГУ
  • 3. Экспасофт · 2010, ЛША · «Исследовательские системы», 2011 – н.в. · FRiS – уникальная методология анализа данных, школа Н.Г. Загоруйко · 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг · Услуги по анализу данных
  • 6. Услуги Экспасофта · Построение прогнозных моделей: · прогнозирование биофизических свойств по аминокислотному составу белков · алгоритм распознавания клиентов, которые воспользуются дополнительными услугами только после коммуникации с ними · прогнозирование экспрессии генов, связь транскрипционных факторов · распознавание марок автомашин по фотографии · прогнозирование нагрузки на сервера · распознавание и идентификация посетителей сети магазинов · скоринговая модель по микрокредитам · Программное обеспечение: · библиотека алгоритмов Expasoft FRiS Studio · представление текста в виде сетевой модели, пополнение базы данных извлечёнными из текстов сущностями и отношениями, поиск по сущностям и отношения · Образование
  • 7. Машинное обучение Кластеризация Распознавание Прогнозирование Цензурирование Выбор информативных признаков
  • 8. Феномен Больших данных · 50 лет · 2002, 50% в цифре · 2008, Nature · 2011, McKinsey
  • 9. 4V · Volume · Объём данных · Velocity · Скорость создания и обработки данных · Variety · Разнообразие источников и форм хранения данных · Value · Ценность
  • 10.
  • 11. 2014
  • 12. 2015
  • 13. Большие данные – это не только данные · Технологии получения, хранения, обработки, удаления данных · Методы обработки и представления данных · Проблема нехватки ресурсов для обработки · Социальный феномен · Данные большого объёма, разнообразия, темпа роста, распределённые · Большой потенциальной ценности
  • 14. Изменение парадигм · Объектом деятельности является не программа и код, а гипотезы и данные
  • 15. Изменение парадигм · Больше источников – выше достоверность · Больше данных – выше точность · Больше данных – ниже требования к качеству данных · Высокие требования к быстродействию алгоритмов O(N) или O(NlogN) · Неперемещаемость данных => параллелизм и вычисления по месту хранения · Отказ от структурированности => технологии извлечения информации и знаний
  • 16. Проблемы в области Больших данных · Нет культуры обезличивания, передачи данных (ФЗ-152) · Нет понимания пользы от анализа данных · Недостаточные компетенции в статистике · "Мы закончили университет, сами разберёмся" · Отсутствие брокеров данных · Проекты по анализу данных имеют высокий риск · Недостаточно данных
  • 18.
  • 19. Отказ от структурированности N = всё  сбор данных впрок  не знаем, какие вопросы будем задавать NoSQL - Not Only SQL: документо-ориентированные, ключ-значение  Отказ от структуры  Отказ от консистентности в пользу доступности или параллелизма HDFS – Hadoop Distributed File System  Параллелизм обработки  Резервирование
  • 20. Неперемещаемость · идея использовать вычислительные мощности на месте хранения · MapReduce · Hadoop · TeraData Hortonworks · IBM BigInsights · Cloudera · Spark · реально быстро! · (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)
  • 21. Новые источники достоверных данных · Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами. · Социальные сети (скоринг по соц. профилю, RTB) · Открытые данные: http://data.gov.ru/, http://data.mos.ru/
  • 22. Сокращение сроков вычислений · in-memory · SAP HANA · 256Tb RAM · Oracle TimesTen · Опыт в РФ · СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”) · сокращение сроков формирования отчётов на порядки · MapReduce · Hadoop
  • 23. Статистификация · обращение к статистическим методам · обращение к интеллектуальному анализу данных (Data Mining) · поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности · отказ от причинности
  • 25. Спрос РЕАЛЬНЫЙ · 1) Банковский сектор, скоринг · 2) Real time bidding (RTB) платформы · 3) Микрофинансы · 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) · 5) телекомы · 6) Авиакопании · 7) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР. 8) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.
  • 26. Маркетинговое "давление" · 1) реклама и продвижение вендоров: · Хард+софт:Oracle, IBM, SAP, EMC, Microsoft 2) евангелисты: · В. Майер-Шёнбергер, Р. Смолан и др. · 3) осознание возможностей BigData в обществе, подтверждающие примеры · Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло- машина, Сноуден
  • 27. Реальные основания для "давления" · Потенциальные рынки данных: · Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др. · Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.) · Рыночные факторы: · Снижение себестоимости хранения, вычислений · Возможность получать "всю" информацию о явлении (богатство сенсоров) · Отход от структурированности (NoSQL базы) и синхронности (отход от ACID) · Уход в параллелизм (закон Мура перестал действовать)
  • 28. Отвечаем на вызов "Кадры решают всё!" (на основе данных)
  • 29. Магистерские программы ВШЭ: · Big Data Systems · Науки о данных МГУ: · «Интеллектуальный анализ больших данных» · «Большие данные: инфраструктуры и методы решения задач» НГУ · Big Data Analytics · Компьютерное моделирование
  • 30. Онлайн Онлайн: - от недели до полугода · Coursera, edX (http://rusbase.com/list/bigdatye-kursy/) · Интуит (Введение в аналитику больших массивов данных) http://bit.ly/IntuitBDA
  • 31. Доп. образование 1 неделя - 3 месяца - 2 года · ШАД – https://yandexdataschool.ru/ · Цифровой октябрь – http://newprolab.ru (для программирования) · Билайн - http://bigdata.beeline.digital/datamba (для бизнес-задач) · Экспасофт – http://expasoft.com/edu/ (для бизнес-задач)
  • 32. •самая широкая аудитория (школьники, разработчики, бакалавры) •средство привлечения из онлайн в офлайн Онлайн-курсы bit.ly/IntuitBDA •вовлекаем в мобильность •готовим для индустрии и для науки Магистратура bigdatansu.ru •укрепление научных школАспирантура •повышение квалификации в области обработки больших данных Доп. Образование expasoft.com/edu Образовательная стратегия в Экспасофт
  • 33. Орг-формы ИППК или ЦДО НГУ Образовательный центр Экспасофт КА Сухорукова Компетенции ЦЕРН Нейросети ФЭЧ ИЯФ Спутники Нейросети Военка ИАЭ FRiS, оптим. алг, онтологии, логика Распознавание ИМ Банки данных CUDA, DNA Биоинформатика ИЦиГ, УНИПРО, НПС Архивы Онтологии, логика Информатика ИСИ СО РАН ССКЦ Информатика Геофизика Астрономия ИВТ, ИВМиМГ СОРМ Сбор, хранение Безопасность Сигнатек ? Безопасность Безопасность СИБ Инициативы Магистерская программа Аспирантура Краткосрочные курсы СХД 1 Pb Хранение Кардиология, Радиология НИИПК ? Хранение Медицина НИИТО FRiS, оптим. алг, онтологии, логика, управление BDA Безопасность, медицина, финансы, сервера Экспасофт Приборы Воздух Унискан, ТИОН Игры Splunk Игры Alawar МТС Транзакции Таргетинг, чат- боты Eyeline Банки Транзакции Финансы ЦФТ ? Вычисления, хранение ИЦКТ Потребители ? Обработка, образование Медицина, биология, физика, ИТ, и др. НГУ Карты Геопространство Карты DataEast
  • 34. Первый в России онлайн-курс по Big Data Analytics Загоруйко Николай Григорьевич Павловский Евгений Николаевич Борисова Ирина Артёмовна Аникин Юрий Александрович Зырянов Александр Олегович д. т. н., академик МАИ, профессор, зав. лаб. анализа данных ИМ СО РАН к.ф.-м.н., директор по развитию «Экспасофт» к.т.н., ассистент кафедры общей информатики ФИТ НГУ к.т.н., преподаватель кафедры общей информатики ФИТ НГУ Data-аналитик, ООО Экспасофт Введение в когнитивный анализ данных Введение в «большие данные» Области применения больших данных Основы языка R Разработка алгоритмов на базе FRiS- функции Обзор технологий хранения больших данных Программирование на языке R Инструменты Data Mining http://bit.ly/IntuitBDA
  • 37. Copyright © 2012 EMC Corporation. All Rights Reserved. EMC 2 PROVEN PROFESSIONAL Data Analytics Lifecycle 37 Discovery Operationalize Model Planning Data Prep Model Building Communicate Results Do I have enough information to draft an analytic plan and share for peer review? Do I have enough good quality data to start building the model? Do I have a good idea about the type of model to try? Can I refine the analytic plan? Is the model robust enough? Have we failed for sure? 1 2 3 4 6 5
  • 39.
  • 40.
  • 41. Конкурсы · 1е место, 2015, AVITO · 1е место, 2015, eKapusta · 4е место среди 619 команд, 2009, Data Mining Cup
  • 44. НГУ-Parallels · Прогнозирование нагрузок на сервера по характеру запросов к ним
  • 45. Выбор жены http://www.wired.com/2014/01/how-to-hack-okcupid/all/ Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий. Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.
  • 46. Выбор жены Python для обработки анкет. 12 ложных своих анкет. Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по- человечески. (Понаблюдал за другом, сымитировал его поведение). Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин. Не спал ночами, отложил диссертацию. Кластеризация K-Modes. 5000 анкет собрал для контроля. Получилось 7 кластеров.
  • 47. Выбор жены · Понравилось два кластера. Создал и оптимизировал под них профили A и B. · Text-mining двух кластеров - ключевые интересы. · Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
  • 48.
  • 49. Навигация · 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне. · «Датифицировал» архивы моряков. · «Физическая география моря» в 1855 году 1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24) 2. Потоки течений, океанография 3. Закладка трансатлантического телеграфного кабеля
  • 50. Нефть, это наше всё Востребованы конкурентоспособные решения
  • 51. Восстановление данных фракционного состава добываемой смеси Данные: · 3 исходных параметра ($10k) · 3 целевых параметра ($200k) · 5 участков данных · Частота измерений – раз в минуту · Всего 66052 измерения 12мм 13мм 11мм 12мм 13мм
  • 52. Сравнение алгоритмов Алгоритмы прогнозирования gas oil water LinearRegression 0,0326 0,1734 0,2018 ZeroR 0,0652 0,1022 0,1103 M5P 0,0326 0,1695 0,1619 MultilayerPerceptron 0,0426 0,3623 0,3484 IsotonicRegression 0,06 0,143 0,1439 LeastMedSq 0,02 0,281 0,3569 PaceRegression 0,0281 0,1993 0,3656 RBFNetwork 0,0651 0,1023 0,1105 SimpleLinearRegression 0,027 0,1939 0,227 SMOreg 0,0229 0,3306 0,4426 IBk 0,0635 0,1519 0,1528 LWL 0,0633 0,112 0,1164 ConjunctiveRule 0,0637 0,1042 0,1173 M5Rules 0,0326 0,1695 0,1601 DecisionTable 0,062 0,104 0,1124 DecisionStump 0,063 0,1099 0,1125 REPTree 0,0616 0,1416 0,1595 KStar 0,0645 0,1041 0,1124
  • 53. Распознавание изображений Распознавание звуков Машинное чтение текстов Глубинное обучение https://expasoft.com/services/
  • 54. Распознавание лиц Верификация Точность на LWF = 98% ≠ = Идентификация Точность на LFW = 86% Травина И. А. Пермяков Р. А. Касперская Н.И
  • 55. Распознавание пола и возраста Age: 55 Gender: Male Age: 35 Gender: Male Age: 47 Gender: Female Age: 39 Gender: Female
  • 59. GPU Мобильные нейронные сети $2 000 387,6 Вт 270×100×35 мм детектирование пешеходов 3,5 Вт 23×23 мм 72% детектирование лиц 91% Обработка видео в режиме реального времени 78% 95% ARM $50
  • 62. Skull surface restore No formulae No negative examples Neural networks, autoencoders
  • 64. Пушкин A.I. Зафонствуя попруг, Ивисшивый чела, На воспопе днего, Я могина бесслужел, Катирей свети довой, Из увядебиле меня, И на гразой шле, далодной Вольностью примстают; Я, водешил перцов миренья? Н.И.Путинцев, лаборатория аналитики потоковых данных и машинного обучения ММФ НГУ
  • 65. Неожиданные открытия Кейсы из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 66. Генетика обуславливает неверность жен · В переделах определённого генетического кластера наличие большего количества генов, общих для гетеросексуальной пары, повышает вероятность женской неверности · Университет Нью-Мексико · Мы запрограммированы на избегание инбридинга (скрещивания близко-родственных форм в пределах одной популяции), поскольку генетическое многообразие имеет важные преимущества Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 67. Молодые люди пускают слюни по поводу спортивных автомобилей · У студентов мужского пола вырабатывается заметно больше слюны, когда им показывают изображения спортивных автомобилей или денег · Школа менеджмента Келлога Северо-Западного университета США · Потребительские импульсы психологически сходны с чувством голода Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 68. Курильщики реже страдают от заболеваний, вызванных повторяющимися движениями · В некоторых видах рабочего окружения курящие люди менее подвержены развитию туннельного синдрома запястья · Крупная столичная газета, исследовавшая состояние здоровья своего персонала · Курильщики чаще делают перерывы в работе Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 69. Террористы-смертники не страхуют свою жизнь · Анализ банковских данных показал, что предполагаемые террористы обычно не имеют полиса страхования жизни · Крупный британский банк · Самоубийство аннулирует полис страхования жизни Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 70. Уровень преступности повышается после выборов · В Индии уровень преступности снижается в год выборов, но сразу после выборов резко возрастает · Исследователи из Индии · Действующие политики активизируют борьбу с преступностью, чтобы обеспечить себе переизбрание Из книги «Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.
  • 71. Желтые и оранжевые автомобили реже попадают в аварию · реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%. · одна из ведущих страховых компаний в России · Часто в аварии попадают машины красных оттенков (в общем количестве страховых возмещений по ДТП их доля составляет 62%) · Объясняется это тем, что красный выбирают в основном водители молодые, имеющий маленький водительский стаж. · Другая возможная причина: красный цвет вызывает у человека активизацию процессов, возбуждённость. Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги.
  • 73. Big Data проекты сбор данных (CAPEX) • Сервера • Облака • Инфраструктура извлечение пользы (value) (OPEX) • команда • Data Scientist • Data Engineer • Manager • процесс • сбор данных • инвентаризация источников • доступ к данным • физический • юридический • мощности по обработке данных • Hadoop - обрабатываем прямо там, где хранятся • в облаках • на локальных машинах • аналитические инструменты • Splunk • PreCog • BigML
  • 75. Зачем управленцам математика? - HBR • Подучите азы регрессионного анализа, статистического анализа и планирования экспериментов • Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами • Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании) • Сотрудничайте с аналитиками подходящей специализации • Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент • Наладить контакты между аналитиками и всеми службами (матричная организация) - чтобы были коммуникации • Сосредоточьтесь на начальной и конечной стадиях • постановка задачи • гипотезы • донесение результатов до заинтересованных лиц • Задавайте по ходу дела много вопросов • больше деталей • Создавайте культуру исследования, а не защиты • поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные http://bit.ly/HBRbigdata
  • 76. Материалы для повышения квалификации по направлению курса · Видео лекции ШАД по машинному обучению · http://shad.yandex.ru/lectures/mac hine_learning.xml · Курс по большим данным на Интуит · http://bit.ly/IntuitBDA · Курс по озёрам данных · https://educast.emc.com/learn/dat a-lakes-for-big-data-may-june Курсы на Coursera.org · Introduction to Data Science · https://www.coursera.org/course/datasci · Machine Learning · https://www.coursera.org/course/ml · Probabilistic Graphical Models · https://www.coursera.org/course/pgm · Natural Language processing · https://www.coursera.org/course/nlp · Data Science Specialization – 9 курсов + проект · Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project · Core Concepts of Data Analysis · https://www.coursera.org/course/datan
  • 77. Запишитесь на курс Только хардкор – только офлайн
  • 78. Курс «Аналитика больших данных для бизнеса» ПН ВТ СР ЧТ ПТ СБ ВС 10:00 – 11:20 18:00 – 19:20 18:00 – 19:20 11:30 – 13:00 19:30 – 21:00 19:30 – 21:00 • Диплом НГУ о повышении квалификации на 96 часов • с 20 ноября по 20 января • Проектная работа над известными кейсами и кейсом вашей компании
  • 79. Нити-дисциплины BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML Алгоритмы Модели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum
  • 80. Роли – голограмма коллектива BA Кейсы Проектный цикл Бизнес- задачи Бизнес- модели ML Алгоритмы Модели Критерии Техники SE Python SciPy NumPy OWL Tools MapReduce Tableau TextMining GreenPlum DataScientist CIO Бизнес- аналитик, дата- аналитик Разработчик DBA
  • 81. Научитесь делать · Ставить задачи в области больших данных. · Понимать и самостоятельно писать программы на языке Python. · Работать с Tableau (визуализация, представление данных). · Представлять результаты анализа внутренним и внешним заказчикам.
  • 82. Принесёте в компанию · Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели. · Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании. · Предметные знания всех основных направлений машинного обучения. · Понимание областей применения «джентельменского набора» алгоритмов анализа данных. · Понимание создания новых бизнес-моделей на основе данных
  • 83. Заказчики · Унискан, Вымпелком, Сигнатек, Битриксоид, Агентство инвестиционного развития Новосибирской области, The Invaders, Explainy, ОптиПлат, УНИПРО. · ИТ-кластер НСО – 10 мест
  • 84. Оценка результатов ПК-1 Понимать возможности технологий анализа больших данных при проведении бизнес-анализа. ПК-2 Способность принимать решения на основе данных ПК-3 Знать: основные элементы процесса анализа больших данных, основные подходы к обработке больших массивов данных. ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 2 3 2 2 1 3 3 3 3 2,3 2,3 2,7 2 2 2 2 1 3 3 3 3 2,3 2,0 2,7 1 1 1 2 1 3 3 3 3 2,0 1,7 2,3 2 3 2 2 2 2 3 3 3 2,3 2,7 2,3 0 1 0 3 3 3 1,5 2,0 1,5 2 0 1 3 3 3 2,5 1,5 2,0 3 3 3 1 3 3 3 3 3 2,3 3,0 3,0 2 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,5 1 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,5 1 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,8 1 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,5 0 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,5 0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,0 1 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5 1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,3 0,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741 Данилова СреднееПавловский Дюбанов Аникин ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 ПК-1 ПК-2 ПК-3 2 3 2 2 1 3 3 3 3 2,3 2,3 2,7 2 2 2 2 1 3 3 3 3 2,3 2,0 2,7 1 1 1 2 1 3 3 3 3 2,0 1,7 2,3 2 3 2 2 2 2 3 3 3 2,3 2,7 2,3 0 1 0 3 3 3 1,5 2,0 1,5 2 0 1 3 3 3 2,5 1,5 2,0 3 3 3 1 3 3 3 3 3 2,3 3,0 3,0 2 0 0 2 1 3 0 3 0 3 3 3 1,8 1,8 1,5 1 1 1 2 1 3 2 2 3 3 3 3 2,0 1,8 2,5 1 0 2 2 1 3 3 1 3 3 3 3 2,3 1,3 2,8 1 0 1 2 1 3 2 2 3 3 3 3 2,0 1,5 2,5 0 2 0 2 1 3 0 2 0 3 3 3 1,3 2,0 1,5 0 1 1 3 2 3 2 2 1 3 3 3 2,0 2,0 2,0 1 2 2 3 2 3 1 2 2 3 3 3 2,0 2,3 2,5 1,3 1,4 1,3 2,1 1,4 3,0 1,5 2,0 1,8 3,0 3,0 3,0 2,0 2,0 2,3 0,9139 1,1507 0,9139 0,5394 0,6742 0 1,069 0,5345 1,2817 0 0 0 0,35166 0,473021 0,493741 3 4 3 0 0 0 2 0 2 0 0 0 5 4 5 5 4 5 1 7 0 1 1 1 0 0 0 7 12 6 Данилова СреднееПавловский Дюбанов Аникин Подготовлено 6 проектов по анализу данных, по задачам компаний
  • 85.
  • 87. Работали над курсом Никита Крутиков дизайнер Магистрант НГУ Баир Тучинов администрирование Операционный директор
  • 89. Зафолловить · https://vk.com/siberiadatamining · https://vk.com/ml_shad_nsk · https://vk.com/deeplearning · https://www.facebook.com/groups/siberiandatascience http://www.kdnuggets.com/
  • 90. Домашнее задание №1 · Прочитать статью: · F. Jack Smith. Data Science As An Academic Discipline // Data Science Journal, Volume 5, 19 October 2006. URL: http://www.webcitation.org/6Dy5h9X14 · Выделить основные тезисы статьи. · Написать эссе: · 1) привести аргументы «за», · 2) оспорить. · Ответить на вопросы: · В чём отличие Data Science от Computer Science? · В чём отличие Computer Science от Software Engineering? · В чём отличие Data Scientist от Data Engineer и Data Analyst? · Прислать эссе до 18:00 20.11.2016 на адрес Pavlovskiy@post.nsu.ru с темой «эссе на тему Data Science»

Notas del editor

  1. Исторически, компания Экспасофт выделилась из лаборатории анализа данных Института математики им. С.Л. Соболева СО РАН и с момента своего основания остается в поле технологий связанных с решением машинными методами интеллектуальных задач. Технологический стек компании: Artificial Intelligence: Python (Scikit learn, Numpy, Pandas), R (Revolution R), Azure ML, SPSS Climentine, Knime, Vowpal wabbit Deep learning: CNN, LSTM, DNN, Café, Theano, Tensor flow Natural Language Processing: Rule based, Bag of words, TFIDF, Latent semantic analysis, Word2vec, Doc2vec Big Data: Spark, Hadoop, MlLib, AWS (Redshift)
  2. Знают как «Исследовательские системы» Строго придерживаемся методов анализа данных Прошли достаточно большой путь обкатки мат.методов для бизнеса и понимания проблем предприятий Сформировали уникальную экспертизу по прогнозной аналитике
  3. На данный момент успешно реализовано более двух десятков проектов. Наиболее именитые клиенты: ЦФТ, Сигнатек, Унискан, ГК Холидей , Parallels, НИИПК им. Е.Н. Мешалкина, Schlumberger, Baker Hughes, EMC, Министерство обороны РФ.
  4. Третьей характеристикой выделяют разнообразие. Действительно, мы наблюдаем большое количество оцифрованной информации в виде каких-то документов, таблиц, баз данных, сайтов и т.п. Если базы данных достаточно понятны в машинной обработке, то XML (полуструктурированные данные) и текстовые документы (неструктурированная информация) представляют определённую проблему, т.к. для них таких нет универсальных методов таких, как SQL для СУБД. Если они и разрабатываются где-то, то ещё так не распространены. Основной проблемой в обработке неструктурированной информации представляется извлечение смыслов текстов, решению которой посвящено целое направление научных исследований (Semantic Web), в т.ч. в корпорациях Google и Яндекс. Есть и другие проблемы с обработкой неструктурированной информации, об этом позже.
  5. Сейчас область машинного обучения переживает настоящую революцию, связанную с успешным применением глубоких нейронных сетей в тех областях, где до сих пор "машине" не удавалось достигать результатов сравнимых с человеческими. В первую очередь, речь идет о распознавании изображений, анализе видео и аудио контента, распознавании речи, обнаружении аудио-событий, идентификации дикторов и т.д. Это оказалось возможным благодаря переводу процесса решения этих задач из области "качественного" в область "количественного". Другими словами, теперь достижение требуемого качества решения некоторой задачи, может быть сведено к организации правильного процесса сбора информации в количествах достаточных для обучения глубоких нейронных сетей. Компания Экспасофт располагает необходимым оборудованием и имеет положительный опыт обучения глубоких нейронных сетей для решения широкого спектра задач, речь о которых пойдет далее.
  6. Системы распознавания лиц решают две задачи: задача верификации задача идентификации Задача верификации заключается в сравнении двух фотографий с целью понять, являются ли запечатленные на них люди одним и тем же человеком или это фотографии разных людей (one-to-one). Зачастую данная задача возникает в системах охраны, когда необходимо понять является ли человек тем, за кого себя выдает. Задача идентификации заключается в понимании, кто именно из заданного набора персон запечатлен на данной фотографии (one-to-many). Задача идентификации является технически более сложной, т.к. это задача многоклассовой классификации.
  7. Получено решение задачи автоматической идентификации изображений бланков документов, относящихся к следующим классам: паспорт гражданина РФ заграничный паспорт гражданина РФ страховое свидетельство обязательного пенсионного страхования водительское удостоверение свидетельство о регистрации ТС
  8. На базе технологии глубоких нейронных сетей создано решение, позволяющее детектировать на изображении наличие людей и транспортных средств с точностью порядка 95%.
  9. Реализована технология идентификации аудио-событий. С высокой степенью достоверности (не менее 98%) распознаются: крик ребенка лай собаки звон разбитого стекла выстрел пожарная сирена
  10. Ведутся работы по переносу глубоких нейронных сетей на мобильные платформы. Была разработана С++ реализация нейросетей предназначенных для распознавания звуковых событий, детектирования пешеходов и детектирования лиц, адаптированная для работы на ARM процессорах. Полученное решение было успешно протестировано на платформе Raspberry Pi: работая в режиме реального времени одна нейронная сеть потребляет порядка 30-40% одного ядра точность распознавания снижается не более чем на 6%