SlideShare una empresa de Scribd logo
1 de 14
Descargar para leer sin conexión
©"Билайн",БЕРоссия2012
КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ, СОБСТВЕННОСТЬ ОАО "ВЫМПЕЛКОМ"
Любое использование этого документа без специального разрешения строго запрещено
©"Билайн",БЕРоссия2015
Big Data в Вымпелкоме: задачи, алгоритмы
и инструменты
Крот Александр, Lead Data Scientist
©"Билайн",БЕРоссия2015
Содержание
2
•  Задачи и инструменты
•  Workflow: best practice
•  Подготовка специалистов
©"Билайн",БЕРоссия2015
3ИСТОЧНИК:
Задачи
©"Билайн",БЕРоссия2015
Задачи: обработка естесственного языка (NLP)
4
•  Обработка естественного языка (NLP)
•  Извлечение скрытых признаков из текстовых данных
•  Классификация, извлечение названий (NER)
•  Используем в основном Deep Learning подход: word2vec
©"Билайн",БЕРоссия2015
Задачи: анализ графов (SNA)
5
•  Задачи на графах (SNA)
•  Анализ круга общения, выделение сообществ,
прогнозирование новых связей (Link Prediction)
•  Большие графы анализируем в Apache Spark
©"Билайн",БЕРоссия2015
Задачи: прогнозирование (PA)
6
•  Задачи прогнозирования (PA)
•  Выявление склонности к оттоку, прогнозирование
клиентского профиля (пол, возраст, etc.)
•  Используем алгоритмы машинного обучения –
классификация и регрессия
©"Билайн",БЕРоссия2015
Задачи: кластеризация (CA)
7
•  Задачи кластеризации (CA)
•  Выделение нетипичных абонентов, определение
архетипа абонента, выделение связей между группами
абонентов
•  Используем алгоритмы кластеризации на графах
©"Билайн",БЕРоссия2015
8ИСТОЧНИК:
Workflow: best practice
©"Билайн",БЕРоссия2015
Best Practice Workflow: сбор и подготовка данных
9
•  Сбор и подготовка данных (ETL-процесс)
•  Агрегация данных из разных источников (биллинг,
геоданные, интернет-события, данные о качестве
сервиса, CRM, пополнения/списания, etc.)
•  Очистка данных и выделение признаков
•  Используем Hive, Pig, Apache Spark
©"Билайн",БЕРоссия2015
Best Practice Workflow: сбор и подготовка данных
10
•  Построение алгоритма
•  Проверка простых гипотез, создание новых признаков,
выбор модели
•  Используем Python (pandas, scikit-learn), Apache
Spark, Vowpal Wabbit
©"Билайн",БЕРоссия2015
Best Practice Workflow: сбор и подготовка данных
11
•  Масштабирование результатов
•  Запуск существующих алгоритмов в масштабах всей
абонентской базы
•  Используем Vowpal Wabbit, Apache Spark
©"Билайн",БЕРоссия2015
12ИСТОЧНИК:
Подготовка специалистов
©"Билайн",БЕРоссия2015
Подготовка специалистов: Data Scientist
13
•  Data Scientist – отбираем и подготавливаем самостоятельно
•  Образование: МФТИ, МГУ, ШАД
•  Опыт: победитель соревнований Kaggle, Tunedit,
соревнований по программированию ACM, а также
математических олимпиад
•  Навыки:
•  Python (pandas, scikit-learn)
•  Hadoop (Pig, Hive)
•  Apache Spark, Vowpal Wabbit
•  Social Network Analysis
•  Data Visualization
©"Билайн",БЕРоссия2015
14ИСТОЧНИК:
Спасибо за внимание

Más contenido relacionado

La actualidad más candente

Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
Denodo
 
Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?
FTS Russia
 

La actualidad más candente (17)

Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Внедрение DLP в компаниях с распределенной сетяью филиалов
Внедрение DLP в компаниях с распределенной сетяью филиаловВнедрение DLP в компаниях с распределенной сетяью филиалов
Внедрение DLP в компаниях с распределенной сетяью филиалов
 
Operational Analytics on Splunk
Operational Analytics on SplunkOperational Analytics on Splunk
Operational Analytics on Splunk
 
Clever_data_splunk_overview_rus
Clever_data_splunk_overview_rusClever_data_splunk_overview_rus
Clever_data_splunk_overview_rus
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 
портфель решений для компаний малого и среднего бизнеса
портфель решений для компаний малого и среднего бизнесапортфель решений для компаний малого и среднего бизнеса
портфель решений для компаний малого и среднего бизнеса
 
Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
 
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данныхИван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
Иван Тимофеев, HP. HP Consolidated Archive: новая жизнь старых данных
 

Destacado

1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных
antishmanti
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
antishmanti
 
3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию
antishmanti
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine Learning
Lior Rokach
 

Destacado (13)

1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных
 
Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
 
3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию
 
Data-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data miningData-driven маркетинг: programmatic и data mining
Data-driven маркетинг: programmatic и data mining
 
1509210046futureofworkmitblakei 150923233545-lva1-app6892
1509210046futureofworkmitblakei 150923233545-lva1-app68921509210046futureofworkmitblakei 150923233545-lva1-app6892
1509210046futureofworkmitblakei 150923233545-lva1-app6892
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
Data Science Weekend 2017. New Professions Lab. Образование в области Data Sc...
 
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в QleanData Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
 
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
Data Science Weekend 2017. МегаФон. Аналитика больших данных в телекоме. Опыт...
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine Learning
 

Similar a 3 krot riw_2015_3

Когда технологий много - iForum 2013
Когда технологий много - iForum 2013Когда технологий много - iForum 2013
Когда технологий много - iForum 2013
Andrey Listochkin
 
Инновационные средства управления дизайн-студией
Инновационные средства управления дизайн-студиейИнновационные средства управления дизайн-студией
Инновационные средства управления дизайн-студией
Natalia Sakhnova
 
Виктор Булгаков, ВымпелКом
Виктор Булгаков, ВымпелКомВиктор Булгаков, ВымпелКом
Виктор Булгаков, ВымпелКом
connectica -lab
 

Similar a 3 krot riw_2015_3 (12)

SETCON'18 - Aleh Toba - Путь из Developer-a в Manager-ы
SETCON'18 - Aleh Toba - Путь из Developer-a в Manager-ы SETCON'18 - Aleh Toba - Путь из Developer-a в Manager-ы
SETCON'18 - Aleh Toba - Путь из Developer-a в Manager-ы
 
Корпоративная система обучения
Корпоративная система обучения Корпоративная система обучения
Корпоративная система обучения
 
Примеры проектов КРОК
Примеры проектов КРОКПримеры проектов КРОК
Примеры проектов КРОК
 
ИТ без страха и упрека — вооружи свою инфраструктуру
ИТ без страха и упрека — вооружи свою инфраструктуруИТ без страха и упрека — вооружи свою инфраструктуру
ИТ без страха и упрека — вооружи свою инфраструктуру
 
Как сделать успешный интернет-проект. Простые советы для сложных задач
Как сделать успешный интернет-проект. Простые советы для сложных задачКак сделать успешный интернет-проект. Простые советы для сложных задач
Как сделать успешный интернет-проект. Простые советы для сложных задач
 
Когда технологий много - iForum 2013
Когда технологий много - iForum 2013Когда технологий много - iForum 2013
Когда технологий много - iForum 2013
 
Говорим о СУБД языком HR
Говорим о СУБД языком HRГоворим о СУБД языком HR
Говорим о СУБД языком HR
 
Инновационные средства управления дизайн-студией
Инновационные средства управления дизайн-студиейИнновационные средства управления дизайн-студией
Инновационные средства управления дизайн-студией
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Виктор Булгаков, ВымпелКом
Виктор Булгаков, ВымпелКомВиктор Булгаков, ВымпелКом
Виктор Булгаков, ВымпелКом
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 

3 krot riw_2015_3