Выступление Сергея Чернова (Yandex Data Factory) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
7. Описание проекта
Входные данные
▌ Анонимные данные о более чем
1000 сотрудниках из внутренней БД
за период с 2008 по 2012 год:
› Общие данные о сотрудниках (пол, возраст, дата выхода на
работу, должность, уровень дохода и т. д.)
› Отпуска, больничные, отгулы, сверхурочные
› Образование, тренинги, аттестации
› Проектная деятельность (проекты, задачи, ошибки и т. д.)
Цель – оценить пригодность технологий и методик компании «Яндекс» в области Big Data и Machine Learning
для решения задач инженерной компании для снижения расходов на поиск и привлечение новых сотрудников.
8
Задача
▌ Построить модель прогнозирования
вероятности увольнения сотрудников и оценить
качество модели
▌ Оценить «вес» различных факторов в связи с
намерением уволиться
8. Входные данные от заказчика
Основные данные о сотрудниках
▌ Пол, год рождения, дата выхода на работу
▌ Гражданство
▌ Дата увольнения, код причины увольнения
▌ Должность, изменения должности,
форма занятости
▌ Относительный уровень ЗП
▌ Образование, тренинги, уровень знания иностранного языка
▌ Отпуска, больничные, отгулы, сверхурочные
▌ Командировки
▌ Аттестации, квалификация
9
Проектная команда
▌ ID проекта, проектная команда
▌ Структура проектной команды,
проектное направление,
административное подчинение
Задачи, итерации и ошибки
▌ ID задачи, дата задачи, сложность задачи и т. д.
▌ ID ошибки, внешняя/внутренняя ошибка,
ID проверяющего
▌ Итерация, дата начала и дата окончания итерации
Входы в систему
▌ Здание, размер офиса
▌ Время входа, время выхода
9. Описание модели
▌ Увольнения прогнозировались на 2012 год отдельно для каждого квартала
▌ Использовался буферный период – 1 месяц
▌ Обучающая выборка строилась за период с 2008 года до начала
соответствующего буферного периода
▌ Тип используемой модели – MatrixNet, более 250 факторов
10
Прогнозируемый период
Кол-во
увольнений
за период
Обучающая выборка Буферный период
01.01.2012 – 31.03.2012 ~20 01.01.2008 – 30.11.2011 01.12.2011 – 31.12.2011
10. Качество модели
▌ Точность прогноза модели
превзошла первоначальные
ожидания заказчика в 5 раз.
▌ Модель устойчива к переобучению
и чувствительна к изменению
поведения сотрудников, т. е.
применима на данных за другие
периоды.
11
Ожидания заказчика
5 из топ-50 за год
Результаты
26 из топ-50 за год
11. Возможный способ расчета экономического
эффекта
Затраты на поиск сотрудника
▌ Оплата услуг HR-агентства (15% от ЗП)
▌ Снижение производительности в первые 3
месяца. Коэффициент 0,5
▌ Снижение объемов работ на период поиска (3
месяца). Коэффициент 0,5
▌ Оплата тренингов и повышение квалификации
Затраты на удержание сотрудника
▌ Повышение зарплаты на 15-20%
▌ Оплата тренингов и повышение квалификации
сотрудника
▌ Изменение должности
12
Стоимость поиска нового сотрудника
= (3*0,5 + 3*0,5)*ставка + 0,15*12*ЗП
Стоимость удержания сотрудника
= (0.2*12)*ЗП
12. Пример расчета экономического эффекта
13
Предложение по удержанию
+15% ЗП
Отношение ставки к ЗП
3,5
ЗП специалиста в месяц, USD
2 000,00$
Ставка специалиста, USD в месяц
7 000,00$
Стоимость поиска нового сотрудника, USD
24 600,00$
Стоимость удержания сотрудника, USD
3 600,00$
Текущие затраты
Кол-во уволившихся*Стоимость поиска нового сотрудника
Затраты с использованием прогноза
(Кол-во уволившихся-TP)*Стоимость поиска нового сотрудника+(ТP
+FP)*Стоимость удержания
2012 год
Кол-во уволившихся
Top-60
Текущие затраты
Затраты с использованием прогноза
Экономия
TP
FP
1-й квартал
20
12
48
492 000,00$
412 800,00$
79 200,00$
2-й квартал
22
7
53
541 200,00$
585 000,00$
-43 800,00$
3-й квартал
24
14
46
590 400,00$
462 000,00$
128 400,00$
4-й квартал
23
14
46
565 800,00$
437 400,00$
128 400,00$
Итого:
2 189 400,00$
1 897 200,00$
292 200,00$
13. Наиболее полезные данные
▌ Изменение роли в проекте
▌ Количество посещенных тренингов,
продолжительность тренингов
▌ Количество отгулов
▌ Больничные
▌ Переработки
▌ Изменение проектного направления
14
14. Что еще умеет Yandex Data Factory?
▌ Поведенческая аналитика
› Данные: профили клиентов, транзакции, заказы, история покупок, данные биллинга, click-
stream и т. д.
› Решения: сегментация, поведенческие паттерны, персонализированные предложения, “next
best offer”, и т. д.
▌ Временные ряды и аномалии
› Данные: телеметрия, счетчики потребления, исторические данные о событиях
› Решения: выявление мошенничества, оптимизация технического обслуживания,
предсказание спроса и т. д.
▌ Пространственная (geospatial) аналитика
› Данные: геолокационные данные, данные о движении транспорта, маршруты и т. д.
› Решения: оптимизация логистики, управление дорожной сетью, прогнозирование
проходимости магазинов
▌ Распознавание речи, компьютерное зрение
15
15. Тел: +7 495 739-70-00
Факс: +7 495 739-70-70
yandexdatafactory.com
ydf-customer@yandex-team.ru
119021, Москва
ул. Льва Толстого, 16
Россия
16
17. Скрининг персонала
Проблема: у заказчика большая филиальная сеть со
значительным количеством линейного персонала,
выполняющего рутинные операции. Для поддержания
эффективности и снижения потерь, вызванных
«человеческим фактором», необходим постоянный
мониторинг.
Данные заказчика
▌ Данные систем контроля доступа
▌ Логи операций (телефонные звонки, чеки, отметки
электронной очереди и т. п.)
▌ Аудиозаписи (для колл-центров)
▌ Данные геолокации для «полевого» персонала
18
Наши технологии
› Сегментация и микросегментация
› Выявление поведенческих паттернов
› Обнаружение аномалий
› Распознавание речи
Результаты
› Автоматизированный мониторинг деятельности
линейного персонала
› Выявление аномалий, данные для оценки
производительности и рисков
18. Повышение эффективности колл-центра
Проблема: в ходе работы колл-центра накапливаются
терабайты аудиозаписей, которые хранятся, но
используются лишь для разбора конфликтных ситуаций,
менее 1% записей анализируется вручную для контроля
качества обслуживания.
Данные заказчика
▌ Записи разговоров
▌ Скрипты, инструкции, регламенты для операторов
19
Наши технологии
› Распознавание речи (ограниченный словарь)
› Распознавание эмоциональной окраски
› Анализ текстов
Результаты
› Автоматическая оценка качества работы оператора,
соответствия инструкциям и скриптам, динамики
эмоций звонившего клиента.
Поиск по ключевым словам в разговорах