AI Journey — двухдневная конференция с ведущими международными и российскими спикерами — экспертами в области искусственного интеллекта и анализа данных, а также представителями компаний — лидеров по развитию и применению технологий ИИ в бизнес-процессах.
2. Кто я?
Андрей Мурашев
Автор алгоритма рекомендаций myWidget
Руководил разработкой Пульса
Сейчас руковожу Командой Машинного обучения Рек.систем
Мы занимаемся построением рек.систем для различных продуктов
Mail.ru, включая Пульс, myWidget и еще пару “секретных” проектов
3. Что такое Пульс
Рекомендательная система собирающая персональную Ленту
пользователя.
Работает на главной Mail.ru c аудиторий 10 млн DAU (Дневная аудитория)
4. Что такое myWidget
Система персональных рекомендаций для сайта - более 1000 партнеров
и более 100 млн рекомендаций в сутки
5. Текущие тренды Рек.систем
1. Многорукие-бандиты
2. Объяснительные рекомендации
3. Приватность
4. “Честные” (fairness) рекомендации
5. Оптимизация нескольких задач одновременно
6. Работа со смещенными “боевыми” данными
7. Нейронные сети
7. Многорукие бандиты - Netflix
Топовые компании в рекомендациях Netflix, Spotify, Pandora -
одновременно начали использовать многорукие бандиты
Можно рекомендовать не только фильм, но и обложку для фильма.
Дата публикации: 01.2018
8. Многорукие бандиты - Spotify
Рекомендации “полок” на главном экране
Выбирается одновременно пара: плейлист+объяснение
Объяснение выбирают среди подходящих плейлисту,
но из фиксированного пула десятка объяснений
Дата публикации: 10.2018 (RecSys)
11. Многорукие бандиты - Online evaluation Netflix
Значительно улучшились продуктовые метрики - но числа не раскрывают
Для популярных фильмов - выбирают популярные обложки и
популярные актеры часто оказываются лучше остальных
Наиболее полезно оказалось в online для нишевых фильмов и тех,
которые изначально не рекомендовали человеку
12. Многорукие бандиты - Spotify
1. Random - случайный пара
объяснение+плейлист
2. Control - алгоритм без
бандитов
3. Logistic Regression -
линейная модель
4. Bart 2nd order - MF 2-order
5. Bart 3nd order - MF 3-order
features interactions
13. Многорукие бандиты - myWidget
Все статьи сайта
ML(GBOT) - ранки, топ
лучших
Контекстные
бандиты
GBOT - gradient boosting oblivious trees.
Наш внутренний framework для работы
с деревьями решений.
14. Многорукие бандиты - myWidget
Из нашего опыта контекст дает 10-15% улучшения в среднем на крупных
площадках
Особенности работы бандитов из практики:
● плохо работают при малом кол-ве статистики
● контекст зависит от объема трафика
● параметры бандитов зависят от размера и характеристик площадки
○ кол-во трафика
○ ограничения свежести
○ кол-во контента
○ CTR
17. Объяснительные рекомендации
Обучаться на отзывах юзера и предсказывать их как “объяснение”
Multi-task learning - обучаем
одновременно рейтинг и текстовое
объяснение
Используются нейросети:
GAN, Autoencoder, seq2seq
Учитываем текстовый контент
Дата публикации: 10.2018 (RecSys)
21. Рекомендации в условиях GDPR
Первый доклад на основной сессии RecSys 2019 от профессора права о
том, как строить рекомендации и таргетировать рекламу в условиях GDPR
Идеи:
1. Человек должен давать согласие на использование и учет его данных
алгоритмами
2. Компании не могут использовать данные для дискриминации
пользователей и/или для поиска “слабых” мест человека
Дата публикации: 09.2019 (RecSys)
22. Другие статьи про приватность данных
Efficient Privacy-Preserving Recommendations based on Social
Graphs
Идея о том, что рекомендации на основании графа соц.сетей могут содержать приватную
информацию и надо зашумить данные, по которым они строятся
PrivateJobMatch: A Privacy-Oriented Deferred Multi-Match
Recommender System for Stable Employment
Рекомендательный сервис работы, который не раскрывает данные о пользователях и
требует меньше информации личной
Дата публикации: 09.2019 (RecSys)
24. Recommending What Video to Watch Next: A
Multitask Ranking System - Google
Дата публикации: 09.2019 (RecSys)
25. Recommending What Video to Watch Next: A
Multitask Ranking System - Google
Дата публикации: 09.2019 (RecSys)
Multi-gate Mixture-of-Experts
Modeling task relationships in multi-task learning with multi-gate mixture-of experts. 2018
26. Recommending What Video to Watch Next: A
Multitask Ranking System - Google
Дата публикации: 09.2019 (RecSys)
Multi-gate Mixture-of-Experts
28. Recommending What Video to Watch Next: A
Multitask Ranking System - Google
Учет position bias в модели
29. Перебалансировка данных
Criteo - RecSys 2018 best paper
Идея заключается в том, что лучший способ построения датасета - это
random uniform, но для бизнеса это слишком страшно и дорого.
95% это контроль и 5% это рандом
Оптимизируем матричное разложение исходя из условия, что веса на 5%
рандомной выборки не должны сильно отличаться от весов на 95%
контрольной.
Дата публикации: 10.2018 (RecSys)
30. Перебалансировка данных
Yt - таргет по случайной выборке
Pt - вектор объекта ответственный за случайную
выборку
Yc - таргет по контрольной выборке (боевым данным)
Pc - вектор объекта ответственный за контрольную
выборку
U - вектор юзера
32. Calibrated Recs - Netflix
Распределение вкусов пользователя - не совпадает с распределением
рекомендуемых товаров
Дата публикации: 10.2018 (RecSys)
34. Разнообразие интересов пользователей Пульса
В Пульсе мы сталкиваемся с такой же проблемой - алгоритм старается
предсказать “основной” интересе пользователя.
Мы повторяем распределение документов в выдаче пропорционально
интересам пользователя. Это дает улучшение метрик восприятия
“персональности” Ленты пользователями на 20%
38. Выводы
1. Многорукие бандиты - позволяют получить еще улучшение поверх
имеющихся алгоритмов
2. Объяснительные рекомендации - генерация объяснений
3. “Честные” рекомендации - начинают получать применение
4. Приватность данных - не улучшает рекомендации, но важно
5. Работа со смещенными “боевыми” данными - всегда актуально
6. Оптимизация нескольких целей одновременно встречается все чаще
7. Нейронные сети - позволяют нам по-новому работать с историей
пользователя, сочетать разные типы данных и строить высокоуровневые
взаимодействия между фичами