Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Машинное обучение
в рекламной системе
MAIL.RU
Игорь Кретинин

Данные и признаки
• Пользователь: поток энергии и информации
• Интернет: среда распространения и хранения данных (текст, картинки, видео)
• Наши данные: логи активности пользователей в Интернете
• Извлекаемая информация: посещённые url
• Признаки: токены в представлении bag-of-words {token: count}
• Трансформация TF-IDF
• Разметка: специальные социологические исследования, контрольные группы
пользователей, анкетирование, слежение в соц. сетях

Матрицы признаков
• Корзина токенов как документ
• Выборка данных о пользователях как корпус документов
• Разреженные (sparse) матрицы большой размерности
• Словарь токенов ~106
• (пользователи x признаки) ~ (105 x 106)
• Тематическое моделирование (Latent Dirichlet Allocation) сжимает
размерность пространства признаков из словарной (~106)
в тематическую (~103)

Тематическое моделирование
game*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013
igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 …
irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055
angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 …
superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031
vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 …
odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018
tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 …
soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football.
ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 …
dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009
чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …

Машинное обучение
• Классификация, регрессия, кластеризация (LogisticRegressor, SVM,
RandomForest, RBM, NeuralNets)
● Функция потерь (log, hinge, zero-one,
huber) и регуляризация (L1, L2,
ElasticNet)
● Метрика качества (AUC, Precision/Recall,
ConfusionMatrix)
● Кросс-валидация
● Тестирование

Бинарная классификация пользователей
● LDA-преобразование признаков:
уменьшение размерности
● T-SNE сжатие в 2D
● Классы не разделимы: нужны
дополнительные признаки
● Логистическая регрессия в пространстве
токенов

Бинарная классификация: AUC ~ 0.75

Распределение пользователей h h.ru

Мультиклассовая задача

Заключение
• Данные — признаки — классификатор — ансамбль
• «Хорошие данные» лучше «хорошего классификатора»
• Признаки (фичи) и их семантические связи — ключ к решению проблемы
• Не все модели одинаково полезны
• Важно: кросс-валидация, холд-аут, тестовая выборка
• Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей

Спасибо за внимание!

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

Similar a Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group) (14)

Más de Ontico

Más de Ontico (20)

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)