2. Данные и признаки
• Пользователь: поток энергии и информации
• Интернет: среда распространения и хранения данных (текст, картинки, видео)
• Наши данные: логи активности пользователей в Интернете
• Извлекаемая информация: посещённые url
• Признаки: токены в представлении bag-of-words {token: count}
• Трансформация TF-IDF
• Разметка: специальные социологические исследования, контрольные группы
пользователей, анкетирование, слежение в соц. сетях
3. Матрицы признаков
• Корзина токенов как документ
• Выборка данных о пользователях как корпус документов
• Разреженные (sparse) матрицы большой размерности
• Словарь токенов ~106
• (пользователи x признаки) ~ (105 x 106)
• Тематическое моделирование (Latent Dirichlet Allocation) сжимает
размерность пространства признаков из словарной (~106)
в тематическую (~103)
10. Заключение
• Данные — признаки — классификатор — ансамбль
• «Хорошие данные» лучше «хорошего классификатора»
• Признаки (фичи) и их семантические связи — ключ к решению проблемы
• Не все модели одинаково полезны
• Важно: кросс-валидация, холд-аут, тестовая выборка
• Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей