Основы AB-тестирования, история вопроса. Что необходимо для построения инфраструктуры AB-тестирования? Технические и пользовательские сложности при проведении AB-тестирования. Анализ результатов.
Рассмотрим несколько важных моментов:
- На что обратить внимание при выборе контрольной группы?
- Множественная проверка гипотез.
- Сколько экспериментов может видеть пользователь?
Какие инструменты вам могут понадобиться для проведения и анализа экспериментов?
Разберем несколько поучительных примеров.
5. Проведение AB-экспериментов в вебе
•Контроль и эксперимент идут одновременно
•Пользователь не знает, что находится в
эксперименте
•Нет непосредственного контакта
8. Реализация
•Разбиение на группы
• Составление и выкладка конфигурации
экспериментов
• Логирование факта попадания в эксперимент
•Обработка логов, расчет метрик и
значимости изменений
• Анализ результатов и принятие решения.
9. Разбиение на группы
•Случайное разбиение
•Варианты разбиения:
• По пользователям (куки)
• По запросам
•Минимальный размер выборки (слот)
• Репрезентативность
•Как часто перемешивать группы?
• Каждые N часов
• По окончании эксперимента
10. Метрики
•Типы метрик
•Примеры метрик
• Число запросов
• Время до первого клика
• Доля запросов без кликов
• Число сессий на пользователя
•Границы применимости
11. Матчасть
•A vs B (“контроль” и “эксперимент”)
•M(X) – случайная величина
•diff = M(A)-M(B)
•diff значима?
•diff = эффект воздействия изменения +
случайность
•Для измерения эффекта используем
статистические тесты
19. Сколько экспериментов может видеть
пользователь?
Control1 EXP1
EXP2
Control2
salt2
Попадает в EXP2 и Control 1
Попадает в EXP2 и EXP 1
salt1
20. Полезности
•Мониторинги и возможность быстро
отключить эксперименты
•Считать метрики только на том потоке,
где были изменения
•Обратные эксперименты
•Длительность эксперимента (7N)
22. Анализ результатов
•Сопоставлять план и факт
•Неожиданное улучшение – всё равно надо
разобраться
•Смотрим на метрики для контроля
•Помним о границах применимости метрик
23. Инструменты
•Хранить историю проведения экспериментов и логи(!)
•Анализ поведения отдельного пользователя
•Возможность считать метрики по срезам и быстро
переключаться между ними
• Яркий пример среза – браузеры
24. Статистика
Яндекс.Поиск @ 2014:
• ~1000 экспериментов за год
• ~100 экспериментов одновременно
• 21% выкатывается в продакшн
Бинг @ 2013:
• 1 пользователь видит до 15 экспериментов одновременно
Информация из открытых источников:
http://www.exp-platform.com
27. Матчасть
•Формулировка основной гипотезы H0
(метрики равны) конкурирующей
гипотезы H1 (метрик не равны)
•Задание уровеня значимости α (ошибка
первого рода)
•Расчет p-value
•Принятие решения
• P-value > α – тогда принимаем основную гипотезу
• P-value <= α – конкурирующую гипотезу
Notas del editor
Сегодня я расскажу вам об АB-экспериментах, и о том как избежать типичных ошибок
Многие компании думают о том, как измерять эффект от своих внедрений.
Некоторые измеряют эффект внедрений на основе изменений показателей в динамике.
Давайте рассмотрим пример: на диаграмме мы видим динамику продаж Kindle.
27 октября сайт изменил дизайн, и с 28 числа мы видим внушительный рост продаж.
Можно было бы подумать, что это благодаря новому дизайну. Но такой подход не учитывает множества внешних факторов,
Ведь мир изменчив: меняется погода, происходят форс-мажоры, конкуренты выпускают новую продукуцию
Конкретно в этом случае компании Amazon очень повезло. Популярная американская телеведущая Опра Уинфри в интервью
Сказала: Теперь Kindle – моя любимая вещь.
Проговорить про контроль, про эксперимент.
многие покупаются, даже профессиональные статистики
Решение надо принимать на фактах, AB-тестирование
Миллионы наблюдений.
Степени своводы
Пример – доля запросов без кликов.
CTR блока
Устойчивость на контролях
На заведомо плохих экспериментах
Протестировать изменение
Изменение поведенческих привычек
С каким блоками можно экспериментировать?
Эксперименты: явные и неявные
Зачем может понадобиться многомерная схема?
Разбиваем пространство пользователей на блоки.
Как убедиться, что многомерная схема работает?