SlideShare una empresa de Scribd logo
1 de 34
Ускорение исследований
за счет организации
конкурсов
Иван Гуз
Михаил Трофимов
Кто-то реально проводит конкурсы?
• Netflix (2009) – 1M $
– Прогноз рейтингов кинофильмов
• Heritage Provider Network (2012) – 3M $
– Прогноз времени госпитализации
• Top3 наиболее популярные платформы:
• Конкурсы устраивают известные компании:
Avito, Yandex, …, Facebook, Amazon, Microsoft
Платформа
Год
запуска
#Решателей #Конкурсов
Сумма
призов
Kaggle 2010 396 K 199 3.5M $
CrowdANALYTIX 2011 9.5 K 99 310K $
DrivenData 2014 < 1K 7 22K $
Конкурсы
Содержит ли
объявление
запрещенный товар?
Какова вероятность
клика на объявлении?
Есть ли телефон на
изображении?
Кому давать скидку?
Зачем нужны конкурсы
Big Data Swamp
Конкурс
• Определение предельно достижимого качества
решения задачи за короткое время
• Получение методики решения или хотя бы идей
за короткое время
Должна быть экспоненциальная сложность! Откуда?
Сырые данные
- Поведенческие/статические данные
- Неструктурированная информация:
тексты, изображения, видео
Признаковое описание
- Осмысленные признаки
- Автоматические признаки
Алгоритм
- Любая функция:
F(признаковое описание) -> Прогноз
Критерии задач для конкурсов
Бесконечно
много
вариантов!
Бесконечно
функций!
CTR Prediction
Где экспоненциальная сложность?
Что влияет на вероятность клика?
История просмотров? Похожесть поискового запроса и
заголовка объявления? Соседние объявления? День недели?
• 40 GB данных
• 414 команд
• Улучшение
LogLoss:
0.057 -> 0.040
Советы 1:Данные
• Не бойтесь выдавать максимум имеющихся у вас
сырых данных
Сигнал может быть в самых неожиданных для вас местах
• Выдайте упрощенную выборку с базовыми
признаками для понижения порога входа
Big Data Swamp
Совет 2: Train / Test
Train
Test Public (70%)
Test Private (30%)
Обучаемся
• Известны ответы
Промежуточный рейтинг:
• Обратная связь
• Стимулируем конкуренцию
• Не допустить утечек из Train в Test
• Test Private и Public брать из одной
генеральной совокупности
• Дать много репрезентативных данных на
Test, Private чтобы исключить переобучение
Финальный рейтинг:
• Определяем победителей
Борьба с утечками:
CTR prediction
User 1
User 2
User 3
Время
User 1
User 2
User 3
Test EventTrain Event
Утечка!
Конкурс - Телефоны на фото
Fake!
Fake!
Подача объявления
Данные - изображения
ПростоСложно
Есть контакты Нет контактов
Этапы конкурса
Train – 40K картинок
Test Public – 10K картинок
Test Private –
10K картинок
Время
Изначально скрыт
Обучаем модели
и соревнуемся
Замораживаем
модели
Скорим
Test Private
• Выиграла Deep Learning модель: Public/Private AUC 0.85/0.95
• Плохое разбиение на Public/Private Test
• Переобучилась под фрагменты изображений => плохая постановка
Конкурс: Обнаружение
запрещенного товара по тексту
• 4 GB текста
• 285 команд
• Улучшение
AP@K:
0.927 -> 0.987
Совет 3:Организация
• Предоставьте участникам код baseline
модели и как ее построить
– Это позволит им не терять время на
изобретение велосипеда
• Не устраивайте конкурсы длиннее чем 2 мес
– Слишком много времени приводит к созданию
чрезмерно сложных решений
– Лучшие чрезмерно сложные решения зачастую
эквивалентны по качеству. Победителя будет
определять случай
• Ограничивайте количество сабмитов. Не
более 2х раз в день.
– Иначе можно использовать обратную связь от
тестовой выборки для повышения качества
модели (переобучение)
Совет 4: Когда проводить конкурсы?
Конкурс
Конкурс
Формируем требования
к инфраструктуре
Конкурс
Спортивный
анализ данных:
ошибки, трюки,
тактика
Михаил Трофимов
С чего начинается соревнование
•Конкурс — это данные + метрика + правила
•Участники должны
•оптимизировать метрику
•на фиксированном наборе данных
•с учетом правил
Нет ограничений на вычислительные мощности, время или
«разумность» решения!
Данные
Начинать всегда следует с осмотра данных
Часто бывают баги в описании, ошибки в самих
данных, может отсутствовать кусок
«Все врут»
•нужно критично относиться к тому, что
известно про датасет
В данных порой бывают «утечки»
•это искусственные зависимости, которых
не должно было быть, и которые приводят
к нереалистичному результату
Примеры утечек
«Truly Native?» (kaggle, 2015)
•бинарная классификация веб-страниц
•признак «дата создания файла»: >0.998 (AUC)
«Predict Exacerbation in patients with Respiratory Diseases»
(crowdanalytix, 2014)
•бинарная классификация пациентов
•признак «id объекта»: >0.8 (AUC)
«Интернет-олимпиада Викимарта», 3я задача (2013)
•бинарная классификация пользовательской сессии
(завершит ли сессию в следующий момент)
•в описании сессии был признак «pageviews»
•признак «длина сессии == pageview»: >0.999 (accuracy)
Mетрика
Метрика составляет половину задачи!
Для организатора:
промах с выбором метрики = промах с постановкой задачи
Для участника:
важно понимать ее особенности
Пример:
RMSLE (root mean squared log error)
следует сразу перейти от y к log(y+1)
Валидация
Основная идея:
•несколько раз бьем выборку на обучениеконтроль
•смотрим на среднеедисперсию метрики на контроле
Дьявол в мелочах: как именно производить разбиение?
Важно иметь локальный надежный механизм оценки качества
решения!
Валидация
Типичный пример:
•если есть временная ось — делить выборку «допосле», а
не перемешивать данные
При разбиении важно как можно точнее смоделировать
«боевые» условия для контрольного множества!
Что дальше?
Ок, построили цикл валидации, что дальше?
Начать с простого решения — и итеративно его усложнять
•за счет алгоритмов
• но на одних алгоритмах далеко не уедешь
•за счет новых признаков/идей
• хороший признак полезнее крутого алгоритма
Feature engineering
•Придумывание признаков — почти искусство
•Есть ряд стандартных приемов (логарифм, степень,
произведенияразности,…)
•Полезно иметь богатое воображение
•Можно почерпнуть идеи из научных статей по теме задачи
•Будьте готовы, что 90% идей не взлетят
Ансамбли
Полезнее инвестировать время в признакиидеи.
Но если идеи совсем кончились — используйте ансамбли!
Ансамбли
• Характерное увеличение качества: 1-3%
• Цена — в разы большая вычислительная сложность
• Ансамбли могут быть монструозными
Базовый стек
Библиотеки
Название Что реализует? python only
sklearn Набор классических алгоритмов Да
xgboost Градинтный бустинг над решающими
деревьями и логистическими регрессиями
Нет
vowpal wabbit Множество линейных и почти линейных
моделей
Нет
LibFM, LibFFM Факторизационные машины Нет
liblinear Набор линейных методов (в том числе
линейный SVM)
Нет
Theano Вычислительный граф Да
Lasange
(надстройка
над Theano)
Набор блоков для построения нейросетей Да
GIGO
MLDA — не магия и не серебряная пуля
Иногда лучшее решение немногим лучше тривиального (случайного)
•«The Big Data Combine Engineered by BattleFin»(kaggle)
• прогнозирование многомерных временных рядов
• лучшее решение ~ последнее значение * 1.014
•«Acquire Valued Shoppers Challenge»(kaggle)
• предсказание возвращения покупателя
• лучшее решение: 0.62 AUC
Garbage In -> Garbage Out
Коротко о главном
Хотите выиграть?
• Внимательно смотрите на данные
• Осознайте метрику
• Посмотрите на задачу с разных сторон,
попробуйте разные идеи
• Смешайте все идеи и наработки
Правильные ожидания от конкурсов
НЕ ждите от конкурсов готового
решения!
Правильные ожидания от конкурсов
Используйте конкурсы как
возможность найти и познакомиться с
экспертами
Правильные ожидания от конкурсов
Результат конкурса – идеи, которые
нужно проверять на новых данных, и
на их основе строить промышленное
решение
Спасибо за внимание!
Вопросы?

Más contenido relacionado

La actualidad más candente

Хорошо поддерживаемое приложение
Хорошо поддерживаемое приложениеХорошо поддерживаемое приложение
Хорошо поддерживаемое приложениеNikolay Sivko
 
Monitoring-driven эксплуатация (rootconf2015)
Monitoring-driven эксплуатация (rootconf2015)Monitoring-driven эксплуатация (rootconf2015)
Monitoring-driven эксплуатация (rootconf2015)Nikolay Sivko
 
Мониторинг качества работы вашего проекта
Мониторинг качества работы вашего проектаМониторинг качества работы вашего проекта
Мониторинг качества работы вашего проектаNikolay Sivko
 
Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Ontico
 
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...Ontico
 
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)Ontico
 
Жизнь проекта на production
Жизнь проекта на productionЖизнь проекта на production
Жизнь проекта на productionNikolay Sivko
 
Wargaming: Оценка задач для котиков
Wargaming: Оценка задач для котиковWargaming: Оценка задач для котиков
Wargaming: Оценка задач для котиковSlava Lukyanenka
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaRoman Zykov
 
Не все базы данных одинаково полезны
Не все базы данных одинаково полезныНе все базы данных одинаково полезны
Не все базы данных одинаково полезныSergey Xek
 
Выступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceВыступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceEYevseyeva
 
Мониторинг всех слоев web проекта (hl2015)
Мониторинг всех слоев web проекта (hl2015)Мониторинг всех слоев web проекта (hl2015)
Мониторинг всех слоев web проекта (hl2015)Nikolay Sivko
 
Всему своё время / Роман Ивлиев (Банки.ру)
Всему своё время / Роман Ивлиев (Банки.ру)Всему своё время / Роман Ивлиев (Банки.ру)
Всему своё время / Роман Ивлиев (Банки.ру)Ontico
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Ontico
 
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...Ontico
 
Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Ontico
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaAlex Chistyakov
 

La actualidad más candente (18)

Хорошо поддерживаемое приложение
Хорошо поддерживаемое приложениеХорошо поддерживаемое приложение
Хорошо поддерживаемое приложение
 
Monitoring-driven эксплуатация (rootconf2015)
Monitoring-driven эксплуатация (rootconf2015)Monitoring-driven эксплуатация (rootconf2015)
Monitoring-driven эксплуатация (rootconf2015)
 
Мониторинг качества работы вашего проекта
Мониторинг качества работы вашего проектаМониторинг качества работы вашего проекта
Мониторинг качества работы вашего проекта
 
Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"
 
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...
Как поддерживать и развивать пачку "похожих" проектов. Кластер или конгломера...
 
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
 
Жизнь проекта на production
Жизнь проекта на productionЖизнь проекта на production
Жизнь проекта на production
 
Wargaming: Оценка задач для котиков
Wargaming: Оценка задач для котиковWargaming: Оценка задач для котиков
Wargaming: Оценка задач для котиков
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
 
Не все базы данных одинаково полезны
Не все базы данных одинаково полезныНе все базы данных одинаково полезны
Не все базы данных одинаково полезны
 
Выступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceВыступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance Conference
 
Мониторинг всех слоев web проекта (hl2015)
Мониторинг всех слоев web проекта (hl2015)Мониторинг всех слоев web проекта (hl2015)
Мониторинг всех слоев web проекта (hl2015)
 
Всему своё время / Роман Ивлиев (Банки.ру)
Всему своё время / Роман Ивлиев (Банки.ру)Всему своё время / Роман Ивлиев (Банки.ру)
Всему своё время / Роман Ивлиев (Банки.ру)
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
 
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...
ChatOps на практике. Организация работы команды сопровождения / Евгений Потап...
 
Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на Java
 
ClickHouse
ClickHouseClickHouse
ClickHouse
 

Destacado

Анализ данных для повышения доходности и лояльности клиентов
Анализ данных для повышения доходности и лояльности клиентовАнализ данных для повышения доходности и лояльности клиентов
Анализ данных для повышения доходности и лояльности клиентовyaevents
 
Frontera распределенный робот для обхода веба в больших объемах / Александр С...
Frontera распределенный робот для обхода веба в больших объемах / Александр С...Frontera распределенный робот для обхода веба в больших объемах / Александр С...
Frontera распределенный робот для обхода веба в больших объемах / Александр С...Ontico
 
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...Ontico
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахromovpa
 
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)Ontico
 
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...Ontico
 
SphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksSphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksRoman Pavlushko
 
Зачем в Avito Аналитика?
Зачем в Avito Аналитика?Зачем в Avito Аналитика?
Зачем в Avito Аналитика?AvitoTech
 
Инструментируй это
Инструментируй этоИнструментируй это
Инструментируй этоRoman Dvornov
 
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)Ontico
 
Где живут Ваши объявления / Тюрин Михаил (Avito)
Где живут Ваши объявления / Тюрин Михаил (Avito)Где живут Ваши объявления / Тюрин Михаил (Avito)
Где живут Ваши объявления / Тюрин Михаил (Avito)Ontico
 
SPA инструменты
SPA инструментыSPA инструменты
SPA инструментыRoman Dvornov
 
Avito iab1502 olga ky
Avito iab1502 olga kyAvito iab1502 olga ky
Avito iab1502 olga kyIABRu
 
Agile — это не то, что ты думаешь
Agile — это не то, что ты думаешьAgile — это не то, что ты думаешь
Agile — это не то, что ты думаешьVasiliy Cheptsov
 
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013Roman Pavlushko
 
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Ontico
 
Реализация восстановления после аварий / Сергей Бурладян (Avito)
Реализация восстановления после аварий / Сергей Бурладян (Avito)Реализация восстановления после аварий / Сергей Бурладян (Avito)
Реализация восстановления после аварий / Сергей Бурладян (Avito)Ontico
 

Destacado (20)

Анализ данных для повышения доходности и лояльности клиентов
Анализ данных для повышения доходности и лояльности клиентовАнализ данных для повышения доходности и лояльности клиентов
Анализ данных для повышения доходности и лояльности клиентов
 
Frontera распределенный робот для обхода веба в больших объемах / Александр С...
Frontera распределенный робот для обхода веба в больших объемах / Александр С...Frontera распределенный робот для обхода веба в больших объемах / Александр С...
Frontera распределенный робот для обхода веба в больших объемах / Александр С...
 
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...
Near-realtime аналитика событий в высоконагруженном проекте / Александр Краше...
 
Факторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системахФакторизационные модели в рекомендательных системах
Факторизационные модели в рекомендательных системах
 
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)
Ускорение показа превью изображений в Яндекс.Диске / Сергей Нечаев (Яндекс)
 
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...
Эволюция клиентской разработки от веба ко всеобщей мобилизации или mobile-fir...
 
SphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricksSphinxSearch Meetup - Tips&tricks
SphinxSearch Meetup - Tips&tricks
 
Зачем в Avito Аналитика?
Зачем в Avito Аналитика?Зачем в Avito Аналитика?
Зачем в Avito Аналитика?
 
Инструментируй это
Инструментируй этоИнструментируй это
Инструментируй это
 
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)
Производительность WebGL-приложений / Дмитренко Кирилл (Яндекс)
 
Clearing hurdles
Clearing hurdlesClearing hurdles
Clearing hurdles
 
Experiment Prototyping
Experiment PrototypingExperiment Prototyping
Experiment Prototyping
 
Где живут Ваши объявления / Тюрин Михаил (Avito)
Где живут Ваши объявления / Тюрин Михаил (Avito)Где живут Ваши объявления / Тюрин Михаил (Avito)
Где живут Ваши объявления / Тюрин Михаил (Avito)
 
Bezier curves
Bezier curvesBezier curves
Bezier curves
 
SPA инструменты
SPA инструментыSPA инструменты
SPA инструменты
 
Avito iab1502 olga ky
Avito iab1502 olga kyAvito iab1502 olga ky
Avito iab1502 olga ky
 
Agile — это не то, что ты думаешь
Agile — это не то, что ты думаешьAgile — это не то, что ты думаешь
Agile — это не то, что ты думаешь
 
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
 
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
Скорость с доставкой до пользователя / Анатолий Орлов (Self Employed), Денис ...
 
Реализация восстановления после аварий / Сергей Бурладян (Avito)
Реализация восстановления после аварий / Сергей Бурладян (Avito)Реализация восстановления после аварий / Сергей Бурладян (Avito)
Реализация восстановления после аварий / Сергей Бурладян (Avito)
 

Similar a Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван Гуз, Михаил Трофимов (Avito)

SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииСергей Кокшаров
 
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахКонстантин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахDariaShalahinova
 
Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016rusbase
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектамиОмские ИТ-субботники
 
Решение проблем с помощью RCA. Методики и инструменты.
Решение проблем с помощью RCA. Методики и инструменты.Решение проблем с помощью RCA. Методики и инструменты.
Решение проблем с помощью RCA. Методики и инструменты.Alexey Evmenkov
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
 
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...Ontico
 
Эффективные ретроспективы
Эффективные ретроспективыЭффективные ретроспективы
Эффективные ретроспективыBoris Volfson
 
Почему размер имеет значение
Почему размер имеет значениеПочему размер имеет значение
Почему размер имеет значениеSQALab
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серыйVladislav Morgun
 
АБ-тестирование с Google Analytics
АБ-тестирование с Google AnalyticsАБ-тестирование с Google Analytics
АБ-тестирование с Google AnalyticsNatalia Kazachenko
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataRoman Zykov
 
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!SPB SQA Group
 
Опыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryОпыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryNikita Efimov
 
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Ontico
 
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.LEDC 2016
 
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?1С-Битрикс
 

Similar a Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван Гуз, Михаил Трофимов (Avito) (20)

SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендации
 
«SEO-эксперименты и к чему они приводят»
«SEO-эксперименты и к чему они приводят» «SEO-эксперименты и к чему они приводят»
«SEO-эксперименты и к чему они приводят»
 
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахКонстантин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
 
Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами
2013-03-02 03 Анна Тарасенко. Принцип YAGNI в управлении проектами
 
Решение проблем с помощью RCA. Методики и инструменты.
Решение проблем с помощью RCA. Методики и инструменты.Решение проблем с помощью RCA. Методики и инструменты.
Решение проблем с помощью RCA. Методики и инструменты.
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...
Опыт осторожного внедрения инструментов Теории Ограничений в крупной компании...
 
Эффективные ретроспективы
Эффективные ретроспективыЭффективные ретроспективы
Эффективные ретроспективы
 
Почему размер имеет значение
Почему размер имеет значениеПочему размер имеет значение
Почему размер имеет значение
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
 
АБ-тестирование с Google Analytics
АБ-тестирование с Google AnalyticsАБ-тестирование с Google Analytics
АБ-тестирование с Google Analytics
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your data
 
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
 
Опыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryОпыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product Discovery
 
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
 
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.
Виктор Левандовский - Why Drupal? Как продавать Родину с напильником.
 
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?
Предсказательная аналитика в e-commerce: есть ли жизнь после конверсии?
 

Más de Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

Más de Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван Гуз, Михаил Трофимов (Avito)

  • 1. Ускорение исследований за счет организации конкурсов Иван Гуз Михаил Трофимов
  • 2. Кто-то реально проводит конкурсы? • Netflix (2009) – 1M $ – Прогноз рейтингов кинофильмов • Heritage Provider Network (2012) – 3M $ – Прогноз времени госпитализации • Top3 наиболее популярные платформы: • Конкурсы устраивают известные компании: Avito, Yandex, …, Facebook, Amazon, Microsoft Платформа Год запуска #Решателей #Конкурсов Сумма призов Kaggle 2010 396 K 199 3.5M $ CrowdANALYTIX 2011 9.5 K 99 310K $ DrivenData 2014 < 1K 7 22K $
  • 3. Конкурсы Содержит ли объявление запрещенный товар? Какова вероятность клика на объявлении? Есть ли телефон на изображении? Кому давать скидку?
  • 4. Зачем нужны конкурсы Big Data Swamp Конкурс • Определение предельно достижимого качества решения задачи за короткое время • Получение методики решения или хотя бы идей за короткое время
  • 5. Должна быть экспоненциальная сложность! Откуда? Сырые данные - Поведенческие/статические данные - Неструктурированная информация: тексты, изображения, видео Признаковое описание - Осмысленные признаки - Автоматические признаки Алгоритм - Любая функция: F(признаковое описание) -> Прогноз Критерии задач для конкурсов Бесконечно много вариантов! Бесконечно функций!
  • 6. CTR Prediction Где экспоненциальная сложность? Что влияет на вероятность клика? История просмотров? Похожесть поискового запроса и заголовка объявления? Соседние объявления? День недели? • 40 GB данных • 414 команд • Улучшение LogLoss: 0.057 -> 0.040
  • 7. Советы 1:Данные • Не бойтесь выдавать максимум имеющихся у вас сырых данных Сигнал может быть в самых неожиданных для вас местах • Выдайте упрощенную выборку с базовыми признаками для понижения порога входа Big Data Swamp
  • 8. Совет 2: Train / Test Train Test Public (70%) Test Private (30%) Обучаемся • Известны ответы Промежуточный рейтинг: • Обратная связь • Стимулируем конкуренцию • Не допустить утечек из Train в Test • Test Private и Public брать из одной генеральной совокупности • Дать много репрезентативных данных на Test, Private чтобы исключить переобучение Финальный рейтинг: • Определяем победителей
  • 9. Борьба с утечками: CTR prediction User 1 User 2 User 3 Время User 1 User 2 User 3 Test EventTrain Event Утечка!
  • 10. Конкурс - Телефоны на фото Fake! Fake! Подача объявления
  • 12. Этапы конкурса Train – 40K картинок Test Public – 10K картинок Test Private – 10K картинок Время Изначально скрыт Обучаем модели и соревнуемся Замораживаем модели Скорим Test Private • Выиграла Deep Learning модель: Public/Private AUC 0.85/0.95 • Плохое разбиение на Public/Private Test • Переобучилась под фрагменты изображений => плохая постановка
  • 13. Конкурс: Обнаружение запрещенного товара по тексту • 4 GB текста • 285 команд • Улучшение AP@K: 0.927 -> 0.987
  • 14. Совет 3:Организация • Предоставьте участникам код baseline модели и как ее построить – Это позволит им не терять время на изобретение велосипеда • Не устраивайте конкурсы длиннее чем 2 мес – Слишком много времени приводит к созданию чрезмерно сложных решений – Лучшие чрезмерно сложные решения зачастую эквивалентны по качеству. Победителя будет определять случай • Ограничивайте количество сабмитов. Не более 2х раз в день. – Иначе можно использовать обратную связь от тестовой выборки для повышения качества модели (переобучение)
  • 15. Совет 4: Когда проводить конкурсы? Конкурс Конкурс Формируем требования к инфраструктуре Конкурс
  • 17. С чего начинается соревнование •Конкурс — это данные + метрика + правила •Участники должны •оптимизировать метрику •на фиксированном наборе данных •с учетом правил Нет ограничений на вычислительные мощности, время или «разумность» решения!
  • 18. Данные Начинать всегда следует с осмотра данных Часто бывают баги в описании, ошибки в самих данных, может отсутствовать кусок «Все врут» •нужно критично относиться к тому, что известно про датасет В данных порой бывают «утечки» •это искусственные зависимости, которых не должно было быть, и которые приводят к нереалистичному результату
  • 19. Примеры утечек «Truly Native?» (kaggle, 2015) •бинарная классификация веб-страниц •признак «дата создания файла»: >0.998 (AUC) «Predict Exacerbation in patients with Respiratory Diseases» (crowdanalytix, 2014) •бинарная классификация пациентов •признак «id объекта»: >0.8 (AUC) «Интернет-олимпиада Викимарта», 3я задача (2013) •бинарная классификация пользовательской сессии (завершит ли сессию в следующий момент) •в описании сессии был признак «pageviews» •признак «длина сессии == pageview»: >0.999 (accuracy)
  • 20. Mетрика Метрика составляет половину задачи! Для организатора: промах с выбором метрики = промах с постановкой задачи Для участника: важно понимать ее особенности Пример: RMSLE (root mean squared log error) следует сразу перейти от y к log(y+1)
  • 21. Валидация Основная идея: •несколько раз бьем выборку на обучениеконтроль •смотрим на среднеедисперсию метрики на контроле Дьявол в мелочах: как именно производить разбиение? Важно иметь локальный надежный механизм оценки качества решения!
  • 22. Валидация Типичный пример: •если есть временная ось — делить выборку «допосле», а не перемешивать данные При разбиении важно как можно точнее смоделировать «боевые» условия для контрольного множества!
  • 23. Что дальше? Ок, построили цикл валидации, что дальше? Начать с простого решения — и итеративно его усложнять •за счет алгоритмов • но на одних алгоритмах далеко не уедешь •за счет новых признаков/идей • хороший признак полезнее крутого алгоритма
  • 24. Feature engineering •Придумывание признаков — почти искусство •Есть ряд стандартных приемов (логарифм, степень, произведенияразности,…) •Полезно иметь богатое воображение •Можно почерпнуть идеи из научных статей по теме задачи •Будьте готовы, что 90% идей не взлетят
  • 25. Ансамбли Полезнее инвестировать время в признакиидеи. Но если идеи совсем кончились — используйте ансамбли!
  • 26. Ансамбли • Характерное увеличение качества: 1-3% • Цена — в разы большая вычислительная сложность • Ансамбли могут быть монструозными
  • 28. Библиотеки Название Что реализует? python only sklearn Набор классических алгоритмов Да xgboost Градинтный бустинг над решающими деревьями и логистическими регрессиями Нет vowpal wabbit Множество линейных и почти линейных моделей Нет LibFM, LibFFM Факторизационные машины Нет liblinear Набор линейных методов (в том числе линейный SVM) Нет Theano Вычислительный граф Да Lasange (надстройка над Theano) Набор блоков для построения нейросетей Да
  • 29. GIGO MLDA — не магия и не серебряная пуля Иногда лучшее решение немногим лучше тривиального (случайного) •«The Big Data Combine Engineered by BattleFin»(kaggle) • прогнозирование многомерных временных рядов • лучшее решение ~ последнее значение * 1.014 •«Acquire Valued Shoppers Challenge»(kaggle) • предсказание возвращения покупателя • лучшее решение: 0.62 AUC Garbage In -> Garbage Out
  • 30. Коротко о главном Хотите выиграть? • Внимательно смотрите на данные • Осознайте метрику • Посмотрите на задачу с разных сторон, попробуйте разные идеи • Смешайте все идеи и наработки
  • 31. Правильные ожидания от конкурсов НЕ ждите от конкурсов готового решения!
  • 32. Правильные ожидания от конкурсов Используйте конкурсы как возможность найти и познакомиться с экспертами
  • 33. Правильные ожидания от конкурсов Результат конкурса – идеи, которые нужно проверять на новых данных, и на их основе строить промышленное решение

Notas del editor

  1. Тут также рассказываем про то, что есть одна из целей – выкладка задачи для разработки принципиально нового мат апарата. История про deep learning и Alex Net
  2. Тут говорим про конкурс CTR – где выдали много данных. Возможно много лишнего.