4. Базовая структура поиска (1/2)
• Hеструктурированная помойка веб-страниц
20 млрд – 95% мусора
• Дата майнинг
давайте в ней что-нибудь найдем
• Сбор сигналов
тащите на стол все, что плохо лежит
• Big Data
мы легко все это 1000 раз обсчитаем на кластере
4
5. Базовая структура поиска (2/2)
• Определяем качество
учимся поверять алгеброй гармонию
• Оптимизируем
факторы и машинное обучение
• Ищем
10000 серверов обслуживает каждый ваш запрос
• Представляем
интерфейс и сниппеты
5
7. Поиск = интерфейс + качество
• Определение продуктовых требований
кто они и что им нужно?
• Создание метрик качества
измеряем счастье пользователя
• Ручная разметка
миллион конкретных примеров
• Создание факторов ранжирования
учимся понимать сигнал
• Оптимизация машинным обучением
создаем искусственный интеллект
9. Моделирование
• Построим модель мира в одной области
жанры-музыканты-пластинки-песни
• Намайним объекты и отношения
все упоминания музыкантов на страницах
• Сагрегируем
посчитаем рейтинги в категориях, связи
• Определим параметры качества
популярность, соответствие вкусам
• Запустим алгоритмы качества
рейтинги, рекомендации
• Представим на выдаче
напрямую или примерами из входных данных
9
10. Результат моделирования
• Умеем понимать одну предметную область
• Делаем факторы про объекты для ранжирования
• Поисковая вертикаль с особым представлением:
ищем объекты, а не страницы
10
12. 200 миллионов в день
[вконтакте]
[фермионная струна]
[почему я такая умная, а живу как дура]
[продажа заводов по производству несъемной опалубки]
[зачем люди объединяются в группы, что группа дает человеку]
[анджелина джоли]
[ошибка 3004 в itunes при обновлении ios 7, что делать]
[……..]
14. Мы можем
•
•
•
•
•
•
•
14
Найти информацию в интернете
Ответить фактом
Сразу показать видео, дать послушать музыку
Задать уточняющий вопрос
Проводить на специальный вертикальный сервис
Подобрать лучший бизнес
Сразу начать процесс взаимодействия (Острова)
15. • В поисковом окне люди формулируют все
свои потребности
• Граница между поисковыми
и информационными сервисами условна
• Поиск – это гигантский искусственный супермозг, который должен помочь всем
• Сервис, который к нему не подключен,
не сможет помочь многим
15
17. Используем свои сильные стороны
• Одна из 5 мировых компаний: Google, Baidu,
Yahoo, Яндекс, Bing
• Супер-команда из 5000 человек
• Уникальная коллекция данных, Big Data,
технологии анализа
• Умение создавать информационные продукты
• Куча денег и славы
• 50 млн пользователей
17
18. Ценности: случаи из жизни
• Поиск с русской морфологией
• Почта без спама
• главные Новости
• экосистема Маркета
• Директ для бизнеса
• Пробки по трекам
• бесплатная Музыка
• моментальный заказ Такси
18
20. Онлайн – Яндекс.Новости
Можно почитать Новости на главные темы
в основных изданиях
•
•
•
•
20
агрегация партнёров
кластеризация и качество
приводим пользователей к лучшим партнёрам
они закрывают информационную потребность
21. Оффлайн – Яндекс.Такси
Теперь можно вызвать Такси,
которое приедет через 10 мин
•
•
•
•
21
агрегация партнеров, дающая новую возможность
важна критическая масса пользователей
сбор данных: координат и треков
метрики качества поддерживают экосистему
23. Яндекс.Пассажир (1/2)
• Поставим блок с GPS+GSM в автобусы
• Купим у Мосгортранса данные о маршрутах и
номерах турникетов
• Наймем 1000 человек, они вытрясут мусорки на
остановках
• И сфотографируют использованные билетики,
распознаем их компьютерным зрением
• Наложим треки людей на граф города
• Сделаем сервис маршрутизации и оценки времени
проезда машинным обучением
23
24. Яндекс.Пассажир (2/2)
• Пошлем в ГИБДД рекомендации по режиму работы
светофоров
• Опубликуем перегруженные маршруты для
частных перевозчиков
• Введем метрику счастья пассажиров,
нормированного на затраты Мосгортранса
• Пошлем в Мосгортранс рекомендации по
оптимизации графика движения
• Будем продавать рекламу в автобусах с учетом
маршрута и загруженности
24
26. Роли в супер-команде (1/2)
• Разработчик ядра
отличный C++, оптимизация, сети, процессоры
• Разработчик качества
С++, матстатистика, машинное обучение, анализ
данных, математическая культура
• Разработчик-тимлид
отличный разработчик, самостоятельное решение
задач, работа с людьми
• Лингвист
лингвистика, языки, программирование, дата
майнинг
26
27. Роли в супер-команде (2/2)
• Аналитик
базовое программирование, знание жизни,
матстатистика
• Продуктовый менеджер
знание людей, жизни и отрасли, интуиция, здравый
смысл, грамотность
• Проджект-менеджер
достижение целей, работа с людьми, способность
учиться
• Руководитель сервиса
всё вышеперечисленное, структурное мышление,
ответственность за результат
27