SlideShare una empresa de Scribd logo
1 de 32
Что такое близкие запросы, как их найти и использовать Павел БраславскийЛия КареповаМаксим КоролевСветлана Шорина
Что такое «близкие ЗАПРОСЫ»? 2
михаилбулгаков мастер и маргарита мастер и маргарита фильм  владимирбортко тарасбульба фильм  3 богдан ступка  михаил боярский  д'артаньян три мушкетера александрдюма
Подробнее Уточнение:золотое кольцо  золотое кольцо с бриллиантом Снятие неоднозначности: ягуар ягуар животное Расширение: золотое кольцо  ювелирные украшения Синоним:  японская вишня сакура 4
Еще подробнее Другой запрос на ту же тему: мерседесауди Смена поисковой цели:купить санкидетский мир Перевод: коралловый клуб coral club 5
Близкие, но «про другое» Опечатки:курсовая робота – курсовая работа Транслитерация: золото – zoloto Раскладка: lbvf ,bkfy – димабилан Реникса: otbeptka – отвертка 6
Хороший запрос – это непросто 7
Назовите глагол из вопроса, помещенного на борту транспортного средства подопечных ФатихаТеримана первенстве континента? IX Кубок Яндекса по поиску (2008) 8
Работа мысли ФатихТерим сборная турции на борту самолета  сборная турции "на борту" самолета  сборная турции надпись "на борту" самолета  сборная турции надпись "на борту" автобуса  сборная турции надпись на автобусе  футбол "сборная турции" надпись на автобусе  чемпионат европы футбол "сборная турции" надпись на автобусе  9
Ответ Вместит ли автобус всю страсть Турции? 10
Помочь пользователю 11
12
13
14
15
16
17
Где искать, как извлечь? 18
Источники данных Лог запросов Текст ссылок  Корпус текстов ford  ford focus, ford fusion, ford mondeo карта карта памяти, карта города машина  стиральная машина, швейная машина  19
Близость запросов 20 q2 q3 q4 q1 слова/буквы сессии клики
Требования Семантическая близость запросов Без ошибок, опечаток, обрезанных словосочетаний Без смысловых дублей (шарон стоун, шерон стоун)  Недопустимо – порно, мат, оскорбительная лексика Плохо: гео-зависимые запросы в чужом регионе, неактуальные запросы (о прошедших событиях)  21
запрос=<timeStamp, userId, queryText, ckicks> 0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки) 1. выделение сессий (по времени) 2. выделение пар (в.ч. транзитивно) 22
23 3. нормализация запросов (стоп-слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования) 4. борьба со флешмобами и «событийными» ассоциациями  5. матрица частоты переходов «запрос-запрос» (пороги для пользователя, ограничение на абсолютную частоту)
24 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс:q  q1, q2, q3… (оригинальные запросы)
Оценка «оценка глазами» «классы объектов» кластеры запросов Яндекс.Директа кликабельность 25
результат 26
27
Выбор пользователей 28
Спрос/предложение 29
Где еще можно использовать? Реклама Качество поиска 30
Спасибо за внимание! 31
32 Павел Браславский pb@yandex-team.ruЛия КареповаМаксим КоролевСветлана Шорина

Más contenido relacionado

La actualidad más candente

The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017Yury Bryukvin
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...ph.d. Dmitry Stepanov
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...ph.d. Dmitry Stepanov
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширенийСергей Пономарев
 
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...ATOR
 
Ссылки в нормативных документах
Ссылки в нормативных документахСсылки в нормативных документах
Ссылки в нормативных документахAndrey Subbota
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияPenguin Tux
 
источники информации
источники информацииисточники информации
источники информацииNikita Kuzmin
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1GooVape
 
Итоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛИтоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛKirasu
 
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемYandex
 
Поиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поискаПоиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поискаОльга Булгакова
 
Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...Norwegian-Russian society of Tromsø
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернетеdusha13
 

La actualidad más candente (17)

The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
 
Ссылки в нормативных документах
Ссылки в нормативных документахСсылки в нормативных документах
Ссылки в нормативных документах
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
 
презентация интернет
презентация интернетпрезентация интернет
презентация интернет
 
источники информации
источники информацииисточники информации
источники информации
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
 
Итоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛИтоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛ
 
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
 
Поиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поискаПоиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поиска
 
Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 

Destacado

Andrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсовAndrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсовrit2010
 
Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010rit2010
 
Andrey Petrov P D P
Andrey Petrov P D PAndrey Petrov P D P
Andrey Petrov P D Prit2010
 
Alexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extraAlexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extrarit2010
 
Microsoft cluster systems ritconf
Microsoft cluster systems ritconfMicrosoft cluster systems ritconf
Microsoft cluster systems ritconfrit2010
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publishrit2010
 
Bykov monitoring mailru
Bykov monitoring mailruBykov monitoring mailru
Bykov monitoring mailrurit2010
 
Ilia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решенийIlia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решенийrit2010
 

Destacado (8)

Andrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсовAndrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсов
 
Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010
 
Andrey Petrov P D P
Andrey Petrov P D PAndrey Petrov P D P
Andrey Petrov P D P
 
Alexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extraAlexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extra
 
Microsoft cluster systems ritconf
Microsoft cluster systems ritconfMicrosoft cluster systems ritconf
Microsoft cluster systems ritconf
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
 
Bykov monitoring mailru
Bykov monitoring mailruBykov monitoring mailru
Bykov monitoring mailru
 
Ilia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решенийIlia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решений
 

Más de rit2010

Sphinx new
Sphinx newSphinx new
Sphinx newrit2010
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publishrit2010
 
Anatol filin pragmatic documentation 1_r
Anatol filin  pragmatic documentation 1_rAnatol filin  pragmatic documentation 1_r
Anatol filin pragmatic documentation 1_rrit2010
 
Alexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudoAlexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudorit2010
 
Konstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчикуKonstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчикуrit2010
 
Alexander shigin slides
Alexander shigin slidesAlexander shigin slides
Alexander shigin slidesrit2010
 
иван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейсиван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейсrit2010
 
Dmitry lohansky rit2010
Dmitry lohansky rit2010Dmitry lohansky rit2010
Dmitry lohansky rit2010rit2010
 
молчанов сергей датацентры 10 04 2010 Light
молчанов сергей датацентры 10 04 2010  Lightмолчанов сергей датацентры 10 04 2010  Light
молчанов сергей датацентры 10 04 2010 Lightrit2010
 
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample SdkSergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdkrit2010
 
Serge P Nekoval Grails
Serge P  Nekoval GrailsSerge P  Nekoval Grails
Serge P Nekoval Grailsrit2010
 
Pavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski YandexPavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski Yandexrit2010
 
Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2rit2010
 
Eugene Lisitsky Web Sockets
Eugene Lisitsky Web SocketsEugene Lisitsky Web Sockets
Eugene Lisitsky Web Socketsrit2010
 
Alexey Bazhin Balancing
Alexey Bazhin BalancingAlexey Bazhin Balancing
Alexey Bazhin Balancingrit2010
 
рит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглыйрит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглыйrit2010
 
левин михаил выступление на рит большие картинки
левин михаил выступление на рит   большие картинкилевин михаил выступление на рит   большие картинки
левин михаил выступление на рит большие картинкиrit2010
 
левин михаил выступление на рит
левин михаил выступление на ритлевин михаил выступление на рит
левин михаил выступление на ритrit2010
 
антон веснин Rails Application Servers
антон веснин Rails Application Serversантон веснин Rails Application Servers
антон веснин Rails Application Serversrit2010
 
олег царев Rit 2010 реляционные субд и их нереляционные реализации
олег царев Rit 2010   реляционные субд и их нереляционные реализацииолег царев Rit 2010   реляционные субд и их нереляционные реализации
олег царев Rit 2010 реляционные субд и их нереляционные реализацииrit2010
 

Más de rit2010 (20)

Sphinx new
Sphinx newSphinx new
Sphinx new
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
 
Anatol filin pragmatic documentation 1_r
Anatol filin  pragmatic documentation 1_rAnatol filin  pragmatic documentation 1_r
Anatol filin pragmatic documentation 1_r
 
Alexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudoAlexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudo
 
Konstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчикуKonstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчику
 
Alexander shigin slides
Alexander shigin slidesAlexander shigin slides
Alexander shigin slides
 
иван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейсиван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейс
 
Dmitry lohansky rit2010
Dmitry lohansky rit2010Dmitry lohansky rit2010
Dmitry lohansky rit2010
 
молчанов сергей датацентры 10 04 2010 Light
молчанов сергей датацентры 10 04 2010  Lightмолчанов сергей датацентры 10 04 2010  Light
молчанов сергей датацентры 10 04 2010 Light
 
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample SdkSergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
 
Serge P Nekoval Grails
Serge P  Nekoval GrailsSerge P  Nekoval Grails
Serge P Nekoval Grails
 
Pavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski YandexPavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski Yandex
 
Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2
 
Eugene Lisitsky Web Sockets
Eugene Lisitsky Web SocketsEugene Lisitsky Web Sockets
Eugene Lisitsky Web Sockets
 
Alexey Bazhin Balancing
Alexey Bazhin BalancingAlexey Bazhin Balancing
Alexey Bazhin Balancing
 
рит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглыйрит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглый
 
левин михаил выступление на рит большие картинки
левин михаил выступление на рит   большие картинкилевин михаил выступление на рит   большие картинки
левин михаил выступление на рит большие картинки
 
левин михаил выступление на рит
левин михаил выступление на ритлевин михаил выступление на рит
левин михаил выступление на рит
 
антон веснин Rails Application Servers
антон веснин Rails Application Serversантон веснин Rails Application Servers
антон веснин Rails Application Servers
 
олег царев Rit 2010 реляционные субд и их нереляционные реализации
олег царев Rit 2010   реляционные субд и их нереляционные реализацииолег царев Rit 2010   реляционные субд и их нереляционные реализации
олег царев Rit 2010 реляционные субд и их нереляционные реализации
 

Related Queries Braslavski Yandex

  • 1. Что такое близкие запросы, как их найти и использовать Павел БраславскийЛия КареповаМаксим КоролевСветлана Шорина
  • 3. михаилбулгаков мастер и маргарита мастер и маргарита фильм владимирбортко тарасбульба фильм 3 богдан ступка михаил боярский д'артаньян три мушкетера александрдюма
  • 4. Подробнее Уточнение:золотое кольцо  золотое кольцо с бриллиантом Снятие неоднозначности: ягуар ягуар животное Расширение: золотое кольцо  ювелирные украшения Синоним: японская вишня сакура 4
  • 5. Еще подробнее Другой запрос на ту же тему: мерседесауди Смена поисковой цели:купить санкидетский мир Перевод: коралловый клуб coral club 5
  • 6. Близкие, но «про другое» Опечатки:курсовая робота – курсовая работа Транслитерация: золото – zoloto Раскладка: lbvf ,bkfy – димабилан Реникса: otbeptka – отвертка 6
  • 7. Хороший запрос – это непросто 7
  • 8. Назовите глагол из вопроса, помещенного на борту транспортного средства подопечных ФатихаТеримана первенстве континента? IX Кубок Яндекса по поиску (2008) 8
  • 9. Работа мысли ФатихТерим сборная турции на борту самолета сборная турции "на борту" самолета сборная турции надпись "на борту" самолета сборная турции надпись "на борту" автобуса сборная турции надпись на автобусе футбол "сборная турции" надпись на автобусе чемпионат европы футбол "сборная турции" надпись на автобусе 9
  • 10. Ответ Вместит ли автобус всю страсть Турции? 10
  • 12. 12
  • 13. 13
  • 14. 14
  • 15. 15
  • 16. 16
  • 17. 17
  • 18. Где искать, как извлечь? 18
  • 19. Источники данных Лог запросов Текст ссылок Корпус текстов ford  ford focus, ford fusion, ford mondeo карта карта памяти, карта города машина  стиральная машина, швейная машина 19
  • 20. Близость запросов 20 q2 q3 q4 q1 слова/буквы сессии клики
  • 21. Требования Семантическая близость запросов Без ошибок, опечаток, обрезанных словосочетаний Без смысловых дублей (шарон стоун, шерон стоун) Недопустимо – порно, мат, оскорбительная лексика Плохо: гео-зависимые запросы в чужом регионе, неактуальные запросы (о прошедших событиях) 21
  • 22. запрос=<timeStamp, userId, queryText, ckicks> 0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки) 1. выделение сессий (по времени) 2. выделение пар (в.ч. транзитивно) 22
  • 23. 23 3. нормализация запросов (стоп-слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования) 4. борьба со флешмобами и «событийными» ассоциациями 5. матрица частоты переходов «запрос-запрос» (пороги для пользователя, ограничение на абсолютную частоту)
  • 24. 24 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс:q  q1, q2, q3… (оригинальные запросы)
  • 25. Оценка «оценка глазами» «классы объектов» кластеры запросов Яндекс.Директа кликабельность 25
  • 27. 27
  • 30. Где еще можно использовать? Реклама Качество поиска 30
  • 32. 32 Павел Браславский pb@yandex-team.ruЛия КареповаМаксим КоролевСветлана Шорина