4. О чем будем говорить
• Корпоративный поисковый портал
• Как «работает» поиск в SP2013
• Ключевые изменения
• Магия – расчет релевантности
• Полезные практики
4
5. Типичные сценарии
поиска
• Я знаю что я ищу и я знаю где это найти
• Я знаю что я ищу, но НЕ знаю где это найти
• Я НЕ знаю что я ищу
5
http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
6. • Предпосылки:
• Компания растет
• Зоопарк из систем
• Решение:
• поисковый портал, «маленький гугл»
• Быстрая бизнес польза от внедрения:
• Единая точка поиска информации
• Сокращение времени на поиск информации
• Улучшение климата внутри компании
6
Поисковый портал
7. Но после внедрения…
• «Поиск плохо ищет»
• Из коробки поиск ничего не знает про вас
• «Но…
• … Microsoft позаботились о хорошем алгоритме»
• … мы не уверены что сделаем лучше»
• ... нам не нужен поиск, у нас все знают что где лежит»
• … сделайте нам как в ГуглБинг»
7
8. Почему это сложно
• Неоднозначные короткие запросы
• Разнородный неоптимизированный контент
• Разная терминология составителей и
потребителей контента
• Ограниченность ресурсов, в то время как в
интернет-поисковиках
• Ручное и автоматическое измерение качества
(асессоры)
• Постоянное улучшение
8
10. Поиск - двухфазный
процесс
• Матчинг – все документы с ключ.словами
• Лингвистика: стемминг, фонетика
• Синонимы
• Ранжирование
• «Фичи»
• TF-IDF, BM25
• Вес полей
• Тип файла
• Дата изменения
• Популярность
• …
10
12. Ранжирование в FAST
• Вклад отдельных компонент в результат
12
0
1000
2000
3000
4000
5000
6000
7000
8000
1st 2nd 3rd 4th
term:fast term:search freshness static rank proximity
15. Ранжирование в SP2013
• Основная модель релевантности
• Две последовательные нейронные сети
• Дата документа не учитывается
• Фичи
15
Type Instance
BM25 BM25
Static UrlDepth
BucketedStatic InternalFileType
BucketedStatic Language
Static ClickDistance
Static QueryLogClicks
Static QueryLogSkips
Static LastClicks
Static EventRate
MinSpan - soft Title
MinSpan - soft Title
MinSpan - soft Title
MinSpan - soft Content
22. 1. Поисковая аналитика
• Стандартно в SP2013
• Наиболее популярные запросы
• «Неудачные» запросы
• Сторонние системы (Google Analytics, Omniture,
WebTrends)
• Измерение качества поиска
• % кликов на результаты
• на какие результаты
• обратные переходы
• Анализ сессии
• Сегментация запросов
22
24. 2. Тонкая настройка
• Authoritative Pages
• Быстрая выгода – приоритет источников контент
• Query Rules
• Поиск становится умным в глазах пользователей
• Synonyms
• Отдельный маппинг файл
• Только экспансия
• Синонимы термсетов не работают
• Модели релевантности
24
25. Authoritative Pages
• Влияет на ClickDistance
• ClickDistance, UrlDepth имеют сильное влияние
на итоговую релевантность
• Конфигурируются в CA, CSOM
25
26. Query Rules (Rule +
Action)
• Основной инструмент имитации разума
• Интерактивная реакция на запросы
• Пост обработка запроса
• Навигационные ключевые слова
• …
26
27. Условия для Query
Rules
• Query Matches Keyword Exactly
• Advanced Query Text Match
• Query Matches Dictionary Exactly
• Query Contains Action Term
• Query More Common in Source
• Result Type Commonly Clicked
27
28. Действия для Query
Rules
• Create and display a result block
• Change ranked search results
• Best Bets
• XRANK
• Работает аддитивно
• Не отображается в rankdetail
• Правильный выбор веса?
28
29. Шаблоны для
QueryRules
• Типичные комбинации из нашего портала
• Software, soft, download, install
• How to
• Policy, Blog
• Portal
• Music, Video
• Presentation, Documents, Report
• Training, tutorial
• Book, ebook
• У вас будут другие!
29
38. Понимать естественный
язык
• В общем виде задача не решается
• Аналитика + кропотливая работа
• см выше набор практик
• NLP – question answering
• Rocket science
• English only
• Part of speech tagging, dependency parsing
• Stanford NLP, Open NLP, IR
38
39. «Литература»
• Patents - http://goo.gl/20sbR
• Explain Rank page - http://goo.gl/o3ZmN
• How SP2013 relevancy models works - http://goo.gl/arf0P
• MS Enterprise Search approach - http://goo.gl/x8SDO
• Customizing ranking models in SP 2013 - http://goo.gl/lBJAp
39
40. 22 мая 2013, Киев
Спасибо за внимание
Skype: Alexey_Kozhemiakin
Email: Alexey.Kozhemiakin@gmail.com
Blog: http://powersearching.wordpress.com
40