SlideShare una empresa de Scribd logo
1 de 40
22 мая 2013, Киев
Успешные корпоративные
поисковые порталы на
основе SharePoint 2013
Алексей Кожемякин
22 мая 2013, Киев
Как сделать крутой поиск
Алексей Кожемякин
Обо мне
• Solution Architect @epam
• Focusing on search
• Sharepoint Search FAST/2010/2013
• Apache
Lucene, Solr, elasticsearch, Oracle
Endeca…
• http://powersearching.wordpress.com
3
О чем будем говорить
• Корпоративный поисковый портал
• Как «работает» поиск в SP2013
• Ключевые изменения
• Магия – расчет релевантности
• Полезные практики
4
Типичные сценарии
поиска
• Я знаю что я ищу и я знаю где это найти
• Я знаю что я ищу, но НЕ знаю где это найти
• Я НЕ знаю что я ищу
5
http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
• Предпосылки:
• Компания растет
• Зоопарк из систем
• Решение:
• поисковый портал, «маленький гугл»
• Быстрая бизнес польза от внедрения:
• Единая точка поиска информации
• Сокращение времени на поиск информации
• Улучшение климата внутри компании
6
Поисковый портал
Но после внедрения…
• «Поиск плохо ищет»
• Из коробки поиск ничего не знает про вас
• «Но…
• … Microsoft позаботились о хорошем алгоритме»
• … мы не уверены что сделаем лучше»
• ... нам не нужен поиск, у нас все знают что где лежит»
• … сделайте нам как в ГуглБинг»
7
Почему это сложно
• Неоднозначные короткие запросы
• Разнородный неоптимизированный контент
• Разная терминология составителей и
потребителей контента
• Ограниченность ресурсов, в то время как в
интернет-поисковиках
• Ручное и автоматическое измерение качества
(асессоры)
• Постоянное улучшение
8
Архитектура поиска в
SP2013
9
Поиск - двухфазный
процесс
• Матчинг – все документы с ключ.словами
• Лингвистика: стемминг, фонетика
• Синонимы
• Ранжирование
• «Фичи»
• TF-IDF, BM25
• Вес полей
• Тип файла
• Дата изменения
• Популярность
• …
10
Ранжирование в FAST
• Линейная комбинация фич
11
Ранжирование в FAST
• Вклад отдельных компонент в результат
12
0
1000
2000
3000
4000
5000
6000
7000
8000
1st 2nd 3rd 4th
term:fast term:search freshness static rank proximity
Миграция FAST-
>SP2013
13
Ранжирование в SP2013
14
Ранжирование в SP2013
• Основная модель релевантности
• Две последовательные нейронные сети
• Дата документа не учитывается
• Фичи
15
Type Instance
BM25 BM25
Static UrlDepth
BucketedStatic InternalFileType
BucketedStatic Language
Static ClickDistance
Static QueryLogClicks
Static QueryLogSkips
Static LastClicks
Static EventRate
MinSpan - soft Title
MinSpan - soft Title
MinSpan - soft Title
MinSpan - soft Content
Ранжирование в SP2013
16
• Основная модель релевантности
Расшифровка
релевантности
• /_layout/15/explainrank.aspx
• rankdetail property
17
Расшифровка
релевантности
• Ручная проверка в екселе
18
19
Успешные практики
1. Поисковая аналитика
2. Тонкая настройка и адаптация
3. Регулярное тестирование
4. Анализ проблем с конфиденциальностью
5. Популяризация
6. Адаптация контента
20
1. Поисковая аналитика
• Поисковая аналитика
• Поисковая аналитика
• Поисковая аналитика
21
1. Поисковая аналитика
• Стандартно в SP2013
• Наиболее популярные запросы
• «Неудачные» запросы
• Сторонние системы (Google Analytics, Omniture,
WebTrends)
• Измерение качества поиска
• % кликов на результаты
• на какие результаты
• обратные переходы
• Анализ сессии
• Сегментация запросов
22
Сегментация запросов
• Анализировать не только самые популярные, а
классы запросов
23
2. Тонкая настройка
• Authoritative Pages
• Быстрая выгода – приоритет источников контент
• Query Rules
• Поиск становится умным в глазах пользователей
• Synonyms
• Отдельный маппинг файл
• Только экспансия
• Синонимы термсетов не работают
• Модели релевантности
24
Authoritative Pages
• Влияет на ClickDistance
• ClickDistance, UrlDepth имеют сильное влияние
на итоговую релевантность
• Конфигурируются в CA, CSOM
25
Query Rules (Rule +
Action)
• Основной инструмент имитации разума
• Интерактивная реакция на запросы
• Пост обработка запроса
• Навигационные ключевые слова
• …
26
Условия для Query
Rules
• Query Matches Keyword Exactly
• Advanced Query Text Match
• Query Matches Dictionary Exactly
• Query Contains Action Term
• Query More Common in Source
• Result Type Commonly Clicked
27
Действия для Query
Rules
• Create and display a result block
• Change ranked search results
• Best Bets
• XRANK
• Работает аддитивно
• Не отображается в rankdetail
• Правильный выбор веса?
28
Шаблоны для
QueryRules
• Типичные комбинации из нашего портала
• Software, soft, download, install
• How to
• Policy, Blog
• Portal
• Music, Video
• Presentation, Documents, Report
• Training, tutorial
• Book, ebook
• У вас будут другие!
29
Custom Rank Models
• Сбор Query Judgments
• Настройка коэффициентов нейронной сети
машинным обучением
• Gradient Descent, Lambda Rank
• Microsoft.Office.Server.Search.RankerTuning
30
Custom Rank Models
• Модифицируйте простую модель сделанную
руками
• A/B тестирование весов
• Измерение, метрики : Precision, NDCG
31
Custom Rank Models
• Пример – модель поиска людей
32
3. Тестирование поиска
• Зачем? Это компас.
• «Юнит тестирование»
• Ручное тестирование, периодически
33
4. Аудит
«безопасности»
• Внедрение поиска выявляет проблемы с
правами доступа
• Security by obscurity
• Например:
• «конфиденциально»
• Зарплаты, подробности интервью
• Решение – автоматический мониторинг
чувствительных запросов
34
5. Адаптация контента
• Работа с подразделениями
• Помощь в мониторинге аналитики
• Гайдлайн по оформлению контента
• Базовый SEO
• Оформление заголовков
• Оформление урлов
• Мета тэги <meta name=…
• Title, description
• Автоматически протянутся в crawled properties
35
6. Популяризация
• Имидж – «здесь найдется все»
• Интеграция с другими системами
• Поиск как сервис
• Виджет «поискать во всех системах»
• Бэджи, гемификация
36
Популяризация
• Социальные Best-bets
37
Понимать естественный
язык
• В общем виде задача не решается
• Аналитика + кропотливая работа
• см выше набор практик
• NLP – question answering
• Rocket science
• English only
• Part of speech tagging, dependency parsing
• Stanford NLP, Open NLP, IR
38
«Литература»
• Patents - http://goo.gl/20sbR
• Explain Rank page - http://goo.gl/o3ZmN
• How SP2013 relevancy models works - http://goo.gl/arf0P
• MS Enterprise Search approach - http://goo.gl/x8SDO
• Customizing ranking models in SP 2013 - http://goo.gl/lBJAp
39
22 мая 2013, Киев
Спасибо за внимание
Skype: Alexey_Kozhemiakin
Email: Alexey.Kozhemiakin@gmail.com
Blog: http://powersearching.wordpress.com
40

Más contenido relacionado

Similar a Spcua 2013 кожемякин-алексей

Анализ конкурентов (интернет-маркетинг для b2b)
Анализ конкурентов (интернет-маркетинг для b2b)Анализ конкурентов (интернет-маркетинг для b2b)
Анализ конкурентов (интернет-маркетинг для b2b)Комплето
 
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...Дмитрий Севальнев
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 
Решение по рекрутингу для HR на базе Taleo Enterprise Edition
Решение по рекрутингу для HR на базе Taleo Enterprise EditionРешение по рекрутингу для HR на базе Taleo Enterprise Edition
Решение по рекрутингу для HR на базе Taleo Enterprise EditionSergey Ananiev
 
20131112федорроманенко
20131112федорроманенко20131112федорроманенко
20131112федорроманенкоYandex
 
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработки
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработкиКак перейти от проектного мышления к продуктовому. Опыт из заказной разработки
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработкиAlexander Byndyu
 
Владимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERPВладимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERPOctopus Events
 
Практика SEO: Продвижение туристических сайтов
Практика SEO: Продвижение туристических сайтовПрактика SEO: Продвижение туристических сайтов
Практика SEO: Продвижение туристических сайтовEvgeny Kostin
 
Microsoft FAST Enterprise Search Technologies Overview
Microsoft FAST Enterprise Search Technologies OverviewMicrosoft FAST Enterprise Search Technologies Overview
Microsoft FAST Enterprise Search Technologies OverviewMichael Kozloff
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтовPlaytini
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтовЕвгений Летов
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaAlex Chistyakov
 
Яндекс - технологии позволяющие увеличить эффективность сайта
Яндекс - технологии позволяющие увеличить эффективность сайтаЯндекс - технологии позволяющие увеличить эффективность сайта
Яндекс - технологии позволяющие увеличить эффективность сайтаTabtabusconf
 
How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...Alexandre Prozoroff
 
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаSEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаДмитрий Севальнев
 
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемыCIT TROYA
 
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...Дмитрий Севальнев
 

Similar a Spcua 2013 кожемякин-алексей (20)

SEO-аудит своими руками
SEO-аудит своими рукамиSEO-аудит своими руками
SEO-аудит своими руками
 
Анализ конкурентов (интернет-маркетинг для b2b)
Анализ конкурентов (интернет-маркетинг для b2b)Анализ конкурентов (интернет-маркетинг для b2b)
Анализ конкурентов (интернет-маркетинг для b2b)
 
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
 
Ageev
AgeevAgeev
Ageev
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Решение по рекрутингу для HR на базе Taleo Enterprise Edition
Решение по рекрутингу для HR на базе Taleo Enterprise EditionРешение по рекрутингу для HR на базе Taleo Enterprise Edition
Решение по рекрутингу для HR на базе Taleo Enterprise Edition
 
20131112федорроманенко
20131112федорроманенко20131112федорроманенко
20131112федорроманенко
 
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработки
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработкиКак перейти от проектного мышления к продуктовому. Опыт из заказной разработки
Как перейти от проектного мышления к продуктовому. Опыт из заказной разработки
 
Владимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERPВладимир Лучанинов. Сделай сам анализатор SERP
Владимир Лучанинов. Сделай сам анализатор SERP
 
Практика SEO: Продвижение туристических сайтов
Практика SEO: Продвижение туристических сайтовПрактика SEO: Продвижение туристических сайтов
Практика SEO: Продвижение туристических сайтов
 
Microsoft FAST Enterprise Search Technologies Overview
Microsoft FAST Enterprise Search Technologies OverviewMicrosoft FAST Enterprise Search Technologies Overview
Microsoft FAST Enterprise Search Technologies Overview
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на Java
 
SEO-аудит своими руками. Вебинар WebPromoExperts #106
SEO-аудит своими руками. Вебинар WebPromoExperts #106SEO-аудит своими руками. Вебинар WebPromoExperts #106
SEO-аудит своими руками. Вебинар WebPromoExperts #106
 
Яндекс - технологии позволяющие увеличить эффективность сайта
Яндекс - технологии позволяющие увеличить эффективность сайтаЯндекс - технологии позволяющие увеличить эффективность сайта
Яндекс - технологии позволяющие увеличить эффективность сайта
 
How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...
 
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайтаSEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
SEMPRO 2015. Дмитрий Севальнев - Пограничные технологии продвижения сайта
 
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
 
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...
Техническая оптимизация. Что топит ваш сайт в выдаче Google? // Online Advert...
 

Spcua 2013 кожемякин-алексей

  • 1. 22 мая 2013, Киев Успешные корпоративные поисковые порталы на основе SharePoint 2013 Алексей Кожемякин
  • 2. 22 мая 2013, Киев Как сделать крутой поиск Алексей Кожемякин
  • 3. Обо мне • Solution Architect @epam • Focusing on search • Sharepoint Search FAST/2010/2013 • Apache Lucene, Solr, elasticsearch, Oracle Endeca… • http://powersearching.wordpress.com 3
  • 4. О чем будем говорить • Корпоративный поисковый портал • Как «работает» поиск в SP2013 • Ключевые изменения • Магия – расчет релевантности • Полезные практики 4
  • 5. Типичные сценарии поиска • Я знаю что я ищу и я знаю где это найти • Я знаю что я ищу, но НЕ знаю где это найти • Я НЕ знаю что я ищу 5 http://aghy.hu/AghyBlog_EN/Lists/Posts/Post.aspx?ID=199
  • 6. • Предпосылки: • Компания растет • Зоопарк из систем • Решение: • поисковый портал, «маленький гугл» • Быстрая бизнес польза от внедрения: • Единая точка поиска информации • Сокращение времени на поиск информации • Улучшение климата внутри компании 6 Поисковый портал
  • 7. Но после внедрения… • «Поиск плохо ищет» • Из коробки поиск ничего не знает про вас • «Но… • … Microsoft позаботились о хорошем алгоритме» • … мы не уверены что сделаем лучше» • ... нам не нужен поиск, у нас все знают что где лежит» • … сделайте нам как в ГуглБинг» 7
  • 8. Почему это сложно • Неоднозначные короткие запросы • Разнородный неоптимизированный контент • Разная терминология составителей и потребителей контента • Ограниченность ресурсов, в то время как в интернет-поисковиках • Ручное и автоматическое измерение качества (асессоры) • Постоянное улучшение 8
  • 10. Поиск - двухфазный процесс • Матчинг – все документы с ключ.словами • Лингвистика: стемминг, фонетика • Синонимы • Ранжирование • «Фичи» • TF-IDF, BM25 • Вес полей • Тип файла • Дата изменения • Популярность • … 10
  • 11. Ранжирование в FAST • Линейная комбинация фич 11
  • 12. Ранжирование в FAST • Вклад отдельных компонент в результат 12 0 1000 2000 3000 4000 5000 6000 7000 8000 1st 2nd 3rd 4th term:fast term:search freshness static rank proximity
  • 15. Ранжирование в SP2013 • Основная модель релевантности • Две последовательные нейронные сети • Дата документа не учитывается • Фичи 15 Type Instance BM25 BM25 Static UrlDepth BucketedStatic InternalFileType BucketedStatic Language Static ClickDistance Static QueryLogClicks Static QueryLogSkips Static LastClicks Static EventRate MinSpan - soft Title MinSpan - soft Title MinSpan - soft Title MinSpan - soft Content
  • 16. Ранжирование в SP2013 16 • Основная модель релевантности
  • 19. 19
  • 20. Успешные практики 1. Поисковая аналитика 2. Тонкая настройка и адаптация 3. Регулярное тестирование 4. Анализ проблем с конфиденциальностью 5. Популяризация 6. Адаптация контента 20
  • 21. 1. Поисковая аналитика • Поисковая аналитика • Поисковая аналитика • Поисковая аналитика 21
  • 22. 1. Поисковая аналитика • Стандартно в SP2013 • Наиболее популярные запросы • «Неудачные» запросы • Сторонние системы (Google Analytics, Omniture, WebTrends) • Измерение качества поиска • % кликов на результаты • на какие результаты • обратные переходы • Анализ сессии • Сегментация запросов 22
  • 23. Сегментация запросов • Анализировать не только самые популярные, а классы запросов 23
  • 24. 2. Тонкая настройка • Authoritative Pages • Быстрая выгода – приоритет источников контент • Query Rules • Поиск становится умным в глазах пользователей • Synonyms • Отдельный маппинг файл • Только экспансия • Синонимы термсетов не работают • Модели релевантности 24
  • 25. Authoritative Pages • Влияет на ClickDistance • ClickDistance, UrlDepth имеют сильное влияние на итоговую релевантность • Конфигурируются в CA, CSOM 25
  • 26. Query Rules (Rule + Action) • Основной инструмент имитации разума • Интерактивная реакция на запросы • Пост обработка запроса • Навигационные ключевые слова • … 26
  • 27. Условия для Query Rules • Query Matches Keyword Exactly • Advanced Query Text Match • Query Matches Dictionary Exactly • Query Contains Action Term • Query More Common in Source • Result Type Commonly Clicked 27
  • 28. Действия для Query Rules • Create and display a result block • Change ranked search results • Best Bets • XRANK • Работает аддитивно • Не отображается в rankdetail • Правильный выбор веса? 28
  • 29. Шаблоны для QueryRules • Типичные комбинации из нашего портала • Software, soft, download, install • How to • Policy, Blog • Portal • Music, Video • Presentation, Documents, Report • Training, tutorial • Book, ebook • У вас будут другие! 29
  • 30. Custom Rank Models • Сбор Query Judgments • Настройка коэффициентов нейронной сети машинным обучением • Gradient Descent, Lambda Rank • Microsoft.Office.Server.Search.RankerTuning 30
  • 31. Custom Rank Models • Модифицируйте простую модель сделанную руками • A/B тестирование весов • Измерение, метрики : Precision, NDCG 31
  • 32. Custom Rank Models • Пример – модель поиска людей 32
  • 33. 3. Тестирование поиска • Зачем? Это компас. • «Юнит тестирование» • Ручное тестирование, периодически 33
  • 34. 4. Аудит «безопасности» • Внедрение поиска выявляет проблемы с правами доступа • Security by obscurity • Например: • «конфиденциально» • Зарплаты, подробности интервью • Решение – автоматический мониторинг чувствительных запросов 34
  • 35. 5. Адаптация контента • Работа с подразделениями • Помощь в мониторинге аналитики • Гайдлайн по оформлению контента • Базовый SEO • Оформление заголовков • Оформление урлов • Мета тэги <meta name=… • Title, description • Автоматически протянутся в crawled properties 35
  • 36. 6. Популяризация • Имидж – «здесь найдется все» • Интеграция с другими системами • Поиск как сервис • Виджет «поискать во всех системах» • Бэджи, гемификация 36
  • 38. Понимать естественный язык • В общем виде задача не решается • Аналитика + кропотливая работа • см выше набор практик • NLP – question answering • Rocket science • English only • Part of speech tagging, dependency parsing • Stanford NLP, Open NLP, IR 38
  • 39. «Литература» • Patents - http://goo.gl/20sbR • Explain Rank page - http://goo.gl/o3ZmN • How SP2013 relevancy models works - http://goo.gl/arf0P • MS Enterprise Search approach - http://goo.gl/x8SDO • Customizing ranking models in SP 2013 - http://goo.gl/lBJAp 39
  • 40. 22 мая 2013, Киев Спасибо за внимание Skype: Alexey_Kozhemiakin Email: Alexey.Kozhemiakin@gmail.com Blog: http://powersearching.wordpress.com 40