30. Релевантность по словосочетаниям - формула среднее арифметическое релевантностей по каждому из рассматриваемых словосочетаний p i , выделенных из запроса q . Здесь w pi – вес словосочетания в запросе, R p - релевантность документа словосочетанию p i , вычисляемая по следующей форумле: где – количество слов в словосочетании p i , – суммарное расстояние между каждым из этих слов в рассматриваемом документе d j , вычисленное для каждого вхождения в документ словосочетания p i .
31.
32. Итоговая релевантность - формула где – косинус угла между векторами запроса q и документа d j , характеризующий их близость по ключевым словам , R phrase – релевантность по словосочетаниям, W field – вес проиндексированного поля
33.
34. Эксперимент. Формула оценки качества поиска где rel i – релевантность, проставленная асессором [0..2] , i – порядковый номер результата в выдаче p = 10 – количество оцениваемых результатов
43. Корректировка весов после поиска где – текущий скорректированный вес ключевого слова в индексе (измененный ранее в результате обработки статистики), – вес ключевого слова, изначально вычисленный по формуле tf . Значение n берется в зависимости от полезности обрабатываемого результата. Если результат является плохим, берется n = 1, если хорошим – берется n = 2. K > 0 – константа.
44.
45. Корректировка весов при изменении документа - формула w i , j = tf i , j + cos ( d ’ j , d j ) · ( tf i , j - w’ i , j ) здесь cos ( d ’ j , d j ) – схожесть старой версии документа d j и новой версии документа d ’ j , вычисленная как косинус угла между их векторами , tf i , j – вес слова в новой версии документа, w’ i , j – скорректированный вес слова в старой версии документа.