Sphinx search

Использование Sphinx
для полнотекстового
поиска.

Полнотекстовый?
Полнотекстовый поиск — поиск документа в базе текстов на
основании содержимого этих документов

Как оно работает?

Почему

● быстрый
● open source
● не требует дополнительного ПО
● специально снабжён возможностью
хорошего взаимодействия с базами
данных SQL
● SphinxQL

Немного статистики

~3.5 миллиона записей, ~5 GB текста
(из Wikipedia)
MySQL Lucene Sphinx

Индексация, min 1627 176 84

Индекс, MB 3011 6328 2850

Match all, ms/q 286 30 22

Match phrase, ms/q 3692 29 21

Match bool top-20, ms/q 24 29 13

Возможности

● высокая скорость индексации (до 10 MB/сек на
современных процессорах)
● высокая скорость поиска (средний запрос
обрабатывается менее 0.1 секунды на 2-4 GB
текстовых коллекциях)
● обеспечивает хорошую релевантность путем
сочетания ранжирования похожих фраз и статистики
ранжирования
● поддержка одновременно нескольких
дополнительных атрибутов для каждого документа
(группы, временные метки и т.д.)

Недостатки

● “монолитные” индексы
● отсутствие документации на русском

Установка (*nix)

1. Распаковать
2. $ ./configure
3. $ make
4. $ make install

и что дальше?
Sphinx состоит из трех компонентов: генератор
индекса, поисковая система и поисковая утилита,
работающая в командной строке:
● Генератор индекса (indexer). Он выполняет запросы к базе данных,
индексирует каждую колонку в каждой строке результата и
привязывает каждую запись индекса к первичному ключу строки.

● Поисковая система представляет собой демон, который называется
searchd.

● Удобная утилита search позволяет выполнять поиск из командной
строки без написания кода.

Настройка

/usr/local/etc/sphinx.conf

● источники (source)
● индексы (index)
● конфиг демона (searchd)

Немного практики

source
source Post
{
type = mysql
sql_host = localhost
sql_user = sphinx
sql_pass = whyd0in33d1t
sql_db = zomg_test_forum
sql_sock = /tmp/mysql/mysql.sock
sql_port = 3306
sql_query = SELECT id, userId, threadId, title, text FROM Posts;
sql_query_info = SELECT * FROM Posts WHERE id=$id
sql_query_range = SELECT MIN(id), MAX(id) FROM Posts
sql_range_step = 500
sql_query_pre = SET NAMES utf8
sql_field_string = text
sql_attr_multi = uint tags from query;SELECT id FROM Tags
}

index

index Post
{
index Thread
type = rt
{
path = /mnt/data/Post
type = rt
rt_field = title
path = /mnt/data/Thread
rt_field = text
rt_field = title
rt_attr_string = _title
rt_attr_string = _title
rt_attr_string = _text
rt_attr_uint = userId
rt_attr_uint = threadId
morphology = stem_enru
rt_attr_uint = userId
}
rt_attr_multi = tags
morphology = stem_enru
}

searchd

searchd
{
listen = localhost:3307:mysql41
port = 3312
log = /etc/sphinx/searchd.log
query_log = /etc/sphinx/query.log
pid_file = /etc/sphinx/searchd.pid
}

оно работает?

$ sudo /usr/local/bin/indexer --rotate --all
using config file '/usr/local/etc/sphinx.conf'...
indexing index 'Post'...
collected 8 docs, 0.0 MB
sorted 0.0 Mhits, 82.8% done
total 8 docs, 149 bytes
total 0.010 sec, 14900.00 bytes/sec, 800.00 docs/sec

$ /usr/local/bin/search wind
index 'Post': query 'wind ': returned 2 matches of 2 total in 0.000 sec

SphinxQL

1) SELECT * FROM Thread LIMIT 1,2

2) SELECT * FROM Post WHERE threadId = 1

3) SELECT * FROM Post WHERE match('art') ORDER BY
@weight DESC

4) SELECT _title FROM Post WHERE match('@title art')

5) SELECT * FROM Post WHERE tags in (1,2) AND match
('google')

Ранжирование (ranker)
SELECT * FROM test WHERE MATCH('@title hello
@body world')
OPTION ranker=bm25, max_matches=3000,
field_weights=(title=10, body=3)

● SPH_RANK_PROXIMITY_BM25 ('proximity_bm25'), режим по умолчанию -
учитывается близость слов и ранжирование BM25

● SPH_RANK_BM25 ('bm25'), только BM25, как в большинстве других поисковых
систем (быстрее 1го режима)

● SPH_RANK_NONE ('none'), вообще без ранжирования - самый быстрый режим

● SPH_RANK_WORDCOUNT ('wordcount'), простой и быстрый, считает кол-во
совпадений

Ура?

1. Установили Sphinx
2. Настроили
3. ....
4. profit?

Sphinx search

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (11)

Destacado

Destacado (20)

Similar a Sphinx search

Similar a Sphinx search (20)

Sphinx search