Allegro Tech Talks Poznań #4: Jak przyspieszyć SOLRa w kilku prostych krokach.

Jak przyspieszyć SOLRa w kilku
prostych krokach
Przemysław Szeremiota
Adam Dudczak

od 33 do 40 mln wyszukiwań na dobę

54 000 000 dokumentów/ofert w indeksie

SOLR w Allegro to 44 piękne kobiety
m[16-62]—c[4-20]-d[12-100]

p50 = 91 ms
throughput = 85k rpm
2015

2016
p50 = 20 ms
throughput = 116k rpm

SOLR w Allegro to ponad 100 serwerów

15 mln komunikatów dziennie
dodatkowe 10k komunikatów na sekundę

p99 czasów odpowiedzi 300ms
p99 czasów odpowiedzi >1000ms

p99 czasów odpowiedzi 300ms
p99 czasów odpowiedzi >1000ms
Indeks o wielkości 20GB
Indeks o wielkości 40GB

Silniki wyszukiwawcze w Allegro.pl
1. Apache SOLR standalone jako podstawa głównych
indeksów naszej wyszukiwarki (11 indeksów)
2. Cluster SOLR CLOUD wykorzystywany do indeksów
pomocniczych (10 indeksów)
3. Kilkadziesiąt clustrów Elastic Search wykorzystywany
przez zespoły developerskie jako rozwiązanie as a service
13

BEZ PRACY…
15
schemaless (adjective sche·ma·less -ləs): definiowanie schematu
bezwiednie, nieświadomie
• Ułatwia szybką implementację wyszukiwarki w aplikacji
• Nieźle nadaje się do niektórych typowych/modnych zastosowań
wyszukiwarek (logi, time-series)

… NIE MA KOŁACZY!
16
• Schemat w SOLR istnieje zawsze
• Projektowanie schematu: projektowanie podstaw funkcjonalności
wyszukiwarki
• Trafność wyników wymaga słowników, synonimów, sprytnych
sposobów indeksowania, tokenizerów, filtrów, analizatorów…
• Szlifowanie schematu: szlifowanie skuteczności i wydajności
wyszukiwarki (pola indeksowane/pola docValues)

KAŻDY SZCZEGÓŁ SIĘ LICZY
17
“Od rana już czymś niedobrym pachniało w powietrzu”

KAŻDY SZCZEGÓŁ SIĘ LICZY
18
• Pola przeznaczone do wyszukiwania pełnotekstowego
(indeksowane)
• Pola przeznaczone do sortowania (docValues?)
• Pola przeznaczone do facetingu (docValues?)
• Pola wykorzystywane w filtrach (indeksowane/docValues)

TO CACHE OR NOT TO CACHE?
20
• document cache — cache pól składowanych odsyłanych w
ramach wyników zapytania
• query cache — cache całych wyników, z opcją “nadmiaru”
• filter cache — cache “filtrów” (zapytań cząstkowych)
Trzy gotowce do cachowania w SOLR:

21
• Przyspiesza odsyłanie wyników, ale może lepiej nie odsyłać
kompletnych dokumentów, tylko identyfikatory do udekorowania
na froncie?
• Przechowywać w nim całe dokumenty, czy tylko wybrane pola?
Cache dokumentów
<documentCache class="solr.LFUCache" size="10" initialSize="1" autowarmCount="1"/>

22
• Wyniki zapytań gotowe do ponownego użycia, ale czy potrafimy
wycelować w ten sam backend?
• Opcja “nadmiaru” przyspiesza pobieranie następnej strony
wyników, ale czy potrafimy wycelować w ten sam backend?
Cache zapytań
<queryResultCache class="solr.LFUCache" size="50" initialSize="50" autowarmCount="50"/>

23
• Wyniki cząstkowe gotowe do ponownego użycia
• Niezbędny do operacji facetingu
Cache filtrów
<filterCache class="solr.LFUCache" size="600" initialSize="600" autowarmCount=“600" />
/select?q=name:nokia&fq=price:[30 TO 50]
/select?q=name:iphone&fq=published:[NOW-1DAY TO NOW]
/select?q=name:nokia&fq=price:[30 TO 40]&fq=type:auction

24
• Duża wariancja w czasach wykonania dla nietrafionych zapytań/
filtrów
• Pamięć JVM
• CPU/czas w GC
• CPU/czas przy kompletowaniu zbioru wynikowego filtra
Koszt intensywnego cache-owania

TO CACHE…
25
<queryResultCache class="solr.LFUCache" size="100" initialSize="50" autowarmCount=“50"/>
<documentCache class="solr.FastLRUCache" size="100000" initialSize="50000"
autowarmCount="50000"/>
<filterCache class="solr.LFUCache" size="3000" initialSize="600" autowarmCount="600"/>
rps:126.316667 max:7969 avg:54 p50:3 p75:7 p90:25 p95:58 p99:1160 pp95:3555 pp99:6838
CPU: ~60%
GC TIME: ~1.8s/min
FilterCache: 82% (inserts: ~7K, lookups: ~45K, evictions: ~5K)
QueryResultCache: 2% (inserts: ~40K, lookups: ~42K, evictions: ~40K)

…NOT TO CACHE
27
<queryResultCache class="solr.LFUCache" size="50" initialSize="50" autowarmCount="50"/>
<documentCache class="solr.FastLRUCache" size="10" initialSize="1" autowarmCount="1"/>
<filterCache class="solr.LFUCache" size="600" initialSize="600" autowarmCount="600"/>
CPU: ~20%
GC TIME: ~200ms/min
FilterCache: 93% (inserts: ~1K, lookups: ~12K, evictions: ~0.5K)
QueryResultCache: 2% (inserts: ~40K, lookups: ~42K, evictions: ~40K)

NOT TOO CACHE!!!
28
• Wyniki zapytań lepiej cachować na load-balancerach
• Do pobierania następnych stron lepiej użyć mechanizmu cursor-
mark
• Filtry nieselektywne lepiej wyznaczać w obrębie query
fq={!cache=false}type:auction
• Filtry częstozmienne lepiej wyznaczać w trybie postfilter
fq={!frange cache=false cost=100 l=30 u=50}price

DocValue your sort/facet fields

DocValue nie tylko do sort/facetingu
“DocValues are a way of recording field values
internally that is more efficient for some purposes,
such as sorting and faceting, than traditional
indexing.”
30

DocValues, ale o co chodzi?
tytuł:
nokia -> 1, 3, 5, 6, 7
lumia -> 3, 5,
cena:
120 -> 1
140 -> 3
500 -> 5
…
query: nokia lumia sort: cena ASC
31

DocValues, ale o co chodzi?
tytuł:
nokia -> 1, 3, 5, 6, 7
lumia -> 3, 5,
cena:
120 -> 1
140 -> 3
500 -> 5
…
pasujące wyniki: 3,5
32
Indeks odwrotny rządzi!

ale co z sortowaniem?
wyniki: 3, 5
cena:
140 -> 3, 6
500 -> 5, 10
…
cena_sort:
3 -> 140
5 -> 500
…
33
W przypadku indeksu odwrotnego musimy
przejrzeć całą listę termów i znaleźć
interesujące nas dokumenty

DocValues
• Dostępne w Lucene od wersji 4.0
• Polecane szczególnie do sortowania, facetowania, highligthingu
• Pozwalają bez większego problemu pobierać wartości z indeksu
<field name="state" type="string" indexed="false" stored="false" docValues="true" />
34

DocValues świetnie sprawdzają się w postfiltrach!
35

Postfiltry - krótkie wprowadzenie
• Postfiltr to filtr wykonywany po zakończeniu przetwarzania kryteriów z q i fq
• Ewaluowane kryterium może zawierać “kosztowną” logikę związaną z
zawartością dokumentu lub kontekstem użytkownika
&fq={!cache=false cost=200}price:200
&fq={!frange l=300 cache=false cost=200}price
&fq={!frange l=5 cache=false cost=200}div(log(popularity),sqrt(geodist()))
36
(source: http://yonik.com/advanced-filter-caching-in-solr/)

A jak to się ma do DocValues?
37

38
(source: http://qaware.blogspot.com/2014/11/how-to-write-postfilter-for-solr-49.html)

Na deser…
• Możliwość modyfikacji DocValues in place, bez konieczności reindeksacji
całego dokumentu.
• Narazie testujemy…
39

Dlaczego sortowanie indeksu?
• Sortowanie indeksu to zabójcza kombinacja w połączeniu z Early Terminating
Collectorem. O co chodzi?
41

Indeks bez sortowania
Segment 1:
- dokument 4: cena 430
Segment 2:
query: *:*, sort: cena ASC, rows=2
42
Musimy przejrzeć cały indeks, żeby znaleźć
2 najtańsze przedmioty

Indeks posortowany po cenie
Segment 1:
Segment 2:
query: *:*, sort: cena ASC, rows=2
43
Nie musimy przetwarzać wszystkiego

Jak to wywołać?
<indexConfig>
...
<mergePolicyFactory
class="org.apache.solr.index.SortingMergePolicyFactory">
<str name="sort">promoted desc,category1 desc,variant_id desc</str>
<str name="wrapped.prefix">inner</str>
<str name=“inner.class">
org.apache.solr.index.TieredMergePolicyFactory
</str>
<int name="inner.segmentsPerTier">2</int>
<int name="inner.maxMergeAtOnce">7</int>
<int name="inner.maxMergedSegmentMB">12288</int>
<int name="inner.forceMergeDeletesPctAllowed">5</int>
</mergePolicyFactory>
...
</indexConfig>
44

Dlaczego sortowanie indeksu?
• W praktyce niezbyt przydatne
• Jeden porządek sortowania w indeksie
• Wiele metod sortowania w aplikacji
• Ograniczona użyteczność Early Terminating Collectora w przypadku wielu
porządków sortowania
45

Czasem niespodzianki potrafią być miłe…
Rozmiar indeksu się zmniejszył, dzięki temu wszystko zaczęło
działać szybciej i zjadało mniej zasobów.
46

Bądź świadomy tego jak ludzie
korzystają z Twojej wyszukiwarki!

Stabilność przede wszystkim
• Profil wykorzystania wyszukiwarki
• Większości przypadków użytkownicy przechodzą od zapytań
ogólnych do szczegółowych (dodają filtry, zmieniają frazę)
• Oglądają nie więcej niż 20 stron wyników
• To jest nasz biznes!
48

Apache Solr i dalekie strony
• Apache Solr w przypadku przeglądania dalekich strony wyników
nie radzi sobie tak jakbyśmy chcieli
• Im dalej… tym wolniej i drożej
•start=0, rows=10
•start=1000, rows=10
•start=10000, rows=10
49

Separuj zapytania
• Zapytania o dalsze strony są kierowane do dedykowanej puli
maszyn
• Zapytania o ciężkie porządki sortowania do dedykowanej puli
maszyn
50

Allegro SOLR-PLUGINS
52
• Gdzie umiejscowić optymalizacje?
• Frontend?
• API?
• Backend (SOLR)?
• SOLR oferuje sporo “gniazdek” do przyłączania funkcjonalności:
• parsery, collectory
• komponenty obsługi zapytań
• procesory dokumentów i wyników zapytań

53
• SearchComponent
• prepare(request)
• process(response)
• UpdateRequestProcessor
• processAdd(cmd)
• processDelete(cmd)
• …
• QParser
• parse(query)

54
<requestHandler name="/select" class="solr.SearchHandler">
<arr name="components">
<str>optimizer</str>
<str>query</str>
<str>facet</str>
</arr>
</requestHandler>
<searchComponent name="optimizer" class=“pl.allegro…ScriptedSearchComponent”>
<arr name="script">
<str name="script">optimizer/optimizer.js</str>
</arr>
</searchComponent>

55
load('…/optimizer/query-params.js');
var nocache = load(‘…/optimizer/nocache-rewriter.js’)(['seller', 'category',
'latitude', 'longitude']);
function prepare(request) {
var query = getQuery(request); // from query-params.js
query.fq = nocache(query.fq)); // from nocache-rewriter.js
setQuery(query);
logger.debug('optimized: {}', request);
}
function process(response) {
logger.debug('process: ' + response);
}

56
function nocacheRewriter(fields) {
fields = fields || [ 'seller', 'price' ];
var NOCACHEFQ = new RegExp(‘^(?:{!(tag=w+)})?((?:'
+ fields.join(‘|')
+ '):(?:[^&]+))$');
return function(filters) {
return filters.map(function(filter) {
return filter.replace(NOCACHEFQ, function(match, tag, filter) {
return tag ? '{!cache=false ' + tag + '}' + filter : '{!cache=false}' +
filter;
});
});
}
}

Motywacja
• Nie dajemy rady indeksować sygnałów zaangażowania w Lucene
• SOLR-owy mechanizm ExternalFileField jest powolny
• Mimo wstrętu do programowania, trza było zakasać rękawy
58

Sorted binary file field
• Sygnał zaangażowania to offerID -> wartość
• Lucene operuje na relacjach luceneID -> offer
• W Lucene relacja offerID -> luceneID jest niestała
59
offerID -> luceneID?
luceneID -> offerID?

luceneID offerID name category bidcount
1 1432 nokia Telefony 0
2 5760 audi Moto 0
3 9811 nike Moda 0
offerID listed
1432 60
5760 22
9811 342
lucene sort_by(“listed”):
foreach (luceneID in docset):
docset[luceneID].sortVal = listedSource.getValue(luceneID)
sort(docset, .sortVal)
luceneID offerID name category bidcount
2 5760 audi Moto 0
3 9811 nike Moda 0

Jak działa ExternalFileField?
61
reload()
getValue(luceneID)
foreach (row in engagement_file):
{ offerID, value } = row.split(“=“)
luceneID = lucene.find("offerID", offerID)
vals[luceneID] = value
return vals[luceneID]

Binary Sort File Field
62
reload()
getValue(luceneID)
eng = mmap(engagement_file)
if (vals[luceneID]):
return vals[luceneID]
else:
id = lucene.get(“offerID”, luceneID)
return vals[luceneID] = bsearch(eng, id).value

ExternalFileField
SortedBinaryFileField
Wczytywanie wartości trwa wieki
Wczytywanie wartości trwa okamgnienie
Mapowanie on-heap float[numDocs]
Mapowanie off-heap, opcjonalnie on-heap
offerId->luceneID
luceneID->offerID

Sorted Binary File Field
<fieldType name="external_defval_0"
cache="true"
keyField="doc_id"
defVal="0"
class="pl.allegro.bestmatch.solr.SortedBinaryFileField"
valType="float" />
<field name="click_ratio" type="external_defval_0" />
64

Sorted Binary File Field - przygotowanie
Wartości:
1;3
2;56
3;89
from struct import pack
import sys
import json
for line in sys.stdin:
try:
vals = line.split(';')
sys.stdout.write(pack('>qf', long(vals[0]), float(vals[1])))
except:
sys.stderr.write("error: " + line)
65

Sorted Binary File Field
Wyliczanie sygnałów zaangażowania odbywa się offline (np.
Hadoop/MapReduce)
Umożliwia wynoszenie z indeksu innych często zmiennych
pól (cena? sztuk?)
Umożliwia stosunkowo łatwe importowanie dodatkowych
sygnałów
66

Do czego wykorzytujemy?
• Liczba odsłon oferty na listingu
• Liczba dodań oferty do koszyków
• Liczba dodań oferty do obserwowanych
• Liczba odsłon oferty
• Ocena sprzedawcy
• Jakość obrazków oferty
67

Dystrybucja plików
SOLR
SOLR
SOLR
SOLR
HTTP SERVER
HDFS

Czy mogę tego użyć?
• Tak… prawie… już niedługo na githubie ;-)
69

Pytania?
Pytania?
Przemysław Szeremiota / Damian Parus / Wojtek Stryszyk / Tomek Jackowiak / Adam Dudczak
imię.nazwisko@allegrogroup.com
Poznań, 6 kwietnia 2017

Allegro Tech Talks Poznań #4: Jak przyspieszyć SOLRa w kilku prostych krokach.

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Allegro Tech Talks Poznań #4: Jak przyspieszyć SOLRa w kilku prostych krokach.

Similar a Allegro Tech Talks Poznań #4: Jak przyspieszyć SOLRa w kilku prostych krokach. (20)

Más de allegro.tech

Más de allegro.tech (7)

Allegro Tech Talks Poznań #4: Jak przyspieszyć SOLRa w kilku prostych krokach.