Foredrag på GoOpen, Oslo, 2011 (Norwegian language)
NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene?
Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen
3. Jan Høydahl
1995: Utvikler telecom
1998: Java-utvikler
2000: Søk - FAST
2006: Lucene
2007: new
Cominvent()
2009: Lucene/Solr
Ca 100 prosjekter
4. Virksomhetskritisk søk
Lucene/Solr og FAST
Domenekunnskap & beste praksis!
Konsulent Kurs Support
(www.solrkurs.no)
5. Agenda
Bakgrunn for prosjektet
Arkitektur før
Søk ABC, intro til Solr
Prosjektgjennomføring
Oppsummering, Q&A
6. Bakgrunn for prosjektet
Stort antall artikler både på papir og nett
FAST ESP som plattform for søk fra 2006
Apache Solr for skattelistesøk
NHST bruker i stor grad Java og mye åpen programvare
Da FAST ble kjøpt opp måtte hele løsningen vurderes
Endte opp med å gå for Solr
Brakte inn Jan som konsulent
14. Utfordringer
FAST er en søke-plattform, Solr er rent søk
Prosessering av kildedata
Språkstøtte
Entiteter (personer, steder, firmaer)
15. FAST - Solr forskjeller
En indeks, delt inn Flere indekser (cores), hver
med collections med sitt eget skjema
Lemmatisering: Stemming:
bil, biler, bilene => bil bil, biler, bilene => bil
billig, billigere => billig billig => bil
billigere => billiger
Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn
språk-støtte i rammeverket
17. Tuning for nyhetssøk
Hva er viktigste faktor for nyhets-søk?
Ferskvare !
umiddelbar indeksering
dato-boost i søk
Solr Function Query
recip(
ms(NOW,publishdate),
3.16e-11, 0.5, 0.5
)^4000.0
19. Oppsummering / gevinster
Solr mye mindre ressurskrevende enn FAST
Kan til og med kjøres virtualisert
Ryddigere arkitektur, separate kjerner og skjemaer
Tjent mye på felles søkemellomvare og presentasjonslag
Gode muligheter for tuning
Noen utfordringer, men alt i alt veldig fornøyd