SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Oppgradert søk på      m.fl


    Hans Jørgen Hoel
    Jan Høydahl
Hans Jørgen Hoel
Jan Høydahl

              1995: Utvikler telecom
              1998: Java-utvikler
              2000: Søk - FAST
              2006: Lucene
              2007: new
              Cominvent()
              2009: Lucene/Solr
              Ca 100 prosjekter
Virksomhetskritisk søk
           Lucene/Solr og FAST
       Domenekunnskap & beste praksis!




Konsulent          Kurs             Support
              (www.solrkurs.no)
Agenda

 Bakgrunn for prosjektet
 Arkitektur før
 Søk ABC, intro til Solr
 Prosjektgjennomføring
 Oppsummering, Q&A
Bakgrunn for prosjektet

  Stort antall artikler både på papir og nett
  FAST ESP som plattform for søk fra 2006
  Apache Solr for skattelistesøk
  NHST bruker i stor grad Java og mye åpen programvare
  Da FAST ble kjøpt opp måtte hele løsningen vurderes
  Endte opp med å gå for Solr
  Brakte inn Jan som konsulent
Arkitektur før prosjektet
Søkemotor ABC

 Søk er ikke database
   Optimalisert for fritekst søk
   Men god på AND/OR søk             X
 Kommersielle:

 Open Source:



 Bruksområder:

                                   +++
Apache Solr
Open Source søk - etterspurt??
Prosjektet

  Søke-mellomvare
  Nytt presentasjonslag for søk
  Utfordringer
  FAST ut -- Solr inn
  Optimalisering/tuning
Arkitektur før prosjektet
Etter overgang til Solr




                          Multi
                          cores
Utfordringer

  FAST er en søke-plattform, Solr er rent søk
  Prosessering av kildedata
  Språkstøtte
  Entiteter (personer, steder, firmaer)
FAST - Solr forskjeller



En indeks, delt inn           Flere indekser (cores), hver
med collections               med sitt eget skjema

Lemmatisering:                Stemming:
bil, biler, bilene => bil     bil, biler, bilene => bil
billig, billigere => billig   billig => bil
                              billigere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn
                               språk-støtte i rammeverket
Etter overgang til Solr




                          Multi
                          cores
Tuning for nyhetssøk

  Hva er viktigste faktor for nyhets-søk?
  Ferskvare !
     umiddelbar indeksering
     dato-boost i søk
     Solr Function Query
                   recip(
                    ms(NOW,publishdate),
                    3.16e-11, 0.5, 0.5
                   )^4000.0
Funksjoner for de fleste behov...

literal()      scale()    sin()     pi()
fieldvalue()   query()    cos()     e()
ord()          linear()   tan()     docfreq()
rord()         recip()    asin()    termfreq()
sum()          max()      acos()    idf()
sub()          min()      atan()    tf()
product()      ms()       sinh()    norm()
div()          rad()      cosh()    maxdoc()
pow()          deg()      tanh()    numdocs()
abs()          sqrt()     ceil()    dist()
log()          cbrt()     floor()   sqedist()
sqrt()         ln()       rint()    hsin()
map()          exp()      pow()     geohash()
strdist()      top()      hypo()    atan2()
Oppsummering / gevinster

 Solr mye mindre ressurskrevende enn FAST
 Kan til og med kjøres virtualisert
 Ryddigere arkitektur, separate kjerner og skjemaer
 Tjent mye på felles søkemellomvare og presentasjonslag
 Gode muligheter for tuning
 Noen utfordringer, men alt i alt veldig fornøyd

Más contenido relacionado

Destacado

Citizen sciencepanel2015 pdf
Citizen sciencepanel2015 pdfCitizen sciencepanel2015 pdf
Citizen sciencepanel2015 pdfBenjamin Good
 
Channeling Collaborative Spirit
Channeling Collaborative SpiritChanneling Collaborative Spirit
Channeling Collaborative SpiritBenjamin Good
 
EISHI CO. main eps machine catalogue
EISHI CO. main eps machine catalogueEISHI CO. main eps machine catalogue
EISHI CO. main eps machine catalogueeishimachinery
 
Scripps bioinformatics seminar_day_2
Scripps bioinformatics seminar_day_2Scripps bioinformatics seminar_day_2
Scripps bioinformatics seminar_day_2Benjamin Good
 
Short update on The Cure game first week
Short update on The Cure game first weekShort update on The Cure game first week
Short update on The Cure game first weekBenjamin Good
 
Fedora Iptables
Fedora IptablesFedora Iptables
Fedora Iptableszubin71
 
2016 bd2k bgood_wikidata
2016 bd2k bgood_wikidata2016 bd2k bgood_wikidata
2016 bd2k bgood_wikidataBenjamin Good
 
Light steel villa catalogue log
Light steel villa catalogue logLight steel villa catalogue log
Light steel villa catalogue logeishimachinery
 
Gene Wiki and Mark2Cure update for BD2K
Gene Wiki and Mark2Cure update for BD2KGene Wiki and Mark2Cure update for BD2K
Gene Wiki and Mark2Cure update for BD2KBenjamin Good
 
The National Society For The Protection Of Hmmm
The National Society For The Protection Of HmmmThe National Society For The Protection Of Hmmm
The National Society For The Protection Of Hmmmguest0233e9d0
 
Computing on the shoulders of giants
Computing on the shoulders of giantsComputing on the shoulders of giants
Computing on the shoulders of giantsBenjamin Good
 
Bio Logical Mass Collaboration3
Bio Logical Mass Collaboration3Bio Logical Mass Collaboration3
Bio Logical Mass Collaboration3Benjamin Good
 
Microtask crowdsourcing for disease mention annotation in PubMed abstracts
Microtask crowdsourcing for disease mention annotation in PubMed abstractsMicrotask crowdsourcing for disease mention annotation in PubMed abstracts
Microtask crowdsourcing for disease mention annotation in PubMed abstractsBenjamin Good
 
First oslo solr community meetup lightning talk janhoy
First oslo solr community meetup lightning talk janhoyFirst oslo solr community meetup lightning talk janhoy
First oslo solr community meetup lightning talk janhoyCominvent AS
 
Welcome to Ukraine - SunCity Travel LLC
Welcome to Ukraine - SunCity Travel LLCWelcome to Ukraine - SunCity Travel LLC
Welcome to Ukraine - SunCity Travel LLCAlex Faynin
 
Resume 2009 Compatible V2 1
Resume 2009 Compatible V2 1 Resume 2009 Compatible V2 1
Resume 2009 Compatible V2 1 schelby
 

Destacado (20)

IMSafer Angel Round
IMSafer Angel RoundIMSafer Angel Round
IMSafer Angel Round
 
Citizen sciencepanel2015 pdf
Citizen sciencepanel2015 pdfCitizen sciencepanel2015 pdf
Citizen sciencepanel2015 pdf
 
Gene wiki jamboree
Gene wiki jamboreeGene wiki jamboree
Gene wiki jamboree
 
Channeling Collaborative Spirit
Channeling Collaborative SpiritChanneling Collaborative Spirit
Channeling Collaborative Spirit
 
(Bio)Hackathons
(Bio)Hackathons(Bio)Hackathons
(Bio)Hackathons
 
EISHI CO. main eps machine catalogue
EISHI CO. main eps machine catalogueEISHI CO. main eps machine catalogue
EISHI CO. main eps machine catalogue
 
genegames.org
genegames.orggenegames.org
genegames.org
 
Scripps bioinformatics seminar_day_2
Scripps bioinformatics seminar_day_2Scripps bioinformatics seminar_day_2
Scripps bioinformatics seminar_day_2
 
Short update on The Cure game first week
Short update on The Cure game first weekShort update on The Cure game first week
Short update on The Cure game first week
 
Fedora Iptables
Fedora IptablesFedora Iptables
Fedora Iptables
 
2016 bd2k bgood_wikidata
2016 bd2k bgood_wikidata2016 bd2k bgood_wikidata
2016 bd2k bgood_wikidata
 
Light steel villa catalogue log
Light steel villa catalogue logLight steel villa catalogue log
Light steel villa catalogue log
 
Gene Wiki and Mark2Cure update for BD2K
Gene Wiki and Mark2Cure update for BD2KGene Wiki and Mark2Cure update for BD2K
Gene Wiki and Mark2Cure update for BD2K
 
The National Society For The Protection Of Hmmm
The National Society For The Protection Of HmmmThe National Society For The Protection Of Hmmm
The National Society For The Protection Of Hmmm
 
Computing on the shoulders of giants
Computing on the shoulders of giantsComputing on the shoulders of giants
Computing on the shoulders of giants
 
Bio Logical Mass Collaboration3
Bio Logical Mass Collaboration3Bio Logical Mass Collaboration3
Bio Logical Mass Collaboration3
 
Microtask crowdsourcing for disease mention annotation in PubMed abstracts
Microtask crowdsourcing for disease mention annotation in PubMed abstractsMicrotask crowdsourcing for disease mention annotation in PubMed abstracts
Microtask crowdsourcing for disease mention annotation in PubMed abstracts
 
First oslo solr community meetup lightning talk janhoy
First oslo solr community meetup lightning talk janhoyFirst oslo solr community meetup lightning talk janhoy
First oslo solr community meetup lightning talk janhoy
 
Welcome to Ukraine - SunCity Travel LLC
Welcome to Ukraine - SunCity Travel LLCWelcome to Ukraine - SunCity Travel LLC
Welcome to Ukraine - SunCity Travel LLC
 
Resume 2009 Compatible V2 1
Resume 2009 Compatible V2 1 Resume 2009 Compatible V2 1
Resume 2009 Compatible V2 1
 

Similar a Dagens Næringslivs overgang til Lucene/Solr søk

Apache solr i finn.no
Apache solr i finn.noApache solr i finn.no
Apache solr i finn.noFINN.no
 
Introduksjon til Asterisk
Introduksjon til AsteriskIntroduksjon til Asterisk
Introduksjon til Asteriskmagg
 
Asterisk i kundesenteret
Asterisk i kundesenteretAsterisk i kundesenteret
Asterisk i kundesenteretmagg
 
Kart på FINN.no - Fra CGI til slippy map
Kart på FINN.no - Fra CGI til slippy mapKart på FINN.no - Fra CGI til slippy map
Kart på FINN.no - Fra CGI til slippy mapHenning Spjelkavik
 
Flexible, scalable self-service provisioning using Office PnP
Flexible, scalable self-service provisioning using Office PnPFlexible, scalable self-service provisioning using Office PnP
Flexible, scalable self-service provisioning using Office PnPOle Kristian Mørch-Storstein
 
Formatet ingen hindring bruk av fme
Formatet ingen hindring bruk av fmeFormatet ingen hindring bruk av fme
Formatet ingen hindring bruk av fmeGeodata AS
 
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...Geir Børdalen
 
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016ArcGIS Server og FME som duo i dokumentproduksjon - BK2016
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016Geodata AS
 
Presentation Mapreduce Bjornnordlund
Presentation Mapreduce BjornnordlundPresentation Mapreduce Bjornnordlund
Presentation Mapreduce BjornnordlundBjørn Nordlund
 

Similar a Dagens Næringslivs overgang til Lucene/Solr søk (10)

Apache solr i finn.no
Apache solr i finn.noApache solr i finn.no
Apache solr i finn.no
 
Introduksjon til Asterisk
Introduksjon til AsteriskIntroduksjon til Asterisk
Introduksjon til Asterisk
 
Asterisk i kundesenteret
Asterisk i kundesenteretAsterisk i kundesenteret
Asterisk i kundesenteret
 
Kart på FINN.no - Fra CGI til slippy map
Kart på FINN.no - Fra CGI til slippy mapKart på FINN.no - Fra CGI til slippy map
Kart på FINN.no - Fra CGI til slippy map
 
Flexible, scalable self-service provisioning using Office PnP
Flexible, scalable self-service provisioning using Office PnPFlexible, scalable self-service provisioning using Office PnP
Flexible, scalable self-service provisioning using Office PnP
 
Formatet ingen hindring bruk av fme
Formatet ingen hindring bruk av fmeFormatet ingen hindring bruk av fme
Formatet ingen hindring bruk av fme
 
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...
Fra dyp it-infrastruktur til dypt vann (eng: From deep IT-infrastructure to d...
 
CV Geir Pettersen NO
CV  Geir Pettersen NOCV  Geir Pettersen NO
CV Geir Pettersen NO
 
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016ArcGIS Server og FME som duo i dokumentproduksjon - BK2016
ArcGIS Server og FME som duo i dokumentproduksjon - BK2016
 
Presentation Mapreduce Bjornnordlund
Presentation Mapreduce BjornnordlundPresentation Mapreduce Bjornnordlund
Presentation Mapreduce Bjornnordlund
 

Más de Cominvent AS

Solr's missing plugin ecosystem
Solr's missing plugin ecosystemSolr's missing plugin ecosystem
Solr's missing plugin ecosystemCominvent AS
 
Scaling search with Solr Cloud
Scaling search with Solr CloudScaling search with Solr Cloud
Scaling search with Solr CloudCominvent AS
 
Improving the Solr Update Chain
Improving the Solr Update ChainImproving the Solr Update Chain
Improving the Solr Update ChainCominvent AS
 
Key topics when migrating from FAST to Solr, EuroCon 2010
Key topics when migrating from FAST to Solr, EuroCon 2010Key topics when migrating from FAST to Solr, EuroCon 2010
Key topics when migrating from FAST to Solr, EuroCon 2010Cominvent AS
 
Oslo Enterprise MeetUp May 12th 2010 - Jan Høydahl
Oslo Enterprise MeetUp May 12th 2010 - Jan HøydahlOslo Enterprise MeetUp May 12th 2010 - Jan Høydahl
Oslo Enterprise MeetUp May 12th 2010 - Jan HøydahlCominvent AS
 
Frokostseminar mai 2010 solr open source cominvent as
Frokostseminar mai 2010 solr open source cominvent asFrokostseminar mai 2010 solr open source cominvent as
Frokostseminar mai 2010 solr open source cominvent asCominvent AS
 
Migrating Fast to Solr
Migrating Fast to SolrMigrating Fast to Solr
Migrating Fast to SolrCominvent AS
 
Cominvent AS company Presentation
Cominvent AS company PresentationCominvent AS company Presentation
Cominvent AS company PresentationCominvent AS
 

Más de Cominvent AS (8)

Solr's missing plugin ecosystem
Solr's missing plugin ecosystemSolr's missing plugin ecosystem
Solr's missing plugin ecosystem
 
Scaling search with Solr Cloud
Scaling search with Solr CloudScaling search with Solr Cloud
Scaling search with Solr Cloud
 
Improving the Solr Update Chain
Improving the Solr Update ChainImproving the Solr Update Chain
Improving the Solr Update Chain
 
Key topics when migrating from FAST to Solr, EuroCon 2010
Key topics when migrating from FAST to Solr, EuroCon 2010Key topics when migrating from FAST to Solr, EuroCon 2010
Key topics when migrating from FAST to Solr, EuroCon 2010
 
Oslo Enterprise MeetUp May 12th 2010 - Jan Høydahl
Oslo Enterprise MeetUp May 12th 2010 - Jan HøydahlOslo Enterprise MeetUp May 12th 2010 - Jan Høydahl
Oslo Enterprise MeetUp May 12th 2010 - Jan Høydahl
 
Frokostseminar mai 2010 solr open source cominvent as
Frokostseminar mai 2010 solr open source cominvent asFrokostseminar mai 2010 solr open source cominvent as
Frokostseminar mai 2010 solr open source cominvent as
 
Migrating Fast to Solr
Migrating Fast to SolrMigrating Fast to Solr
Migrating Fast to Solr
 
Cominvent AS company Presentation
Cominvent AS company PresentationCominvent AS company Presentation
Cominvent AS company Presentation
 

Dagens Næringslivs overgang til Lucene/Solr søk

  • 1. Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl
  • 3. Jan Høydahl 1995: Utvikler telecom 1998: Java-utvikler 2000: Søk - FAST 2006: Lucene 2007: new Cominvent() 2009: Lucene/Solr Ca 100 prosjekter
  • 4. Virksomhetskritisk søk Lucene/Solr og FAST Domenekunnskap & beste praksis! Konsulent Kurs Support (www.solrkurs.no)
  • 5. Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
  • 6. Bakgrunn for prosjektet Stort antall artikler både på papir og nett FAST ESP som plattform for søk fra 2006 Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvare Da FAST ble kjøpt opp måtte hele løsningen vurderes Endte opp med å gå for Solr Brakte inn Jan som konsulent
  • 8. Søkemotor ABC Søk er ikke database Optimalisert for fritekst søk Men god på AND/OR søk X Kommersielle: Open Source: Bruksområder: +++
  • 10. Open Source søk - etterspurt??
  • 11. Prosjektet Søke-mellomvare Nytt presentasjonslag for søk Utfordringer FAST ut -- Solr inn Optimalisering/tuning
  • 13. Etter overgang til Solr Multi cores
  • 14. Utfordringer FAST er en søke-plattform, Solr er rent søk Prosessering av kildedata Språkstøtte Entiteter (personer, steder, firmaer)
  • 15. FAST - Solr forskjeller En indeks, delt inn Flere indekser (cores), hver med collections med sitt eget skjema Lemmatisering: Stemming: bil, biler, bilene => bil bil, biler, bilene => bil billig, billigere => billig billig => bil billigere => billiger Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
  • 16. Etter overgang til Solr Multi cores
  • 17. Tuning for nyhetssøk Hva er viktigste faktor for nyhets-søk? Ferskvare ! umiddelbar indeksering dato-boost i søk Solr Function Query recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5 )^4000.0
  • 18. Funksjoner for de fleste behov... literal() scale() sin() pi() fieldvalue() query() cos() e() ord() linear() tan() docfreq() rord() recip() asin() termfreq() sum() max() acos() idf() sub() min() atan() tf() product() ms() sinh() norm() div() rad() cosh() maxdoc() pow() deg() tanh() numdocs() abs() sqrt() ceil() dist() log() cbrt() floor() sqedist() sqrt() ln() rint() hsin() map() exp() pow() geohash() strdist() top() hypo() atan2()
  • 19. Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur, separate kjerner og skjemaer Tjent mye på felles søkemellomvare og presentasjonslag Gode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd