Dagens Næringslivs overgang til Lucene/Solr søk
-
Upload
cominvent-as -
Category
Business
-
view
2.126 -
download
1
description
Transcript of Dagens Næringslivs overgang til Lucene/Solr søk
Oppgradert søk på m.fl
Hans Jørgen HoelJan Høydahl
Hans Jørgen Hoel
Jan Høydahl
1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter
Virksomhetskritisk søkLucene/Solr og FAST
Domenekunnskap & beste praksis!
Konsulent Kurs(www.solrkurs.no)
Support
Agenda
Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A
Bakgrunn for prosjektet
Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent
Arkitektur før prosjektet
Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk
Kommersielle:
Open Source:
Bruksområder:
Søkemotor ABC
X
+++
Apache Solr
Open Source søk - etterspurt??
Prosjektet
Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning
Arkitektur før prosjektet
Etter overgang til Solr
Multicores
Utfordringer
FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)
FAST - Solr forskjeller
En indeks, delt inn med collections
Flere indekser (cores), hver med sitt eget skjema
Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig
Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger
Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
Etter overgang til Solr
Multicores
Tuning for nyhetssøk
Hva er viktigste faktor for nyhets-søk?Ferskvare !
umiddelbar indekseringdato-boost i søkSolr Function Query
recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0
Funksjoner for de fleste behov...
literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()
scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()
sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()
pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()
Oppsummering / gevinster
Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd