To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric...

46
to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

Transcript of To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric...

Page 1: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

to retrieve or not to retrieve, that's the question

retrieval van wetenschappelijke informatie

eric sieverts

Page 2: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

• wat er gebeurt in retrieval-land• nieuwe technieken• klassieke technieken• wat wel en niet wordt toegepast• de problematiek van grote bibliotheken• oplossingen?

to retrieve or not to retrieve, that's the question

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

Page 3: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

wat er gebeurt in retrieval-land

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• dankzij het web is information retrieval in beweging • veel van de nieuwe ontwikkelingen zijn practische

toepassing van oude ideeën• vooral gericht op niet-gestructureerde informatie,

zoals web-pagina’s en tekstdocumenten• meer gericht op betere precisie dan op betere recall,

omdat Google uit 2,5 miljard moet kunnen selecteren• deel van “onze” gebruikers hecht ook wel degelijk

aan recall

Page 4: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in de titel, vooraan,

in koppen / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink verwijzingen,

gebruiks-/bezoek-frequentie)

Page 5: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 6: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)

• belang van termen in document (term-positie - in titel, vooraan, in

koppen - / relatieve termfrequentie - tfidf)

• gewenste term-relatie (term-afstand en -volgorde)

• probabilistische termgewichten (zeldzame termen belangrijker)

• populariteit=kwaliteit van document (aantal hyperlink

verwijzingen, gebruiks-/bezoek-frequentie)wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?

Page 7: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren

• al verkregen zoekresultaat clusteren in betekenissen / contexten• uit al verkregen zoekresultaat afleiden van suggesties voor

termen om te preciseren / in te perken

Page 8: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

custom search folders

Page 9: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 10: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 11: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 12: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 13: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk

Page 14: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten(nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag

(ook : query-by-example / more-like-this)

Page 15: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek

woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes

Page 16: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere precisie

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)

voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant

aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek• opgebouwde gebruikersprofielen

relevance feedback, monitoren zoekgedrag, ingebracht interesseprofielbut how about privacy ?

Page 17: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woordenin document en in query:

computer, computers, computing, computation, … comput

community, communism, communication, ………. commun ??

Page 18: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken

morfologie morphologieduivendak duijvendak, duitenzak, ...kok kop, kak, …

Page 19: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan semantisch netwerk

(of aan thesaurus, of aan ontologie?)

Page 20: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

visualisatievan “wordnet”

Page 21: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 22: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat

eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten

Page 23: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 24: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 25: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 26: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

toegepaste technieken betere recall

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen

ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen

afgeleid uit documenten in zoekresultaat • suggesties voor (meer) correcte spelling van zoekterm

Page 27: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 28: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

klassieke technieken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• gebruik maken van structuur van documentenklassiek: velden,

nieuw: xml-elementen,

nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies)

• gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken

Page 29: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

wat wel en niet wordt toegepast

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

waar

wat

bibliografische databases

full-text artikelen

het web

nieuwe vrijwel niet beperkt vrij veel

klassieke vaak wel beperkt vrijwel niet

Page 30: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

Page 31: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 32: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

Page 33: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 34: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit

Page 35: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

de problematiek van grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases

in Utrecht bijna 6000 digitale tijdschriften

• bijna alle bronnen met eigen zoekinterface en functionaliteit• veel interfaces met uitgebreide / complexe functionaliteit

(is dat wel allemaal ergonomisch verantwoord?)

Page 36: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 37: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface(one-stop-shopping)

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 38: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

indexer

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

Page 39: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

muscat / verity / autonomy / ...

internet

document text files

central index

searchintegrated system:local central index solution

indexing-rules fortargets

full-text links

document text files

Page 40: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 41: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 42: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

internet

searchintegrated system:metasearch /portal solution

index

files

search

query-generator / result-collector

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

Page 43: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

internet

searchintegrated system:metasearch /portal solution

index

files

search

metalib / iPort / zPortal / muse / ...

index

search

index

search

index index index

Z39.50

Z39.50 Z39.50

internal api

http http xml

Z39.50 http

configurationdata fortargets

search search search

files

files files files files

Page 44: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Page 45: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

huidige oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang via uniform eenvoudig interface

centrale index- eigen keuze geavanceerde zoek-

machine / retrieval software - vaak nog probleem met indexeren

van extern opgeslagen data- problemen met niet-uniforme

gecontroleerde ontsluiting

meta-search / portal- extern en lokaal beschikbare

retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)

- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies

- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

Page 46: To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

oplossingen voor grote bibliotheken

Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

• geïntegreerde toegang (one-stop-shopping principe)

• via uniform eenvoudig interface (als "Google")

• met geavanceerde retrieval-techniek

• met behoud van gebruik van gecontroleerde ontsluiting

wel al

soms wel

nauwelijks

vrijwel niet