Information Retrieval Modelle: Probabilistische...

Information Retrieval Modelle:Probabilistische Modelle

KursfolienKursfolien

Karin Haenelt

6.11.2010mit Korrekturen vom 1.11.2014

Inhalt

� Probabilistische Retrievalmodelle� Binary Independence Retrieval Model (BIR)

� Beispiel� Theorie und Definitionen� Retrievalstatuswert eines Dokuments (RSV)

� Retrievalstatuswert eines Dokuments (RSV)� Termgewichtungsfunktion RobertsonSparckJones (RSV)

� Okapi� probabilistisches Retrievalsystem� Termgewichtungsfunktionen BM1, BM11, BM15, BM25

� Synopse: Vektormodell und probabilistisches Modell� Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

2© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Probabilistische Retrievalmodelle

� Ziel� Schätzung der Wahrscheinlichkeit, dass ein Dokument dm

für eine Anfrage qk relevant ist� Erster Ansatz: Maron und Kuhns (1960)� Das klassische probabilistische Retrievalmodell ist das

Binary Independence Retrieval (BIR) Modell(Robertson/Sparck Jones, 1976)� Dokumentvektoren mit binären Werten

(Term kommt vor, kommt nicht vor)� Annahme der Unabhängigkeit der einzelnen Terme

� Weiterentwicklungen: Einbeziehung der Termfrequenzen

Inhalt

� Beispiel� Theorie und Definitionen

� Retrievalstatuswert eines Dokuments (RSV)� Termgewichtungsfunktion

Binary Independence Retrieval ModelDarstellungen

� Originalartikel� Stephen E. Robertson und Karen Spärck Jones (1976).

Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdfhttp://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

� Beschreibungen� Reginald Ferber (2003). Information Retrieval. Suchmodelle und

Data-Mining-Verfahren für Textsammlungen und das Web.Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html

� Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003. http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf

Binary Independence Retrieval ModelBeispiel: Aussortieren unerwünschter Werbe-Mails Lösungsschritte

1. Relevance Feedback� eine Person markiert E-Mails in einem Lerncorpus

� relevante Mails und� nicht-relevante Mails ( = unerwünschte Werbe-Mails)

2. Gewichtungsfunktion als Lernaufgabe (Lerncorpus)� das System berechnet Termgewichte für die einzelnen

Terme je nach ihrer Verteilung in relevanten und nicht-relevanten Mails

3. Klassifikation (Anwendungscorpus)� das System berechnet die Wahrscheinlichkeit der Relevanz

neuer E-Mails auf der Basis der Termgewichte

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback

t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5 R

R Relevanz-Angaben

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli

Angaben

reli relevante Dokumente mit Term inreli nicht-relevante Dokumente

mit Term i

rel relevante Dokumentenrel nicht-relevante Dokumente

Ferber, 1998:120

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (1)

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5 R

3 1 3 9 3 3Term-Gewicht

relrel

nrelnrel

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

Ferber, 1998:120

t1 ti R.Feedback1 …d1

1 …d2

0 …d3

0 …d4

0 …d5 )1(

relnrelnrel

−Formel fürTermgewichtnachR

Berechnung des Termgewichts für Term t1

0 …d5

0 …d6

1 …d7

0 …d8

2 … rel=4reli1 … nrel=4nreli

relrel

nrelnrel

)1(rel

nrel ii −

Einsetzender WerteausRelevanceFeedback

nachprobabilist.Modell

Term-Gewicht© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation

t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09

0 1 0 1 0 0 log(1)+log(9)=0.95d10

1 0 1 1 1 1 4∗log(3)+log(9)=2.86d11

Neue E-Mails und ihr Retrievalstatuswert

0 0 1 0 1 0 log(3)+log(3)=0.95d12

3 1 3 9 3 3Term-Gewicht Ferber, 1998:121

Berechnete Termgewichte

Inhalt

Binary Independence Retrieval ModelTheorie (1)

� Das Modell ist formal hergeleitet nach Prinzipien der Wahrscheinlichkeitstheorie

� Die Theorie beschreibt, wie� Vorkommenswahrscheinlichkeiten einzelner Terme in

relevanten und nicht-relevanten Dokumentenrelevanten und nicht-relevanten Dokumenten� zu einer Gesamtschätzung der Relevanz eines Dokuments

(Retrievalstatuswert eines Dokuments – RSV)kombiniert werden

Robertson/Sparck Jones, 1976

� Vorkommenswahrscheinlichkeiten der Terme und dasVerfahren der Relevanzschätzung eines Dokuments bilden eine theoretische Einheit: Termgewichtung und Ähnlichkeitsfunktion� sind gemeinsam im Rahmen der Wahrscheinlichkeitstheorie

bestimmtbestimmt� können nicht unabhängig voneinander gewählt werden

Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

� sie können in einer Funktion implementiert werden� sie lassen sich aus praktischen Gründen der Systemmodularität

zerlegen in � eine Termgewichtungsfunktion wti

� eine Ähnlichkeitsfunktion sim(d ,q )� eine Ähnlichkeitsfunktion sim(dm,qk)� wobei sim(dm,qk) den Retrievalstatuswert eines Dokuments (RSV)

unter Verwendung der Termgewichte wti berechnet - sim(dm,qk) = RSV

Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence ModelDefinition

� wi,m ∈ {0,1} Variablen der Index-Term-

� wi,k ∈ {0,1} Gewichtung sind binär

� T = {t1,..,tx} Menge der Index-Terme

}� x Anzahl der Index-Terme im System

� X = {1,...,x} Menge d. Kennungen der I-Terme

� Query-Vektor

� Dokument-Vektor

),...,,( ,,2,1 kxkk wwwq =),...,,( ,,2,1 mxmmm wwwd =

Binary Independence ModelDefinition

� R Menge der relevanten Dokumente(bekannt oder anfangs geschätzt !!!)

� R Komplementmenge zu RMenge der nicht-relevanten Dokumente

� P(R|q ,d ) Wahrscheinlichkeit der Relevanz, wenn� P(R|qk,dm) Wahrscheinlichkeit der Relevanz, wenneine Anfrage qk und ein Dokument dmgegeben sind

� P(R|qk,dm) Wahrscheinlichkeit der Irrelevanz, wenn eine Anfrage qk und ein Dokument dmgegeben sind

Inhalt

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim (dm,qk) (1)

� Ziel: Schätzung der Wahrscheinlichkeit, dass� ein spezifisches Dokument dm für

Ziel Bestimmung von P(R|qk,dm)

� eine Anfrage qk (genauer: für eine Suchsituation si mit einerAnfrage qk, also eine Instanz einerAnfrage qk)

Relevanz (R) hat� Grundannahme„Cluster-Hypothese“

� Terme sind in relevanten und nicht relevanten Dokumenten unterschiedlich verteilt

� um P(R|qk,dm) zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbestimmungen vorliegen

(1) Einsetzung von Dokumentrepräsentationen

� kaum realistisch� daher Berechnung nicht für einzelne Dokumente, sondern für

Termmengen (i.e. Dokumentvektoren)

),|( mk dqRP[1]

(2) Umformung nach Bayes-Regeln

(a) P(A|B) = P(A∩B)/P(B)(b) P(A∩B) = P(A)⋅P(B|A) = P(B)⋅P(A|B)

)(),|(

dqRPdqRP

∩∩∩=

)|()(),|(

mkqdPqP

qRdPqRPdqRP

⋅∩⋅∩=

P(A|B) = P(A∩B)/P(B)

P(A∩B) = P(A)⋅P(B|A)

Ferber, 1998

(2) Umformung nach Bayes-Regeln

(a) P(A|B) = P(A∩B)/P(B)(b) P(A∩B) = P(A)⋅P(B|A) = P(B)⋅P(A|B)

)|()|()(),|(

kmkkmk

qRdPqRPqPdqRP

⋅∩⋅⋅=

)|()|(),|(

qRdPqRPdqRP

∩⋅=

Ferber, 1998

(3) Quote (Odds) statt Wahrscheinlichkeiten

Weitere Darstellungsmöglichkeit für die Chance, dass ein Ereignis auftritt:

)()()(

YPYPYO ==

Quote (Odds) eines Ereignisses

O(Y) < 1 für Wahrscheinlichkeiten < 0.5O(Y) > 1 für Wahrscheinlichkeiten > 0.5

Liefert dieselbe Rangreihe für Ereignisse wieWahrscheinlichkeit; erlaubt z.T. einfacheres Rechnen

Ferber, 1998

(3) Quote (Odds) statt Wahrscheinlichkeiten

[3.1])|(

)|()|(

),|(),|(

qRPqRdP

dqRPdqRO

⋅∩

==[2.4]

Ferber, 1998

)|()|(),|(),|(

qRPqRdPdqkRPdqRO

⋅∩==

)|(),|(

mkqRdP

qRPdqRO

∩∩⋅=

(4) Annahme der Unabhängigkeit der Terme

Sind A und B unabhängig, so giltP(A∩B) = P(A)⋅P(B)

(Diese Annahme über Dokumente ist sehr vereinfachend)

∩ ⋅

Ferber, 1998

)|(),|(

mkqRdP

qRPdqRO

∩∩⋅=

⋅≈x

kimkmk

qRwPqROdqRO

1 ),|(

),|()|(),|(

Auf der Basisder Annahme derUnabhängigkeit der Terme wird die Wahrscheinlichkeitdes Dokumentvektorsdargestellt durch dasProdukt der Wahrscheinlichkeitender Einzelterme

(5) Aufspaltung des Produkts nach dem Vorkommen der Terme

∏ ==⋅ kim

)|(),|( kmk qROdqRO ≈

ti ∈d ∈q

Ferber, 1998

∏∩∈∈ =

⋅dqtXi kimi qRwP| ),|1(

∏∈∈ =

=⋅dqtXi kim

i qRwP

\| ),|0(

∏∉∈ =∨=

=∨=⋅qtXi kimim

i qRwwP

| ),|10(

),|10( +/- -

(6) Weitere vereinfachende Annahme

Es wird - nicht immer zutreffend - angenommen,dass alle Terme, die nicht in der Anfrage auftreten, mit derselben Wahrscheinlichkeit in relevanten und irrelevanten Dokumenten auftreten

[5] dritter Faktor

Ferber, 1998

auftreten

),|(),|(\ qRwPqRwPgiltqTtfür imimi =∈

∏∉∈

==∨==∨=

qtXi kimim

i qRwwP

1),|10(

),|10(d.h.

(6) Weitere vereinfachende Annahme

So ergibt sich folgende vereinfachte Formel

[6])|(),|( kmk qROdqRO ≈

Ferber, 1998

)|(),|( kmk qROdqRO ≈

∏∩∈∈ =

=⋅dqtXi kim

i qRwP

| ),|1(

∏∈∈ =

=⋅dqtXi kim

i qRwP

\| ),|0(

(7) Komplementäre Umformung der Wahrscheinlichkeit

1)()( =+ APAP),|1(1),|0( kimkim qRwPqRwP =−==

= qRwP ),|1(

Ferber, 1998

∏∩∈∈ =

=⋅≈dqtXi kim

kimkmk

i qRwP

qRwPqROdqRO

| ),|1(

),|1()|(),|(

∏∈∈ =−

=−⋅dqtXi kim

i qRwP

\| ),|1(1

),|1(1

(8) Vereinfachung der Schreibweise

),|1( kimi qRwPr == ),|1( kimi qRwPn ==

Ferber, 1998

∏∩∈∈

⋅≈dqtXi i

rqROdqRO

)|(),|(

∏∈∈ −

−⋅dqtXi i

∏ −⋅−⋅ ii nr )1()1(

(9) Herausarbeitung der dokumentabhängigen Faktoren

[9.1] )|(),|( kmk qROdqRO ≈

∏ −⋅ ir1∏⋅ ri

[8] multipliziert mit 11

∏∩∈∈ −⋅−

−⋅−⋅dqtXi ii

| )1()1(

)1()1(

Ferber, 1998

∏∈∈ −

−⋅dqtXi i

1∏∩∈∈

⋅dqtXi i ni

∏∏∈∈∩∈∈ −

−⋅−⋅−⋅⋅≈

qtXi i

dqtXi ii

nrqROdqRO

)1()|(),|(

Geeignete Aufspaltung des Faktors

(10) Ausblendung der nicht dokument-abhängigen Faktoren

∏∏ −−⋅ iii rnr 1)1(

nur die Faktoren, die für die Rangfolge der Dokumente relevantsind, werden weiter betrachtet

Ferber, 1998

∏∏∈∈∩∈∈ −

−⋅−⋅−⋅⋅≈

qtXi i

dqtXi ii

nrqROdqRO

)1()|(),|(

∏∩∈∈ −⋅

−⋅dqtXi ii

(11) Anwendung eines Logarithmus

- zur logarithmischen Skalierung der Ergebnisse- zur Vermeidung mehrfacher Rundungsfehler auf dem Rechner

∏ −⋅ ii nr )1(

Ferber, 1998

[10] ∏∩∈∈ −⋅

−⋅dqtXi ii

)1(log(log

)1(log

dqtXi i

ii i −−+=

−⋅−⋅

∑∑∩∈∈∩∈∈

Retrievalstatuswert eines Dokuments (retrieval status value)

RSV =[11]

Inhalt

Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (1)

� Um aus Formel [11] den Retrievalstatuswert eines Dokuments berechnen zu können, werden die Parameter der Summanden riund ni gebraucht� Term i im relevanten Dokument� Term i im nicht-relevanten Dokument

),|1( kimi qRwPr ==),|1( qRwPn ==� Term i im nicht-relevanten Dokument

� Zwei Vorgehensweisen: Parameterschätzung durch� interaktives Relevance Feedback� automatische rekursive Verfeinerung im Suchprozess

),|1( kimi qRwPn ==

Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (2)

� im Unterschied zum Booleschen Modell und zum Vektormodell werden probabilistische Termgewichte� nicht anfrage-unabhängig auf der Dokumentbasis bestimmt� sondern anfragespezifisch berechnet

� nach der Relevanz der Dokumente für eine Anfrage� auf der Basis der Verteilung in relevanten und nicht-

relevanten Dokumenten� jede Anfrage ist ein Anfrage-Ereignis: stellen verschiedene

Leute dieselbe Anfrage, so sind verschiedene Relevanzbeurteilungen der Dokumente möglich(in der Praxis werden allerdings auch Mittelwerte über die Beurteilungen der Anfrage-Ereignisse gebildet)

� Basis der Parameterschätzung• Es wurden bereits Dokumente ausgewählt• Benutzende unterteilen Dokumente in „relevant“ und „nicht-

relevant“

Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (1)

� Beobachtungsbasis

� rel Anzahl der als relevant beurteilten Dokumente

reli Anzahl der relevanten Dokumente mit Term tinrel Anzahl der nicht-relevanten Dokumente

nrel Anzahl der nicht-relevanten Dokumente

nreli Anzahl der nicht-relevanten Dokumente mit Term ti

� Schätzwerte

relrqRwP

iikim ≈== ),|1(

nrelnqRwP

iikim ≈== ),|1(

Ferber, 1998

Einsetzung der Schätzwerte in Formel [11]

∑ −⋅−⋅ ii

)1(log

Retrievalstatuswert eines Dokuments

Termgewicht

wti =)1(

logrelnrel

rel ii −[11]

∑∩∈∈ −⋅dqtXi ii irn| )1(

logRSV = wti =

)1(log

nrel ii −

∑∩∈∈ −

dqtXi ii

nrelnrel

)1(logRSV =

Retrievalstatuswert eines Dokuments

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5 R

R Relevanz-Angaben

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

Angaben

reli relevante Dokumente mit Term inreli nicht-relevante Dokumente mit Term i

rel relevante Dokumentenrel nicht-relevante Dokumente

Ferber, 1998:120

t1 ti R.Feedback1 …d1

1 …d2

0 …d3

0 …d4

0 …d5 )1(

relnrelnrel

−Formel fürTermgewichtnachR

Berechnung des Termgewichts für Term t1

0 …d5

0 …d6

1 …d7

0 …d8

2 … rel=4reli1 … nrel=4nreli

relrel

nrelnrel

)1(rel

nrel ii −

Einsetzender WerteausRelevanceFeedback

nachprobabilist.Modell

Term-Gewicht© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation

t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09

0 1 0 1 0 0 log(1)+log(9)=0.95d10

1 0 1 1 1 1 4∗log(3)+log(9)=2.86d11

Neue E-Mails und ihr Retrievalstatuswert

0 0 1 0 1 0 log(3)+log(3)=0.95d12

3 1 3 9 3 3Term-Gewicht Ferber, 1998:121

Berechnete Termgewichte

Prinzip

Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess

� AnfangsschätzungN Gesamtzahl der Dokumente im

Systemti Indextermni Anzahl der Dokumente, in denen

Term ti vorkommt

5.0)|( =RtP i

ii =)|(

� Rekursion� Ranking auf der Basis der Schätzung der Termgewichte� Verwendung eines Schwellenwertes� Annahme der Relevanz für alle Dokumente deren RSV über

dem Schwellenwert liegt� Ermittlung der Termverteilungen in den Dokumenten und

Erzeugung neuer Termgewichte

Term ti vorkommtNRtP i =)|(

Baeza-Yates/Ribeiro-Neto, 1999,33

Formeln für die rekursive Verfeinerung

� Annahme (a)P(ti|R,q) kann an Hand der Verteilung der Index-Terme

ti in den bisher ausgewählten Dokumenten approximiert werden reliapproximiert werden

� Annahme (b) P(ti|-R,q) kann unter der Annahme approximiert werden,

dass alle nicht ausgewählten Dokumente nicht relevant sind

Baeza-Yates/Ribeiro-Neto, 1999,33

relqRtP

iki ≈),|(

relnqRtP

−−≈),|(

� Die Formeln bereiten Probleme bei kleinen Werten von rel und reli (z.B. rel = 1 und reli = 0)

Parameterkorrektur

relnqRtP

ii −≈),|(rel

qRtPi≈),|(

� Korrekturwerte

relnqRtP

−−≈),|(

relqRtP

iki ≈),|(

5.0),|(

relqRtP

5.0),|(

+−+−≈

relnqRtP

Inhalt

OkapiBedeutung

� probabilistisches Retrievalsystem� probabilistische Termgewichtungsfunktionen

� für binäre Dokumentvektoren� BM1 (Best Match)� theoretische Fundierung: Robertson/Sparck Jones, 1976

� Erweiterung: Parameter für Dokumentlänge und Termfrequenz in Anfrage und Dokument� BM11, BM15, BM25 (auch kollektiv als Familie von

Gewichtungsfunktionen Okapi BM25 genannt)� theoretische Fundierung: Robertson/Walker, 1994� BM25F Robertson/Zaragoza/Taylor, 2004

OkapiHistorie

� Okapi� 1982-1988: ursprünglich eine Familie bibliographischer

Retrievalsysteme, entwickelt unter Förderung der British Library an der Polytechnic of Central London (heute: University ofWestminster)Westminster)

� 1992-1997: City University, London� 1998 ff: weitergeführt von Microsoft Research Laboratory in

Cambridge und eingebunden in die Keenbow-Evaluierungsumgebung für Retrievalsysteme (Robertson, Walker, 2000)

� neue Experimente mit neuen Systemen (z.B. Indizes mit paralleler Architektur) und mehreren Gewichtungsfunktionen (z.B. BM25, BM25F; PageRank) (Craswell, Fetterly, Najork, Robertson, Yilmaz, 2009)

OkapiSuchtechniken

� Gewichtung von Suchtermen� Match-Funktion: Übereinstimmungswert eines Dokuments ist

die Summe der Gewichtung der zwischen der Suchanfrage und Dokument übereinstimmenden Terme

� Relevance Feedback� Relevance Feedback� Query Expansion

Robertson, Walker, Hancock-Beaulieu, Gull, Lau, 1992

Inhalt

Okapi-GewichtungsfunktionenNotation

N Anzahl der Dokumente in der Kollektion

n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz)

R Anzahl der relevanten Dokumente für ein Thema

r Anzahl der relevanten Dokumente mit einem bestimmten Term

tf Vorkommenshäufigkeit eines Terms in einem Dokument

qtf Vorkommenshäufigkeit eines Terms in einer Query

dl Dokumentlänge (beliebige Einheiten)

avdl durchschnittliche Dokumentlänge

BMxx Best-match-Gewichtungsfunktion

ki, b Konstanten

� Formel von Robertson / Sparck Jones (1976)

Okapi-GewichtungsfunktionenBasis: Robertson/Sparck Jones-Formel

RSJ)5.0)(5.0(

)5.0)(5.0(log

+−+−++−−+=

rRnNrw RSJ

Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)

)5.0)(5.0( +−+− rRrni

� Formel der Experimente für TREC-1 ist die Robertson-SparckJones-Formel (RSJ) ohne Relevanzangaben, d.h.(R = r = 0)

� in dieser Form entspricht die Formel der inversen Kollektionsgewichtung (idf)

Okapi-GewichtungsfunktionenBM1 / IDF

Kollektionsgewichtung (idf)

Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)

)5.0(log

++−=

nNw IDF

entspricht der AnnahmeP(t|relevant)=0.5

Okapi-GewichtungsfunktionenBM25 Motivation

� Binary Independence Model ursprünglich für Katalogeinträge und abstracts gleicher Länge entwickelt

� Modell für freie Volltext-Kollektionen sollte berücksichtigen� Termfrequenz� Dokumentlänge� Anfrage-Länge (Anfrage kann ein Beispieldokument sein)

� BM 25 Okapi-Gewichtung� theoretische Fundierung entwickelt von Stephen E.

Robertson und S. Walker (1994)� benannt nach dem System Okapi, in dem es erstmals

verwendet wurde

Okapi-GewichtungsfunktionenBM25

BMi qtfk

tfavdl

++−⋅

+⋅=3

125 )1(

)))1((

- Grundform- allgemeinere Formen z.B. ohne qtf) - speziellere Varianten (z.B. BM11, BM15)

tf Termfrequenz im Dokument

qtf Termfrequenz in der Themenformulierung, die der Anfrage zu

Grunde liegt

dl Dokumentlänge (ist geeignet festzusetzen)

avdl durchschnittliche Dokumentlänge (ist geeignet festzusetzen)

k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus

Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)

BMi qtfk

tfdlnfk

+⋅+⋅=

125 )1()1(

Grunde liegt

dlnf Dokumentlängennormierungsfaktor

Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)

BMi qtfk

tfdlnfk

+⋅+⋅=

125 )1()1(

einfache Gewichtungs-Funktion (RSJ oder IDF)

Dokumentterm-frequenz-Faktor

Anfrageterm-frequenz-Faktor

Grunde liegt

dlnf Dokumentlängennormierungsfaktor

Robertson/Walker (2000), Sparck Jones/Roberston/Walker (1998)

Dokumentlängen-Normierungs-Faktor

Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor

� Robertson/Walker (1994) entwickeln eine komplexe Formel, die auf Überlegungen zu folgenden Eigenschaften beruht� Verteilung 1: für jedes Thema gilt: es gibt Dokumente, die

das Thema behandeln, und solche, die es nicht behandeln� Verteilung 2: für jeden Term gilt: er kann in einem Dokument � Verteilung 2: für jeden Term gilt: er kann in einem Dokument

mit dem Thema, das mit dem Term assoziiert wird, vorkommen oder nicht

� Verteilung 1 und Verteilung 2 sind beides Poisson-Verteilungen

� Eliteness eines Terms: Term steht in Zusammenhang mit dem mit dem Term assoziierten Thema ( oder )

E ESparck Jones/Roberston/Walker (1998)

� Die Formel ist komplex� algebraisch und� bezüglich Interpretation und Abschätzung

� Robertson/Walker (1994) untersuchen das Verhalten der Formel und schlagen eine einfachere Formel mit einem ähnlichen Verhalten vor

iRSJitf tfk

i ++⋅=

Sparck Jones/Roberston/Walker (1998)

� Eigenschaften� ist 0 bei Termfrequenz = 0� wächst monoton mit tfi� hat eine asymptotische Grenze (d.h. zusätzliche Vorkommen

iRSJitf tfk

i ++⋅=

von t erhöhen das Gewicht, aber es gibt ein Limit des Erhöhungswertes)

� k1: Modellierungsparameter zur Anpassung an Corpora� bestimmt, wie sehr das Gewicht wtfi auf eine Erhöhung von tfi

reagiert� mit k=0 ist wtfi identisch mit wi (einfache Termpräsenz)� TREC-Erfahrung: Werte zwischen 1.2 und 2 sind effektiv

Sparck Jones/Roberston/Walker (1998)

Okapi-GewichtungsfunktionenBM25 Dokumentlängennormierungsfaktor

� Annahme:� Wortreichtum entsteht eher durch erweiterte Ausführungen

als durch Wiederholungen von Aussagen� sollte also nicht einfach wegdividiert werden

dl� einfache Version berücksichtigt Annahme nicht

� erweiterte Version� mit b = 1 ergibt sich einfache Version� Werte b < 1 reduzieren den

Dokumentlängennormierungsfaktor� TREC-Erfahrungen: ein Wert b = 0.75 ist gut

dldlnf =

))1((avdl

dlbbdlnf +−=

Sparck Jones/Robertson/Walker (1998)

RSJidnlftf tfdnlfk

wwi +⋅

+⋅=+

+⋅=−

1 )1()1(

BMi qtfk

tfavdl

++−⋅

+⋅=3

125 )1(

)))1((

BM25F berücksichtigt zusätzlich die Stelle des Vorkommens (Feld)(Titel, 1. Satz, …)

Inhalt

Synopse: Vektormodell und probabilistisches Modell Anfrage q Termgewicht w Dokument d Vektormodell Dokumentterme werden nach

Corpuseigenschaften gewichtet, repräsentieren Dokument

wqj ∈ {0,1}

⊗ wdj ∈ ℝ+

wqj ∈ ℝ+

probabilist. Modell

Dokumentterme werden nach Relevanzeigenschaften bezüglich einer Anfrage gewichtet repräsentieren Query

Dok.Freq. ggf. in BM berücksichtigt

wqj ∈ {0,1} oder wqj ∈ ℝ+

RSVqj ∈ ℝ+, BM ∈ ℝ

⊗ wdj ∈ {0,1}

SynopseVektormodell und probabilistisches Modell

� probabilistische Termgewichtungsschemata können auch im Vektormodell verwendet werden

� Verknüpfung der Vektoren ⊗

� im Vektormodell: verschiedene Möglichkeiten der Vektorähnlichkeit� im probabilistischen Modell: festgelegt durch die Theorie � im probabilistischen Modell: festgelegt durch die Theorie

(Wahrscheinlichkeit mehrerer Ereignisse – hier: Termvorkommen)� nicht-logarithmische Form: Skalarprodukt� logarithmische Form: Summe

� probabilistische Gewichtung und Verknüpfung der Query- und Dokument-Vektoren durch Skalarprodukt ergibt im Wesentlichen den Retrieval-Status-Wert des probabilistischen Modells

SynopseVektormodell und probabilistisches Modell

� Vorteil des probabilistischen Modells gegenüber dem Vektormodell:� Bestimmung der Rangfolge von Dokumenten ohne den Umweg

über ad-hoc-Termgewichtungen

� Ziele der Einführung von Termgewichtungen� Ziele der Einführung von Termgewichtungen� Einsparung eines relevance-feedback-Verfahrens

Probabilistisches ModellAnwendungsbeispiele

� Browsing1. Relevance Feedback: für Beispiel-Dokumente für ein

Themengebiet2. Erlernen der Term-Gewichtungen für das Relevanz-

anzeigende Vokabular des Themengebietesanzeigende Vokabular des Themengebietes3. Klassifikation: Suche ähnlicher Dokumente

� multilinguales Retrieval1. Relevance Feedback: für Dokumente in mehreren

Sprachen2. Erlernen der Term-Gewichtungen erfolgt ohne besondere

Verfahren multilingual3. Klassifikation: erfolgt sprachübergreifend

Vergleich der klassischen Information RetrievalModelle

� Boolesches Modell� Schwächste Methode� Keine partiellen Übereinstimmungen

� • Vektormodell� offenbar beste Ergebnisse für allgemeine Dokumentsammlungen� offenbar beste Ergebnisse für allgemeine Dokumentsammlungen� Wachsende Popularität in Internetsuchmaschinen

� Probabilistisches Modell� Gute Ergebnisse für spezifische Dokumentsammlungen� mit Relevanz-Feedback:

� Bestimmung einer Rangfolge von Dokumenten ohne Umweg über ad-hoc Termgewichtungen

� Trainingscorpus und Relevanz-Meldungen erforderlich

vgl. (Baeza-Yates/Ribeiro-Neto, 1999,34)

Inhalt

Anhang 1Binary Independence ModelErgänzende Betrachtungen aus dem Originalartikel

� Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

� Ergänzungen unter den Aspekten� informelle Darstellung� formale Ableitung� Formel RSJ F4 (= BM1)als Grundlage eines besseren Verständnisses verschiedener

Darstellungen und Weiterentwicklungen

� informelle Darstellung im Originalartikel von Robertson/SparckJones 1976� eine Kontingenztabelle zeigt die vier Möglichkeiten der

Termverteilung in relevanten und nicht-relevanten Dokumenten

Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung

Dokumenten� aus dieser Tabelle leiten sich vier Varianten für

Termgewichtungsformeln ab� Überlegungen zu Termunabhägigkeiten und

Dokumentordnungsprinzipien führen zur Entscheidung für die vierte Variante (RSJ F4)

Kontingenztabelle der Dokumentverteilung für t

Document Relevance + - Document Indexing

+ reli nreli reli+nreli - rel-rel nrel-nrel rel-rel +nrel-nrel

+ r n-r n - R-r N-n-R+r N-n

Notation Robertson/Sparck Jones Notation Ferber

Indexing - rel-reli nrel-nreli rel-reli+nrel-nreli rel nrel rel+nrel

Indexing - R-r N-n-R+r N-n R N-R N

rel+nrel

reli nreli

rel-reli nrel-nreli

reli+nreli

rel-reli +nrel-nreli

R-r N-n-R+r

N Anzahl Dokumenten Anzahl Dokumente mit Term tR Anzahl relevanter Dokumenter Anzahl relevanter Dokumente

mit Term t

+ r n-r n - R-r N-n-R+r N-n

R N-R N

Kontingenztabelle und abgeleitete Termgewichtungsformelnr n-r n R-r N-n-R+r N-n R N-R N

r n-r n

R N-R N

r n-r n R-r N-n-R+r N-n R N-R N

r n-r n R-r N-n-R+r N-n R N-R N r n-r n R-r N-n-R+r N-n R N-R N

Überlegungen zu Termunabhängigkeiten

favorisierte VarianteRSJ F4

� formale Ableitung im Originalartikel von Robertson/SparckJones 1976� die Ableitung für Formel RSJ F4 nach der

Wahrscheinlichkeitstheorie wurde in der mit Beispielen und Zwischenschritten aufbereiteten Darstellung von Ferber auf

Anhang 1Binary Independence ModelErgänzende Betrachtungen: formale Ableitung

Zwischenschritten aufbereiteten Darstellung von Ferber auf den vorderen Folien gezeigt

� Formel RSJ F4� Robertson/Sparck Jones (1976) führen in die Formel

Korrekturwerte ein� um Schätzwerte für neue Dokumente etwas zu

modulieren

Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel

modulieren� um Nullwerte in den Brüchen zu vermeiden

� bis auf die Korrekturwerte sind die Formel RSJ F4 und Ferbers Formel äquivalent

Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel

−−

relnrelnrel

rel ii −

5.05.0

+−+−

RSJ F4 1976 RSJ F4ohne Korrekturwerte

Ferber, 1993

rRnNrn

+−−−

243823

+−−−

)1(rel

nrel ii −5.0

5.0++−−

+−rRnN

Beispiel

Literatur

� Ricardo Baeza-Yates und Berthier Ribeiro-Neto (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited

� Nick Craswell, Dennis Fetterly, Marc Najork, Stephen Robertson, Emine Yilmaz (2009). Microsoft Research at TREC 2009. Web and Relevance Feedback Tracks. In Proceedings of the 18th Text REtrival Conference (TREC-18). http://trec.nist.gov/pubs/trec18/papers/microsoft.WEB.RF.pdf

� Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für � Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.htmlfrühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99

� Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003.

http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf

� Norbert Fuhr und Chris Buckley (1991). A Probabilistic Learning Approach for DocumentIndexing. In: ACM Transactions on Information Systems, 9, 3, 1991, S. 223-248.

� M.E. Maron, J.L. Kuhns (1960). On relevance, probabilistic indexing and informationretrieval. Journal of the ACM, 7, 216-244.

Literatur

� Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

� Stephen E. Robertson und Stephen Walker (2000). Okapi/Keenbow at TREC-8. In Proceedings of the 8th Text REtrival Conference (TREC-8), Gaithersburg, Maryland, USA: NIST Special Publication, pp. 151–161. http://trec.nist.gov/pubs/trec8/papers/okapi.pdf

� Stephen E. Robertson, Stephen Walker (1994).� Stephen E. Robertson, Stephen Walker (1994).Some simple effective approximations to the 2-Poisoon model for probabilistic weighted retrieval. In: Croft, W. B. und van Rijsbergen C.J. (eds.): Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin 1994. Springer-Verlag. S. 232-241. http://www.soi.city.ac.uk/~ser/papers/robertson_walker_sigir94.pdf

� Stephen E. Robertson, Stephen Walker, S. Jones, Micheline Hancock-Beaulieu, M. Gatford(1994).Okapi at TREC-3. In: Proceedings of the Third Text Retrieval Conference (TREC-3), S. 103ff, http://trec.nist.gov/pubs/trec3/papers/city.ps.gz

Literatur

� Stephen E. Robertson, Stephen Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992).Okapi at TREC. In: Proceedings of the First Text Retrieval Conference (TREC-1), S. 21 ff, http://trec.nist.gov/pubs/trec1/papers/02.txt

� Stephen E. Robertson, Hugo Zaragoza (2009). The Probabilistic Relevance Framework BM 25 and Beyound. In: Foundations and Trends in Information Retrieval. Vol 3, No 4, 333-389. http://www.soi.city.ac.uk/~ser/papers/foundations_bm25_review.pdf

� Stephen E. Robertson, Hugo Zaragoza, Michael Taylor (2004). Simple bm25 extension to multiple weighted fields. In Thirteenth Conference on Information and Knowledge Management (CIKM), 2004. fields. In Thirteenth Conference on Information and Knowledge Management (CIKM), 2004. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.5255

� Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (2000) .A probabilistic model of information retrieval: Development and comparative experiments. IP&M 36 (6): 779-808, 809-840.

� Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (1998) .A probabilistic model of information retrieval: Development and Status. TR 446, Computer Laboratory, University of Cambridge (via http://www.cl.cam.ac.uk/)..

� C.T. Yu und G. Salton (1976). Precision Weighting. An effective automatic indexing method. Journal of theACM, 23: 76-88, Juni 1976

Copyright

In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.

� Please quote correctly.� If you use the presentation or parts of it for educational and scientific purposes, please include the

bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).� please add a bibliographic reference to copies and quotations� Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are

copied� Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Probabilisitische Modell. Kursfolien.

16.3.2010 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_ProbabV2.0.pdf

� graphics, texts or other objects which have not been created by me are marked as quotations� For commercial use: In case you are interested in commercial use please contact the author.� • Court of Jurisdiction is Darmstadt, Germany

� Versionen 2.1: 6.11.2010, 2.0: 16.3.2010, 1.2:18.10.2008, 1.1: 25.10.2006, 1.0: 26.10.2001

Information Retrieval Modelle: Probabilistische...

Documents

Transcript of Information Retrieval Modelle: Probabilistische...

Week 9: Probabilistische Grammatica's

1 Transduktoren für die Sprachverarbeitung Karin Haenelt 16.5.2010.

Ähnlichkeitsmaße für Vektorenkontext.fraunhofer.de/haenelt/kurs/folien/Haenelt... · Ähnlichkeitsmaße für Vektoren Bestimmung geben für jeweils zwei Vektoren einen numerischen

Probabilistische Methoden für Nordseedeiche faculteit/Afdelingen... · Probabilistische Methoden für Nordseedeiche Vom Fachbereich Bauingenieurwesen der Technischen Universität

Datenschutz und Privatheit in vernetzten InformationssystemenEinführung in die Kryptographie Symmetrische Verschlüsselung Asymmetrische Verschlüsselung Probabilistische Verschlüsselung

Probabilistische Ansatze in der Assoziationsanalyse¨ · Probabilistische Ansatze in der Assoziationsanalyse¨ Habilitationsvortrag Dr. Michael Hahsler Institut fur Informationswirtschaft¨

Information Modelling with a Semantic MediaWiki.kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_SemWikiModelling.pdf · Karin Haenelt, December 2008 8 Wiki, MediaWiki and Semantic

Evaluierung von Information Retrieval Systemen Teil 2: TREC – Million Query Track Karin Haenelt 4.12.2011.

Goethe - Universität, Frankfurt/Main 312 Grenzproduktivitäts- und Verteilungstheorie Bei Gütern haben wir zunächst die Nachfragefunktion hergeleitet, wobei.

1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt 5.7.2010.

1 Transduktoren für die Sprachverarbeitung: Komposition zweier Transduktoren Karin Haenelt 28.5.2010.

Non-Standard-Datenbanken Probabilistische Datenbanken Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme.

1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

1 Ähnlichkeitsmaße für Vektoren Karin Haenelt 25.10.2012.

1 Hidden Markov Models (HMM) Karin Haenelt 16.5.2009.

4. Nicht-Probabilistische Retrievalmodelle · 4. Nicht-ProbabilistischeRetrievalmodelle 12 BooleschesRetrieval Beispiel-Recherche “Thesideeﬀectsofdrugsonmemoryorcognitiveabilities,not

Industrieroboter - Vorwärtskoordina · PDF fileDenavit-Hartenberg-Transformation erklärt und die Transformationsmatrizen werden auch hergeleitet. Als Hinleitung zu diesem Thema werden

Informationsextraktionssystem ANNIE - …kontext.fraunhofer.de/haenelt/kurs/Referate/Berger_ReferatANNIE.pdf · Einf uhrung: Informationsextraktion GATE ANNIE Literatur Informationsextraktionssystem

Automatisierte Probabilistische (Süd-)föhnvorhersage · Automatisierte Probabilistische (Süd-)föhnvorhersage mittels statistischem Postprocessing Reto Stauffer und Georg J. Mayr

Information Modelling with a Semantic MediaWiki. - Karin Haenelt