Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.
-
Upload
diethelm-muri -
Category
Documents
-
view
112 -
download
3
Transcript of Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.
![Page 1: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/1.jpg)
PraxisteilSeminar „experimentelle Evaluierung in IR“
WS05/06Gruppe A
![Page 2: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/2.jpg)
Experimental setup
• Collections: TREC-123, wt10g• Index: BM25 und TFIDF• Queries:
- Topics 51-100 aus trec123.topics
(für den ersten Teil)
- Topics 736083,... Aus wt10g.topics.1000
(100 aus 1000 Topics für den zweiten Teil)
![Page 3: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/3.jpg)
Aufgabenstellung Experiment (1)
DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1
Experiment (2) DTF vs. DTF max. 10 DLs
c=0.5 vs. c=1 P0=1
![Page 4: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/4.jpg)
Vorgehensweise• Indexierung
• Resource description
• Kostenberechnung
• Resource selection
![Page 5: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/5.jpg)
Vorgehensweise• Indexierung
eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern
![Page 6: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/6.jpg)
Vorgehensweise• Indexierung (cont.)• Show tables from exp_a like ‚ap88%‘;
| ap88_8c_text_stemen_bm25_dl || ap88_8c_text_stemen_bm25_docid || ap88_8c_text_stemen_bm25_expectation || ap88_8c_text_stemen_bm25_idb_rd || ap88_8c_text_stemen_bm25_rd || ap88_8c_text_stemen_bm25_tf || ap88_8c_text_stemen_bm25_tmp1 || ap88_8c_text_stemen_bm25_variance || ap88_8c_text_stemen_bm25_weight || ap88_8c_text_stemen_tfidf_df || ap88_8c_text_stemen_tfidf_dl || ap88_8c_text_stemen_tfidf_docid || ap88_8c_text_stemen_tfidf_expectation || ap88_8c_text_stemen_tfidf_idb_rd || ap88_8c_text_stemen_tfidf_maxTF || ap88_8c_text_stemen_tfidf_rd || ap88_8c_text_stemen_tfidf_tf || ap88_8c_text_stemen_tfidf_tmp1 || ap88_8c_text_stemen_tfidf_variance || ap88_8c_text_stemen_tfidf_weight |+-------------------------------------------------------------+
![Page 7: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/7.jpg)
Vorgehensweise• Resource description
![Page 8: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/8.jpg)
Vorgehensweise
• Resource selection
![Page 9: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/9.jpg)
Vorgehensweise• Resource selection
ResourceSelection{
GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]}
ResourceSelection{
GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]}
...
![Page 10: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/10.jpg)
Vorgehensweise
• Resource selection (Durchlaufen von 100 Topics):Relevanzurteile: (DTF5, bm25)
051 0 AP880212-0020 1 0.999999999999978 1
051 0 AP880212-0093 1 0.673631123919296 1
051 0 AP880212-0120 1 0.655220742817087 1
052 0 AP880212-0060 1 1.0 1
052 0 AP880212-0009 1 0.970960077124136 1
052 0 AP880212-0056 1 0.438141643714791 1
052 0 AP880212-0019 1 0.400958727204647 1
…
![Page 11: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/11.jpg)
BM25 vs. TFIDF• BM25
- Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen,
die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind.
• TF-IDF
- TF: Term Frequency
- IDF: Inverse Document Frequency log(N/DF)
N: Gesamtzahl der Dokumente der Kollektion
DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt
![Page 12: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/12.jpg)
BM25 vs. TFIDF (cont.)
• BM25
• TFIDF
)(
||log
)(5.15.0),(
),(:),(
tdf
DL
avgdl
ddldttf
tdtftdw
5.0log)(
5.0log
),(max
),(:),(
N
tdf
N
tdtf
tdtftdw
dt
![Page 13: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/13.jpg)
Trec_eval (Bsp.)• Queryid (Num): 100• Total number of documents over all queries• Retrieved: 29157• Relevant: 48365• Rel_ret: 2030• Interpolated Recall - Precision Averages:• at 0.00 0.3369• at 0.10 0.0481• at 0.20 0.0120• at 0.30 0.0022• at 0.40 0.0000• at 0.50 0.0000• at 0.60 0.0000• at 0.70 0.0000• at 0.80 0.0000• at 0.90 0.0000• at 1.00 0.0000• Average precision (non-interpolated) for all rel docs(averaged over queries)• 0.0142• Precision:• At 5 docs: 0.1580• At 10 docs: 0.1460• At 15 docs: 0.1493• At 20 docs: 0.1525• At 30 docs: 0.1450• At 100 docs: 0.1095• At 200 docs: 0.0836• At 500 docs: 0.0406• At 1000 docs: 0.0203• R-Precision (precision after R (= num_rel for a query) docs retrieved):• Exact: 0.0480
![Page 14: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/14.jpg)
Ergebnisse
![Page 15: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/15.jpg)
DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on n
DTF
DTF5
DTF10
Evaluation: fixed number of selected DLs (BM25)
![Page 16: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/16.jpg)
Evaluation: fixed number of selected DLs (BM25)
Precision DTF DTF5 DTF10
At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85%
At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08%
At 15 docs: 0,212 0,00% 0,1933 -8,82% 0,2213 4,39%
At 20 docs: 0,219 0,00% 0,18 -17,81% 0,205 -6,39%
At 30 docs: 0,212 0,00% 0,161 -24,06% 0,1873 -11,65%
At 100 docs: 0,144 0,00% 0,0838 -41,81% 0,1158 -19,58%
At 200 docs: 0,1065 0,00% 0,053 -50,23% 0,076 -28,64%
At 500 docs: 0,0498 0,00% 0,0234 -53,01% 0,0351 -29,52%
At 1000 docs: 0,0249 0,00% 0,0117 -53,01% 0,0175 -29,72%
Average Precision 0,02 0,00% 0,0103 -48,50% 0,014 -30,00%
R Precision 0,0575 0,00% 0,0284 -50,61% 0,0419 -27,13%
DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)
![Page 17: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/17.jpg)
Evaluation: fixed number of selected DLs (BM25)
-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%
1
2
3
4
5
6
7
8
9
DTF
DTF10
DTF5
![Page 18: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/18.jpg)
DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on n
DTF
DTF5
DTF10
![Page 19: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/19.jpg)
Evaluation: fixed number of selected DLs (TFIDF)
Precision DTF DTF5 DTF10
At 5 docs: 0,158 0,00% 0,168 6,33% 0,156 -1,27%
At 10 docs: 0,146 0,00% 0,142 -2,74% 0,155 6,16%
At 15 docs: 0,1493 0,00% 0,1313 -12,06% 0,146 -2,21%
At 20 docs: 0,1525 0,00% 0,121 -20,66% 0,136 -10,82%
At 30 docs: 0,145 0,00% 0,108 -25,52% 0,125 -13,79%
At 100 docs: 0,1095 0,00% 0,0622 -43,20% 0,0799 -27,03%
At 200 docs: 0,0836 0,00% 0,037 -55,74% 0,0527 -36,96%
At 500 docs: 0,0406 0,00% 0,0153 -62,32% 0,0216 -46,80%
At 1000 docs: 0,0203 0,00% 0,0077 -62,07% 0,0108 -46,80%
Average Precision 0,0142 0,00% 0,0063 -55,63% 0,0082 -42,25%
R Precision 0,048 0,00% 0,0189 -60,63% 0,028 -41,67%
![Page 20: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/20.jpg)
Evaluation: fixed number of selected DLs (TFIDF)
-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%
1
2
3
4
5
6
7
8
9
DTF
DTF10
DTF5
![Page 21: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/21.jpg)
Ergebnisse (BM25 vs. TFIDF)
Run
Number of retrieved relevant
documents
Average Precision
R Precision
BM25, DTF2489 out of
291760.0200 0.0575
TFIDF, DTF2030 out of
291570.0142 0.0480
BM25, DTF101754 out of
289390.0140 0.0419
TFIDF, DTF101081 out of
198840.0082 0.0280
BM25, DTF51172 out of
287690.0103 0.0284
TFIDF, DTF5767 out of
192180.0063 0.0189
![Page 22: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/22.jpg)
Parameterauswahl
• Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen.
• Die Veränderung von c führt aber zur Änderung der Retrievalqualität.
Run
Number of retrieved relevant
documents
Average Precision
R Precision
TFIDF, DTF10
c = 0.5 1081 out of
198840.0082 0.0280
TFIDF, DTF10
c = 11434 out of
288710.0104 0.0348
![Page 23: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/23.jpg)
Experiment Teil2
• Fast gleicher Code für Retrieval• Unterschiedliche Topics• Änderung von Operator
(plain statt stemen_bm25 oder stemen_tfidf)• Größere Kollektionsmenge
![Page 24: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/24.jpg)
Probleme• (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic
Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die
ArrayIndexOutOfBoundsException aus.Lösung: Erst Indexierung, um die Datenbanken zu erzeugen.
• (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei.
Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt.
Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit
anderem Namen auswählen.
![Page 25: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/25.jpg)
Probleme (cont.)
• (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert.Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt,
so dass Resource Description nicht richtig funktioniert hat.Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“
ersetzen
• (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert...Grund: Das hat irgendwie mit Speicher von Heap zu tun...Lösung: ?
![Page 26: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/26.jpg)
Zusammenfassung• DTF:
- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs
- bessere Ergebnisse – ohne Beschränkung auf die
Anzahl der zu selektierenden DLs• Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse
geliefert werden.• Die Recall-Precision Funktion p0 hat keinen Einfluss auf die
Retrievalergebnisse.• Eine Erhöhung von der linearen mapping Funktion c führt
aber zur Verbesserung der Retrievalqualität.• Wie kann man die Ergebnisse noch verbessern?
-> Relevance Feedback, DTF-cori
![Page 27: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.](https://reader036.fdocuments.net/reader036/viewer/2022062417/55204d6349795902118b8fd4/html5/thumbnails/27.jpg)
Vielen Dank für die Aufmerksamkeit!