Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des...
Transcript of Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des...
![Page 1: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/1.jpg)
Datenbank-Recherche
SS 2014 2. Veranstaltung – 10. April 2014
Philipp Mayr - [email protected]
Philipp Schaer - [email protected]
GESIS – Leibniz-Institut für Sozialwissenschaften
![Page 2: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/2.jpg)
Vorstellung Philipp Schaer
• 2000 – 2005: Studium der Informatik an der Universität Koblenz (Diplom)
• 2006 – 2013: Wissenschaftlicher Mitarbeiter
– Universität Koblenz: AG Software-Ergonomie und Information Retrieval
– Informationszentrum Sozialwissenschaften, Forschung und Entwicklung: Software-Entwicklung für das Open-Access-Repository SSOAR
– GESIS Köln, Wissenstechnologien für die Sozialwissenschaften: Forschungsprojekte IRM I & II – Retrieval in digitalen Bibliotheken
• 2013: Promotion in Informatik an der Uni Koblenz Schwerpunkte: Information Retrieval, digitale Bibliotheken und Informetrie
• Seit 2013: PostDoc und Teamleiter Knowledge Discovery
2
![Page 3: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/3.jpg)
Alle Materialien unter http://www.schaer.de/recherche-2014
Aktualisiert: Terminplanung im SS 2014 Termin Veranstaltung (VL) Termin Veranstaltung (VL)
3.4. Einführung, Überblick, Formalia 12.6. Zusammenfassung, Wiederholung
10.4. Grundlagen des boolschen Retrieval 25.6. Klausur
17.4. Grundlagen Datenbanken, Begrifflichkeiten, Fachdatenbanken: pubmed, sowiport…
24.4. Suchwerkzeuge (Thesauri und Klassifikationen etc.)
8.5.
Suchstrategien, Berry-Picking, Footnote-Chasing (Bates) etc.
22.5
Methoden und Techniken des IR, Rankingmethoden, TF-IDF
5.6. Relevanz, Relevanzeinschätzung
3
![Page 4: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/4.jpg)
Wiederholung 1. Veranstaltung
• Vorstellung
• Organisatorisches – Beachten Sie die aktualisierte Terminplanung
• Einführung in die Thematik der Vorlesung – Verständnis der Recherche-Problematik
– Praktische Kenntnisse in der Recherche-Fähigkeit
– Allgemeine Informationskompetenz
• Erste praktische Übung (Hausaufgaben) – Käsekuchen und Plagiatsverdacht
4
![Page 5: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/5.jpg)
Themen der heutigen Veranstaltung
• Boolesche Anfragen und das Boolesche Retrievalmodell
• Beispielsysteme
• Beispielanfragen
• Term-Dokument-Matrizen
• Vor- und Nachteile des Booleschen Modells
5
Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln, England; † 8. Dezember 1864 in Ballintemple, in der Grafschaft Cork, Irland) war ein englischer Mathematiker (Autodidakt), Logiker und Philosoph.
![Page 6: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/6.jpg)
Boolesche Retrievalmodell und Anfragen
• Das Boolesche Retrievalmodell kann alle Anfragen auflösen, die sich als ein Boolescher Ausdruck formulieren lassen. – Es erlaubt den Einsatz der Operatoren UND, ODER sowie NICHT um
einzelne Anfrageterme zu verknüpfen.
– Jedes Dokument ist in diesem Modell eine Menge von Termen (bag of words), die keiner besonderen Ordnung folgen.
– Es ist sehr präzise: Ein Dokument passt zur Anfrage oder nicht!
• Im professionellen Einsatz seit mehr als 40 Jahren und immer noch sehr beliebt. – Man weiß, was man bekommt – Nachvollziehbarkeit des Ergebnisses.
• Viele Suchsysteme basieren auf dem Booleschen Modell...
6
![Page 7: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/7.jpg)
7
![Page 8: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/8.jpg)
8
![Page 9: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/9.jpg)
9
![Page 10: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/10.jpg)
Unstrukturierte Daten im Jahr 1680
• Welches Stück von Shakespeare enthält die Wörter Brutus UND Caesar aber NICHT Calpurnia?
• Ein naiver Versuch: Wir durchsuchen alle Texte, die Shakespeare geschrieben hat nach den Wörtern Brutus und Caesar, danach werden alle Zeilen mit dem Wort Calpurnia gelöscht.
• Warum ist das (aus technischer Sicht) keine gute Idee? – Langsam (für große Textkorpora)
– NICHT Calpurnia ist nicht trivial
– Andere Operationen (z.B., finde das Wort Romans nahe countrymen) nicht möglich
– Kein geranktes Ergebnis (das oder die „passendste“ Dokumente finden, kommt in einer späteren Vorlesung)
10
![Page 11: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/11.jpg)
Antony
and Cleopatra
Julius Caesar
The Tempest
Hamlet Othello Macbeth
Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1
Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0
mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0
Term-Dokument-Matrix
1 wenn Dokument
das Wort enthält,
ansonsten 0
Brutus UND Caesar ABER
NICHT Calpurnia
![Page 12: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/12.jpg)
Einschub: Boolesche Algebra
• Die boolesche Algebra hat nur die zwei Elemente 0 und 1.
• Es sind die folgenden Verknüpfungen definiert:
– Konjunktion (∧) bzw. „und“,
– Disjunktion (∨) bzw. „oder“ und
– Negation (¬) bzw. „nicht.
• Klammerungen für Gruppierungen sind erlaubt.
Konjunktion Disjunktion Negation
12
∧ 0 1
0 0 0
1 0 1
∨ 0 1
0 0 1
1 1 1
¬
0 1
1 0
![Page 13: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/13.jpg)
Boolesche Operatoren I
13
![Page 14: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/14.jpg)
Boolesche Operatoren II
14
![Page 15: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/15.jpg)
Boolesche Operatoren III
15
![Page 16: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/16.jpg)
Der Lösungsweg: Rechnen mit Term-Vektoren
• Für jeden Term (Brutus, etc.) gibt es einen 0/1-Vektor (Zeile in der Term-Dokument-Matrix): – 1: der Term kommt in dem Stück vor,
– 0: der Term kommt nicht in dem Stück vor.
• Um die Frage zu beantworten: Nehme die drei Vektoren für – Brutus (110100),
– Caesar (110111) und
– Calpurnia (010000 101111, invertiert)
• Verknüpfe alle Vektoren mittels UND (∧).
110100 UND 110111 UND 101111 = 100100.
16
![Page 17: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/17.jpg)
Was sagt uns dieser Vektor?
• 110100 UND 110111 UND 101111 = 100100.
17
Antony and
Cleopatra
Julius Caesar
The Tempest
Hamlet Othello Macbeth
Brutus 1 1 0 1 0 0
Caesar 1 1 0 1 1 1
Calpurnia (invertiert)
1 0 1 1 1 1
Ergebnis 1 0 0 1 0 0
![Page 18: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/18.jpg)
Die Antwort auf die Anfrage
• Antony and Cleopatra, Akt III, Szene ii Textstelle:
Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus,
When Antony found Julius Caesar dead,
He cried almost to roaring; and he wept
When at Philippi he found Brutus slain.
• Hamlet, Akt III, Szene ii Textstelle
Lord Polonius: I did enact Julius Caesar I was killed i' the
Capitol; Brutus killed me.
18
![Page 19: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/19.jpg)
Vor- und Nachteile des Booleschen Modells I
• Kerneigenschaft: Präzise Anfragen sind möglich – Dokumente passen zur Anfrage oder nicht!
• Daher gut für Experten geeignet, die – das zugrundeliegende Modell verstehen und anwenden können,
– die verwendete Dokumentenbasis (den Korpus) kennen und
– die wissen, was sie wollen!
• Gut für (Computer-)Systeme, die einfach tausende von Ergebnissen verarbeiten können.
19
![Page 20: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/20.jpg)
Vor- und Nachteile des Booleschen Modells II
• Nicht für die Mehrheit der Nutzer geeignet!
• Viele Nutzer sind nicht in der Lage mit Booleschen Anfragen zu arbeiten – viele syntaktische Fehler,
– verstehen das Modell nicht,
– können ihr Informationsbedürfnis nicht in Anfragesprache übersetzen...
• Das fehlende Ranking der Ergebnisse ist für normale Anwender nicht praxistauglich, da sie nicht Hunderte von Ergebnissen auswerten möchten.
• Dies gilt insbesondere im Bereich der Web-Suche.
20
![Page 21: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/21.jpg)
Feast or Famine
• Boolesche Anfragen liefern oft zu wenige (=0) oder zu viele Ergebnisse (1000+).
• Anfrage 1: „standard user dlink 650“
– 200.000 Treffer Feast
• Anfrage 2: „standard user dlink 650 no card found“ – 0 Treffer Famine
• Beim Booleschen Retrievalmodell benötigt es eine Menge Kenntnis und Übung eine Anfrage zu formulieren, die eine überschaubare Anzahl an Ergebnissen hervorbringt!
21
![Page 22: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/22.jpg)
Von Feast or Famine zum Ranked Retrieval
• Große Ergebnismengen sind mit Ranked Retrieval kein Problem mehr.
• Ranked Retrieval erlaubt es z.B. nur die Top 10 Ergebnisse zu betrachten und so den Nutzer zu entlasten.
• Voraussetzung ist ein Ranking-Algorithmus, der relevantere Ergebnisse vor weniger relevantere Ergebnisse sortiert.
22
![Page 23: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/23.jpg)
Erweitertes Boolesches Modell
• In der Praxis wird ein Ranking durch einfache Sortierungen umgesetzt: – Chronologische Sortierung (neuste Ergebnisse zuerst),
– Alphabetische Sortierung (z.B. der Autorennamen).
• Es sind aber auch Gewichtungen möglich z.B. Häufigkeit der Anfrageterme im Dokument: Häufiges Auftreten von Anfragetermen im Dokument ist ein Zeichen für Relevanz.
• Allerdings handelt es sich hierbei um Sortierungen, kein wirkliches Ranking (dass eine Bewertung der Relevanz voraussetzt).
23
![Page 24: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/24.jpg)
Zusammenfassung Boolesches Retrieval
• Einfache boolesche/binäre Entscheidungen (vorhanden / nicht vorhanden).
• Vorteile: – Simple Anfragen sind leicht zu verstehen
– Relativ leicht zu implementieren (Term-Dokument-Matrix)
• Nachteile: – Schwierig, genaue Anfragen zu spezifizieren
– Zu viel / zu wenig (Feast or Famine)
– Sortierung, aber nicht Ranking
• Meistgenutzte IR-Modell bis zum Durchbruch des Web.
24
![Page 25: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/25.jpg)
Fragen
…?
25
![Page 26: Datenbank-Recherche - Philipp Schaer · • Term-Dokument-Matrizen • Vor- und Nachteile des Booleschen Modells 5 Was die Wikipedia sagt: George Boole (* 2. November 1815 in Lincoln,](https://reader033.fdocuments.net/reader033/viewer/2022052611/5cf4400e88c993f3308b4c07/html5/thumbnails/26.jpg)
Kontakt
• Dr. Philipp Mayr Tel: + 49 (0) 221 / 47694-533 [email protected]
• Dr. Philipp Schaer Tel: + 49 (0) 221 / 47694-521 [email protected]
• Maria Zens Tel: + 49 (0) 221 / 47694-236 [email protected]
http://www.schaer.de/teaching/recherche-2014
26