HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund...
-
Upload
susanne-eckard -
Category
Documents
-
view
108 -
download
0
Transcript of HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund...
![Page 1: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/1.jpg)
HyREX: Eine Hypermedia-Retrievalengine für XML-
Dokumente
Norbert Fuhr
Universität Dortmund
![Page 2: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/2.jpg)
Inhalt
I. XQuery vs. Information Retrieval
II. IR-Konzepte für XML
III. XIRQL
IV. HyREX-Retrievalengine
V. Zusammenfassung und Ausblick
![Page 3: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/3.jpg)
I. XQuery vs. Information Retrieval
XQuery: Vorschlag der W3C-Arbeitsgruppe für XML-Anfragesprachen
FOR/LET PathExpression
WHERE AdditionalSelectionCriteria
RETURN ResultConstruction
![Page 4: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/4.jpg)
Daten- vs. Dokument-orientierte Sicht
Daten-orientierte Sicht
XML als Austauschformat für strukturierte Daten
Dokumenten-orientierte Sicht
XML als Format zur Repräsentation der logischen Struktur von Dokumenten
XQuery fokussiert auf Daten-orientierte Sicht!
![Page 5: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/5.jpg)
IR-Konzepte in XQuery
Nur boolesches Retrieval keine Gewichtung keine Rangordnungen
Bislang nur Funktionen zur Suche nach einzelnen Wörtern
![Page 6: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/6.jpg)
II. IR-Konzepte für XML
1. Gewichtung und Ranking
2. Relevanz-orientierte Suche
3. Datentypen mit vagen Prädikaten
4. Struktureller Relativismus
![Page 7: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/7.jpg)
1. Gewichtung und RankingProblem: Gewichtung unterschiedlicher Vorkommensformen von
Termen
/document[.//heading "XML" .//section//* "XML"] document
Introduction
chapter
heading This. . .
heading
SyntaxExamples
headingXML Query Language XQL
section
We describesyntax of XQL
chapter
heading section
![Page 8: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/8.jpg)
Indexknoten als Einheiten zur Termgewichtung
1. Zerlegung des Dokumentes in disjunkte Teile
2. Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
![Page 9: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/9.jpg)
Indexknoten als Einheiten zur Termgewichtung
document
class="H.3.3"
author title
chapter
heading This. . .
heading
0.4 XML
heading
sectionheading
0.6 XML
section
chapter
/document[.//heading "XML" .//section//* "XML"]
0.6 XML 0.4 XML
0.6 XML 0.4 XML 0.4+0.6-0.4*0.6 = 0.76
![Page 10: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/10.jpg)
2. Relevanz-orientierte Suchefür Anfragen unabhängig von der Dokumentstruktur
(z.B.: “Suche Dokument(teil)e über XML-Anfragesprachen”)
Einschränkung der möglichen Antworten
(nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die
Anfrage beantwortet
aber: Verrechnung mit gewichteter Indexierung?
Lösung:
Indexknoten als Wurzeln von möglichen Antworten
Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten
![Page 11: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/11.jpg)
Indexknoten für Relevanz-orientierte Suche
1 2 3
4 5
document
class="H.3.3"
author
John Smith
title
XML Retrieval Introduction
chapter
heading This. . .
heading
SyntaxExamples
heading
sectionheading
XML Query
Lang. XQL
section
We describesyntax of
XQL
chapter
![Page 12: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/12.jpg)
Augmentierung
0.5 example 0.8 XQL0.7 syntax
section1 section2
0.3 XQL
chapter
0.30 example0.42 syntax
0.64
Beispielanfrage: syntax & example
0.6 0.6
0.126
![Page 13: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/13.jpg)
Augmentierung
0.5 example 0.8 XQL0.7 syntax
section1 section2
0.3 XQL
chapter
0.30 example0.42 syntax
0.64
Beispielanfrage: XQL
0.6 0.6
0.64
0.8
![Page 14: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/14.jpg)
3. Datentypen mit vagen Prädikaten
XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen
Ausnutzung des Markups für präzisere Suchen
gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval
Datentypen mit vagen Prädikaten
``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war''
Ernst Olbrich, Darmstadt, 1899
(Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht
(Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)
![Page 15: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/15.jpg)
Erweiterbare Typhierarchie
Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp
1. text: substring-Match
2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche
3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita
Datentypen der XML-Elemente werden in XML-Schema definiert
![Page 16: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/16.jpg)
4. Struktureller Relativismus
Unterscheidung Element/Attribut fallenlassen:
~author="Smith"
Suche in allen Elementen eines bestimmten Datentyps:
#date=2001
![Page 17: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/17.jpg)
III. XIRQL
Erweiterung der Path Expressions von XQuery:
probabilistisches Retrieval mit gewichteter Dokumentindexierung
Relevanz-orientierte Suche
Datentypen mit vagen Prädikaten
Struktureller Relativismus
XML IR Query Language
![Page 18: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/18.jpg)
XIRQL-Path-Expressions
Vage Prädikate
//text $c-word$ “compute”
//author $soundslike$ “meier”
Gewichtete Fragebedingungen
//*[0.7 . $c-word$ “retrieval” + 0.3 . $c-word$ “XML”]
Relevanz-orientierte Anfragen
//inode()[… $c-phrase$ “XML retrieval”]
Struktureller Relativismus:
//#person $soundslike$ “meier”
![Page 19: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/19.jpg)
XIRQL vs. XQuery
XIRQL prozessiert Teilmenge von XQuery-Anfragen:
FOR $X=PathExpression
RETURN $X
Keine Restrukturierung von Antworten
Keine Werte-basierten Joins zwischen verschiedenen Dokumenten
Erweiterte Path Expressions für IR
![Page 20: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/20.jpg)
IV. HyREX
Hypermedia Retrieval Engine for XML
Open-Source-Software für Information Retrieval in XML-Dokumenten
Basiert auf der Anfragesprache XIRQL
![Page 21: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/21.jpg)
HyREX-Architektur
HyGate: Web-Gateway
XIRQL: Anfragesprache auf der logischen Ebene
HyPath: Zugriffspfade (physische Ebene)
SearchNavigate
Results
WWW Browser
HyPath
Logical Level
XIRQL
HyGate
HyREX
Physical Level
![Page 22: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/22.jpg)
HyREX-Datentypen
Text
Base
DatePersonName Numeric
French Portuguese Dutch Danish Norwegian Swedish
English German Italian Spanish ACMCCS MSCPACS
Classification
![Page 23: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/23.jpg)
V. Zusammenfassung und Ausblick
IR-Konzepte für XML:
Gewichtung und Ranking
Relevanz-orientierte Suche
Datentypen und vage Prädikate
Struktureller Relativismus
XIRQL als IR-Erweiterung einer XQuery-Teilmenge
HyREX: Open-Source-Retrievalengine für XML:
ls6-www.cs.uni-dortmund.de/ir/hyrex
![Page 24: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/24.jpg)
Ausblick
DAAD-Projekt FOCUS + EU-NoE DELOS (zusammen mit Mounia Lalmas, Univ. of London, et al.):
• Evaluierung von XML-Retrieval
EU-Projekt CYCLADES (zusammen mit IEI-CNR/Pisa, FhG-Fit/Bonn, FORTH/Heraklion)
• HyREX als Suchmaschine für vernetzte Open Archives
DFG-Projekt CLASSIX, (zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab 1.2.02):
• Entwicklung von Verfahren für effizientes Best-Match-Retrieval für XIRQL
• Kombination von XIRQL und XQuery: probabilistische Variante von XQuery
![Page 25: HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de.](https://reader035.fdocuments.net/reader035/viewer/2022062622/55204d6449795902118b957e/html5/thumbnails/25.jpg)
CARMEN - Next Steps
Erstellung von HyREX-Distributionen
(einfachere Installation, weitere Datentypen und Dokumentformate)
Benutzerschnittstelle
(Anfrageformulierung, Ergebnispräsentation)
Erweiterung von HyREX in Richtung XQuery
(Postprozessierung zur Restrukturierung von Antworten)
Integration von HyREX mit Dokument-Management
(z.B. WebDAV: hierarchische Ordner für Arbeitsgruppen)