New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2...
Transcript of New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2...
![Page 1: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/1.jpg)
Prof. Myra Spiliopoulou
Handelshochschule Leipzig
ChemnitzChemnitz, 22.06.01, 22.06.01
Textstrukturierung mit Data-Mining-
Verfahren
Textstrukturierung mit Data-Mining-
Verfahren
![Page 2: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/2.jpg)
2
Das DFG-Projekt DIAsDEMDas DFG-Projekt DIAsDEM
Ziel:Integration von Altlastdaten und Texten von mehreren Quellen in ein Informationssystem
Methodik: Data Mining
Die Forschungsgruppen:
HHL:• Myra Spiliopoulou• Karsten Winkler• Henner Graubitz (HiWi)
LMU:• Stefan Conrad• Evgenia Altarewa
![Page 3: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/3.jpg)
3
AgendaAgenda
• Texteinträge in einem Informationssystem --
Was bedeutet „Integration“ ?
• Knowledge-Discovery-from-Texts in DIAsDEM
Das DIAsDEM Workbench
• Eine Fallstudie
![Page 4: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/4.jpg)
4
Integration von Texten in ein ISIntegration von Texten in ein IS
Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten. Stammkapital: 25.000 EUR. Gesellschaft mit beschränkter Haftung. Der Gesellschaftsvertrag ist am 12. November 1998 abgeschlossen und am 19. April 1999 abgeändert.(...) Pawel Balski, 14.04.1965, Berlin, ist zum Ge-schäftsführer bestellt. Er vertritt dieGesellschaft stets einzeln und (...)
Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow
HRB 1257606.05.99
![Page 5: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/5.jpg)
5
Integration von Texten in ein ISIntegration von Texten in ein IS
• Die Eintragung in das Handelsregister ist obligatorisch für Unternehmen in Deutschland.
• Für jedes Unternehmen existieren mehrere Eintragungen, und zwar beim Handelsgericht jeder Niederlassung.
• Die Angaben in den Handelsregistern sind gesetzlich bindend.
• Jede Eingabe kann Angaben eines früheren Eintrags (zum Teil) aufheben.
![Page 6: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/6.jpg)
6
Integration von Texten in ein ISIntegration von Texten in ein IS
Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten. Stammkapital: 25.000 EUR. Gesellschaft mit beschränkter Haftung. Der Gesellschaftsvertrag ist am 12. November 1998 abgeschlossen und am 19. April 1999 abgeändert. (...) Pawel Balski, 14.04.1965, Berlin, ist zum Ge-schäftsführer bestellt. Er vertritt dieGesellschaft stets einzeln und (...)
Wer sind die Geschäftsführer von Daniel Spiel-Center GmbH ?
sowie alle weitere Personen, die früher dazu bestellt wurden und deren Bestellung nicht rückgängig gemacht worden ist.
![Page 7: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/7.jpg)
7
Integration von Texten in ein ISIntegration von Texten in ein IS
Erwünschte Funktionalität für ein HRG-IS:
• Das Suchergebnis soll alle relevante Eintragungen enthalten.
• Es soll keine unrelevante Eintragungen enthalten.
• Nur die gesuchten Angaben sollen gezeigt werden, der Rest des Textes soll nur nach Aufforderung erscheinen.
![Page 8: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/8.jpg)
8
Integration von Texten in ein ISIntegration von Texten in ein IS
Der DIAsDEM Vorschlag:
• Semantische Auszeichnung der Texte in XML
mit Data Mining Verfahren
• Ableitung einer DTD für das Textarchiv
• Überführung des Textarchivs zu einer Sammlung semistrukturierter Dokumente
• Anwendung einer XML-basierten Anfragesprache für die Suche über die Dokumentensammlung
![Page 9: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/9.jpg)
9
KDT in DIAsDEMKDT in DIAsDEM
• Gruppierung aller Textelemente, die sich mit demselben Thema befassen
• Inhaltliche Charakterisierung jeder Gruppe
• Identifizierung von wichtigen Entitäten in den einzelnen Textelementen
• Zusammenführung der Gruppennamen und Entitätenbeschreibungen in einer DTD
Semantische Auszeichnung von Texten in XML:
Element := Satz
Labeling
Named-Entity Extraction
![Page 10: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/10.jpg)
10
KDT in DIAsDEMKDT in DIAsDEM
Clustering
Aufbereitungsphase
Identifizierte Entitäten
ClustererXML DTDSätze mit XML-Tags
Alle Sätze aller Dokumente im Archiv
Cluster Labeling
XML Dokumente
![Page 11: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/11.jpg)
11
KDT in DIAsDEM (Input)KDT in DIAsDEM (Input)
Aufbereitungsphase
TextsätzeThesaurusReferenz-schema
Entitäts-beschreibungen
bestellenGeschäftsführerGesellschaftGesellschafterProkuraProkurist
Datum = DD Monat YY
![Page 12: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/12.jpg)
12
KDT in DIAsDEM (Prep)KDT in DIAsDEM (Prep)
Referenz-schema
Aufbereitungsphase
TextsätzeThesaurusEntitäts-
beschreibungen
Pawel Balski,14.04.1965,Berlin,ist zum Geschäftsführer bestellt.
1. Ausblendung aller erkannten Entitäten
2. Abbildung aller Wörter auf ihre WortstämmePERSON, DATUM, ORT, sein zu Geschäftsführer bestellen.
3. Vektorisierung der Sätze anhand des Thesaurus<bestellen, Geschäftsführer, Gesellschaft, Prokura>
1 1 0 0
PERSON,DATUM, ORT,ist zum Geschäftsführer bestellt.
![Page 13: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/13.jpg)
13
KDT in DIAsDEM (Mining)KDT in DIAsDEM (Mining)
Clustering
Referenz-schema
Aufbereitungsphase
TextsätzeThesaurusEntitäts-
beschreibungen
Inhomogene Gruppen
Homogene Gruppen
![Page 14: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/14.jpg)
14
Iteratives ClusteringIteratives Clustering
• Gruppierung der Vektoren nach einem Ähnlichkeitsmaß
• Evaluation der Qualität der erzeugten Clusters
• Ausblendung aller Vektoren, die zu “guten” Clusters gehören.
• Wiederholung des Gruppierungsvorgangs für die übriggebliebenen Vektoren
nach Anpassung der Steuerungsparameter
![Page 15: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/15.jpg)
15
Cluster QualitätCluster Qualität
• Qualitätskriterien:
* Hohe Ähnlichkeit innerhalb des Clusters
+ Große Anzahl von Vektoren im Cluster
+ Kleine Anzahl von dominierenden Begriffen
• weil: Cluster = = DTD Komponente
+ Ein XML-Tag kann erst dann effektiv genutzt werden, wenn es oft im Archiv vorkommt.
+ Ein XML-Tag soll einen sinnvollen und intuitivenBegriff darstellen.
![Page 16: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/16.jpg)
16
Cluster QualitätCluster Qualität
• Prozentsatz der auftretenden Begriffe im Cluster zu der Gesamtzahl der Begriffe im Thesaurus
• Prozentsatz der häufig auftretenden Begriffe im Cluster zu der Anzahl aller Begriffe im Cluster
Zwei Kennzahlen für das dritte Qualitätskriterion:
![Page 17: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/17.jpg)
17
KDT in DIAsDEM (Labeling)KDT in DIAsDEM (Labeling)
Clustering
Referenz-schema
Aufbereitungsphase
TextsätzeThesaurusEntitäts-
beschreibungen
Inhomogene Gruppen
Homogene Gruppen
Cluster Labeling XML DTD
![Page 18: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/18.jpg)
18
Cluster LabelingCluster Labeling
• Gruppe I: Begriffe, die sehr häufig im Cluster auftreten
• Gruppe II: Weitere Begriffe, die vom Clustering Algorithmus als signifikant bezeichnet wurden
nach Häufigkeit geordnet,und dem Experten zur Auswahl vorgeschlagen.
Die Begriffe im Cluster werden gruppiert:
ClusterLabel
Referenz-schema
![Page 19: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/19.jpg)
19
HRG Text mit XML MarkierungHRG Text mit XML Markierung
Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten.(...)<GeschäftsführerBestellen>Pawel Balski,14.04.1965, Berlin, ist zum Geschäftsführerbestellt</GeschäftsführerBestellen>.<Vertretung>Er vertritt dieGesellschaft stets einzeln und (...)</Vertretung>
Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow
HRB 1257606.05.99
![Page 20: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/20.jpg)
20
KDT in DIAsDEM (NEEX)KDT in DIAsDEM (NEEX)
Clustering
Referenz-schema
Aufbereitungsphase
TextsätzeThesaurusEntitäts-
beschreibungen
Inhomogene Gruppen
Homogene Gruppen
Cluster Labeling XML DTD
XML Dokumente
NEEX
Entitäten
![Page 21: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/21.jpg)
21
NEEXNEEX
• entdeckt
– Namen von Personen, Unternehmen und Ortschaften
– Datumsangaben und Geldbeträge
• mit Hilfe
– eines Regelsatzes
– des Postbuchs
– des Telefonbuchs
Der Named-Entity-EXtractor
![Page 22: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/22.jpg)
22
HRG Text mit XML MarkierungHRG Text mit XML Markierung
Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten.(...)<GeschäftsführerBestellenPerson=“Pawel Balski” Datum=“14.04.1965”Ort=“Berlin”>Pawel Balski,14.04.1965,Berlin,ist zum Geschäftsführer bestellt</GeschäftsführerBestellen>.<Vertretung>Er vertritt dieGesellschaft stets einzeln und (...)</Vertretung>
Daniel Spiel-Center GmbHPotsdamer Str. 94, 14513 Teltow
HRB 1257606.05.99
![Page 23: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/23.jpg)
23
Das DIAsDEM WorkbenchDas DIAsDEM Workbench
Clustering
Referenz-schema
DIAsDEM Preprocessor
TextsätzeThesaurusEntitäts-
beschreibungen
Inhomogene Gruppen
Homogene Gruppen
Cluster Labeling XML DTD
XML Dokumente
NEEX
Entitäten
DIAsDEM Monitor
![Page 24: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/24.jpg)
24
FallstudieFallstudie
• HRG Eintragungen zu Neugründungen im Jahr 1999
– 1,145 Dokumente
– 10,785 Sätze
• Thesaurus mit 85 Begriffen
Semantische Aufzeichnung eines Datensatzes ausdem Handelsgericht Potsdam
![Page 25: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/25.jpg)
25
Fallstudie Fallstudie
• Aufbereitungsphase
– TreeTagger (IMS Stuttgart) : Stemming
– DIAsDEM Preprocessor: NEEX und Vektorisierung
• Iteratives Clustering
– IBM Intelligent Miner for Data: “demographic” clustering function
– DIAsDEM Monitor: 3 Iterationen über den Datensatz
• Ergebnis: 73 homogene Clusters
![Page 26: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/26.jpg)
26
Fallstudie Fallstudie
• Evaluation
– Fehlertyp I: Der XML-Tag eines Satzes entspricht nicht dem Inhalt
– Fehlertyp II: Ein Satz hat keinen XML-Tag, obwohl es einen passenden XML-Tag gibt
• Manuelle Inspektion von 5% der Dokumente
• Ergebnis
– Fehlertyp I: 0.375% im bearbeiteten Datensatz
– Fehlertyp II: 3.565% im bearbeiteten Datensatz
![Page 27: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/27.jpg)
27
Zusammenfassung und AusblickZusammenfassung und Ausblick
• Semantische Annotation von Texten in XML:
– Module zu Textaufbereitung: Entdeckung von wichtigen Entitäten und Vektorisierung
– Das DIAsDEM Monitor: Gruppierung von Textelementen in große und homogene Clusters, die durch eine kleine Anzahl von Begriffen beschrieben werden können
– Plug-in Konzept zur Anbindung von Mining Modulen und Textaufbereitungssoftware
• Eintragung der XML-markierten Texten in ein DBMS
![Page 28: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/28.jpg)
28
Zusammenfassung und AusblickZusammenfassung und Ausblick
• In Bearbeitung:
– Automatisierte Auswahl der Begriffe für den Vektorenraum durch Koppelung des Thesaurus mit dem Referenzschema
– Erweiterung des Ranking-Moduls für die Generierung von Labels
– Evaluierung mehrerer Clustering-Algorithmen und Ähnlichkeitsmaßstäbe
• Geplant: Ableitung von komplexen DTDs
![Page 29: New Textstrukturierung mit Data-Mining- Verfahrengraubitz/diasdem/papers/... · 2003. 3. 4. · 2 DasDas DFGDFG--Projekt DIProjekt DIAsDEMAsDEM Ziel: Integration von Altlastdaten](https://reader033.fdocuments.net/reader033/viewer/2022051907/5ff98ae9e66d6e21434d710d/html5/thumbnails/29.jpg)
29
Vielen Dank für Ihre Aufmerksamkeit !Vielen Dank für Ihre Aufmerksamkeit !
FragenMyra Spiliopoulou
[email protected]://ebusiness.hhl.de