Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. ·...

29
Hochschule Wismar Fakult¨ at Wirtschaftswissenschaften Wirtschaftsinformatik binational Praktikumsbericht Tobias Aagard Matrikelnummer 113716 [email protected] ¨ uber das abgeleistete Praktikum bei IAIB e.V. Alter Holzhafen 17c 23966 Wismar vom 20. Februar 2012 bis 11. Mai 2012

Transcript of Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. ·...

Page 1: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Hochschule Wismar

Fakultat Wirtschaftswissenschaften

Wirtschaftsinformatik binational

Praktikumsbericht

Tobias AagardMatrikelnummer 113716

[email protected]

uber das abgeleistete Praktikum beiIAIB e.V.

Alter Holzhafen 17c23966 Wismar

vom 20. Februar 2012 bis 11. Mai 2012

Page 2: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Einleitung

Texte verstehen kann jedes Schulkind. Doch was fur den Menschen so einfach, ist furden Rechner ungleich schwieriger. Die Bedeutung einer Aussage in einem gegebenenKontext zu neuem Wissen zu verarbeiten, ist eine außerst komplexe Aufgabe.

Dies zu erreichen versucht Text Mining1. Der Fokus liegt hierbei uberlicherweiseauf naturlichsprachlichen Fließtexten. Ungrammatische Texte werden kaum unter-sucht.

Hier liegt der Schwerpunkt des Projektes conTEXT des IAIB: Leistungspositio-nen, wie sie zum Beispiel in Lieferscheinen vorkommen, sollen miteinander verglichenwerden.

Inhalt des Praktikums waren die Datenvorverarbeitung und Aufbereitung sowieText Mining Verfahren zu recherchieren.

1HR06.

1

Page 3: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Inhaltsverzeichnis

Abbildungsverzeichnis 3

Tabellenverzeichnis 4

1 Kurzportrait IAIB e.V. 5

2 Praktikumsaufgabe 5

2.1 conTEXT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Text Mining 6

3.1 Sprachstatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1.1 Zipfverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1.2 Kookkurrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1.3 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2 Musteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Haufigkeitsanalysen 11

4.1 Vorverarbeitung / Termgrenzen . . . . . . . . . . . . . . . . . . . . . 12

4.1.1 Worter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1.2 Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1.3 Kombinationen . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2 Zipfverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5 Kookkurrenzen 16

5.1 Signifikanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.2 Semantisches Clustern von Termen . . . . . . . . . . . . . . . . . . . 17

5.3 Termklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6 Ergebnisse 19

A Anhang 21

Literatur 28

2

Page 4: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildungsverzeichnis

1 Haufigkeitsverteilung der Terme nach Lieferant . . . . . . . . . . . . . 15

2 Verteilung der Signifikanzwerte bei Termabstand 1 . . . . . . . . . . . 17

3 Terme in Relation zu Kookkurrenten . . . . . . . . . . . . . . . . . . 18

4 Verteilung der Terme uber alle Lieferanten in doppellogarithmischerDarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5 Verteilung der Terme uber alle Lieferanten in logarithmischer Dar-stellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6 Haufigkeitsverteilung der Termanzahl aller Positionen . . . . . . . . . 23

7 Verteilung der Termklassen nach Lieferant . . . . . . . . . . . . . . . 24

8 Verteilung der Signifikanzwerte nach Abstand . . . . . . . . . . . . . 26

9 Kookkurrenzen zum Term”anschlussbogen“ . . . . . . . . . . . . . . 27

3

Page 5: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Tabellenverzeichnis

1 Termanzahl nach Klassen uber alle Lieferanten . . . . . . . . . . . . . 14

2 Matrix der Termvektoren ti mit den Dimensionen dj . . . . . . . . . . 18

3 Die ersten zehn Range der Haufigkeitsverteilung nach Lieferant . . . . 22

4 Ausgewahlte Range der Haufigkeitsverteilung uber alle Lieferanten . . 23

5 Anzahl der Kookurrenzen nach Abstand uber alle Lieferanten . . . . 24

6 Die funf signifikantesten Kookkurrenz nach Termabstand . . . . . . . 25

4

Page 6: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

1 Kurzportrait IAIB e.V.

Das Institut fur angewandte Informatik im Bauwesen e. V. ist ein Forschungs- undEntwicklungsinstitut mit Sitz im Technologie- und Forschungszentrum am WismarerHafen. Das Leistungsspektrum des An-Instituts der Hochschule Wismar umfasstStudien, Gutachten, Schulungen und Forschungsprojekte auf dem Gebiet Gebaude-energieeffizienz.

Die Forschungsschwerpunkte sind intelligente Steuer- und Regelungsverfahren furGebaudetechnik und Betriebsfehleruberwachung Gebaudetechnischer Anlagen.

Seit kurzem werden auch Verfahren zur kontextsensitiven Textanalyse untersucht.Besonderes Augenmerk liegt dabei auf Dokumenten aus dem ingenieurtechnischenGebiet.

2 Praktikumsaufgabe

Aktuell fuhrt das IAIB unter anderem das Projekt”conTEXT“ durch. Im Rah-

men dieses Projektes stellt sich die Praktikumsaufgabe als”Datenaufbereitung und

Vorverarbeitung ungrammatischer Datensatze“. Es gilt, Text Mining Verfahren undMethoden zu recherchieren und auf deren Verwendbarkeit zu untersuchen.

2.1 conTEXT

conTEXT ist”[e]in Verfahren fur den automatischen Abgleich von Leistungsposi-

tionen in ERP-Systemen“.2

Im Verlaufe eines Projektes eines mittelstandischen Unternehmens fallen ver-schieden Dokumente mit prinzipiell gleichen Leistungspositionen an. Angebot, Be-stellung, Rechnung und Lieferschein sollen die gleichen Inhalte haben. Allerdingsnennen verschiedene Handler gleiche Produkt anders, oder belegen unterschiedlicheProdukte mit gleichen Begriffen. Auch kann eine Positionen in anderen Dokumenteauf mehrere Positionen verteilt worden sein.

Der inhaltliche Abgleich zwischen den Dokumenten erfolgt bisher manuell; undist dementsprechend fehleranfallig und zeitintensiv. ConTEXT zielt darauf ab, die-sen Abgleich zu teilautomatisieren: zu einer gegebenen Positionen sollen moglichstahnliche Positionen gefunden, und dem Nutzer zur Zuordnung empfohlen werden.Es soll die

”Ahnlichkeit von Textabschnitten [. . . ] hinsichtliche ihres Inhaltes und

unabhangig vom [. . . ] Wortlaut berechne[t]“3 werden.

Das Verfahren soll in moglichst vielen Domanen anwendbar sein. Deswegen sindAnnahmen uber Inhalt weitestgehend zu vermeiden. Die Semantik der Positionenwird darum ausschließlich uber deren Syntax modelliert.

Dafur ist ein Merkmalsvektor fur Texte zu definieren. Darauf aufbauend kannmit einem, ebenfalls zu entwickelnden Distanzmaß die Ahnlichkeit zweier Texte be-stimmt werden.

2IAI11.3IAI11.

5

Page 7: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

2.2 Text Mining

Zur Definition des Merkmalsvektors werden unter anderem Verfahren des Text Mi-nings untersucht.

Text Mining ist der”weitgehend automatisierte[. . . ] Prozess“4, neue

”relevante

Informationen“5 aus textuellen Daten zu gewinnen. Die’relevanten Informationen‘

ergeben sich aus dem jeweiligen Anwendungsfall: zu einem gegeben Begriff relevan-te Dokumente finden, inhaltlich ahnliche Dokumente clustern, Texte automatischzusammenfassen.

Nach [KK11] umfasst Text Mining dabei die”Teilbereiche Information Retrieval,

Text Clustering, Textklassifikation und Informationsextraktion“.

Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat abermit strukturierten Daten einen anderen Untersuchungsgegenstand: Daten liegen imData Mining als

”atomare Werte“6 vor. Text Mining hingegen basiert auf schwach

oder unstrukturierte Daten.

2.3 Vorgehen

Im Projekt conTEXT liegen die Daten als ungrammatische7 Texte vor. Dadurchsind linguistische Verfahren nicht anwendbar, wie zum Beispiel8 Stemming9, PoS-Tagging10 oder Parsing11. Statt dessen werden großtenteils statistische Verfahreneingesetzt.

Daraus leitete sich das Vorgehen wahrend des Praktikums ab: zuerst wurden ver-schiedene Text Mining Verfahren recherchiert, dann deren Eignung fur das Projektexperimentell gepruft.

3 Text Mining

In Anlehnung an [HQW08] lassen sich Text Mining Methoden in zwei Klassen teilen:statistische und musterbasierte Verfahren.

3.1 Sprachstatistik

Das unmittelbar messbare Merkmal eines Textes ist die Haufigkeitsverteilung einzel-ner Worter. Die innere Struktur des Textes wird ignoriert; nur die Anzahl der Worterist entscheidend. Daher wird dieser Ansatz auch als

”Bag Of Words“ bezeichnet.

4HR06.5HQW08, S. 4.6HR06.7im linguistischen Sinne8HR06.9Ruckfuhren auf Stammform

”gesehen“ →

”sehen“

10Part-of-Speech-Tagging: Annotieren einzelner Terme mit Wortart11Satzbauanalyse

6

Page 8: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Die Semantik wird hierbei zunachst außer Acht gelassen, respektive nur indirektbetrachtet. Bedeutung wird einzig uber die Wortfrequenz modelliert. Von besonde-rer Relevanz sind dabei Worter, die haufiger auftreten, als im Vergleich zu einemmoglichst ausgewogenen Referenzkorpus. Diese sind Indikatoren fur das Thema desTextes.

Doch die absolute Haufigkeit allein ist kein verlassliches Anzeichen. So sind zumBeispiel deutschen Fließtexten die haufigsten Worter

”der“,

”die“,

”und“,

”in“ sowie

”den“.12 Diese, zwar haufigen, aber wenig bedeutungstragenden Worter werden als

Stoppworter bezeichnet und werden meist in der weiteren Verarbeitung ignoriert.

3.1.1 Zipfverteilung

Die charakteristische Verteilung von Wortern in einem naturlichsprachlichen Textist die Zipfverteilung.

Nach absteigender Haufigkeit sortiert fallt auf: nur wenige Worter kommen sehrhaufig vor, aber der Großteil vergleichsweise selten. Eben dieser Zusammenhangliegt der Zipfverteilung zugrunde. Danach kann aus der Position in der Liste, alsodem Rang eines Wortes, seine relative Haufigkeit geschatzt werden.

Diser Zusammenhang zwischen Rang und Anzahl des Auftretens ist umgekehrtproportional. In doppelt logarithmischer Darstellung bilden die Haufigkeiten naherungsweiseeine Gerade.13

Anwendung findet die Zipfverteilung unter anderem um notige Textgroßen ab-zuschatzen. Beispielsweise muss eine Wortformen fur einige Untersuchungen mit ei-ner Mindestzahl auftreten. Der erforderliche Umfang des Textes kann so im Vorausbestimmt werden.

3.1.2 Kookkurrenzen

Die einfach Haufigkeitsanalyse betrachtet Worter isoliert; die innere Struktur einesDokuments wird ignoriert.

Einen Schritt weiter geht die Kookkurrenzanalyse. Hierbei werden”zwei[. . . ] oder

mehrere[. . . ] Worter in einem Kontext von fest definierter Große“14 untersucht.

Interessant sind besonders die Kookkurrenzen, bei denen die beiden Worter uberzufalligzusammen vorkommen. Denn das Auseinanderfallen von erwartetem und gezahltemAuftreten wird als Indikator fur einen starken semantischen Zusammenhang ge-wertet. Mittels Signifikanzmaß kann die Starke dieses Zusammenhangs ausgedrucktwerden. Das in der Literatur15 ubliche Maß dafur ist:

sig(A,B) =

− log

(1− e−λ

k−1∑i=0

1i!λi)

log n(1)

12HQB12.13siehe Abschnitt 4.2, Abbildung 414LZ06, Glossar.15HQW08, S. 139.

7

Page 9: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Dabei ist λ definiert als:

λ =ab

n(2)

a und b sind jeweils die Anzahl der Satze (Positionen) die den Begriff A, respektiveB, enthalten; n die Gesamtanzahl der Satze. Die Zahl der Kookkurrenzen, also derSatze, in denen A und B gemeinsam vorkommen, ist k.

Fur die so berechneten Signifikanzwerten, kann ein Schwellwert festgelegt werden.Die signifkanten Kookkurrenzen bilden dann die Grundlage fur das automatisierteFinden von Kollokationen.

Kollokationen sind nicht kompositionale16 Kookkurrenzen; die also aus mehrals der Summe der Einzelbedeutungen17 bestehen. Ein Beispiel hierfur ist

”Blin-

der Passagier“. Solche Zusammensetzungen benotigen”interpretierende Schritte“18.

Eine automatisierte Verarbeitung ist dadurch nur schwer moglich.

Kollokationen sind allerdings eher von linguistischem Interesse. Außerdem sindLeistungspositionen, wie sie dem Projekt zugrunde liegen, uberlicherweise komposi-tional. Es werden explizit alle Eigenschaften eines Produktes aufgezahlt, die es vonAhnlichen abgrenzen. Somit sollten Kookkurrenzen ausreichen, um die relevantensprachliche Muster zu entdecken.

Im Projekt conTEXT werden Kookkurrenzen zwischen zwei Termen betrachtet.Ein Term ist dabei eine semantisch eigenstandige, zusammenhangende Zeichenket-te. Sie lassen sich einteilen in Worter, Zahlen, oder sonstige Folgen von Buchstaben,Ziffern und Sonderzeichen.

Zum einen werden Kookkurrenzen auf Termebene betrachtet, also als das ge-meinsames Vorkommen zweier eindeutiger Terme. Zum anderen in Hinblick auf dieTermklasse des Nachbarn. Sind zum Beispiel links eines Wortes fast ausschließlichZahlen zu finden, so kann dies eine physikalische Große anzeigen. Dann ist dieseZahl im Positionsvergleich wichtiger als Andere, zum Beispiel herstellerinterne Ka-tegoriebezeichnungen.

Ein weitere mogliche Anwendung sind Kookkurrenzen hoherer Ordnung. Dabeiwerden Terme gesucht, die zwar nicht direkt zusammen haufig vorkommen, aberoftmals zusammen mit den gleichen Termen. So kommen zum Beispiel verschiedeneFarben nicht als direkte Kookkurenz vor. Aber verschiedene Produkte haben gleicheFarbvarianten, so dass die gleichen Terme in verschiedenen Kontexten auftreten. MitHilfe der Kookkurrenzanalyse sollen solche Zusammenhange entdeckt werden.

3.1.3 Clustering

Clustering-Verfahren dienen im Text Mining den gleichen Zweck wie beispielsweiseim Data-Mining: eine Menge von Elementen in homogene Gruppen einzuteilen19. Dameist Dokumente gruppiert werden sollen, wird im Folgenden TF-IDF als typischesVerfahren erlautert.

16MS99, S. 151.17Bub09, S. 115.18Bub09, S. 113.19HQW08, S. 196.

8

Page 10: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Das ublicherweise relevante Cluster-Kriterium ist der Inhalt20. Dokumente, diethematisch ahnlich sind, sollen auch nah beieinander liegen. Dafur wird jedes Do-kument durch einen Merkmalsvektor dargestellt, um dann deren Abstand mit be-kannten Cluster-Algorithmen zu bestimmen.

Wie wird nun der Inhalt eines Dokuments ermittelt? Dazu werden Schlusselwortergesucht, die fur den Text charakteristisch sind. Diese

”diskriminierende Merkmale“21

sind Terme, die in dem Dokument moglichst haufig, in Allen aber selten vorkom-men. Kandidaten dafur konnen mit Hilfe der Haufigkeitsverteilung ausgewahlt wer-den. Die so bestimmten Terme aller Dokumente bilden dann die Dimensionen desMerkmalsvektors:

di = (wi,1, wi,2, wi,3, . . . , wi,n) (3)

Die Auspragungen wm,i des Vektors folgen aus der Formel:

wi,m = tfi,m ∗ idfi (4)

Dabei steht der Index i fur den Term und m fur das Dokument.

Die Relevanz eines Terms fur das jeweilige Dokument findet sich im ersten Faktorwieder. Diese sogenannte Termfrequenz (tfi,m) errechnet sich aus der Haufigkeit,mit der der Term i im Dokument m vorkommt. Die absolute Haufigkeit ist aber nurbegrenzt aussagekraftig. Denn im Allgemeinen wird kein linearer Zusammenhangzwischen Anzahl und Relevanz angenommen wird. So wurden Merkmalsvektorenverzerrt, wenn nur infolge eines großere Textumfangs die Haufigkeit eines Termessteigt. Daher wird die Termfrequenz normalisiert.

Ein Ansatz ist

ntfi,m =tfi,m∑

tj∈dmtfj,m

(5)

als relative Haufigkeit22 in Bezug auf die Summe aller absoluten Haufigkeiten derDimensionsterme im Dokument.

ntfi,m =tfi,m

maxjtfj,m(6)

ist die”Normierung mittels Frequenz des haufigsten Terms“23.

In [MRS08] finden sich zwei weitere Normalisierungsmethoden. Zum einen durchLogarithmus:

ntfi,m = 1 + log tfi,m (7)

Zum anderen mit einen Dampfungsfaktor a, um großere Ausschlage innerhalb ntfi,mzu vermeiden:

ntfi,m = a+ (1− a)tfi,m

maxjtfj,m(8)

a hat einen Wert zwischen 0 und 1, typisch24 ist 0,4.

20Denkbar ware auch andere, wie zum Beispiel die Dokumentlange21HQW08, S. 202.22HQW08, S. 203.23HQW08, S. 203.24MRS08, S. 127.

9

Page 11: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Der zweite Faktor, die inverse Dokumentenfrequenz (idfi), verkorpert dieRelevanz eines Terms in Hinblick auf alle Dokumente. Sie ergibt sich als

idfi = log|d|

|d : ti ∈ d|(9)

Hier ist |d| die Gesamtanzahl der Dokument, respektive |d : ti ∈ d| die Zahl der Do-kumente, die den Term ti enthalten. Terme, die nur in einem Dokument vorkommen,erhalten den großtmoglichen Wert25; die in allen vorhanden sind den Wert 0. Daskorrespondiert mit der Absicht, Termen, die nur fur das Dokument charakteristischsind, mit einem großeren Gewicht zu versehen.

Das Produkt aus Termfrequenz und inverser Dokumentenfrequenz weist jedemTerm fur jedes Dokument einen Wert zu. Aus diesen setzen sich die Merkmalsvekto-ren zusammen, mit denen der Abstand zwischen zwei Dokumenten bestimmt werdenkann. Es bieten sich verschiedene Ahnlichkeitsmaße26 an: das Skalarprodukt:

simSkal

(−→di−→dj

)=

n∑k=1

(wk,i · wk,j) (10)

oder das Cosinus-Maß:

simCos

(−→di−→dj

)=

n∑k=1

(wk,i · wk,j)√n∑k=1

(wk,i)2 ·√

n∑k=1

(wk,j)2

(11)

Bei diesen Maßen steht ein hoher Wert fur eine hohe Ahnlichkeit zwischen den beidenDokumenten.

Die euklidische Distanz hingegen ist ein Distanzmaß. Hier steht ein kleiner Wertfur große Ahnlichkeit.

distEukl

(−→di−→dj

)=

√√√√ n∑k=1

(wk,i − wk,j)2 (12)

Ahnlichkeits- und Distanzmaße lassen sich aber ineinander uberfuhren27, beispiels-weise uber

sim(−→

di−→dj

)=

1

dist(−→

di−→dj

)+ 1

(13)

Die paarweise Abstande zwischen allen Dokumenten bilden die Dokument-Dokument-Matrix. Diese bildet die Grundlage fur bekannte Cluster-Verfahren wie

”k-Means,

Support Vector Machines oder Kohonen Feature Maps“28.

25MS99, S. 543.26HQW08, S. 206.27HQW08, S. 207.28IAI11, S. 9.

10

Page 12: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Die Intention der Cluster-Verfahren gleicht dem Anliegen des Projekts: zu einemElement sollen moglichst ahnliche gefunden werden. Allerdings spricht eine Reihevon Grunden gegen den Einsatz: TF-IDF ist ein recht simpler Ansatz, der Inhalteines Dokuments findet sich nur in den ausgewahlten Termen wieder. Homony-me, Worter mit unterschiedlicher Bedeutung aber gleicher Schreibweise, werdennicht unterschieden. Sollten zum Beispiel die Worter

”Baum“,

”Wurzel“,

”Blatt“,

”Ast“ und

”Daten“ als relevante Terme identifiziert werden, konnten ein Text uber

Graphentheorie und eine forstwirtschaftliche Untersuchung zu nah beieinander an-geordnet werden. Synonyme, verschiedene Worter mit gleicher oder ahnlicher Be-deutung, werden ebenfalls nicht identifiziert. Bei diesen beiden Problemen kannversucht werden, die Terme manuell zu bearbeiten, oder die Verzerrung uber denKontext auszugleichen. Speziell fur das Projekt conTEXT ist TF-IDF ungeeignet,da Leistungspositionen einen zu geringen Textumfang haben, als dass angemesseneMerkmalsvektoren nur mittels Termen aufgestellt werden konnen. Außerdem ist eserklartes Projektziel, sich von den unmittelbaren Termen zu losen und die Bedeu-tung uber andere Merkmal zu modellieren.

Trotzdem sollen Clusterverfahren im weiteren Verlauf eingesetzt werden. Jedochwerden nicht ganze Positionen miteinander verglichen, sondern nur einzelne Terme.

3.2 Musteranalyse

Die Voraussetzung fur den Einsatz von musterbasierten Verfahren ist eine großeRegelmaßigkeit in der Sprache.

Dies ist in der deutschen Allgemeinsprache, durch die vielen Sonderfalle undAusnahmen, nicht gegeben. Fachsprachen jedoch besitzen meist

”spezielle Wortbil-

dungsmuster“29. Das ermoglicht den Einsatz regularer Ausdrucke, um zum BeispielFachtermini aus Texten zu extrahieren. In syntaktisch annotierten30 Texten kannnach festen Wendungen31 gesucht werden.

Im Projekt sind die Voraussetzungen nicht gegeben. Allerdings werden regulareAusdrucke in der Vorverarbeitung der Leistungspositionen eingesetzt. Genaueres istin Abschnitt 4.1 aufgefuhrt.

4 Haufigkeitsanalysen

Die in Kapitel 3 vorgestellten Methode wurden nun auf realen Daten angewendet.

Es wurden die Produktkataloge von vier verschiedenen Lieferanten fur Heizungs-,Luftungs- und Sanitartechnik benutzt. Beispiele fur Positionen sind:

• tuer m.f.seg.m.sw cosima tg re.Uebergroesse rund esg mattpflegepx gr.b chrom vigour

29HQW08, S. 238.30PoS-Tagging, Bsp:

”Das [ART] Kind [NOMEN] schlaft [VERB].“

31siehe auch: Abschnitt 3.1.2, Kollokationen

11

Page 13: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

• innengewindemuffe pe 25mm x 1/2?m.gfk-verstaerkt.haltemut.z.stumpfschw.

• sur rauchrohrbogen schwarz 2mm 130mm gesch.45grad m.tuerpulverbesch.b.650grad

• ju gasart-umbausatz 23>31 fuer zwbr 8-37a > zwbr 11-37a

• kugelhahnhalterung typ175-7/275-7 dn25

An einer kleinen Stichprobe wurde die erste Schwierigkeit deutlich: die Positionen be-stehen nicht nur aus Wortern und Zahlen. Es wurden unregelmaßige Bezeichnungenverwendet wie Plattenhkorper, m.kombi-abdeckpl., w250..s0201ta,ta1oder stiftl.kfz.m.rastf..

Weiterhin traten Formatierungsartefakte auf. So wurde m2 zu m2 oder Leerzei-chen, die beispielsweise Zahlen von Einheiten trennen, gingen beim Konvertierenverloren.

Um die Daten automatisiert zu verarbeiten, war somit eine Datenaufbereitungnotig. Es galt, die Zeichenketten in einzelne Terme zu trennen.

4.1 Vorverarbeitung / Termgrenzen

Vor jeglicher weiteren Verarbeitung wurden die Daten gesaubert. So wurde allesklein geschrieben, einige Sonderzeichen entfernt und Umlaute ersetzt. Außerdemwurden alle Kommata entfernt, die nicht zwischen zwei Ziffern standen.

Um die Termgrenzen festzulegen wurden inkrementell regulare Ausdrucke entwi-ckelt.

4.1.1 Worter

Es wird nicht gefordert, dass alle als”Wort“ identifizierten Terme auch tatsachlich

lexikalische Worter sind.”Wort“ ist in diesem Zusammenhang eher als Abgrenzung

zu Zahlen und sonstigen Termen zu verstehen.

Der unmittelbare Ansatz Worter zu identifizieren, sind Zeichenketten, die nuraus Buchstaben bestehen. Sie setzen sich zusammen aus einer nichtleeren Folgevon Buchstaben und sind eingeschlossen von Leerzeichen, Zeilenanfang oder-ende.

sed ’s/\( \|ˆ\)\([a-z]\+\)\( \|$\)/ \2 /g’

Beispiele sind steckmuffe oder verzinkt

Einige Worter haben Interpunktionszeichen am Anfang oder Ende. Diese Zei-chenketten sollen auch als Worter erkannt werden; jedoch nur mit maximal einemInterpunktionszeichen als Affix.

sed ’s/\(ˆ\| \)[[:punct:]]\?\([a-z]\+\)[[:punct:]]\?\( \|$\)/ \2 /g’

Hier finden sich Terme wie inliner:, steckanschl. oder (abgasrohr)

12

Page 14: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Schließlich sind noch Worter vorhanden, die nur durch Interpunktion getrenntsind, und nicht durch Leerzeichen. Deshalb wurde erst Interpunktion zwischenBuchstaben entfernt, und dann die Worter einzeln identifiziert.

sed ’s/\([a-z]\)[[:punct:]]\([a-z]\)/\1 \2/g’sed ’s/\(ˆ\| \)[[:punct:]]\?\([a-z]\+\)[[:punct:]]\?\( \|$\)/ \2 /g’

4.1.2 Zahlen

Analog zu den Wortern ist der erste Versuch, Zahlen zu finden, Zeichenketten, dienur aus Ziffern bestehen.

sed ’s/\( \|ˆ\)\([0-9]\+\)\( \|$\)/ \2 /g’

Terme wie 30, 12000 oder 90 wurden damit gefunden

Der nachste Schritt ist das Einbeziehen von Dezimaltrennzeichen. Nach einernichtleeren Folge von Ziffern kann ein Punkt oder Komma stehen, muss dannaber von mindestens einer Ziffer gefolgt werden.

sed ’s/\( \|ˆ\)\([0-9]\+\)\([.,][0-9]\+\)\?\( \|$\)/ \1\2 /g’

Beispiele dafur sind 35.8, 1.4301 und 21,23.

Semantisch zur Zahl gehoren auch Vorzeichen. Diese konnen, mussen aber nichtvorhanden sein.

sed ’s/\( \|ˆ\)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\( \|$\)/ \2\3 /g’

Damit wurden auch Terme wie -476, +180 und +19,99 als Zahlen identifiziert.

Wie auch bei den Wortern, konnen nach den Zahlen Interpunktionszeichenvorkommen. Diese wurde mit dem folgenden Ausdruck entfernt.

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?[[:punct:]]\?\( \|$\)/ \2\3 /g’

4.1.3 Kombinationen

Worter und Zahlen werden bisher nur erkannt, wenn Sie von Leerzeichen oder Zei-lenenden umgeben sind. Allerdings kommen sie auch in Verbindungen vor, teilweisedurch Interpunktion getrennt.

Wort-Zahl-Kombinationen finden sich zum Beispiel bei Normen oder anderenTyp-Bezeichnungen. Identifiziert werden sie mit:

sed ’s/\(ˆ\| \)\([a-z]\+\)\([[:punct:]]\)\?\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\([[:punct:]]\?\)\( \|$\)/ \2 \4\5 /g’

Damit gefunden werden Termkombinationen wie handtuchhaken-3, jz-001.000und pe-100.

Zahl-Wort-Kombinationen sind zum uberweigenden Teil physikalische Großen.In ihre Bestandteile zerlegt werden sie mittels

13

Page 15: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\([[:punct:]]\?\)\([a-z]\+\)\([[:punct:]]\?\)\( \|$\)/ \2\3 \5 /g’

Verbindungen wie +1200gr, -55cm und -460lk werden damit identifiziert undzerlegt.

Zwei Zahlen hintereinander stehen meist fur Bereiche oder Abmessungen. Ge-trennt werden sie durch Interpunktion oder den Buchstaben

”x“.

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\([[:punct:]x]\) \([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?[[:punct:]]\?\( \|$\) / \2\3 \5\6 /g’

Beispiele sind 600x1800, 500/1200, 110-280, 0.75/80 oder 15x1.15.

Weiterhin treten noch zwei oder drei Zahlen mit anschließendem Wort auf. Auchdies sind gewohnlich Maße.

Termklasse Anzahl

Worter 90.509Zahlen 51.829

Sonstige 167.836

Tabelle 1: Termanzahl nach Klassen uber alle Lieferanten

Insgesamt wurden aus 1.350.664 Positionen 310.174 Terme identifiziert.

Nachdem die Positionen in Terme zerlegt worden sind, konnte die Haufigkeitsverteilungermittelt werden.

4.2 Zipfverteilung

In Abbildung 1 sind die Haufigkeitsverteilungen der Terme nach Lieferant abgebil-det.

Obwohl die Daten ungrammatisch sind, ist die fur die Zipf-Verteilung typische Ge-rade in der doppeltlogarithmischen Darstellung zu erkennen. Die Haufigkeitsverteilunguber alle Lieferanten approximiert ebenfalls die Gerade32.

Der haufigste Term bei allen Lieferanten ist”mm“33.

Dies uberrascht nicht in Hinblick auf den Datenursprung. Zudem wurde ebengerade versucht, die physikalische Einheiten von den Maßzahlen zu trennen.

In den nachsten Rangen sind einzelne Ziffern und Buchstaben. Auch diese lassensich durch die Quelle der Daten erklaren. So werden Abmaße teilweise mit

”x“ von-

einander getrennt; oder es finden sich Angaben wie”bt“ (Breite × Tiefe). Genormte

Rohrgroßen werden als”dnX“ angegeben, wobei

”X“ fur eine Zahl steht.

Weitere ausgewahlte Range sind in Tabelle 4 aufgefuhrt.

32siehe Abbildung 433siehe Tabelle 3

14

Page 16: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildung 1: Haufigkeitsverteilung der Terme nach Lieferant

15

Page 17: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Der Rang dieser Terme erschließt sich oft nur mit anwendungsbezogenem Wissen.Ob weitere Formalismen wie Norm- oder Typbezeichnungen vorhanden sind, kannmit der Kookkurrenzanalyse ermittelt werden.

5 Kookkurrenzen

Das fur eine erste Auswertung relevante Fenster wurde auf einen maximalen Ab-stand von funf Termen festgelegt, da vor allem lokale Zusammenhange interessieren.Außerdem entspricht dieses Betrachtungsfenster in etwa der mittleren Lange allerPositionen, welche bei 9,73 Termen liegt. Eine Verteilung der Positionslangen findetsich in Diagramm 6.

Es wurden nur rechte Nachbarn extrahiert, da sich korrespondierende linke Nach-barn durch Vertauschen ergeben.

Durch diesen Schritt wurde der Aufwand halbiert. In Anbetracht der Anzahlder auftretenden Kookkurrenzen (vgl. Tabelle 5) ergeben sich daraus bedeutsameEffizienzsteigerungen.

Die erwartete Anzahl der Kookkurrenzen ergab sich aus:

k(d) =∑i=1

max (0;ni(i− d)) (14)

Dabei ist d der Termabstand und ni die Anzahl der Positionen mit Lange i.

Bei welchen Kookkurrenzen sich eine genauere Betrachtung lohnt, wird uber denSignifikanzwert ermittelt.

5.1 Signifikanz

Die funf signifikantesten Kookkurrenzen aus jedem Datensatz sind in Tabelle 6 auf-gefuhrt.

Da in der Formel aus Abschnitt 3.1.2 die Reihenfolge der beiden Terme irrele-vant ist, wurde auch hier nur mit den rechten Nachbarn gerechnet. Auch hier sindentsprechende linke Nachbarn durch Vertauschen zu ermitteln.

Fur den Termabstand 1, also direkte Nachbarn, ergibt die Verteilung der Signifi-kanzwerte das Diagramm 2.

Um die Großenordnungen zu vergleichen, wurde die logarithmische Darstellunggewahlt. Dadurch fehlen die Werte kleiner gleich 0 in der Abbildung. Auffallig ist,dass nur ein kleiner Teil der Kookkurrenzen uber einem Signifikanzwert von 1 liegt(14,13%), zwischen 0 und 1 aber mit 71,34% die Mehrheit. Ein moglicher Grundergibt sich aus dem Verhaltnis der moglichen und tatsachlichen Termpaare. 310.174verschieden Terme kommen vor, somit sind 9, 6× 1010 Paare moglich. Da aber mit0,0013% aller mogliche Kookkurrenzen nur ein Bruchteil tatsachlich vorkommt, istdurch Vorhandensein einer Kookkurrenz automatisch eine gewissen Relevanz zuzu-messen.

Die Termanzahl hat keinen direkten Einfluss auf die Signifikanz. Aber bei weit-gehend konstanter Verteilung der Positionslangen ist Positionsanzahl proportional

16

Page 18: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildung 2: Verteilung der Signifikanzwerte bei Termabstand 1

zur Anzahl der Kookkurrenzen34. Somit lasst sich ein indirekter Zusammenhangzwischen Termanzahl und Anzahl der Kookkurrenzen und somit der Signifikanz ein-zelner Kookkurrenzen finden.

Die anderen Termabstande ergeben ein ahnliches Bild35.

In Abbildung 9 sind die Kookkurrenzen zum Term”anschlussbogen“ dargestellt.

Es stellt sich die Frage, ob semantisch ahnliche Begriffe ahnliche Kookkurrenzenhaben. Kann man also anhand ausreichender Signifikanzwerte als Merkmalsvektorauf die Bedeutung einzelner Terme schließen36?

5.2 Semantisches Clustern von Termen

Zuerst ist der Merkmalsvektor zu definieren: Ein Term konnte in Relation zu allenvorhandenen Termen betrachtet werden. Dies ist aber in Anbetracht der zu erwar-tenden Matrixgroße vorerst nicht empfehlenswert. Dieses Problem ware durch eineReduktion der Dimensionen, wie zum Beispiel mit der Hauptkomponentenanalyse,noch losbar. Aber die Vergleichbarkeit zwischen verschiedenen Datensatzen ist nichtgewahrleistet. Da verschiedene Lieferanten verschieden Vokabulare nutzen, hattendie Vektoren unterschiedliche Dimensionen.

Erfolg versprechender ist, die Terme zu verwenden, die in allen Datensatze der

34vgl. Formel 1435vgl. Abbildung 836HQW08, vgl. S. 209 ff.

17

Page 19: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

verschieden Lieferanten vorkommen. Dieses Gemeinsame Vokabular bildet somitdie Dimensionen des Vektors.

Eine mogliche Fehlerquelle ist, dass Terme in mehreren Bedeutungen verwen-det werden. Dies kann sowohl innerhalb eines Datensatzes, als auch zwischen Ver-schiedenen auftreten. Allerdings sind im Anwendungskontext jedoch kaum bis keineAmbiguitaten zu erwarten, oder meist manuell zu beheben. Dadurch kann dieseFehlerquelle weitgehend ausgeschlossen werden.

d1 d2 d3 . . . dnt1 sig(t1, d1) sig(t1, d2) sig(t1, d3) . . . sig(t1, dn)t2 sig(t2, d1) sig(t2, d2) sig(t2, d3) . . . sig(t2, dn)t3 sig(t3, d1) sig(t3, d2) sig(t3, d3) . . . sig(t3, dn)...

......

.... . .

...tm sig(tm, d1) sig(tm, d2) sig(tm, d3) . . . sig(tm, dn)

Tabelle 2: Matrix der Termvektoren ti mit den Dimensionen dj

Die so definierten Vektoren konnen mit bekannten Verfahren geclustert werden.Da im Vorfeld keine Vermutungen uber Clusteranzahl und -große bestehen, bietensich zum Beispiel selbstorganisierende Karten an.

So konnen Homonyme, oder zumindest einander inhaltlich ahnliche Worter ent-deckt werden. Da diese wahrscheinlich in gleichen Kontexten auftreten, wie in Ab-bildung 3a skizziert, werden sie nah zusammen angeordnet.

Eine Konfiguration wie in Abbildung 3b dargestellt ergibt sich bei Synonymen.Weil verschiedene Bedeutung in einem Term zusammenfallen, sind nicht eindeutigeinem Cluster zuzuordnen.

(a) Zwei homonyme Terme (a,b)(b) Ein synonymer Term (a) mit drei ver-schiedenen Bedeutungen

Abbildung 3: Terme in Relation zu ihren Kookkurrenten – Kantenstarke korrespon-diert mit Signifikanz

18

Page 20: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

5.3 Termklassen

Ein anderer Ansatz, Kookkurrenzen zu betrachten, ist die Klasse des zweiten Terms.

Die in Abschnitt 4.1 entwickelten regularen Ausdrucke konnen verwendet werden,um dem Term die Klasse

”Wort“ oder

”Zahl“ zuzuweisen. Die restlichen Terme

werden unter”Sonstige“ subsumiert.

Die allgemeine Verteilung ist in Abbildung 7 dargestellt.

Interessant sind die Terme, bei denen die Verteilung der Termklassen signifikantvon der durchschnittlichen Verteilung abweicht.

Um diese zu identifizieren, muss im weiteren Verlauf des Projekts ein geeignetesMaß gefunden werden.

6 Ergebnisse

Ziele des Praktikums waren die Datenaufbereitung und Verfahren auf ihre Eignungfur den Einsatz im Projekt zu prufen.

Der erste Teil, die Datenaufbereitung, besteht aus der Trennung der Positio-nen in einzelne Terme und anschließender Extraktion der Kookkurrenzen. DurchUnregelmaßigkeiten, Formatierungs- und Konvertierungsartefakte mussten die Po-sitionen erst in einzelne Terme getrennt werden. Die Einteilung in die syntaktischenKategorien

”Wort“,

”Zahl“ und

”Sonstiges“ bildet dabei Grundlage fur die spatere

Analysen.

Die Haufigkeitsanalyse ergab das fur naturlichsprachliche Texte bekannte Bildder Zipfverteilung. Wenige Terme komme sehr haufig und viel sehr selten vor.Die haufigsten Terme wie mm, m oder dn erklaren sich aus der Datenquelle, Lie-feranten fur Heizung, Luftung und Sanitar. Auch wurde festgestellt, dass keineStoppworter vorhanden sind. In naturlichsprachlichen Texten sind Worter wie Ar-tikel oder Prapositionen haufig vorhanden, tragen aber wenig zur Bedeutung desgesamten Textes bei. Solche Worter sind in den vorliegenden Daten aber nicht vor-handen, sondern im Gegenteil: auch die haufigsten Terme sind semantisch relevant.

Problematisch hingegen kann sich die Tatsache auswirken, dass 60% der Ter-me nur einmal vorkommen37. Da darunter auch 27,8% aller als

”Wort“ klassifizier-

ten Terme sind, wird ein einfacher Vergleich der Terme zwischen Positionen nichtgenugen.

Ein erster Ansatz, den Kontext eines Wortes zu betrachten, ist die Kookkurrenz-analyse. Auch hier erklaren sich die prominentesten Range durch die Datenquelle.Fur die Verteilung der Signifikanzwerte38 wurde die Korpusgroße aus Erklarung ge-funden. Wie auch in der Haufigkeitsanalyse, sind die Terme problematisch, die nureinmal vorkommen. Diese konnen durch ihre Kookkurrenten nur unzureichend be-stimmt werden. Ziel der Kookkurrenzanalyse ist allerdings auch eher das Entdeckensyntaktischer Auffalligkeiten wie Einheiten oder Typ-Bezeichnungen.

37vgl. Abb. 538vgl. Abb. 2

19

Page 21: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Um diese Auffalligkeiten zu identifizieren, werden im weiteren Verlauf des Pro-jekts Kookkurrenzen in Hinblick auf die Klasse des zweiten Terms untersucht.

Auch Kookkurrenzen hoherer Ordnung, also das Auftreten zweier Terme in glei-chen Kontexten, sind noch zu untersuchen.

Zu Uberprufen ist ebenfalls, ob Terme semantisch zu clustern sind, wie in Ab-schnitt 5.2 beschrieben.

So ist auch das zweite Ziel des Praktikums, Verfahren fur das weitere Vorgehenermitteln, erreicht worden.

20

Page 22: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

A Anhang

Abbildung 4: Verteilung der Terme uber alle Lieferanten in doppellogarithmischerDarstellung

Abbildung 5: Verteilung der Terme uber alle Lieferanten in logarithmischer Darstel-lung

21

Page 23: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Lie

fera

nt

1L

iefe

rant

2L

iefe

rant

3L

iefe

rant

4P

osit

ionen

313.

454

323.

918

566.

938

146.

354

Ter

me

58.0

6172

.554

208.

240

61.5

18R

ang

Ter

mH

aufigk

eit

Ter

mH

aufigk

eit

Ter

mH

aufigk

eit

Ter

mH

aufigk

eit

1m

m13

4.05

6m

m11

0.94

4m

m10

3.27

4m

m36

7748

2m

67.5

19l

51.9

852

87.7

89m

21.2

073

x63

.382

h50

.659

587

.217

cm18

.648

4dn

51.5

691

34.3

12#

82.2

741

17.8

525

f47

.579

bl

29.6

251

81.3

172

16.0

886

143

.845

bh

29.3

35m

73.3

17f

15.0

297

240

.218

b29

.111

361

.800

dn

12.0

678

typ

29.0

73bt

25.4

01pho

51.7

77fu

er11

.097

93

23.2

91ac

ova

25.1

51a

49.0

82w

eiss

10.4

8810

cm22

.190

lack

iert

24.8

034

48.4

01m

it9.

916

Tab

elle

3:D

ieer

sten

zehn

Ran

geder

Hau

figk

eits

vert

eilu

ng

nac

hL

iefe

rant

22

Page 24: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Rang Wort Haufigkeit

1 mm 385.0222 m 185.4503 1 177.3264 2 167.0155 x 125.4676 5 116.2937 f 111.4008 3 110.3619 dn 106.45010 cm 105.02220 v 63.62850 lackiert 31.231100 hk 17.685200 anschl 9.746500 67 3.552

1.000 freistromventil 1.6162.000 topperg 6975.000 akzent 20410.000 uel. 76100.000 f03/04/05 2

Tabelle 4: Ausgewahlte Range der Haufigkeitsverteilung uber alle Lieferanten

Abbildung 6: Haufigkeitsverteilung der Termanzahl aller Positionen

23

Page 25: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildung 7: Verteilung der Termklassen nach Lieferant

Abstand Anzahl Kookkurrenzen

1 11.792.5132 10.445.8773 9.114.6104 7.804.9755 6.548.435

Tabelle 5: Anzahl der Kookurrenzen nach Abstand uber alle Lieferanten

24

Page 26: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Rang1 2 3 4 5

Termabstand 1Signifikanz 5.105,512 4.290,094 3.835,260 3.030,315 2.599,781

Wort low bt lackiert nach gliedNachbar h2o bl in farbkarte ab

Termabstand 2Signifikanz 2.743,240 2.662,949 2.523,991 2.440,230 2.335,240

Wort sonderfarben element acova minicanal hNachbar farbkarte charleston clarian h2o l

Termabstand 3Signifikanz 2.683,404 2.493,145 2.367,890 1.990,856 1.797,209

Wort minical ze glied in lackiertNachbar komplett charleston bt farbkarte nach

Termabstand 4Signifikanz 2.798,829 2.152,241 1.956,296 1.746,262 1.385,561

Wort clarin glied lackiert h2o bhNachbar glied bl farbkarte l ab

Termabstand 5Signifikanz 2.389,324 2.242,479 1.732,880 1.489,818 1.371,246

Wort clarin modell low glied komplettNachbar ab glied l 95 b

Tabelle 6: Die funf signifikantesten Kookkurrenz nach Termabstand

25

Page 27: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildung 8: Verteilung der Signifikanzwerte nach Abstand

26

Page 28: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Abbildung 9: Kookkurrenzen zum Term”anschlussbogen“ – Kantenstarke korre-

spondiert mit Signifikanz, Rote Kante kennzeichnen rechte Nachbarn, blaue Kantenreprasentieren linke Nachbarn

27

Page 29: Praktikumsbericht - Hochschule Wismarcleve/vorl/projects/da/12-Praktikum... · 2017. 4. 18. · Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten

Literatur

[Bub09] N. Bubenhofer. Sprachgebrauchsmuster: Korpuslinguistik Als MethodeDer Diskurs- Und Kulturanalyse. Sprache Und Wissen. De Gruyter,2009. isbn: 9783110215847.

[HQB12] Gerhard Heyer, Uwe Quasthoff und Volker Boehlke. Deutscher Wort-schatz – Wortlisten. http://wortschatz.uni-leipzig.de/html/wliste.html. [Online; Zugriff am 31. Mai 2012]. 2012.

[HQW08] Gerhard Heyer, Uwe Quasthoff und Thomas Wittig. Text Mining: Wis-sensrohstoff Text – Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008.

[HR06] Hajo Hippner und Rene Rentzmann. “Text Mining”. In: Informatik-Spektrum 29 (4 2006). 10.1007/s00287-006-0091-y, S. 287–290. issn:0170-6012. url: http://dx.doi.org/10.1007/s00287-006-0091-y.

[KK11] Carolin Kaiser und Johannes Krockel. “Meinungsanalyse in Onlinenetz-werken mittels Schwarmintelligenz”. In: Informatik-Spektrum 34 (4 2011).10.1007/s00287-010-0444-4, S. 355–363. issn: 0170-6012. url: http://dx.doi.org/10.1007/s00287-010-0444-4.

[LZ06] L. Lemnitzer und H. Zinsmeister. Korpuslinguistik: Eine Einfuhrung.Narr Studienbucher. Narr, 2006. isbn: 9783823362104.

[MRS08] C.D. Manning, P. Raghavan und H. Schutze. Introduction to InformationRetrieval. Cambridge University Press, 2008. isbn: 9780521865715.

[MS99] C. Manning und H. Schutze. “Foundations of Statistical Natural Lan-guage Processing”. In: MA, USA: MIT Press, 1999.

[IAI11] IAIB e. V. Projektbeschreibung conTEXT. 2011.

28