DATABASESYSTEMSGROUP
Ludwig-Maximilians-Universität MünchenInstitut für InformatikLehr- und Forschungseinheit für Datenbanksysteme
GROUP
Skript zur Vorlesung
Knowledge Discovery in DatabasesKnowledge Discovery in Databasesim Sommersemester 2011
Kapitel 1: EinleitungKapitel 1: Einleitung
Vorlesung+Übungen:PD Dr. Matthias Schubert, Dr. Arthur Zimek
Skript © 2003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, EshrefJanuzaj, Karin Kailing, Peer Kröger, Jörg Sander, Matthias Schubert, Arthur Zimek
http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)
Knowledge Discovery in Databases I: Einführung 1
DATABASESYSTEMSGROUP
OrganisatorischesGROUP
• Aktuelles– Vorlesung: Dienstag, 9.00-12.00 Uhr (Raum E 216 Hauptgebäude)
– Übung: Dienstag, 16-18 Uhr (Raum D Z007 Hauptgebäude)
Donnerstag 16 18 Uhr (Raum C 113 Theresienstr 41)Donnerstag, 16-18 Uhr (Raum C 113 Theresienstr. 41)
• Anmeldung für die Klausur auf der Homepage unterhttp://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)
• Klausur: Der Stoff der Klausur wird in der Vorlesungund in den Übungen besprochen.(D Sk i i l di li h i L hilf )(Das Skript ist lediglich eine Lernhilfe.)
Knowledge Discovery in Databases I: Einführung 2
DATABASESYSTEMSGROUP
MotivationGROUP
AstronomieKreditkarten Scanner-KassenDigitalkameras
Astronomie
Telefongesellschaft
WWW
• Riesige Datenmengen werden in Datenbanken gesammeltA l kö i h h ll d h füh d
WWW
Knowledge Discovery in Databases I: Einführung 3
• Analysen können nicht mehr manuell durchgeführt werden
DATABASESYSTEMSGROUP
Von den Daten zum WissenGROUP
Daten Methode Wissen
Verbindungsd.Rechnungserst.
Outlier Detection Betrug
TransaktionenKlassifikation Kreditwürdigkeit
Abrechnung
T kti
Klassifikation Kreditwürdigkeit
G iTransaktionenLagerhaltung
AssoziationsregelnGemeinsamgekaufte Produkte
BilddatenKataloge
Klassifikation Klasse eines Sterns
Knowledge Discovery in Databases I: Einführung 4
g
DATABASESYSTEMSGROUP
Definition KDDGROUP
[Fayyad, Piatetsky-Shapiro & Smyth 1996]
Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das( ) ,
• gültig• bisher unbekannt• und potentiell nützlich ist.
Bemerkungen:Bemerkungen:• (semi-) automatisch: im Unterschied zu manueller Analyse.Häufig ist trotzdem Interaktion mit dem Benutzer nötig. g g
• gültig: im statistischen Sinn.• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.
ll l h f i b A d
Knowledge Discovery in Databases I: Einführung 5
• potentiell nützlich: für eine gegebene Anwendung.
DATABASESYSTEMSGROUP
Teilbereiche KDDGROUP
Statistik Machine Learningmodellbasierte Inferenzen Such /Optimierungsverfahrenmodellbasierte Inferenzen
Schwerpunkt auf numerischen DatenSuch-/OptimierungsverfahrenSchwerpunkt auf symbolischen Daten
[Berthold & Hand 1999] [Mitchell 1997]
KDD
DatenbanksystemeSk li b k it fü ß D tSkalierbarkeit für große Datenmengen
Neue Datentypen (Webdaten, Micro-Arrays, ...)Integration mit kommerziellen Datenbanksystemen
[Chen Han & Yu 1996]
Knowledge Discovery in Databases I: Einführung 6
[Chen, Han & Yu 1996]
DATABASESYSTEMSGROUP
Das KDD-ProzessmodellGROUP
V TF k i Data E l i
Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth
Vorverar-beitung
Trans-formation
Fokussieren DataMining
Evaluation
Datenbank Muster Wissen
n e m.
-
Dat
enD
B)
ter
Dat
en
: aten
aus
Que
llen
g g umer
i-
Mer
kmal
ete
r M
erkm
Mus
ter
tere
ssan
t-nu
tzer
stis
che
elle
ren:
ung
der
Dng
(F
ile/
Dre
leva
nt
beit
ung:
on v
on D
aed
lich
en
ändi
gung
nzpr
üfun
g
mat
ion
ieru
ng n
urk
mal
eg
neue
r M
rele
vant
ing
ung
der
Mde
lle
n ng d
er I
nth
den
Ben
ng: S
tatis
der
Mod
e
okus
sier
Bes
chaf
fuV
erw
altu
nS
elek
tion
orve
rarb
nteg
rati
oun
ters
chie
Ver
voll
stä
Kon
sist
en
ansf
orm
Dis
kret
isi
cher
Mer
Abl
eitu
ngS
elek
tion
ata
Min
Gen
erie
rubz
w. M
od
valu
atio
Bew
ertu
nhe
it d
urch
Val
idie
run
Prü
fung
d
Knowledge Discovery in Databases I: Einführung 7
Fo
•B
•V
•S
Vo
•In u
•V
•K
Tra
•D sc
•A
•S
Da
•G b
Ev
•B h
•V P
DATABASESYSTEMSGROUP
Data Mining AufgabenGROUP
Die wichtigsten Data-Mining-Techniken:
Supervised: z.B. Klassifikation, Regression, Outlier DetectionEin Ergebnis-Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden.Das Vorwissen steht typischerweise als Trainingsdaten bereitDas Vorwissen steht typischerweise als Trainingsdaten bereit.
Unsupervised: z.B. Clustering, Outlier Detection, AssoziationsregelnDie Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden.g ppDie Gruppen haben je nach Aufgabe unterschiedliche Charakteristika.
Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. DarüberDie meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.B. auf Texten, Mengen, Graphen arbeiten.
Knowledge Discovery in Databases I: Einführung 8
DATABASESYSTEMSGROUP
ClusteringGROUP
cm]
Höh
e [c
Cluster 1: KlammernCluster 2: NägelCluster 2: Nägel
Breite [cm]
Clustering heißt: Zerlegung einer Menge von Objekten (bzw. Feature-Vektoren) in Teilmengen (Cluster) ähnlicher Objekte) g ( ) j
Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen
Knowledge Discovery in Databases I: Einführung 9
j ; g
DATABASESYSTEMSGROUP
Anwendung: Thematische KartenGROUP
Aufnahme der Erdoberflächein 5 verschiedenen Spektren
and
2
Pixel (x1,y1)
Pixel (x2,y2)
Wer
t in
Ba
Wert in Band 1
W
Cluster-Analyse
Ban
d 2
Rücktransformationin xy-Koordinaten
Wer
t in
Farbcodierung nachCluster-Zugehörigkeit
Knowledge Discovery in Databases I: Einführung 10
Wert in Band 1
DATABASESYSTEMSGROUP
Outlier DetectionGROUP
Datenfehler?Betrug?
Outlier Detection bedeutet:Ermittlung von untypischen DatenErmittlung von untypischen Daten
Idee: Outlier könnten hindeuten auf• Missbrauch etwa bei• Missbrauch etwa bei
• Kreditkarten• Telekommunikation
Knowledge Discovery in Databases I: Einführung 11
e e o u at o• Datenfehler
DATABASESYSTEMSGROUP
AnwendungGROUP
• Analyse der SAT.1-Ran-Fußball-Datenbank (Saison 1998/99)– 375 Spieler
– Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart, Abwehr Mittelfeld Sturm)Abwehr, Mittelfeld, Sturm),
– Abgeleitetes Attribut: Tore pro Spiel
– Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel)
• Ergebnis: Top 5 Outliers
Rang Name Einsätze Tore Position Erklärung
1 Michael Preetz 34 23 Sturm Torschützenkönig
2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten Toren
3 Hans-Jörg Butt 34 7 Torwart Torwart mit den meisten Toren
4 Ulf Kirsten 31 19 Sturm 2. Torschützenkönig
Knowledge Discovery in Databases I: Einführung 12
g
5 Giovanne Elber 21 13 Sturm Hohe Tore-pro-Spiel Quote
DATABASESYSTEMSGROUP
KlassifikationGROUP
S h bSchraubenNägelKlammern
Trainings-daten
Neue Objekte
Aufgabe:L d b it kl ifi i t T i i d t di R lLerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren
Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)
Knowledge Discovery in Databases I: Einführung 13
DATABASESYSTEMSGROUP
Anwendung: Neugeborenen-ScreeningGROUP
Blutprobe des Neugeborenen
Massenspektrometrie MetabolitenspektrumNeugeborenen
14 analysierte Aminosäuren:
b k
alanine phenylalaninearginine pyroglutamateargininosuccinate serine
Datenbankcitrulline tyrosineglutamate valineglycine leucine+isoleucine
Knowledge Discovery in Databases I: Einführung 14
g ymethionine ornitine
DATABASESYSTEMSGROUP
Anwendung: Neugeborenen-ScreeningGROUP
Ergebnis:N di ti h T t• Neuer diagnostischer Test
• Glutamin als bisher unbekannter Marker
Knowledge Discovery in Databases I: Einführung 15
DATABASESYSTEMSGROUP
Anwendung: GewebeklassifikationGROUP
• Schwarz: Ventrikel + Hintergrund• Blau: Gewebe 1• Grün: Gewebe 2
CBV
• Rot: Gewebe 3• Dunkelrot: Große Gefäße
Blau Grün Rot
TTP 20 5 18 5 16 5
TTP
TTP 20.5 18.5 16.5 (s)
CBV 3.0 3.1 3.6(ml/100g)
RV
( / g)
CBF 18 21 28(ml/100g/min)
RV 30 23 21RV
Ergebnis: Klassifikation cerebralen Gewebes anhand
RV 30 23 21
Knowledge Discovery in Databases I: Einführung 16
Ergebnis: Klassifikation cerebralen Gewebes anhandfunktioneller Parameter mittels dynamic CT möglich.
DATABASESYSTEMSGROUP
RegressionGROUP
0
Grad der Erkrankung
5
Grad der Erkrankung
Neue Objekte
Aufgabe:Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt , g , gbzw. geschätzt werden soll, ist metrisch
Knowledge Discovery in Databases I: Einführung 17
DATABASESYSTEMSGROUP
Anwendung: Precision FarmingGROUP
E
Bodenparameter
Ertrag2D Ertrags-
kurve
Wasserkapazität
BodenparameterWetter
Düngemittel…
Düngemittel
• Erstellen einer Ertragskurve, die von mehreren Parametern wieBodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt.
• Erst eine geeignete Anpassung der Düngemittelausbringung kann eine• Erst eine geeignete Anpassung der Düngemittelausbringung kann eineertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken.
• Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.
Knowledge Discovery in Databases I: Einführung 18
Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.
DATABASESYSTEMSGROUP
AssoziationsregelnGROUP
a,b,c,d,eb da,b,c,d,eb db,c,da,b,c,da,b,c,d,e
In 5 von 7 (ca. 71 %)der Fälle kommt b,c,d
b,c,da,b,c,da,b,c,d,e
In 5 von 5 Fällen(100 %) gilt:Wenn b,c in der Menge,
a,c,e,fd,c,e,fa,b,c,d,f
zusammen vor.a,c,e,fd,c,e,fa,b,c,d,f
gdann ist auch d in derMenge.
Aufgabe:Fi d ll R l i i D t b k di k t M dFinde alle Regeln in einer Datenbank von diskreten Mengen der folgenden Art: Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einerWenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer Wahrscheinlichkeit vom >X % in der Menge enthalten.
Knowledge Discovery in Databases I: Einführung 19
DATABASESYSTEMSGROUP
Anwendung: WarenkorbanalyseGROUP
evtl. Verallgemeinerung:• Paprika-Chips Knabbereien• Anreichern mit Kundendaten
Warenkorb =
DataWarehouse
Menge der gleichzeitigbezahlten Waren
Ergebnis: Assoziationsregeln
• Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinanderpositioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft
> Positioniere Bier auf dem Weg von Windeln zur Kasse=> Positioniere Bier auf dem Weg von Windeln zur Kasse
• Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe:Kunden die „Krieg der Sterne“ I-VI gekauft haben, sind vielleicht auch
Knowledge Discovery in Databases I: Einführung 20
Kunden die „Krieg der Sterne I VI gekauft haben, sind vielleicht auchan „Herr der Ringe“ I-III interessiert.
DATABASESYSTEMSGROUP
Überblick über die Vorlesung (Momentaner Stand der Planung)
GROUP
1. Einleitung
2 Merkmalsräume
6. Outlier Detection
7 Assoziationsregeln2. Merkmalsräume
3. Klassifikation
7. Assoziationsregeln
8. DB-Techniken zur
4. Regression Leistungssteigerung
9 A bli k KDD 2 d5. Clustering 9. Ausblick: KDD 2 und
Maschinelles Lernen und Data Mining
Knowledge Discovery in Databases I: Einführung 21
DATABASESYSTEMSGROUP
LiteraturGROUP
Lehrbuch zur Vorlesung (deutsch):Ester M., Sander J.K l d Di i D b T h ik d A dKnowledge Discovery in Databases: Techniken und Anwendungen Springer Verlag, September 2000
Weitere Bücher (englisch):Han J., Kamber M.Data Mining: Concepts and TechniquesMorgan Kaufmann Publishers, March 2006
Tan P.-N., Steinbach M., Kumar V.Introduction to Data MiningAddison-Wesley, 2006
Mitchell T. M.Machine LearningMcGraw-Hill, 1997
Witten I. H., Frank E.Data Mining: Practical Machine Learning Tools and Techniques2. Auflage. Morgan Kaufmann Publishers, 2005
Knowledge Discovery in Databases I: Einführung 22
Top Related