Download - Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

LUDWIG-MAXIMILIANS-UNIVERSITYMUNICH

DATABASESYSTEMSGROUP

DEPARTMENTINSTITUTE FORINFORMATICS

Kapitel 4: Data Mining

Skript zur Vorlesung:

Einführung in die Informatik: Systeme und AnwendungenSommersemester 2018

Vorlesung: Prof. Dr. Christian Böhm

Übungen: Dominik Mautz

Skript © Christian Böhm

http://dmm.dbs.ifi.lmu.de/infonf


Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Überblick

4.1 Einleitung

4.2 Clustering


2



Motivation


Telefongesellschaft

Astronomie

Kreditkarten Scanner-Kassen

• Riesige Datenmengen werden in Datenbanken gesammelt

• Analysen können nicht mehr manuell durchgeführt werden

Datenbanken

3



Definition KDD

• Knowledge Discovery in Databases (KDD) ist der Prozess der

(semi-) automatischen Extraktion von Wissen aus Datenbanken,

das

• gültig

• bisher unbekannt

• und potentiell nützlich ist.

• Bemerkungen:

• (semi-) automatisch: im Unterschied zu manueller Analyse.

Häufig ist trotzdem Interaktion mit dem Benutzer nötig.

• gültig: im statistischen Sinn.

• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.

• potentiell nützlich: für eine gegebene Anwendung.


4



Der KDD-Prozess (Modell)


Vorverar-

beitung

Trans-

formation

Datenbank

Fokussieren Data

MiningEvaluation

Muster Wissen

Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth

Fok

uss

iere

n:

•B

esch

affu

ng d

er D

aten

•V

erw

altu

ng

(F

ile/

DB

)

•S

elek

tion r

elev

ante

r D

aten

Vorv

erar

bei

tun

g:

•In

teg

rati

on v

on D

aten

aus

unte

rsch

iedli

chen

Quel

len

•V

erv

oll

stän

dig

ung

•K

onsi

sten

zprü

fung

Tra

nsf

orm

atio

n•

Dis

kre

tisi

erung

num

eri-

sch

er M

erkm

ale

•A

ble

itung n

euer

Mer

km

ale

•S

elek

tion r

elev

ante

r M

erkm

.

Dat

a M

inin

g•

Gen

erie

run

g d

er M

ust

er

bzw

. M

od

elle

Eval

uat

ion

•B

ewer

tung d

er I

nte

ress

ant-

hei

tdurc

h d

en B

enutz

er

•V

alid

ieru

ng:

Sta

tist

isch

e

Prü

fun

g d

er M

odel

le

5



Objekt-Merkmale (Feature)


• Oft sind die betrachteten Objekte komplex

• Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale

(Features) zu definieren bzw. auszuwählen, die für die Unterscheidung

(Klassifikation, Ähnlichkeit) der Objekte relevant sind.

Beispiel: CAD-Zeichnungen:

Mögliche Merkmale:

• Höhe h

• Breite w

• Kurvatur-Parameter

(a,b,c)ax2+bx+c

6



Feature-Vektoren


(h, w, a, b, c)

ax2+bx+c

h

wh

wa

bc

Objekt-Raum Merkmals-Raum

• Im Kontext von statistischen Betrachtungen werden die Merkmale

häufig auch als Variablen bezeichnet

• Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature

Vector) zusammengefasst

• Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.)

7



Feature-Vektoren (weitere Beispiele)


Bilddatenbanken:

Farbhistogramme

Farbe

Häu

figk

eit

Gen-Datenbanken:

Expressionslevel

Text-Datenbanken:

Begriffs-Häufigkeiten

Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten

verschiedenster Anwendungsklassen

Data 25

Mining 15

Feature 12

Object 7

...

8

http://images.google.de/imgres?imgurl=www.npl.co.uk/biotech/images/microarray.gif&imgrefurl=http://www.npl.co.uk/biotech/validfluo.html&h=348&w=360&prev=/images?q=microarray&svnum=10&hl=de&lr=&ie=UTF-8&oe=UTF-8

http://images.google.de/imgres?imgurl=www.npl.co.uk/biotech/images/microarray.gif&imgrefurl=http://www.npl.co.uk/biotech/validfluo.html&h=348&w=360&prev=/images?q=microarray&svnum=10&hl=de&lr=&ie=UTF-8&oe=UTF-8

http://hmgc.mcw.edu/images/microarray.jpg

http://hmgc.mcw.edu/images/microarray.jpg



Feature: verschiedene Kategorien


Nominal (kategorisch)

Charakteristik:

Nur feststellbar, ob der Wert gleich oder verschieden ist. Keine Richtung (besser, schlechter) und kein Abstand.Merkmale mit nur zwei Werten nennt man dichotom.

Beispiele:

Geschlecht (dichotom)AugenfarbeGesund/krank (dichotom)

Ordinal

Charakteristik:

Es existiert eine Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand.

Beispiele:

Schulnote (metrisch?)GüteklasseAltersklasse

Metrisch

Charakteristik:

Sowohl Differenzen als auch Verhältnisse zwischen den Werten sind aussagekräftig. Die Werte können diskret oder stetig sein.

Beispiele:

Gewicht (stetig)Verkaufszahl (diskret)Alter (stetig oder diskret)

9



Ähnlichkeit von Objekten


• Spezifiziere Anfrage-Objekt qDB und…

– … suche ähnliche Objekte – Range-Query (Radius e)

RQ(q,e) = {o DB | (q,o) e }

– … suche die k ähnlichsten Objekte – Nearest Neighbor Query

NN(q,k) DB mit k Objekten, sodass

oNN(q,k), pDB\NN(q,k) : (q,o) (q,p)

10

alternative Schreibweise

für Mengendifferenz:

A\B = A – B



Ähnlichkeitsmaße im Feature-Raum


Euklidische Norm (L2):

1(x,y) = ((x1-y1)2+(x2-y2)

2+...)1/2

yx

Manhattan-Norm (L1):

2(x,y) = |x1-y1|+|x2-y2|+...

yx

Maximums-Norm (L):

(x,y) = max{|x1-y1|, |x2-y2|,...}

xy

Die Unähnlichkeitender einzelnen Merkmalewerden direkt addiert

Die Unähnlichkeit desam wenigsten ähnlichenMerkmals zählt

Abstand in Euklidischen Raum(natürliche Distanz)

Verallgemeinerung Lp-Abstandsmaß:

p(x,y) = (|x1-y1|p + |x2-y2|

p + ...)1/p

11



Gewichtete Ähnlichkeitsmaße

• Viele Varianten gewichten verschiedene Merkmale unterschiedlich

stark.


p

d

i

p

iiiwpyxwyx

=

-=

1

,),(

y

x

)()(),(1

yxyxyxT

--=-

y

x

Gewichtete Euklidische Distanz Mahalanobis Distanz

= Kovarianz-Matrix

12



Kategorien von Data Mining

• Wichtigste Data-Mining-Verfahren auf Merkmals-Vektoren:

– Clustering

– Outlier Detection

– Klassifikation

– Regression

• Supervised: In Trainingsphase wird eine Funktion gelernt, die in der Testphase

angewandt wird.

• Unsupervised: Es gibt keine Trainingsphase. Die Methode findet Muster, die

einem bestimmten Modell entsprechen.

• Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf

Merkmalsvektoren, sondern direkt auf Texten, Mengen, Graphen

usw. arbeiten.


normalerweise unsupervised

normalerweise supervised

13



Clustering


Cluster 1: KlammernCluster 2: Nägel

Ein Grundmodell des Clustering ist:

Zerlegung (Partitionierung) einer Menge von Objekten (bzw. Feature-

Vektoren) in Teilmengen (Cluster), so dass• die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert

• die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird

Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von

Objekten; bei evtl. unbek. Anzahl und Bedeutung der Klassen

14



Anwendung: Thematische Karten


Aufnahme der Erdoberflächein 5 verschiedenen Spektren

Pixel (x1,y1)

Pixel (x2,y2)

Wert in Band 1

Wer

t in

Ban

d 2

Wert in Band 1

Wer

t in

Ban

d 2

Cluster-Analyse

Rücktransformation

in xy-Koordinaten

Farbcodierung nach

Cluster-Zugehörigkeit

15

http://www.angelfire.com/stars2/farid/ast01/imagenes/satelite.jpg

http://www.angelfire.com/stars2/farid/ast01/imagenes/satelite.jpg



Outlier Detection


Datenfehler?

Betrug?

Outlier Detection bedeutet:

Ermittlung von untypischen Daten

Anwendungen:

• Entdeckung von Missbrauch etwa bei • Kreditkarten

• Telekommunikation

• Datenbereinigung (Messfehler)

16



Klassifikation


SchraubenNägelKlammern

Aufgabe:

Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue

Objekte nur aufgrund der Merkmale zu klassifizieren

Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)

Trainings-daten

Neue Objekte

17



Anwendung: Neugeborenen-Screening


Blutprobe des

Neugeborenen

Massenspektrometrie Metabolitenspektrum

Datenbank

14 analysierte Aminosäuren:

alanine phenylalanine

arginine pyroglutamate

argininosuccinate serine

citrulline tyrosine

glutamate valine

glycine leuzine+isoleuzine

methionine ornitine

18

http://www.comiccompany.co.uk/icons_banners_navbars/baby_blue_100_1k.gif

http://www.comiccompany.co.uk/icons_banners_navbars/baby_blue_100_1k.gif



Anwendung: Neugeborenen-Screening


Ergebnis:• Neuer diagnostischer Test

• Glutamin als bisher

unbekannter Marker

19



Regression


0

5

Grad der Erkrankung

Neue Objekte

Aufgabe:

Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt bzw.

geschätzt werden soll, ist metrisch.

20