4.3 Hierarchisches Clustering€¦ · Data Science / Kapitel 4: Clustering. 33 Dendrogramm §...

4.3 Hierarchisches Clustering§ k-Means teilt Daten in disjunkte flache Cluster auf,

die in keiner Beziehung zueinander stehen

§ Hierarchische Clusteranalyse erzeugt eine Folge

von Clusterings, die die Daten zunehmend feiner aufteilen

§ enthält alle Daten in einem Cluster

§ enthält einen Cluster pro Datenpunkt

§ Clustering ist in Clustering enthalten, d.h.

C1, . . . , Cn

C1 = {D}

Cn = {{xi} : xi œ D}

Ci Ci≠1

’ Cj œ Ci : ÷ Cl œ Ci≠1 : Cj ™ Cl

Data Science / Kapitel 4: Clustering

Dendrogramm§ Dendrogramm veranschaulicht Folge von Clusterings

19 24 1 23 11 14 18 5 8 20 21 17 6 15 4 9 10 22 3 12 16 13 25 2 70.0

hclust (*, "single")

Agglomerative vs. divisive Verfahren§ Verfahren zur hierarchischen Clusteranalyse einteilbar in

§ agglomerative, welche die Daten zunehmend gruppieren,d.h. in jedem Schritt werden zwei Cluster miteinander verschmolzen; sie heißen auch „bottom up“-Verfahren,da Dendrogramm von unten nach oben aufgebaut wird

§ divisive, welche die Daten zunehmend aufteilen, d.h. in jedem Schritt wird ein Cluster in zwei aufgeteilt; sie heißen auch „top down“-Verfahren, da Dendrogramm von oben nach unten aufgebaut wird

Hierarchisches agglomeratives Clustering (HAC)§ Agglomerative Verfahren beginnen mit jedem Datenpunkt

in einem eigenen Cluster und verschmelzen in jedemSchritt zwei Cluster miteinander

§ Es werden die beiden Cluster verschmolzen, die am nächsten zueinander sind, d.h. man benötigt einDistanzmaß für Cluster

Cluster-Distanzmaße§ Distanzmaße für Cluster lassen sich aus den Distanzen

der darin enthaltenen Datenpunkte ableiten

§ Single-Link

§ Complete-Link

§ Average-Link

”(Ci, Cj) = min{d(x, y) | x œ Ci, y œ Cj}

”(Ci, Cj) = max{d(x, y) | x œ Ci, y œ Cj}

”(Ci, Cj) = 1|Ci||Cj |

d(x, y)

Hierarchisches agglomeratives Clustering (HAC)

1 // Beginne mit jedem Datenpunkt in eigenem Cluster2 Cn = {{xi} : xi œ D};3

4 for(int t = n; t > 1; t--) {5 // Bestimme Paar der na chsten Cluster6 Cú

i , Cúj = arg min

Ci,CjœCt : Ci ”=Cj

”(Ci, Cj);

8 // Verschmelze die beiden Cluster9 Ct≠1 =

i , Cúj

i fi Cúj

Beispiel HAC§ Betrachte die folgenden Datenpunkte im

mit Distanzmatrix d

x1 = (1, 0)x2 = (2, 1)x3 = (8, 0)

x4 = (12, 1)x5 = (15, 1)

0.00 1.41 7.00 11.05 14.040.00 6.08 10.00 13.04

0.00 4.12 7.070.00 3.00

Beispiel HAC§ HAC mit Single-Link basierend auf Distanzmatrix d

C5 = {{x1}, {x2}, {x3}, {x4}, {x5}}

C1 = {{x1, x2, x3, x4, x5}}

C3 = {{x1, x2}, {x3}, {x4, x5}}

C2 = {{x1, x2}, {x3, x4, x5}}

C4 = {{x1, x2}, {x3}, {x4}, {x5}}

0.00 1.41 7.00 11.05 14.040.00 6.08 10.00 13.04

0.00 4.12 7.070.00 3.00

Beispiel HAC§ HAC mit Complete-Link basierend auf Distanzmatrix d

C5 = {{x1}, {x2}, {x3}, {x4}, {x5}}

C1 = {{x1, x2, x3, x4, x5}}

C3 = {{x1, x2}, {x3}, {x4, x5}}

C4 = {{x1, x2}, {x3}, {x4}, {x5}}

C2 = {{x1, x2, x3}, {x4, x5}}

0.00 1.41 7.00 11.05 14.040.00 6.08 10.00 13.04

0.00 4.12 7.070.00 3.00

HAC in Python

import numpy as npimport pandas as pdfrom sklearn.preprocessing import MinMaxScalerfrom scipy.cluster.hierarchy import linkagefrom scipy.cluster.hierarchy import dendrogramimport matplotlib.pyplot as plt

# Autodaten einlesencars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=None, sep='\s+')

# Leistung, Verbrauch und Herkunft extrahierenX = cars.iloc[:, [3,4]].values

# Herkunft extrahiereny = cars.iloc[:, 7].values

# Daten normalisierenmin_max_scaler = MinMaxScaler()min_max_scaler.fit(X)X_normalized = min_max_scaler.transform(X)

# Bezeichnungen der Autos extrahierenlabels = cars.iloc[:,8].values

HAC in Python

§ Vollständiges Jupyter-Notebook unter:http://swl.htwsaar.de/.../2017-vl-ds-kap4-clustering.htmlhttp://swl.htwsaar.de/.../2017-vl-ds-kap4-clustering.ipynb

# Hierarchisches agglomeraties Clustering mit Complete-Linkageclusters = linkage(X_normalized, method='complete', metric='euclidean')

# Dendrogramm ausgebendendrogram = dendrogram(clusters, labels=labels)plt.tight_layout()plt.ylabel('Euclidean distance')plt.show()

HAC in Python

Hierarchisches divisives Clustering (HDC)§ Divisive Verfahren beginnen mit allen Datenpunkten in

einem einzelnen Cluster und teilen in jedem Schritteinen Cluster in zwei Cluster auf

§ Welcher Cluster soll aufgeteilt werden?

§ Wie verteilt man die Datenpunkte darin auf zwei Cluster?

§ Auswahl z.B. des Clusters mit dem größten Durchmesser

diam(Ci) = max{d(x, y) | x œ Ci, y œ Ci}

Hierarchisches divisives Clustering (HDC)§ Aufteilung der Datenpunkte im ausgewählten Cluster

§ wähle Datenpunkt mit größter Distanz

zu den anderen Datenpunkten im Cluster

§ Datenpunkte werden in zwei Cluster und aufgeteilt

§ initialisiere und

§ betrachte jeden Datenpunkt in , falls

verschiebe den Datenpunkt nach

qyœCi

d(x, y)

Cj = {x} Cl = Ci \ {x}Cly

1|Cj |

d(y, z) <1

|Cl|ÿ

d(y, z)

Hierarchisches divisives Clustering (HDC)§ Alternativ kann k-Means als Komponente in einem

hierarchischen divisiven Verfahren dienen

§ teile Cluster durch Anwendung von k-Means (k=2) auf

§ fahre rekursiv mit den entstandenen Clustern fort

4.4 Dichtebasiertes Clustering§ Verfahren zur Clusteranalyse mit Repräsentanten

(z.B. k-Means) finden nur konvexe Cluster;zudem wird jeder Datenpunkt eingeordnet

§ Dichtebasierte Verfahren identifizieren Punktmengen,die zusammenhängen undeine durchgängig hoheDichte haben, alsCluster

§ Density-Based SpatialClustering of Applicationswith Noise (DBSCAN)

Quelle: Zaki and Meira [4]

DBSCAN§ Epsilon-Nachbarschaft eines Datenpunktes

beinhaltet alle Punkte mit Distanz kleiner gleich ε

§ Datenpunkt heißt Kern (core), wenn es mindestensminpts Punkte in seiner Epsilon-Nachbarschaft gibt

§ Datenpunkt heißt Grenze (border), wenn er kein Kern ist,aber in der Epsilon-Nachbarschaft eines Kerns liegt

§ Sonstige Datenpunkte sind Rauschen (noise)

N‘(x) = {y | d(x, y) Æ ‘}

Kern, Grenze und Rauschen

§ Datenpunkt ist ein Kern

§ Datenpunkt ist eine Grenze

§ Datenpunkt ist Rauschen

minpts = 6

Erreichbarkeit§ Ein Datenpunkt ist direkt erreichbar von , wenn

ein Kern ist und gilt

§ Ein Datenpunkt ist erreichbar von , wenn es eineFolge von Datenpunkten gibt, so dass

und gilt und für alledirekt erreichbar von ist

§ Erreichbarkeit ist nicht symmetrisch, da ein Kern seinmuss, aber kein Kern sein könnte

x yx œ N‘(y)

x yx0, . . . , xl

x0 = x xl = y 1 Æ i Æ l

xi xi≠1

Verbundenheit und Dichtebasierter Cluster§ Zwei Datenpunkte und heißen verbunden, wenn es

einen Kern gibt, so dass sowohl als auch von erreichbar sind

§ Dichtebasierter Cluster ist eine maximale Menge von verbundenen Datenpunkten, d.h. es können gibt keine weiteren Punkte, die hinzugefügt werden können

yxx yz

DBSCAN§ Idee:

§ Berechne Epsilon-Nachbarschaft für alle Datenpunkte§ Bestimme alle Kerne§ Bestimme Rauschen§ Lasse von jedem Kern, der noch nicht Teil eines Clusters ist,

einen neuen Cluster wachsen

§ Achtung: Wenn Datenpunkte nur Teil eines Clusters sein können, dann ist DBSCAN nicht deterministisch, dadie Zuweisung von Datenpunkten zu Clustern vonder Reihenfolge deren Betrachtung abhängt

DBSCAN

1 dbScan (D, ‘, minpts) {2 // Kerne3 Cores = ÿ;4

5 for(x œ D) {6 // Epsilon - Nachbarschaft berechnen7 N‘(x) = computeNeighborhood (x, ‘);8

9 // Cluster -ID des Knotens initialisieren10 id(x) = ÿ;11

12 // Ist der Datenpunkt ein Kern?13 if (N‘(x) Ø minpts) Cores = Cores fi {x};14 }15

16 // Cluster von jedem Kern aus wachsen lassen17 k = 0;18 for(x œ Cores) {19 k++;20 id(x) = k;21 densityConnected (x,k);22 }23

24 // Clustering , Grenze und Rauschen bestimmen25 C = ÿ;26 for(i = 1 . . . k) C = C fi {{x œ D : id(x) = k}};27

28 Noise = {x œ D : id(x) = ÿ};29 Border = D \ {Cores fi Noise};30 return C, Cores, Border , Noise;31 }

1 densityConnected (x, k) {2 for(y œ N‘(x)) {3 id(y) = k;4 if (y œ Cores) densityConnected (y, k);5 }6 }

DBSCAN

DBSCAN in Python

import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.cluster import DBSCANfrom matplotlib.backends.backend_pdf import PdfPagesimport matplotlibimport matplotlib.pyplot as plt

# Autodaten einlesencars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=None, sep='\s+')

# Leistung, Verbrauch und Herkunft extrahierenX = cars.iloc[:, [3,4]].values

# Herkunft extrahiereny = cars.iloc[:, 7].values

# Daten normalisierenmin_max_scaler = MinMaxScaler()min_max_scaler.fit(X)X_normalized = min_max_scaler.transform(X)

# DBScan (epsilon=0.05, minpts=5) anwendendb = DBSCAN(eps=0.05, min_samples=5, metric='euclidean')db.fit_predict(X_normalized)

DBSCAN in Python

§ Vollständiges Jupyter-Notebook unter:http://swl.htwsaar.de/.../2017-vl-ds-kap4-clustering.htmlhttp://swl.htwsaar.de/.../2017-vl-ds-kap4-clustering.ipynb

# Herkunft# U.S. : o / Europe: x / Japan : +m = ['o' if o==1 else 'x' if o==2 else '+' for o in y]

# Verfügbare Farbenc = ['red', 'blue', 'green', 'yellow', 'violet']

# Cluster Labelsl = db.labels_

# Autos plottenfor i in range(0,len(X)):plt.scatter(X[i,0], X[i,1], color=('black' if l[i] == -1 else c[l[i]]), marker=m[i])

plt.xlabel('Leistung [hp]')plt.ylabel('Gewicht [lbs]')plt.show()

DBSCAN in Python

Zusammenfassung§ Hierarchisches Clustering bestimmt eine Folge von

Clusterings, die als Dendrogramm darstellbar ist

§ agglomerative Verfahren verschmelzen wiederholtdie zueinander nächsten Cluster

§ divisive Verfahren beruhen auf einer wiederholtenAufteilung von Clustern

§ DBSCAN als dichtebasiertes Verfahren zur Clusteranalysefindet auch nicht-konvexe Cluster

Literatur[1] S. Raschka: Machine Learning in Python,

mitp, 2017 (Kapitel 3)

[2] M. J. Zaki und W. Meira: Data Mining and Analysis,Cambridge University Press, 2014 (Kapitel 13 & 14)

4.3 Hierarchisches Clustering€¦ · Data Science / Kapitel 4: Clustering. 33 Dendrogramm §...

Documents

Transcript of 4.3 Hierarchisches Clustering€¦ · Data Science / Kapitel 4: Clustering. 33 Dendrogramm §...

SC3 - consensus clustering of single-cell RNA-Seq dataSC3,weusedtheAdjustedRandIndex(ARI,seeMethods)whichrangesfrom1,when the clusterings are identical, to 0 when the similarity is

Advanced Quantitative Research Methodology, Lecture Notes ... · Found 2 scholars analyzing lots of textual data for their work Created 6 clusterings: 2 clusterings selected with

Understanding How Choices Change Clusterings: Geometric Comparison of Popular Mixture Model Distances Scott A. Mitchell samitch.

Meta Clustering - Cornell Universitycaruana/ICDM06.metaclust.caruana.pdf · base-level clusterings are organized into a meta clustering, a clustering of clusterings that groups similar

The readability of Path-Preserving Clusterings of Graphs

Cluster Ensembles Subspace Clustering Distributed Clustering Alexander Topchy, Anil K. Jain, William Punch 2003 Combining Multiple Weak Clusterings ICDM-2003.

Projektdokumentation Hierarchical Clusteringcleve/vorl/projects/dm/ss13/HierarCluster... · Hierarchisches Clustering wird z.B. bei Datenmengen mit hierarchischen Strukturen eingesetzt,

Clustering. 2 Outline Introduction K-means clustering Hierarchical clustering: COBWEB.

CLUSTERING. Overview Definition of Clustering Existing clustering methods Clustering examples.

Clustering: Partition Clustering

Ch12: CLUSTERING ALGORITHMS · 2018-10-03 · Ch12: CLUSTERING ALGORITHMS Number of possible clusterings Let X={x 1,x 2,…,x N}. Question: In how many ways the N points can be assigned

Clustering IV. Outline Impossibility theorem for clustering Density-based clustering and subspace clustering Bi-clustering or co-clustering.

Enriched Spatial Comparison of Clusterings Through ... · lem of deviating subspace discovery for spatial clustering comparison. Our second contribution is that we propose an algorithm

Semi-supervised learning using multiple clusterings with ... · Semi-supervised learning using multiple clusterings with limited labeled data Germain Forestier1, C edric Wemmert2,

Creating Beautiful Trees of Clusterings with R (+a bonus) by Tal Galili

Clustering in Ratemaking: Applications in Territories ... · Clustering in Ratemaking: Applications in Territories Clustering OVERVIEW OF CLUSTERING ¾Purpose of Clustering in Insurance

Clustering biological data using a hybrid approach...Clustering biological data using a hybrid approach: Composition of clusterings from different features Masters Thesis of Jens Keller

Collaborative Clustering for Entity Clustering

Clustering k-mean clustering

Bayesian Clustering and Topic Discovery: …clusterings. (Azizi,2017) builds on this to jointly learn optimal normalization pre-processing of the data. Bayesian networks have also