Clusteranalyse Referentin: Stefanie Jahn SS 2007.

ClusteranalyseClusteranalyse

Referentin: Stefanie JahnReferentin: Stefanie Jahn

SS 2007SS 2007

1. Problemstellung1. Problemstellung

Analyse einer heterogenen Gesamtheit von Analyse einer heterogenen Gesamtheit von ObjektenObjekten

Ziel: homogene Teilmengen von Objekten aus Ziel: homogene Teilmengen von Objekten aus der Objektgesamtheit identifizierender Objektgesamtheit identifizieren

Clusteranalyse verfügt über verschiedene Clusteranalyse verfügt über verschiedene Verfahren zur GruppenbildungVerfahren zur Gruppenbildung

VorüberlegungenVorüberlegungen

Anzahl der Objekte muss bei Stichproben repräsentativ Anzahl der Objekte muss bei Stichproben repräsentativ seinsein

Ausreißer ausschließen/ eliminierenAusreißer ausschließen/ eliminieren nur relevante Merkmale berücksichtigennur relevante Merkmale berücksichtigen Gleichgewichtung der Merkmale Gleichgewichtung der Merkmale

-> Korrelationen wegen Verzerrungsgefahr -> Korrelationen wegen Verzerrungsgefahr ausschließenausschließen

keine konstanten Merkmale in der Ausgangsmatrix -> keine konstanten Merkmale in der Ausgangsmatrix -> VerzerrungsgefahrVerzerrungsgefahr

Vergleichbarkeit durch Vergleichbarkeit durch Standardisierung der Variablen Standardisierung der Variablen bei unterschiedl. Skalenniveausbei unterschiedl. Skalenniveaus der Ausgangsdaten der Ausgangsdaten

Fehlende WerteFehlende Werte

Datensatz sollte von fehlenden Werten Datensatz sollte von fehlenden Werten bereinigt seinbereinigt sein

Ausschluß von:Ausschluß von:- Variablen mit großer Anzahl fehlender Werte - Variablen mit großer Anzahl fehlender Werte - Fällen mit fehlenden Werten für Variablen - Fällen mit fehlenden Werten für Variablen -> Problem: Reduktion der Fallzahl-> Problem: Reduktion der Fallzahl

fehlende Werte durch Mittelwert ersetzenfehlende Werte durch Mittelwert ersetzen-> Problem: Ereignisverzerrung bei zu -> Problem: Ereignisverzerrung bei zu häufigem Auftretenhäufigem Auftreten

2. Vorgehensweise2. Vorgehensweise

2.1. Ähnlichkeitsermittlung2.1. Ähnlichkeitsermittlung

2.1.1. Binäre Variablenstruktur2.1.1. Binäre Variablenstruktur2.1.2. Metrische Variablenstruktur2.1.2. Metrische Variablenstruktur2.1.3. Gemischt skalierte Variablenstruktur2.1.3. Gemischt skalierte Variablenstruktur

2.2. Auswahl des Fusionierungsalgorithmus2.2. Auswahl des Fusionierungsalgorithmus

2.2.1. Partitionierende Verfahren2.2.1. Partitionierende Verfahren2.2.2. Hierarchische Verfahren2.2.2. Hierarchische Verfahren

2.3. Bestimmung der Clusterzahl2.3. Bestimmung der Clusterzahl

2.1. Ähnlichkeitsermittlung2.1. Ähnlichkeitsermittlung

Ausgangspunkt: Ausgangspunkt: Rohdatenmatrix mit Rohdatenmatrix mit K Objekten, die K Objekten, die durch J Variablen durch J Variablen beschrieben beschrieben werdenwerden

Matrix enthalt Matrix enthalt ProximitätsmaßeProximitätsmaße (= Ähnlichkeits- und (= Ähnlichkeits- und Unähnlichkeits-Unähnlichkeits-maße) maße)

2.1.1. Binäre Variablenstruktur2.1.1. Binäre Variablenstruktur

Paarvergleich: Paarvergleich: für 2 Objekte für 2 Objekte werden werden EigenschaftsaEigenschaftsausprägungen usprägungen miteinander miteinander verglichenverglichen

Tanimoto-, RR- und M-KoeffizientTanimoto-, RR- und M-Koeffizient

Verwendung:Verwendung: wenn das Nichtvorhandensein eines wenn das Nichtvorhandensein eines

Merkmals relevant ist (z.B. bei Geschlecht: Merkmals relevant ist (z.B. bei Geschlecht: 1=männlich, 0=weiblich), dann Verwendung 1=männlich, 0=weiblich), dann Verwendung von z.B. M-Koeffizientvon z.B. M-Koeffizient

wenn das Nichtvorhandensein eines wenn das Nichtvorhandensein eines Merkmals nicht relevant ist, dann eher Merkmals nicht relevant ist, dann eher Tendenz zu Tanimoto- bzw. Jaccard-Koeff.Tendenz zu Tanimoto- bzw. Jaccard-Koeff.

Verwendung der Ähnlichkeitskoeffizienten bei Verwendung der Ähnlichkeitskoeffizienten bei mehrstufigen Variablen:mehrstufigen Variablen:

2.1.2. Metrische Variablenstruktur2.1.2. Metrische Variablenstruktur

Minkowski-Metriken bzw. L-NormenMinkowski-Metriken bzw. L-Normen weit verbreitete Distanzmaßeweit verbreitete Distanzmaße Differenz zwischen den Eigenschaften der Differenz zwischen den Eigenschaften der

Objektpaare dividiert durch absolute DifferenzwerteObjektpaare dividiert durch absolute Differenzwerte

r=1 - r=1 - City-Block-Metrik:City-Block-Metrik: = I1-2I+I2-3I+I1-3I = I1-2I+I2-3I+I1-3I = 1+1+2= 1+1+2 = 4= 4

bei der L1-Norm gehen alle Differenzwerte bei der L1-Norm gehen alle Differenzwerte gleichgewichtig in die Berechnung eingleichgewichtig in die Berechnung ein

= größte Ähnlichkeit; = größte Ähnlichkeit; = größte = größte UnähnlichkeitUnähnlichkeit

r=2 - r=2 - Euklidische Distanz:Euklidische Distanz:= I1-2I= I1-2I2+I2-3I+I2-3I2+I1-3I+I1-3I2

= 1= 12+1+12+2+22 = 6= 6

stärkere Berücksichtigung großer stärkere Berücksichtigung großer Differenzwerte durch das QuadrierenDifferenzwerte durch das Quadrieren

Resultat: Wahl des Distanzmaßes beeinflusst Resultat: Wahl des Distanzmaßes beeinflusst Ähnlichkeitsreihenfolge der Ähnlichkeitsreihenfolge der UntersuchungsobjekteUntersuchungsobjekte

wichtig: vergleichbare Maßeinheiten müssen wichtig: vergleichbare Maßeinheiten müssen zugrunde liegen -> sonst Standardisierung!zugrunde liegen -> sonst Standardisierung!

QQ-Korrelations--Korrelations-koeffizientkoeffizient

berechnet die berechnet die Ähnlichkeit Ähnlichkeit zwischen 2 zwischen 2 Objekten unter Objekten unter Berücksichtigung Berücksichtigung aller Variablen aller Variablen eines Objekteseines Objektes

= größte = größte Ähnlichkeit; Ähnlichkeit;

= größte = größte UnähnlichkeitUnähnlichkeit

Warum ist Rama und Weihnachtsbutter nach der Warum ist Rama und Weihnachtsbutter nach der Minkowski-Minkowski-MetrikMetrik am unähnlichsten, aber nach dem am unähnlichsten, aber nach dem Q-Q-KorrelationskoeffizientenKorrelationskoeffizienten am ähnlichsten? am ähnlichsten?

Verwendung von Distanzmaßen, wenn der absolute Abstand Verwendung von Distanzmaßen, wenn der absolute Abstand zw. Objekten interessiert und Unähnlichkeit steigt mit der zw. Objekten interessiert und Unähnlichkeit steigt mit der zunehmenden Distanz -> z.B. ähnliche Umsatzzunehmenden Distanz -> z.B. ähnliche Umsatzgröße/-höhegröße/-höhe im Zeitverlaufim Zeitverlauf

Verwendung von Ähnlichkeitsmaßen, wenn es um den Verwendung von Ähnlichkeitsmaßen, wenn es um den Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, unabhängig vom Niveau -> z.B. ähnliche unabhängig vom Niveau -> z.B. ähnliche UmsatzUmsatzentwicklungenentwicklungen im Zeitverlauf im Zeitverlauf

2.1.3. Gemischt skalierte 2.1.3. Gemischt skalierte VariablenstrukturVariablenstruktur

A) A) für die metrischen und nicht-für die metrischen und nicht-metrischen Variablen werden die metrischen Variablen werden die Ähnlichkeitskoeffizienten bzw. Distanzen Ähnlichkeitskoeffizienten bzw. Distanzen getrennt berechnetgetrennt berechnet Gesamtähnlichkeit = ungewichteter oder Gesamtähnlichkeit = ungewichteter oder

gewichteter Mittelwert der berechneten gewichteter Mittelwert der berechneten GrößenGrößen

z.B.: Rama und z.B.: Rama und Flora: Flora:

M-Koeffizient M-Koeffizient Distanz = 1-0,7 = Distanz = 1-0,7 = 0,30,3

bei den metr. bei den metr. Eigenschaften Eigenschaften quadrierte quadrierte euklidische euklidische Distanz = 4Distanz = 4=> ungewichtetes => ungewichtetes arithmet. Mittel: arithmet. Mittel: 2,152,15=> Gewichtung => Gewichtung nach metr. und nach metr. und nicht-metr. nicht-metr. AbstandAbstand

B)B) Transformation von Transformation von einem höheren in ein einem höheren in ein niedrigeres Skalenniveauniedrigeres Skalenniveau Dichotomisierung: Dichotomisierung:

Preis bis zu 1,59€ = 0, ab Preis bis zu 1,59€ = 0, ab 1,60€ = 11,60€ = 1= hoher Info-verlust, willkürl. = hoher Info-verlust, willkürl. Festlegung der Schnittstelle?Festlegung der Schnittstelle?

Intervalle bildenIntervalle bildenoder: oder: Preis teurer als 1,40 €? Preis teurer als 1,40 €? ja = 1, nein = 0ja = 1, nein = 0Preis teurer als 1,70 €? Preis teurer als 1,70 €? ja = 1, nein = 0…ja = 1, nein = 0…

je kleiner die je kleiner die Klassenspanne, desto Klassenspanne, desto geringer der Info-verlustgeringer der Info-verlust

Verzerrungsgefahr durch Verzerrungsgefahr durch falsche Gewichtungfalsche Gewichtung

2.2. Auswahl des 2.2. Auswahl des FusionierungsalgorithmusFusionierungsalgorithmus

Zusammenfassung zu Gruppen aufgrund der Zusammenfassung zu Gruppen aufgrund der ÄhnlichkeitswerteÄhnlichkeitswerte

die (agglomerative) Clusteranalyse fasst die die (agglomerative) Clusteranalyse fasst die betrachteten Fälle so lange zusammen, bis alle betrachteten Fälle so lange zusammen, bis alle Fälle am Ende in einer Gruppe enthalten sindFälle am Ende in einer Gruppe enthalten sind

mögliche Unterscheidung vonmögliche Unterscheidung von partitionierenden Verfahrenpartitionierenden Verfahren hierarchische Verfahrenhierarchische Verfahren

2.2.1. Partitionierende Verfahren2.2.1. Partitionierende Verfahren

vorgegebene Gruppeneinteilungvorgegebene Gruppeneinteilung gehen von einer gegebenen Gruppierung der gehen von einer gegebenen Gruppierung der

Objekte ausObjekte aus Umordnung mit Hilfe eines Umordnung mit Hilfe eines

Austauschalgorithmus zwischen den Gruppen Austauschalgorithmus zwischen den Gruppen bis zum Optimumbis zum Optimum

Beenden der Clusterung, wenn alle Objekte Beenden der Clusterung, wenn alle Objekte bezügl. ihrer Verlagerung untersucht wurden und bezügl. ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums sich keine Verbesserung des Varianzkriteriums mehr erreichen lässtmehr erreichen lässt-> Abbruch muss erfolgen, sonst zu viele -> Abbruch muss erfolgen, sonst zu viele MöglichkeitenMöglichkeiten-> lokales Optima erreicht statt globales Optima-> lokales Optima erreicht statt globales Optima

2 Entscheidungsprobleme bei „Veränderung der 2 Entscheidungsprobleme bei „Veränderung der Startpartition“:Startpartition“:1. 1. Festlegen, auf wie viele Gruppen die Festlegen, auf wie viele Gruppen die Objekte verteilt werden sollenObjekte verteilt werden sollen2. 2. Festlegen des Modus, nach dem die Festlegen des Modus, nach dem die Objekte auf die Startgruppen zu verteilen sind Objekte auf die Startgruppen zu verteilen sind (per Zufallszahlentabelle, entsprechend der (per Zufallszahlentabelle, entsprechend der Reihenfolge ihrer Nummerierung,…)Reihenfolge ihrer Nummerierung,…)

partitionierende Verfahren zeichnen sich durch partitionierende Verfahren zeichnen sich durch größere Variabilität aus gegenüber größere Variabilität aus gegenüber agglomerativen hierarchischen Verfahrenagglomerativen hierarchischen Verfahren

partitionierende Verfahren sind in praktischen partitionierende Verfahren sind in praktischen Anwendungen geringer verbreitetAnwendungen geringer verbreitetGründeGründe::- Ergebnisse werden verstärkt durch die - Ergebnisse werden verstärkt durch die Zielfunktion beeinflusstZielfunktion beeinflusst- die häufig subjektive Begründung der Wahl - die häufig subjektive Begründung der Wahl der Startposition kann Ergebnis beeinflussender Startposition kann Ergebnis beeinflussen- nur lokales Optima erreichbar- nur lokales Optima erreichbar

2.2.2. Hierarchische 2.2.2. Hierarchische

VerfahrenVerfahren

2.2.2.1. Ablauf der 2.2.2.1. Ablauf der agglomerativen agglomerativen VerfahrenVerfahren

agglomerative agglomerative Verfahren - feinste Verfahren - feinste Partition ist Partition ist AusgangspunktAusgangspunkt-> -> Zusammenfassung Zusammenfassung von Gruppenvon Gruppen

Unterschiede zw. den aggl. Verfahren ergeben sich Unterschiede zw. den aggl. Verfahren ergeben sich nur daraus, wie Distanzen ermittelt werdennur daraus, wie Distanzen ermittelt werden

Distanz zw. Objekten P+Q zu irgendeiner Gruppe R:Distanz zw. Objekten P+Q zu irgendeiner Gruppe R:

D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G * ID(R;P)-D(R,Q)I* ID(R;P)-D(R,Q)I

mit: mit: D(R,P): Distanz zwischen den Gruppen R und PD(R,P): Distanz zwischen den Gruppen R und PD(R,Q):D(R,Q): Distanz zwischen den Gruppen R und QDistanz zwischen den Gruppen R und QD(P,Q):D(P,Q): Distanz zwischen den Gruppen P und QDistanz zwischen den Gruppen P und Q

2.2.2.2. Vorgehensweise der Verfahren 2.2.2.2. Vorgehensweise der Verfahren „Single-Linkage“, „Complete-Linkage“ und „Single-Linkage“, „Complete-Linkage“ und „Ward“„Ward“

Single-Linkage-VerfahrenSingle-Linkage-Verfahren vereinigt die Objekte, die die kleinste Distanz vereinigt die Objekte, die die kleinste Distanz

aufweisenaufweisen Nearest-Neighbour-VerfahrenNearest-Neighbour-Verfahren SLV zieht als neue Distanz zwischen zwei SLV zieht als neue Distanz zwischen zwei

Gruppen immer den kleinsten Wert der Gruppen immer den kleinsten Wert der Einzeldistanzen heran Einzeldistanzen heran -> ist dadurch geeignet, -> ist dadurch geeignet, „Ausreißer“ zu erkennen„Ausreißer“ zu erkennen

neigt dazu, viele kleine und wenig große neigt dazu, viele kleine und wenig große Gruppen zu bildenGruppen zu bilden-> Tendenz zur Kettenbildung-> Tendenz zur Kettenbildung

Complete-Linkage-VerfahrenComplete-Linkage-Verfahren

die größten die größten Abstände Abstände werden als werden als Distanzen Distanzen herangezogenherangezogen= Furthest-= Furthest-Neighbour-Neighbour-VerfahrenVerfahren

Abstand Abstand entspricht jetzt entspricht jetzt dem größten dem größten EinzelabstandEinzelabstand

tendiert eher zur Bildung kleiner Gruppentendiert eher zur Bildung kleiner Gruppen nicht zur Entdeckung von „Ausreißern“ nicht zur Entdeckung von „Ausreißern“

geeignet, aufgrund der Verwendung der geeignet, aufgrund der Verwendung der größten Distanzen der Einzelwertegrößten Distanzen der Einzelwerte

Ward-VerfahrenWard-Verfahren

Ziel: Vereinigung derjenigen Objekte, die die Ziel: Vereinigung derjenigen Objekte, die die Streuung einer Gruppe möglichst wenig erhöhenStreuung einer Gruppe möglichst wenig erhöhen-> dadurch Bildung möglichst homogener -> dadurch Bildung möglichst homogener ClusterCluster

als Heterogenitätsmaß wird Varianzkriterium als Heterogenitätsmaß wird Varianzkriterium verwendet = Fehlerquadratsumme (FQS)verwendet = Fehlerquadratsumme (FQS)

Berechnung der quadr. euklid. Distanz zwischen Berechnung der quadr. euklid. Distanz zwischen allen Objektenallen Objekten

FQS im ersten Schritt = 0, da jedes Obj. eigene FQS im ersten Schritt = 0, da jedes Obj. eigene Gruppe -> noch keine StreuungGruppe -> noch keine Streuung

4*0,5 = 4*0,5 = 22 (=FQS) (=FQS)

6,667*0,5 = 3,3336,667*0,5 = 3,333 3,333+2 = 3,333+2 = 5,3335,333

11*0,5 = 5,511*0,5 = 5,5 5,5+5,333 = 5,5+5,333 = 10,83310,833

Ward-Verfahren Ward-Verfahren verwendet ein Distanzmaßverwendet ein Distanzmaß Variablen müssen metrisch seinVariablen müssen metrisch sein keine Ausreißer keine Ausreißer unkorrelierte Variablen wichtigunkorrelierte Variablen wichtig Erwartung gleich großer GruppenErwartung gleich großer Gruppen !!! lang gestreckte Gruppen oder Gruppen mit kleiner !!! lang gestreckte Gruppen oder Gruppen mit kleiner

Elementzahl nicht erkennbar !!!Elementzahl nicht erkennbar !!! Empfehlung: Empfehlung:

- zuerst SLV zum Finden von Ausreißern- zuerst SLV zum Finden von Ausreißern- Ausreißer „eliminieren“- Ausreißer „eliminieren“- reduzierte Objektmenge erneut untersuchen - reduzierte Objektmenge erneut untersuchen mit einem anderen agglomerativen Verfahrenmit einem anderen agglomerativen Verfahren- Auswahl des Verfahrens hat vor dem - Auswahl des Verfahrens hat vor dem Hintergrund der jew. Anwendungssituation zu Hintergrund der jew. Anwendungssituation zu erfolgenerfolgen

2.3. Bestimmung der Clusterzahl2.3. Bestimmung der Clusterzahl

Entscheidung, welche Clusteranzahl „beste“ Entscheidung, welche Clusteranzahl „beste“ Lösung ist und verwendet werden sollLösung ist und verwendet werden soll

Lösen des Zielkonflikts zwischen Lösen des Zielkonflikts zwischen Handhabbarkeit und HomogenitätsanforderungHandhabbarkeit und Homogenitätsanforderung

Bestimmung der Clusterzahl sollte nach Bestimmung der Clusterzahl sollte nach statistischen Kriterien erfolgen, statistischen Kriterien erfolgen, nicht nach sachlogischen Überlegungennicht nach sachlogischen Überlegungen

zur Unterstützung der Entscheidung kann die zur Unterstützung der Entscheidung kann die Entwicklung des Heterogenitätsmaßes Entwicklung des Heterogenitätsmaßes betrachtet werden (-> ist beim Ward-Verfahren betrachtet werden (-> ist beim Ward-Verfahren die Fehlerquadratsumme)die Fehlerquadratsumme)

graphische Verdeutlichung liefert graphische Verdeutlichung liefert DendrogrammDendrogramm

Heterogenitätsentwicklung wird gegen die Heterogenitätsentwicklung wird gegen die zugehörige Clusterzahl in einem zugehörige Clusterzahl in einem Koordinatensystem abgetragen Koordinatensystem abgetragen -> 4-Cluster-Lösung-> 4-Cluster-Lösung

LiteraturLiteratur

Backhaus, Klaus u.a. (2003): Multivriate Analysemethoden. Eine Anwendungsorientierte Einführung, Berlin.

Jahnke, Hermann: Clusteranalyse als Verfahren der schließenden Statistik, Göttingen.

Bacher, J. (1994): Clusteranalyse. Anwendungsorientierte Einführung, München Wien.

Clusteranalyse Referentin: Stefanie Jahn SS 2007.

Documents

Transcript of Clusteranalyse Referentin: Stefanie Jahn SS 2007.