Clusteranalyse Referentin: Stefanie Jahn SS 2007.
-
Upload
lothar-ratzel -
Category
Documents
-
view
112 -
download
0
Transcript of Clusteranalyse Referentin: Stefanie Jahn SS 2007.
ClusteranalyseClusteranalyse
Referentin: Stefanie JahnReferentin: Stefanie Jahn
SS 2007SS 2007
1. Problemstellung1. Problemstellung
Analyse einer heterogenen Gesamtheit von Analyse einer heterogenen Gesamtheit von ObjektenObjekten
Ziel: homogene Teilmengen von Objekten aus Ziel: homogene Teilmengen von Objekten aus der Objektgesamtheit identifizierender Objektgesamtheit identifizieren
Clusteranalyse verfügt über verschiedene Clusteranalyse verfügt über verschiedene Verfahren zur GruppenbildungVerfahren zur Gruppenbildung
VorüberlegungenVorüberlegungen
Anzahl der Objekte muss bei Stichproben repräsentativ Anzahl der Objekte muss bei Stichproben repräsentativ seinsein
Ausreißer ausschließen/ eliminierenAusreißer ausschließen/ eliminieren nur relevante Merkmale berücksichtigennur relevante Merkmale berücksichtigen Gleichgewichtung der Merkmale Gleichgewichtung der Merkmale
-> Korrelationen wegen Verzerrungsgefahr -> Korrelationen wegen Verzerrungsgefahr ausschließenausschließen
keine konstanten Merkmale in der Ausgangsmatrix -> keine konstanten Merkmale in der Ausgangsmatrix -> VerzerrungsgefahrVerzerrungsgefahr
Vergleichbarkeit durch Vergleichbarkeit durch Standardisierung der Variablen Standardisierung der Variablen bei unterschiedl. Skalenniveausbei unterschiedl. Skalenniveaus der Ausgangsdaten der Ausgangsdaten
Fehlende WerteFehlende Werte
Datensatz sollte von fehlenden Werten Datensatz sollte von fehlenden Werten bereinigt seinbereinigt sein
Ausschluß von:Ausschluß von:- Variablen mit großer Anzahl fehlender Werte - Variablen mit großer Anzahl fehlender Werte - Fällen mit fehlenden Werten für Variablen - Fällen mit fehlenden Werten für Variablen -> Problem: Reduktion der Fallzahl-> Problem: Reduktion der Fallzahl
fehlende Werte durch Mittelwert ersetzenfehlende Werte durch Mittelwert ersetzen-> Problem: Ereignisverzerrung bei zu -> Problem: Ereignisverzerrung bei zu häufigem Auftretenhäufigem Auftreten
2. Vorgehensweise2. Vorgehensweise
2.1. Ähnlichkeitsermittlung2.1. Ähnlichkeitsermittlung
2.1.1. Binäre Variablenstruktur2.1.1. Binäre Variablenstruktur2.1.2. Metrische Variablenstruktur2.1.2. Metrische Variablenstruktur2.1.3. Gemischt skalierte Variablenstruktur2.1.3. Gemischt skalierte Variablenstruktur
2.2. Auswahl des Fusionierungsalgorithmus2.2. Auswahl des Fusionierungsalgorithmus
2.2.1. Partitionierende Verfahren2.2.1. Partitionierende Verfahren2.2.2. Hierarchische Verfahren2.2.2. Hierarchische Verfahren
2.3. Bestimmung der Clusterzahl2.3. Bestimmung der Clusterzahl
2.1. Ähnlichkeitsermittlung2.1. Ähnlichkeitsermittlung
Ausgangspunkt: Ausgangspunkt: Rohdatenmatrix mit Rohdatenmatrix mit K Objekten, die K Objekten, die durch J Variablen durch J Variablen beschrieben beschrieben werdenwerden
Matrix enthalt Matrix enthalt ProximitätsmaßeProximitätsmaße (= Ähnlichkeits- und (= Ähnlichkeits- und Unähnlichkeits-Unähnlichkeits-maße) maße)
2.1.1. Binäre Variablenstruktur2.1.1. Binäre Variablenstruktur
Paarvergleich: Paarvergleich: für 2 Objekte für 2 Objekte werden werden EigenschaftsaEigenschaftsausprägungen usprägungen miteinander miteinander verglichenverglichen
Tanimoto-, RR- und M-KoeffizientTanimoto-, RR- und M-Koeffizient
Verwendung:Verwendung: wenn das Nichtvorhandensein eines wenn das Nichtvorhandensein eines
Merkmals relevant ist (z.B. bei Geschlecht: Merkmals relevant ist (z.B. bei Geschlecht: 1=männlich, 0=weiblich), dann Verwendung 1=männlich, 0=weiblich), dann Verwendung von z.B. M-Koeffizientvon z.B. M-Koeffizient
wenn das Nichtvorhandensein eines wenn das Nichtvorhandensein eines Merkmals nicht relevant ist, dann eher Merkmals nicht relevant ist, dann eher Tendenz zu Tanimoto- bzw. Jaccard-Koeff.Tendenz zu Tanimoto- bzw. Jaccard-Koeff.
Verwendung der Ähnlichkeitskoeffizienten bei Verwendung der Ähnlichkeitskoeffizienten bei mehrstufigen Variablen:mehrstufigen Variablen:
2.1.2. Metrische Variablenstruktur2.1.2. Metrische Variablenstruktur
Minkowski-Metriken bzw. L-NormenMinkowski-Metriken bzw. L-Normen weit verbreitete Distanzmaßeweit verbreitete Distanzmaße Differenz zwischen den Eigenschaften der Differenz zwischen den Eigenschaften der
Objektpaare dividiert durch absolute DifferenzwerteObjektpaare dividiert durch absolute Differenzwerte
r=1 - r=1 - City-Block-Metrik:City-Block-Metrik: = I1-2I+I2-3I+I1-3I = I1-2I+I2-3I+I1-3I = 1+1+2= 1+1+2 = 4= 4
bei der L1-Norm gehen alle Differenzwerte bei der L1-Norm gehen alle Differenzwerte gleichgewichtig in die Berechnung eingleichgewichtig in die Berechnung ein
= größte Ähnlichkeit; = größte Ähnlichkeit; = größte = größte UnähnlichkeitUnähnlichkeit
r=2 - r=2 - Euklidische Distanz:Euklidische Distanz:= I1-2I= I1-2I2+I2-3I+I2-3I2+I1-3I+I1-3I2
= 1= 12+1+12+2+22 = 6= 6
stärkere Berücksichtigung großer stärkere Berücksichtigung großer Differenzwerte durch das QuadrierenDifferenzwerte durch das Quadrieren
Resultat: Wahl des Distanzmaßes beeinflusst Resultat: Wahl des Distanzmaßes beeinflusst Ähnlichkeitsreihenfolge der Ähnlichkeitsreihenfolge der UntersuchungsobjekteUntersuchungsobjekte
wichtig: vergleichbare Maßeinheiten müssen wichtig: vergleichbare Maßeinheiten müssen zugrunde liegen -> sonst Standardisierung!zugrunde liegen -> sonst Standardisierung!
QQ-Korrelations--Korrelations-koeffizientkoeffizient
berechnet die berechnet die Ähnlichkeit Ähnlichkeit zwischen 2 zwischen 2 Objekten unter Objekten unter Berücksichtigung Berücksichtigung aller Variablen aller Variablen eines Objekteseines Objektes
= größte = größte Ähnlichkeit; Ähnlichkeit;
= größte = größte UnähnlichkeitUnähnlichkeit
Warum ist Rama und Weihnachtsbutter nach der Warum ist Rama und Weihnachtsbutter nach der Minkowski-Minkowski-MetrikMetrik am unähnlichsten, aber nach dem am unähnlichsten, aber nach dem Q-Q-KorrelationskoeffizientenKorrelationskoeffizienten am ähnlichsten? am ähnlichsten?
Verwendung von Distanzmaßen, wenn der absolute Abstand Verwendung von Distanzmaßen, wenn der absolute Abstand zw. Objekten interessiert und Unähnlichkeit steigt mit der zw. Objekten interessiert und Unähnlichkeit steigt mit der zunehmenden Distanz -> z.B. ähnliche Umsatzzunehmenden Distanz -> z.B. ähnliche Umsatzgröße/-höhegröße/-höhe im Zeitverlaufim Zeitverlauf
Verwendung von Ähnlichkeitsmaßen, wenn es um den Verwendung von Ähnlichkeitsmaßen, wenn es um den Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, unabhängig vom Niveau -> z.B. ähnliche unabhängig vom Niveau -> z.B. ähnliche UmsatzUmsatzentwicklungenentwicklungen im Zeitverlauf im Zeitverlauf
2.1.3. Gemischt skalierte 2.1.3. Gemischt skalierte VariablenstrukturVariablenstruktur
A) A) für die metrischen und nicht-für die metrischen und nicht-metrischen Variablen werden die metrischen Variablen werden die Ähnlichkeitskoeffizienten bzw. Distanzen Ähnlichkeitskoeffizienten bzw. Distanzen getrennt berechnetgetrennt berechnet Gesamtähnlichkeit = ungewichteter oder Gesamtähnlichkeit = ungewichteter oder
gewichteter Mittelwert der berechneten gewichteter Mittelwert der berechneten GrößenGrößen
z.B.: Rama und z.B.: Rama und Flora: Flora:
M-Koeffizient M-Koeffizient Distanz = 1-0,7 = Distanz = 1-0,7 = 0,30,3
bei den metr. bei den metr. Eigenschaften Eigenschaften quadrierte quadrierte euklidische euklidische Distanz = 4Distanz = 4=> ungewichtetes => ungewichtetes arithmet. Mittel: arithmet. Mittel: 2,152,15=> Gewichtung => Gewichtung nach metr. und nach metr. und nicht-metr. nicht-metr. AbstandAbstand
B)B) Transformation von Transformation von einem höheren in ein einem höheren in ein niedrigeres Skalenniveauniedrigeres Skalenniveau Dichotomisierung: Dichotomisierung:
Preis bis zu 1,59€ = 0, ab Preis bis zu 1,59€ = 0, ab 1,60€ = 11,60€ = 1= hoher Info-verlust, willkürl. = hoher Info-verlust, willkürl. Festlegung der Schnittstelle?Festlegung der Schnittstelle?
Intervalle bildenIntervalle bildenoder: oder: Preis teurer als 1,40 €? Preis teurer als 1,40 €? ja = 1, nein = 0ja = 1, nein = 0Preis teurer als 1,70 €? Preis teurer als 1,70 €? ja = 1, nein = 0…ja = 1, nein = 0…
je kleiner die je kleiner die Klassenspanne, desto Klassenspanne, desto geringer der Info-verlustgeringer der Info-verlust
Verzerrungsgefahr durch Verzerrungsgefahr durch falsche Gewichtungfalsche Gewichtung
2.2. Auswahl des 2.2. Auswahl des FusionierungsalgorithmusFusionierungsalgorithmus
Zusammenfassung zu Gruppen aufgrund der Zusammenfassung zu Gruppen aufgrund der ÄhnlichkeitswerteÄhnlichkeitswerte
die (agglomerative) Clusteranalyse fasst die die (agglomerative) Clusteranalyse fasst die betrachteten Fälle so lange zusammen, bis alle betrachteten Fälle so lange zusammen, bis alle Fälle am Ende in einer Gruppe enthalten sindFälle am Ende in einer Gruppe enthalten sind
mögliche Unterscheidung vonmögliche Unterscheidung von partitionierenden Verfahrenpartitionierenden Verfahren hierarchische Verfahrenhierarchische Verfahren
2.2.1. Partitionierende Verfahren2.2.1. Partitionierende Verfahren
vorgegebene Gruppeneinteilungvorgegebene Gruppeneinteilung gehen von einer gegebenen Gruppierung der gehen von einer gegebenen Gruppierung der
Objekte ausObjekte aus Umordnung mit Hilfe eines Umordnung mit Hilfe eines
Austauschalgorithmus zwischen den Gruppen Austauschalgorithmus zwischen den Gruppen bis zum Optimumbis zum Optimum
Beenden der Clusterung, wenn alle Objekte Beenden der Clusterung, wenn alle Objekte bezügl. ihrer Verlagerung untersucht wurden und bezügl. ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums sich keine Verbesserung des Varianzkriteriums mehr erreichen lässtmehr erreichen lässt-> Abbruch muss erfolgen, sonst zu viele -> Abbruch muss erfolgen, sonst zu viele MöglichkeitenMöglichkeiten-> lokales Optima erreicht statt globales Optima-> lokales Optima erreicht statt globales Optima
2 Entscheidungsprobleme bei „Veränderung der 2 Entscheidungsprobleme bei „Veränderung der Startpartition“:Startpartition“:1. 1. Festlegen, auf wie viele Gruppen die Festlegen, auf wie viele Gruppen die Objekte verteilt werden sollenObjekte verteilt werden sollen2. 2. Festlegen des Modus, nach dem die Festlegen des Modus, nach dem die Objekte auf die Startgruppen zu verteilen sind Objekte auf die Startgruppen zu verteilen sind (per Zufallszahlentabelle, entsprechend der (per Zufallszahlentabelle, entsprechend der Reihenfolge ihrer Nummerierung,…)Reihenfolge ihrer Nummerierung,…)
partitionierende Verfahren zeichnen sich durch partitionierende Verfahren zeichnen sich durch größere Variabilität aus gegenüber größere Variabilität aus gegenüber agglomerativen hierarchischen Verfahrenagglomerativen hierarchischen Verfahren
partitionierende Verfahren sind in praktischen partitionierende Verfahren sind in praktischen Anwendungen geringer verbreitetAnwendungen geringer verbreitetGründeGründe::- Ergebnisse werden verstärkt durch die - Ergebnisse werden verstärkt durch die Zielfunktion beeinflusstZielfunktion beeinflusst- die häufig subjektive Begründung der Wahl - die häufig subjektive Begründung der Wahl der Startposition kann Ergebnis beeinflussender Startposition kann Ergebnis beeinflussen- nur lokales Optima erreichbar- nur lokales Optima erreichbar
2.2.2. Hierarchische 2.2.2. Hierarchische
VerfahrenVerfahren
2.2.2.1. Ablauf der 2.2.2.1. Ablauf der agglomerativen agglomerativen VerfahrenVerfahren
agglomerative agglomerative Verfahren - feinste Verfahren - feinste Partition ist Partition ist AusgangspunktAusgangspunkt-> -> Zusammenfassung Zusammenfassung von Gruppenvon Gruppen
Unterschiede zw. den aggl. Verfahren ergeben sich Unterschiede zw. den aggl. Verfahren ergeben sich nur daraus, wie Distanzen ermittelt werdennur daraus, wie Distanzen ermittelt werden
Distanz zw. Objekten P+Q zu irgendeiner Gruppe R:Distanz zw. Objekten P+Q zu irgendeiner Gruppe R:
D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G * ID(R;P)-D(R,Q)I* ID(R;P)-D(R,Q)I
mit: mit: D(R,P): Distanz zwischen den Gruppen R und PD(R,P): Distanz zwischen den Gruppen R und PD(R,Q):D(R,Q): Distanz zwischen den Gruppen R und QDistanz zwischen den Gruppen R und QD(P,Q):D(P,Q): Distanz zwischen den Gruppen P und QDistanz zwischen den Gruppen P und Q
2.2.2.2. Vorgehensweise der Verfahren 2.2.2.2. Vorgehensweise der Verfahren „Single-Linkage“, „Complete-Linkage“ und „Single-Linkage“, „Complete-Linkage“ und „Ward“„Ward“
Single-Linkage-VerfahrenSingle-Linkage-Verfahren vereinigt die Objekte, die die kleinste Distanz vereinigt die Objekte, die die kleinste Distanz
aufweisenaufweisen Nearest-Neighbour-VerfahrenNearest-Neighbour-Verfahren SLV zieht als neue Distanz zwischen zwei SLV zieht als neue Distanz zwischen zwei
Gruppen immer den kleinsten Wert der Gruppen immer den kleinsten Wert der Einzeldistanzen heran Einzeldistanzen heran -> ist dadurch geeignet, -> ist dadurch geeignet, „Ausreißer“ zu erkennen„Ausreißer“ zu erkennen
neigt dazu, viele kleine und wenig große neigt dazu, viele kleine und wenig große Gruppen zu bildenGruppen zu bilden-> Tendenz zur Kettenbildung-> Tendenz zur Kettenbildung
Complete-Linkage-VerfahrenComplete-Linkage-Verfahren
die größten die größten Abstände Abstände werden als werden als Distanzen Distanzen herangezogenherangezogen= Furthest-= Furthest-Neighbour-Neighbour-VerfahrenVerfahren
Abstand Abstand entspricht jetzt entspricht jetzt dem größten dem größten EinzelabstandEinzelabstand
tendiert eher zur Bildung kleiner Gruppentendiert eher zur Bildung kleiner Gruppen nicht zur Entdeckung von „Ausreißern“ nicht zur Entdeckung von „Ausreißern“
geeignet, aufgrund der Verwendung der geeignet, aufgrund der Verwendung der größten Distanzen der Einzelwertegrößten Distanzen der Einzelwerte
Ward-VerfahrenWard-Verfahren
Ziel: Vereinigung derjenigen Objekte, die die Ziel: Vereinigung derjenigen Objekte, die die Streuung einer Gruppe möglichst wenig erhöhenStreuung einer Gruppe möglichst wenig erhöhen-> dadurch Bildung möglichst homogener -> dadurch Bildung möglichst homogener ClusterCluster
als Heterogenitätsmaß wird Varianzkriterium als Heterogenitätsmaß wird Varianzkriterium verwendet = Fehlerquadratsumme (FQS)verwendet = Fehlerquadratsumme (FQS)
Berechnung der quadr. euklid. Distanz zwischen Berechnung der quadr. euklid. Distanz zwischen allen Objektenallen Objekten
FQS im ersten Schritt = 0, da jedes Obj. eigene FQS im ersten Schritt = 0, da jedes Obj. eigene Gruppe -> noch keine StreuungGruppe -> noch keine Streuung
4*0,5 = 4*0,5 = 22 (=FQS) (=FQS)
6,667*0,5 = 3,3336,667*0,5 = 3,333 3,333+2 = 3,333+2 = 5,3335,333
11*0,5 = 5,511*0,5 = 5,5 5,5+5,333 = 5,5+5,333 = 10,83310,833
Ward-Verfahren Ward-Verfahren verwendet ein Distanzmaßverwendet ein Distanzmaß Variablen müssen metrisch seinVariablen müssen metrisch sein keine Ausreißer keine Ausreißer unkorrelierte Variablen wichtigunkorrelierte Variablen wichtig Erwartung gleich großer GruppenErwartung gleich großer Gruppen !!! lang gestreckte Gruppen oder Gruppen mit kleiner !!! lang gestreckte Gruppen oder Gruppen mit kleiner
Elementzahl nicht erkennbar !!!Elementzahl nicht erkennbar !!! Empfehlung: Empfehlung:
- zuerst SLV zum Finden von Ausreißern- zuerst SLV zum Finden von Ausreißern- Ausreißer „eliminieren“- Ausreißer „eliminieren“- reduzierte Objektmenge erneut untersuchen - reduzierte Objektmenge erneut untersuchen mit einem anderen agglomerativen Verfahrenmit einem anderen agglomerativen Verfahren- Auswahl des Verfahrens hat vor dem - Auswahl des Verfahrens hat vor dem Hintergrund der jew. Anwendungssituation zu Hintergrund der jew. Anwendungssituation zu erfolgenerfolgen
2.3. Bestimmung der Clusterzahl2.3. Bestimmung der Clusterzahl
Entscheidung, welche Clusteranzahl „beste“ Entscheidung, welche Clusteranzahl „beste“ Lösung ist und verwendet werden sollLösung ist und verwendet werden soll
Lösen des Zielkonflikts zwischen Lösen des Zielkonflikts zwischen Handhabbarkeit und HomogenitätsanforderungHandhabbarkeit und Homogenitätsanforderung
Bestimmung der Clusterzahl sollte nach Bestimmung der Clusterzahl sollte nach statistischen Kriterien erfolgen, statistischen Kriterien erfolgen, nicht nach sachlogischen Überlegungennicht nach sachlogischen Überlegungen
zur Unterstützung der Entscheidung kann die zur Unterstützung der Entscheidung kann die Entwicklung des Heterogenitätsmaßes Entwicklung des Heterogenitätsmaßes betrachtet werden (-> ist beim Ward-Verfahren betrachtet werden (-> ist beim Ward-Verfahren die Fehlerquadratsumme)die Fehlerquadratsumme)
graphische Verdeutlichung liefert graphische Verdeutlichung liefert DendrogrammDendrogramm
Heterogenitätsentwicklung wird gegen die Heterogenitätsentwicklung wird gegen die zugehörige Clusterzahl in einem zugehörige Clusterzahl in einem Koordinatensystem abgetragen Koordinatensystem abgetragen -> 4-Cluster-Lösung-> 4-Cluster-Lösung
LiteraturLiteratur
Backhaus, Klaus u.a. (2003): Multivriate Analysemethoden. Eine Anwendungsorientierte Einführung, Berlin.
Jahnke, Hermann: Clusteranalyse als Verfahren der schließenden Statistik, Göttingen.
Bacher, J. (1994): Clusteranalyse. Anwendungsorientierte Einführung, München Wien.