Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS...

87
springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 2015 | 3., überarbeitete und erweiterte Auflage

Transcript of Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS...

Page 1: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

springer-gabler.de

Springer Gabler PLUS

Zusatzinformationen zu Medien von Springer Gabler

Deskriptive Statistik und Explorative Datenanalyse

Eine computergestützte Einführung mit Excel, SPSS und STATA

2015 | 3., überarbeitete und erweiterte Auflage

Page 2: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

© Cleff | Deskriptive Statistik und Explorative Datenanalyse, 3. Auflage 2015Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

2

Springer Gabler | Wiesbaden 2015

Foliensammlung zu den Kapitel 6 bis 8

Page 3: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Deskriptive Statistik und Explorative Datenanalyse

(6) Indexrechnung

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Page 4: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 2

Indexrechnung Einführung

Bisher: Mit Hilfe einer Reihe von möglichen unabhängigen Variablen wird der Absatz eines Kleides prognostiziert.

Dabei haben sich die Merkmalsausprägungen auf ein und denselben Zeitpunkt bezogen, denn zur Bestimmung der Absatzmenge (als abhängige Variable) wurde die Größe der Abbildung im Katalog (als unabhängige Variable) zum selben Zeitpunkt bzw. zum selben Zeitraum herangezogen.

Beziehen sich alle Informationen auf den selben Zeitraum, spricht man von einer Querschnittsanalyse (engl.: cross-section analysis).

Page 5: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 3

Indexrechnung Einführung

Werden die Daten hingegen zeitlich geordnet analysiert, spricht man von einer Zeitreihenanalyse (engl.: time series analysis) oder einer Längsschnittanalyse(engl.: longitudinal-section analysis) .

Voraussetzung: Die abhängigen und unabhängigen Variablen eines Datensatzes können jeweils einem bestimmten Zeitpunkt (t=1,…, n) zugeordnet werden.

Im einfachsten Fall: Die Zeit selbst wird als unabhängige Variable auf der x-Achse aufgetragen. Die Zeitreihe ist in diesem Fall nichts anderes als die Ver-bindung von gleichartigen Sachverhalten über verschiedene Zeiträume hinweg

Preisentwicklung von Dieselkraftstoff.

Page 6: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 4

Indexrechnung Einführung

Beispiele für kompliziertere Fälle von Zeitreihenanalysen:

Beispiel 1: Konsum in der nächsten Periode hängt nicht von der Zeit selbst, sondern – je nach theoretischem Ansatz - vom Einkommen in der gleichen oder einer Vorperiode ab.

Beispiel 2: Zum Zeitraum t ergibt sich die Nachfrage nach einem bestimmten Konsumgut yt aus dem Preis (pt), den Werbeausgaben (at) der selben Periode und der Nachfrage aus der Vorperiode (yt-1).

Ist die unabhängige Variable auf der x-Achse also nicht die Zeitvariable selbst, sondern eine an die Zeit gebundene (andere) unabhängige Variable, wird das methodische Vorgehen sehr viel aufwändiger.

Deshalb: Beschränkung auf die einfache Technik der Zeitreihen: Die Indexrechnung!

Page 7: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 5

Indexrechnung Einführung

Grund für den „medialen Erfolg“ der Indexrechnung:

Indexrechnung findet Eingang in die tägliche Presse (z.B. die Entwicklungen der Arbeitslosenquote, der Preise und des Wirtschaftswachstums, DAX, Dow Jones) und werden mit Spannung erwartet.

Eine zeitpunktbezogene Betrachtung wird durch Zeitreihen dynamisiert.

Swoboda (1971, S. 96) verwendet den treffenden Vergleich eines Filmes, der ebenfalls aus Einzelbildern zusammengesetzt ist, die durch das Hintereinanderabspielen eine Dynamik erzeugen, die Muster und Handlungen erkennen und im Hinblick auf die Zukunft ausmalen lassen.

Themen der Indexrechnung1. Preisindex2. Mengenindex3. Wertindex4. Rechentechniken der Indexrechnung (Umbasieren; Deflationieren)

Page 8: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 6

Indexrechnung Preisindex: Preisrelativ

Einfachster Ansatz: Preisrelativ (engl.: price relative) Die (ungewichtete) prozentuale Preisveränderung im Vergleich zu einem „Basisjahr“

Was muss ich tun, wenn ich eine Veränderung bzgl. eines anderen Basisjahres berechnen möchte?

Beispiel: Dieselpreisveränderung zwischen 2001 und 2007:

Page 9: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 7

Indexrechnung Preisindex: Umbasieren von Preisrelativen

Umbasieren von Preisrelativen auf ein anderes Basisjahr:

Wie ist die Prozentuale Veränderung zwischen 2005 und 2007 (bezogen auf das Basisjahr 2005), wenn ich den Wert aus der Indexreihe des Basisjahres 2001 berechnen möchte?

Lösung: Die alte Preisrelativreihe mit dem Basisjahr 2001 wird durch das Preisrelativ des Jahres 2005 geteilt.

Alle Werte der Reihe mit dem Basisjahr 2001 wer-den durch 1,30 geteilt

Page 10: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 8

Indexrechnung Preisindex: Umbasieren von Preisrelativen

Umbasieren von Preisrelativen auf ein anderes Basisjahr:

Wie ist die Prozentuale Veränderung zwischen 2004 und 2007 (bezogen auf das Basisjahr 2004), wenn ich den Wert aus der Indexreihe des Basisjahres 2001 berechnen möchte?

Lösung: Die alte Preisrelativreihe mit dem Basisjahr 2001 wird durch das Preisrelativ des Jahres 2004 geteilt.

Grund für die Darstellung alles Indexreihe. Indexreihen machen dynamische Entwicklungen vergleichbar.

Page 11: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 9

Indexrechnung Preisindex: Vergleich von Indexreihen

Indexreihen machen dynamische Entwicklungen vergleichbar.

Page 12: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 10

Indexrechnung Preisindex bei heterogenen Produktgruppen

Das dargestellte Preisrelativ eines homogenen Gutes ist nicht mehr anwendbar, wenn heterogene Produktgruppen vorliegen!

Beispiel: Wie haben sich die Preise aller Treibstoffarten im Aggregat (Diesel, Benzin und Superbenzin) entwickelt?

Lösung: Der gewichtete aggregierte Preisindex (engl.: weighted aggregated price index).

Idee: Definition von sog. „Warenkörben“, deren Preisentwicklung dann als Index dargestellt werden können.

Die Vergleichbarkeit von Preisen unterschiedlicher Perioden bleibt nur dann gewährleistet, wenn die Zusammensetzung des Warenkorbes und die Gewichtungen der im Warenkorb enthaltenen Produkte über den Zeitverlauf unverändert bleiben (engl.: fixed-weighted aggregated price index).

Page 13: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 11

Indexrechnung Preisindex bei heterogenen Produktgruppen

Beispiele für Warenkörbe:Verbraucherpreisindex für die Bundesrepublik Deutschland vom Statistischen Bundesamt: Er umfasst ca. 700 Produkte des Alltags, für die monatlich Preise ermittelt werden. Dabei gehen die einzelnen Preise nur mit einer bestimmten Gewichtung ein, die sich aus dem Verbrauch eines „durchschnittlichen Konsumenten“ aus einem „repräsentativen“ deutschen Haushalt bestimmt. Beispielsweise beträgt der Anteil der Kaltmietpreise 20,3 Prozent im Verbraucherpreisindex. In Abweichung vom Durchschnittskonsumenten können individuell unterschiedliche Lebensweisen natürlich auch zu anderen „persönlichen Teuerungsraten“ führen

Annahme aus unserem Treibstoffbeispiel: Warenkorb wird definiert durch eine festgelegte Menge Diesel, Normal- und Superbenzin

Problem: I.d.R. verändern sich Mengenverhältnisse. Welche Mengen sollen für den Warenkorb angenommen werden? Die aus der Basisperiode oder die aus der Berichtsperiode?

Page 14: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 12

Indexrechnung Preisindex nach Laspeyres

Werden die Gewichte aus dem durchschnittlichen Verbrauch der Basisperiode (t=0) ermittelt, handelt es sich um den – weltweit wohl bekanntesten und auch vom Statistischen Bundesamt verwendeten - Index nach Laspeyres:

Nicht selten werden Indexzahlen mit dem Wert 100 oder 1.000 (DAX) multipliziert. So gibt das Statistische Bundesamt die Inflation durch den mit 100 multiplizierten Wert von an:

Im weiteren Verlauf werden die Indexwerte nur dann mit 100 multipliziert, wenn dies ausdrücklich angegeben ist.

Page 15: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 13

Indexrechnung Preisindex nach Laspeyres

Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn die Gewichtungen – und somit die Verbrauchsanteile für die verschiedenen Kraftstoffe - seit 2001 gleich geblieben wären.

Angenommenes Mengen-verhältnis bei Laspeyres

Zähler: Preise der Beobachtungsperiode t=2007 (pi,2007) für Diesel, Benzin und Superbenzin werden mit den Verbrauchsmengen aus der Basisperiode 2001 qi,2001 gewichtet und aufaddiert.

Nenner: Addition der mit den Preisen der Basisperiode (pi,2001) bewerteten Anteile der Basisperiode im Nenner

Page 16: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 14

Indexrechnung Preisindex nach Laspeyres

Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn die Gewichtungen – und somit die Verbrauchsanteile für die verschiedenen Kraftstoffe - seit 2001 gleich geblieben wären.

Anstelle der absoluten Marktmengen können auch die Verbrauchsanteile verwendet werden

Das Preisniveau ist somit von 2001 bis 2007 um 36,5 Prozent angestiegen!

Page 17: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 15

Indexrechnung Preisindex nach Laspeyres

Generelle Probleme bei aggregierten Preisniveaus

Repräsentativität der Zusammensetzung des Warenkorbes: Es interessiert einen Autofahrer eines Benzinfahrzeuges nicht, wenn der Preis für Diesel zunimmt, der Preis für Benzin aber unverändert bleibt. Er wird dann vielleicht mit Verwunderung vernehmen, dass der Index für die durchschnittlichen Kraftstoffpreise angeblich steigt. Je unterschiedlicher Verbrauchsstrukturen sind, umso mehr tritt dieses Problem zu Tage. In der Gesamtsumme aller Haushalte ist die Preisentwicklung allerdings durchaus stimmig abgebildet.

Problem der Verkaufsstelle und der Qualität des Produktes:Es existieren regionale Preisunterschiede. Aber selbst innerhalb eines Stadtviertels kann der Preis eines Produktes um mehrere Eurocent differieren, sodass bei veränderter Wahl der Verkaufsstätten die Preisschwankungen künstlich erzeugt würden. Die Preisermittler der statistischen Ämter sind deshalb dazu angehalten, Verkaufsstellen und Produktqualitäten möglichst nicht zu wechseln.

Page 18: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 16

Indexrechnung Preisindex nach Laspeyres

Spezielle Probleme des Preisindex nach Laspeyres

Verbrauchsanteile von Produkten verändern sich im Zeitverlauf („Veraltende Warenkörbe“)

Produktsubstitution (insbesondere in schnelllebigen Branchen)

Anpassung der Warenkörbe durch die statistischen Ämter ca. alle 5 Jahre

Verkaufsstellenwechsel der Kunden (z. B. Tendenz zu Großmärkten)

Um veraltenden Warenkörben entgegen zu wirken, kann man auch den Preisindex nach Paasche verwenden, der für jede Periode von einem neuen Warenkorb ausgeht, dessen Verbrauchsanteile genau denen des Berichtsjahres entsprechen.

Page 19: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 17

Indexrechnung Preisindex nach Paasche

Werden die Gewichte aus dem durchschnittlichen Verbrauch der Berichtsperiode(t=t) ermittelt, handelt es sich um den – weltweit wohl bekanntesten und auch vom Statistischen Bundesamt verwendeten - Index nach Paasche:

Zähler: Preis, den man für einen im Berichtsjahr vorliegenden Warenkorb im bezahlen muss.

Nenner: Preis, den man für einen im Berichtsjahr vorliegenden Warenkorb in einem zurückliegenden Basisjahr hätte bezahlen müssen.

Page 20: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 18

Indexrechnung Preisindex nach Paasche

Wie hat sich der gesamte Kraftstoffpreis im Jahr 2007 im Vergleich zum Basisjahr 2001 entwickelt, wenn der Warenkorb des Berichtsjahres unterstellt wird

Angenommenes Mengen-verhältnis bei Paasche

Page 21: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 19

Indexrechnung Preisindex: Vergleich Paasche und Lapeyres

Vergleicht man die Ergebnisse des Laspeyres Index (36,5 Prozent) mit denen des Paasche Index (37,2 Prozent), so liegt die Inflationsrate beim Paasche Index über der des Laspeyres Index

Ist dies der Fall, haben die Kunden zwischen den beiden Perioden ihre Nachfrage zu den Produkten, die sich - relativ gesehen - stärker verteuert haben, verschoben.

Dieselkraftstoff ist in absoluten Beträgen gerechnet nach wie vor billiger als die anderen Kraftstoffe, was wohl letztlich auch dessen Zunahme der Verbrauchsanteile von 50,5 Prozent auf 57,7 Prozent zwischen 2001 und 2007 erklärt. Allerdings beträgt die Preissteigerung rund 42 Prozent, während sich Normalbenzin nur um 32 Prozent und Superbenzin nur um 31 Prozent verteuerten.

Page 22: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 20

Indexrechnung Preisindex nach Fisher

Aufgrund dieser ökonomischen Rationalität liegt der Laspeyres Preisindex fast immer über dem Paasche Index, auch wenn dies – wie unser Beispiel gezeigt hat – nicht immer der Fall sein muss.

Aufgrund der divergierenden Ergebnisse schlug Irving Fisher (1867-1947) das geometrische Mittel aus dem Index nach Laspeyres und dem Index nach Paasche zur Berechnung des sogenannten Index nach Fisher vor:

Dieser beschreitet somit einen „diplomatisch ausgleichenden“ Weg zweier widerstreitender Konzepte, unterstellt allerdings unterschiedliche Warenkörbe mit verschiedenen Produkten und Gewichtungen, sodass ein eindeutiges Warenkorbkonzept fehlt.

Auch bleibt das generelle Problem der jährlich notwendigen Neudefinition der Verbrauchsanteile im Warenkorb für den Index nach Paasche bestehen, was letztlich eine Neuberechnung der Inflationsraten - auch der zurückliegenden Jahre - erfordert.

Page 23: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 21

Indexrechnung Aufgabe

In der nachfolgenden Tabelle ist für die Güter A, B, C und D die Preis- und Mengenentwicklung der Jahre 1 und 3 angegeben.

a. Berechnen Sie den Preisindex nach Laspeyres für das Berichtsjahr 3 mit dem Basisjahr 1! Interpretieren Sie die Ergebnisse!

b. Berechnen Sie den Preisindex nach Paasche für das Berichtsjahr 3 mit dem Basisjahr 1! Interpretieren Sie die Ergebnisse!

c. Warum ist die ausgewiesene Inflation i.d.R. beim Paasche Index geringer?d. Berechnen Sie den Preisindex nach Fisher für das Berichtsjahr 3 mit dem Basisjahr 1!e. Wie hoch ist die jährliche Preissteigerung in Prozent, wenn Sie den Preisindex nach

Laspeyres berechnet haben?

Page 24: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 22

Indexrechnung Aufgabe

a.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 14 Prozent.b.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 12 Prozent.

c. Die ausgewiesene Inflation beim Paasche Index ist deshalb geringer, weil sich die Nachfrage im Zeitverlauf zugunsten von Produkten mit einer unterdurchschnitt-lichen Preissteigerung verschoben hat. Substitution der Produkte mit überdurch-schnittlicher Preissteigerung durch Produkte B und C: Produkt B hat sich mit 3,7 Prozent nur unterdurchschnittlich verteuert, Produkt C sogar um 7,1 Prozent verbilligt. Beide Produkte zusammen haben in der dritten Periode einen um vier Prozentpunkte erhöhten Verbrauchsanteil.

Page 25: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 23

Indexrechnung Aufgabe: Preisindex

d.

Die Inflationsrate zwischen den beiden Beobachtungsjahren beträgt 13 Prozent.

e.

→ 6,77% Preissteigerungsrate.

Page 26: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 24

Indexrechnung Mengenindex: Mengenrelativ

Neben dem Preisindex gibt es eine Reihe wichtiger anderer Indizes, von denen besonders der Mengenindex (engl.: quantity index) bedeutsam ist:

Analog zum einfachen Preisrelativ lässt sich die Mengenveränderung eines homogenen Produktes durch ein ungewichtetes Mengenrelativ darstellen:

Bei (nicht homogenen Produkten) Warenkörben: Wie hat sich die – mit konstanten Preisen einer gegebenen Periode - gewichtete Menge eines definierten Warenkorbes zwischen einer Basisperiode und einer Beobachtungsperiode verändert (gewichtete aggregierte Mengenindex)?

Beispiel: Veränderung des Dieselkraftstoffabsatzes zwischen 2001 und 2003?

Page 27: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 25

Indexrechnung Mengenindex: nach Laspeyres/ Paasche / Fisher

Mengenindex nach Laspeyeres geht von einem in der Basisperiode definierten Warenkorb und den damit verbundenen konstanten Preisen aus.

Mengenindex nach Paasche legt den Warenkorb und die konstanten Preise der Beobachtungsperiode zugrunde.

Mengenindex nach Fischer

Page 28: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 26

Indexrechnung Mengenindex nach Laspeyres: Ein Beispiel

Wie hat sich beispielsweise der Kraftstoffabsatz zwischen 2001 und 2007 A) einerseits zu konstanten Preisen aus 2001 (Laspeyres) und B) andererseits zu konstanten Preisen aus 2007 (Paasche) entwickelt

Angenommene Preise bei Laspeyres

Das Ergebnis zeigt, dass der mit den Preisen der Basisperiode 2001 bewertete Kraftstoffabsatz (Mengenindex nach Laspeyres) in 2007 im Vergleich zu 2001 um 12,2 Prozent zurückgegangen ist!

Page 29: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 27

Indexrechnung Mengenindex nach Paasche: Ein Beispiel

Wie hat sich beispielsweise der Kraftstoffabsatz zwischen 2001 und 2007 A) einerseits zu konstanten Preisen aus 2001 (Laspeyres) und B) andererseits zu konstanten Preisen aus 2007 (Paasche) entwickelt

Angenommene Preise bei Paasche

Das Ergebnis zeigt, dass der mit den Preisen der Beobachtungs-periode 2007 gewichtete Kraftstoffabsatz um 11,7 Prozent zurückgegangen ist (Mengenindex nach Paasche

Page 30: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Der Wertindex – häufig auch als Umsatzindex bezeichnet - lässt sich weder allein aus dem Produkt von Laspeyres Preis- und Mengenindex noch allein aus dem Produkt von Paasches Preis- und Mengenindex ableiten. Nur das Produkt aus Fishers Preis- und Mengenindex ergibt tatsächlich den gültigen Wertindex. Alternativ kommt man allerdings auf das gleiche Ergebnis, wenn man entweder Paasches Mengenindex mit Laspeyres Preisindex, oder Laspeyres Mengenindex mit Paasches Preisindex multipliziert. Es gilt somit:

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 28

Indexrechnung Wertindex

Beispiel: Der Kraftstoffumsatz ist 2007 im Vergleich zu 2001 um 20,5 Prozent gestiegen. Die Berechnungen ergeben sich dabei wie folgt: Mengenindex nach Fischer

Page 31: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Entscheidungsträger sind an der realen – also der inflations-bereinigten - Veränderung von Kenngrößen interessiert, welche die Wertentwicklung zu jeweils konstanten Preisen ausdrückt.

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 29

Indexrechnung Deflationierung von Zeitreihen

Beispiel: Entwicklung der durchschnittlichen Lohnzahlungen pro Mitarbeiter in zwei Unternehmen, die in zwei verschiedenen Ländern mit jeweils unterschiedlichen Inflationsraten tätig sind.

Auf das Basisjahr 2000 bezogen nimmt in Unternehmen 1 der nominale Lohn zwischen 2003 und 2004 um 0,5 Prozent zu. Allerdings ist für den gleichen Zeitraum eine Inflation von 1,5 Prozent zu beobachten.

Page 32: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Die Berechnung der Preisbereinigung bzw. die Deflationierung erfolgt dabei durch Division der nominalen Werte durch den Preisindex.

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 30

Indexrechnung Deflationierung von Zeitreihen

Im Vorjahr beträgt der Wert noch 1.834,62 € (siehe Tabelle), sodass die Arbeitnehmer in 2004 einen Kaufkraftverlust hinnehmen müssen.

Page 33: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Das Statistische Bundesamt erstellt in regelmäßigen (zumeist fünfjährigen) Abständen einen neuen Warenkorb und trägt somit der großen Dynamik auf den Produktmärkten Rechnung.

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 31

Indexrechnung Umbasierung

Streng genommen ist eine Messung von Preis- und Mengenindizes nur bei Zugrundelegung ein und desselben Warenkorbes möglich, was allerdings eine Inflationsberechnung oder Deflationierung über eine längere Zeitreihe unmöglich machen würde

Letztlich lässt sich beim Umbasieren für jede Indexreihe ein beliebiges Jahr als Basisjahr festlegen, wodurch sich die Indexwerte aller Jahre gemäß folgender Vorschrift verändern

Aus diesem Grund kommt die Technik des Umbasierens und der Verkettung zum Einsatz.

Page 34: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Beispiel: Der Index für die Veränderung der realen Einkommenswerte im Unternehmen 2 basiert zunächst auf dem Jahr 2002 (siehe vorletzte Spalte).

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 32

Indexrechnung Umbasierung

Wollen wir diese Entwicklung nun auf das Basisjahr 2000 basieren, um sie mit der entsprechenden Indexreihe des Unternehmens 1 vergleichen zu können, müssen wir jeden Indexwert des Unternehmens 2 durch den Indexwert für das Jahr 2000 dividieren.

Page 35: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Verkettung ermöglicht, gleichartige Indizes mit unterschiedlichen und zeitlich begrenzten Warenkörben miteinander zu verknüpfen.

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 33

Indexrechnung Verkettung

Einzige Bedingung hierfür ist, dass sich jeweils zwei dieser Zeitreihen in einer Beobachtungsperiode () überlappen. Erfolgt die Verkettung in der Vorwärtsrechnung, bleibt der Index mit den „ältesten“ Beobachtungen (I1 zwischen den Zeitpunkten 0 und ) unverändert und die „jüngere“ überlappende Indexreihe (I2) wird auf diese umbasiert

Bei der Rückwärtsrechnung bleibt der Index mit den „jüngsten“ Beobachtungen (I2 ab dem Zeitpunkt ) unverändert und die Werte der „älteren“ überlappenden Indexreihe (I1) werden durch den überlappenden Wert des jüngeren Index (zum Zeitpunkt ) dividiert

Page 36: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 34

Indexrechnung Verkettung: Beispiel

Vorwärtsrechnung

Rückwärtsrechnung

Page 37: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Gegeben seien folgende Informationen:

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 35

Indexrechnung Aufgabe

1. Ermitteln Sie den nominalen Wertindex [2005=100]!2. Verketten Sie die gegebenen Preisentwicklungen auf das Basisjahr 2004!3. Basieren Sie die so gewonnene Indexreihe auf das Basisjahr 2005 um!4. Ermitteln Sie die reale Wertentwicklung und den realen Wertindex bezogen

auf das Basisjahr 2005!

Page 38: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 36

Indexrechnung Aufgabe: Lösung

Zu 1) Nominaler Wertindex [2005=100] für 2007:

Beispielhafte Berechnungen:

Zu 1 )

Zu 2) Verkettung der Preisentwicklung [2004=100] für 2008:

Zu 2 )

Zu 3) Umbasierung des Preisindex [2004=100] auf [2005=100] für 2008:

Zu 3 )

Page 39: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 37

Indexrechnung Aufgabe: Lösung

Zu 4) Reale Wertentwicklung für 2008:

Beispielhafte Berechnungen:

Zu 1 )

Zu 2 )

Zu 5) Reale Wertindex [2005=100] für 2008:

Zu 3 )

Zu 5 )Zu 4 )

Page 40: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Deskriptive Statistik und Explorative Datenanalyse

(7) Clusteranalyse

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Page 41: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 39

Schritte der Cluster-Analyse

1. Schritt: Die Idee der Cluster-Analyse

2. Schritt: Die Hierarchisch Agglomerative Cluster-Analyse

3. Schritt: Ein Beispiel zur Hierarchisch Agglomerative Cluster-Analyse

4. Schritt: Cluster-Analyse mit SPSS

5. Schritt: Übung zur Cluster-Analyse

6. Schritt: k-means-Cluster-Analyse

Page 42: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 40

Länder

Um

satz

BSP

Cluster -Analyse

Cluster in der Astronomie (“Sterne”)Cluster in der Physik (Quartz Kristalle)

Cluster in der Ökonomie (“Länder-Cluster”)Cluster in der Chemie (Atome)

Page 43: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 41

sale

s

Definition von Cluster

Gruppe von Objekten oder Subjekten…

1. … mit ähnlichen Eigen-schaften innerhalb der Gruppe

2. … aber mit wenig ähnlichen Eigenschaften zwischen den Gruppen

GNP

countries

Cluster-Analyse

Page 44: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 42GNP

sale

s

Die Eigenschaftensind vorher festzulegen

Zielsetzung der Clusteranalyse…

Identifikation homogener Gruppen/Cluster In einer Menge heterogener Objekte/Subjekte In Bezug auf Eigenschaften

countries

Cluster-Analyse

Page 45: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 43

Cluster-Analyse

Single Linkage „Shortest“ Single Linkage „chaining“ Complete Linkage „Longest“

Average Linkage Centroid Linkage Ward LinkageMin(with-in sum of sqares)

of all cluster

Page 46: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 44

Cluster-Analyse1. Schritt: Messung der Homogenität

Distance (D):“Differenz zwischen

zwei Objekten”

Two-Dimension-Case“Satz des Pythagoras”

a2 + b2 = c2

Dos Equis

BudweiserLight

Kalorien pro Liter

Kosten pro Liter

a2 c2

b2

Page 47: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 45

Cluster-Analyse1. Schritt: Messung der Homogenität

Dos Equis

BudweiserLight

Distance (D):“Differenz zwischen

zwei Objekten”

r-Dimensionaler Fall“Euclidische Distanz”

Page 48: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 46

Distanzen als Maß für Homogenität

D(Bud,Tub)=11

D(Bud, Deq)=1,04 ?

Cluster-Analyse1. Schritt: Messung der Homogenität

Page 49: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 47

Unterschiedliche Maßeinheiten erfordern Standardisierung (z-transformiert) der Eigenschaften.

Cluster-Analyse

BudweiserTuborg

Dos Equis

Z‐D(Bud,Tub)=0,34

Z‐D(Bud,DEq)=1,84

Page 50: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 48

Cluster-Analyse2. Schritt: Fusionierung – Hierarchischer Ansatz

0,009

Page 51: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 49

1. Neues Cluster: Heineken & Becks

2. Status quo: Jetzt 16 Cluster

Cluster-Analyse2. Schritt: Fusionierung – Hierarchischer Ansatz

Page 52: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 50

Cluster-Analyse

1

23

45

6

7

8

9

10

11

12

1314

15

Page 53: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 51

Cluster-Analyse

Stop-Kriterium

11

1314

Aufgabe: Finde die “richtige” Clusteranzahl

Page 54: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 52

Agglomeration Schedule

Cluster-Analyse2. Schritt: Fusionierung – Hierarchischer Ansatz

Distanz

Page 55: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 53

Cluster-Analyse2. Schritt: Fusionierung – Dendrogramm

Page 56: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 54

Cluster-Analyse3. Schritt: Festlegung der Cluster-Anzahl

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dis

tanz

zuw

achs

Anzahl der Cluster

Page 57: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 55

Cluster-Analyse

Cluster zugehörigkeit

Distanz Matrix

Bereich der Lösungen

Page 58: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 56

Cluster-Analyse

Page 59: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 57

Cluster-Analyse

1. Distanzmaße können durch Invertierung zu Ähnlichkeitsmaßen gemacht werden.

2. Es können nicht unterschiedliche Skalenniveaus in einer Clusteranalyse verwendet werden!

Page 60: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 58

Cluster-Analyse: Die wichtigsten Annahmen

Die Cluster-Analyse ist keine Inference-Technik, so dass keine Voraussetzungen an die Verteilung, Homoscedastizität etc. gestellt werden müssen

Representativität

Existieren zwei (oder mehrere) multikollineare Variablen, so ist die Gefahr groß, dass diese Dimension im Modell „doppelt“ (bzw. mehrfach) vertreten ist. Beobachtungen, die hinsichtlich dieser Dimension eine große Ähnlichkeit aufweisen, haben somit eine höhere Wahrscheinlichkeit in ein gemeinsames Cluster zu gelangen.

Die agglomerative Cluster-Analyse besitzt eine von der Anzahl der Beobachtungen quadratisch abhängige Rechenkomplexität: Bei n Beobachtungen sind n*(n-1)/2 Distanzen in einer Distanzmatrix zu ermitteln. Bei großen n sollte eine Clusterzentren-Analyse durchgeführt werden.

Page 61: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 59

Cluster-Analyse

K-Means

Page 62: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 60

Cluster-Analyse

Rechenkomplexität: (n*(n-1)/2) mögliche Distanzberechnungen = 6*(6-1)/2=15

5 4

2 1

3

Problem bei großen Stichproben

Page 63: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

(A) Berechnung der “Centroids”

Cluster-Analyse: K-Means

Anzahl der Cluster und die Clusterzuordnung der Fälle ist festgelegt

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Z‐Wert: Kalorien pro Liter

Z‐Wert: Kosten pro Liter

Cluster 1

Cluster 2

Cluster 3

(B) Veränderung der Zuordnung zum “nächsten” Centroid

(C) Gehe wieder zu (A). Wenn keine neu Zuordnung möglich war: STOP

Page 64: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

(A) Berechnung der “Centroids”

Cluster-Analyse: K-Means

Anzahl der Cluster und die Clusterzuordnung der Fälle ist festgelegt

(B) Veränderung der Zuordnung zum “nächsten” Centroid

(C) Gehe wieder zu (A). Wenn keine neu Zuordnung möglich war: STOP

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Page 65: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 63

Cluster-Analyse

Variablen

Anzahl der Cluster

K-means cluster

Page 66: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 64

Cluster-Analyse

Ergebnisse eines 2-Mean-Clustering

Page 67: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 65

Cluster -Analyse

Final cluster centres

Page 68: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Deskriptive Statistik und Explorative Datenanalyse

(8) Faktorenanalyse

© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Page 69: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 67

Faktorenanalyse

Multivariate Analysetechnik

Die Faktorenanalyse nutzt die Korrelation der einzelnen Items untereinander dazu, diese auf eine kleine Anzahl unabhängiger Dimensionen bzw. Faktoren zu aggregieren, ohne eine Eindimensionalität der verwendeten Skala vorauszusetzen.

Bereits an der Korrelationsmatrix der Einzelitems ist erkennbar, bei welchen Fragen die einzelnen Probanden ein ähnliches Antwortverhaltensmuster an den Tag legen. Diese können dann zu Faktoren gebündelt werden. Goal: to decrease the size of a dataset by reducing it to underlying dimensions/factors

Page 70: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 68

Faktorenanalyse

Faktor 1 Faktor 2

Page 71: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 69

Voraussetzungen der Faktorenanalyse

Intervalskalierte Variablen

Rohdaten sind zu standardisieren (wird häufig durch Statistiksoftware automatisch durchgeführt)

Anzahl der Beobachtungen sollte dem 10-fachen der Variablenanzahl entsprechen

Mindestens 100 Beobachtungen

Page 72: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 70

Faktorenanalyse: Ein Beispiel “Zahnpastaeigenschaften”

Page 73: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 71

Faktorenanalyse in 5 Schritten

1. Überprüfung ob Durchführung einer Faktorenanalyse sinnvoll ist

2. Extraktionsmethode

3. Bestimmung der Anzahl der Faktoren

4. Faktorrotation

5. Berechnung der Faktorwerte

Page 74: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 72

Schritt 1: Korrelationsmatrix

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 75: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 73

Schritt 1: Anti-Image-Kovarianz-Matrix (AIC)

Eine Faktorenanalyse sollte nicht durchgeführt werden, wenn bei der Anti-Image-Kovarianz-Matrix (AIC) mehr als 25 Prozent der Elemente unterhalb der Diagonalen ungleich Null bzw. größer als 0,09 sind.

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 76: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 74

Schritt 1: Bartlett’s Test of Sphericity

Der Bartlett-Test (engl.: Test of Sphericity) überprüft die Hypothese, ob die Variablen der Erhebung unkorreliert sind. Ist der p-Wert des Bartlett-Tests kleiner als 0,05, kann von einer Korrelation zwischen den Variablen/Items ausgegangen werden. Der Bartlett-Test geht dabei von einer Normalverteilung der Werte der einzelnen Items und damit von einer �2-Verteilung der Prüfgröße aus und überprüft die Zufälligkeit der Abweichung der Korrelationsmatrix von einer Einheitsmatrix. Eindeutiger Nachteil dieses Kriteriums ist die Unterstellung der Normalverteilung, da für die Durchführung einer Faktorenanalyse ansonsten keine Verteilungsannahmen getroffen werden müssen.

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 77: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 75

Schritt 1: Kaiser-Meyer-Olkin MSA

Allerdings ist die Eignung der Korrelationsmatrix nicht immer in ausreichendem Maße gegeben. Ein zu geringes KMO-Kriterium kann häufig darin begründet liegen, dass einige Items nicht hoch mit anderen Items der Itembatterie korrelieren.

Diese Items sollten dann aus der Faktorenanalyse entfernt werden

Um die Eignung eines gegebenen Items im Zusammenspiel mit den anderen Items besser bewerten zu können,lassen sich Item-spezifische Measures of sampling adequacy (MSA) Werte berechnen. SPSS weist diese im Rahmen der Berechnung der Anti-Image-Korrelations-matrix auf der Diagonalen aus.

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 78: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 76

Schritt 2: Hauptkomponentenanalyse

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Die Hauptkomponentenanalyse geht davon aus, dass sich die einzelnen Variablen durch eine Linearkombination der einzelnen Faktoren vollständig beschreiben lassen.

Dieser Ansatz unterstellt, dass sich die Varianzen der Items einer Itembatterie möglichst vollständig durch einzelne Faktoren abbilden lassen.

Definiert man die Kommunalitäten als den Anteil der Varianz eines Items, der durch alle Faktoren gemeinsam bestimmt wird, würde sich unter dieser Annahme eine Kommunalität von 100 Prozent bzw. von Eins ergeben müssen.

Page 79: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 77

Schritt 2: Hauptachsenanalyse

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Der Hauptachsenanalyse hingegen liegt die Annahme zugrunde, dass sich die Varianzen der einzelnen Variablen in zwei Komponenten zerlegen lassen: Ein Teil der Varianz eines Items bestimmt sich durch die gemeinsame Varianz aller in die Analyse eingeschlossenen Items, ein anderer Teil durch die nur bei dem betrachteten Item spezifisch auftretende Varianz.

Es kann also nicht die gesamte Varianz der beobachteten Variablen durch zugrunde liegende, gemeinsame Faktoren erklärt werden. Bei der Hauptachsenanalyse erklären die Faktoren nur die erste Varianzkomponente, nämlich den durch alle Variablen gemeinsam gebildeten Varianzanteil, sodass die Kommunalitäten zwangsläufig kleiner als Eins sein müssen.

Page 80: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 78

Schritt 3: Bestimmung Faktoranzahl

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Kaiser KriteriumBei diesem Kriterium werden alle Faktoren berücksichtigt, die einen Eigenwert von größer als Eins aufweisen. Da Eigenwerte kleiner als Eins die Faktoren kennzeichnen, deren Varianzerklärungsanteil kleiner ist als der eines einzelnen Items, ist dieses Kriterium nicht nur allgemein anerkannt, sondern vor allem plausibel in seiner Begründung.)

Scree PlotHierbei wird die Faktorenanzahl in aufsteigender Reihenfolge (1, 2, 3, 4…) auf der x-Achse aufgetragen. Der mit dem jeweiligen Faktor verbundene Eigenwert wird in abnehmender Reihenfolge auf der y-Achse aufgetragen. Die Faktorenanzahl, deren Punkte eine sich der Abszisse asymptotisch nähernde Gerade bilden, machen hinsichtlich der zusätzlichen Varianzerklärung durch die Faktoren in der Regel kaum mehr einen Sinn, sodass sich die zu wählende Faktorenanzahl an der Stelle ablesen lässt, an der der Screeplot einen Ellenbogen formt (Ellenbogen-Kriterium).

Page 81: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 79

Schritt 3: Bestimmung Faktoranzahl

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 82: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 80

Schritt 3: Bestimmung Faktoranzahl

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 83: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 81

Schritt 4: Rotation

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Zur Erleichterung der Interpretation wird die Faktormatrix in der Regel vorher rotiert.

Um die statistische Unabhängigkeit der Faktoren zu bewahren, erfolgt in den meisten Fällen eine rechtwinklige (orthogonale) Rotation.

Diese wird auch als Varimax Rotation bezeichnet.

Page 84: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 82

Schritt 4: Unrotierte Lösung

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Faktor 1

Faktor 2

Frischer Atem

Page 85: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

Faktor 1

Faktor 2

Frischer Atem

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 83

Schritt 4: Rotierte Lösung

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Page 86: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 84

Schritt 4: Rotation

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Nach Festlegung der Anzahl der Faktoren erfolgt die Interpretation der Faktoren Die gängige Regel ist, dass ein Item einem Faktor zugeordnet wird, wenn die

Faktorladung des entsprechenden Items größer als 0,5 ist.

Page 87: Deskriptive Statistik und Explorative - Springer · springer-gabler.de Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative

23.11.2015© Cleff | Deskriptive Statistik und Explorative Datenanalyse | Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 85

Schritt 5: Faktorwerte

Überprüfung FaktorExtraktion

BestimmungFaktoranzahl Rotation Faktorwerte

Nachdem nun die Anzahl sowie die inhaltliche Interpretation der Faktoren feststehen, interessiert in einem letzten Schritt vor allem die Frage, wie die einzelnen Befragten sich hinsichtlich der Faktoren unterscheiden. Hierzu liefern die auf regressionsanalytischem Wege erzeugten Faktorwerte Auskunft. Sie können für jeden Befragten individuell berechnet werden: