methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll –...

15
09.06.2009 1 methodenlehre ll – Multiple Regression Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple Regression Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Was ist multiple lineare Regression? (Prädiktoren) Annahme: Der Zusammenhang zwischen allen Variablen ist linear (die multiple Regression ist die direkte Anwendung des ALM) Ergebnis der Analyse: Thomas Schäfer | SS 2009 Ergebnis der Analyse: Geradengleichung bzw. Koeffizienten Gütemaße Signifikanztest 2

Transcript of methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll –...

Page 1: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

1

methodenlehre ll – Multiple Regression

• Multiple Regression

Thomas Schäfer | SS 2009 1

methodenlehre ll – Multiple Regression

Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Was ist multiple lineare Regression?

(Prädiktoren)

Annahme: Der Zusammenhang zwischen allen Variablen ist linear (die multiple Regression ist die direkte Anwendung des ALM)

Ergebnis der Analyse:

Thomas Schäfer | SS 2009

Ergebnis der Analyse: • Geradengleichung bzw. Koeffizienten• Gütemaße• Signifikanztest

2

Page 2: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

2

methodenlehre ll – Multiple Regression

Notation

y x1, x2, ..., xJ

R d R ( )Regressand Regressor(en)

AV UV

KriteriumKriteriumsvariable

Prädiktor(en)Prädiktorvariable(n)

Das Kriterium wird auf die Prädiktoren regrediert “

Thomas Schäfer | SS 2009 3

„Das Kriterium wird auf die Prädiktoren regrediert.„Man führt eine Regression des Kriteriums auf die Prädiktoren durch.“

methodenlehre ll – Multiple Regression

Einsatz der Regressionsanalyse:• Zusammenhänge quantitativ beschreiben 

und erklären

Ziel und Vorgehensweise

für uns das 

b iund erklären

• Werte der abhängigen Variable schätzen

Vorgehensweise:• Festlegung von Kriterium & Prädiktor –

mehrere Prädiktoren zusammen bilden ein sogenanntes ModellS hä d i f k i f d

Hauptergebnis

eher praktische 

Anwendung, für uns 

nicht so interessant

Thomas Schäfer | SS 2009

• Schätzung der Regressionsfunktion auf der Basis empirischer Daten 

• Ermittlung der Regressionsparameter • Prüfung der Güte der geschätzten Funktion

4

macht SPSS für uns

Page 3: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

3

methodenlehre ll – Multiple Regression

Multiple Regression und ALM

ALM:

exbxbxbay +++++= ...332211

Multiple Regression:

konkreterWert einer Person da der Fehler nicht bekannt ist,kann y nur geschätzt werden

Thomas Schäfer | SS 2009 5

JJk xbxbxbby ++++= ...ˆ 22110

geschätzterWert einer Person

methodenlehre ll – Multiple Regression

ŷ   = Schätzung des Kriteriums

b0 = Regressionskonstante

Vorhersage des Kriteriums anhand eines Prädiktors 

b1 = Regressionskoeffizient

x   = Prädiktor

xbby 10ˆ +=ŷ

Thomas Schäfer | SS 2009 6

x

xy

ΔΔ

=ib

Page 4: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

4

methodenlehre ll – Multiple Regression

• wenn man über eine Person gar nichts weiß und ein Kriterium schätzen soll, dann ist der Mittelwert  M dieses Kriteriums von einer Vielzahl bekannter Personen die beste Schätzung

Was ist die Regressionskonstante bo?

einer Vielzahl bekannter Personen die beste Schätzung

• dieser Mittelwert steckt in der Regressionskonstante

y ykommt ein Prädiktor hinzu, verbessert sich die Vorhersage für die Person  – d.h., sie differenziert ausgehend vomMittelwert

Thomas Schäfer | SS 2009 7

ausgehend vom Mittelwert

der Schnittpunkt der Regressionsgerade entspricht dem Mittelwert und stellt die Regressionskonstante dar

M M b0

methodenlehre ll – Multiple Regression

• bei zwei Prädiktoren wird aus der Regressionsgerade eine Regressionsebene

Was passiert bei mehr als einem Prädiktor?

Regressionsebene

• der Mittelpunkt der Ebene stellt wieder die Regressionskonstante dar

• die vertikalen Abstände aller Punkte von der Ebene sind die R id

Thomas Schäfer | SS 2009

Residuen

8

22110ˆ xbxbby ++=

Page 5: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

5

methodenlehre ll – Multiple Regression

• bei nur einem Prädiktor sind das unstandardisierteRegressionsgewicht b und das standardisierte β identisch, sie entsprechen der Korrelation zwischen Prädiktor und Kriterium

Was passiert bei mehr als einem Prädiktor?

entsprechen der Korrelation zwischen Prädiktor und Kriterium

xbby 10ˆ +=

xy 10ˆ ββ +=

Kriterium

Thomas Schäfer | SS 2009

• bei mehreren Prädiktoren gilt das nur, wenn diese unkorreliertsind

9

y ββx1

methodenlehre ll – Multiple Regression

Unkorrelierte und korrelierte Prädiktoren

Kriterium Kriterium

unkorreliert korreliert

x2x1 x2x1

Thomas Schäfer | SS 2009 10

jedes r² leistet seinen eigenen Beitrag zur Vorhersage von Y

R² = r²1 +  r²2

jedes r² leistet nur zum Teil einen eigenen Beitrag zur Vorhersage von Y

R² < r²1 +  r²2

Page 6: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

6

methodenlehre ll – Multiple Regression

• Prädiktoren sind so gut wie immer korreliert• die Regressionsgewichte β geben dann den relativen Einfluss der 

Prädiktoren auf das Kriterium an

Was passiert bei mehr als einem Prädiktor?

Prädiktoren auf das Kriterium an• entscheidend ist ihre relative Größe ‐ das größte β symbolisiert den 

größten Einfluss• β kann prinzipiell zwischen ‐1 und 1 schwanken (extremere Betas 

weisen auf Probleme mit dem Modell hin)• Interpretation: ändert sich x um eine Standardabweichungseinheit, 

dann ändert sich y um β Standardabweichungseinheiten• das Modell wird mit Hinzunahme weiterer Prädiktoren immer

Thomas Schäfer | SS 2009

• das Modell wird mit Hinzunahme weiterer Prädiktoren immer besser, d.h., es kann immer mehr Varianz aufgeklärt werden (es sei denn, man hat Variablen ohne Vorhersagekraft in das Modell gegeben ‐ das bringt aber rechnerisch keine Nachteile)

11

methodenlehre ll – Multiple Regression

• aus den Daten einer Stichprobe lässt sich ableiten, wie gut für nicht bekannte Personen eine Schätzung der Kriteriumsvariable gemacht werden kann

Wie gut ist die Vorhersage?

• das entspricht der Frage, wie gut sich die Vorhersagegüte des Regressionsmodells auf die Population verallgemeinern lässt

• Globale Gütemaße zur Prüfung der Regressionsfunktion:– Bestimmtheitsmaße R und R²  – F‐Statistik– Standardschätzfehler

• Maße zur Prüfung der Regressionskoeffizienten:

Thomas Schäfer | SS 2009

• Maße zur Prüfung der Regressionskoeffizienten:– Beta‐Wert– t‐Wert

• Streudiagramme und Lowess‐Kurve

12

Page 7: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

7

methodenlehre ll – Multiple Regression

R: gemeinsame Korrelation  zwischen den Prädiktoren und dem Kriterium

Multipler Korrelationskoeffizient R und multipler Determinationskoeffizient R²

R²: Anteil der durch die Prädiktoren gemeinsam erklärten Varianz 

...2211++= rrR ββ

...212 ++= rrR ββ

wird meist als Hauptergebnis der Regression benutzt

Thomas Schäfer | SS 2009

Optimum: alle tatsächlichen Werte liegen auf der Regressionsgeraden (bzw. –ebene)  R = R2 =1

13

2211 rrR ββ

methodenlehre ll – Multiple Regression

• bleibt nach der Regression noch unaufgeklärte Varianz übrig –und das ist praktisch immer der Fall – hat diese zwei Ursachen:

Was steckt in der nicht‐aufgeklärten Varianz?

Ursachen:

– Messfehler

– andere Prädiktoren, die man nicht erfasst hat

• diese werden zum Residuum zusammengefasst

• typischerweise liegt R² zwischen ca. 60 und 90%

Thomas Schäfer | SS 2009 14

Page 8: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

8

methodenlehre ll – Multiple Regression

• Maß dafür, wie stark die vorhergesagten Werte im Durchschnitt von den tatsächlichen Werten abweichen. 

Standardschätzfehler (wie bei bivariater Regression)

• Optimum: alle tatsächlichen Werte liegen auf der Regressionsgerade (bzw. –ebene)  se = 0.

a) für standardisierte Werte 

Rse21−=

Thomas Schäfer | SS 2009

b) für Originalwerte

15

Rss ye21−=

methodenlehre ll – Multiple Regression

• Signifikanztest der prüft, ob das geschätzte Modell auch über Stichprobe hinaus für die Grundgesamtheit Gültigkeit besitzt

F‐Statistik

dfSS

dfSS

MSMSF

res

res

mult.regr

mult.regr

res

mult.regr

.

.

.

.

. ==∑ ⎟⎟

⎞⎜⎜⎝

⎛−=

iiregrmult yySS

2

..

∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛−=∧

iiires yySS

2

.

Thomas Schäfer | SS 2009 16

dfmult‐regr. = K

dfres. = N – K – 1 

Page 9: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

9

methodenlehre ll – Multiple Regression

• die Beta‐Werte allein liefern schon eine gut interpretierbare Information über die Größe des Einflusses

b h k f b h f ll

β‐Wert und t‐Test für β

• darüber hinaus kann man prüfen, ob ein Beta nur durch Zufall zustande kam, oder ob es auch für die Population zu erwarten ist

• dafür teilt man jedes Beta durch seinen Standardfehler:

β∧

=t t‐verteilt mit N – K – 1 df

Thomas Schäfer | SS 2009

• für jedes Beta kann auch ein Konfidenzintervall berechnet werden

17

σ β

methodenlehre ll – Multiple Regression

praktische Anwendung: zur Bestimmung konkreter Werte für Y

• Beispiel: welche Umsatzsteigerung in Euro bringt es einem k f l b b h h

Zwei Anwendungsgebiete der Regression

Verkaufsleiter, wenn er die Werbeausgaben um x% erhöht?

• diese Information steckt im unstandardisierten b

• außerdem wird die Regressionsgleichung benötigt

Anwendung in der Forschung: der theoretische Zusammenhang ist von Interesse

• hier sind konkrete Vorhersagen unwichtig

Thomas Schäfer | SS 2009

hier sind konkrete Vorhersagen unwichtig

• die Hauptinformationen stecken in den standardisierten Betas und dem R²

• die Regressionsgleichung ist nicht so wichtig

18

Page 10: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

10

methodenlehre ll – Multiple Regression

• Zusammenhänge müssen linear sein  Streudiagramme und Lowess‐Kurven begutachten  wenn nötig Potenzleiter anwenden

Voraussetzungen für die multiple Regression

• Modell ist möglichst vollständig: keine wichtigen Prädiktoren 

Thomas Schäfer | SS 2009

vergessen

• Daten sollten hinreichend multi‐normalverteilt sein

• Residuen sollten gleichverteilt sein (Homoskedastizität)

• Prädiktoren sollten nicht zu stark korrelieren (Multikolinearität)

19

methodenlehre ll – Multiple Regression

• alle Variablen müssen in ihrer Kombination normalverteilt sein

• Beispiel: bivariate Normalverteilung

Multinormalverteilung

Thomas Schäfer | SS 2009 20

Page 11: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

11

methodenlehre ll – Multiple Regression

• bei Multikolinearität sind die Prädiktoren so stark korreliert, dass sie eigentlich dasselbe messen

h h

Multikolinearität

• eine genaue Zuordnung von Beta‐Gewichten ist dann nicht mehr möglich

• Lösung: hoch‐korrelierte Prädiktoren zu Faktoren zusammenfassen (Faktorenanalyse)

Kriterium

Thomas Schäfer | SS 2009 21

x2x1

methodenlehre ll – Multiple Regression

• treten auf, wenn Variablen in das Modell aufgenommen werden, die gar nicht mit dem Kriterium korrelieren, 

Supressoreffekte

,aber mit einem Prädiktor

• sie „binden“ dann Varianz in diesem Prädiktor, die für die Vorhersage des Kriteriums ohnehin unnötig war

• das vergrößert scheinbar die aufgeklärte Varianz  die Vorhersagekraft des Prädiktors wird 

Thomas Schäfer | SS 2009

künstlich erhöht

22

Page 12: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

12

methodenlehre ll – Multiple Regression

• bei der hierarchischen Regression werden die Prädiktoren in einer bestimmten Reihenfolge in das Modell aufgenommen

k b b l

Hierarchische Regression

• diese kann man vorgeben oder SPSS überlassen

• der Sinn ist es, verschiedene Modelle miteinander zu vergleichen

• bei der schrittweisen Regression werden automatisch diejenigen Prädiktoren ins Modell aufgenommen, die signifikante Vorhersagekraft haben (alle anderen werden aus 

Thomas Schäfer | SS 2009

dem Modell entfernt)

• rechnerisch kommen aber alleMöglichkeiten zum selben Ergebnis!

23

methodenlehre ll – Multiple Regression

Zusammenfassung Multiple Regression

Thomas Schäfer | SS 2009 24

Page 13: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

13

methodenlehre ll – Multiple Regression

Moderation und Mediation sind Möglichkeiten zur Prüfung komplexerer Zusammenhänge zwischen Variablen sowie zur Entwicklung von Theorien sie beruhen auf der (multiplen)

Moderation und Mediation

Entwicklung von Theorien – sie beruhen auf der (multiplen) Regression

Mediation: der Zusammenhang zwischen zwei Variablen ist durch eine dritte Variable vermittelt, d.h., der Zusammenhang kommt völlig oder teilweise durch diese Mediatorvariablezustande

M d i Di Höh d Z h i h i

Thomas Schäfer | SS 2009

Moderation: Die Höhe des Zusammenhangs zwischen zwei Variablen verändert sich in Abhängigkeit der Ausprägung einer dritten Variable, der Moderatorvariable

25

methodenlehre ll – Multiple Regression

Mediation

der Zusammenhang

Thomas Schäfer | SS 2009 26

der Zusammenhang zwischen IQ und Berufserfolg  ist durch das Arbeitsgedächtnis vermittelt

Page 14: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

14

methodenlehre ll – Multiple Regression

Komplette und partielle Mediation

Thomas Schäfer | SS 2009 27

methodenlehre ll – Multiple Regression

Moderation

der Zusammenhang zwischen IQ und Berufserfolg

Thomas Schäfer | SS 2009 28

zwischen IQ und Berufserfolg verändert sich je nach Jobkomplexität

Page 15: methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll – Multiple Regression • Multiple Regression Thomas Schäfer | SS 2009 1 methodenlehre ll – Multiple

09.06.2009

15

methodenlehre ll – Multiple Regression

Beispiel: Welche Ursachen hat Musikpräferenz?

Kommunikationβ = .18*

Selbstreflektion

Emotion

Erregung

Musikpräferenz

β = .31*

β = .06

β = .17*

Thomas Schäfer | SS 2009 29

Kultur

Bekanntheitβ = .18*

β = .003

R² = .66*p < .001