Multiple Regression Analysis Multiple Regression Model Sections 16.1 - 16.6.
methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll –...
Transcript of methodenlehre ll – Multiple Regression · PDF file09.06.2009 1 methodenlehre ll –...
09.06.2009
1
methodenlehre ll – Multiple Regression
• Multiple Regression
Thomas Schäfer | SS 2009 1
methodenlehre ll – Multiple Regression
Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)
Was ist multiple lineare Regression?
(Prädiktoren)
Annahme: Der Zusammenhang zwischen allen Variablen ist linear (die multiple Regression ist die direkte Anwendung des ALM)
Ergebnis der Analyse:
Thomas Schäfer | SS 2009
Ergebnis der Analyse: • Geradengleichung bzw. Koeffizienten• Gütemaße• Signifikanztest
2
09.06.2009
2
methodenlehre ll – Multiple Regression
Notation
y x1, x2, ..., xJ
R d R ( )Regressand Regressor(en)
AV UV
KriteriumKriteriumsvariable
Prädiktor(en)Prädiktorvariable(n)
Das Kriterium wird auf die Prädiktoren regrediert “
Thomas Schäfer | SS 2009 3
„Das Kriterium wird auf die Prädiktoren regrediert.„Man führt eine Regression des Kriteriums auf die Prädiktoren durch.“
methodenlehre ll – Multiple Regression
Einsatz der Regressionsanalyse:• Zusammenhänge quantitativ beschreiben
und erklären
Ziel und Vorgehensweise
für uns das
b iund erklären
• Werte der abhängigen Variable schätzen
Vorgehensweise:• Festlegung von Kriterium & Prädiktor –
mehrere Prädiktoren zusammen bilden ein sogenanntes ModellS hä d i f k i f d
Hauptergebnis
eher praktische
Anwendung, für uns
nicht so interessant
Thomas Schäfer | SS 2009
• Schätzung der Regressionsfunktion auf der Basis empirischer Daten
• Ermittlung der Regressionsparameter • Prüfung der Güte der geschätzten Funktion
4
macht SPSS für uns
09.06.2009
3
methodenlehre ll – Multiple Regression
Multiple Regression und ALM
ALM:
exbxbxbay +++++= ...332211
Multiple Regression:
konkreterWert einer Person da der Fehler nicht bekannt ist,kann y nur geschätzt werden
Thomas Schäfer | SS 2009 5
JJk xbxbxbby ++++= ...ˆ 22110
geschätzterWert einer Person
methodenlehre ll – Multiple Regression
ŷ = Schätzung des Kriteriums
b0 = Regressionskonstante
Vorhersage des Kriteriums anhand eines Prädiktors
b1 = Regressionskoeffizient
x = Prädiktor
xbby 10ˆ +=ŷ
Thomas Schäfer | SS 2009 6
x
xy
ΔΔ
=ib
09.06.2009
4
methodenlehre ll – Multiple Regression
• wenn man über eine Person gar nichts weiß und ein Kriterium schätzen soll, dann ist der Mittelwert M dieses Kriteriums von einer Vielzahl bekannter Personen die beste Schätzung
Was ist die Regressionskonstante bo?
einer Vielzahl bekannter Personen die beste Schätzung
• dieser Mittelwert steckt in der Regressionskonstante
y ykommt ein Prädiktor hinzu, verbessert sich die Vorhersage für die Person – d.h., sie differenziert ausgehend vomMittelwert
Thomas Schäfer | SS 2009 7
ausgehend vom Mittelwert
der Schnittpunkt der Regressionsgerade entspricht dem Mittelwert und stellt die Regressionskonstante dar
M M b0
methodenlehre ll – Multiple Regression
• bei zwei Prädiktoren wird aus der Regressionsgerade eine Regressionsebene
Was passiert bei mehr als einem Prädiktor?
Regressionsebene
• der Mittelpunkt der Ebene stellt wieder die Regressionskonstante dar
• die vertikalen Abstände aller Punkte von der Ebene sind die R id
Thomas Schäfer | SS 2009
Residuen
8
22110ˆ xbxbby ++=
09.06.2009
5
methodenlehre ll – Multiple Regression
• bei nur einem Prädiktor sind das unstandardisierteRegressionsgewicht b und das standardisierte β identisch, sie entsprechen der Korrelation zwischen Prädiktor und Kriterium
Was passiert bei mehr als einem Prädiktor?
entsprechen der Korrelation zwischen Prädiktor und Kriterium
xbby 10ˆ +=
xy 10ˆ ββ +=
Kriterium
Thomas Schäfer | SS 2009
• bei mehreren Prädiktoren gilt das nur, wenn diese unkorreliertsind
9
y ββx1
methodenlehre ll – Multiple Regression
Unkorrelierte und korrelierte Prädiktoren
Kriterium Kriterium
unkorreliert korreliert
x2x1 x2x1
Thomas Schäfer | SS 2009 10
jedes r² leistet seinen eigenen Beitrag zur Vorhersage von Y
R² = r²1 + r²2
jedes r² leistet nur zum Teil einen eigenen Beitrag zur Vorhersage von Y
R² < r²1 + r²2
09.06.2009
6
methodenlehre ll – Multiple Regression
• Prädiktoren sind so gut wie immer korreliert• die Regressionsgewichte β geben dann den relativen Einfluss der
Prädiktoren auf das Kriterium an
Was passiert bei mehr als einem Prädiktor?
Prädiktoren auf das Kriterium an• entscheidend ist ihre relative Größe ‐ das größte β symbolisiert den
größten Einfluss• β kann prinzipiell zwischen ‐1 und 1 schwanken (extremere Betas
weisen auf Probleme mit dem Modell hin)• Interpretation: ändert sich x um eine Standardabweichungseinheit,
dann ändert sich y um β Standardabweichungseinheiten• das Modell wird mit Hinzunahme weiterer Prädiktoren immer
Thomas Schäfer | SS 2009
• das Modell wird mit Hinzunahme weiterer Prädiktoren immer besser, d.h., es kann immer mehr Varianz aufgeklärt werden (es sei denn, man hat Variablen ohne Vorhersagekraft in das Modell gegeben ‐ das bringt aber rechnerisch keine Nachteile)
11
methodenlehre ll – Multiple Regression
• aus den Daten einer Stichprobe lässt sich ableiten, wie gut für nicht bekannte Personen eine Schätzung der Kriteriumsvariable gemacht werden kann
Wie gut ist die Vorhersage?
• das entspricht der Frage, wie gut sich die Vorhersagegüte des Regressionsmodells auf die Population verallgemeinern lässt
• Globale Gütemaße zur Prüfung der Regressionsfunktion:– Bestimmtheitsmaße R und R² – F‐Statistik– Standardschätzfehler
• Maße zur Prüfung der Regressionskoeffizienten:
Thomas Schäfer | SS 2009
• Maße zur Prüfung der Regressionskoeffizienten:– Beta‐Wert– t‐Wert
• Streudiagramme und Lowess‐Kurve
12
09.06.2009
7
methodenlehre ll – Multiple Regression
R: gemeinsame Korrelation zwischen den Prädiktoren und dem Kriterium
Multipler Korrelationskoeffizient R und multipler Determinationskoeffizient R²
R²: Anteil der durch die Prädiktoren gemeinsam erklärten Varianz
...2211++= rrR ββ
...212 ++= rrR ββ
wird meist als Hauptergebnis der Regression benutzt
Thomas Schäfer | SS 2009
Optimum: alle tatsächlichen Werte liegen auf der Regressionsgeraden (bzw. –ebene) R = R2 =1
13
2211 rrR ββ
methodenlehre ll – Multiple Regression
• bleibt nach der Regression noch unaufgeklärte Varianz übrig –und das ist praktisch immer der Fall – hat diese zwei Ursachen:
Was steckt in der nicht‐aufgeklärten Varianz?
Ursachen:
– Messfehler
– andere Prädiktoren, die man nicht erfasst hat
• diese werden zum Residuum zusammengefasst
• typischerweise liegt R² zwischen ca. 60 und 90%
Thomas Schäfer | SS 2009 14
09.06.2009
8
methodenlehre ll – Multiple Regression
• Maß dafür, wie stark die vorhergesagten Werte im Durchschnitt von den tatsächlichen Werten abweichen.
Standardschätzfehler (wie bei bivariater Regression)
• Optimum: alle tatsächlichen Werte liegen auf der Regressionsgerade (bzw. –ebene) se = 0.
a) für standardisierte Werte
Rse21−=
Thomas Schäfer | SS 2009
b) für Originalwerte
15
Rss ye21−=
methodenlehre ll – Multiple Regression
• Signifikanztest der prüft, ob das geschätzte Modell auch über Stichprobe hinaus für die Grundgesamtheit Gültigkeit besitzt
F‐Statistik
dfSS
dfSS
MSMSF
res
res
mult.regr
mult.regr
res
mult.regr
.
.
.
.
. ==∑ ⎟⎟
⎠
⎞⎜⎜⎝
⎛−=
∧
iiregrmult yySS
2
..
∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛−=∧
iiires yySS
2
.
Thomas Schäfer | SS 2009 16
dfmult‐regr. = K
dfres. = N – K – 1
09.06.2009
9
methodenlehre ll – Multiple Regression
• die Beta‐Werte allein liefern schon eine gut interpretierbare Information über die Größe des Einflusses
b h k f b h f ll
β‐Wert und t‐Test für β
• darüber hinaus kann man prüfen, ob ein Beta nur durch Zufall zustande kam, oder ob es auch für die Population zu erwarten ist
• dafür teilt man jedes Beta durch seinen Standardfehler:
β∧
=t t‐verteilt mit N – K – 1 df
Thomas Schäfer | SS 2009
• für jedes Beta kann auch ein Konfidenzintervall berechnet werden
17
σ β
∧
methodenlehre ll – Multiple Regression
praktische Anwendung: zur Bestimmung konkreter Werte für Y
• Beispiel: welche Umsatzsteigerung in Euro bringt es einem k f l b b h h
Zwei Anwendungsgebiete der Regression
Verkaufsleiter, wenn er die Werbeausgaben um x% erhöht?
• diese Information steckt im unstandardisierten b
• außerdem wird die Regressionsgleichung benötigt
Anwendung in der Forschung: der theoretische Zusammenhang ist von Interesse
• hier sind konkrete Vorhersagen unwichtig
Thomas Schäfer | SS 2009
hier sind konkrete Vorhersagen unwichtig
• die Hauptinformationen stecken in den standardisierten Betas und dem R²
• die Regressionsgleichung ist nicht so wichtig
18
09.06.2009
10
methodenlehre ll – Multiple Regression
• Zusammenhänge müssen linear sein Streudiagramme und Lowess‐Kurven begutachten wenn nötig Potenzleiter anwenden
Voraussetzungen für die multiple Regression
• Modell ist möglichst vollständig: keine wichtigen Prädiktoren
Thomas Schäfer | SS 2009
vergessen
• Daten sollten hinreichend multi‐normalverteilt sein
• Residuen sollten gleichverteilt sein (Homoskedastizität)
• Prädiktoren sollten nicht zu stark korrelieren (Multikolinearität)
19
methodenlehre ll – Multiple Regression
• alle Variablen müssen in ihrer Kombination normalverteilt sein
• Beispiel: bivariate Normalverteilung
Multinormalverteilung
Thomas Schäfer | SS 2009 20
09.06.2009
11
methodenlehre ll – Multiple Regression
• bei Multikolinearität sind die Prädiktoren so stark korreliert, dass sie eigentlich dasselbe messen
h h
Multikolinearität
• eine genaue Zuordnung von Beta‐Gewichten ist dann nicht mehr möglich
• Lösung: hoch‐korrelierte Prädiktoren zu Faktoren zusammenfassen (Faktorenanalyse)
Kriterium
Thomas Schäfer | SS 2009 21
x2x1
methodenlehre ll – Multiple Regression
• treten auf, wenn Variablen in das Modell aufgenommen werden, die gar nicht mit dem Kriterium korrelieren,
Supressoreffekte
,aber mit einem Prädiktor
• sie „binden“ dann Varianz in diesem Prädiktor, die für die Vorhersage des Kriteriums ohnehin unnötig war
• das vergrößert scheinbar die aufgeklärte Varianz die Vorhersagekraft des Prädiktors wird
Thomas Schäfer | SS 2009
künstlich erhöht
22
09.06.2009
12
methodenlehre ll – Multiple Regression
• bei der hierarchischen Regression werden die Prädiktoren in einer bestimmten Reihenfolge in das Modell aufgenommen
k b b l
Hierarchische Regression
• diese kann man vorgeben oder SPSS überlassen
• der Sinn ist es, verschiedene Modelle miteinander zu vergleichen
• bei der schrittweisen Regression werden automatisch diejenigen Prädiktoren ins Modell aufgenommen, die signifikante Vorhersagekraft haben (alle anderen werden aus
Thomas Schäfer | SS 2009
dem Modell entfernt)
• rechnerisch kommen aber alleMöglichkeiten zum selben Ergebnis!
23
methodenlehre ll – Multiple Regression
Zusammenfassung Multiple Regression
Thomas Schäfer | SS 2009 24
09.06.2009
13
methodenlehre ll – Multiple Regression
Moderation und Mediation sind Möglichkeiten zur Prüfung komplexerer Zusammenhänge zwischen Variablen sowie zur Entwicklung von Theorien sie beruhen auf der (multiplen)
Moderation und Mediation
Entwicklung von Theorien – sie beruhen auf der (multiplen) Regression
Mediation: der Zusammenhang zwischen zwei Variablen ist durch eine dritte Variable vermittelt, d.h., der Zusammenhang kommt völlig oder teilweise durch diese Mediatorvariablezustande
M d i Di Höh d Z h i h i
Thomas Schäfer | SS 2009
Moderation: Die Höhe des Zusammenhangs zwischen zwei Variablen verändert sich in Abhängigkeit der Ausprägung einer dritten Variable, der Moderatorvariable
25
methodenlehre ll – Multiple Regression
Mediation
der Zusammenhang
Thomas Schäfer | SS 2009 26
der Zusammenhang zwischen IQ und Berufserfolg ist durch das Arbeitsgedächtnis vermittelt
09.06.2009
14
methodenlehre ll – Multiple Regression
Komplette und partielle Mediation
Thomas Schäfer | SS 2009 27
methodenlehre ll – Multiple Regression
Moderation
der Zusammenhang zwischen IQ und Berufserfolg
Thomas Schäfer | SS 2009 28
zwischen IQ und Berufserfolg verändert sich je nach Jobkomplexität
09.06.2009
15
methodenlehre ll – Multiple Regression
Beispiel: Welche Ursachen hat Musikpräferenz?
Kommunikationβ = .18*
Selbstreflektion
Emotion
Erregung
Musikpräferenz
β = .31*
β = .06
β = .17*
Thomas Schäfer | SS 2009 29
Kultur
Bekanntheitβ = .18*
β = .003
R² = .66*p < .001