Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem...

34
Block Nr.1, Thema Nr. 3 Regressionsanalyse Referat im Rahmen des Speziellen Seminars zum Thema „Multivariate Analyseverfahren und deren Anwendung am Beispiel des 10 th GVU's WWW User Surveys (http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10)“ im Wintersemester 1999/2000 eingereicht bei Prof. Dr. Bernd Skiera Lehrstuhl für Betriebswirtschaftslehre, insbesondere Electronic Commerce Johann Wolfgang Goethe-Universität Frankfurt am Main von stud. rer. pol. Ralf Kupferschmidt Studienrichtung: Betriebswirtschaftslehre

Transcript of Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem...

Page 1: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

Block Nr.1, Thema Nr. 3

Regressionsanalyse

Referat im Rahmen des Speziellen Seminars zum Thema

„Multivariate Analyseverfahren und deren Anwendung am

Beispiel des 10th GVU's WWW User Surveys

(http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10)“

im Wintersemester 1999/2000

eingereicht bei

Prof. Dr. Bernd Skiera

Lehrstuhl für Betriebswirtschaftslehre,

insbesondere Electronic Commerce

Johann Wolfgang Goethe-Universität

Frankfurt am Main

von

stud. rer. pol. Ralf Kupferschmidt

Studienrichtung: Betriebswirtschaftslehre

Page 2: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

II

Inhaltsverzeichnis

Abbildungsverzeichnis...................................................................................................................IV Tabellenverzeichnis........................................................................................................................V Abkürzungsverzeichnis..................................................................................................................VI Symbolverzeichnis .......................................................................................................................VII

1 Einleitung ................................................................................................................................1

2 Regressionsanalyse ...............................................................................................................2

2.1 Multiple Regression...........................................................................................................2

2.2 Prüfung der Regressionsfunktion........................................................................................3 2.2.1 Bestimmtheitsmaß ...................................................................................................3 2.2.2 Prüfung der gesamten Regressionskoeffizienten (F-Test)...........................................4 2.2.3 Prüfung einzelner Regressionskoeffizienten (t-Test)...................................................5

2.3 Prämissen des Modells ......................................................................................................6

3 Heteroskedastizität ................................................................................................................8

3.1 Grundlagen der Heteroskedastizität....................................................................................8

3.2 Heteroskedastizitäts-Tests ...............................................................................................10 3.2.1 Grafische Überprüfung ..........................................................................................10 3.2.2 Goldfeld-Quandt-Test...........................................................................................11 3.2.3 Breusch-Pagan-Test..............................................................................................12 3.2.4 Weitere Heteroskedastizitäts-Test .........................................................................13

3.3 Schätzverfahren bei Heteroskedastizität............................................................................14 3.3.1 Schätzverfahren bei bekannter Varianz...................................................................14 3.3.2 Schätzverfahren bei unbekannter Varianz...............................................................15

4 Empirischer Teil ...................................................................................................................16

4.1 Beschreibung des Datenmaterials .....................................................................................16

4.2 Berechnung und Interpretation.........................................................................................17

5 Zusammenfassung ................................................................................................................21

6 Anhang ..................................................................................................................................22

Literaturverzeichnis .................................................................................................................23

Anzahl Wörter: 5383

Page 3: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

III

Dateiname: Kupferschmidt_ec_19990913

Page 4: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

IV

Abbildungsverzeichnis

Abbildung 1:Homoskedastizität......................................................................................................9

Abbildung 2: Heteroskedastizität....................................................................................................9

Abbildung 3: Muster von möglichen Residuen..............................................................................11

Abbildung 4: Streudiagramm......................................................................................................20

Abbildung 5: P-P-Diagramm .......................................................................................................20

Abbildung 6: Histogramm der standardisierten Residuen...............................................................20

Abbildung 7: Partielles Regressionsdiagramm Q66..................................................................20

Abbildung 8: Partielles Regressionsdiagramm Q103 ................................................................20

Abbildung 9: Partielles Regressionsdiagramm Q38..................................................................20

Abbildung 10: Partielles Regressionsdiagramm Q10................................................................20

Page 5: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

V

Tabellenverzeichnis

Tabelle 1: Modellzusammenfassung .......................................................................................17

Tabelle 2 Analyse der Varianzen...........................................................................................18

Tabelle 3: Koeffizienten.........................................................................................................18

Tabelle 4: Korrelation der Koeffizienten.................................................................................18

Page 6: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

VI

Abkürzungsverzeichnis

ESS Erklärte Summe der Abweichungen

GLS generalized least squares

GVU Graphics, Visualization, & Usability Center

Kum. Kumuliert

P-P-Plot Proportion-proportion-Plot

RSS Residuenquadratsummen

VIF Varianz-Inflationsfaktoren

Wahrsch. Wahrscheinlichkeit

Page 7: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

VII

Symbolverzeichnis

α: Signifikanzniveau

ε i: Störterm i einer zusätzlichen gebildeten Regressionsfunktion

βk: (wahre) k-ter Regressionskoeffizient der Grundgesamtheit

αm: m-ter Regressionskoeffizient für Z

iy : geschätzter Wert der abhängigen Variablen für die i-te Beobachtung

*kb : Standardisierter Regressionskoeffizient der j-ten unabhängigen Variablen

2KORRr : korrigiertes Bestimmtheitsmaß

y : Mittelwert der unabhängigen Variablen

2iσ : Varianz der i-ten Beobachtung

β : geschätzter Regressionskoeffizient der Grundgesamtheit

iu : geschätzter Wert für die i-te Störvariable

2~σ : Schätzer für die Varianz nach der Maximum-Likelihood-Methode

Θ : die Hälfte der erklärten Summe der Abweichungen

χ : Chi-Wert

'iy : Wert der i-ten abhängigen Variablen in der Grundgesamtheit

bk: Regressionskoeffizient der k-ten unabhängigen Variablen der Stichprobe/Beobachtung

d: mittlere Beobachtungen

df: Anzahl der Freiheitsgrade

E: Erwartungswert

Femp: empirischer bzw. berechneter F-Wert

Page 8: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

VIII

Ftab: F-Wert der Tabelle

H0: Nullhypothese

H1: Gegen- bzw. Alternativhypothese

i: Index

j: Index

J: Zahl der Regressoren

k: Index

m: Index

n: Index

pi: Quotient aus dem Quadrat der i-ten geschätzten Störgröße und dem Schätzer der Varianz

nach der Maximum-Likelihood-Methode

Q10: unabhängige Variable: "Amount Spent with internet retailer"

Q103: unabhängige Variable: "Wide selection"

Q11: abhängige Variable: "Number of transactions with internet retailer"

Q38: unabhängige Variable: "Prefer this internet retailer"

Q52: unabhängige Variable: "Special rewards and discounts"

Q66: unabhängige Variable: "Site is very entertaining"

Q82: unabhängige Variable: "Excellent service"

r2: Bestimmtheitsmaß

sbk: Standardfehler des Regressionskoeffizienten der j-ten unabhängigen Variable

t: Wert der Student-t-Verteilung

temp: empirischer bzw. berechneter t-Wert

ttab: t-Wert der Tabelle

Page 9: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

IX

ui: Residuum der i-ten Beobachtung bzw. Stichprobe

v: Zahl der Freiheitsgrade

xi: Wert für die i-te unabhängige Variable

xki: Wert der k-ten unabhängigen Variable der i-ten Beoabachtung

yi: Wert der i-ten Beobachtung für die abhängige Variable

Z: Ersatzvariable für eine oder mehrere unabhängige Variablen

Page 10: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

1

1 Einleitung Die lineare Regressionsanalyse hat die Aufgabe Abhängigkeiten zwischen einer oder mehreren

unabhängigen und einer oder mehreren abhängigen metrisch skalierten Variablen zu beschreiben.1

Ihre Zielsetzung ist es, eine lineare Funktion zu ermitteln, die den Verlauf und die Abhängigkeit

möglichst gut (in einer Punktwolke) widerspiegelt. Die so berechnete Regressionsgerade soll die

Abweichungen zwischen ihr selbst und den empirischen Punkten minimieren. Eingesetzt wird sie vor

allem, um Zusammenhänge zu erkennen und Prognosen zu liefern.2 So kann man bspw. mit Hilfe der

Regressionsanalyse den Absatz eines Produktes (abhängige Variable) durch verschiedene Faktoren

wie Werbebudget, Preis etc. (unabhängige Variablen) versuchen darzustellen. Dabei wird häufig von

einer Stichprobe auf die (unbekannte) Grundgesamtheit geschlossen, die ansonsten nur mit enormen

Aufwand erhoben werden kann.

Ziel der Arbeit wird es sein, nachdem die multiple Regressionsanalyse in ihren Grundzügen vorgestellt

wurde, sie besonders auf die Verletzung einer ihrer Annahmen hin – der Homoskedastizität, die

besagt, daß die Varianzen aller Störgrößen gleich groß sein müssen – zu untersuchen. Dazu werden

Testverfahren zur Überprüfung von Heteroskedastizität (die Varianzen der Störgrößen sind nicht

gleich groß) vorgestellt sowie Schätzverfahren, die dies bei der Berechnung der Regressionsfunktion

berücksichtigen und so trotz Verletzung der Annahme noch eine "brauchbare" (homoskedastische)

Lösung liefern.

Im folgenden 2. Kapitel wird die multiple Regression in ihren Grundzügen dargestellt. Dazu wird

zuerst gezeigt, wie die Regressionsanalyse aufgebaut ist und man die Regressionskoeffizienten

berechnet (2.1). Anschließend wird die Regressionsfunktion Prüfungen auf ihre Güte hin unterzogen

(2.2) bevor abschließend die Prämissen des Modells vorgestellt werden (2.3). Das 3. Kapitel befaßt

sich ausführlich mit der Heteroskedastizität. Zunächst wird auf ihre Problematik eingegangen (3.1)

bevor die am häufigsten verwendeten Heteroskedastizitäts-Tests vorgestellt werden (3.2) an die sich

die Schätzverfahren anschließen (3.3). Das 4. Kapitel führt dann exemplarisch eine

Regressionsanalyse anhand von Beispieldaten durch. Neben einer kurzen Beschreibung der Daten

und der Auswahl der Variablen (4.1) findet dann die Berechnung und die Interpretation statt (4.2).

Die Arbeit endet schließlich mit der Zusammenfassung in Kapitel 5.

1 Vgl. z.B. Albers/Skiera (1999), S. 205 und Bortz (1999), S. 173-174. 2 Vgl. z.B. Backhaus/Erichson/Plinke/Weiber (1996), S. 2, Albers/Skiera (1999), S. 205 und Bortz (1999), S. 173-174.

Page 11: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

2

2 Regressionsanalyse

2.1 Multiple Regression

Es wird eine lineare Funktion – die Regressionsgerade – gesucht, die sich am besten dem

Gesamttrend aller empirischen Punkte der Stichprobe anpaßt. Ihre Lage wird dabei vom absoluten

Glied b1 und den Regressionskoeffizienten bk der unabhängigen Variablen xk bestimmt. Die

allgemeine Form des Regressionsansatzes für die multiple Regression lautet demnach:

(1) kikiiiiiii xbxbxbby ++++= ...ˆ 33221 ( )Ii∈ ( )Kk∈ ,

wobei iy , die geschätzten Werte der Regressionsgeraden für die empirischen Beobachtungen an der

Stelle i sind.3 Die entstehenden Abweichungen zwischen beobachtetem Wert yi (aus der Stichprobe)

und durch die Regressionsfunktion geschätztem iy Wert, werden als Residuen bezeichnet:

(2) ui = yi - iy = yi – )...( 33221 kikii xbxbxbb ++++ ( )Ii∈

( )Kk∈ .

Um eine möglichst gute Schätzung der abhängigen Variablen durch die unabhängigen Variablen zu

erlangen, muß die Summe der Abweichungen nach der Methode der kleinsten Quadrate minimiert

werden. Die Zielfunktion der multiplen Regressionsfunktion lautet somit:4

(3) 2)33

1221

1

2 ]...([ kiki

n

iii

n

ii xbxbxbbyu ++++−= ∑∑

==

→ min ! ( )Ii∈ ( )Kk∈ .

Nach Bildung und Nullsetzen der ersten partiellen Ableitungen nach den Regressionskoeffizienten

erhält man k Normalgleichungen der Form:

(4) ∑∑∑∑====

=+++n

iiki

n

ikik

n

iiki

n

iki yxxbxxbxb

11

2

122

11 ... ( )Ii∈ ( )Kk∈ .

wobei per Definition x1i = 1 (für das absolute Glied) gesetzt ist. Nach entsprechender Auflösung des

linearen Gleichungssystems erhält man die Koeffizienten b1, b2, . . . , bk .

Für einen Vergleich, welcher der Regressionskoeffizienten den größten Einfluß auf die

Regressionsfunktion hat, verwendet man die standardisierten Regressionskoeffizienten *kb . Sie

3 Vgl. Bleymüller/Gehlert/Gülicher (1998), S. 140. 4 Vgl. Reisinger (1996), S. 48, Bortz (1999), S. 177 und Bleymüller/Gehlert/Gülicher (1998), S. 141.

Page 12: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

3

eliminieren unterschiedliche Meßdimensionen der Variablen und machen so einen Vergleich

überhaupt erst möglich. Sie werden wie folgt berechnet:5

(5) y

xbb kk vonweichungStandardab

vonweichungStandardab k* ⋅= .

Hohe Werte der standardisierten Regressionskoeffizienten weisen dabei auf einen großen

Erklärungsbeitrag hin, während im Verhältnis kleine Werte auf einen geringen oder kaum

vorhandenen Einfluß deuten.6 Allerdings können hohe Werte für *kb auch auf die Verletzung von

einer oder mehreren Annahmen der Regressionsanalyse zurückzuführen sein, so daß alleine aufgrund

dieses Ergebnisses kein Urteil über deren Güte gefällt werden sollte.

2.2 Prüfung der Regressionsfunktion

2.2.1 Bestimmtheitsmaß

Nachdem die Regressionsfunktion berechnet wurde, stellt sich die Frage, wie gut diese sich den

empirischen (Stichproben-) Werten anpassen kann. Dazu wird das Bestimmtheitsmaß r2

berechnet.7 Es setzt die durch den Regressionsansatz erklärte Streuung (= y - y ) zu der gesamtem

Streuung (y - y ) bzw. zu der nicht erklärten Streuung (y - y ) ins Verhältnis: 8

(6) uungGesamtstreStreuungerklärtenicht

1uungGesamtstre

StreuungerklärteitsmaßBestimmthe −==

Das Bestimmtheitsmaß kann dabei Werte zwischen r2 = 0 (kein Erklärungsbeitrag) und r2 = 1

(vollständige Erklärung) annehmen. Mit der Hinzunahme von weiteren Regressoren (unabhängigen

Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der

jedoch auch zufällig bedingt sein kann. Zumindest kann das Bestimmtheitsmaß nicht abnehmen,9 was

eine Schwäche bedeutet.10 – Das korrigierte Bestimmtheitsmaß r2KORR hingegen berücksichtigt

5 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 19. 6 Führt man die Regressionsanalyse mit bereits standardisierten Variablen durch, so entsprechen die Regressionskoeffizienten b den standardisierten Regressionskoeffizienten b*. Vgl. dazu Backhaus/Erichson/Plinke/Weiber (1996), S. 19. 7 Vgl. Srivastava/Ullah (1995), S. 229. 8 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 21-24. 9 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 77, Winker (1997), S. 146 und Albers/Skiera (1999), S. 210 10 Vgl. Srivastava/Ullah (1995), S. 229.

Page 13: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

4

diesen Sachverhalt durch die Hinzunahme der Anzahl der Freiheitsgrade11 in die Berechnung. Damit

steigt r2KORR nur noch "dann an (bzw. bleibt konstant), wenn der durch die zusätzlichen Regressoren

ausgelöste Anstieg in r2 den Verlust an zusätzlichen Freiheitsgraden ... kompensiert."12 Allerdings

kann das korrigierte Bestimmtheitsmaß nicht mehr als erklärte Streuung an der Gesamtstreuung der

Regression interpretiert werden, was sich durch die Möglichkeit von negativen Werten für r2KORR

äußert.13 Die Bestimmtheitsmaße werden wie folgt berechnet:14

(7) Bestimmtheitsmaß:

=

=

−−= n

ii

n

ii

yy

ur

1

2

1

2

2

)(1 ( )Ii∈ ,

(8) korrigiertes Bestimmtheitsmaß: 1)1( 2

22

−−−⋅

−=Jn

rJrrKORR .

mit n = Zahl der Beobachtungswerte

J = Zahl der Regressoren

v = n - J - 1 = Zahl der Freiheitsgrade.

2.2.2 Prüfung der gesamten Regressionskoeffizienten (F-Test)

Zur Überprüfung, daß sich der Wert des Bestimmtheitsmaßes nicht nur zufällig in der Stichprobe

ergeben hat, sondern auch in der Grundgesamtheit besteht, wird der F-Test herangezogen.15 Er

"testet" ob eine Veränderung der y-Werte "auf eine lineare Veränderung der

xj- Werte zurückzuführen ist."16 Der F-Test wird kurz in vier Schritten vorgestellt:17

1. Aufstellen der Nullhypothese H0

Es wird angenommen, daß kein Zusammenhang zwischen abhängigen und unabhängigen

Variablen besteht. Die Regressionskoeffizienten der Grundgesamtheit β1 ,..., β j sind dann alle

11 Eine ausführliche Darstellung über die Freiheitsgrade befindet sich z.B. in: Reisinger (1996), S. 57-61. 12 Reisinger (1996), S. 60. 13 Vgl. Reisinger (1996), S. 61. 14 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25. – Darüber hinaus gibt es noch weitere verschiedene Möglichkeiten zur Berechnung des korrigierten Bestimmtheitsmaßes wie man z.B. vergleichen kann in: Bleymüller/Gehlert/Gülicher (1998), S. 171, Reisinger (1996), S. 60, Srivastava/Ullah (1995), S. 232 und Pindyck/Rubinfeld (1991), S. 78, wobei allen die Einbeziehung der Freiheitsgrade in die Berechnung gleich ist. 15 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25-27. 16 Backhaus/Erichson/Plinke/Weiber (1996), S. 25. 17 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25-26.

Page 14: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

5

null. Die Gegenhypothese H1 geht hingegen von einem Zusammenhang aus.18

H0: β1 = β2 = . . . = βn = 0 H1: β i ≠ 0 für i = 1, ..., n.

2. Vorgabe einer Wahrscheinlichkeit (meist 0,95 oder 0,99) mit der eine Ablehnung von H0 zu

recht erfolgt.19 Wird dann H1 angenommen, ist die Regressionsgleichung "brauchbar".

3. Berechnung des empirischen F-Wertes (Femp):

(9)

11 2

2

−−−

=

Jnr

Jr

Femp

4. Vergleich des errechneten F-Wertes (Femp) mit dem F-Wert der Tabelle (Ftab):20

Femp > Ftab → H0 verworfen: Zusammenhang in der Stichprobe (r2) ist nicht zufällig!

Femp ≤ Ftab → H0 nicht verworfen : Zusammenhang in der Stichprobe (r2) ist zufällig!

2.2.3 Prüfung einzelner Regressionskoeffizienten (t-Test)

Der vorgestellte F-Test hat die multiple Regressionsfunktion als ganze geprüft und abgelehnt oder

nicht abgelehnt. Allerdings kann es durch einen signifikanten r2-Wert dazu gekommen sein, daß H0

verworfen wurde, "obwohl kein einziger Regressionskoeffizient als von Null unterschiedlich"21 zu

erkennen war. Mittels der Stichprobenergebnisse kann nun überprüft werden, ob ein einzelner

Regressionskoeffizient der Grundgesamtheit signifikant von Null verschieden ist und somit eine

Abhängigkeit in ihr vorliegt.22

Zuerst wird wieder die Null- und Alternativhypothese formuliert: H0: β i = 0 und H1: β i ≠ 0.

Die Teststatistik ist Student-t-verteilt. Der t-Wert wird berechnet mit: 23

(10) bk

kkemp s

bt

β−= ( )Kk∈ ,

wobei temp = Errechneter t-Wert für den j-ten Regressor βk = Wahrer k-ter Regressionskoeffizient der Grundgesamtheit (unbekannt) bk = Regressionskoeffizient der k-ten unabhängigen Variable der Stichprobe.

18 Vgl. Reisinger (1996), S. 61-62. 19 Auf die Problematik eine fehlerhafte Entscheidung zu treffen, bei der Annahme oder Ablehnung einer Hypothese (α- und β-Fehler), wird nicht eingegangen. Vgl. dazu bspw. Bortz (1999), S. 110-112. 20 Eine F-Wert Tabelle befindet sich z.B. in Neubauer (1994), S. 498. 21 Reisinger (1996), S. 62. 22 Vgl. Reisinger (1996), S. 62. 23 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 27-28.

Page 15: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

6

sbk = Standardfehler des Regressionskoeffizienten bk.24

Der errechnete t-Wert wird mit dem t-Wert der Tabelle25 verglichen:

temp ≤ ttab → H0 ist nicht zu verwerfen bzw. temp > ttab → H0 wird verworfen.

Indem ein Konfidenzintervall um den unbekannten Regressionskoeffizienten βk gelegt wird, läßt sich

überprüfen um welche Beträge bj in der Grundgesamtheit von βk abweichen kann.26

(11) bk – t ⋅ sbk ≤ βk ≤ bk + t ⋅ sbk ,

wobei t der Wert aus Student-t-Verteilung ist.

Das Konfidenzintervall um den Regressionskoeffizienten βk sagt aus, daß mit einer

Sicherheitswahrscheinlichkeit von 1 - α der unbekannte Parameter βk der Regressionsfunktion der

Grundgesamtheit zwischen der unteren und oberen Grenze des Konfidenzintervalls liegt.27 Damit

wird eine genaue Schätzung von βk um so schwieriger bzw. ungenauer je größer das Intervall ist.

Durch einen Vorzeichenwechsel innerhalb des Konfidenzintervalls steigt zusätzlich die

Unzuverlässigkeit der gefundenen Regressionsfunktion.28

2.3 Prämissen des Modells

Für die Gültigkeit der Regressionsfunktion und deren Tests sind einige Annahmen notwendig, die nun

im folgenden kurz dargestellt werden sollen.

• korrekte Formulierung des Modells

Das Modell muß alle relevanten Variablen enthalten29 sonst kann es zum "overfitting" (zu viele

erklärende Variablen) oder zum "underfitting" (zu wenige erklärende Variablen) kommen. Beiden

gemeinsam ist die Folge von ineffizienten Schätzern und letzterem zusätzlich von inkonsistenten

Schätzern.30

24 Zur Berechnung des Standardfehlers der Regressionskoeffizienten für die einfache Regression vgl. Bleymüller/Gehlert/Gülicher (1998), S. 151 sowie für die multiple Regression S. 168. 25 Eine t-Wert Tabelle befindet sich z.B. in Schlittgen (1997), S. 465. 26 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 30. 27 Vgl. Bleymüller/Gehlert/Gülicher (1998), S. 152. 28 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 31. 29 Vgl. Winker (1997), S. 137. 30 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 31.

Page 16: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

7

• Annahmen bezüglich der Residualgrößen

- Die Residualgrößen müssen normalverteilt sein, da ansonsten die Prüfgrößen der

Testverfahren nicht mehr anwendbar sind.31

- Des weiteren müssen sie einen Erwartungswert von Null haben (E(ui)=0).32

- Homoskedastizität muß vorliegen, d.h. alle Resiudalgrößen weisen die gleiche Varianz auf.

Ist dies nicht der Fall werden die Standardfehler der Regressionskoeffizienten verfälscht, was

mit einer verzerrten Schätzung des Konfidenzintervalls einhergeht. Diese Heteroskedastizität

kann bspw. mit dem Goldfeld-Quandt-Test festgestellt werden.33

- Zuletzt darf keine Autokorrelation vorliegen, d.h. die Störgrößen sind untereinander nicht

korreliert. Zur Überprüfung von Autokorrelation, die oft in Zeitreihen auftritt, wird der

Durbin-Watson-Test herangezogen.34

• Linearität

Es wird von einem linearen Zusammenhang der unabhängigen Variablen auf die abhängige

Variable ausgegangen. Ist die Annahme verletzt, führt es zu einer Verzerrung der Schätzwerte

der abhängigen Variablen. Durch eine Transformation von nichtlineare in lineare Beziehungen

kann man versuchen, der Annahme gerecht zu werden.35

• Multikollinearietät

Es darf keine lineare Abhängigkeit zwischen den unabhängigen Variablen vorliegen

(Multikollinearität). Tritt der Fall doch auf, kann es zu Über- oder Unterschätzungen, falschen

Vorzeichen und hohen Standardfehlern der Regressionskoeffizienten führen. Zum Nachweis von

Multikollinearität dienen bspw. Korrelationsmatrizen und Hilfsregressionen.36

• Anzahl der Beobachtungen

Ebenfalls sollte die Anzahl der Beobachtungen genügend groß sein, damit "sinnvolle"

31 Vgl. z.B. Albers/Skiera (1999), S. 216 und Backhaus/Erichson/Plinke/Weiber (1996), S. 32. 32 Vgl. z.B. Albers/Skiera (1999), S. 216-217, Pindyck/Rubinfeld (1991), S. 74 und Winker (1997), S. 137. 33 Vgl. z.B. Hübler (1989), S. 37, Albers/Skiera (1999), S. 216-217 und Kapitel 3: ab S. 8. 34 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 137-145 und Hübler (1989), S. 36. 35 Vgl. z.B. Backhaus/Erichson/Plinke/Weiber (1996), S. 32-33 und Albers/Skiera (1999), S. 217. 36 Vgl. z.B. Steffen (1994), S. 1 und 11-15 und Winker (1997), S. 153-158.

Page 17: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

8

Rückschlüsse der Stichprobe auf die Grundgesamtheit möglich sind.37

3 Heteroskedastizität

3.1 Problematik der Heteroskedastizität

Betrachtet wird die Grundgesamtheit für einen 2 Variablen-Fall. Es bestehe dabei folgender exakter

Zusammenhang:38

(12) 'iy = β1 + β2x i (i = 1, ..., n).

Diese "wahre" Funktion wird nun aber bei einer Stichprobe durch eine Störvariable ui überdeckt, so

daß man nur folgenden Wert beobachtet:

(13) 'iy = '

iy + ui = β1 + β2x i + ui (i = 1, ..., n).

Für die Störvariablen ui werden folgende Annahmen getroffen:

1) E(ui) = 0 (i = 1, ..., n)

2) Var(ui) = 2σ (i = 1, ..., n)

3) Cov(ui, uj) = 0 (i = 1, ..., n; j = 1, ..., n; i ≠ j)

Gelten diese Annahmen liegt Homoskedastizität vor und die Störvariable ui hat keinen Einfluß auf die

Regressionsfunktion. Haben die Residualgrößen ui hingegen nicht die gleiche Varianz39 bzw. ist sie

nicht mehr unabhängig von der Beobachtung,40 liegt Heteroskedastizität vor, die am ehesten bei

Querschnittsdaten auftritt.41

Ein Beispiel ist das Sparvolumen der Haushalte.42 Dabei nimmt die Entscheidungsfreiheit über die

Verwendung des Einkommens mit dessen Anstieg zu. Dies kann damit erklärt werden, daß

Haushalte mit höheren Einkommen anteilig nur einen geringeren Teil für die Grundversorgung

ausgeben müssen und so einen größeren Spielraum bei der Verwendung haben.43

37 Vgl. z.B. Albers/Skiera (1999), S. 217-218 und Bortz (1999), S. 449. 38 Vgl. im folgenden Bleymüller/Gehlert/Gülicher (1998), S. 147-149 sowie Spanos (1995), S. 195-202. 39 Vgl. Albers/Skiera (1999), S. 229. 40 Vgl. z.B. Winker (1997), S. 159 und Hübler (1989), S. 153. 41 Vgl. Pindyck/Rubinfeld (1991), S. 127. 42 Vgl. z.B. Hübler (1989), S. 153, Winker (1997), S. 161 oder Gujarati (1995), S. 356. 43 Vgl. Winker (1997), S. 161.

Page 18: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

9

Abbildung 1 zeigt den Fall von Homoskedastizität ( 22 )( σ=iuE ), während Abbildung 2

Heteroskedastizität (Var(ui) = 22 )( iiuE σ= ) für das Sparvolumen der Haushalte illustriert.44

Abbildung 1:Homoskedastizität Abbildung 2: Heteroskedastizität

Andere Möglichkeiten für Heteroskedastizität können bspw. Lerneffekte (mit steigender Menge

nimmt die Fehlergröße bzw. -varianz ab), eine nicht korrekte Spezifizierung des Modells (wichtige

abhängige Variablen wurden nicht in das Modell mit einbezogen) oder auch Ausreißer bei

Beobachtungen sein.45

Geht man von Heteroskedastizität aus, findet mit der Methode der kleinsten Quadrate allerdings

implizit eine stärkere Gewichtung der Beobachtungswerte mit höheren Varianzen statt. Zu erklären ist

dies damit, daß die Regressionslinie versucht die Summen aller Abweichungen zu minimieren, nun

aber besonders "bestrebt" ist, eine möglichst gute Lage bei einem Beobachtungswert mit einer hohen

Varianz zu erzielen.46 Die Folge daraus ist, daß die Schätzer für die Parameter nach wie vor

unverzerrt (erwartungstreu) sind, aber nicht mehr effizient.47 Diese Ineffizienz ist darauf

zurückzuführen, daß der geschätzte Parameter nicht mehr die minimale Varianz aufweist.48 Für

Homoskedastizität und für Heteroskedastizität ist die Varianz der Schätzer wie folgt unterschiedlich

zu berechnen: 49

(14) ∑

=2

2

)ˆ(ix

Varσ

β bei Homoskedastizität

44 Die Abbildungen sind entnommen aus Gujarati (1995), S. 356. 45 Vgl. Gujarati (1995), S. 357-359. 46 Vgl. Pindyck/Rubinfeld (1991), S. 128. 47 Vgl. z.B. Hübler (1989), S. 159 und Baltagi (1998), S. 101-103. 48 Vgl. z.B. Gujarati (1995), S. 362 und Pindyck/Rubinfeld (1991), S. 128. 49 Vgl. z.B. Gujarati (1995), S. 361-362 und Pindyck/Rubinfeld (1991), S. 128.

Page 19: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

10

(15) ∑

∑= 22

22

)()ˆ(

i

ii

x

xVar

σβ bei Heteroskedastizität.

Die Konsequenz von nicht entdeckter oder nicht berücksichtigter Heteroskedastizität ist, daß die

statistischen Tests (wie F-Test und t-Test) und die Konfidenzintervalle nicht korrekt sind.50 Das kann

zu falschen Aussagen über die Signifikanz von Regressionskoeffizienten führen und so zu einer

"falschen" bzw. schlechten Regressionsfunktion.

3.2 Heteroskedastizitäts-Tests

3.2.1 Grafische Überprüfung

Nachdem die Regressionsanalyse durchgeführt wurde, werden die geschätzten Werte für die

Störvariablen iu und die abhängige Variable y in ein Diagramm eingetragen.51 Es muß untersucht

werden, ob ein erkennbares und systematisches Muster zwischen iu und y vorliegt. In Abbildung

3a ist dies nicht der Fall, während die Fälle 3b-3e Heteroskedastizität erkennen lassen. Durch eine

geeignete Transformation der Daten kann aber erreicht werden, daß die Varianzen der Störvariablen

eine homoskedastische Form annehmen.

50 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 128, Hübler (1989), S. 160 und Winker (1997), S. 161-162. 51 Vgl. im folgenden Gujarati (1995), S. 368-369.

Page 20: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

11

Abbildung 3: Muster von möglichen Residuen

3.2.2 Goldfeld-Quandt-Test

Die Idee des Goldfeld-Quandt-Testes ist es, die unabhängigen Variablen xk, die (wahrscheinlich) 2iσ beeinflussen, der Größe nach zu ordnen.52 Daraus werden zwei Regressionen gebildet, eine mit

hohen und eine mit geringen Werten von xk. Sind die Varianzen der Residuen in beiden Regressionen

approximativ gleich, kann die Nullhypothese (H0) für Homoskedastizität nicht abgelehnt werden,

andernfalls wird H0 abgelehnt und man kann von dem Fall der Heteroskedastizität ausgehen.53 Es

wird in folgenden Schritten vorgegangen:

1) Aufstellen der Nullhypothese H0:

(16) 223

22

210 ...: nH σσσσ ==== .

2) Die Daten werden der Größe nach von xk, die 2iσ beeinflußt, geordnet.

3) Die mittleren Beobachtungen (d) von xk sind zu eliminieren, damit die Trennschärfe des Tests

steigt. Die Höhe von d richtet sich dabei nach der Anzahl der Beobachtungen.54

4) Es sind zwei getrennte Regressionsfunktionen zu schätzen, eine mit hohen und eine mit geringen

Werten für xk. Beide Regressionen enthalten dann [(n-d)/2] Beobachtungen und haben [(n-d)/2 -

k] Freiheitsgrade (v), wobei k die Anzahl der unabhängigen Variablen ist.

5) Es müssen die Residuenquadratsummen (RSS) für beide Regressionen gebildet werden, die

unabhängig voneinander sind. Der Quotient aus beiden ist approximativ F-verteilt unter der

Annahme, daß die Störgrößen normalverteilt sind:55

52 Vgl. Hübler (1989), S. 167. 53 Vgl. Pindyck/Rubinfeld (1991), S. 133. 54 Vgl. Gujarati (1995), S. 375. 55 Vgl. z.B. Gujarati (1995), S. 374 und Hübler (1989), S. 168.

Page 21: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

12

(17) vRSSvRSS

F//

1

2= .

Ist der errechnete F-Wert (17) größer als der F-Wert der Tabelle, so ist die Nullhypothese (16)

zu verwerfen, und es liegt mit großer Wahrscheinlichkeit Heteroskedastizität vor.

Der Goldfeld-Quandt-Test setzt voraus, daß sich die Daten überhaupt ordnen lassen, was nicht

selbstverständlich ist und eine erste Hürde für dessen Anwendung darstellt.56 Problematisch ist

zudem, daß mit steigendem d die Trennschärfe zwar erhöht wird, aber auf der anderen Seite die

Freiheitsgrade sinken.57 Erschwerend kommt hinzu, daß die Wahl von d eine Ermessenssache des

Anwenders ist.58 Auch läßt sich die "verursachende" Variable xk (auf die Varianz) in einer multiplen

Regression nicht problemlos bestimmen und stellt damit ein weiteres Problemfeld des Goldfeld-

Quandt-Tests dar.

3.2.3 Breusch-Pagan-Test

Mit dem Breusch-Pagan-Test kann man prüfen, ob die Heteroskedastizität auf mehrere verschiedene

unabhängige Variablen (gleichzeitig) zurückzuführen ist.59 Dazu wird eine lineare Regression mit

mehreren unabhängigen Variablen betrachtet. Die Varianz der Residuen wird wie folgt beschrieben:60

(18) 2iσ = f(α1 + α2Z2i + . . . + αmZmi) .

Die Varianz 2iσ ist dabei eine lineare Funktion der Variablen Z, welche für einige oder alle

unabhängigen Variablen des Modells steht. Man erhält:

(19) 2iσ = α1 + α2Z2i + . . . + αmZmi .

Zur Überprüfung auf Heteroskedastizität wird dieNullhypothese (für Homoskedastizität)

(H0: α2 = α3 = ... = αm = 0) getestet, wobei α1 eine Konstante ist und so 2iσ = α1 ist.61

Es wird in folgenden Schritten vorgegangen:62

56 Vgl. Pindyck/Rubinfeld (1991), S. 134. 57 Vgl. z.B. Baltagi (1998), S. 101, Hübler (1989), S. 168 und Pindyck/Rubinfeld (1991), S. 133-134. 58 Vgl. z.B. Gujarati (1995), S. 375 und Hübler (1989), S. 168. 59 Vgl. Hübler (1989), S. 152. 60 Vgl. z.B. Gujarati (1995), S. 377 und Hübler (1989), S. 170. 61 Vgl. Gujarati (1995), S. 377.

Page 22: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

13

1) Es werden mit der Methode der kleinsten Quadrate die Störvariablen iu geschätzt.

2) Mit der Maximum-Likelihood-Methode63 erhält man einen Schätzer für die Varianz:

(20) n

u i∑=2

2ˆ~σ .

3) Es wird die Variable pi definiert, die alle Residuen durch die Varianz dividiert:

(21) pi = 22 ~/ˆ σiu .

4) Es wird eine Regressionsfunktion mit pi gebildet, die auf den Variablen Z aufbaut, wobei ε i der

Störterm ist:

(22) pi = α1 + α2Z2i + . . . + αmZmi + ε i .

5) Mit der erklärten Summe der Abweichungen (ESS), die man aus (22) errechnet, wird definiert:

(23) )(21

ESS=Θ .

Sind die Störvariablen normalverteilt und die Beobachtungen (n) genügend groß, so gilt für (m-1)

Freiheitsgrade asymptotisch:

(24) Θ ∼ 21−mχ .

Erreicht ein errechneter Wert χ2, kann die Nullhypothese (Homoskedastizität) ablehnt und von

Heteroskedastizität ausgegangen werden.64 – Die Schwäche des Breusch-Pagan-Testes ist, daß er

"bereits auf geringfügige Änderungen der Normalverteilungsannahme sensitiv reagiert."65

3.2.4 Weitere Heteroskedastizitäts-Test

Die Überprüfung auf Heteroskedastizität kann auch mit einer Reihe weiterer Tests durchgeführt

werden. Einer ist z.B. der White-Test. Er ist asymptotisch äquivalent zu dem Breusch-Pagan-Test,

setzt aber nicht notwendigerweise die Annahme einer Normalverteilung voraus.66 Der Park-Test

62 Vgl. im folgenden Gujarati (1995), S. 377-378 sowie in Ergänzung z.B. Pindyck/Rubinfeld (1991), S. 134-136 und Hübler (1989), S. 170. 63 Vgl. Fahrmeir (1990), S. 488-492. 64 Vgl. Gujarati (1995), S. 378. 65 Hübler (1989), S. 170. Vgl. auch Pindyck/Rubinfeld (1991), S. 136. 66 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 136 und Hübler (1989), S. 171.

Page 23: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

14

formalisiert die graphische Überprüfung auf Heteroskedastizität.67 Er wird in zwei Schritten

durchgeführt. Zuerst findet die Regression statt, ohne auf eine evtl. Heteroskedastizität Rücksicht zu

nehmen. Im zweiten Zuge werden die Störvariablen geschätzt, um mit ihnen eine Regressionsanalyse

durchzuführen, die dann Auskunft über Heteroskedastizität gibt. Die Kritik richtet sich bei diesem

Test vor allem daran, daß der eingeführte Störterm bei der Regressionsanalyse im zweiten Schritt

(mit den geschätzten Störvariablen) selbst von Heteroskedastizität belastet sein kann.68 Namentlich

sollen auch noch der Glejser-Test,69 Spearman's-Korrelations-Test,70 Bartlett-Test und

Harrison-McCabe-Test71 erwähnt werden.

3.3 Schätzverfahren bei Heteroskedastizität

3.3.1 Schätzverfahren bei bekannter Varianz

Bereits in Abschnitt 3.1 wurde gezeigt, daß man mit der Methode der kleinsten Quadrate im Falle

von Heteroskedastizität, keine effizienten Schätzer erwarten kann. Das GLS-Schätzverfahren

hingegen begegnet diesem Problem, indem es eine Gewichtung der einzelnen Werte vornimmt und

somit effiziente Schätzer liefert.72

Es wird ein 2 Variablen-Modell betrachtet:73

(25) yi = β1x1i + β2x i + ui (mit x1i = 1).

Annahmegemäß sind die Varianzen 2iσ bekannt. Gleichung (25) wird nun durch 2

iσ dividiert:

(26)

+

+

=

i

i

i

i

i

i

i

i uxxyσσ

βσ

βσ 2

11 .

Der so transformierte Störvariablen-Term ist nun homoskedastisch:74

67 Vgl. Gujarati (1995), S. 369. 68 Vgl. Gujarati (1995), S. 370. 69 Vgl. Godfrey/Orme (1999), S. 173. 70 Vgl. Gujarati (1995), S. 371-373. 71 Vgl. Hübler (1989), S. 166-169. 72 Vgl. Gujarati (1995), S. 362. 73 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 130 und Gujarati (1995), S. 362. 74 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 130, Baltagi (1998), S. 102 und Gujarati (1995), S. 363.

Page 24: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

15

(27) 1)(1

)(1 2

22

2

2

===

=

i

ii

ii

i

i

i uEu

Eu

Var σσσσσ

.

Damit sind auch die Parameter-Schätzer effizient,75 denn "by construction the transformed model

satisfies all the assumptions of the classical linear regression model."76 Die Kritik an dieser Methode

richtet sich an der Tatsache auf, daß für deren Anwendung die Varianzen bekannt sein müssen, was

jedoch nicht immer der Fall ist.77

3.3.2 Schätzverfahren bei unbekannter Varianz

Eine Form der Abhängigkeit bei der Heteroskedastizität kann sein, daß die Varianz proportional zu

einer unabhängigen Variablen ist. – In einem 2 Variablen-Modell gelte die Annahme:78

(28) 222 )( ii xuE σ= .

In dem man die Regressionsgleichung durch xi dividiert, erhält man:79

(29) εββββ

++=++= 2121 1

ii

i

ii

i

xxu

xxy

.

Durch diese Transformation werden die Residuen nun homoskedastisch:

(30) ( ) ( ) 222

2

2 1σε ==

= i

ii

ii uE

xxu

EE .

Mit der transformierten Gleichung (29) läßt sich dann eine Regression durchführen, deren Störterm

homoskedastisch ist, wie (30) gezeigt hat. Zu beachten ist hierbei, daß das absolute Glied jetzt 2β ist

und 1β der Regressionskoeffizient. Um zu dem ursprünglichen Modell zurückzukommen, werden die

geschätzten Werte aus (29) mit xi multipliziert.

Bei anderen Proportionalitätsfaktoren als 2ix wird (ähnlich), nach oben vorrgestelltem Schema,

vorgegangen.80 Problematisch ist aber, daß man bei mehreren unabhängigen Variablen a priori nicht

sagen kann, welche für die Transformation verwendet werden muß. Auch führen geschätzte

75 Vgl. Gujarati (1995), S. 363. 76 Pindyck/Rubinfeld (1991), S. 130. 77 Vgl. z.B. Hübler (1989), S. 161 und Pindyck/Rubinfeld (1991), S. 130. 78 Vgl. z.B. Gujarati (1995), S. 383 und Pindyck/Rubinfeld (1991), S. 131. 79 Vgl. im folgenden Gujarati (1995), S. 384.

Page 25: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

16

Varianzen 2iσ , die im Laufe der Transformation(en) errechnet wurden, nur zu akzeptablen

Testergebnissen (t-Test, F-Test etc.), wenn Daten in ausreichender Größe vorliegen.81

4 Empirischer Teil

4.1 Beschreibung des Datenmaterials

In dem nun folgenden Kapitel werden exemplarisch Daten einer Befragung, die von dem des "10th

GVU's WWW User Surveys" 82 stammen, über das Kaufverhalten von Kunden im Internet bzw. mit

den Internet-Retailern, der Regressionsanalyse unterzogen.83 Es wurden 113 Fragen pro Proband

gestellt und insgesamt stehen 913 Datensätze zur Verfügung, womit die Stichprobe als ausreichend

groß betrachtet werden kann.

Von den möglichen Variablen wurde die "Number of transactions with internet retailer" (Q11) als

abhängige Variable ausgewählt. Ein Zusammenhang wird mit folgenden 6 unabhängigen Variablen

vermutet: "Amount Spent with internet retailer" (Q10), "Prefer this internet retailer" (Q38), "Special

rewards and discounts" (Q52), "Site ist very entertaining" (Q66), "Excellent service" (Q82) und "Wide

selection" (Q103).

Aus den folgenden Überlegungen wird von allen oben genannten unabhängigen Variablen eine

positive Wirkung auf die Höhe der abhängigen Variablen erwartet:

Die Höhe der Transaktionen wird mit dem Betrag steigen, den man bei seinem Internet-Retailer(Q10)

ausgegeben hat (bspw. für Bücher, CD's etc.). Ebenfalls werden die getätigten Käufe zunehmen,

wenn man den Internet-Retailer bevorzugt (Q38). Auch wird vermutet, daß spezielle

Bonusprogramme und Angebote (Q52) einen Kunden zum Kauf bewegen und somit ebenfalls die

Transaktionen steigen werden. Bei absolut identischen Konditionen werden Kunden wahrscheinlich

den Internet-Retailer bevorzugen, der für sie den Einkauf "angenehmer" mit einer guten und

80 Vgl. Gujarati (1995), S. 384-387. 81 Vgl. Gujarati (1995), S. 387. 82 Vgl. http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10/ (Stand: 11.09.1999). 83 Eine Kopie des Datenmaterials und des Codebooks befindet sich in komprimierter Form auf der Seite: http://www.ecommerce.wiwi.uni-frankfurt.de/ (Stand: 11.09.1999).

Page 26: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

17

unterhaltsamen Homepage (Q66) gestaltet. Zusätzlich ist denkbar, daß viele Internetsurfer (die keine

Kaufabsichten haben) diese Seite nur aufgrund des guten Entertainment besuchen und so vielleicht

unbeabsichtigte Käufe tätigen. – Ein ausgezeichneter Service (Q82) eines Händlers sollte

normalerweise auch mit erhöhten Transaktionen einhergehen. Gleiches gilt für die Größe bzw. Vielfalt

des Angebotes (Q103). Der Kunde kann idealerweise alles von einem Internet-Retailer beziehen, es

fallen damit für ihn geringere Such- und Transaktionskosten an.

4.2 Berechnung und Interpretation

Die folgende Berechnung des in Kapitel 4.1 beschriebenen Datenmaterials wurde mit dem

Programm "SPSS für Windows"84 durchgeführt. Um eine Übersichtlichkeit des Programm-Outputs

zu gewährleisten, ist zunächst je eine Vorwärts- und eine Rückwärts-Regression85 mit allen 6

unabhängigen Variablen durchgeführt worden, um nicht signifikante Variablen aus dem Modell im

Vorfeld zu beseitigen. Das Ergebnis beider Regressionen war, daß die Variablen "Special rewards

and discounts" (Q52) und "Excellent service" (Q82), anders als erwartet, keinen Einfluß auf die

Regressionsfunktion hatten und somit aus dem folgenden Modell gestrichen wurden.

Der Programm-Output der Regressionsanalyse unter Einschluß86 mit den anderen 4 unabhängigen

Variablen ist in den folgenden Tabellen auszugsweise dargestellt.

Tabelle 1: Modellzusammenfassung Änderungsstatistiken

Mod

ell

R R-

Quadrat

Korrigiertes

R-Quadr

at

Standardfehler des

Schätzers

Änderung in

R-Quadrat

Änderung in F

df1 df2

Änderung in

Signifikanz von F

Durbin-Watson-Statistik

1 .701(a) .492 .489 1.4201 .492 219.498 4 908 .000 2.029

84 Für weitere Informationen zu dem Programm "SPSS für Windwos" siehe: http://www.spss.com/ (Stand: 11.09.1999). 85 Vgl. Bellgardt (1997), S. 153-158. 86 Vgl. Bellgardt (1997), S. 151.

Page 27: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

18

Tabelle 2 Analyse der Varianzen Quadratsumme df Mittel der Quadrate F Signifikanz

Regression 1770.685 4 442.671 219.498 .000(a)

Residuen 1831.201 908 2.017

Gesamt 3601.886 912

Tabelle 3: Koeffizienten

Nicht

standardisierte Koeffizienten

Standardisierte

Koeffizienten

95% -Konfidenzintervall für B

Kollinearitätsstatistik

Modell B Standardfehle

r Beta

T

Sign

ifik

anz

Unt

ergr

enze

Obe

rgre

nze

Tol

eran

z

VIF

(Konstante) -.225 .124 -1.813 .070 -.468 .019

Wide selection .138 .034 .144 4.015 .000 .070 .205 .437 2.288

Prefer this internet retailer .128 .031 .142 4.130 .000 .067 .189 .473 2.115

Amount Spent with internet retailer

.553 .031 .494 17.622 .000 .491 .614 .712 1.404

1

Site is very entertaining 6.220E-02 .031 .059 1.992 .047 .001 .123 .639 1.566

Tabelle 4: Korrelation der Koeffizienten

Modell Site is very

entertaining

Amount Spent with internet

retailer

Prefer this internet retailer

Wide selection

Site is very entertaining 1.000 .021 -.257 -.303

Amount Spent with internet retailer

.021 1.000 -.190 -.283

Prefer this internet retailer -.257 -.190 1.000 -.467

Korrelationen

Wide selection -.303 -.283 -.467 1.000

Site is very entertaining 9.747E-04 2.015E-05 -2.493E-04 -3.239E-04

Amount Spent with internet retailer

2.015E-05 9.837E-04 -1.850E-04 -3.046E-04

1

Kovarianzen

Prefer this internet retailer -2.493E-04 -1.850E-04 9.638E-04 -4.966E-04

Page 28: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

19

Wide selection -3.239E-04 -3.046E-04 -4.966E-04 1.175E-03

Die Tabelle 1 weist ein Bestimmtheitsmaß von r2=0,492 aus, was dem durch die Regression

erklärtem Anteil an der Gesamtvarianz entspricht. Die Tabelle 2 zeigt diesen Zusammenhang in

absoluten Werten der Quadratsumme an. Das korrigierte Bestimmtheitsmaß in Tabelle 1 liegt mit

=2KÓRRr 0,489 nur geringfügig unter r2, was die Aufnahme bzw. den Verbleib der vier unabhängigen

Variablen in der Regressionsgleichung bestätigt. Ein hoher F-Wert, wie in diesem Fall von Femp =

219,498, deutet darauf hin, daß die unabhängigen Variablen insgesamt einen maßgeblichen Beitrag

zur Erklärung beitragen. Dies wird durch einen Signifikanzwert von Null bestätigt, der besagt, daß

die Nullhypthese abzulehnen ist. Die standardisierten Regressionskoeffizienten, die sich in Tabelle 3

finden, zeigen, daß die Variable "Amount Spent with internet retailer" den größten und die Variable

"Site is very entertaining" den geringsten Einfluß auf die Regressionsfunktion hat. Der t-Test bestätigt

aber allen vier unabhängigen Variablen, daß sie innerhalb des 95%tigen Konfidenzintervalls liegen

und somit signifikant von Null verschieden sind. Lediglich die Konstante liegt außerhalb des

Konidenzintervalls.

Überprüfung der Annahmen:

Der in Tabelle 1 aufgeführte Durbin-Watson-Wert von 2,029 besagt, daß keine Autokorrelation

vorliegt. Toleranzwerte der Kollinearitätsstatistik (hier in Tabelle 3), die wesentlich größer Null sind,

weisen auf keine Multikollinearität hin, wie dies für die Variablen Q10 und Q66 der Fall ist. Die hohen

Varianz-Inflationsfaktoren (VIF) der Variablen Q103 und Q38 besagen eine große Variabilität der

Toleranzwerte, so daß bei den beiden Variablen ebenfalls keine Multikollinearität vermutet wird.

Korrelationen und Kovarianzen unter den abhängigen Variablen lassen keinen Zusammenhang

erkennen, wie Tabelle 4 zeigt. Zur Überprüfung der Regressionsfunktion auf Heteroskedastizität wird

Abbildung 4 herangezogen. Auf der Y-Achse sind die standardisierten Residuen abgetragen und auf

der X-Achse die standardisierten geschätzten Werte der Regression. Anhand der Grafik lassen sich

keine wesentlichen Muster erkennen, so daß Homoskedastizität vermutet wird. Die Annahme der

stan

dard

isie

rte

Res

idue

n

Page 29: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

20

Beobachtete Kum.

Wahrsch.

Normalverteilung wird durch Abbildung 5 und 6 bestätigt.

Abbildung 4: Streudiagramm

Abbildung 5:P-P-Plot Abbildung 6:Histogramm der standardisierten Residuen

Die partiellen Regressionsdiagramme der unabhängigen Variablen mit der abhängigen Variablen

zeigen für Q66 einen geringen, für Q103 und Q38 einen höheren und für Q10 den größten

Zusammenhang auf (Abbildungen 7 - 10).

Q11 Q11

Q11 Q11

Regression Standardisiertes Residuum

Erw

arte

te

Kum

.

Häu

figk

eit

Abbildung 7:

Partielles Regressionsdiagramm Q66

Abbildung 8:

Partielles Regressionsdiagramm Q103

Q66 Q103

standardisierte geschätzte Werte der Regression

Page 30: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

21

Die durchgeführte Regressionsanalyse hat gezeigt, daß die Variablen "Excellent service" (Q82) und

"Special rewards and discounts" keinen Einfluß auf die Höhe der Transaktionen mit einem Internte-

Retailer haben und somit für die weiteren Berechnungen eliminiert wurden. Die Annahmen der

Regressionsanalyse wurden überprüft und als nicht verletzt angesehen. Die vier anderen

unabhängigen Variablen weisen dagegen einen Einfluß auf die abhängige Variable aus. Zusammen

können sie immerhin 49,2 % der Gesamtvarianz erklären. Damit kann die Regressionsfunktion den

vermuteten Zusammenhang recht gut erklären. Den größten Beitrag liefert dazu die unabhängige

Variable "Amount Spent with internet retailer". Die drei anderen Regressoren (Q66, Q103, Q38) liefern

zwar einen wesentlich geringeren Erklärungsbeitrag, der aber immer noch signifikant von Null

verschieden ist und somit auch ein Zusammenhang zwischen ihnen und der abhängigen Variablen

"Number of transactions with internet retailer" besteht.

5 Zusammenfassung In der vorliegenden Arbeit wurde die Regressionsanalyse in ihren Grundzügen vorgestellt. Sie ist

besonders geeignet, um Zusammenhänge zu erkennen und Prognosen zu liefern. Dabei sollte sie so

viel wie nötig und so wenig wie möglich unabhängige Variablen in die Regressionsfunktion

aufnehmen, damit deren Güte gewährleistet ist, die man u.a. durch das korrigierte Bestimmtheitsmaß

feststellen kann.

Weisen die Residuen systematisch unterschiedliche Varianzen auf, so ist eine Annahme der

Regressionsanalyse verletzt und es liegt Heteroskedastizität vor. Zu deren Feststellung wurden neben

einer grafischen Überprüfung weitere Tests, wie der Goldfeld-Quandt-Test und der Breusch-Pagan-

Test, vorgestellt. Bei der Wahl der Methode sollte darauf geachtet werden, daß die Daten bzw. die

Beobachtungswerte für den jeweiligen Test grundsätzlich geeignet sind.

Liegt Heteroskedastizität vor, kann mit einer entsprechenden Transformation der

Regressionsfunktion eine homoskedastische Lösung erzielt werden. Geschieht dies nicht, so führt es

zu ineffizienten Schätzern. Deren Konsequenz sind inkorrekte Konfidenzintervalle, die falsche

Abbildung 10:

Partielles Regressionsdiagramm Q10

Abbildung 9:

Partielles Regressionsdiagramm Q38

Q38 Q10

Page 31: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

22

Aussagen über die Signifikanz von Regressionskoeffizienten liefern und so letzten Endes zu einer

falschen Regressionsfunktion führen können.

6 Anhang

Syntax zur Berechnung mit "SPSS für Windows"

REGRESSION

/DESCRIPTIVES MEAN STDDEV CORR SIG N

/MISSING LISTWISE

/STATISTICS COEFF OUTS CI BCOV R ANOVA COLLIN TOL CHANGE ZPP

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT q11

/METHOD=ENTER q103 q38 q10 q66

/PARTIALPLOT ALL

/SCATTERPLOT=(*ZRESID ,*ZPRED )

/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)

/SAVE ZPRED ZRESID .

Page 32: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

23

Literaturverzeichnis

Albers, Sönke / Skiera, Bernd: Marktforschung: Methoden, Anwendungen, Praxisbeispiele /

Andreas Herrmann; Christian Homburg, Wiesbaden 1999

Backhaus, Klaus / Erichson, Bernd / Plinke, Wulff / Weiber, Rolf: Multivariate Analysemethoden:

eine anwendungsorientierte Einführung, 8. Auflage, Berlin et al. 1996

Baltagi, Badi H.: Econometrics, Berlin et al. 1998

Bellgardt, Egon: Statistik mit SPSS: ausgewählte Verfahren für Wirtschaftswissenschaftler, München

1997

Bleymüller, Josef / Gehlert, Günther / Gülicher, Herbert: Statistik für Wirtschaftswissenschaftler, 11.

Auflage, München 1998

Bortz, Jürgen: Statistik für Sozialwissenschaftler, 5. Auflage, Berlin et al. 1999

Christof, Karin / Pepels, Werner: Praktische quantitative Marktforschung: Beispielauswertungen mit

SPSS, München 1999

Cook, R. Dennis / Weisberg, Sanford: "Graphics for Assessing the Adequacy of Regression

Models", Journal of the American Statistical Association 92(438) 1997, Seite 490-499

Dixon, Sherry L. / McKean, Joseph W.: "Rank-Based Analysis of the Heteroscedastic Linear

Model", Journal of the American Statistical Association 91(434) 1996, Seite 699-712

Eckstein, Peter P.: Angewandte Statistik mit SPSS: praktische Einführung für

Wirtschaftswissenschaftler, Wiesbaden 1997

Fahrmeir, Ludwig: "Maximum Liklihood Estimation In Misspecified Generalized Linear Models",

statistics – a journal of theoretical and applied statistics 21(4) 1990, Seite 487-502

Godfrey, Les G. / Orme, Chris D.: "The Robustness, Reliability And Power Of Heteroskedasticity

Test", Econometric Reviews 18(2) 1999, Seite 169-194

Gujarati, Damodar N.: Basic Econometrics, New York 1995

Homburg, Christian / Herrmann, Andreas / Pflesser, Christian: Marktforschung: Methoden,

Page 33: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

24

Anwendungen, Praxisbeispiele / Andreas Herrmann; Christian Homburg, Wiesbaden 1999

http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10/ (Stand: 11.09.1999)

http://www.ecommerce.wiwi.uni-frankfurt.de/ (Stand: 11.09.1999)

http://www.spss.com/ (Stand: 11.09.1999)

Hübler, Olaf: Ökonometrie, Stuttgart et al. 1989

Kähler, Wolf-Michael: SPSS für Windows: Datenanalyse unter Windows, 2. Auflage, Braunschweig

et al. 1994

Lehnert, Uwe: Datenanalysesystem SPSS für Windows Versionen 6.0 und 6.1: handlungsorientiertes

und leicht verständliches Lehrbuch zur Einführung in die statistische Datenanalyse mit

Arbeitsplatzrechnern, 2. Auflage, München et al. 1996

Linton, Oliver B.: "Second Order Approximation In A Linear Regression Model", Econometric

Reviews 15(1) 1996, Seite 1-32

Neubauer, Werner: Statistische Methoden: ausgewählte Kapitel für Wirtschaftswissenschaftler,

München 1994

Pindyck, Robert S. / Rubinfeld, Daniel L.: Econometric Models and Economic Forecasts, New

York et al. 1991

Reisinger, Heribert: "The impact of research designs on R2 in linear regression models: an exploratory

meta-analysis", Journal of Empirical Generalisations in Marketing Science, 2, 1-12,

(http://msc.city.unisa.edu.au/msc/JEMS/Pubs/jems/rsquare.pdf, Stand: 03.08.1999)

Reisinger, Heribert: Goodness-of-Fit-Maße in linearen Regressions- und Logit-Modellen, Frankfurt

am Main et al. 1996

Schlittgen, Rainer: Einführung in die Statistik: Analyse und Modellierung von Daten,

München et al. 1997

Schneeweiß, Hans: Ökonometrie, 4. Auflage, Heidelberg 1990

Spanos, Acis: "On Normality and the Linear Regression Model", Econometric Reviews 14(2) 1995,

Seite 195-203

Page 34: Kupferschmidt ec 19990913 - wiwi.uni-frankfurt.de · Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der jedoch auch zufällig bedingt

25

Srivastava, Anil K. / Ullah, Aman: "The Coefficient Of Determination And Ist Adjusted Version In

Linear Regression Models", Econometric Reviews 14(2) 1995, Seite 229-240

Steffen, Andreas: Das Problem der Multikollinearität in Regressionsanalysen, Berlin et al. 1994

Tsay, Wen-Jen: "On The Power Of Durbin-Watson Statistic Against Fractionally Integrated

Processes", Econometric Reviews 17(4) 1998, Seite 361-386

White, Halbert: "A Heteroskedasticity-Consistent Covariance Matrix Estimator And A Direct Test

For Heteroskedasticity", Econometrica 48(4) 1980, Seite 817-838

Winker, Peter: Empirische Wirtschaftsforschung, Berlin et al. 1997