Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2...

38
Kausalanalyse Paneldaten kategoriale Zielvariablen

Transcript of Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2...

Page 1: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

Kausalanalyse

Paneldatenkategoriale Zielvariablen

Page 2: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

2

Warum geht es in den folgenden Sitzungen?

Klausur (60 Minuten)22.07.2008

Ereignisdatenanalyse III16.07.200814

Ereignisdatenanalyse II09.07.200813

Ereignisdatenanalyse I02.07.200812

Paneldatenanalyse kategorialer Zielvariablen III25.06.200811

Paneldatenanalyse kategorialer Zielvariablen II18.06.200810

Paneldatenanalyse kategorialer Zielvariablen I11.06.20089

Paneldatenanalyse kontinuierlicher Zielvariablen III04.06.20088

Paneldatenanalyse kontinuierlicher Zielvariablen II28.05.20087

Paneldatenanalyse kontinuierlicher Zielvariablen I21.05.20086

Analysemöglichkeiten von Paneldaten (trotz Pfingstferien)14.05.2008

Kumulierte Querschnittsdaten II07.05.20085

fällt aus30.04.20084

Kumulierte Querschnittsdaten I23.04.20083

Allgemeines lineares Modell16.04.20082

Einführung und Überblick09.04.20081

ThemaSitzung

Paneldaten: y kategorial

Page 3: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

3

Gliederung

1. Mögliche Analysestrategien2. Logistische Regression für Paneldaten3. Vergleich verschiedener Schätzverfahren

Page 4: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

4

Beispiel 1: Stresssymptome• Überlebende von Hausbränden im Gebiet von

Philadelphia (USA)• Paneldaten: ptsd.dta (s. Handout)

– n=316 Personen– T=3 Wellen (3, 6 und 12 Monate nach Brand)

• Variablen– dichotome Zielvariable ptsd: posttraumatische Stresssymptome

(0=nein, 1=ja)– control: Kontrollüberzeugung (Skala)– problems: Probleme in verschiedenen Lebensbereichen (Anzahl)– sevent: Anzahl belastender Ereignisse seit letztem Interview– cohes: Familienzusammenhalt (Skala)

• Sequenzen: 111, 110, 101, 100, 011, 010, 001, 000• auch möglich: 333, 332, 322, 321 usw., wenn y polytom

Page 5: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

5

Beispiel 2: Tätigkeitsdauer• Erwerbstätige Personen (simulierte Daten)• Paneldaten: jobyrs_complete.dta (s. Handout)

– n=100 Personen– T=5 Wellen (jährlich)

• Variablen– dichotome Zielvariable quitted: Tätigkeit beendet (0=nein,

1=selbst gekündigt) [Kündigung durch Arbeitgeber: ignoriert]– ed: Ausbildung (Jahre)– prestige: Prestige der Tätigkeit (Skala)– salary: Einkommen (in 1000 $) zu Beginn der Tätigkeit

• Sequenzen: 00000, 00001, 00011, ..., 11111– Besonderheit: alle beginnen im gleichen Ausgangszustand (0)– eigentlich interessieren nur Wellen bis 1. Wechsel (jobyrs.dta)– alternativ ein Datensatz pro Person mit Dauer (jobdur.dta)

Page 6: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

6

Analysemöglichkeiten• Beispiel 1 (Absolutwert von Y): Was ist die

Wahrscheinlichkeit, zu einem beliebigen Zeitpunkt die Ausprägung 1 zu beobachten?

Logistische Regression für Paneldaten

• Beispiel 2 (Veränderung von Y): Was ist die (bedingte) Wahrscheinlichkeit, einen gegebenen Ausgangszustand zu verlassen?

Ereignisdatenanalyse (s. spätere Vorlesung)

))(G()Pr( 11110 jijikitkitit zzxxtky γγβββ ++++++== KK

)G()|Pr( 1,1 KK ===== − jyyky tiiit

Page 7: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

7

Gliederung

1. Mögliche Analysestrategien2. Logistische Regression für Paneldaten

a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effects

3. Vergleich verschiedener Schätzverfahren

Page 8: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

8

Logistisches Regressionsmodell

ikkii

i

xx

xx

ii

xx

eey

ikki

ikki

βββπ

π

π βββ

βββ

+++=⎟⎟⎠

⎞⎜⎜⎝

⎛−

+=== +++

+++

K

K

K

1101

1

1

1lnLogit

1)1Pr(lichkeitWahrschein

110

110

0.2

.4.6

.81

Pr(

y=1)

-5 0 5x

Logistisches Regressionmodell (ß0=0, ß1=1)

Page 9: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

9

Odds Ratio (Antilogarithmus)

( ) ( ) ( )

( ) ( ) ( )

usw. ,: Ratio Odds1

Odds

1 Odds

1 Odds

)exp(1

lnexp

10

1

110

110

10

101

1

1

1

1

1

1101

1

K

K

K

K

K

ββ

βββ

βββ

αα

αααπ

ππ

ππ

π

βββπ

π

ee

eee

eee

xx

iki

ikki

ikki

xk

x

i

i

xx

i

i

xx

i

i

ikkii

i

==

⋅⋅⋅=−

⋅⋅⋅=−

⋅⋅⋅=−

+++=⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−

Page 10: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

10

Maximum Likelihood Schätzung• Verwende als Schätzwerte für die

(unbekannten) Parameter β die Werte, die die Likelihood (die „Wahrscheinlichkeit“) des vorliegenden Untersuchungsergebnisses maximeren.

• Was ist mit Untersuchungsergebnis gemeint?Die Untersuchungseinheiten mit ihren– jeweiligen Ausprägungen der abhängigen Variablen

(0, 1) und– den jeweiligen Ausprägungen der unabhängigen

Variablen.

Page 11: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

11

Maximum Likelihood Schätzung

( ) ( )

)ln(2)ln(2LRTest-LR1

1ln)1(1

lnLikelihood-Log

)Pr(yln)Pr(ylnlnmaximiere),,|Pr(y),,|Pr(yLikelihood

1

n1

1n1111

110

110

110

110

ru

n

ixx

xx

ixx

xx

i

nknk

LLe

eye

ey

(L)xxxxL

ikki

ikki

ikki

ikki

−=

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛+

−−+⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

++=⋅⋅=

∑=

+++

+++

+++

+++

βββ

βββ

βββ

βββ

K

K

K

K

KKK

KKK

• Für das Maximum der Log-Likelihoodfunktion gibt es keine analytische Lösung (wie bei OLS-Schätzungen).

• Die Parameter β, die für die Daten (yi, xi) die Funktion ln(L)maximieren, müssen numerisch bestimmt werden.

• Die Parameter, die ln(L) maximieren, heissen ML-Schätzer.• Tests: Likelihood-Verhältnis-Test (analog F-Test), Wald-Test

(analog T-Test)

Page 12: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

12

Gliederung

1. Mögliche Analysestrategien2. Logistische Regression für Paneldaten

a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effects

3. Vergleich verschiedener Schätzverfahren

Page 13: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

13

Wiederholung: Fixed Effects bei linearen Modellen• Elimination aller zeitkonstanten Personeneffekte• „aller“ = beobachtete und unbeobachtete Effekte• time-demeaned data = Restvarianz nach

Elimination der personenspezifischen Mittelwerte

• nur die zeitliche Variation wird berücksichtigt• FE Schätzer sind bedingte Schätzer: pooled

OLS gegeben personenspezifische Mittelwerte• Alternativ: pro Person eine Dummy-Variable

Page 14: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

14

Logistisches Regressionsmodell für Paneldaten

∑∑∑∑= =

′+

′+

= =+++

+++

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

+++=⎟⎟⎠

⎞⎜⎜⎝

⎛−

n

i

T

tu

un

i

T

txxu

xxu

kitkitiit

iti

iti

iti

kitkiti

kitkiti

ee

ee(L)

xxuu

1 11 1

111

1

1ln

1lnln

!!!verkürzt Likelihood-Log

1lnmit Modell

11

11

βx

βx

ββ

ββ

ββπ

π

K

K

K

• ui: personenspezifischer Fehlerterm (eit weggelassen, zu kompliziert; keine Konstante β0 bei fixen ui, wäre nicht identifiziert; zeitkonstante unabhängige Variablen zji der Einfachheit halber weggelassen)

• Problem: ui lässt sich nicht ohne weiteres aus der Schätzfunktion eliminieren.

• Alternative: Schätzung der ui über eine personen-spezifische Dummy-Variable ist nicht mit Maximum Likelihood vereinbar.– ML-Schätzungen sind konsistent (Verhalten in kleinen Stp unklar).– Beweis beruht auf n →∞.– Konsistenzbeweis mit ui unmöglich, da die Anzahl zu schätzender Parameter

mit der Anzahl der Beobachtungen linear zunimmt.

Page 15: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

15

Elimination der ui durch ConditionalLikelihood (1/3)• Maximiere die bedingte Wahrscheinlichkeit, eine

bestimmte Sequenz zu beobachten, gegeben eine bestimmte Summe von Einsen in der Sequenz.

• Bei T=2 Wellen sind z.B. folgende Sequenzen möglich:– mit Summe 0: 00 (keine Veränderung von y, 1 möglicher Fall)

Pr(00|Σ=0) = (1 günstiger Fall) / (1 möglicher Fall) = 1– mit Summe 2: 11 (keine Veränderung von y , 1 möglicher Fall)

Pr(11|Σ=2) = 1/1 = 1– mit Summe 1: 01 oder 10 (Veränderung von y , 2 mögliche Fälle)

Pr(01|Σ=1) < 1Pr(10|Σ=1) < 1

• Sequenzen mit bedingter Wahrscheinlichkeit gleich Eins tragen nicht zur (Conditional) Likelihood bei (a priori sichere Ereignisse).

Page 16: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

16

Elimination der ui durch ConditionalLikelihood (2/3)

Beispiel Pr(01|Σ=1)

βxβx

βx

βxβx

βx

βxβx

βx

βx

βx

βx

βx

βx

βx

21

2

21

2

21

1

2

2

1

2

2

1

01 Sequenzder nlichkeit Wahrscheibedingte

11

1111

111

))0 und 1(oder )1 und 0Pr(()1 und 0Pr(

2121

21

ii

i

iiii

ii

iiii

ii

ii

ii

ii

ii

ii

ii

eee

eee

eee

ee

e

ee

e

yyyyyy

uu

u

uu

u

u

u

u

u

u

u

iiii

ii

′′

′+′+

′+

′+′+

′+

′+

′+

′+

′+

′+

′+

+=

+=

+⋅

++

+⋅

+

+⋅

+

=====

==

Page 17: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

17

Elimination der ui durch ConditionalLikelihood (2/3)

Beispiel Pr(01|Σ=1)

βxβx

βx

βxβx

βx

βxβx

βx

βx

βx

βx

βx

βx

βx

21

2

21

2

21

1

2

2

1

2

2

1

01 Sequenzder nlichkeit Wahrscheibedingte

11

1111

111

))0 und 1(oder )1 und 0Pr(()1 und 0Pr(

2121

21

ii

i

iiii

ii

iiii

ii

ii

ii

ii

ii

ii

ii

eee

eee

eee

ee

e

ee

e

yyyyyy

uu

u

uu

u

u

u

u

u

u

u

iiii

ii

′′

′+′+

′+

′+′+

′+

′+

′+

′+

′+

′+

′+

+=

+=

+⋅

++

+⋅

+

+⋅

+

=====

==

Page 18: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

18

Elimination der ui durch ConditionalLikelihood (3/3)

• T=2: CML = logistische Regression– abhängige Variable: Sequenz 01 vs. Sequenz 10– unabhängige Variablen: Differenzen der x-Variablen

• T>2: CML = konditionale logistische Regression

βx

βx

βxx

βxx

βxβx

βxβx

βx

βx

βxβx

βx

i

i

ii

ii

ii

ii

i

i

ii

i

ee(y

ee

ee

ee

eee

i ′

⋅′−′

⋅′−′

′−′

′−′

′−

′−

′′

+==

+=

+=⋅

+==Σ

1)1Pr

:tsdatenQuerschnitfür Regression elogistisch Vergleiche11

)1|01Pr(

:01 Sequenzder nlichkeit WahrscheiBedingte

)(

)(

12

12

12

12

1

1

21

2

Endergebnis strukturell gleich

Page 19: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

19

Zusammenfassung CML

• T=2: CML = logistische Regression– abhängige Variable: Sequenz 01 vs. Sequenz 10– unabhängige Variablen: Differenzen der x-Variablen

ähnlich FD estimator im linearen Modell• T>2: CML = konditionale logistische Regression

– Prinzip• Bedingte Wahrscheinlichkeit für Sequenz α, gegeben die

Sequenzen α, β, γ, ..., die alle die gleiche Summe von Einsen aufweisen.

– konditionale logistische Regression• Welche Eigenschaften der Alternativen A, B, C, ...

beeinflussen, dass Alternative A gewählt wird?• häufige Anwendung in der Marktforschung

Page 20: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

20

FE: lineare vs. logistische Regression

• beide sind bedingte Schätzungen– linear: ... gegeben personenspezifische Mittelwerte– logistisch: ... gegeben Sequenz von Zuständen

• Untersuchungseinheiten ohne Veränderung– linear: Mittelwertbereinigung bei zeitkonstanten Variablen →

Varianzreduktion– logistisch: Sequenzen ohne Veränderung → kein Beitrag zur

Likelihood-Funktion (Li=1)• fixed effects und first differences

– linear: identische Ergebnisse für T=2, differieren für T>2– logistisch: CML identisch mit logistischer Regression für

differenzierte Daten bei T=2, spezielles CML-Programm notwendig für T>2

)0( =ity&&

Page 21: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

21

Gliederung

1. Mögliche Analysestrategien2. Logistische Regression für Paneldaten

a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effects

3. Vergleich verschiedener Schätzverfahren

Page 22: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

22

Maximierung einer vereinfachten Likelihood-Funktion• Voraussetzung: ui ist unkorreliert mit allen xkit• zusätzlich: Verteilungsannahme für die personen-

spezifischen Fehlerterme ui– häufig Normalverteilung– Annahme kann problematisch sein

• Der Beitrag jeder Person i=1, ..., N zur Likelihooderrechnet sich wie folgt:

• Da Corr(ui, xkit)=0 → Likelihood einfaches Produktii

iiiititit

T

tiTii

uuf

duufuyYyyL

eFehlerterm ezifischenpersonenspder tion Dichtefunk )(

)()|Pr()|,,Pr( 1 ⋅⎥⎦⎤

⎢⎣⎡ +′=== ∫ Π

+∞

∞−

βxXK

Page 23: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

23

Plausibilisierung des Integrals (1/3)

• Daten: T=2, eine unabhängige Variable x1it• Beispiel 1: alle Personen haben den gleichen Fehlerterm

– ui=α0– tritt daher bei jeder Person mit Wahrscheinlichkeit 1 auf– Pr(α0)=1

• L1 = Pooled Logit für Modell mit Regressionskonstante (α0).

[ ] )Pr()|Pr()|Pr(),|,Pr(

:1Person für 1 Beispiel

)()|Pr()|,,Pr(

0112100121111001111211112111

1

αββαββα ⋅++⋅++==

⋅⎥⎦⎤

⎢⎣⎡ ′+=== ∫ Π

+∞

∞−

xyxyxxyyL

duufuyYyyL iiitiitit

T

tiTii βxXK

1

nicht identifizierbar

Page 24: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

24

Plausibilisierung des Integrals (2/3)

• Beispiel 2: drei verschiedene Fehlerterme sind denkbar– α1, α2, α3 (z.B. -1, +1 und 0 für unter-, über- und

durchschnittliche Risiken)– treten mit unterschiedlicher Wahrscheinlichkeit auf– Pr(α1)=0,2, Pr(α2)=0,6, Pr(α3)=0,2

• L1 … Wahrscheinlichkeit, dass entweder α1 oder α2 oder α3zutrifft

[ ][ ][ ] 2,0)|Pr()|Pr(

6,0)|Pr()|Pr(2,0)|Pr()|Pr(),|,Pr(

:1Person für 2 Beispiel

1121031211110311

1121021211110211

112101121111011112111112111

⋅++⋅+++⋅++⋅+++⋅++⋅++==

xyxyxyxyxyxyxxyyL

ββαββαββαββαββαββα

jetzt identifizierbar

Page 25: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

25

Plausibilisierung des Integrals (3/3)• Beispiel 3: Fehlerterm kann beliebige Werte annehmen

– -∞ < α < +∞– α treten mit unterschiedlicher Wahrscheinlichkeit auf– wird durch Dichtefunktion f (α) beschrieben

• Integration ist eine Art verallgemeinerter Addition.

[ ][ ]

[ ]

iiitiitit

T

tiTii duufuyYyyL

fxyxy

fxyxyfxyxyxxyyL

)()|Pr()|,,Pr(

)()|Pr()|Pr(

)()|Pr()|Pr()()|Pr()|Pr(),|,Pr(

:1Person für 3 Beispiel

1

112112111111

112112111111

11211211111112111112111

∫ Π∞+

∞−⎥⎦⎤

⎢⎣⎡ ′+===

′′′⋅+′′′⋅+′′′+

′′⋅+′′⋅+′′+

′⋅+′⋅+′==

βxXK

M

αβαβα

αβαβααβαβα

Page 26: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

26

Zusammenfassung Fehlerterm ui

• FE: fester Wert– lineares Modell: schätzbar, vgl. areg– logistisches Modell: kontrollierbar

• RE: Zufallsvariable– einzelne Werte uninteressant– geschätzt wird lediglich ihre Streuung

• ML (linear, logistisch): Verteilungsannahme• GLS (linear): pooled OLS Residuen oder FE Residuen

– Voraussetzung• Unabhängigkeit der ui von den im Modell berücksichtigten

unabhängigen Variablen x und z

Page 27: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

27

Gliederung

1. Mögliche Analysestrategien2. Logistische Regression für Paneldaten

a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effects

3. Vergleich verschiedener Schätzverfahren

Page 28: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

28

Beispiel 1: Stresssymptome• Überlebende von Hausbränden im Gebiet von

Philadelphia (USA)• Paneldaten: ptsd.dta (s. Handout)

– n=316 Personen– T=3 Wellen (3, 6 und 12 Monate nach Brand)

• Variablen– dichotome Zielvariable ptsd: posttraumatische Stresssymptome

(0=nein, 1=ja)– control: Kontrollüberzeugung (Skala)– problems: Probleme in verschiedenen Lebensbereichen (Anzahl)– sevent: Anzahl belastender Ereignisse seit letztem Interview– cohes: Familienzusammenhalt (Skala)– t1, t2: Dummies für Erhebungszeitpunkte (t3 Referenzgruppe)

Page 29: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

29

Schätzergebnisse

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

Page 30: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

30

Unterschiede (1/4)

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

• Standardfehler OLS kleiner als Standardfehler RE• wie bei Zeitreihenanalyse unterschätzt OLS Standardfehler, wenn serielle

Korrelation nicht kontrolliert wird• pooled liefert scheinbar signifikantere Ergebnisse

Page 31: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

31

Unterschiede (2/4)

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

• Standardfehler FE größer als Standardfehler RE• FE nutzt nur Sequenzen mit Variationen• wenn diese Variation gering ist, können Effekte nur unpräzise geschätzt

werden

Page 32: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

32

Unterschiede (3/4)

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

• Effekte von control, problems und sevent nehmen ab.• Das muss damit zusammenhängen, dass die unbeobachtete Heterogenität

und die jeweilige Variable (z.B. control) korrelieren.• Erklärung: Ängstliche Personen, die eher Stress berichten, haben auch

geringere Kontrollüberzeugungen.

Page 33: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

33

Unterschiede (4/4)

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

• FE: die Effekte zeitkonstanter unabhängiger Variablen (cohes) können nichtgeschätzt werden, werden aber kontrolliert.

Page 34: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

Zum Schluss

Page 35: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

35

Zusammenfassung

• polytome Zielvariablen• Modellierung der Vorgeschichte von y=1

nicht diskutiert

• Absolutwert von Y: logistische Regression für Paneld.• Veränderung von Y: zeitdiskrete Ereignisdatenanalyse

Analyse-strategien

• FE: fixed effects estimation (Conditional ML)– keine zeitkonstanten z möglich

• RE: random effects (Maximum Likelihood)– Annahme der Unabhängigkeit der Fehlerterme u

Logistische Regression

Page 36: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

36

Wichtige Fachausdrücke

conditional logistic regression

KonditionalelogistischeRegression

odds ratioOdds Ratio

logistic regressionLogistische Regression

conditionallikelihoodestimation

Konditionale LikelihoodSchätzung

conditionalprobability

bedingte Wahrschein-

lichkeit

maximumlikelihoodestimation

Maximum LikelihoodSchätzung

likelihood ratiotest

Likelihood-Verhältnis-Test

likelihoodfunction

Likelihood-Funktion

EnglischDeutschEnglischDeutsch

Page 37: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

37

Weiterführende Literatur• Wooldridge (2003) diskutiert keine Modelle für Paneldaten mit

kategorialen Zielvariablen. Siehe aber:– Kap. 21.5 aus Greene, William H. (2003): Econometric Analysis. 5th

edition. New Jersey: Prentice Hall• Die programmtechnische Umsetzung kann man hier nachlesen:

– Kap. 9 aus Rabe-Hesketh, Sophia / Everitt, Brian (2004): A Handbook of Statistical Analyses using Stata. Boca Raton et al.: Chapman & Hall/CRC

– Kap. 8 aus Allison, Paul D. (2001): Logistic Regression Using The SAS System - Theory and Application. Cary, NC: SAS Publishing

• Andreß, H.J. / Hagenaars, J.A. / Kühnel, S. (1997)– Eine ausführliche und anwendungsorientierte Einführung in das

logistische Regressionsmodell findet sich in Kapitel 5 (AHK 261-325). Hier werden auch einige Weiterführungen erläutert (konditionale logistische Regression, multinomiale Regression für polytomekategoriale Zielvariablen).

Page 38: Paneldaten kategoriale Zielvariableneswf.uni-koeln.de/lehre/08/3kausalanalyse/ss0803_07.pdf · 2 Warum geht es in den folgenden Sitzungen? 22.07.2008 Klausur (60 Minuten) 14 16.07.2008

38

Stata-Befehle

Regression mit fixed effectsRegression mit random effects

xtlogit y x1 x2, fextlogit y x1 x2, re

Logistische Regressionlogit y x1 x2, noconstant

Beschreibung der Paneldatenxtdes

Deklaration der Panelstrukturtsset id t