Panelregression (und Mehrebenenanwendungen)
Henning LohmannUniversität zu Köln
Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung
SOEP@Campus 2007, Universität Duisburg-Essen, 11. Oktober 2007
Überblick
1. Einführung- Datenstruktur, Vorteile/Probleme, mögliche
Vorgehensweisen2. Analyse von Paneldaten
- OLS-Regression mit robusten Standardfehlern, random effects Modelle, fixed effects Modelle
3. Ausblick4. Einführung in die Übungsaufgaben
1. Einführung
Paneldaten / Mehrebenendaten ?
• Paneldaten weisen wie Mehrebenendaten eine hierarchische Datenstruktur auf
– z.B. mehrere Beobachtungen einer Person– z.B. mehrere Personen eines Landes
• daher werden (teilweise) dieselben Analyseverfahren verwendet
• hier soll es aber allein um die Analyse von Paneldaten gehen
Paneldaten: hierarchische Datenstruktur
…Person 1
b1 b2 b3 b4 b5 … bt
Person 2
b1 b2 b3 b4 b5 … bt
Person i
b1 b2 b3 b4 b5 … bt
i*t Beobachtungen
Paneldaten / MehrebenendatenPaneldaten Mehrebenendaten
1. Ebene z.B. Personen z.B. Länder
2. Ebene i Personen mit Beobachtungen an t Zeitpunkten (N=i*t)
j Länder mit Beobachtungen von i
Personen (N=j*i)
i.d.R. i>t i.d.R. j<i
Datenmatrix (long-Format)persnr jahr geschlecht eink
1 2002 maennlich 29151 2003 maennlich 64001 2004 maennlich 01 2005 maennlich 43001 2006 maennlich 35002 2002 weiblich 3042 2003 weiblich 6722 2004 weiblich 5062 2006 weiblich 2603 2002 maennlich 31953 2003 maennlich 34003 2004 maennlich 32503 2005 maennlich 32353 2006 maennlich 3328
Beobach-tungen
Personen
konstant variabel
Vorteile/Probleme von Paneldaten
• bessere Möglichkeiten zur Kausalanalyse– Analyse von Veränderungen auf individueller Ebene
möglich – Analyse von Zugängen und Abgängen auf Aggregatebene
• Kontrolle unbeobachteter Heterogenität• aber: Beobachtungen einer Person voneinander
abhängig erfordert Verwendung geeigneter Analyseverfahren
• weitere Probleme: Panelmortalität, fehlende Daten, Lerneffekte, Wandel der Erhebungsinstrumente, Wandel der Grundgesamtheit
Mögliche Vorgehensweisen
• herkömmliche Regressionsmodelle mit robusten Standardfehlern
• random effects models (unterschiedliche Bezeichunungen mit unterschiedlicher Schwerpunktsetzung: mixed models, variance components models, hierarchicallinear model, multilevel model)
• fixed effects models
2. Analyse von Paneldaten
Modellierung
yit=β0+ β1x1it+β2x2it+...+βkxkit+vit
mit: vit= ai+ uit
[ai: konstanter personenspezifischer Fehlerterm, wegen ai ergibt sich corr(vit, vis)≠0 Autokorrelation]
aber: Unter der Annahme, dasscorr(ai,xit)=0 sind OLS-Schätzer unverzerrt.
a) OLS-Regression mit robusten Standardfehlern
Beispiel 1: Körpergröße Männer/Frauen
• Befragung von 100 an 3 Zeitpunkten• abhängige Variable: Körpergröße (zeitlich
invariant)• unabhängige Variable: Geschlecht (zeitlich
invariant)• zunächst werden nur Daten der ersten Welle
betrachtet• Frage: Welchen Einfluss hat Geschlecht auf
Körpergröße?
Beispiel 1: Mittelwerteuse groesse.dta, clear
sum groesse1 if frau==1sum groesse1 if frau==0
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
groesse1 | 50 173.84 16.55462 145 200
. sum groesse1 if frau==0
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
groesse1 | 50 178.34 17.50173 151 203
Beispiel 1: OLS-Regression/Querschnittreg groesse1 frau
Source | SS df MS Number of obs = 100-------------+------------------------------ F( 1, 98) = 1.74
Model | 506.25 1 506.25 Prob > F = 0.1896Residual | 28437.94 98 290.183061 R-squared = 0.0175
-------------+------------------------------ Adj R-squared = 0.0075Total | 28944.19 99 292.365556 Root MSE = 17.035
------------------------------------------------------------------------------groesse1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------frau | -4.5 3.406952 -1.32 0.190 -11.26099 2.260986_cons | 178.34 2.409079 74.03 0.000 173.5593 183.1207
Beispiel 1: „Umwandlung“ in Paneldatenuse groesse.dta, cleargen groesse2=groesse1gen groesse3=groesse2
corr groesse1 groesse2 groesse3groesse1 groesse2 groesse3
-------------+---------------------------groesse1 | 1.0000groesse2 | 1.0000 1.0000groesse3 | 1.0000 1.0000 1.0000
Beispiel 1: „Umwandlung“ in Paneldatenreshape long groesse, i(persnr) j(welle)
(note: j = 1 2 3)
Data wide -> long------------------------------------------------------Number of obs. 100 -> 300Number of variables 5 -> 4j variable (3 values) -> wellexij variables:
groesse1 groesse2 groesse3 -> groesse------------------------------------------------------
Beispiel 1: OLS-Regression/Panelreg groesse frau
Source | SS df MS Number of obs = 300-------------+------------------------------ F( 1, 298) = 5.30
Model | 1518.75 1 1518.75 Prob > F = 0.0220Residual | 85313.82 298 286.287987 R-squared = 0.0175
-------------+------------------------------ Adj R-squared = 0.0142Total | 86832.57 299 290.409933 Root MSE = 16.92
------------------------------------------------------------------------------groesse | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------frau | -4.5 1.953759 -2.30 0.022 -8.344912 -.6550878_cons | 178.34 1.381516 129.09 0.000 175.6212 181.0588
------------------------------------------------------------------------------
Die OLS-Regression auf Basis gepoolterPanelwellen ergibt ein signifikantes Ergebnis. Vergrößerung der Fallzahl, aber keine Erhöhung der Varianz, da nur zeitlich invariante Merkmale. Massive Unterschätzung des Standardfehlers!
Robuste Standardfehler
• auch bekannt als Huber-White Standardfehler (Huber 1967, White 1980)
• berücksichtigen bei der Berechnung Abhängigkeit von Beobachtungen innerhalb von Personen
• Koeffizienten bleiben unverändert, d.h. keine Korrektur für mögliche Verzerrung
Beispiel 1:OLS-Regression (robust)/Panelreg groesse frau, cluster(persnr)
Linear regression Number of obs = 300F( 1, 99) = 1.76Prob > F = 0.1881R-squared = 0.0175Root MSE = 16.92
(Std. Err. adjusted for 100 clusters in persnr)------------------------------------------------------------------------------
| Robustgroesse | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------frau | -4.5 3.395384 -1.33 0.188 -11.23718 2.237179_cons | 178.34 2.466715 72.30 0.000 173.4455 183.2345
------------------------------------------------------------------------------
Beispiel 1:Vergleich Ergebnisse
ols ols3 ols3_rb/se b/se b/se
frau -4,500 -4,500 * -4,5003,407 1,954 3,395
_cons 178,340 *** 178,340 *** 178,340 ***2,409 1,382 2,467
N 100 300 300*) <0,05, **) <0,01, ***) <0,001
Beispiel 2: Gewinn bei Glücksspielen
• Befragung von 100 Personen, die regelmäßig an Glücksspielen teilnehmen, an 3 Zeitpunkten
• abhängige Variable: Höhe des Gewinns• unabhängige Variable: Art des Glücksspiels
(Roulette vs. andere)• Frage: Welchen Einfluss hat Art des Spiels
auf Höhe des Gewinns?
Beispiel 2: OLS-Regression/Querschnittuse spieler.dta, clear
reg gewinn1 roulette1
Source | SS df MS Number of obs = 100-------------+------------------------------ F( 1, 98) = 0.72
Model | 26611.5785 1 26611.5785 Prob > F = 0.3996Residual | 3643468.42 98 37178.2492 R-squared = 0.0073
-------------+------------------------------ Adj R-squared = -0.0029Total | 3670080 99 37071.5152 Root MSE = 192.82
------------------------------------------------------------------------------gewinn1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------roulette1 | -32.65224 38.59421 -0.85 0.400 -109.2412 43.93671
_cons | 92.67308 26.73885 3.47 0.001 39.61069 145.7355
Beispiel 2: Korrelationencorr gewinn1 gewinn2 gewinn3(obs=100)
| gewinn1 gewinn2 gewinn3-------------+---------------------------
gewinn1 | 1.0000gewinn2 | -0.0444 1.0000gewinn3 | -0.0657 0.2460 1.0000
Beispiel 2: Umwandlung in long-Formatreshape long roulette gewinn, i(persnr) j(welle)
(note: j = 1 2 3)
Data wide -> long---------------------------------------------------------Number of obs. 100 -> 300Number of variables 7 -> 4j variable (3 values) -> wellexij variables:
roulette1 roulette2 roulette3 -> roulettegewinn1 gewinn2 gewinn3 -> gewinn
---------------------------------------------------------
Beispiel 2: OLS-Regression/Panelreg gewinn roulette
Source | SS df MS Number of obs = 300-------------+------------------------------ F( 1, 298) = 1.88
Model | 76638.7248 1 76638.7248 Prob > F = 0.1712Residual | 12139526.7 298 40736.6667 R-squared = 0.0063
-------------+------------------------------ Adj R-squared = 0.0029Total | 12216165.4 299 40856.7404 Root MSE = 201.83
------------------------------------------------------------------------------gewinn | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------roulette | -31.99199 23.32436 -1.37 0.171 -77.89332 13.90935
_cons | 90.72917 16.81944 5.39 0.000 57.62924 123.8291------------------------------------------------------------------------------
Beispiel 2:OLS-Regression (robust)/Panel. reg gewinn roulette, cluster(persnr)
Linear regression Number of obs = 300F( 1, 99) = 2.25Prob > F = 0.1371R-squared = 0.0063Root MSE = 201.83
(Std. Err. adjusted for 100 clusters in persnr)------------------------------------------------------------------------------
| Robustgewinn | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------roulette | -31.99199 21.34491 -1.50 0.137 -74.34493 10.36095
_cons | 90.72917 17.83315 5.09 0.000 55.34434 126.114------------------------------------------------------------------------------
Beispiel 2:Vergleich Ergebnisseols ols3 ols3_r
b/se b/se b/seroulette -32,652 -31,992 -31,992
38,594 23,324 21,345_cons 92,673 *** 90,729 *** 90,729 ***
26,739 16,819 17,833N 100 300 300*) <0,05, **) <0,01, ***) <0,001
b) random effects models
Random effects model• Ansatzpunkt: Autokorrelation ist bekannt und
schätzbar• Mit diesem Vorwissen kann man OLS Schätzung
verallgemeinern (generalised least squares, GLS)
• durch geeignete Transformation der Daten lässt sich (bekannte) Autokorrelation eliminieren (vgl. Wooldridge 2003: 469ff)
• Transformation erzeugt „quasi-demeaned data“• Es gilt aber weiterhin: Schätzer nur unverzerrt
wenn corr(ai,xit)=0
Beispiel Datenstruktur 1persnr welle eink
1 1 10001 2 20002 1 10002 2 20003 1 10003 2 20004 1 10004 2 20005 1 10005 2 2000
keine Varianz zwischen Personen
Beispiel Datenstruktur 2persnr welle eink
1 1 10001 2 10002 1 12502 2 12503 1 15003 2 15004 1 17504 2 17505 1 20005 2 2000
keine Varianz über die Zeit
Beispiel Datenstruktur 3persnr welle eink
1 1 10001 2 10502 1 12502 2 12503 1 15003 2 16004 1 17504 2 18005 1 20005 2 2010
realistischere Datenstruktur
Random effects model
• Im random effects model ist die Unterscheidung zwischen Varianz zwischen Personen und über die Zeit zentral (daher auch Varianzkomponentenmodell genannt).
• Bestimmung des Anteils der Varianz auf Personenebene: – Schätzung eines leeren Modells– rho: Verhältnis der Varianz von ai gegenüber der
Gesamtvarianz (ai+uit) wird als Anteil der Varianz auf Personenebene interpretiert
Beispiel 3: Höhe Stundenlöhne
• Befragung von 545 Personen in den USA an 8 Zeitpunkten (1981-1987)
• abhängige Variable: Stundenlohn• unabhängige Variablen: Bildung (in Jahren),
Berufserfahrung, Familienstand, ethnische Zugehörigkeit
• Frage: Welche Faktoren determinieren die Lohnhöhe?
Beispiel 3:random effects model (M0)use wage, clear
xtreg wage, i(nr)
Random-effects GLS regression Number of obs = 4360Group variable (i): nr Number of groups = 545
R-sq: within = 0.0000 Obs per group: min = 8between = 0.0000 avg = 8.0overall = 0.0000 max = 8
Random effects u_i ~ Gaussian Wald chi2(0) = 0.00corr(u_i, X) = 0 (assumed) Prob > chi2 = .
------------------------------------------------------------------------------wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------_cons | 5.919175 .1051957 56.27 0.000 5.712995 6.125355
-------------+----------------------------------------------------------------sigma_u | 2.3294828sigma_e | 2.1991973
rho | .52874519 (fraction of variance due to u_i)------------------------------------------------------------------------------
Anmerkung Stata-Notation
Die Notation in Stata weicht von der bisher verwendeten Notation ab. Die Zuordnung ist wie folgt:
sigma_e sigma_u u_i
uσσ a
ia
Beispiel 3:random effects model. xtreg wage educ exper married black, i(nr)
Random-effects GLS regression Number of obs = 4360Group variable (i): nr Number of groups = 545
R-sq: within = 0.1654 Obs per group: min = 8between = 0.1283 avg = 8.0overall = 0.1428 max = 8
Random effects u_i ~ Gaussian Wald chi2(4) = 832.91corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------educ | .6602688 .0566542 11.65 0.000 .5492285 .771309exper | .3316711 .0143179 23.16 0.000 .3036085 .3597338
married | .3921496 .0970814 4.04 0.000 .2018736 .5824256black | -.6569594 .3070434 -2.14 0.032 -1.258753 -.0551653_cons | -4.107128 .6913064 -5.94 0.000 -5.462064 -2.752192
-------------+----------------------------------------------------------------sigma_u | 2.1686974sigma_e | 2.0095598
rho | .53803189 (fraction of variance due to u_i)------------------------------------------------------------------------------
Beispiel 3: OLS-Regression (robust)reg wage educ exper married black, cluster(nr)
Linear regression Number of obs = 4360F( 4, 544) = 50.47Prob > F = 0.0000R-squared = 0.1446
Number of clusters (nr) = 545 Root MSE = 2.963
------------------------------------------------------------------------------| Robust
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
educ | .6255747 .0584198 10.71 0.000 .5108187 .7403307exper | .2696069 .0241648 11.16 0.000 .2221392 .3170747
married | .5794375 .1736113 3.34 0.001 .2384069 .9204682black | -.6010764 .2821706 -2.13 0.034 -1.155354 -.0467991_cons | -3.383233 .7654845 -4.42 0.000 -4.8869 -1.879565
------------------------------------------------------------------------------
c) fixed effects models
fixed effects model
• Ziel: Elimination der personenspezifischen Konstante ai
• Annahme, dass ai nicht mit xi korreliert ist, unproblematisch
• d.h. Schätzer auch bei Verletzung dieser Annahme unverzerrt (im Gegensatz zu OLS-Regression und random effects Modell)
Berechnung personenspezifischer Mittelwerte (2 Wellen)
Modell yit=β0+ β1x1it +β2x2i +uit + ai
t=1 yi1=β0+ β1x1i1+β2x2i+ ui1 +ai
t=2 yi2=β0+ β1x1i2+β2x2i+ ui2 +ai
Mittel yi =β0+ β1x1i +β2x2i +ui + ai
x1it : zeitlich variabel, x2i: zeitlich invariant
Elimination von ai durch Bildung von Differenzen zum Mittelwert
Mittel yi =β0+ β1x1i +β2x2i +ui + ai
t=1 yi1=β0+ β1x1i1+β2x2i+ ui1 +ai
t=2 yi2=β0+ β1x1i2+β2x2i+ ui2 +ai
t1 - t yi1-yi= β1(x1i1-x1i) +(ui1- ui)
t2 - t yi2-yi= β1(x1i2-x1i) +(ui2- ui)
yit= β1(x1it) +uit
Beispiel 3: fixed effects model. xtreg wage educ exper married black, i(nr) fe
Fixed-effects (within) regression Number of obs = 4360Group variable (i): nr Number of groups = 545
R-sq: within = 0.1655 Obs per group: min = 8between = 0.0115 avg = 8.0overall = 0.0272 max = 8
F(2,3813) = 378.00corr(u_i, Xb) = -0.1933 Prob > F = 0.0000
------------------------------------------------------------------------------wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------educ | (dropped)exper | .3421192 .0146787 23.31 0.000 .3133403 .3708981
married | .3407313 .1039419 3.28 0.001 .1369442 .5445184black | (dropped)_cons | 3.5408 .0918589 38.55 0.000 3.360703 3.720898
-------------+----------------------------------------------------------------sigma_u | 2.5891138sigma_e | 2.0095598
rho | .624056 (fraction of variance due to u_i)------------------------------------------------------------------------------F test that all u_i=0: F(544, 3813) = 10.39 Prob > F = 0.0000
Beispiel 3:Vergleich Ergebnisseols_r re feb/se b/se b/se
educ 0.626 *** 0.660 *** (dropped)0.058 0.057
exper 0.270 *** 0.332 *** 0.342 ***0.024 0.014 0.015
married 0.579 *** 0.392 *** 0.341 **0.174 0.097 0.104
black -0.601 * -0.657 * (dropped)0.282 0.307
_cons -3,383 *** -4,107 *** 3,541 ***0.765 0.691 0.092
N 4360 4360 4360*) <0,05, **) <0,01, ***) <0,001
Abschließender Überblick
• OLS-Regression: Schätzer unverzerrt wenn ai nicht korreliert mit xij, aber Standardfehler wegen Korrelation zwischen vit und vis (i ungleich s) zu niedrig
• OLS-Regression mit robusten Standardfehlern: Schätzer unverzerrt wenn ainicht korreliert mit xij, Standardfehler korrigiert (Schätzer aber im Vergleich zu RE ineffizient)
Abschließender Überblick
• Random effects model: Schätzer unverzerrt und effizient wenn ai nicht korreliert mit xij, bessere Berücksichtigung der Datenstruktur als bei OLS-Regression
• Fixed effects model: Schätzer unverzerrt auch wenn ai korreliert mit xij, betrachtet aber nur Variation innerhalb von Personen, zeitlich invariante Variablen können nicht berücksichtigt werden
Stata Befehleuse Öffnen eines Datensatzesuse ..., clear ... mit Löschung des Speichersgen(erate) Bildung neuer Variablensum(marize) Mittelwertecorr(elate) Korrelationenreshape long ..., i(persnr) j(welle) Umwandlung in long-Formattsset … / xtset … Zuweisung IDs (Person, Welle)reg(ress) OLS-Regressionreg(ress) ... , cluster(persnr) ... mit robusten Standardfehlernxtreg ..., i(persnr) random effects model
Literatur
• Wooldridge, Jeffrey M. (2003): IntroductoryEconometrics. A Modern Approach, Mason: Thompson (insbesondere Kapitel 14)
• Snijders, Tom A. B./ Bosker, Roel J. (1999): Multilevel analysis. An introduction to basic and advanced multilevel modeling, London u.a.: Sage (insbesondere Kapitel 2 und 3)
3. Ausblick
Kategoriale abhängige Variablen
z.B.:• dichotom:
– Logit-Modell: xtlogit– Probit-Modell: xtprobit
• Zählvariable:– Poisson-Modell: xtpoisson– Negatives Binomialmodell: xtnbreg
Berücksichtigung des Faktors „Zeit“
• komplexere Modellierung von Autokorrelation• Berücksichtigung von lag-Variablen• Berücksichtigung von Periodeneffekten, z.B.
Jahresdummies
Weitere Zufallskomponenten
• Zufallseffekte der Steigungskoeffizienten (random slopes)
• Berücksichtigung weiterer Ebenen (z.B. Beobachtungen von Personen in unterschiedlichen Ländern)
Modellvergleich
• „Hybrid-Modell“: Kombination von randomeffects und fixed effects Modell
• Test auf Unterschiede zwischen Modellen (Hausman-Test, Test einzelner Koeffizienten im „Hybrid-Modell“)
4. Übung
Beispiele in Aufgaben• erfahrung.dta (für Beispiel aufbereiteter SOEP-
Datensatz): Einfluss von Berufserfahrung auf Stundenlohn (bei 20-30-jährigen)
• wage.dta (Beispiel 3): Einfluss von Gewerkschaftsmitgliedschaft auf Stundenlohn (USA)
• kp2004.dta (Klein/Pötschke 2004): Replikation von Analysen eines in der KZfSS veröffentlichten Artikels auf Basis von SOEP-Daten, Fragestellung: Verändern sich postmaterialistische Wertvorstellungen im Lebensverlauf?
• weitere Beispiele aus Vorlesung können auch gerechnet werden (groesse.dta, spieler.dta)
Inhalte in Aufgaben• Aufgabe 1:
– Wiederholung der Stata-Syntax– Umwandlung der Daten in long-Format,
• alle Aufgaben: – Schätzung der hier behandelten Modelle– Interpretation der Ergebnisse
Top Related