TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. MULTICOLINEALIDAD ... · 2008. 11....
Transcript of TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. MULTICOLINEALIDAD ... · 2008. 11....
TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS.
1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS. 2. CÓMO DETECTAR Y MEDIR EL GRADO DE
MULTICOLINEALIDAD. 3. SOLUCIONES: CÓMO AFRONTAR EL
PROBLEMA EN LA PRÁCTICA. 4. INFLUENCIA REAL Y POTENCIAL DE LAS
OBSERVACIONES 5. DETECCION DE OUTLIERS. 6. NO NORMALIDAD EN LAS PERTURBACIONES.
CONSECUENCIAS. 7. EL CONTRASTE DE NORMALIDAD DE
JARQUE-BERA
1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS: A. MULTICOLINEALIDAD EXACTA: Cuando una
de las variables explicativas es combinación lineal determinista de todas las demás.
Consec: ρ(x)<k => 0=X'X => (X’X)-1 no puede calcularse => mcoβ no pueden obtenerse. B. MULTICOLINEALIDAD APROXIMADA: Cuando una de las variables es aproximadamente igual a una combinación lineal de las restantes. Consec:
0≈X'X => (X’X)-1 toma valores muy elevados => V( mcoβ ) = σ2
u(X’X)-1 => los estimadores mcoβ tendrán varianzas elevadas => serán estimadores imprecisos.
2. COMO DETECTAR LA MULTICOLINEALIDAD. 2.1. EN LOS RESULTADOS DE LOS MODELOS: - R2, 2R , contraste de la F global,…, altos mientras
que los contrastes de significación individual son no significativos.
- Grandes alteraciones en los mcoβ al cambiar
ligeramente el modelo ( por ejemplo, al eliminar un regresor no significativo).
- Signos incorrectos según la Teoría económica. 2.2. ANALIZANDO LAS CORRELACIONES. a) Matriz de correlaciones de las X (si rij >0,8 => correlación fuerte entre xi y xj) b) Calcular el determinante de la matriz de correlaciones de las x: R Si R 1→ , no multicolinealidad. c) Estimando regresiones auxiliares. Xj = X1a1+ X2a2+…+ Xkak+ V
d) Analizando el factor de inflación de la varianza. Partiendo de: Y= β1+ β2X2+…+ βKXK+ U Dada una regresión auxiliar: Xj = X1a1+ X2a2+…+ Xkak+ V (1) Se puede demostrar que la varianza del estimador jβ puede expresarse como:
Var ( jβ ) = ∑∑=
−= N
ijij
u
i
u
Rxv
uu
1
22
2
2
2
)1(ˆ
σσ
Donde: ∑ 2
iv son los residuos de estimar (1) por MCO. Rj
2 es el coeficiente de determinación de (1) por MCO.
Var ( jβ )= 2
1
2
2
11*j
N
iij
u
Rx
u
−∑=
σ
Siendo:
211
jR− el factor de inflación de la varianza para Xj
2
2
ij
u
x
u
∑σ la var( jβ ) en la regresión de Y contra Xj
Rj
2 Factor de inflación de la varianza
0 0,5 0,8 0,9 0,95 0,99 0,999
1 2 5 10 multicolinealidad 20 preocupante 100 1000
CONSECUENCIAS DE β CON VARIANZAS ALTAS: 1. Intervalos de confianza amplios: [ ])ˆ(ˆTˆ)ˆ(ˆTˆ
ikniiikni βσβββσβ−−
+≤≤− 2. Contrastes de significación individual indican
coeficientes no significativos:
)ˆ(ˆ
ˆ
βσββ 0−
3. Las medidas y contrastes de bondad global del
ajuste pueden ser satisfactorias. (R2, F, SCERR, 2R ) 4. Estimaciones muy poco robustas. Modelo muy
sensible a la adición de algunas observaciones o a la eliminación de una variable explicativa inicialmente no significativa.
5. El modelo sirve para predecir, pero no para realizar análisis estructural.
3. SOLUCIONES A LA MULTICOLINEALIDAD. 3.1 Más información muestral. ( ampliar la muestra). Pero puede que esto no sea posible, o puede que las nuevas observaciones también presenten multicolinealidad. 3.2. Usar información extra-muestral y usar MCR, basándose en restricciones sugeridas por la teoría económica o por otros trabajos empíricos. 3.3. Aplicar componentes principales a la matriz X y hacer regresión de Y sobre los componentes. 3.4. Eliminar una variable explicativa si la teoría económica te lo permite. 3.5. Convivir con el problema.
4. ANALISIS DE LOS RESIDUOS Y DETECCION
DE OUTLIERS. Estudio de la existencia de unidades muestrales atípicas: (individuos, años,…) 4.1. ¿Hay individuos cuyas variables X están muy alejadas de la media muestral? 4.2. ¿Hay individuos “raros” que distorsionan los resultados del modelo de regresión? 4.3. ¿Hay individuos atípicos cuyos errores son anormalmente altos? Para cada unidad muestral analizaremos: 1. influencia potencial 2. influencia real 3. detección y tratamiento de observaciones atípicas
“outliers”.
4.1 INFLUENCIA POTENCIAL. Mide la capacidad específica que tiene una observación para contribuir al ajuste. La influencia potencial de la observación i depende de los valores que toman sus variables explicativas: x2i,…,xki. En general, aquellas observaciones con valores de las variables exógenas extremos, alejados de los valores medios de las explicativas, influirán más en los resultados de la regresión que aquellas observaciones próximas al comportamiento de los regresores. • Una medida descriptiva que detecta la influencia
potencial es el “LEVERAGE”:
HYY'X)X'X(XˆXY === −1β
=
nn
n
h...
hh...hh
H 22
11211
donde : hii es el LEVERAGE ó INFLUENCIA POTENCIAL. Hii será mayor cuanto más se diferencie una observación de las restantes en términos de los regresores.
En regresión lineal simple:
hii= 2
21)XX(
)XX(n i
i
−∑−
+
hii sólo depende de valores de X, no de Y. NOTA: en el SPSS nos proporcionan otra medida : la distancia de mahalanobis. Su relación con el LEVERAGE es :
hii= )smahalanobi(n
+11
• Cuanto mayor sea la influencia potencial para i,
menor será la precisión de la predicción iy . 0<hii<1 • Decisión: si hii>2k/n => la obervación i es
potencialmente influyente. La detección de observaciones potencialmente influyentes no convierte en inservible la estimación. El hecho de que una observación tenga mayor “capacidad informativa” no tiene por qué ser en principio algo negativo.
4.2. INFLUENCIA REAL. Trata de detectar aquellas observaciones cuya supresión de la base de datos muestrales llevaría a modificaciones importantes en las estimaciones, errores estandar, intervalos de confianza. Contraste: H0: la observación i no es realmente influyente. Dj: distancia de Cook.
2
2
σk)YY(D
J
IiIj
∑ −= Dj ~ FK, N-K
j
iY es la estimación de yi obtenida con la muestra n-1, que excluye al individuo j. Una única observación puede ser responsable de: -qué variables son significativas -signo de los coeficientes -no linealidad de la relación -Incumplimiento de la hipòtesis de normalidad El deterioro de la capacidad predictiva del modelo. * Qué hacer para solucionar la influencia real.
1. Revisar posibles errores en los datos 2. Probar formas funcionales alternativas 3. Eliminar la observación problemática 4. Introducir variables ficticias para i.
4.3 OBSERVACIONES ATIPICAS. 1. Residuos estandarizados:
Ne
)YY(Se
j
jj
e
j
∑−
=2 ~N(0,1)
2. Residuos estudentizados:
)h(ˆ)YY(
Se
jj
jj
ej
j
−−
=12σ ~ Tn-k
3. Residuos estudentizados con omisión:
)h(ˆ)YY(
Se
jj
)j(
)j(
jj
ej
j)j(
−−
=12σ ~ Tn-k-1
(j): Para el cálculo se ha omitido al individuo j.
… …
6. NO NORMALIDAD EN LAS PERTURBACIONES. CONSECUENCIAS.
En el modelo de regresión suponemos que ui~N. Pero
este supuesto a veces no se cumple. Causas: - La propia especificación del modelo - Porque los residuos parezcan no normales (colas
amplias, asimétricos) • Consecuencias de la no normalidad en las
perturbaciones: a) Si ui tiene varianzas finitas:
- los iβ son lineales, insesgados y consistentes. - no son eficientes. - los contrastes t y F no son válidos en muestras pequeñas
aunque se justifiquen asintóticamente. b) Si ui tiene varianzas no finitas:
- Los iβ no son asintóticamente normales. - Los contrastes t y F no son válidos ni siquiera
asintóticamente. - Las estimaciones son muy sensibles a pequeñas
variaciones en la muestra.
7. EL CONTRASTE DE NORMALIDAD DE JARQUE-BERA.
H0: Perturbaciones normales H1: Perturbaciones no normales Estadístico de contraste: basado en los coeficientes de asimetría y curtosis
+−=
24Curtosis
6Asimetría.C)KN(.B.J
22~ 2
2χ
donde:
C. Asimetría= 2/3
i
2_
i
i
3_
i
3x
3
fXX
fXX
Sm
∑
−
∑
−=
C.Curtosis= 3
fXX
fXX3
Sm
2/4
i
2_
i
i
4_
i
4x
4 −
∑
−
∑
−=−