TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. MULTICOLINEALIDAD ... · 2008. 11....

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS.

1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS. 2. CÓMO DETECTAR Y MEDIR EL GRADO DE

MULTICOLINEALIDAD. 3. SOLUCIONES: CÓMO AFRONTAR EL

PROBLEMA EN LA PRÁCTICA. 4. INFLUENCIA REAL Y POTENCIAL DE LAS

OBSERVACIONES 5. DETECCION DE OUTLIERS. 6. NO NORMALIDAD EN LAS PERTURBACIONES.

CONSECUENCIAS. 7. EL CONTRASTE DE NORMALIDAD DE

JARQUE-BERA

1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS: A. MULTICOLINEALIDAD EXACTA: Cuando una

de las variables explicativas es combinación lineal determinista de todas las demás.

Consec: ρ(x)<k => 0=X'X => (X’X)-1 no puede calcularse => mcoβ no pueden obtenerse. B. MULTICOLINEALIDAD APROXIMADA: Cuando una de las variables es aproximadamente igual a una combinación lineal de las restantes. Consec:

0≈X'X => (X’X)-1 toma valores muy elevados => V( mcoβ ) = σ2

u(X’X)-1 => los estimadores mcoβ tendrán varianzas elevadas => serán estimadores imprecisos.

2. COMO DETECTAR LA MULTICOLINEALIDAD. 2.1. EN LOS RESULTADOS DE LOS MODELOS: - R2, 2R , contraste de la F global,…, altos mientras

que los contrastes de significación individual son no significativos.

- Grandes alteraciones en los mcoβ al cambiar

ligeramente el modelo ( por ejemplo, al eliminar un regresor no significativo).

- Signos incorrectos según la Teoría económica. 2.2. ANALIZANDO LAS CORRELACIONES. a) Matriz de correlaciones de las X (si rij >0,8 => correlación fuerte entre xi y xj) b) Calcular el determinante de la matriz de correlaciones de las x: R Si R 1→ , no multicolinealidad. c) Estimando regresiones auxiliares. Xj = X1a1+ X2a2+…+ Xkak+ V

d) Analizando el factor de inflación de la varianza. Partiendo de: Y= β1+ β2X2+…+ βKXK+ U Dada una regresión auxiliar: Xj = X1a1+ X2a2+…+ Xkak+ V (1) Se puede demostrar que la varianza del estimador jβ puede expresarse como:

Var ( jβ ) = ∑∑=

−= N

ijij

u

i

u

Rxv

uu

1

22

2

2

2

)1(ˆ

σσ

Donde: ∑ 2

iv son los residuos de estimar (1) por MCO. Rj

2 es el coeficiente de determinación de (1) por MCO.

Var ( jβ )= 2

1

2

2

11*j

N

iij

u

Rx

u

−∑=

σ

Siendo:

211

jR− el factor de inflación de la varianza para Xj

2

2

ij

u

x

u

∑σ la var( jβ ) en la regresión de Y contra Xj

Rj

2 Factor de inflación de la varianza

0 0,5 0,8 0,9 0,95 0,99 0,999

1 2 5 10 multicolinealidad 20 preocupante 100 1000

CONSECUENCIAS DE β CON VARIANZAS ALTAS: 1. Intervalos de confianza amplios: [ ])ˆ(ˆTˆ)ˆ(ˆTˆ

ikniiikni βσβββσβ−−

+≤≤− 2. Contrastes de significación individual indican

coeficientes no significativos:

)ˆ(ˆ

ˆ

βσββ 0−

3. Las medidas y contrastes de bondad global del

ajuste pueden ser satisfactorias. (R2, F, SCERR, 2R ) 4. Estimaciones muy poco robustas. Modelo muy

sensible a la adición de algunas observaciones o a la eliminación de una variable explicativa inicialmente no significativa.

5. El modelo sirve para predecir, pero no para realizar análisis estructural.

3. SOLUCIONES A LA MULTICOLINEALIDAD. 3.1 Más información muestral. ( ampliar la muestra). Pero puede que esto no sea posible, o puede que las nuevas observaciones también presenten multicolinealidad. 3.2. Usar información extra-muestral y usar MCR, basándose en restricciones sugeridas por la teoría económica o por otros trabajos empíricos. 3.3. Aplicar componentes principales a la matriz X y hacer regresión de Y sobre los componentes. 3.4. Eliminar una variable explicativa si la teoría económica te lo permite. 3.5. Convivir con el problema.

4. ANALISIS DE LOS RESIDUOS Y DETECCION

DE OUTLIERS. Estudio de la existencia de unidades muestrales atípicas: (individuos, años,…) 4.1. ¿Hay individuos cuyas variables X están muy alejadas de la media muestral? 4.2. ¿Hay individuos “raros” que distorsionan los resultados del modelo de regresión? 4.3. ¿Hay individuos atípicos cuyos errores son anormalmente altos? Para cada unidad muestral analizaremos: 1. influencia potencial 2. influencia real 3. detección y tratamiento de observaciones atípicas

“outliers”.

4.1 INFLUENCIA POTENCIAL. Mide la capacidad específica que tiene una observación para contribuir al ajuste. La influencia potencial de la observación i depende de los valores que toman sus variables explicativas: x2i,…,xki. En general, aquellas observaciones con valores de las variables exógenas extremos, alejados de los valores medios de las explicativas, influirán más en los resultados de la regresión que aquellas observaciones próximas al comportamiento de los regresores. • Una medida descriptiva que detecta la influencia

potencial es el “LEVERAGE”:

HYY'X)X'X(XˆXY === −1β

=

nn

n

h...

hh...hh

H 22

11211

donde : hii es el LEVERAGE ó INFLUENCIA POTENCIAL. Hii será mayor cuanto más se diferencie una observación de las restantes en términos de los regresores.

En regresión lineal simple:

hii= 2

21)XX(

)XX(n i

i

−∑−

+

hii sólo depende de valores de X, no de Y. NOTA: en el SPSS nos proporcionan otra medida : la distancia de mahalanobis. Su relación con el LEVERAGE es :

hii= )smahalanobi(n

+11

• Cuanto mayor sea la influencia potencial para i,

menor será la precisión de la predicción iy . 0<hii<1 • Decisión: si hii>2k/n => la obervación i es

potencialmente influyente. La detección de observaciones potencialmente influyentes no convierte en inservible la estimación. El hecho de que una observación tenga mayor “capacidad informativa” no tiene por qué ser en principio algo negativo.

4.2. INFLUENCIA REAL. Trata de detectar aquellas observaciones cuya supresión de la base de datos muestrales llevaría a modificaciones importantes en las estimaciones, errores estandar, intervalos de confianza. Contraste: H0: la observación i no es realmente influyente. Dj: distancia de Cook.

2

2

σk)YY(D

J

IiIj

∑ −= Dj ~ FK, N-K

j

iY es la estimación de yi obtenida con la muestra n-1, que excluye al individuo j. Una única observación puede ser responsable de: -qué variables son significativas -signo de los coeficientes -no linealidad de la relación -Incumplimiento de la hipòtesis de normalidad El deterioro de la capacidad predictiva del modelo. * Qué hacer para solucionar la influencia real.

1. Revisar posibles errores en los datos 2. Probar formas funcionales alternativas 3. Eliminar la observación problemática 4. Introducir variables ficticias para i.

4.3 OBSERVACIONES ATIPICAS. 1. Residuos estandarizados:

Ne

)YY(Se

j

jj

e

j

∑−

=2 ~N(0,1)

2. Residuos estudentizados:

)h(ˆ)YY(

Se

jj

jj

ej

j

−−

=12σ ~ Tn-k

3. Residuos estudentizados con omisión:

)h(ˆ)YY(

Se

jj

)j(

)j(

jj

ej

j)j(

−−

=12σ ~ Tn-k-1

(j): Para el cálculo se ha omitido al individuo j.

… …

6. NO NORMALIDAD EN LAS PERTURBACIONES. CONSECUENCIAS.

En el modelo de regresión suponemos que ui~N. Pero

este supuesto a veces no se cumple. Causas: - La propia especificación del modelo - Porque los residuos parezcan no normales (colas

amplias, asimétricos) • Consecuencias de la no normalidad en las

perturbaciones: a) Si ui tiene varianzas finitas:

- los iβ son lineales, insesgados y consistentes. - no son eficientes. - los contrastes t y F no son válidos en muestras pequeñas

aunque se justifiquen asintóticamente. b) Si ui tiene varianzas no finitas:

- Los iβ no son asintóticamente normales. - Los contrastes t y F no son válidos ni siquiera

asintóticamente. - Las estimaciones son muy sensibles a pequeñas

variaciones en la muestra.

7. EL CONTRASTE DE NORMALIDAD DE JARQUE-BERA.

H0: Perturbaciones normales H1: Perturbaciones no normales Estadístico de contraste: basado en los coeficientes de asimetría y curtosis

+−=

24Curtosis

6Asimetría.C)KN(.B.J

22~ 2

2χ

donde:

C. Asimetría= 2/3

i

2_

i

i

3_

i

3x

3

fXX

fXX

Sm

∑

−

∑

−=

C.Curtosis= 3

fXX

fXX3

Sm

2/4

i

2_

i

i

4_

i

4x

4 −

∑

−

∑

−=−

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. MULTICOLINEALIDAD ... · 2008. 11....

Documents

Transcript of TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. MULTICOLINEALIDAD ... · 2008. 11....