Fundamentod de Econometria Intermedia

430

description

libro de econometria

Transcript of Fundamentod de Econometria Intermedia

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES

    Ramn Antonio Rosales lvarezJorge Andrs Perdomo Calvo

    Carlos Andrs Morales TorradoJaime Alejandro Urrego Mondragn

  • Primera edicin: enero de 2013

    Carlos Andrs Morales, Jorge Andrs Perdomo, Ramn Antonio Rosales y Jaime Alejandro Urrego

    Universidad de los Andes Facultad de Economa, Centro de Estudios sobre Desarrollo Econmico (CEDE)

    Ediciones UniandesCarrera 1 nm. 19-27, edicio Aulas 6, piso 2Bogot D. C., ColombiaTelfono: 3394949, ext. 2133http://ediciones.uniandes.edu.co [email protected]

    ISBN impreso: 978-958-695-752-6ISBN e-book: 978-958-695-797-7

    Correccin de estilo: Santiago Melo Armada electrnica y nalizacin de arte: ProceditorIlustracin de cubierta: Agencia de Diseo y Publicidad vila

    Impresin y acabados: Nomos ImpresoresDiagonal 18 bis nm. 41-17Telfono: 208 6500Bogot D.C., Colombia

    Impreso en Colombia - Printed in Colombia

    Todos los derechos reservados. Esta publicacin no puede ser reproducida ni en su todo ni en sus partes, ni registrada en o transmitida por un sistema de recuperacin de informacin, en ninguna forma ni por ningn medio sea mecnico, fotoqumico, electrnico, magntico, elec-troptico, por fotocopia o cualquier otro, sin el permiso previo por escrito de la editorial.

    Fundamentos de econometra intermedia: teora y aplicaciones / Ramn Antonio Rosales lvarez [et al.]. -- Bogot: Universidad de los Andes, Facultad de Economa, CEDE, Ediciones Uniandes, 2013.

    405 pp.; 17 x 24 cm

    Otros autores: Jorge Andrs Perdomo Calvo, Carlos Andrs Morales Torrado, Jaime Alejandro Urrego Mondragn.

    ISBN 978-958-695-752-6

    1. Econometra I. Rosales lvarez, Ramn Antonio II. Perdomo Calvo, Jorge Andrs III. Morales Torrado, Carlos Andrs IV. Urrego Mondragn, Jaime Alejandro V. Universidad de los Andes (Colombia). Facultad de Economa. CEDE.

    CDD 330.015195 SBUA

  • vCONTENIDO

    INTRODUCCIN xi

    1. ESPECIFICACIN INCORRECTA Y ENDOGENIDAD 1 1.1. Introduccin 1

    1.2. Discusin sobre la especicacin de los modelos economtricos 2

    1.3. Endogenidad 16 1.4. Estudio de caso: efectos de la fecundidad sobre el

    ingreso laboral femenino 29 Resumen 39 Ejercicios propuestos 41 Anexo 1 44

    2. MODELOS DE ECUACIONES SIMULTNEAS 65

    2.1. Introduccin 65 2.2. El problema de simultaneidad 66 2.3. Deteccin del problema: prueba de Hausman 69 2.4. Proceso de identicacin 70 2.5. Metodologas de estimacin de ecuaciones simultneas 74 2.6. Estudio de caso: evaluacin del fondo de estabilizacin de precios del azcar 79 2.7. Estudio de caso: anlisis regional de la oferta de ganado 89 Resumen 94 Ejercicios propuestos 95 Anexo 2 99

  • vi

    3. MODELOS DE PROBABILIDAD: LINEAL, PROBIT Y LOGIT 107 3.1. Introduccin 107

    3.2. Modelo de probabilidad lineal 108 3.3. Modelos logit y probit 111 3.4. Estudio de caso: mercado de trabajo informal en Colombia 126 3.5. Estudio de caso: derechos de propiedad en Colombia e integracin al mercado mundial 140 Resumen 152 Ejercicios propuestos 153 Anexo 3 154

    4. INTRODUCCIN A LAS SERIES DE TIEMPO 159 4.1. Introduccin 159 4.2. Conceptos bsicos para las series de tiempo 160 4.3. Filtro de Hodrick y Prescott 168 4.4. Modelos de pronsticos con tendencia determinstica 168 4.5. Pronstico con mtodos de atenuacin exponencial 173 4.6. Estudio de caso: el PIB colombiano 176 Resumen 188 Ejercicios propuestos 193 Anexo 4 195

    5. METODOLOGA BOX-JENKINS PARA PRONOSTICAR SERIES DE TIEMPO MEDIANTE PROCESOS AUTORREGRESIVOS Y DE MEDIA MVIL 199

    5.1. Introduccin 199 5.2. Conceptos bsicos 200 5.3. Estacionariedad y ruido blanco: mtodos para detectarlos y alternativas de solucin que conduzcan a obtener variables estacionarias 202 5.4. Modelos univariados ARIMA y metodologa Box-Jenkins 215 5.5. Modelos univariados SARIMA y metodologa BJ 232 5.6. Ventajas y desventajas de los modelos ARIMA 235 5.7. Estudio de caso: el PIB colombiano 237 5.8. Estudio de caso: el IPC colombiano 259 Resumen 278 Ejercicios propuestos 280 Anexo 5 282

    6. MODELOS CON REZAGOS DISTRIBUIDOS Y AUTORREGRESIVOS, CAUSALIDAD DE GRANGER Y COINTEGRACIN 299 6.1. Introduccin 299 6.2. Introduccin a los modelos con variables rezagadas 300

  • vii

    6.3. Modelos de rezagos distribuidos y autorregresivos 302 6.4. Prueba de causalidad de Granger 310 6.5. Cointegracin 314 6.6. Estudio de caso: la oferta de azcar 316 Resumen 333 Ejercicios propuestos 336

    7. MODELOS PARA DATOS DE CORTE TRANSVERSAL AGRUPADOS EN EL TIEMPO Y ESTIMADOR DE DIFERENCIAS EN DIFERENCIAS 337 7.1. Introduccin 337 7.2. Combinacin de corte transversal y series de tiempo 338 7.3. Corte transversal a lo largo del tiempo 339 7.4. Estudio de caso: impacto de un programa de intervencin a las escuelas rurales en Colombia 349 Resumen 355 Ejercicios propuestos 356

    8. MODELOS PARA DATOS EN PANEL O LONGITUDINALES 359 8.1. Introduccin 359 8.2. Organizacin de los paneles de datos 360 8.3. Estimacin de las dinmicas de largo plazo: efectos entre grupos 364 8.4. El problema de efectos jos en el trmino de error 365 8.5. Identicacin del estimador apropiado 374 Resumen 386 Ejercicios propuestos 387 Anexo 390 Apndice. Aplicacin de comandos en Stata 391

    BIBLIOGRAFA 405

    NDICE TEMTICO 411

  • ix

    AGRADECIMIENTOS

    Los autores expresamos nuestros agradecimientos al Centro de Estudios sobre Desarrollo Econmico (CEDE) de la Facultad de Economa de la Universidad de los Andes por el apoyo nanciero para la elaboracin y publicacin de este documento. Asimismo, a Diana Gutirrez, Juan Carlos Vsquez, Raquel Bernal, Camilo Bohrquez, Fabio Snchez, Mara del Pilar Lpez, Antonella Fazio, Catherine Rodrguez, Armando Armenta y Gustavo Garca por facilitar los datos empleados para los estudios de caso. Igualmente, a los profesores Daniel Fernando Poveda Quintero, Javier Alfonso Lesmes Patio y Jorge Armando Rueda Gallardo por su contribucin a los ejercicios propuestos en el libro. Tambin queremos agradecer a todos los profesores del rea de econometra y a los estu-diantes que han tomado los cursos de Econometra I, II y Avanzada en el pregrado y posgrado en Economa de la Universidad de los Andes, cuyos aportes han contribuido a la elaboracin de este documento. Finalmente, agradecemos a Santiago Melo por las observaciones realizadas durante el proceso de correccin de estilo y a todo el equipo editorial de Ediciones Uniandes.

  • xi

    INTRODUCCIN

    La econometra es un conjunto de mtodos de inferencia estadstica para el tratamiento cuantitativo de la informacin econmica que permite, entre otras cosas, apoyar el estudio de algunos campos especia-les de la economa y los negocios, destacando entre ellos el estudio de las relaciones macroeconmicas y microeconmicas enfocadas en la toma de decisiones de produccin, demanda, oferta e inversin.

    Adems de proporcionar una metodologa de trabajo, la econometra es una disciplina auxiliar del economista porque permite contar con un instrumento de anlisis en mltiples reas de aplicacin y es til para el trabajo profesional. Por esta razn, los estudiantes e interesados en el tema deben familiarizarse inicialmente con sus fundamentos bsicos, para luego proceder a estudiar las metodologas intermedias que resul-tan tiles en la prctica.

    Fundamentos de econometra intermedia: teora y aplicaciones es un libro que busca exponer los conceptos bsicos de esta rea de estudio a estudian-tes de ltimos semestres de pregrado que quieran profundizar el conoci-miento adquirido en clases introductorias de econometra, y a estudiantes de primer ao de posgrado que busquen un tratamiento introductorio e intuitivo a las prcticas intermedias de esta rea de estudio que normal-mente son expuestas de forma compleja en otros libros.

    Asimismo, este libro pretende buscar un equilibrio entre el tratamiento terico de la teora economtrica y su aplicacin en casos reales mediante el uso de herramientas computacionales. Por esta razn, y a diferencia de otros libros que cubren la misma temtica, aqu no se intenta dar una explicacin completa de todos los conceptos de esta rea de estudio, sino

  • xii RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    que, por el contrario, se tratan temas particulares que se destacan por su gran utilidad tanto en la investigacin acadmica como en la prctica profesional.

    En resumen, el objetivo principal del texto es proveer las diferentes teoras y metodologas de manera sencilla para estudiar los temas relacio-nados en un curso de econometra intermedia. Un aporte importante del libro es presentar la teora y los ejemplos aplicados (resultados econom-tricos y grcas) que fueron desarrollados con el programa economtrico especializado Stata. No obstante, es una marca registrada de StataCorp LP. As, toda la informacin sobre sus licencias, la forma de adquirirlo, las actualizaciones y dems pueden encontrarse en www.stata.com. En este sentido, el presente documento no pretende reproducir o sustituir total o parcialmente los manuales ofrecidos por StataCorp LP.

    De acuerdo con lo anterior, y antes de iniciar la lectura del libro, el lector debe comprender previamente los temas tratados en econometra bsica para familiarizarse con su contexto, debido a que los temas aqu compren-didos suponen conocimientos sobre ellos. En particular, se espera que el lector conozca:

    1. Los fundamentos de estadstica tales como el conocimiento de las principales distribuciones de probabilidad y los teoremas funda-mentales de esta ciencia.

    2. El clculo y la interpretacin de estadsticas descriptivas tales como la media, la mediana, la varianza y la desviacin estndar, entre otras.

    3. La construccin y la interpretacin de grcos univariados y multi-variados como histogramas, dispersiones, lneas, entre otros.

    4. La teora y la estimacin del modelo clsico de regresin lineal mediante mnimos cuadrados ordinarios (MCO).

    5. La aplicacin y la interpretacin de las pruebas de hiptesis de dife-rencia de medias y de signicancia individual y global de los par-metros.

    6. Las causas y consecuencias del problema de multicolineali-dad perfecta o alta y peligrosa en un modelo de regresin lineal. Igualmente, sus mtodos de correccin como la transformacin de variables y el aumento del tamao de la muestra.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES xiii

    7. Las causas y consecuencias del problema de heteroscedasticidad en un modelo de regresin y su estrategia de solucin mediante mni-mos cuadrados generalizados (MCG) y ponderados (MCP) y esti-maciones robustas mediante el estimador de White.

    8. Las causas y consecuencias del problema de autocorrelacin resi-dual en un modelo de regresin y su estrategia de solucin mediante mnimos cuadrados generalizados (MCG), Durbin Watson en dos etapas, mtodo de Cochrane y Orcutt, primeras diferencias y medias mviles.

    9. La estimacin de los parmetros de un modelo de regresin mediante mxima verosimilitud (MV) y MCG. Esta ltima es una tcnica que agrupa MCO y MCP.1

    Para abordar el tema de econometra intermedia (v. Rosales, Perdomo, Morales y Urrego, 2010), el libro se encuentra divido en ocho captulos de la siguiente manera: en el captulo 1 se discuten los conceptos rela-cionados con el problema de especicacin generado por la omisin de variables independientes, por el uso de formas funcionales incorrectas y por la presencia de endogenidad. Adicionalmente se consideran sus mtodos de correccin, entre los que se destacan aquellos que utilizan variables aproximativas o instrumentales con mnimos cuadrados en dos etapas (MC2E).

    El captulo 2 presenta el tema de endogenidad causada por simultanei-dad. Al mismo tiempo se discuten las metodologas de mnimos cuadra-dos indirectos (MCI), MC2E y mnimos cuadrados en tres etapas (MC3E), y la aplicacin de la metodologa de regresiones aparentemente no rela-cionadas (SUR2). El captulo 3 contiene aspectos sobre los modelos proba-bilsticos con variables de respuesta binarias (lineales, logit y probit) y sus respectivas estimaciones mediante mxima verosimilitud (MV).

    El captulo 4 comprende la introduccin a los conceptos de series de tiempo con el n de proyectar variables dinmicas, el procedimiento y la aplicacin del ltro de Hodrick y Prescott, los modelos de pronstico con tendencia determinstica y los mtodos de atenuacin exponencial. El captulo 5 contina con las tcnicas de proyeccin univariadas, abordando todo lo relacionado con la metodologa Box-Jenkins (prueba de raz unita-ria, series estacionarias, variables no estacionarias y estacionales).

    1 Como referencia adicional vase Rosales y Bonilla (2006).

    2 La sigla corresponde a seemingly unrelated regressions.

  • xiv RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    El captulo 6 resea algunos aspectos de las series de tiempo con varia-bles dinmicas y explora los modelos autorregresivos, los de rezagos distribuidos y expectativas adaptativas, la causalidad de Granger y la cointegracin.

    El captulo 7 abarca lo relacionado con los datos de corte transversal agrupados en el tiempo (pruebas de cambio estructural con el estadstico de Chow) y con el anlisis de diferencias en diferencias (para realizar la evaluacin de impacto de un proyecto o poltica). El captulo 8 contina con la relacin esttica y dinmica mediante panel de datos, estimacin agrupada por MCO, efectos jos y aleatorios. Finalmente se presenta el apndice sobre los comandos de Stata utilizados en cada tema a lo largo del documento.

  • 11ESPECIFICACIN INCORRECTA Y ENDOGENIDAD

    1.1. Introduccin

    Como se puede recordar de los conceptos estudiados en los cursos de econometra bsica, el modelo clsico de regresin lineal permite explicar el comportamiento de una variable dependiente Yi( ) a partir de una o ms variables independientes (Xij 3). Este modelo establece una re-lacin lineal no determinstica entre ambas variables e instaura una serie de parmetros de inters que pueden ser inferidos (o estimados) a par-tir de la informacin muestral mediante mnimos cuadrados ordinarios (MCO).

    El correcto funcionamiento de dicho modelo requiere el cumplimiento de diversos supuestos; especcamente, no multicolinealidad (independencia lineal entre las variables independientes), homoscedasticidad (varianza constante de los errores de la regresin entre las observaciones), no corre-lacin serial (ausencia de correlacin entre los errores estocsticos de cada observacin), especicacin correcta (forma funcional apropiada y varia-bles que representen la formulacin correcta) e independencia condicio-nal (o no endogenidad). Adicionalmente, y con el n de efectuar pruebas de hiptesis sobre los parmetros estimados, es necesario suponer que el trmino de error tiene una distribucin normal.4

    Este captulo ofrece un acercamiento a las metodologas, las prcticas y los conceptos economtricos dirigidos al incumplimiento de dos de dichos supuestos; el primero, cuando existe una especicacin inco-

    3 Los subndices i y j hacen referencia a las observaciones y a las variables, respectivamente.

    4 Para una discusin completa de estos supuestos vase Rosales y Bonilla (2006).

  • 2 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    rrecta; el segundo, cuando no se cumple el supuesto de independencia condicional, es decir, cuando existe correlacin entre el error Ui( ) y una o ms variables independientes Xij( ) .Con este n, la presente seccin plantea una discusin sobre el sesgo de especicacin para entender por qu en ocasiones no se obtienen los resultados tericos esperados. Adicionalmente se analizan la prueba RESET5 de Ramsey, la prueba J de Davidson y MacKinnon y la prueba del multiplicador de Lagrange. Estas pruebas pretenden detectar el problema ocasionado por los errores de muestreo y medicin de las variables independientes y de la variable dependiente, por la omisin de variables independientes relevantes (cuanticables y no observables), por la inclusin de variables independientes redundantes y por la especi-cacin inadecuada de la forma funcional del modelo. Posteriormente se presentarn las principales metodologas para su correccin.

    No obstante, la inclusin de endogenidad en el modelo tambin es otra causa que origina el incumplimiento del supuesto de independencia condicional. Debido a esto se cuestionan los estimadores de MCO porque resultan sesgados e inconsistentes. Por esta razn se incluyen variables instrumentales mediante regresiones en dos etapas (MC2E), con el n de recuperar las propiedades estadsticas de los coecientes (insesgados y consistentes).

    De igual manera se presentan la prueba de Hausman para identicar endogenidad en las estimaciones de MCO y la prueba de restricciones sobreidenticadas para vericar la validez de las variables instrumenta-les. Finalmente, se aplican las metodologas expuestas mediante un estu-dio de caso basado en el estudio de Gutirrez (2009), titulado Efectos de la fecundidad sobre el ingreso laboral femenino, que pretende cuanticar los efectos de la fecundidad sobre los salarios de las mujeres.6

    1.2. Discusin sobre la especicacin de los modelos economtricos

    Adems del cumplimiento de los supuestos de homoscedasticidad, ausencia de multicolinealidad y autocorrelacin residual en estimacio-nes por MCO, tambin conviene especicar apropiadamente el modelo economtrico para obtener resultados correctos. No obstante, puede

    5 Regression equation specication error test.

    6 Otro caso aplicado sobre formas funcionales es Perdomo y Hueth (2011).

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 3

    presentarse un sesgo de especicacin cuando se trabaja con informa-cin estadstica que contiene errores de muestreo y medicin de las varia-bles, se omiten regresores relevantes (cuanticables y no observables), se incluyen variables independientes redundantes o se dene inadecuada-mente la forma funcional del modelo.

    Lo anterior puede conducir a sesgos en los estimadores as como en sus varianzas, debido a que el valor estimado Yi( ) es obtenido con estos par-metros y esto afecta los resultados del error estimado Ui( ),7 la varianza del error y, por consiguiente, la de los coecientes. Esto se conoce como sesgo de especicacin, que genera una relacin inconsistente entre las variables independientes y la variable dependiente (Gujarati, 2003: 491). A continuacin se exponen las consecuencias de estimar un modelo mediante MCO con sesgo de especicacin, algunos mtodos estadsti-cos para identicarlo y las alternativas de solucin segn su causa.

    1.2.1. Causas y consecuencias del sesgo de especicacin

    Con el n de estudiar las causas y consecuencias de especicar inade-cuadamente un modelo, considere cualquier axioma general de la teora econmica representado como una expresin en la que se relacionan dife-rentes variables (v. ecuacin 1.1).

    Y f X X Xi i i ik= ( , , , )1 2 (1.1)

    Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2 (1.2)

    En la ecuacin 1.1 Yi 8 es la variable dependiente y X Xi ik1 , ..., 9 son varia-bles explicativas linealmente independientes.10 Por su parte, la expresin 1.2 representa una forma lineal (tanto en las variables como en los coe-cientes) de la funcin de regresin poblacional (FRP) descrita por la ecua-cin 1.1, donde 0, 1, 2 , , k son la constante y los parmetros del

    7 .

    8 Con i n= 1 2, ,..., observaciones.

    9 Con i n= 1 2, ,..., observaciones.

    10 Esto signica que pueden escribirse como una matriz de rango completo o que no existe multicolinealidad perfecta.

  • 4 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    modelo, y Ui corresponde a su elemento aleatorio.11 A continuacin se exponen las causas que originan el problema de sesgo de especicacin y sus consecuencias.

    1.2.1.1. Errores de muestreo y medicin de las variables del modelo

    Una vez obtenida de fuentes primarias o secundarias la informacin esta-dstica de las variables que se especicarn en la ecuacin 1.1 (conforme con el principio terico que se quiera tratar o evidenciar), es importante asegurarse de la buena calidad de los datos recolectados antes de la esti-macin economtrica del modelo, debido a que pueden provenir de un ejercicio inadecuado de muestreo de la poblacin objetivo (tamaos no representativos o sesgo de seleccin, es decir, una muestra no aleatoria) o pueden contener fallas de digitacin o manipulacin incorrecta de la encuesta y de la informacin secundaria agregada o desagregada (errores de medicin y datos atpicos).

    Las consecuencias de estos errores de muestreo o medicin pueden ser variadas, dependiendo principalmente de cules fueron las variables reco-lectadas incorrectamente (la dependiente, las independientes o ambas) y de si dichos errores siguen alguna estructura especca a lo largo de la muestra (por ejemplo, si los individuos con caractersticas particulares son los que resultan incorrectamente observados de forma sistemtica).

    El caso ms simple corresponde a la medicin incorrecta de la variable dependiente. Para formalizar lo anterior, considere un modelo equiva-lente al descrito por la ecuacin 1.2 pero con un error de medicin de la variable dependiente (denotado ), de tal forma que el valor observado Yi

    *( ) diste de su valor real Yi( ) (v. ecuacin 1.3).

    (1.3)

    En la ecuacin 1.3 aparece un nuevo trmino de error Ui* que captura tanto

    el componente estocstico del modelo como el error de medicin que afecta la variable dependiente. Estimar equivocadamente una ecuacin

    11 Denominado trmino de error, que captura los determinantes no observables e impredecibles de la variable dependiente Yi( ) y transforma la relacin entre las varia-bles en una relacin no determnistica. En este libro el trmino de error poblacional se representa como Ui , mientras que los errores estimados se denotan como Ui .

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 5

    como la anterior no necesariamente genera sesgos12 de los estimadores 0 1y . Aun as, esto s conduce a un sesgo de las varianzas estimadas

    Var Var Var , lo que ampla los intervalos de conanza

    e invalida las pruebas de signicancia global e individual del modelo

    (Gujarati, 2003: 524).

    A diferencia del modelo anterior, cuando los errores tienen una estruc-tura especca en la muestra u ocurren en las variables independientes del modelo, los parmetros estimados 0 1, se ven afectados. Esto es un caso particular del incumplimiento del supuesto de independencia condicional, que se estudia con mayor detalle en la seccin 1.3.

    1.2.1.2. Omisin de variables independientes relevantes

    La omisin de variables independientes relevantes en una regresin muestral es otra causa posible de la especicacin incorrecta del modelo. La omisin puede ocurrir como consecuencia de la escasa disponibilidad de datos, la incapacidad para su recoleccin o algn grado de desconoci-miento sobre el planteamiento terico previo. Para formalizar lo anterior, a partir de la ecuacin 1.2 se plantea un nuevo modelo con k 1 variables explicativas, es decir, omitiendo una variable independiente relevante (v. ecuacin 1.4).

    Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2 1 1* (1.4)

    El trmino de error13 Ui* de la ecuacin 1.4 contiene una variable omitida

    tericamente relevante para explicar Yi . Estimar equivocadamente una ecuacin como la anterior tiene algunas consecuencias que se discuten a continuacin.

    En primer lugar, si la variable omitida capturada en el nuevo trmino de error est correlacionada con alguna de las k 1 variables explica-tivas que aparecen en la especicacin, el intercepto y las pendientes

    resultan sesgados e inconsistentes (v. demostracin en el anexo 1.3). Esto se denomina problema de endogenidad y se discute ms adelante (v. seccin 1.3).

    12 Un estimador es sesgado cuando su valor esperado o promedio E 1 no se aproxima al verdadero valor poblacional que se desea estimar 1( ) . Ver detalles en el anexo 1.2.13 Formalmente U X Ui k ik i

    *= + , donde Ui es el trmino de error del modelo correcto.

  • 6 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    Aun cuando las variables omitidas capturadas en el nuevo trmino de error no estn correlacionadas con alguna de las variables explicativas, el intercepto 0 ser sesgado. No obstante, las pendientes en este caso s representaran correctamente el parmetro poblacional (Gujarati, 2003: 491).

    En cualquiera de los casos, la varianza del error y las varianzas estimadas de los coecientes Var Var Var son incorrectas, lo que invalida los intervalos de conanza, las pruebas de signicancia parcial y global de los coecientes, as como los intervalos de conanza que se construyan sobre las predicciones del modelo (Gujarati, 2003: 491).

    1.2.1.3. Forma funcional incorrecta

    Otra causa de especicacin errnea sucede cuando se elige una forma funcional incorrecta para expresar las variables independientes. Para este caso, la ecuacin 1.5 muestra un modelo lineal con dos variables explicativas X Xi i1 2,( ), donde Xi1 explica la variable dependiente como un polinomio de forma cuadrtica. De esta forma, si equivocadamente se plantea una relacin lineal (v. ecuacin 1.6), se dara lugar a un problema de especicacin.

    Y X X X Ui i i i i= + + + + 0 1 1 2 12

    3 2 (1.5)

    Y X X Ui i i i i= + + + 0 1 1 2 2* (1.6)

    Aunque las estimaciones de MCO calculan correctamente cada uno de los coecientes, omitir la forma cuadrtica conduce a interpretaciones errneas del efecto que tiene la variable Xi1 sobre la dependiente Yi( ). La diferencia entre el coeciente obtenido usando una forma funcional incorrecta y el parmetro poblacional corresponde a un sesgo de especi-cacin.14 No obstante, tambin los estimadores pueden resultar sesgados e inconsistentes (v. demostracin en el anexo 1.4).

    1.2.1.4. Adicin de variables independientes redundantes

    La ltima causa de especicacin errnea es la adicin de variables independientes innecesarias como consecuencia de un planteamiento terico incorrecto. Por consiguiente, a la ecuacin 1.2 se le adicionan dos regresoras ms X Xik ik+ +( )1 2 y como lo muestra la ecuacin 1.7. As,

    14 En este caso particular, el efecto marginal correcto de Xi1 sobre Yi es 1 2 12+ Xi ; el calculado errneamente corresponde nicamente a 1.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 7

    cada uno de los estimadores de MCO i MCO siguen siendo insesgados (v. demostracin en el anexo 1.5) pero dejan de ser ecientes, lo que aumenta la probabilidad de cometer un error tipo II.15

    Y X X X X X Ui i i k ik k ik k ik i= + + + + + + ++ + + + 0 1 1 2 2 1 1 2 2 (1.7)

    En resumen, los problemas de especicacin por la omisin de variables relevantes o por la adicin de trminos innecesarios pueden conducir a obtener errores estndar equivocados y sesgos de los parmetros cuando se estima el modelo por MCO. Esto impide realizar aseveraciones cona-bles a partir de los resultados obtenidos. A continuacin se presentan diversos contrastes estadsticos que permiten establecer si un modelo est correctamente especicado.

    1.2.2. Deteccin del problema de especicacin

    Como se discuti anteriormente, los problemas de especicacin tienen consecuencias sobre las estimaciones de MCO. Por esta razn, antes de realizar la estimacin de alguna relacin econmica deben realizarse anlisis exhaustivos de las estadsticas descriptivas, los grcos de histo-gramas y las correlaciones, con el n de conocer si la informacin de las variables seleccionadas contiene errores de muestreo o medicin. Para esto es necesario tener en cuenta el tamao de la muestra, la media arit-mtica, la desviacin estndar, el valor mximo y el mnimo, el compor-tamiento del histograma y la tendencia de las correlaciones.

    Tambin resulta conveniente contar con herramientas que permitan evaluar la idoneidad de un modelo economtrico. As, la prueba RESET de Ramsey, la J de Davidson y MacKinnon y la prueba del multiplicador de Lagrange permiten diagnosticar la especicacin adecuada o inade-cuada de un modelo.

    1.2.2.1. Prueba RESET de Ramsey

    Una primera metodologa para detectar especicacin errnea en un modelo economtrico es la prueba RESET16 de Ramsey, que mediante una regresin auxiliar busca evidencia estadstica de qu tan adecuada es la especicacin de un modelo. En la regresin auxiliar aparecen los polinomios de la variable explicada estimada Y Yi i

    2 3 y ( ) como nuevas

    15 Declarar equivocadamente un coeciente como estadsticamente no signicativo.

    16 Las siglas corresponden a regression equation specication error test.

  • 8 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    variables independientes. En este sentido, la ecuacin 1.8 presenta el modelo lineal general mostrado en la seccin anterior (v. ecuacin 1.2), con k variables independientes.

    Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2 (1.8)

    De la misma forma, la regresin auxiliar (v. ecuacin 1.9) est dada por la

    ecuacin inicial (1.8) ms un polinomio de los valores estimados Y Yi i 2 3 y ( ).

    Aunque en la prctica Yi2 y Yi

    3 son sucientes para realizar la prueba,

    tericamente conviene incluir tantas formas no lineales de estos valores como sea posible (Wooldridge, 2009: 303-304).

    Y X X X Y Y ei i i k ik i i i= + + + + + + + 0 1 1 2 2 12

    2

    3 (1.9)

    Una vez especicada la regresin auxiliar, la prueba RESET de Ramsey consiste en lo siguiente:

    1. Realizar la estimacin mediante MCO del modelo en la ecuacin 1.8.

    2. Con los resultados del numeral anterior, obtener los valores estima-dos para la variable dependiente Yi( ).

    3. Estimar mediante MCO la regresin auxiliar de la expresin 1.9, agregando los nuevos polinomios Yi

    2 y Yi

    3 como variables indepen-

    dientes.

    4. Ejecutar la prueba estadstica F (v. ecuacin 1.11) para determinar la signicancia de los coecientes 1 2 y ( ) que acompaan a Yi 2 y Yi 3. Si se rechaza la hiptesis nula (v. prueba de hiptesis 1.10), que plantea que los coecientes son conjuntamente iguales a cero, signica que el modelo especicado en la ecuacin 1.8 tiene sesgo de especi-cacin.

    H0 1 2 0: = = Existe evidencia sobre una adecuada especicacin. (1.10)H1 1 2 0: Existe evidencia sobre una inadecuada especicacin.

    F

    SCE SCE l

    SCE n pFR NR

    NRl n p=

    ( )

    ,

    (1.11)

    Ahora bien, la ecuacin 1.11 denota el estadstico F, donde SCE repre-senta la suma de los errores al cuadrado. Los subndices R y NR hacen

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 9

    referencia al modelo restringido17 y no restringido,18 respectivamente; p corresponde al nmero de parmetros en el modelo no restringido y n al total de observaciones. La cantidad de restricciones se denota como l, que en este caso son las dos formas no lineales de Y . Si el estadstico F calculado supera el valor crtico determinado por Fl n p, para un deter-minado nivel de signicancia (usualmente 1%, 5% o 10%), entonces los coecientes 1 y 2 son conjuntamente signicativos o por lo menos uno de ellos es diferente de cero; es decir, existe evidencia estadstica de espe-cicacin incorrecta.

    No obstante, hasta el momento se desconoce la causa de la especicacin incorrecta (un error de medicin o muestreo, la omisin de variables rele-vantes o la inclusin de variables independientes redundantes, el uso de una forma funcional incorrecta o la combinacin de algunos o todos estos problemas). Por esto deben tenerse en cuenta, uno por uno, aspec-tos alternativos como la revisin de la teora econmica involucrada, los anlisis grcos y otros estudios existentes (Hill et l., 2001: 135-138) para conocer la fuente del problema encontrado mediante la prueba RESET de Ramsey.

    1.2.2.2. Prueba J de Davidson y MacKinnon

    Otra tcnica que permite evidenciar la especicacin errnea de un modelo economtrico es la prueba de Davidson y MacKinnon, tambin conocida como prueba J. En ella se compara directamente el modelo espe-cicado de manera incorrecta con el modelo potencialmente adecuado. En este orden de ideas, conviene plantear las funciones que exponen todas las posibles causas de especicacin incorrecta. Es decir, se compara una funcin de variables independientes omitidas con una que no presente omisin (v. ecuaciones 1.12 y 1.13), una regresin que incluya variables explicativas con otra sin ellas (v. ecuaciones 1.14 y 1.15). Tambin se plan-tea una forma funcional correcta que ayude a contrastar la equivocada (v. ecuaciones 1.16 y 1.17).

    Y X X X U Yi i i k ik i iomitida

    = + + + + +

    0 1 1 2 2 1 1 * (1.12)

    Y X X X X Y Ui i i k ik k ik iomitida

    i= + + + + + + + 0 1 1 2 2 1 1 1 (1.13)

    Y X X X X U Yi i i k ik k ik i iredundante

    = + + + + + + + + 0 1 1 2 2 1 1 * (1.14)

    17 El modelo restringido es Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2 .

    18 El modelo no restringido es Y X X X Y Y Ui i i k ik i i i= + + + + + + + 0 1 1 2 2 12

    2

    3 .

  • 10 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    Y X X X Y Ui i i k ik iredundante

    i= + + + + + + 0 1 1 2 2 1 (1.15)

    Y X X X U Yi i i k ik i iforma funcional

    = + + + + + 0 1 1 2 2 * (1.16)

    Y X X X Y Ui i i k ik iforma funcional

    i= + + + + + + 0 1 1 2 2 1log log log (1.17)

    A partir de las ecuaciones anteriores, la prueba J de Davidson-MacKinnon consiste en estimar independientemente mediante MCO cada una de las especicaciones en las ecuaciones 1.12, 1.14 y 1.16. En segunda instancia, se toman los valores estimados Yi( ) obtenidos en stas y se aaden como variables independientes en el segundo modelo correspondiente (v. ecua-ciones 1.13, 1.15 y 1.17), segn el caso de las ecuaciones iniciales (1.12, 1.14 y 1.16, respectivamente).

    Finalmente, con base en los resultados se determina la signicancia esta-dstica parcial (con el estadstico t) de esta nueva variable independiente. En general, la metodologa se puede implementar siguiendo los siguien-tes pasos:

    1. Plantear los modelos de las ecuaciones 1.12, 1.14 y 1.16 teniendo en cuenta que la prueba ser efectuada sobre la segunda especicacin correspondiente a cada caso.

    2. Realizar la estimacin por MCO del primer modelo en cada ecua-cin.

    3. Obtener los valores estimados Yi( ) del primer modelo de acuerdo con el caso.

    4. Estimar el segundo modelo por MCO agregando el respectivo Yi calculado en el paso tres.

    5. Ejecutar una prueba estadstica t de signicancia individual sobre el coeciente nuevo que acompaa los valores ajustados Yi( ). Si ste no resulta estadsticamente igual a cero (se rechaza la hiptesis nula) quiere decir que el modelo inicial (representado por la ecuacin 1.12, 1.14 o 1.16 segn el caso) est especicado incorrectamente (v. prueba de hiptesis 1.18).

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 11

    H0 1 0: = El modelo 1.12, 1.14 o 1.16 se encuentra especicado correctamente.

    (1.18)H1 1 0: El modelo 1.12, 1.14 o 1.16 se encuentra especicado errneamente por la omisin de variables indepen-dientes, la inclusin de variables redundantes o el uso de una forma funcional incorrecta.

    Por su parte, el estadstico t es presentado en la ecuacin 1.19, donde ee 1( ) corresponde al error estndar del coeciente 1. Si el valor calculado del t supera el crtico, determinado por tn p (p corresponde al nmero de par-metros en el modelo y n al total de observaciones) para un determinado nivel de signicancia (usualmente 1%, 5% o 10%), entonces el coeciente 1 resulta estadsticamente signicativo. En otras palabras, se rechaza la hiptesis nula y se encuentra evidencia de especicacin incorrecta.

    t

    eetn p= ( )

    1

    1

    (1.19)

    A diferencia de los resultados de la prueba RESET de Ramsey, la prueba J de Davidson y MacKinnon permite establecer las causas del problema (omisin de variables relevantes, inclusin de variables redundantes o uso de una forma funcional incorrecta) segn la especicacin tratada. Estas causas pueden ser analizadas simultnea o individualmente en un caso especco.

    1.2.2.3. Multiplicador de Lagrange

    Para nalizar la exposicin de los mtodos que ayudan a detectar el sesgo de especicacin de un modelo economtrico, en esta seccin se estudiar la prueba del multiplicador de Lagrange (PML). Entre las pruebas alter-nativas planteadas (RESET de Ramsey y J de Davidson y MacKinnon), La PML permite determinar si se cumple el supuesto de independencia condicional.19

    Esta tcnica consiste en comparar directamente el error estimado Ui*( ) del

    modelo especicado incorrectamente con las variables independientes omitidas, redundantes o con forma funcional adecuada. En otras pala-

    19 Cuando la covarianza entre al menos una de las variables explicativas Xij( ) y el error Ui( ) es diferente de cero.

  • 12 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    bras, permite plantear Ui* en funcin de las variables explicativas omiti-

    das (v. ecuacin 1.20), irrelevantes o redundantes (v. ecuacin 1.21) y con forma funcional correcta (v. ecuacin 1.22).20

    Y X X X U U

    U X X

    i i i k ik i i

    i i i

    = + + + + +

    = + +

    0 1 1 2 2 1 1

    0 1 1 2

    ... **

    *

    22 1 1+ + + + ... k ik k ik iX X

    (1.20)

    Y X X X U U

    U X X

    i i i k ik i i

    i i i

    = + + + + +

    = + +

    + +

    0 1 1 2 2 1 1

    0 1 1 2

    ... **

    *

    22 + + +... k ik iX

    (1.21)

    Y X X U U

    U X X

    i i k ik i i

    i i k ik i

    = + + + +

    = + + + +

    0 1 1

    0 1 1

    * *

    *ln ln

    (1.22)

    De esta forma, la PML se puede efectuar de la siguiente manera:

    1. Plantear y estimar por MCO los modelos iniciales de las ecuaciones 1.20, 1.21 y 1.22 teniendo en cuenta que la prueba ser efectuada sobre stos.

    2. Con los resultados del numeral uno, obtener los errores estimados Ui

    *( ) de cada modelo.3. Una vez obtenidos los errores estimados Ui

    *( ), incluirlos como varia-ble dependiente para especicar cada modelo auxiliar de las ecua-ciones 1.20, 1.21 y 1.22.

    4. Estimar por MCO los modelos auxiliares de las ecuaciones 1.20, 1.21 y 1.22.

    5. Realizar la PML (v. ecuacin 1.24) para todos los coecientes de la regresin auxiliar 0 1 2, , , , k( ). Si no resultan en conjunto o de manera individual estadsticamente iguales a cero (se rechaza la hiptesis nula), quiere decir que modelo inicial de la ecuacin 1.20, 1.21 o 1.22 est especicado incorrectamente (v. prueba de hiptesis 1.23).

    20 En las ecuaciones 1.20-1.22 la echa indica que la variable de la derecha se obtiene de la estimacin del modelo de la izquierda.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 13

    H k0 1 2 0: = = = = El modelo 1.20, 1.21 o 1.22 se encuentra especicado correctamente.

    (1.23)H k1 1 2 0:

    El modelo 1.20, 1.21 o 1.22 se encuentra especicado errneamente por la omisin de variables independientes, la inclu-sin de variables redundantes o el uso de una forma funcional incorrecta.

    ML nR p= 2

    12

    (1.24)

    En la ecuacin 1.24, ML (multiplicador de Lagrange) equivale a n (total de observaciones) multiplicado por el coeciente de determinacin R2( ) de la regresin auxiliar. El estadstico tiene una distribucin ji cuadrada con p 1 grados de libertad p( )12 , que representan el nmero de parmetros menos uno en la regresin auxiliar. Si el ML calculado supera el valor crtico determinado por p1

    2 para un determinado nivel de signican-

    cia (usualmente 1%, 5% o 10%), entonces los coecientes de la regresin auxiliar son conjuntamente signicativos o por lo menos uno de ellos es diferente de cero. En otras palabras, existe evidencia estadstica de especi-cacin incorrecta. Las pruebas de signicancia individual podran inter-pretarse anlogamente sobre cada uno de los parmetros del modelo.

    Todas las pruebas expuestas anteriormente permiten establecer si un modelo economtrico est correctamente especicado o no. A continua-cin se presentan algunas tcnicas que permiten corregir el problema de especicacin incorrecta utilizando la teora econmica y las variables aproximativas (o proxy por su nombre en ingls) para remediarla.

    1.2.3. Soluciones al problema de especicacin incorrecta

    La especicacin correcta es uno de los supuestos del modelo clsico de regresin, cuyo cumplimiento permite encontrar coecientes coherentes con la teora econmica y hacer inferencia estadstica sobre las relaciones entre las variables independientes y la dependiente de la funcin estimada.

    Si en el anlisis de las estadsticas descriptivas, de los histogramas y de las correlaciones se detectan errores de muestreo o medicin de las varia-bles implicadas, la solucin consiste en hacer nuevamente el ejercicio de muestreo y recoleccin de informacin (si es el caso) y corregir digitacio-nes o manipulaciones equivocadas en la base datos.

  • 14 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    Adicionalmente, si el sesgo de especicacin proviene de una variable independiente omitida o redundante, o de una forma funcional inco-rrecta, y es detectado mediante cualquiera de las pruebas expuestas ante-riormente, resulta necesario modicar el modelo economtrico inicial. Esta seccin presenta dos estrategias para hacerlo: recurrir a la teora econmica y utilizar variables aproximativas.

    1.2.3.1. Uso de la teora econmica

    La primera alternativa para corregir la especicacin errnea consiste en recurrir a la teora econmica que origin el planteamiento del modelo economtrico, con el n de identicar la omisin de variables indepen-dientes relevantes, la adicin de redundantes o la existencia de una forma funcional incorrecta. En el primer caso, es necesario recolectar los datos faltantes para incluir en el modelo las variables explicativas omitidas observables o cuanticables. En los otros casos, los postulados econmi-cos deben indicar qu variables dejar a un lado y cmo expresar la forma funcional del modelo economtrico o de cada una de las variables impli-cadas en l para obtener una regresin correctamente especicada.

    No obstante, es posible que las variables independientes relevantes excluidas no sean observables ni tampoco cuanticables fcilmente. Sin embargo, dada su importancia desde el punto de vista econmico descrito economtricamente, no debe prescindirse de ellas en el anli-sis porque puede incurrirse en el problema de especicacin incorrecta por variable explicativa omitida. Por esta condicin, el problema se trata utilizando variables aproximativas.

    1.2.3.2. Variables aproximativas

    Adems del anlisis terico, pueden utilizarse variables aproximativas exgenas porque en algunas ocasiones el origen del problema de especi-cacin radica en la existencia de variables independientes omitidas no observables o cuanticables. Esto ocurre con variables como la habilidad, el gusto, la cultura y la calidad de vida de una persona o de una socie-dad en general, entre otras. Por ejemplo, el coeciente intelectual puede ser una buena aproximacin para la habilidad y el ndice de desarrollo humano para la calidad de vida.

    Teniendo en cuenta lo anterior, la variable aproximativa (proxy) puede denirse como una representacin observable y cuanticable, relacio-nada con su determinante no perceptible. Esta variable puede ser incluida

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 15

    dentro del modelo sustituyendo la variable independiente no observable y de esta forma puede capturar el efecto de la variable omitida y solu-cionar el problema de especicacin errnea. Para continuar el anlisis sobre el funcionamiento de una variable aproximativa, la ecuacin 1.25 representa algn caso particular, desde el punto de vista econmico, con cuatro variables independientes. El modelo cuenta con dos variables cuanticables X Xi i1 2,( ) y dos omitidas X Xi i3 4,( ) no observables (v. ecua-cin 1.26).

    Y X X X X Ui i i i i i= + + + + + 0 1 1 2 2 3 3 4 4 (1.25)

    Y X X Ui i i i= + + + 0 1 1 2 2* (1.26)

    U X X Ui i i i* = + + 1 3 2 4 (1.27)

    De esta forma, en el trmino de error Ui*( ) se encuentran las dos regreso-

    ras omitidas X Xi i3 4,( ) junto con sus respectivos parmetros 1 2,( ) y el error U( ) del modelo original (v. ecuacin 1.27). As, el mtodo consiste en buscar dos variables aproximativas P Pi i1 2,( ) que tericamente tengan una correlacin (Corr) alta con las variables omitidas (v. ecuaciones 1.28 y 1.29). Es imposible probar empricamente que existe una relacin entre las variables aproximativas y las no observadas. Por lo tanto, la existencia de la relacin entre Xi3 y Pi1 y entre Xi4 y Pi2 debe ser justicada terica-mente o desde el argumento econmico respectivo.

    Corr P Xi i1 3 1,( ) = (1.28)

    Corr P Xi i2 4 1,( ) = (1.29)Una vez establecidas las variables aproximativas P Pi i1 2,( ), se reemplazan por las no observables X Xi i3 4,( ) en el modelo inicial de la ecuacin 1.25 y debe estimarse la nueva especicacin (v. ecuacin 1.30) mediante MCO, la cual puede ser examinada con las pruebas conjuntas y parciales (esta-dsticos F y t, respectivamente) presentadas en la seccin 1.2.2.

    Y X X P Pi i i i i i= + + + + + 0 1 1 2 2 3 1 4 2 (1.30)

    Ahora, si no existen ms variables independientes omitidas, se trabaja la forma funcional correcta considerando que Pi1 y Pi2 son una buena aproxi-macin para Xi3 y Xi4. El modelo 1.30 se encontrara bien especicado y se obtendran a partir de ste estimadores insesgados y consistentes. Sin embargo, se puede continuar vulnerando el supuesto de independencia condicional por problemas de endogenidad.

  • 16 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    1.3. Endogenidad

    Adems de especicar correctamente el modelo economtrico, es nece-sario conocer y garantizar la exogenidad de sus variables independien-tes implicadas para cumplir el supuesto de independencia condicional y obtener estimadores insesgados y consistentes mediante MCO. De lo contrario, cuando se incumple este principio por causas distintas a la especicacin incorrecta, las variables independientes podran conside-rarse endgenas (v. demostracin en el anexo 1.6).

    En este sentido, la endogenidad se dene formalmente como la existen-cia de una relacin inequvoca entre una o ms variables independientes incluidas en el modelo y el trmino de error.21 A continuacin se discuten las causas y consecuencias de este problema, las estrategias de solucin usando variables instrumentales y el proceso de identicacin de ste.

    1.3.1. Causas y consecuencias

    Una vez se ha denido el problema de endogenidad y con el n de comprenderlo, esta seccin presenta sus cuatro posibles causas. En cuanto a esta clasicacin, es necesario tener presente que los elementos aqu expuestos no son mutuamente excluyentes, por lo que en los ejer-cicios empricos varias fuentes de endogenidad pueden estar presentes simultneamente.

    1.3.1.1. Variables omitidas no observadas

    La primera causa endogenidad es un caso particular del problema de variables omitidas ya descrito en la seccin 1.2. En este caso, la ecuacin 1.31 es un modelo clsico de regresin con k 1 variables independientes y una variable omitida (v. ecuacin 1.32).

    Y X X Xi i i k ik i= + + + + + 0 1 1 2 2 1 1 (1.31)

    i k ik iX e= + (1.32)

    A partir de las ecuaciones anteriores, es necesario destacar que la omisin de variables no necesariamente conduce a un problema de endogenidad; slo cuando la variable omitida que est en el error se relaciona adems

    21 Es decir, cuando Cov X Uij i,( ) 0.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 17

    con una de las variables explicativas Xij( ) se incumplir el supuesto de independencia condicional. La variable relacionada con el error se conoce como variable endgena.

    Cuando existe un problema como ste, los estimadores de MCO pasan a ser sesgados, por lo que dejan de ser aproximaciones vlidas de los parmetros poblacionales. En el caso particular de variables omitidas, la direccin del sesgo puede ser determinada de forma analtica. Como ejemplo, las ecuaciones 1.33 y 1.34 muestran un caso particular del problema con k = 1 y la variable independiente (Xi1) est relacionada con una omitida (Xi2 ).

    Y Xi i i= + + 0 1 1 (1.33)

    i i iX e= +2 2 (1.34)

    En este caso la variable omitida Xi2 se puede explicar a partir de la varia-ble independiente endgena porque Cov X Xi i1 2 0,( ) (ver ecuacin 1.35). Por lo tanto, es posible sustituir la aproximacin de la variable omitida en la ecuacin 1.33 para obtener una expresin general del sesgo (ver ecuacin 1.36).

    X Xi i i2 0 1 1= + + (1.35)

    Y X ei i i iei

    = +( ) + +( ) + +( )

    0 2 0 1 2 1 1 2

    0 1* * *

    (1.36)

    En este caso, la direccin del sesgo est determinada por los valores de 2 0 y 2 1.

    22 Note que tambin aparece un sesgo sobre 0. En la prctica, al identicar la variable omitida, la direccin del sesgo puede determi-narse analizando los signos tericos de las relaciones entre las diferentes variables involucradas.

    1.3.1.2. Simultaneidad

    La segunda causa posible de endogenidad se conoce como simultaneidad y ocurre cuando el fenmeno econmico cuenta con variables determi-nadas conjuntamente en un proceso ms complejo que aquel que puede ser capturado por una ecuacin lineal. En particular, cuando la variable dependiente y alguna de las independientes se determinan al mismo tiempo, se tiene un problema de doble causalidad.

    22 Est sobreestimado si 2 1 0> y subestimado si 2 1 0< .

  • 18 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    En estas circunstancias, los estimadores calculados por el mtodo de MCO reejan una mezcla del efecto de los diferentes canales. Si se quiere estu-diar slo una direccin de la causalidad, se debe reformular el problema planteando un sistema de varias ecuaciones que logre reejar las diferen-tes relaciones que ligan las variables. Este tema es ms complejo que el de las otras causas de endogenidad dado que requiere condiciones espe-ciales de identicacin, por lo cual se estudiar de manera independiente (v. captulo 2).

    1.3.1.3. Error de medicin

    En tercer lugar se encuentran los errores de medicin que en circunstan-cias particulares derivan en un problema de endogenidad. En los casos en que dichos errores siguen una estructura determinada, correlacionada con alguna de las variables independientes del modelo, las consecuencias recaen sobre el resultado de los estimadores obtenidos mediante MCO

    0 1* *, . Estos estimadores son sesgados e inconsistentes23 por sobreesti-

    mar o subestimar su verdadero valor muestral 0 1, .

    Lo anterior puede observarse en la ecuacin 1.37 que representa una forma lineal de la FRP simple, en la que existe un error de muestreo o medicin i i,( ) de la variable dependiente y de la explicativa Y Xi i,( ), respectivamente (Pindyck y Rubinfeld, 2003: 188-190).

    Y X U Y X

    Y X U Yi i i i i

    i i i i

    0 1 1 0 1 1

    0 1 1

    ,

    ,* * * * *

    donde ** * * *

    * * * *

    ;

    Y X X U U

    Y X

    i i i i i i i i

    i i

    y1 1

    0 1 1

    (1.37)

    Cov X U E X Ui i i i i i1 1 12* * * *,( ) = +( ) +( ) = (1.38)

    En la expresin 1.37, Yi* equivale al valor autntico de la variable depen-

    diente Yi( ) ms su error de muestreo o medicin (i). Lo que ocurre con la variable independiente observada Xi1

    * es anlogo, cuyo efecto es la suma de su cuanta efectiva

    Xi1( ) y el error i( ). Al reemplazar Yi* y Xi1* , el

    trmino de error Ui*( )

    permanece en funcin de Ui i 1 y de esta manera

    resulta correlacionado con la variable independiente Xi1*( ) (ver ecuacin

    1.38),24 incumpliendo as el supuesto de independencia condicional.

    23 Esto ocurre porque estn relacionados con la varianza del error de muestreo o medi-cin (ver detalles en el anexo 1.2).

    24 Donde Cov indica la covarianza y E el valor esperado de los respectivos trminos en la covarianza.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 19

    Con respecto a los estimadores calculados por MCO, la direccin del sesgo est determinada por la estructura del error de medicin. A conti-nuacin se presenta el sesgo de seleccin que corresponde a la cuarta y ltima causa que origina el problema de endogenidad.

    1.3.1.4. Sesgo de seleccin

    Finalmente, la endogenidad puede surgir de sesgos de seleccin, problema que aparece cuando los datos no son aleatorios, como resultado de errores de los encuestadores en la recoleccin de los datos o por alguna seleccin (o autoseleccin) de los encuestados.

    En particular, la mala recoleccin puede darse por una omisin deliberada de algunas preguntas en el momento de hacer las encuestas o por la falta de claridad en su redaccin. En el caso de las preguntas de selec-cin mltiple, por ejemplo, en ocasiones ninguna alternativa se ajusta a la condicin del encuestado. Cuando en un alto porcentaje de los datos se observan respuestas en blanco, es probable que se tenga un problema de no aleatoriedad.

    Por otra parte, el sesgo de seleccin ocurre cuando no todos los indivi-duos de la poblacin tienen la misma probabilidad de hacer parte de la muestra. La autoseleccin es un caso particular de este tipo de sesgo, comn en los estudios economtricos sobre programas gubernamenta-les. En este caso la autoseleccin ocurre porque no todos los individuos tienen la misma propensin a participar en programas pblicos, dado que cuentan con diferente disponibilidad de tiempo e inters. En ambos casos, el conjunto de participantes no es representativo de la poblacin.

    Al igual que en los casos de variables omitidas, de simultaneidad y de error de medicin ya presentados, el anlisis economtrico por MCO no conduce a estimadores insesgados, porque el trmino de error del modelo captura la estructura de seleccin.

    Para comprender las diferentes metodologas que se presentan posterior-mente, la siguiente seccin introduce el concepto de variable instrumental o instrumento, que permitir evaluar la existencia de problemas de endo-genidad y plantear metodologas de solucin.

    1.3.2. Introduccin a las variables instrumentales

    La estrategia para solucionar y detectar la endogenidad de un modelo es usar variables instrumentales. De esta forma, inicialmente el problema debe abordarse desde el postulado econmico plasmado en la regresin,

  • 20 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    sin ninguna prueba que permita demostrarlo. Paralelamente, se debe emplear la metodologa de variables instrumentales como solucin y posteriormente aplicar la prueba estadstica de Hausman para evidenciar el incumplimiento del supuesto de independencia condicional por endogenidad.

    En otras palabras, y a diferencia del procedimiento convencional efec-tuado cuando se infringe algn otro supuesto de MCO (caso en que se llevan a cabo primero las pruebas de deteccin y posteriormente la medida correctiva), en un caso de endogenidad debe plantearse inicialmente la solucin (uso de variables instrumentales), suponiendo de entrada que el problema existe, y posteriormente determinar si en efecto hay endo-genidad. Por esta razn, es necesario introducir primero el concepto de instrumento Zi( ) o variable instrumental.Una variable instrumental se dene como aquella relacionada con la variable explicativa que causa el problema de endogenidad e indepen-diente del trmino de error en el modelo. Adicionalmente, para elegir un buen instrumento se parte del problema econmico planteado econo-mtricamente. La variable instrumental tambin permite transformar el modelo inicial con presunta endogenidad para obtener estimadores insesgados y consistentes (v. demostracin en los anexos 1.6 y 1.7).

    Cualquier variable coherente econmicamente dentro de la lgica del modelo puede seleccionarse como instrumento Zi( ) siempre y cuando satisfaga dos condiciones: validez y relevancia. La primera exige que la variable instrumental Zi( ) sea exgena al modelo economtrico especi-cado inicialmente en la ecuacin 1.39; es decir, independiente del trmino de error (v. ecuacin 1.40). Por su parte, la segunda postula que debe exis-tir una dependencia o relacin entre la variable instrumental y la variable independiente Xi1

    *( ) correlacionada con el error (Wooldridge, 2009: 308), como lo establece la ecuacin 1.41.

    Y X Ui i i= + + 0 1 1* (1.39)

    Cov( , )Z Ui i = 0 (1.40)

    Cov Z Xi i,*1 0( ) (1.41)

    Para demostrar que la variable instrumental cumple estas condiciones se utiliza la prueba de Sargan para restricciones sobreidenticadas (v. seccin 1.3.4), con el n de determinar si se cumple la condicin 1.40. Tambin se estima una regresin auxiliar en la que la variable instrumental Zi( ) se utiliza como regresora de la variable endgena Xi1

    *( ) para comprobar si se cumple la condicin 1.41. Esta regresin auxiliar hace parte del proceso

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 21

    de estimacin por MC2E (v. seccin 1.3.2.1). La siguiente seccin explica cmo se utilizan las variables instrumentales para solucionar, identicar y estimar modelos con endogenidad.

    1.3.3. Soluciones al problema de endogenidad

    Como se mencion anteriormente, cuando existe un problema de endo-genidad debe plantearse primero la solucin y luego determinar su exis-tencia a partir del fundamento econmico conceptualizado, razn por la cual esta seccin destaca el uso de las variables instrumentales y poste-riormente expone la prueba de Hausman para detectar el problema de endogenidad.

    1.3.3.1. Mnimos cuadrados en dos etapas (MC2E)

    Un problema de endogenidad en un modelo se debe resolver utilizando variables instrumentales para obtener estimadores insesgados mediante MC2E (v. demostracin en el anexo 1.9). Este mtodo es el segundo ms usado en la literatura, superado nicamente por MCO (Wooldridge, 2009: 2). Para ilustrar lo anterior, la ecuacin 1.42 representa un modelo de regresin con dos variables independientes X Xi i1 2

    * y ( ). Y X X Ui i i i= + + + 0 1 1 2 2

    * (1.42)

    donde Xi1* expresa la variable que genera endogenidad, dada su relacin

    con el trmino de error Cov( , )*X Ui i1 0( ) , que se explica desde la perspec-tiva econmica por una variable exgena no considerada en la especica-cin. Entonces debe encontrarse un instrumento Zi1( ), coherente dentro de la lgica econmica del modelo, que est relacionado con Xi1

    * pero no con el trmino de error de la ecuacin 1.42 (v. ecuaciones 1.40 y 1.41). La expresin 1.43 hace referencia a una regresin auxiliar denominada forma reducida de la ecuacin estructural plasmada en 1.42.

    X Z Xi i i i1 0 1 1 2 2*

    = + + + (1.43)

    As, la primera etapa consiste en estimar 1.43 mediante MCO. La variable explicada es Xi1

    *

    y las explicativas son Xi2 y Zi1, sus respectivos parme-tros son 0, 1 y 3, y i corresponde al trmino de error. La condicin de relevancia del instrumento (ecuacin 1.41) se puede determinar reali-zando una prueba de signicancia individual (t) sobre el coeciente 1 de la variable instrumental Zi1( ). Si 1 resulta estadsticamente signica-tivo, entonces el instrumento es relevante. En caso de que se cuente con

  • 22 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    varios instrumentos, stos se agregan a la forma reducida de la primera etapa en la metodologa de MC2E. Posteriormente debe modicarse el modelo inicial (ecuacin 1.42) reemplazando los valores observados de

    la variable endgena Xi1*( ) por los estimados Xi 1*( ), como se muestra en

    la ecuacin 1.44.

    Y X X Ui i i i= + + + 0 1 1 2 2*

    (1.44)

    Finalmente, la segunda etapa consiste en estimar 1.44 por MCO. El valor resultante de 1 se denomina estimador de MC2E para Xi1

    * . En trminos generales, una estimacin por MC2E consiste en:

    1. Estimar una regresin auxiliar (forma reducida) mediante MCO en la que la variable endgena X * es explicada a partir de las exgenas del modelo estructural y al menos un instrumento.

    2. Realizar una prueba (t) de signicancia parcial para el coeciente que acompaa la variable instrumental, en la regresin auxiliar, con el n de determinar si se cumple la condicin de relevancia del instrumento. En caso de contar con varios instrumentos, puede analizarse la signicancia individual de cada uno o su signicancia global.

    3. Si el instrumento es relevante, extraer los valores ajustados de la variable endgena X

    *( ) de la forma reducida.4. Reemplazar en la forma estructural la informacin observada para

    la variable endgena X *( ) por la estimada en el paso tres X *( ) y llevar a cabo la segunda etapa del modelo inicial por MCO.

    Para aquellos modelos que tengan mltiples variables endgenas debe cumplirse la condicin mnima de orden. En general deben encontrarse tantos instrumentos (Z) como variables endgenas X *( ). Por esta razn, la primera etapa del mtodo de MC2E cuenta con varias regresiones auxi-liares (una forma reducida por cada variable endgena).

    En otras palabras, si en la forma estructural existen dos variables inde-pendientes X Xi i1 2

    * * y ( ) que causan endogenidad, es necesario encontrar dos instrumentos Z Zi i1 2 y ( ) y plantear dos formas reducidas, una por cada instrumento (v. cuadro 1.1).

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 23

    CUADRO 1.1. Estado del modelo a partir de la condicin de ordenRelacin entre el nmero de variables endgenas

    X *( ) y el nmero de instrumentos (Z) Estado del modelo

    X Z* > No identicado25

    X Z* = Exactamente identicado

    X Z* < Sobreidenticado

    Fuente: Elaboracin propia.26

    Asimismo, cada forma reducida contiene las variables exgenas de la funcin estructural junto con las instrumentales, segn el caso, para predecir otras variables endgenas. Con esto se pretende obtener la mejor prediccin de la variable de inters (v. cuadro 1.2).

    1.3.3.2. Uso de variables aproximativas para corregir la endogenidad y derivacin directa del estimador de variables instrumentales

    En la seccin anterior se expuso el uso de MC2E para estimar consis-tentemente los parmetros del modelo con endogenidad. No obstante, es importante mencionar que esta metodologa en dos etapas no es la nica alternativa, dado que tambin es posible solucionar el problema con cambios en la especicacin del modelo o mediante la aplicacin de un estimador directo donde se emplean variables instrumentales.

    Con respecto a los cambios en la especicacin del modelo, particu-larmente en aquellos casos donde existe endogenidad resultante de la omisin de variables no observadas, una alternativa consiste en incluir en el modelo los elementos excluidos que causan la relacin entre las varia-bles independientes y el trmino de error. Esto es un caso particular del uso de variables aproximativas discutido anteriormente, aunque resulta difcil en la prctica dada la dicultad de capturar satisfactoriamente el comportamiento de los elementos no observados. Aun as, esto es terica-mente una aproximacin vlida para enfrentar la existencia de una corre-lacin entre las variables independientes del modelo y el trmino de error (v. demostracin en el anexo 1.11).

    Finalmente, la siguiente alternativa es aplicar directamente un estimador que incorpore el uso de variables instrumentales. Existen al menos dos aproximaciones distintas, aunque tericamente equivalentes, que sirven

    25 Los modelos con ms variables endgenas que instrumentos incumplen la condicin mnima de orden por lo que no deben ser estimados.

    26 En adelante, si no se indica la fuente se entender que es elaboracin propia.

  • 24 R

    AM

    N R

    OSA

    LES J

    OR

    GE P

    ER

    DO

    MO C

    AR

    LOS M

    OR

    ALE

    S JA

    IME U

    RR

    EG

    O

    CUADRO 1.2. Diferentes casos mediante MC2ECaso Variables Primera etapa de la regresin Segunda etapa de la regresin

    Modelo univariado(v. anexo 1.7)

    Xi1* es la variable

    endgena y Zi1 la varia-

    ble instrumental.

    X Zi i i1 0 1 1*

    = + + Y X Ui i i= + + 0 1 1*

    Una variable endgena y un instrumento

    Xi1* es la variable end-

    gena, X Xi ik2 , ..., son las variables exgenas y Zi1

    el instrumento.

    X Z X X Xi i i i k ik i 1 0 1 1 2 2 3 3*

    = + + + + + + Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2 *

    Una variable endgena y ms de un instrumento

    Xi1* es la variable en-

    dgena, X Xi ik2 , ..., son exgenas y Z Zi im1 , ..., instrumentales.

    X Z Z X Xi i m im m i m k ik i1 0 1 1 1 2*

    = + + + + + + ++ + Y X X X Ui i i k ik i= + + + + + 0 1 1 2 2*

    ...

    Varias variables endgenas y un instrumento por cada una

    X Xi ik1* *, ..., son va-

    riables endgenas,X Xi k im, , ...,+1 son exgenas y Z Zi ik1 , ..., instrumentales. La va-riable Zij corresponde al instrumento de Xij

    * .

    X Z X X X

    X Z X

    i i i i k ik i

    ik ik i

    1 0 1 1 2 2 3 3 1

    0 1 2 1

    *

    *

    = + + + + + +

    = + + +

    +

    + + + +

    + +

    k i k

    j i k m im ik

    X

    X X1 1

    1 1

    ,

    ,

    Y X X X

    X X Ui i i k ik

    k i k m im

    = + + + +

    + + + ++ +

    0 1 1 2 2

    1 1

    * * *

    , ii

    Varias variables endgenas y ms de un instrumento por cada una

    X Xi ik1* *, ..., son va-

    riables endgenas,X Xi k im, , ...,+1 exgenas y Z Zi j in j1, ,, ..., instru-mentos para Xj

    * .

    X Z Z X X X

    X

    i i n in i i k ik i

    ik

    1 0 1 1 1 1 1 1 2 2 3 3 1*

    , , , ,

    *

    = + + + + + + + +

    == + + + + + +

    +

    +

    0 1 1 2 2 1 1

    1

    , , , , ,k i k n k in k i j i j

    j

    Z Z X X

    XX Xi j k ik ik, + + + +1

    Y X X X

    X X Ui i i k ik

    k i k m im

    = + + + +

    + + + ++ +

    0 1 1 2 2

    1 1

    * * *

    , ii

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 25

    para este propsito. La primera se deduce del estimador de mnimos cuadrados generalizados (MCG) y la segunda se basa en el mtodo gene-ralizado de momentos. En cualquier caso, los parmetros calculados por una frmula directa o mediante MC2E resultan equivalentes (v. demos-tracin en el anexo 1.12). Un tratamiento completo de estas temticas puede encontrase en Greene (2003).

    1.3.4. Deteccin del problema de endogenidad

    Hasta ahora se ha supuesto que el problema de endogenidad existe teri-camente a partir del postulado econmico que pretende evidenciarse, sin llevar a cabo previamente una prueba estadstica para demostrar el incumplimiento del supuesto de independencia condicional. En la seccin anterior se expuso el uso de variables instrumentales como una medida para remediar el problema de endogenidad concebido de esta manera.

    Esta seccin introduce la prueba de Hausman27 que permite identicar si existe endogenidad en un modelo. Sin embargo, debe contarse con los estimadores obtenidos mediante MCO y MC2E para elaborarla (Hill et l., 2001: 299). De esta forma, se hace necesario en primera instancia establecer la solucin con variables instrumentales vlidas,28 suponiendo desde el principio que el problema existe sin prueba estadstica alguna.

    1.3.4.1. Prueba de Hausman

    La metodologa de MC2E permite aplicar la prueba de Hausman para identicar endogenidad en un modelo. De manera general, la prueba de Hausman plantea que si los estimadores de MCO y MC2E no son esta-dsticamente diferentes, entonces es posible concluir que el modelo no presenta problema de endogenidad. Si por el contrario los estimadores dieren estadsticamente, se supone que ste es el resultado de algn sesgo de endogenidad (v. prueba de hiptesis 1.45).

    MCO MC2E No existe endogenidad. (1.45) MCO MC2E Existe endogenidad.

    27 Tambin usada para detectar problemas de simultaneidad y efectos jos en datos en panel (v. caps. 2 y 8, respectivamente).

    28 La prueba de Hausman supone necesariamente que las variables instrumentales utili-zadas durante la estimacin de MC2E satisfacen las condiciones 1.33 y 1.34. Ante el incumplimiento de alguna de stas los resultados de la prueba dejan de ser conables.

  • 26 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    El estadstico de prueba de Hausman, est dado por la siguiente ecuacin:

    MCO MCOMCOMC2E MC2E MC2EVar (1.46)

    Los trminos MCOMC2E y MCOMC2E capturan la distancia entre los estimadores de MC2E y los de MCO. El trmino restante, MCOMC2EVar , pondera por la varianza conjunta de los estimadores y se puede reescri-bir como la resta de las varianzas al suponer eciencia del estimador de MCO. La hiptesis nula se rechaza si el valor del estadstico es mayor que el valor crtico determinado por k

    2 para el nivel de signicancia deseado.

    En ese caso, se arma que hay un problema de endogenidad y que el mtodo de estimacin recomendado podra ser MC2E. Si por el contra-rio no es posible rechazar la hiptesis nula, entonces se puede suponer que no hay ningn sesgo relevante en los estimadores de MCO.

    Para resumir, el procedimiento general para la prueba de Hausman es:

    1. Realizar la estimacin de la ecuacin estructural que se quiere estu-diar por MCO.

    2. Realizar la estimacin mediante alguna otra metodologa (en este caso MC2E).

    3. Construir el estimador de Hausman y vericar el resultado de la prueba de hiptesis.

    Esta prueba tambin puede realizarse de una manera alternativa. De esta forma, considere las regresiones especicadas en las ecuaciones 1.42 y 1.44. En primer lugar debe estimarse la primera etapa (ecuacin 1.43) por MCO y posteriormente se deben obtener los valores de sus residuales esti-mados i y agregarlos como una nueva variable independiente en 1.42 (ver ecuacin 1.47). As, Xi1

    *

    ser exgena cuando los residuales estimados i no estn correlacionados con los errores Ui( ) del modelo inicial en 1.42.

    Y X X Ui i i i i 0 1 1 2 2* (1.47)

    Bajo este esquema, la prueba hiptesis para endogenidad equivale a una prueba de signicancia parcial sobre el coeciente ( ) que acompaa los residuales obtenidos en la primera etapa (v. prueba de hiptesis 1.48).

    H0 0: = No existe endogenidad. (1.48) H1 0: Existe endogenidad.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 27

    El estadstico est dado por una prueba t, expuesta en la ecuacin 1.49, donde ee ( ) corresponde al error estndar estimado para . Si el valor calculado de t supera el crtico, determinado por tn p (donde p corres-ponde al nmero de parmetros en el modelo y n al total de observacio-nes) para un determinado nivel de signicancia (usualmente 1%, 5% o 10%), el coeciente de inters resulta estadsticamente signicativo y se puede armar que Xi1

    *

    es endgena.

    t

    eetn p= ( )

    (1.49)

    En trminos generales, la prueba de Hausman consiste en:

    1. Especicar la forma estructural y reducida.

    2. Aplicar MC2E.

    3. Estimar la primera etapa mediante MCO.

    4. Obtener los errores estimados i de la primera etapa.

    5. Adicionar los errores obtenidos en el aparte cuatro como variable explicativa en el modelo estructural y realizar una estimacin por MCO de este ltimo.

    6. Realizar la prueba de signicancia parcial con el estadstico t sobre el coeciente que acompaa los residuales estimados en el modelo modicado del aparte cinco. Si el estimador es signicativo, existe endogenidad en el modelo.

    No obstante, si no se rechaza la hiptesis nula puede concluirse que no hay endogenidad. Por lo tanto, los estimadores de MCO son insesgados y consistentes y no deben emplearse variables instrumentales en el modelo, dado que se cumple el supuesto de independencia condicional y la previa premonicin del problema puede ser slo un juicio de valor.

    En el caso contrario, cuando se rechaza la hiptesis nula, existe endoge-nidad y los parmetros de MC2E son insesgados y consistentes. As, el siguiente paso consiste en determinar la condicin de validez del instru-mento a partir de la prueba de Sargan. Esta prueba permite determinar restricciones sobreidenticadas dentro de la metodologa de MC2E, debido a que la signicancia estadstica de los coecientes en la forma reducida slo evidencia su condicin de relevancia, y carece an de la conrmacin de la validez de la variable instrumental.

  • 28 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    1.3.4.2. Prueba de Sargan para restricciones sobreidenticadas

    Una vez elegida la variable instrumental, identicada la endogenidad y estimado el modelo por MC2E para la respectiva solucin, puede probarse la validez del instrumento empleado (Davidson y MacKinnon, 2004: 336). Esto es posible slo cuando se cuenta con al menos dos ins-trumentos tericamente vlidos. Con el n de comprender esta metodo-loga, considere nuevamente el modelo de regresin en la ecuacin 1.42 y dos instrumentos Z Zi i1 2 y ( ) para Xi1* (v. ecuacin reducida en 1.50). X Z Z Xi i i i i1 0 1 1 2 2 3 2

    *= + + + + (1.50)

    En esta circunstancia, la metodologa consiste en emplear nicamente uno de los dos instrumentos disponibles Zi1( ) y estimar el modelo 1.42 por MC2E. Posteriormente, se toman sus errores estimados Ui( ) y se emplean en una nueva regresin auxiliar (v. ecuacin 1.51), como varia-ble dependiente en funcin del instrumento incluido Zi1( ), del excluido Zi2( ) y de la variable exgena Xi2( ). La ecuacin 1.51 se estima mediante

    MCO. En dicho caso los parmetros son representados por 0 , 1, 2 y 3, mientras que su trmino de error se denota como i .

    U Z Z Xi i i i i = + + + + 0 1 1 2 2 3 2 (1.51)

    Con los resultados de 1.51 se realiza la PML (ver prueba de hiptesis 1.52 y ecuacin 1.53). El multiplicador (ML) equivale a n (total de observacio-nes) multiplicado por el coeciente de determinacin R2( ) de la regresin auxiliar, el cual sigue una distribucin ji cuadrada con p 1 grados de libertad p( )12 , que representan el nmero de parmetros menos uno en la regresin auxiliar.

    H0 1 2 0: = = Instrumento adecuado. (1.52) H1 0: Algn Instrumento inadecuado.

    ML nR p= 2

    12 (1.53)

    Cuando el ML calculado supera el valor crtico determinado por p12

    para un determinado nivel de signicancia (usualmente 1%, 5% o 10%), entonces los coecientes de la regresin auxiliar son conjuntamente signi-cativos o por lo menos uno de ellos es diferente de cero. Es decir, existe evidencia estadstica sobre uno o varios instrumentos inadecuados (v. prueba de hiptesis 1.52). En este caso hay que seleccionar el instrumento excluido Zi2( ) en la forma reducida y reemplazarlo por el anterior Zi1( ). Si

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 29

    el problema persiste deben encontrase nuevas variables instrumentales. En general, la prueba de Sargan para conocer las restricciones sobreiden-ticadas o la validez de los instrumentos consiste en:

    1. Especicar la forma estructural y reducida.

    2. Identicar las posibles variables instrumentales que se utilizarn.

    3. Realizar la estimacin del modelo por MC2E usando nicamente una de las variables instrumentales disponibles.

    4. Obtener los errores estimados Ui( ) derivados de MC2E.5. Especicar y estimar una regresin auxiliar por MCO, donde los

    errores estimados Ui( ) son tomados como variable dependiente en funcin de las variables exgenas y de los instrumentos incluidos y excluidos de la forma reducida.

    6. Probar la signicancia conjunta de los instrumentos excluidos mediante la PML.

    7. Repetir los pasos del uno al seis empleando otro de los instrumentos identicados en el numeral dos.

    Este procedimiento estadstico concluye la seccin terica de este cap-tulo. A continuacin se aplican las tcnicas en un estudio de caso para comprender los temas de especicacin y endogenidad, en particular el manejo de variables aproximativas e instrumentales, la evaluacin de la especicacin, el uso de MC2E y las pruebas de Hausman y Sargan.

    1.4. Estudio de caso: efectos de la fecundidad sobre el ingreso laboral femenino

    Una vez expuestas las diferentes metodologas relevantes para detectar y remediar las causas y consecuencias de los problemas de especicacin y endogenidad en un modelo economtrico, su respectiva aplicacin se desarrolla con informacin socioeconmica en el programa estadstico Stata, con base en un artculo enmarcado en el anlisis del mercado laboral.

    A continuacin se desarrolla un modelo del estudio titulado Efectos de la fecundidad sobre el ingreso laboral femenino de Gutirrez (2009). El artculo busca determinar economtricamente los efectos de la fecundidad sobre el ingreso laboral femenino. El estudio pretende comprobar si existe una diferencia salarial entre las madres y las mujeres sin hijos e identicar la magnitud de esta diferencia.

  • 30 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    De acuerdo con el autor, durante las ltimas dcadas el papel de la mujer en nuestra sociedad ha tenido grandes cambios. Su nivel educativo ha aumentado, su participacin laboral ha sido ms activa y las caractersti-cas del cargo que ocupa han cambiado. La progresiva participacin labo-ral de la mujer ha motivado la investigacin sobre cmo el mercado est reaccionando ante este nuevo escenario y, dentro de esta perspectiva, el estudio del efecto de la fecundidad sobre el ingreso laboral femenino es de gran importancia. El autor est interesado en mostrar que la cantidad de hijos tiene una fuerte incidencia en el ingreso laboral por hora de la mujer, reducindolo a medida que aumenta su nmero.

    A partir de lo anterior se especica un modelo economtrico lineal (v. ecuacin 1.54), dada la informacin disponible sobre los indicadores socioeconmicos de un conjunto de 7505 mujeres (nmero de hijos, horas trabajadas, edad, nivel educativo, lugar de residencia, nivel educativo de la madre e ingreso laboral). Estas variables, provenientes de la Encuesta de Calidad de Vida del 2003 (ECV), permiten mostrar la aplicacin y funcionamiento de las diversas metodologas presentadas en el captulo.

    Ingreso o NmeroHijos Ui i i 1 X (1.54)

    En la ecuacin 1.54, Ingresoi corresponde al logaritmo natural del ingreso laboral por hora de la mujer i y NmeroHijosi es la variable de inters que contabiliza el nmero de hijos que viven con ella. Por ltimo, X (v. cuadro 1.3) corresponde a una matriz de variables de control (con su respectivo vector de coecientes ) relacionadas con el ingreso laboral de cada mujer.

    Para comprobar el cumplimiento de la hiptesis de los autores, mediante los resultados de signicancia parcial con la prueba t, 1 debe resultar estadsticamente diferente de cero y con signo negativo, dado que teri-camente se espera un menor ingreso laboral como consecuencia de un aumento en la fecundidad.

    Sin embargo, el cumplimiento de esta hiptesis no es fcil de probar mediante una regresin lineal simple, puesto que la variable NmeroHijosi tericamente es endgena. En particular, cuando la mujer entra al mercado laboral adquiere caractersticas no incluidas en el modelo que la desincentivan a tener ms hijos. Por otro lado, el tamao de la familia y la edad de los hijos (variables tambin omitidas) son determinantes de si la mujer hace parte o no del mercado laboral.

    Para superar este inconveniente, Gutirrez (2009) sugiere usar como variable instrumental el nivel educativo de la madre de la mujer en consideracin y

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 31

    utilizar la metodologa de MC2E. De acuerdo con el autor, existe una rela-cin inequvoca entre la educacin de la madre y la fertilidad de sus hijas, por lo que este instrumento es relevante.

    1.4.1. Anlisis general de los datos

    Esta primera seccin se prepara para el anlisis economtrico y para reali-zar una exploracin general de la base de datos que se utiliza, incluyendo una descripcin de las variables relevantes utilizadas en el modelo. Este tipo de sondeo es importante porque permite familiarizarse con los datos y conocer su calidad, consistencia y veracidad. Para esto, el procedi-miento en Stata es el siguiente:

    1. Determinar la memoria del sistema mediante el comando set memory o set mem. Cuando se desconoce con exactitud el tamao de la base de datos puede asignarse 500m de memoria al programa. Esto es suciente para cargar prcticamente cualquier base.

    2. Cargar la base de datos, cuyo nombre es fertilidad_mujeres2.dta (archivo disponible en http://economia.uniandes.edu.co/econometria_intermedia), con el comando use (v. gura 1.1).

    FIGURA 1.1. Salida de los comandos set memory y use

  • 32 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    3. Para observar el nombre y la descripcin de las variables disponi-bles se utiliza el comando describe o des. Adicionalmente, la salida muestra el formato en que estn guardadas (v. gura 1.2). En este caso existen 16,936 observaciones29 y 19 variables, de las cuales slo una parte ser empleada (v. cuadro 1.3). La descripcin de la mayo-ra de las variables no est disponible, aunque los nombres de cada una indican claramente su contenido.

    CUADRO 1.3. Variables empleadas en el modelo y su descripcin

    Variable del modelo

    Variables en la base

    Descripcin

    Ingresoiing ling

    Ingreso laboral de la mujer i en horas y su respectivo logaritmo.

    NmeroHijosihijo lhijo

    Variable que captura el nmero de hijos de la mujer i y su respectivo logaritmo.

    X

    hora_semana, lhora_semana, edad, ledad, edad2, ledad2, educ, leduc, clas2, lclas2

    Variables que caracterizan a la mujer, entre las que se incluyen el nmero de horas trabajadas por semana, la edad (y la edad al cuadrado), los aos de educa-cin y si vive en zona urbana (clas2). La informacin se encuentra tanto en su valor observado como en logaritmos.

    Instrumentosmadre_0 madre_1

    Variables binarias que capturan el nivel educativo de la madre de la entrevistada. La variable madre_0 toma el valor de 1 si la madre no tuvo ninguna edu-cacin formal o slo algunos aos de primaria y toma el valor de 0 de lo contrario. Por su parte, la variable madre_1 es 1 si la madre complet toda la primaria o algunos aos de secundaria y 0 de lo contrario.

    Nota: Todas las variables se registran como desviaciones con respecto a la media del municipio donde reside la mujer. De esta forma, un valor de 2 en la variable hijo, por ejemplo, registra que la mujer tiene dos hijos ms que la media del municipio donde reside. Esta forma de codicar las variables permite tomar en consideracin las caractersticas distintas de cada municipio.

    4. Antes de estimar el modelo, es necesario observar las estadsti-cas descriptivas de las variables relevantes. Para eso se utiliza el comando summary o sum, seguido por las variables de inters (en este caso, el valor observado de las variables). El comando produce una tabla con el nmero de observaciones, la media, la desviacin estndar, el valor mnimo y el mximo de cada variable indicada. Para el clculo de estos estadsticos, y como resultado de la tcnica de muestreo utilizada al recopilar esta informacin, se utiliza adicionalmente un factor de expansin que establece el peso de cada

    29 En este libro se utiliza el punto como separador decimal y la coma como separador de miles al igual que en Stata.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 33

    FIGURA 1.2. Salida del comando describe

    observacin en la muestra. Esto se consigue adicionando al nal del comando la orden [weight=fex], siendo fex la variable que captura los pesos (v. gura 1.3).

    1.4.2. Estimacin del modelo por MCO y pruebas de especicacin

    Despus del anlisis general de las variables, es posible estimar el modelo propuesto (v. ecuacin 1.54). En esta seccin se realizarn estimaciones mediante MCO y se vericar su especicacin sin tener en cuenta el posible problema de endogenidad.

    1. Para ejecutar una regresin lineal por MCO se utiliza el comando regress o reg. Este comando muestra adems la prueba t de signi-cancia individual para cada una de las variables, una prueba F de signicancia conjunta y la bondad de ajuste R2 (v. gura 1.4).

  • 34 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    FIGURA 1.3. Salida del comando summary

    2. Para probar la especicacin de este modelo se ejecuta la prueba RESET de Ramsey con el comando estat ovtest despus de la regre-sin (v. gura 1.4).

    La regresin lineal de la gura 1.4 muestra que la variable de inters no es signicativa, aunque tiene el signo esperado. En relacin con la prueba RESET de Ramsey, el estadstico F tiene un valor de 40.55 con un valor p (p-value) de 0.0000,30 lo que indica una incorrecta especicacin.

    3. Para probar formas funcionales alternativas, se compara esta espe-cicacin con una alternativa (todas las variables de la matriz X en logaritmos) usando la prueba de Davidson y MacKinnon.

    30 El valor p puede interpretarse como la probabilidad de error al rechazar la hip-tesis nula.

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 35

    Desafortunadamente, Stata no cuenta con un comando que ejecute este procedimiento de manera automtica, por lo que hay que hacerlo paso a paso (v. gura 1.5).

    En este ejemplo particular, el valor estimado Y( ) del modelo en logaritmos resulta signicativo al incluirse en el modelo lineal original. Por el contrario, en el modelo logartmico el valor estimado lineal no resulta signicativo. Esto indica que la forma logartmica est correctamente especicada. Aunque lo correcto sera continuar con esta especicacin, se mantiene el uso del modelo inicial por consistencia con el artculo.

    1.4.3. Estimacin del modelo por MC2E

    De acuerdo con lo expuesto en la introduccin, posiblemente existe endo-genidad en la especicacin anterior. Por esto resulta necesario estimar el ejercicio por MC2E, para lo cual la base de datos contiene variables

    FIGURA 1.4. Salida de la regresin lineal y prueba RESET de Ramsey

  • 36 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    que recogen informacin sobre el nivel educativo de las madres de las entrevistadas (madre_0 y madre_1), tiles como instrumentos. De acuerdo con esto, se plantea el modelo reducido para la primera etapa de la esti-macin por MC2E (v. ecuacin 1.55).

    NmeroHijos i i Z X (1.55)

    En la ecuacin 1.55 NmeroHijosi es la variable endgena, Z es un vector con los diferentes instrumentos, madre_0 y madre_1 (v. cuadro 1.3), y X es el vector de variables exgenas del modelo inicial. El vector corres-ponde a los coecientes de los instrumentos y a los de las variables exgenas.

    FIGURA 1.5. Salida de la prueba de Davidson y MacKinnon

  • FUNDAMENTOS DE ECONOMETRA INTERMEDIA: TEORA Y APLICACIONES 37

    Para realizar la estimacin y vericacin de este modelo en Stata se deben realizar los siguientes pasos:

    1. Para calcular una regresin por MC2E se utiliza el comando ivreg. Deben listarse en orden la variable dependiente, las independien-tes y las endgenas con sus respectivos instrumentos. Para obser-var el resultado de la primera etapa se aade la opcin rst (v. gura 1.6).

    Los dos instrumentos usados en esta primera etapa resultan signicativos individualmente con estadsticos t de 4.66 y 2.18, y conjuntamente con un estadstico F de 173.39. Lo anterior indica su relevancia (v. seccin 1.3.2) y por esta razn puede considerarse que son buenos instrumentos.

    En la segunda etapa (v. gura 1.7) se observa que el coeciente que acompaa la variable NmeroHijosi es ahora signicativo, con un estadstico t de -3.05 y un valor p de 0.002. Este resultado conr-mara la hiptesis central del documento.

    FIGURA 1.6. Salida de la regresin por MC2E

  • 38 RAMN ROSALES JORGE PERDOMO CARLOS MORALES JAIME URREGO

    2. Con el n de probar la hiptesis de endogenidad mediante la prueba d