Cole_--_Econometria_3a_ed..pdf

Julio H. Cole

ELEMENTOS DE ECONOMETRA APLICADA

Tercera Edicin

J & G Ediciones

Guatemala

Para Gina,

con todo mi amor

Copyright 1996, 2006, 2014 por Julio H. Cole. Derechos reservados.

J & G Ediciones (Guatemala).

Impreso en Guatemala Printed in Guatemala

Cole, Julio Harold (1955 )

Elementos de Econometra Aplicada.

Tercera edicin [2014]. Bibliografa.

103 p., ilustrado, tablas.

1. Econometra. I. Ttulo.

330.015195 C689

CONTENIDO

Prefacio a la Segunda Edicin . v . Prefacio a la Tercera Edicin .. v .

Captulo

1. INTRODUCCIN ........................................................................................ 1

2. REGRESIN LINEAL SIMPLE ................................................................. 5

2.1. Introduccin

2.2. Mtodo de Mnimos Cuadrados

2.3. Coeficiente de Determinacin (R2)

Preguntas de Repaso

Casos Aplicados

3. REPASO DE ALGEBRA MATRICIAL ....................................................... 20

3.1. Matrices

3.2. Operaciones con Matrices

3.3. Teoremas sobre Matrices

3.4. Clases Especiales de Matrices

3.5. Traza de una Matriz Cuadrada

3.6. Transposicin de Matrices

3.7. Matriz Inversa

Preguntas de Repaso

4. REGRESIN LINEAL MLTIPLE ............................................................ 27

4.1. Vector Mnimo-Cuadrtico

4.2. Inferencia Estadstica en la Regresin Lineal

4.3. Coeficiente de Determinacin (R2)

4.4. Aplicacin Costos Administrativos en la Banca Comercial

Casos Aplicados

5. AMPLIACIONES DEL MODELO LINEAL ............................................. 44

5.1. Estimacin de Formas No-Lineales

5.2. Variables Binarias o Cualitativas

5.3. Problemas Especiales en la Regresin Lineal

5.3.1. Variables Omitidas y Variables Irrelevantes

5.3.2. Multicolinealidad

5.3.3. Heteroscedasticidad

Preguntas de Repaso

Casos Aplicados

6. AUTOCORRELACIN ................................................................................ 67

6.1. Naturaleza del Problema

6.2. Efectos de la Autocorrelacin

6.3. Cmo Detectar la Autocorrelacin

6.4. Estimacin en Presencia de Autocorrelacin

Preguntas de Repaso

Caso Aplicado

7. RETARDOS DISTRIBUIDOS ................................................................... 82

7.1. Variables Retardadas en Econometra

7.2. Autocorrelacin en Regresiones con Retardos

7.3. Aplicacin Inflacin en Guatemala

Casos Aplicados

ANEXOS .............................................................................................................. 95 . A-1. Areas de la Distribucin Normal Estndar

A-2. Percentiles de la Distribucin t (Student)

A-3. Valores Crticos de la Distribucin Chi-cuadrado

A-4. Estadstico Durbin-Watson: Valores Crticos (5 %) para dL y dU

REFERENCIAS ............................................................................................... 100

PREFACIO A LA SEGUNDA EDICIN

La primera edicin de este libro se public en 1996. Para esta reedicin he man-

tenido la estructura del texto original, pero he aprovechado la oportunidad para

realizar algunas ligeras correcciones y cambios de presentacin, y tambin para

incorporar varios casos aplicados que he desarrollado en estos ltimos 10 aos.

Estos casos han resultado de gran utilidad en el curso introductorio de econome-

tra que imparto desde hace muchos aos en la Universidad Francisco Marroqun,

y me alegro de poder ahora compartirlos con un pblico ms amplio.

J. H. C.

Guatemala, 2006

PREFACIO A LA TERCERA EDICIN

Para esta tercera edicin he mantenido la estructura del texto original, pero he in-

cluido algunos temas adicionales, y he efectuado algunos ligeros cambios de pre-

sentacin. He incluido tambin algunos casos prcticos que he usado con xito en

mi curso de econometra en la Universidad Francisco Marroqun, pero que no ha-

ba previamente incorporado al texto. Reitero el gusto que me da ahora poder

compartirlos con un pblico ms amplio.

J. H. C.

Guatemala, 2014

[1]

Captulo 1

INTRODUCCIN

All models are wrong, but some models

are useful .

G. E. P. Box1

if you torture the data enough, nature

will always confess .

R. H. Coase2

La Econometra es aquella rama de la ciencia econmica que aplica los

instrumentos de la economa terica, del anlisis matemtico y de la estadstica

inferencial al anlisis cuantitativo de los fenmenos econmicos. Las teoras

econmicas tpicamente expresan relaciones funcionales entre diferentes

variables. La curva de demanda, por ejemplo, representa la cantidad demandada

de una mercanca como funcin de su precio. En la teora de la empresa, por otro

lado, el costo de produccin se considera como funcin de la escala de

produccin, mientras que en el anlisis macroeconmico la funcin consumo

relaciona los gastos de consumo con el nivel de ingreso nacional. Todos estos son

ejemplos de relaciones entre dos variables, aunque por supuesto que una

formulacin ms completa debe incluir varias variables diferentes en cada

relacin.

El propsito de la Econometra consiste en desarrollar mtodos para la esti-

macin numrica de los parmetros que definen las relaciones funcionales entre

las diversas variables econmicas que nos pueden interesar, y para testar y com-

probar las diversas hiptesis que se pueden postular acerca de dichos parmetros.

El primer paso en cualquier investigacin economtrica debe ser la especificacin

1Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.

2How Should Economists Choose? [1981], en Ideas, Their Origins, and Their Conse-quences: Lectures to Commemorate the Life and Work of G. Warren Nutter (Washing-

ton: American Enterprise Institute, 1988), p. 74.

[2]

de un modelo matemtico para representar la relacin que se desea investigar. En

la prctica, lo comn es partir de una ecuacin de regresin que postula una re-

lacin causal entre una variable dependiente y una o ms variables indepen-

dientes. (En econometra, una variable es denominada dependiente si podemos

suponer que es funcin de otras variables, y el anlisis de regresin consiste en

explicar los cambios observados en la variable dependiente por medio de los

cambios observados en estas otras variables independientes.) Luego debemos re-

coger datos relevantes de la economa o sector que deseamos describir por medio

del modelo. Como tercer paso, se utilizan estos datos para estimar los parmetros

del modelo. Por ltimo, se realizan pruebas sobre el modelo estimado, a fin de

determinar si constituye una representacin adecuada del fenmeno estudiado, o

si debemos realizar modificaciones en la especificacin original.

En la econometra aplicada, la forma funcional que ms se utiliza en la

prctica para representar la relacin causal entre variables dependientes e

independientes es la funcin lineal, que en su forma ms general puede

expresarse de la siguiente manera:

Y = 0 + 1X1 + 2X2 + ... + kXk + u

donde Y representa el valor de la variable dependiente, X1, X2, ... , Xk representan

los valores de las variables independientes, 0 representa la ordenada en el

origen, 1, 2 , ... , k representan los coeficientes de las respectivas variables

independientes, y u representa un trmino de error.

En un problema de econometra aplicada, deseamos obtener estimaciones de

los k + 1 parmetros (0, 1, 2, ... , k) que contiene esta ecuacin. Consideremos

la interpretacin de estos parmetros, obviando por el momento los problemas de

estimacin. El parmetro 0 es relativamente fcil de interpretar, ya que como se

mencion en el prrafo anterior, es simplemente la ordenada en el origen, o sea,

el valor de Y cuando todas las variables independientes son exactamente cero. Por

otra parte, los coeficientes 1, 2, etc., pueden interpretarse como las derivadas

parciales de Y respecto de las respectivas variables independientes: as, 1 nos

dice cunto cambia Y en respuesta a un cambio de una unidad en X1, suponiendo

que las dems variables independientes no cambian, y los dems coeficientes se

pueden interpretar de la misma manera. Obviamente, es muy importante contar

con estimaciones confiables de la magnitud de estos coeficientes, y el trabajo del

econometrista consiste en proporcionar estas estimaciones.

La presencia del trmino de error (u) en esta ecuacin refleja el hecho de que

los datos econmicos nunca se ajustan a funciones matemticamente exactas, de

modo que funciones simples como la anterior slo pueden considerarse como

aproximaciones a las verdaderas relaciones que se estn investigando. An si la

[3]

verdadera relacin no es lineal, sin embargo, si el rango relevante de variacin de

las variables no es muy grande, entonces la forma lineal podra constituir de todas

maneras una buena aproximacin a la verdadera forma funcional.

El Prof. Johnston ha propuesto tres diferentes razones para justificar el tr-

mino de error en un anlisis economtrico.3 Por un lado, los datos econmicos

siempre contienen errores de medicin, ya que las variables econmicas no pue-

den ser medidas con exactitud. En este sentido, u puede ser interpretado literal-

mente como un error genuino. Por otro lado, en un anlisis aplicado slo pue-

den tomarse en cuenta las variables ms importantes para la explicacin de un fe-

nmeno, y por tanto las ecuaciones en la prctica no pueden incluir todas las va-

riables que pueden afectar una determinada variable dependiente. El efecto neto

de las variables omitidas se refleja en el trmino de error, que en este sentido es

interpretado como un residuo. Por ltimo, y como ya se mencion en el prrafo

anterior, las relaciones econmicas probablemente no seran exactas an si no

existiera ningn error de medicin, y an si todas las variables relevantes son in-

cluidas en el anlisis. En ltima instancia, las variables econmicas dependen de

la accin humana, y existe una cierta indeterminacin en el comportamiento hu-

mano que slo puede ser representada mediante un trmino de perturbacin alea-

torio, cuya varianza es incrementada por los errores de medicin y el efecto resi-

dual de variables omitidas. Se reconoce de entrada, por tanto, que las estimacio-

nes economtricas siempre contienen cierto elemento de incertidumbre. Con tc-

nicas adecuadas, se puede tratar de reducir esta incertidumbre, aunque nunca se

podr eliminar del todo. El estudiante de econometra debe estar siempre cons-

ciente de las limitaciones de sus mtodos de anlisis.

El propsito de este texto es familiarizar al estudiante de economa y/o

administracin con las tcnicas ms comunes que se emplean en el anlisis

economtrico aplicado. Esencialmente, se trata de estimar los coeficientes de

ecuaciones lineales, tales como la ecuacin (1). En el siguiente captulo se discute

el caso ms sencillo, el de una sola variable independiente, que puede ser tratado

con tcnicas algebraicas relativamente simples. El caso ms general de k variables

independientes requiere de tcnicas ms sofisticadas, y por esto es que el Captulo

3 se dedica a un repaso de lgebra matricial, previo a la discusin del modelo de

Regresin Lineal Mltiple, que es el tema del Captulo 4. En el Captulo 5 se

consideran ampliaciones del modelo lineal, como ser la estimacin de formas no-

lineales y el uso de variable binarias, y se discuten algunos problemas especiales

que frecuentemente surgen en el anlisis de regresin, tales como multi-

colinealidad, heteroscedasticidad y el efecto de variables omitidas, mientras que

el importante problema de la autocorrelacin es tratado a fondo en el Captulo 6.

3J. Johnston, Econometric Methods, 2a ed. (Nueva York: McGraw-Hill, 1972), pp. 10-

11.

[4]

Finalmente, el Captulo 7 trata de los problemas especiales que puede plantear la

presencia de retardos en las ecuaciones de regresin.

La lectura de este texto presupone que el estudiante conoce los rudimentos del

clculo, y ciertos elementos de estadstica matemtica. Tambin es conveniente

cierta familiaridad con las computadoras, y particularmente con el manejo de ho-

jas electrnicas tipo Excel. Como lo indica el ttulo, este es un texto para un curso

introductorio de econometra aplicada. Un texto introductorio debe ser selectivo,

y si bien se ha hecho un esfuerzo por incluir la mayora de las herramientas que

en la prctica debe emplear el investigador tpico en la situacin tpica, sin duda

existen algunas lagunas ms o menos importantes. En aras de la brevedad, por

ejemplo, se ha omitido por completo el tema de la estimacin de modelos de

ecuaciones simultneas, de modo que el texto se limita nicamente al caso de

modelos de ecuacin nica, e incluso en este caso slo se discuten los problemas

que ms comnmente se plantean en la prctica. El estudiante que desea especia-

lizarse en este campo podr subsanar estas deficiencias consultando algunos de

los textos citados en la bibliografa.

[5]

Captulo 2

REGRESIN LINEAL SIMPLE

2.1. Introduccin.

En este captulo consideramos el caso ms simple de una regresin lineal, que

es el de una ecuacin lineal con una variable dependiente (Y), y una sola variable

independiente (X). Este modelo bsico puede ser representado como:

Y = 0 + 1X + u

donde 0 y 1 son los parmetros respectivos, y u es el trmino de error. (Siempre

conviene recordar que en econometra las relaciones entre variables no son fun-

ciones exactas, sino que son nicamente relaciones estadsticas. Por esto siempre

es necesario incluir una variable de error en la relacin.)

El parmetro 0, conocido como la ordenada en el origen, nos dice cunto

es Y cuando X = 0. El parmetro 1, conocido como la pendiente, nos dice

cunto aumenta Y por cada aumento de una unidad en X. Estos parmetros son

desconocidos, y nuestro problema consiste en obtener estimaciones numricas de

los mismos a partir de una muestra de observaciones sobre las variables estudia-

das. El mtodo de estimacin ms comnmente empleado en el anlisis de regre-

sin es el mtodo de mnimos cuadrados. La mejor forma de ilustrar la aplica-

cin de este mtodo es por medio de un ejemplo prctico.

Consideremos el Cuadro 2.1, que muestra datos mensuales de produccin y

costos de operacin para una empresa britnica de transporte de pasajeros por ca-

rretera durante los aos 1949-52. (La produccin se mide en trminos de miles de

millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de

libras por mes). Para poder visualizar el grado de relacin que existe entre las va-

riables, como primer paso en el anlisis es conveniente elaborar un diagrama de

dispersin, que es una representacin en un sistema de coordenadas cartesianas

de los datos numricos observados. En el diagrama resultante, en el eje X se mi-

den las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin

mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y

costos de operacin) que corresponde a un mes determinado. Como era de espe-

rarse, existe una relacin positiva entre estas variables: una mayor cantidad de

millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.

[6]

Por otro lado, tambin se aprecia por qu este grfico se denomina un

diagrama de dispersin: no existe una relacin matemticamente exacta entre

las variables, ya que no toda la variacin en el costo de operacin puede ser

explicada por la variacin en las millas-vehculo. Si entre estas variables existiera

una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la

recta de regresin, que tambin ha sido trazada y que muestra la relacin

promedio que existe entre las dos variables. En la prctica, se observa que la

mayora de los puntos no caen directamente sobre la recta, sino que estn

dispersos en torno a ella. Esta dispersin representa la variacin en Y que no

puede atribuirse a la variacin en X.

CUADRO 2.1.

OPERACIONES MENSUALES EN UNA EMPRESA DE TRANSPORTE DE PASAJEROS

Costos Millas- Costos Millas-

Totales Vehculo Totales Vehculo

(miles) (miles) (miles) (miles)

Mes N Y X Mes N Y X

1 213.9 3147 20 243.7 4019

2 212.6 3160 21 262.3 4394

3 215.3 3197 22 252.3 4251

4 215.3 3173 23 224.4 3844

5 215.4 3292 24 215.3 3276

6 228.2 3561 25 202.5 3184

7 245.6 4013 26 200.7 3037

8 259.9 4244 27 201.8 3142

9 250.9 4159 28 202.1 3159

10 234.5 3776 29 200.4 3139

11 205.9 3232 30 209.3 3203

12 202.7 3141 31 213.9 3307

13 198.5 2928 32 227.0 3585

14 195.6 3063 33 246.4 4073

15 200.4 3096

16 200.1 3096

17 201.5 3158

18 213.2 3338

19 219.5 3492

Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A.,

1966), p. 118.

[7]

DIAGRAMA DE DISPERSIN

180

200

220

240

260

280

2500 3000 3500 4000 4500

MILLAS

CO

STO

S

[8]

2.2. Mtodo de Mnimos Cuadrados.

En un anlisis de regresin, tratamos de contestar dos preguntas bsicas:

1. Cul es la relacin estadstica que existe entre la variable dependiente (Y) y la

variable independiente (X)? Para contestar esta pregunta, debemos obtener esti-

maciones de los parmetros de la recta de regresin, es decir, los coeficientes 0 y

1 de la ecuacin (1). En el ejemplo concreto que nos concierne aqu, el estima-

dor de 1 nos ayuda a responder una pregunta muy importante: cunto aumenta,

en promedio, el costo de operacin por cada milla-vehculo adicional?

2. Qu porcentaje de la variacin total en la variable dependiente se puede atri-

buir a la variacin en la variable independiente? Para contestar esta pregunta, de-

bemos comparar la dispersin de los datos en torno a la recta de regresin con la

variacin total en la variable dependiente.

La primera de estas dos preguntas supone encontrar la recta que mejor se

ajusta a los datos observados, lo que obviamente requiere algn criterio de

seleccin. Supongamos que tenemos dos estimadores de los coeficientes 0 y 1,

que denotaremos por b0 y b1, respectivamente, y consideremos el i-simo punto

del diagrama de dispersin, que representa un valor para la variable

independiente (Xi) y un valor para la variable dependiente (Yi). Dado el valor de

Xi, el valor de Y calculado por la recta de regresin ser b0 + b1Xi y la diferencia

entre este valor calculado y el valor realmente observado (Yi) ser el error

correspondiente a la i-sima observacin:

ei = Yi b0 b1Xi

Sea n el nmero total de observaciones en la muestra (en este ejemplo n = 33).

Para cada observacin individual habr un error correspondiente, y el mtodo de

minimos cuadrados consiste en encontrar los valores de b0 y b1 que minimizan

la suma de los errores cuadrados para la muestra en conjunto. Es decir, se trata

de minimizar la variable:

211

0

1

2 )( i

n

i

i

n

i

i XbbYeQ

Ntese que esta expresin es funcin de b0 y b1, ya que diferentes valores para

estos parmetros producirn diferentes conjuntos de errores. En otras palabras, la

suma de los errores cuadrados es funcin de la recta de regresin. Segn el

criterio de mnimos cuadrados, la mejor recta de regresin es la que minimiza

Q. Aplicando un conocido principio del clculo, para minimizar Q calculamos las

derivadas parciales respecto de b0 y de b1, y las igualamos a 0:

[9]

0)(2 11

0

0

i

n

i

i XbbYb

Q

0)(2 11

0

1

ii

n

i

i XXbbYb

Q

Esto nos proporciona un sistema de dos ecuaciones con dos incgnitas. Resol-

viendo el sistema podemos obtener los valores de b0 y b1. En la terminologa del

anlisis de regresin estas ecuaciones son a veces denominadas las ecuaciones

normales. Ntese que la primera de estas ecuaciones equivale a la restriccin

0 ie , mientras que la segunda equivale a la restriccin 0 iieX . Este es un resultado importante que ser utilizado ms adelante en este captulo. (En lo

sucesivo suprimiremos el uso del subndice en las sumatorias, para facilitar la no-

tacin. Se entiende que todas las sumas se efectan sobre i = 1, 2, ... , n.) Simpli-

ficando estas ecuaciones, podemos obtener las siguientes expresiones equivalen-

tes:

(1) XbnbY 10

(2) 210 XbXbXY

La ecuacin (1) tambin puede expresarse como

(3) xbyb 10

donden

Yy

es el promedio aritmtico de los valores para Y, y

n

Xx

es el

promedio aritmtico de los valores para X. Sustituyendo (3) en (2), y reordenando

trminos, obtenemos la siguiente expresin para b1:

(4)

XxX

XyXYb

21

Las frmulas (3) y (4) nos permiten calcular b0 y b1 a partir de los datos observa-

dos. Para el ejemplo de los costos de transporte, tenemos:

1.231,7Y (por tanto 12424.219331.231,7 y )

879,113X (por tanto 8788.450,333879,113 x )

3.020,216,25XY 769,855,3982X

[10]

Sustituyendo estos valores en la frmula (4) obtenemos:

044673.0)879,113)(8788.450,3(769,855,398

)879,113)(12424.219(3.020,216,251

b

Por ltimo, sustituyendo este valor en la frmula (3), juntamente con los valores

para x y y , obtenemos:

963.64)8788.450,3)(044673.0(12424.2190 b

Estos dos parmetros definen la recta de regresin, que podemos expresar como

sigue:

XY 044673.0963.64

(Usamos el smbolo Y para representar el valor calculado de Y segn la recta de

regresin. Es muy importante distinguir claramente entre Y y Y, que es el valor

observado de la variable dependiente.) Segn esta estimacin, y en nmeros

redondos, podemos esperar que en promedio el costo de operacin se incremente

alrededor de 0.045 libras por cada milla-vehculo adicional, mientras que el

costo fijo mensual (i.e., la parte del costo de operacin que no vara con las

millas recorridas) es de aproximadamente 65,000 libras al mes, en promedio.

2.3. Coeficiente de Determinacin (R2).

Habiendo calculado la recta de regresin, podemos ahora tratar de responder a

la segunda pregunta planteada en la seccin anterior: qu porcentaje de la varia-

cin total en el costo de operacin (Y) se debe a la variacin en las millas-

vehculo recorridas (X)? En otras palabras, y en trminos ms generales, cul es

la proporcin de la variacin total en Y que puede ser explicada por la variacin

en X? Para poder contestar esta pregunta, debemos antes descomponer la varia-

cin total en Y en sus dos componentes: la variacin explicada, que se puede

atribuir a la variacin en X, y la variacin no-explicada, que se debe a factores

desconocidos y que representamos por los errores de la regresin.

Por definicin de la recta de regresin, tenemos que para cualquier observa-

cin individual el valor observado de Y ser igual a la Y calculada ms el error:

iii eYY

Ntese que esto implica que ii YY , ya que se recordar que 0ie por la primera ecuacin normal. Esto implica a su vez que el promedio de las Y es

[11]

exactamente igual a y . Si restamos y de ambos lados de esta ecuacin y eleva-

mos al cuadrado tendremos:

iiiiiii eyYeyYeyYyY )(2)(])[()( 2222

Por ltimo, si sumamos sobre todas las observaciones tendremos:

(5) eyYeyYyY )(2)()( 222

donde nuevamente hemos suprimido los subndices para simplificar la notacin.

Consideremos ahora la expresin:

eYeyeYeyY )(

ya que 0e , por la primera ecuacin normal. A su vez, por la definicin de Y tenemos que:

0)( 1010 XebebeXbbeY

ya que 0e por la primera ecuacin normal, y 0Xe por la segunda ecuacin normal. Por tanto, la ecuacin (5) se reduce a la siguiente expresin:

222 )()( eyYyY

En palabras, esto nos indica que la variacin total de la variable dependiente (en

torno a su promedio) se puede descomponer en dos partes: (1) la variacin total

de la Y calculada, y (2) la suma de los errores cuadrados. Puesto que la

variacin de la Y calculada se debe totalmente a la variacin en X, a este primer

componente de la variacin total en Y se le conoce como la variacin explicada,

ya que es la parte de la variacin en Y que puede ser atribuida a la variacin en la

variable independiente. El segundo componente de la variacin en Y, la suma de

los errores cuadrados, representa la variacin no-explicada, ya que es la parte

residual de la variacin en Y que no puede ser atribuida a la variacin en X. Si

expresamos la variacin explicada como porcentaje de la variacin total,

obtenemos el siguiente estadstico importante que se conoce como el coeficiente

de determinacin:

2

2

2

2

2

)(1

)(

)(

yY

e

yY

yYR

Los clculos relevantes para el caso de los costos de transporte se muestran en el

Cuadro 2.2. El valor de 0.9464 para R2 nos indica que la variacin en las millas-

vehculo recorridas explica el 94.64 % de la variacin en el gasto de operacin

mensual. El resto de la variacin observada (5.36 %) se debe a otros factores.

[12]

CUADRO 2.2. CLCULO DE R2 PARA EL CASO DE LOS COSTOS DE TRANSPORTE.

Mes N Y X Y e e2 Y

2

1 213.9 3147 205.5489 8.3511 69.7409 45753.21

2 212.6 3160 206.1297 6.4703 41.8648 45198.76

3 215.3 3197 207.7826 7.5174 56.5113 46354.09

4 215.3 3173 206.7104 8.5896 73.7812 46354.09

5 215.4 3292 212.0265 3.3735 11.3805 46397.16

6 228.2 3561 224.0436 4.1564 17.2757 52075.24

7 245.6 4013 244.2357 1.3643 1.8613 60319.36

8 259.9 4244 254.5552 5.3448 28.5669 67548.01

9 250.9 4159 250.7580 0.1420 0.0202 62950.81

10 234.5 3776 233.6482 0.8518 0.7256 54990.25

11 205.9 3232 209.3461 -3.4461 11.8756 42394.81

12 202.7 3141 205.2809 -2.5809 6.6610 41087.29

13 198.5 2928 195.7655 2.7345 7.4775 39402.25

14 195.6 3063 201.7964 -6.1964 38.3954 38259.36

15 200.4 3096 203.2706 -2.8706 8.2403 40160.16

16 200.1 3096 203.2706 -3.1706 10.0527 40040.01

17 201.5 3158 206.0403 -4.5403 20.6143 40602.25

18 213.2 3338 214.0815 -0.8815 0.7770 45454.24

19 219.5 3492 220.9611 -1.4611 2.1348 48180.25

20 243.7 4019 244.5039 -0.8039 0.6463 59389.69

21 262.3 4394 261.2562 1.0438 1.0895 68801.29

22 252.3 4251 254.8679 -2.5679 6.5941 63655.29

23 224.4 3844 236.6860 -12.2860 150.9458 50355.36

24 215.3 3276 211.3117 3.9883 15.9065 46354.09

25 202.5 3184 207.2018 -4.7018 22.1069 41006.25

26 200.7 3037 200.6349 0.0651 0.0042 40280.49

27 201.8 3142 205.3256 -3.5256 12.4299 40723.24

28 202.1 3159 206.0850 -3.9850 15.8802 40844.41

29 200.4 3139 205.1915 -4.7915 22.9585 40160.16

30 209.3 3203 208.0506 1.2494 1.5610 43806.49

31 213.9 3307 212.6966 1.2034 1.4482 45753.21

32 227.0 3585 225.1157 1.8843 3.5506 51529.00

33 246.4 4073 246.9161 -0.5161 0.2664 60712.96

Sumas 7231.1 113879 7231.0953 (*) 0.0047 663.3451 1596893.53

2557.384,12)12424.219)(33(53.893,596,1)()( 2222 ynYyY

9464.0)2557.384,123451.663(12 R

(*) La suma algebraica de los errores no es exactamente 0 debido a errores de redondeo.

[13]

PREGUNTAS DE REPASO

1. Defina los siguientes conceptos:

a) diagrama de dispersin

b) recta de regresin

c) criterio de mnimos cuadrados

d) coeficiente de determinacin.

2. (Regresin por el Origen) En algunas situaciones, se sabe que la relacin en-

tre Y y X pasa por el origen en el sentido de que 0 = 0. Este sera el caso

cuando Y = 0 por definicin cuando X = 0. En este caso la recta de regresin

sera simplemente Y = 1X + u.

a) Derive la frmula para b1, el estimador de 1, usando el criterio de mni-

mos cuadrados.

b) Ntese que en este caso la suma algebraica de los errores, ie , ya no es igual a 0. Por qu? Qu implicaciones tiene esto para la interpretacin de

R2?

c) En el caso de una regresin lineal convencional, 0 < R2 < 1 por definicin.

Sin embargo, en el caso de una regresin por el origen, se puede dar el caso

de una R2 negativa. Muestre grficamente de qu forma podra darse esta

situacin.

[14]

CASOS APLICADOS

Caso A Elecciones en Florida

En las elecciones presidenciales norteamericanas de Noviembre 2000 los conten-

dientes principales, George Bush y Al Gore, resultaron casi empatados en trmi-

nos de votos electorales, por lo que el resultado dependa crucialmente de los co-

micios en el estado de Florida, donde el escrutinio inicial no dio un resultado de-

finitivo a favor de ninguno de los candidatos. A medida que prosegua el conteo,

surgieron varias anomalas, una de las cuales tuvo que ver con el condado de

Palm Beach. Entre otras cosas, se aleg que en este condado muchos votantes que

deseaban votar por Gore se confundieron, debido al diseo de la papeleta electo-

ral, y votaron por error por un candidato marginal, Pat Buchanan, del Reform

Party. (El condado de Palm Beach tena una papeleta electoral un tanto confusa y

con un formato diferente a la de los dems condados en el estado.)

El cuadro adjunto muestra la votacin obtenida por Buchanan en todos los con-

dados del estado de Florida, y se aprecia claramente que la cantidad de votos ob-

tenidos por ese candidato en Palm Beach fue exageradamente grande en compa-

racin al resto del estado. Presumiblemente, muchos de estos fueron efectivamen-

te votos errneos (y probablemente con la intencin de votar por Gore, debido al

diseo de la papeleta). La pregunta es si se puede obtener una estimacin aproxi-

mada de la cantidad de estos votos errneos.

Como una primera aproximacin, se esperara que la votacin obtenida por Bu-

chanan en un condado determinado estara positivamente relacionada con la can-

tidad de personas afiliadas al Reform Party residentes en ese condado. Este dato

tambin se muestra en el cuadro adjunto.

Con esta informacin:

(a) Construya un diagrama de dispersin, relacionando las dos variables.

(b) Calcule la lnea de regresin (excluyendo la observacin para Palm

Beach), y con los resultados obtenidos, haga una estimacin de la vota-

cin excedente obtenida por Buchanan en Palm Beach.

(c) Tomando en cuenta que segn los resultados oficiales, Bush gan a Gore

en Florida por una diferencia de 537 votos (sobre un total de ms de

6,100,000 votos emitidos), comente sobre las implicaciones de este anli-

sis para el resultado final de las elecciones presidenciales de ese ao.

[15]

RESULTADOS ELECTORALES EN FLORIDA, NOV 2000 REFORM PARTY (P. BUCHANAN)

Registrados Votos por Registrados Votos por

Condado Reform Party Buchanan Condado Reform Party Buchanan

Alachua 91 263 Lake 80 289

Baker 4 73 Lee 113 305

Bay 55 248 Leon 80 282

Bradford 3 65 Levy 17 67

Brevard 148 570 Liberty 0 39

Broward 332 788 Madison 2 29

Calhoun 2 90 Manatee 140 271

Charlotte 41 182 Marion 108 563

Citrus 44 270 Martin 48 112

Clay 40 186 Monroe 62 47

Collier 118 122 Nassau 13 90

Columbia 35 89 Okaloosa 96 267

Dade 217 560 Okeechobe 27 43

Desoto 7 36 Orange 199 446

Dixie 0 29 Osceola 62 145

Duval 150 652 Pasco 167 570

Escambia 130 502 Pinellas 425 1013

Flagler 30 83 Polk 119 532

Franklin 0 33 Putnam 27 148

Gadsden 11 38 Santa Rosa 55 311

Gilchrist 6 29 Sarasota 154 305

Glades 2 9 Seminole 81 194

Gulf 3 71 St.Johns 59 229

Hamilton 3 23 St.Lucie 25 124

Hardee 4 30 Sumter 21 114

Hendry 10 22 Suwannee 7 108

Hernando 43 242 Taylor 3 27

Highlands 24 127 Union 1 37

Hillsborough 299 847 Volusia 176 496

Holmes 2 76 Wakulla 7 46

Indian River 66 105 Walton 22 120

Jackson 8 102 Washington 9 88

Jefferson 2 29

Lafayette 0 10 PALM BEACH 337 3407

Fuentes: Florida Dept. of State, Division of Elections, "County Voter Registration by Party," Oct 10, 2000 (http://election.dos.state.fl.us/pdf/2000voterreg/2000genparty.pdf); ABC News, "Florida: Real-Time County Returns" (www.abcnews.go.com/sections/poli tics/2000vote/general/FL_county.html), visited June 15, 2001.

[16]

Caso B Desempleo y Crecimiento Econmico

En 1962 el economista norteamericano Arthur Okun plante un modelo macro-

econmico para explicar las variaciones en la tasa de desempleo. Segn este mo-

delo, que se conoce hoy en da como la ley de Okun, existe una relacin lineal

entre el cambio en la tasa de desempleo y la tasa de crecimiento del Producto In-

terno Bruto (PIB) real.4 El siguiente cuadro muestra datos sobre desempleo y cre-

cimiento econmico en los Estados Unidos durante el perodo 1972-2011:

Tasa de Crecimiento Tasa de Crecimiento

Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)

1972 5.6 5.3 1992 7.5 3.4

1973 4.9 5.8 1993 6.9 2.9

1974 5.6 -0.6 1994 6.1 4.1

1975 8.5 -0.2 1995 5.6 2.5

1976 7.7 5.4 1996 5.4 3.7

1977 7.1 4.6 1997 4.9 4.5

1978 6.1 5.6 1998 4.5 4.4

1979 5.8 3.1 1999 4.2 4.8

1980 7.1 -0.3 2000 4.0 4.1

1981 7.6 2.5 2001 4.7 1.1

1982 9.7 -1.9 2002 5.8 1.8

1983 9.6 4.5 2003 6.0 2.5

1984 7.5 7.2 2004 5.5 3.5

1985 7.2 4.1 2005 5.1 3.1

1986 7.0 3.5 2006 4.6 2.7

1987 6.2 3.2 2007 4.6 1.9

1988 5.5 4.1 2008 5.8 -0.3

1989 5.3 3.6 2009 9.3 -3.5

1990 5.6 1.9 2010 9.6 3.0

1991 6.8 -0.2 2011 8.9 1.7

Fuente: Economic Report of the President, 2012 (Washington: U.S. Government Printing Office, 2012), Table B-4, Table B-43 (pp. 321, 369).

4A. M. Okun, Potential GNP: Its Measurement and Significance, Proceedings (Busi-ness and Economics Section), American Statistical Association, 1962, pp. 98-104. Para

aplicaciones ms recientes del modelo de Okun vase Paul Krugman, How Fast Can the U.S. Economy Grow? Harvard Business Review, 75 (1997): 123-29 y J. Crespo Cuaresma, Okuns Law Revisited, Oxford Bulletin of Economics and Statistics, 65 (2003): 439-51.

[17]

a) Use estos datos para estimar el modelo de Okun, y explique el significado

de los coeficientes obtenidos.

b) En este problema, el punto donde la recta intersecta al eje X tiene un sig-

nificado econmico interesante. Determine este punto para este caso, y

explique su significado en trminos del modelo de Okun.

Caso C Desempleo y Crecimiento Econmico (cont.)

Como regularidad emprica, la Ley de Okun es una de las relaciones macroeco-

nmicas ms estables que se conocen. Para comprobarlo, vuelva a estimar el mo-

delo de Okun usando datos sobre desempleo y crecimiento econmico en Estados

Unidos durante el perodo 1929-54. (Para el estudio de las fluctuaciones en el

desempleo, este perodo muestral es particularmente interesante, porque incluye

el perodo de la Gran Depresin de los aos 30s.)

Compare con la regresin estimada en el caso anterior, y comente sobre los resul-

tados.

Tasa de Crecimiento Tasa de Crecimiento

Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)

1929 3.2 . 1942 4.7 12.1

1930 8.9 -9.5 1943 1.9 11.2

1931 15.9 -7.0 1944 1.2 7.1

1932 23.6 -15.0 1945 1.9 -1.2

1933 24.9 -2.7 1946 3.9 -10.0

1934 21.7 9.4 1947 3.6 -0.1

1935 20.1 10.4 1948 3.4 3.8

1936 17.0 13.3 1949 5.5 -0.1

1937 14.3 5.9 1950 5.0 8.7

1938 19.0 -4.6 1951 3.0 7.5

1939 17.2 8.1 1952 2.7 3.4

1940 14.6 8.7 1953 2.5 4.4

1941 9.9 15.7 1954 5.0 -1.6

Fuentes: (a) Desempleo Stanley Lebergott, Annual Estimates of Unemployment in the U.S., 1900-1950, en The Measurement and Behavior of Unemployment (Princeton University Press, 1957), Table 1, pp. 215-16; (b) Crecimiento PIB real Economic Report of the President, 1962 (Washington: Government Printing Office, 1962), Table B-3, p. 210.

[18]

Caso D Costos de Impresin

Se espera que mientras mayor sea el nmero de pginas en un libro, mayor sea su

costo de impresin, ceteris paribus. Usted desea estimar la relacin entre el costo

promedio por ejemplar y el nmero de pginas, tomando una muestra de los lti-

mos 10 anuarios publicados por una asociacin acadmica5:

Libro No. Nmero de

Pginas Cantidad de Ejemplares

Costo Total

1 754 12,400 $ 16,253.00

2 677 12,700 $ 15,471.00

3 689 14,000 $ 16,780.00

4 745 14,800 $ 18,914.00

5 675 15,800 $ 19,759.00

6 615 16,000 $ 18,277.00

7 753 17,700 $ 23,440.00

8 698 18,500 $ 23,362.00

9 652 20,000 $ 23,264.00

10 670 22,500 $ 28,405.00

(a) Qu porcentaje de la variacin en el costo promedio se explica por la varia-

cin en el nmero de pginas?

(b) Cul sera su estimacin del costo marginal por ejemplar para un libro de

500 pginas?

5Los datos sobre costos de publicacin fueron tomados de H. F. Williamson, Report of the Secretary for the Year 1966, American Economic Review, 57 (May 1967), p. 690 (Exhibit II).

[19]

Caso E Costos de Operacin en Escuelas Pblicas

En un estudio de los costos de operacin en escuelas pblicas del estado de Wis-

consin,6 el economista John Riew clasific a 109 escuelas secundarias en grupos

segn su tamao (nmero de estudiantes inscritos), y encontr que el costo anual

promedio por alumno se comportaba de la siguiente manera:

Tamao de la Escuela

Nmero de Escuelas

Costo Promedio por Alumno

143-200 6 $ 531.90

201-300 12 $ 480.80

301-400 19 $ 446.30

401-500 17 $ 426.90

501-600 14 $ 442.60

601-700 13 $ 413.10

701-900 9 $ 374.30

901-1100 6 $ 433.20

1101-1600 6 $ 407.30

1601-2400 7 $ 405.60

Total 109

Use estos datos para obtener una estimacin aproximada del costo marginal por

alumno en escuelas de este tipo.

6John Riew, Economies of Scale in High School Operation, Review of Economics and

Statistics, 48 (1966), p. 282 (Table 2).

[20]

Captulo 3

REPASO DE ALGEBRA MATRICIAL

En el captulo anterior se discuti el caso ms simple de una regresin lineal con

una sola variable independiente. Por cierto que la aplicabilidad prctica de este

modelo simple es relativamente limitada, ya que generalmente las variaciones en

la variable dependiente no obedecen a un solo factor, sino que ms bien existen

varios factores diferentes que pueden estarla influenciando.

En el caso ms general de k diferentes variables independientes, nuestro pro-

blema consiste en estimar los coeficientes de la siguiente ecuacin:

Y = 0 + 1X1 + 2X2 + ... + kXk + u

Se puede apreciar que en este caso la aplicacin del criterio de mnimos cuadra-

dos por medio de mtodos algebraicos sera sumamente tedioso y complicado.

Afortunadamente, por medio de lgebra matricial se puede obtener una solucin

bastante compacta por medio de unas pocas frmulas muy simples. Por tanto, en

este captulo repasaremos los elementos del lgebra de matrices que sern reque-

ridos en el resto del texto.

3.1. Matrices.

Una matriz es una coleccin rectangular de elementos, ordenados en filas y

columnas. En su forma ms general, una matriz tiene la siguiente forma:

A =

mnmm

n

n

aaa

aaa

aaa

...

......

......

...

...

21

22221

11211

donde aij (el elemento caracterstico de la matriz) es el elemento ubicado en la

fila i y la columna j. Si una matriz tiene m filas y n columnas, se dice que es de

[21]

orden m por n ( nm ). La expresin [aij] tambin se usa para denotar a la ma-

triz que tiene aij como elemento caracterstico. En este caso, A = [aij].

Un vector es un caso especial de una matriz que tiene una sola fila (vector

fila) o una sola columna (vector columna). En lo que sigue, usaremos letras

maysculas para denotar matrices, y letras minsculas para denotar vectores.

3.2. Operaciones con Matrices.

a) Igualdad de dos matrices Se dice que dos matrices A y B son iguales cuan-

do son del mismo orden y aij = bij para todo i, j. Esto es, las matrices deben ser

iguales, elemento por elemento.

b) Suma y resta de matrices Si A y B son del mismo orden, entonces A + B

ser una nueva matriz C tal que cij = aij + bij. Esto es, se suman los elementos co-

rrespondientes de las dos matrices. En forma similar, A B ser una nueva matriz

D tal que dij = aij bij, esto es, se restan los elementos correspondientes de las dos

matrices.

Ejemplo.

A

3 4 1

0 1 2

1 2 0

B

0 0 1

5 6 4

4 1 6

A B

3 4 2

5 7 6

5 3 6

A B

3 4 0

5 5 2

3 1 6

c) Multiplicacin escalar Si es una constante, entonces el producto escalar

de por una matriz A ser tal que A = [aij]. Esto es, se multiplica cada ele-

mento de A por .

d) Multiplicacin de matrices Si A es una matriz de orden nm , y B es una

matriz de orden pn , entonces el producto AB ser una matriz C de orden

pm con elemento caracterstico:

n

k

kjikij bac1

[22]

Es decir, el elemento en la i-sima fila y j-sima columna de AB se encuentra

multiplicando los elementos de la i-sima fila de A por los elementos correspon-

dientes de la j-sima columna de B, y sumando los productos.

Ejemplo.

A

3 4

0 1

1 2

B 5 6

4 1AB

31 22

4 1

13 8

Ntese que para poder multiplicar dos matrices, el nmero de columnas de la

primera matriz debe ser igual al nmero de filas de la segunda matriz (caso con-

trario, el producto no est definido). Cuando se multiplican dos matrices, la ma-

triz resultante tendr el mismo nmero de filas que la primera matriz, y el mismo

nmero de columnas que la segunda matriz. Es muy importante el orden en que

se multiplican las matrices, ya que en el caso de lgebra matricial el orden de los

factores s altera el producto: BA generalmente no ser igual a AB, y podra no

existir.

3.3. Teoremas sobre Matrices.

(i) Ley Conmutativa de la Suma.

A + B = B + A

Este resultado se desprende directamente de la definicin de la suma de ma-

trices.

(ii) La Multiplicacin de Matrices no es Conmutativa.

Como ya se mencion en la seccin anterior, en general AB BA (excepto en

el caso algunas matrices especiales). De hecho, a veces alguno de estos productos

ni siquiera estar definido. Los dos productos AB y BA existirn si las matrices

son de orden nm y mn , respectivamente. En ese caso, el primer producto se-

r de orden mm , y el segundo de orden nn . (An en el caso de que los dos

productos sean del mismo orden, en general no sern iguales.)

(iii) Ley Asociativa de la Suma.

(A + B) + C = A + (B + C)

(iv) Ley Asociativa del Producto.

(AB)C = A(BC)

[23]

(v) Ley Distributiva.

A(B + C) = AB + AC

(A + B)C = AC + BC

3.4. Clases Especiales de Matrices.

Matriz Cuadrada: Se dice que una matriz es cuadrada si el nmero de filas

es igual al nmero de columnas (m = n).

Matriz Diagonal: Es una matriz cuadrada que tiene elementos, no necesaria-

mente iguales, a lo largo de su diagonal principal (los elementos aii), y ceros en

el resto. Obviamente, slo las matrices cuadradas tienen una diagonal principal.

Matriz Identidad: Es una clase especial de matriz diagonal, que slo tiene

unos en la diagonal principal. Esta es una matriz muy importante, y se representa

por el smbolo especial I. Se comprueba fcilmente que si se multiplica cualquier

matriz A por una matriz identidad del orden apropiado, entonces AI = A y IA =

A.

Matriz Escalar: Es una matriz diagonal que tiene la misma constante en la

diagonal principal. Si la constante es , entonces la matriz escalar se puede repre-

sentar por I.

Matriz Idempotente: Es una matriz cuadrada tal que AA = A.

3.5. Traza de una Matriz Cuadrada.

La traza de una matriz cuadrada de orden n, tr(A), se define como la suma

de los elementos de su diagonal principal:

tr(A) =

n

i

iia1

Es obvio que tr(A + B) = tr(A) + tr(B), y tr(A B) = tr(A) tr(B).

La traza tambin tiene la siguiente propiedad importante: Si el producto de dos

matrices A y B es una matriz cuadrada, entonces tr(AB) = tr(BA).

[24]

Demostracin. Sea C = AB, donde A es de orden nm , y B es de orden mn .

Entonces el elemento caracterstico de C ser:

n

k

kjikij bac1

tr(AB) =

m

i

n

k

n

k

m

i

ikkikiik

m

i

ii abbac1 1 1 11

= tr(BA)

ya que

m

i

ikki ab1

es el elemento dkk de D = BA.

Corolario: tr(ABC) = tr(BCA) = tr(CAB).

3.6. Transposicin de Matrices.

A' (A transpuesta) es la matriz que resulta de A tras intercambiar filas por

columnas. El elemento caracterstico de A' es a'ij = aji. Por ejemplo,

A =

3813

214

12231

A' =

321

8122

13431

Si A' = A, se dice que A es una matriz simtrica. (Obviamente, para que una

matriz sea simtrica, tiene que ser cuadrada.)

Teoremas sobre Transpuestas.

3.6.1. (A')' = A

3.6.2. (A + B)' = A' + B'

3.6.3. (AB)' = B'A'

Demostracin. Si C = AB, entonces

n

k

kjikij bac1

. Por tanto, el elemento carac-

terstico de C' ser

n

k

kjik

n

k

jkki

n

k

kijkjiij ababbacc111

'''

que es precisamente el elemento caracterstico del producto B'A'.

[25]

Corolario. (ABC)' = C'B'A'

Otro Corolario. AA' y A'A son simtricas. (Nota: En general AA' A'A, pero

sus trazas son siempre iguales. Por qu?)

3.7. Matriz Inversa.

Se dice que A1

es la inversa de una matriz cuadrada A, si A1A = AA1 = I.

Propiedades de la Inversa.

3.7.1. (A1

)1

= A

3.7.2. (AB)1

= B1

A1

Demostracin. AB(B1

A1

) = A(BB1

)A1

= AA1

= I

3.7.3. (A')1

= (A1

)'

Demostracin. Se sabe que

(1) A'(A')1

= I

Transponiendo (1) tenemos ((A')1

)'A = I. Por tanto,

(2) ((A')1

)' = A1

Transponiendo (2) obtenemos el teorema.

Corolario. Si A es simtrica, entonces A = A', y por tanto (A1

)' = A1

(la inversa

de una matriz simtrica es simtrica).

[26]

PREGUNTAS DE REPASO

1. Defina los siguientes trminos:

a) Matriz cuadrada

b) Matriz identidad

c) Diagonal principal

d) Matriz simtrica

e) Matriz idempotente

f) Traza de una matriz

2. Construya algunos ejemplos numricos para verificar los teoremas sobre

matrices enunciados en las secciones 3.3, 3.6 y 3.7.

3. Expanda (A + B)(A B) y (A B)(A + B). Son iguales? Por qu no?

4. Compruebe que para una matriz X de orden kn , las siguientes matrices son

idempotentes:

a) X(X'X)1

X'

b) I X(X'X)1X'

5. Compruebe que para una matriz X de orden kn , tr[I X(X'X)1X'] = n k.

6. Si y es un vector 1n , y X es una matriz kn , cul es el orden de la si-guiente expresin?

(X'X)1

X'y

[27]

Captulo 4

REGRESIN LINEAL MLTIPLE

En este captulo discutiremos el modelo general de regresin mltiple. En la

primera seccin derivamos el estimador mnimo-cuadrtico para el caso general

de k variables independientes, siguiendo un razonamiento anlogo al del Captulo

2. En la segunda seccin introducimos el tema de la inferencia estadstica en la

regresin lineal. Este es un tema nuevo, que no ha sido discutido en captulos

anteriores. En la tercera seccin comentamos sobre la interpretacin del

coeficiente de determinacin (R2) en el contexto de regresiones mltiples.

Finalmente, en la cuarta seccin ilustramos la aplicacin de los resultados

analticos obtenidos por medio de un ejemplo numrico.

4.1. Vector Mnimo-Cuadrtico.

4.1.1. Planteo del Problema.

Expresamos una variable dependiente Y como funcin lineal de k variables

independientes X1, X2, ... , Xk:

Y = 0 + 1X1 + 2X2 + ... + kXk + u

donde 0, 1, 2, ... , k son constantes desconocidas, y u es una variable aleatoria

que refleja la variacin en Y que no puede atribuirse a las variables independien-

tes (o explicativas). El problema consiste en obtener estimaciones de los k + 1

coeficientes en este modelo mediante anlisis de n observaciones conjuntas sobre

la variable dependiente y las k variables independientes.

Ntese que podemos representar las observaciones sobre Y como un vector y

de orden 1n , mientras que las observaciones sobre las X podemos representar-

las como una matriz X de orden kn :

[28]

Observacin

N Y X1 X2 .... Xk

1 Y1 X11 X12 .... X1k

2 Y2 X21 X22 .... X2k

3 Y3 X31 X32 .... X3k

. . . . .... .

. . . . .... . i Yi Xi1 Xi2 .... Xik

. . . . .... .

. . . . .... .

n Yn Xn1 Xn2 .... Xnk

y X

Se comprueba adems que si la matriz X se aumenta con una columna de 1s

(para poder tomar en cuenta 0, la ordenada en el origen), entonces el modelo

lineal para las n observaciones se puede expresar como:

y = X + u

donde es un vector de orden 1)1( k cuyos elementos son los coeficientes del

modelo lineal (0, 1, 2, ... , k), X es una matriz de orden )1( kn de obser-

vaciones sobre la variables independientes (incluyendo la columna de 1s) y u es

un vector-columna de orden 1n cuyos elementos (u1, u2, ... , un) consisten de n variables aleatorias idnticamente distribuidas.

Dado un vector b de estimadores de los coeficientes, el vector y tambin pue-

de expresarse como:

y = Xb + e

donde e es un vector de orden 1n cuyos elementos (e1, e2, ... , en) son los resi-

duos obtenidos de la ecuacin estimada. (Esto es, e = y Xb, donde Xb es la Y

calculada. No debe confundirse b con , ni e con u.)

[29]

4.1.2. Estimacin de b.

El vector b que minimiza la suma de los errores cuadrados (e'e) se llama el

vector mnimo-cuadrtico. Por definicin,

e'e = 2

22110

2 )...( kk XbXbXbbYe

(Nuevamente, suprimimos los sub-ndices i para facilitar la notacin.) Para

minimizar e'e, derivamos respecto de cada uno de los k + 1 coeficientes, e

igualamos a cero. As, obtenemos las ecuaciones normales:

(1) 0)...(2'

22110

0

kk XbXbXbbY

b

ee

(2) 0)...(2'

122110

1

XXbXbXbbY

b

eekk

(3) 0)...(2'

222110

2

XXbXbXbbY

b

eekk

. . . . . .

(k + 1) 0)...(2'

22110

kkk

k

XXbXbXbbYb

ee

Estas k + 1 ecuaciones tambin pueden expresarse como

(1) 0e

(2) 01 eX

(3) 02 eX . . . . . .

(k + 1) 0 eX k

Se puede comprobar fcilmente que en trminos de nuestra notacin matricial

este sistema de k + 1 ecuaciones puede expresarse como

X'e = 0

[30]

donde 0 es un vector de ceros de orden 1)1( k . Puesto que e = y Xb, esto

tambin lo podemos expresar como

X'(y Xb) = 0

Por tanto,

X'Xb = X'y

Multiplicando ambos lados por (X'X)1

obtenemos el vector mnimo-cuadrtico:

b = (X'X)1

X'y

Los k + 1 elementos de este vector-columna (b0, b1, b2, ... , bk) son los respectivos

estimadores de 0, 1, 2, ... , k.

En la prctica el investigador no calcular el vector b directamente usando es-

ta frmula, ya que existen programas de computadora que hacen todos los clcu-

los requeridos con mayor rapidez y precisin que lo que podra hacerlo una per-

sona armada nicamente de una calculadora manual. Es importante, sin embargo,

tener una idea clara de qu es lo que hace la computadora cuando se corre un pro-

grama de regresin, y adems esta expresin nos ser muy til ms adelante para

propsitos analticos.

4.2. Inferencia Estadstica en la Regresin Lineal.

4.2.1. Supuestos Bsicos.

El objetivo de esta seccin es desarrollar procedimientos para testar hiptesis

sobre los coeficientes del modelo lineal. Para esto, debemos hacer ciertas suposi-

ciones sobre el comportamiento estadstico de los errores. Los dos supuestos ms

importantes en el modelo clsico de regresin lineal son los siguientes:

Supuesto No. 1: ui tiene una distribucin N(0, 2) para toda i.

En palabras, suponemos que todas las ui tienen una misma distribucin normal,

con la misma media (0) y la misma varianza (2). Una implicacin de este su-

puesto es que E(u) = 0, es decir, que el valor esperado del vector u es un vector

de ceros.

Supuesto No. 2: E(uu') = 2I.

Ntese que el elemento caracterstico de la matriz uu' es uiuj. Por tanto, suponer

que el valor esperado de uu' es una matriz escalar equivale a suponer lo siguiente:

[31]

(1) E(uiuj) = 0 para i j, o sea, todos los elementos no-diagonales de E(uu') son

cero. Esto implica que las ui son independientes unas de otras.

(2) E(ui2) = 2, o sea, todos los elementos de la diagonal de E(uu') son iguales a

2. Esto implica que cada ui tiene la misma varianza 2. (Si suponemos que la

media de ui es 0, entonces E(ui2) ser la varianza de ui.)

4.2.2. Valor Esperado y Matriz de Varianza-Covarianza de b.

Puesto que segn el modelo lineal y = X + u, entonces

b = (X'X)1

X'y = (X'X)1

X'(X + u) = + (X'X)1X'u

Por tanto, el valor esperado del vector b ser

E(b) = + E[(X'X)1X'u] = + (X'X)1X'E(u) =

dado que E(u) = 0. Este es un resultado muy importante, ya que significa que b es

un estimador insesgado de . Adems, puesto que b = (X'X)1X'u, entonces

(b )( b )' = (X'X)1X'uu'X(X'X)1

(Recurdese que X'X es una matriz simtrica.) Si obtenemos el valor esperado de

esta expresin y aplicamos el supuesto No. 2, tendremos:

E[(b )( b )'] = (X'X)1X'E(uu')X(X'X)1 = (X'X)1X'2IX(X'X)1

= 2(X'X)1

Ntese que el elemento caracterstico de E[(b )(b )'] es E[(bi i)(bj j)],

que es la covarianza entre bi y bj. Para i = j (los elementos de la diagonal de esta

matriz) esto se reduce a E[(bi i)2], que es la varianza de bi. Por tanto, a esta

matriz se le llama la matriz de varianza-covarianza del vector b.

4.2.3. Estimacin de 2 y 2(X'X)1.

En general, no conocemos 2, pero podemos obtener un estimador insesgado

de la siguiente manera. Por definicin, el vector de residuos de la regresin esti-

mada ser

e = y Xb = y X(X'X)1X'y = [I X(X'X)1X']y

= [I X(X'X)1X'](X + u) = [I X(X'X)1X']u

Ntese que la expresin entre corchetes es una matriz simtrica idempotente, y

que la traza de esta matriz es la diferencia entre las trazas de dos matrices identi-

dad:

[32]

tr[I X(X'X)1X'] = tr(I) tr[X(X'X)1X'] = tr(I) tr[(X'X)1X'X] = n (k + 1)

ya que la primera matriz identidad es de orden n, y la segunda es de orden (k + 1).

Adems, la suma de los errores cuadrados (e'e) es de orden 11 , y por tanto ser igual a su traza:

e'e = tr(e'e) = tr(u'[I X(X'X)1X']u) = tr([I X(X'X)1X']uu')

= tr(uu'[I X(X'X)1X'])

Por ltimo, puesto que la traza es una sumatoria,

E(e'e) = E[tr(uu'[I X(X'X)1X'])] = tr[E(uu')(I X(X'X)1X')]

= tr(2I[I X(X'X)1X'] ) = 2tr[I X(X'X)1X'] = 2(n k 1)

Por tanto, puede obtenerse un estimador insesgado de 2 calculando:

11

'2

2

kn

e

kn

eeS

i

y el estimador insesgado de 2(X'X)1 ser S2(X'X)1. Los elementos de la diago-

nal de esta matriz cuadrada de orden (k + 1) son los estimadores de las varianzas

de los coeficientes del vector b: el primer elemento de la diagonal de S2(X'X)

1 es

la varianza muestral de b0, el segundo elemento es la varianza muestral de b1,

etc.7

4.2.4. Testado de Hiptesis.

Supongamos que se desea testar la siguiente hiptesis nula sobre uno de los

coeficientes de regresin:

H0: i = * (donde * es algn valor numrico). Para testar esta hiptesis, se cal-

cula el siguiente estadstico:

)(

*

i

i

bs

b

7Esto es para el caso general de un modelo que incluye una ordenada en el origen (0).

Si la regresin es por el origen (ver Pregunta de Repaso No. 2 del Captulo 2), enton-

ces tr[I X(X'X)1X'] = n k, ya que la matriz X slo tiene k columnas, y el denomina-

dor en la frmula para S2 es n k. El primer elemento de la diagonal de S2(X'X)1 es la

varianza muestral de b1, el segundo elemento es la varianza muestral de b2, etc.

[33]

donde s(bi) es la desviacin estndar de bi, o sea, la raz cuadrada del elemento

correspondiente de la diagonal de S2(X'X)

1. Este estadstico tiene una distribu-

cin t con n k 1 grados de libertad.8 Por tanto, si la prueba es a dos colas

con un nivel de significancia de 5 %, rechazamos H0 si el valor absoluto de este

estadstico es mayor que el valor crtico de t para 2.5 % y n k 1 grados de li-

bertad. (Si la prueba es a una cola, usamos el valor crtico para 5 %.)

Muchas veces, la hiptesis nula que queremos testar en un anlisis de

regresin es H0: i = 0, o sea, la hiptesis de que la variable independiente Xi no

tiene realmente ningn efecto sobre Y. En este caso, para testar esta hiptesis

simplemente se calcula )( i

i

bs

b y se compara con el valor crtico relevante para la

distribucin t. En la terminologa del anlisis de regresin, esta razn se conoce

como la razn t, y si rechazamos la hiptesis nula podemos concluir que Xi s

tiene un efecto sobre Y. A menudo esto se expresa diciendo que Xi es una variable

significativa, o que su coeficiente (i) es significativamente mayor (o menor)

que 0.9

4.3. Coeficiente de Determinacin (R2).

En un anlisis de regresin mltiple, el coeficiente de determinacin (R2) se

define igual que en el caso de la regresin simple, y tiene la misma interpretacin,

aunque debe tomarse en cuenta que en este caso lo que estamos midiendo es el

porcentaje de la variacin en Y que se explica por la variacin conjunta de las

variables independientes. (El estudiante podr comprobar tambin que la R2

en

una regresin mltiple es igual a la R2

de la regresin simple de Y contra .Y Esta

segunda interpretacin es quiz ms fcil de visualizar.)

En general, no podemos descomponer la variacin explicada en trminos de

cunto aporta cada variable independiente individual, pero existe un caso especial

donde esto s es posible. Si la correlacin entre las diferentes variables explicati-

vas es exactamente cero, entonces la R2 de la regresin mltiple ser igual a la

8Para una demostracin rigurosa, vase Johnston, Econometric Methods, pp. 135-38.

(Por lo expuesto en la Nota 7, una regresin por el origen cuenta con n k grados de libertad.)

9A menudo los econometristas usan la siguiente regla emprica para decidir si una varia-

ble es significativa en una regresin lineal: Concluir que la variable es significativa si su coeficiente estimado es por lo menos dos veces mayor, en valor absoluto, que su des-

viacin estndar (o sea, si el valor absoluto de la razn t es mayor que 2). Cmo jus-tificara usted el empleo de este criterio?

[34]

suma de las R2 de las regresiones simples de cada variable explicativa contra Y.

Es muy raro que suceda esto en la prctica, pero si los datos provienen de un ex-

perimento controlado entonces es posible disear el experimento en forma tal que

los datos muestrales tengan esta propiedad.

4.3.1. Comparando dos o ms regresiones en trminos de R

2.

Un problema que surge cuando se calculan diferentes regresiones para una

misma variable dependiente es que los valores de R2 no son estrictamente compa-

rables. Cuando se agregan variables independientes a una regresin, el resultado

es que la R2 necesariamente aumenta, ya sea que las variables adicionales sean

significativas o no. Recordemos que R2 se calcula por medio de la frmula:

2

2

2

)(1

yY

eR

Supongamos que tenemos dos regresiones: una primera regresin con k varia-

bles independientes (Regresin 1), y una segunda regresin que contiene, adems

de estas variables, una variable adicional Xk+1 (Regresin 2). Puesto que 2)( yY ser igual para las dos regresiones, el efecto sobre R2 depender de

los que sucede con .2e Para la Regresin 2 la suma de los errores cuadrados necesariamente ser menor o igual que para la Regresin 1, no importando si Xk+1

es significativa o no. Para entender por qu, notemos que si aumenta 2e cuan-do se agrega Xk+1, entonces significa que los coeficientes estimados para la Re-

gresin 2 no minimizan ,2e ya que existe otro vector de coeficientes que pro-ducir una menor suma de errores cuadrados: este sera un vector que mantiene

los coeficientes de la Regresin 1, y asignando 0 para el coeficiente de Xk+1. Por

tanto 2e no puede ser mayor para la Regresin 2, y slo ser igual en las dos regresiones si el coeficiente estimado de Xk+1 es exactamente 0, lo cual es muy

poco probable que suceda en la prctica ya que incluso si la variable adicional no

tiene realmente ningn efecto sobre Y, su coeficiente estimado ser pequeo pero

no 0, debido a la variacin muestral. En la prctica, entonces, 2e siempre ser menor para la Regresin 2, y por tanto R

2 siempre aumentar.

4.3.2. R2 ajustada (

2

R ).

Esto significa que R2 no es, por s sola, una buena gua para comparar diferen-

tes regresiones, ya que este coeficiente siempre aumentar si se agregan ms va-

riables independientes, aun cuando stas no son significativas. Debido a esto,

Henri Theil propuso una modificacin a la frmula convencional, para compensar

[35]

por este efecto cuando se comparan regresiones diferentes.10

En el ajuste propues-

to por Theil se toma en cuenta el hecho de que, para un tamao de muestra de-

terminado, ms variables explicativas en una regresin implican menos grados de

libertad para la estimacin. A diferencia de la R2 convencional, que compara la

variacin no-explicada (suma de los errores cuadrados) con la variacin total en

Y, la R2 ajustada (que se representa por medio del smbolo

2

R ) compara la va-

rianza de los errores con la varianza de Y:

2

2

2

2

2

)(1

11

1

)

11)(

)(1

yY

e

kn

n

n

yY

kn

e

YVar

eVarR

Esto tambin puede expresarse como:

)1(1

11 2

2

Rkn

nR

2

R puede ser negativa, y su valor siempre ser menor o igual que la R2 conven-

cional.11

Adems, a diferencia de la R2 convencional,

2

R puede aumentar o dis-

minuir cuando se agregan ms variables independientes. La direccin del efecto

depender de si la reduccin en 2e compensa o no la reduccin en los grados de libertad debido a la inclusin de la variable adicional.

4.4. Aplicacin Costos Administrativos en la Banca Comercial.

Ahora podemos finalmente realizar un ejemplo numrico para ilustrar la apli-

cacin de estos conceptos. Como ya se mencion antes, en la prctica la mayor

parte de los clculos en un anlisis de regresin se realizan por medio de un pro-

grama de computacin, por lo que no viene al caso ilustrar numricamente los

clculos matriciales. El ejemplo concreto que se desarrolla a continuacin est

basado en un estudio estadstico de los costos de administracin en los bancos

comerciales guatemaltecos durante el ao 1991. Los resultados de este anlisis

pueden proporcionar una buena indicacin sobre el comportamiento de los costos

para el banco tpico en Guatemala, aunque la naturaleza misma de un estudio

10

Henri Theil, Principles of Econometrics (New York: John Wiley & Sons, 1971),

pp. 178-79.

11

Por lo expuesto en las Notas 7 y 8, cuando la regresin es por el origen el denomina-dor correcto para el factor de ajuste es n k.

[36]

de este tipo no puede arrojar resultados estrictamente aplicables a cada uno de los

bancos considerados individualmente. No obstante, a pesar de esto, un estudio de

este tipo de todos modos puede ser muy til, porque los resultados pueden pro-

porcionar una norma o estndar contra el cual se pueden comparar los costos

administrativos en un banco particular. En ausencia de un estudio de este tipo, un

banco no tiene realmente un criterio para determinar si sus costos son acepta-

bles o normales, ya que los bancos difieren enormemente en cuanto a cantidad

de activos, nmero de sucursales, etc., por lo que el nico criterio objetivo sera el

de compararse con un banco de similar tamao y caractersticas. Sin embargo, si

se pudiera obtener una frmula emprica que permita calcular un valor normal

o promedio para los costos administrativos en funcin de unas pocas variables

que permitan una medicin numrica, entonces se podra fcilmente determinar si

el banco en cuestin est mejor o peor que el banco tpico a ese respecto.

(Estos resultados tambin podran servir para comparar el comportamiento de los

costos administrativos en los bancos comerciales con los de otros tipos de institu-

ciones financieras.) La variable dependiente para el anlisis ser el nivel anual de

los Gastos Generales y de Administracin en los diferentes bancos del sistema.

Si se observa el Cuadro 4.1, se podr apreciar que estos costos (que en lo sucesi-

vo llamaremos simplemente costos administrativos) varan enormemente de un

banco a otro. Nuestro problema consistir, por tanto, en encontrar una lista de va-

riables que nos permitan explicar, estadsticamente, esta variacin observada.

4.3.1. Primera Aproximacin.

A un nivel muy elemental, por supuesto, dicha variacin no tiene realmente

ningn misterio, ya que los bancos varan mucho en cuanto a su tamao, y es ms

bien de esperarse que los bancos ms grandes tengan tambin costos adminis-

trativos ms altos por el slo hecho de ser ms grandes. Nuestra tarea ser tradu-

cir esta nocin intuitiva en un concepto operativo, y para esto debemos tratar de

expresar el tamao de un banco en trminos de alguna variable numrica. En

este estudio, la variable escogida para este propsito fue el Total de Activos del

banco. Con esto, y como una primera aproximacin para el anlisis, la recta de

regresin ser la siguiente:

(1) Yi = 0 + 1Xi + ui

donde Yi = Costos Administrativos del banco i, Xi = Activos Totales del banco i.

Los Activos Totales de un banco son una buena medida de su tamao, aun-

que no es la nica medida posible, por lo que la decisin de adoptar esta medida

especfica es en cierto modo arbitraria. Por otro lado, el empleo de los Activos

Totales como variable independiente en la regresin facilita en cierto modo la in-

terpretacin econmica de los coeficientes:

[37]

CUADRO 4.1. BANCOS COMERCIALES PRIVADOS EN GUATEMALA (1991).

Millones de Quetzales

Gastos Generales y de Admin.

Total Activo Promedio

Agencias

G&T 48.8 831.5 30

INDUSTRIAL 43.2 1204.0 18

OCCIDENTE 39.4 1153.5 20

del CAFE 29.8 499.6 25

del AGRO 26.2 466.6 30

AGRICOLA MERC. 24.8 522.3 12

INTERNACIONAL 24.0 376.6 12

INMOBILIARIO 21.5 431.3 20

CONSTRUBANCO 18.3 282.2 10

del EJERCITO 15.6 311.8 13

LLOYDS 14.3 284.5 7

METROPOLITANO 12.9 339.0 8

BANEX 12.5 462.8 3

del QUETZAL 8.8 205.0 12

PROMOTOR 6.0 162.4 3

CITIBANK 5.9 45.8 1

CONTINENTAL 3.6 113.7 4

REFORMADOR 1.7 237.3 7

UNO 1.0 170.8 5

Fuente: Superintendencia de Bancos, Boletn de Estadsticas Bancarias (Guatemala, 4 Trimestre, 1992).

(a) El coeficiente 1 nos indica en cunto incrementa el costo administrativo

anual por cada quetzal adicional de activos que maneja el banco. En otras pala-

bras, este coeficiente nos mide el costo marginal de administrar un quetzal adi-

cional de activos. Obviamente, este es un dato sumamente interesante para los

tomadores de decisiones en el sector bancario. Esperamos naturalmente que este

coeficiente sea positivo.

(b) Por otro lado, el coeficiente 0, que matemticamente es simplemente la or-

denada en el origen (o sea, el valor de Y cuando X = 0), nos estara indicando la

parte del costo administrativo que no vara directamente con el nivel de los acti-

vos del banco. En otras palabras, esta es la parte del costo administrativo que po-

dra interpretarse como un costo fijo. Esperamos tambin que este coeficiente

sea positivo.

[38]

4.3.2. Segunda Aproximacin.

Un posible defecto de la ecuacin (1) es la suposicin de que todos los bancos

tienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 4.1

que los bancos comerciales varan mucho en cuanto al nmero de sucursales o

agencias que operan, y este es un factor que seguramente debe afectar el nivel de

los costos administrativos. Por esto, como una segunda aproximacin, se estimar

la siguiente regresin adicional:

(2) Y = 0 + 1X1 + 2X2 + u

donde X1 = Activos Totales del banco i, X2 = Nmero de Agencias del banco i.

(De aqu en adelante suprimiremos el uso del sub-ndice i, para facilitar la nota-

cin. Se entiende que cada observacin corresponde a un banco diferente.) En es-

ta segunda regresin, el coeficiente 2 nos est midiendo el incremento en el cos-

to administrativo anual que resulta de manejar una agencia adicional. Esperamos,

por tanto, que este coeficiente sea positivo. (Naturalmente que este coeficiente

tendra que interpretarse como un costo promedio por agencia, ya que ninguna

agencia es exactamente igual que otra, por lo que difcilmente pueden tener todas

el mismo costo.) Los dems coeficientes tienen la misma interpretacin que en la

ecuacin (1).

4.3.3. Datos.

Antes de reportar los resultados de las regresiones, es necesario y conveniente

hacer las siguientes aclaraciones sobre los datos:

(a) Se tom la decisin de incluir en la muestra nicamente a los bancos comer-

ciales privados, ya que los bancos estatales tienen peculiaridades especiales que

posiblemente resulten en un comportamiento diferente en cuanto a sus costos

administrativos. (Puesto que lo que nos interesa es investigar el comportamiento

de los costos administrativos en el banco comercial tpico, incluir a los bancos

estatales podra resultar en una distorsin de los resultados, ya que dichos bancos

no son tpicos a ese respecto.)

(b) Podra existir un problema de comparabilidad de los datos sobre Costos

Administrativos y Activos Totales, dada la manera como se reportan los datos en

la fuente original, ya que las cifras sobre Costos Administrativos corresponden a

los gastos anuales efectuados durante un ao determinado, mientras que las cifras

sobre Activos Totales corresponden a los valores al 31 de Diciembre de cada ao.

No est del todo claro que la cifra correspondiente al final del ao sea la ms

adecuada para propsitos del anlisis, y probablemente sera mejor contar con una

[39]

cifra para los Activos Totales que represente algn valor promedio durante el ao.

Para evitar estos problemas, se opt por calcular un promedio aritmtico de los

Activos Totales al 31 de Diciembre de 1991, y al 31 de Diciembre del ao

anterior. Esta cifra promedio, si bien no es la solucin perfecta para este

problema, probablemente se acerca ms al nivel promedio de los Activos Totales

en cada ao, y en todo caso ser mejor que simplemente usar la cifra de fines de

ao.

4.3.4. Resultados.

Los resultados para la ecuacin (1) fueron los siguientes (los nmeros entre

parntesis son las desviaciones estndar de los coeficientes estimados):

103906.0203.2 XY R2 = 0.7935

(2.551) (0.00483) n = 19

Se puede apreciar en primer lugar que esta regresin, a pesar de ser muy sencilla,

tiene un alto grado de poder explicativo: el coeficiente de determinacin (R2) in-

dica que la variacin en los Activos Totales explica casi 80 % de la variacin en

los Costos Administrativos. Como era de esperarse, el valor estimado para b1, la

pendiente de la regresin, es positivo y altamente significativo. Para testar for-

malmente la hiptesis nula 1 = 0, calculamos el estadstico b1/s(b1), que en este

caso tiene un valor de 8.087 (= 0.03906 0.00483). Consultando la tabla de valo-

res crticos para la distribucin t (ver las tablas al final del texto), se puede ver

que para 17 grados de libertad el valor crtico para 5 % a dos colas es de 2.11.

Puesto que 8.087 > 2.11, en este caso se rechaza la hiptesis de que el verdadero

coeficiente 1 es cero, y por tanto concluimos que X1 es una variable significativa.

Por otro lado, el valor estimado para b0 , la ordenada en el origen, aunque positi-

vo, no es significativo, ya que 2.203 2.551 = 0.864 < 2.11.

Los resultados para la ecuacin (2) fueron los siguientes:

21 661.00275.022.1 XXY

(1.99) (0.0044) (0.157) R2 = 0.9018

La R

2 para esta segunda regresin es poco ms de 90 %, aunque, por lo explicado

en la seccin anterior, las dos regresiones no son estrictamente comparables en

trminos de la R2 convencional, por lo que debemos aplicar el concepto de R

2

ajustada. Para el primer modelo, con n = 19 y k = 1,

7814.0)7935.01(17

181

2

R

[40]

Para el segundo modelo, con k = 2, .8895.0)9018.01(16

181

2

R Se puede

apreciar claramente que la adicin de X2, el nmero de agencias, incrementa bas-

tante el poder explicativo de la regresin.

Al igual que en el caso anterior, el valor estimado para b1 es positivo y signi-

ficativo, y es interesante notar que es menor al estimado en la primera regresin.

Esto implica que la primera regresin probablemente tiende a sobre-estimar este

coeficiente, debido a que omite el efecto de la variable X2. Como era de esperarse,

el valor estimado para b2 es tambin positivo y altamente significativo. Por otro

lado, se aprecia que el valor estimado para b0 es negativo y no-significativo. Esto

nos apunta a una conclusin interesante: Al parecer, el componente fijo de los

costos administrativos depende bsicamente del nmero de agencias que adminis-

tra el banco.

Puesto que el coeficiente b0 no es significativamente diferente de cero en esta

segunda regresin, corresponde ahora volver a estimar esta regresin por el ori-

gen, es decir, sin esta constante. Los resultados son los siguientes:

21 621.00266.0 XXY

(0.0041) (0.141) R2 = 0.8995

Aqu se aprecia que el poder explicativo es bsicamente igual que en la regresin

anterior, aunque al haber eliminado un coeficiente posiblemente redundante,

esta tercera regresin nos proporciona en principio estimaciones ms eficientes de

los otros coeficientes:

(a) El coeficiente b1, se recordar, nos mide el costo marginal de administrar un

quetzal adicional de activos. Segn estas estimaciones, por tanto, se podra con-

cluir que en nmeros redondos el costo administrativo de un banco tpico au-

mentar entre 2 y 3 centavos por ao por cada quetzal adicional de activos que

administre.

(b) El coeficiente b2, se recordar, nos mide el incremento en el costo administra-

tivo anual que resulta de manejar una agencia adicional. Segn estas estimacio-

nes, por tanto, se podra concluir en nmeros redondos, y tomando en cuenta que

los datos se expresan en trminos de millones de quetzales, que el costo adminis-

trativo de un banco tpico aumentar alrededor de 620,000 quetzales por ao

por cada agencia adicional. (Debe recordarse que estas cifras estn expresadas en

trminos de quetzales de 1991.)

[41]

CASOS APLICADOS

Caso F Demanda de Fotocopias

En el cuadro adjunto se muestra una estadstica de la venta trimestral de fotoco-

pias en la Biblioteca de la Universidad Francisco Marroqun (UFM) durante un

perodo reciente, y la cantidad de usuarios en dicha biblioteca, clasificados segn

varias categoras. (Para facilitar los clculos, los datos se expresan en trminos de

miles de fotocopias y miles de usuarios.) Como se puede observar, el movimiento

de fotocopias vara mucho de un trimestre a otro. Utilice los datos disponibles pa-

ra estimar un modelo de regresin mltiple que explique esta variacin.

Qu porcentaje de la variacin en el volumen de fotocopias se puede explicar

por las variaciones en el nmero de usuarios de diferente tipo? Cules son los

usuarios que ms impacto tienen sobre las ventas de fotocopias?

Ao, Trimestre

Fotocopias (trimestral)

Visitantes por Trimestre

Estudiantes Universitarios Escolares Otros Total

UFM Otras Univ.

1994 I 55.786 33.813 1.758 1.853 2.336 39.760 II 55.734 30.431 1.352 2.317 1.906 36.006 III 51.222 27.226 1.737 1.695 1.547 32.205

IV 27.344 15.366 1.165 0.872 2.084 19.487

1995 I 52.456 31.724 1.255 1.328 2.177 36.484

II 47.630 26.745 1.140 2.915 1.821 32.621

III 43.670 31.612 1.594 1.835 1.439 36.480

IV 15.314 20.357 0.768 0.307 1.144 22.576

1996 I 67.434 36.322 1.799 1.917 2.790 42.828

II 59.024 29.418 0.962 1.712 1.624 33.716

III 60.868 29.728 1.352 1.634 0.811 33.525

IV 27.214 14.993 0.890 0.307 0.275 16.465

1997 I 57.632 36.361 1.865 2.066 2.622 42.914

II 57.518 38.427 1.276 2.759 2.188 44.650

III 48.266 28.327 1.580 1.933 2.111 33.951

IV 29.928 21.425 1.163 0.514 1.325 24.427

1998 I 56.128 36.398 1.930 2.214 2.451 42.993

II 46.948 30.474 1.670 1.874 2.103 36.121

III 37.942 22.712 1.948 1.342 1.716 27.718

IV 19.682 17.772 0.938 0.341 1.153 20.204

1999 I 45.282 28.261 1.939 1.741 1.639 33.580

II 67.546 27.090 1.711 2.323 1.796 32.920

III 65.364 23.751 2.210 1.732 1.658 29.351

IV 30.064 12.827 0.710 0.182 0.672 14.391

Fuente: Registros de la Biblioteca.

[42]

Caso G Inflacin en Amrica Latina

La llamada Teora Cuantitativa del Dinero (tambin conocida como monetaris-

mo) postula a largo plazo una relacin estable entre tres variables macroecon-

micas muy importantes: el cambio porcentual en el ndice general de precios (i.e.,

la tasa de inflacin), el cambio porcentual en la masa monetaria (la tasa de

crecimiento monetario), y el cambio porcentual en el PIB a precios constantes

(la tasa de crecimiento real).12 Segn esta teora, la inflacin estar positiva-

mente relacionada con la tasa de crecimiento monetario, e inversamente relacio-

nada con la tasa de crecimiento econmico real.

El cuadro adjunto muestra las tasas anuales promedio de inflacin, crecimiento

monetario, y crecimiento real en 16 pases latinoamericanos durante el perodo

1950-69. La inflacin fue medida por medio del IPC, y el crecimiento monetario

se basa en el agregado monetario conocido como M1 (efectivo fuera de bancos +

depsitos a la vista en bancos comerciales).

Use estos datos para estimar la siguiente regresin:

Y = 0 + 1X1 + 2X2 + u

donde Y = tasa anual promedio de inflacin, X1 = tasa anual promedio de creci-

miento monetario, y X2 = tasa anual promedio de crecimiento en PIB real.

Comente sobre los resultados, e interprete el significado de los coeficientes en

trminos de la Teora Cuantitativa.

12

Para un desarrollo moderno de esta teora, vase Milton Friedman, Money: Quantity

Theory, International Encyclopedia of the Social Sciences (1968), vol. 10, pp. 432-47.

[43]

INFLACIN EN 16 PASES LATINOAMERICANOS, 1950-69

Tasa Anual (%) Promedio de:

Inflacin

Crecimiento Monetario

Crecimiento PIB Real

Argentina 26.4 24.6 2.4

Bolivia 41.3 41.6 3.0

Brasil 35.1 38.2 3.9

Chile 28.2 35.2 4.6

Colombia 9.2 16.5 5.4

Costa Rica 1.9 9.0 5.7

Ecuador 3.0 8.8 4.7

El Salvador 0.3 3.5 4.6

Guatemala 1.1 5.9 3.9

Honduras 2.1 8.0 4.0

Mxico 5.3 11.3 6.9

Nicaragua 3.4 8.6 3.7

Paraguay 12.5 15.4 5.5

Per 8.5 13.4 5.7

Uruguay 43.0 40.1 0.7

Venezuela 1.1 7.9 6.8

Fuente: R. C. Vogel, The Dynamics of Inflation in Latin America, 1950-1969, American Economic Review, 64 (1974), Table 1, p. 103.

[44]

Captulo 5

AMPLIACIONES DEL MODELO LINEAL

En este captulo ampliaremos nuestra discusin del modelo lineal, considerando

primeramente la estimacin de formas funcionales no-lineales. La discusin se

concentrar principalmente en la aplicacin e interpretacin del llamado modelo

doble-log, que es el que ms se aplica en la prctica. Luego se ampla el modelo

lineal en otra direccin, mediante el uso de variables binarias. Por ltimo, se

discuten algunos problemas especiales que pueden surgir en aplicaciones prcti-

cas, como ser el problema de variables omitidas, el problema de multicolineali-

Cole_--_Econometria_3a_ed..pdf

Documents

Transcript of Cole_--_Econometria_3a_ed..pdf