Cole_--_Econometria_3a_ed..pdf
Transcript of Cole_--_Econometria_3a_ed..pdf
-
Julio H. Cole
ELEMENTOS DE ECONOMETRA APLICADA
Tercera Edicin
J & G Ediciones
Guatemala
-
Para Gina,
con todo mi amor
Copyright 1996, 2006, 2014 por Julio H. Cole. Derechos reservados.
J & G Ediciones (Guatemala).
Impreso en Guatemala Printed in Guatemala
Cole, Julio Harold (1955 )
Elementos de Econometra Aplicada.
Tercera edicin [2014]. Bibliografa.
103 p., ilustrado, tablas.
1. Econometra. I. Ttulo.
330.015195 C689
-
CONTENIDO
Prefacio a la Segunda Edicin . v . Prefacio a la Tercera Edicin .. v .
Captulo
1. INTRODUCCIN ........................................................................................ 1
2. REGRESIN LINEAL SIMPLE ................................................................. 5
2.1. Introduccin
2.2. Mtodo de Mnimos Cuadrados
2.3. Coeficiente de Determinacin (R2)
Preguntas de Repaso
Casos Aplicados
3. REPASO DE ALGEBRA MATRICIAL ....................................................... 20
3.1. Matrices
3.2. Operaciones con Matrices
3.3. Teoremas sobre Matrices
3.4. Clases Especiales de Matrices
3.5. Traza de una Matriz Cuadrada
3.6. Transposicin de Matrices
3.7. Matriz Inversa
Preguntas de Repaso
4. REGRESIN LINEAL MLTIPLE ............................................................ 27
4.1. Vector Mnimo-Cuadrtico
4.2. Inferencia Estadstica en la Regresin Lineal
4.3. Coeficiente de Determinacin (R2)
4.4. Aplicacin Costos Administrativos en la Banca Comercial
Casos Aplicados
-
5. AMPLIACIONES DEL MODELO LINEAL ............................................. 44
5.1. Estimacin de Formas No-Lineales
5.2. Variables Binarias o Cualitativas
5.3. Problemas Especiales en la Regresin Lineal
5.3.1. Variables Omitidas y Variables Irrelevantes
5.3.2. Multicolinealidad
5.3.3. Heteroscedasticidad
Preguntas de Repaso
Casos Aplicados
6. AUTOCORRELACIN ................................................................................ 67
6.1. Naturaleza del Problema
6.2. Efectos de la Autocorrelacin
6.3. Cmo Detectar la Autocorrelacin
6.4. Estimacin en Presencia de Autocorrelacin
Preguntas de Repaso
Caso Aplicado
7. RETARDOS DISTRIBUIDOS ................................................................... 82
7.1. Variables Retardadas en Econometra
7.2. Autocorrelacin en Regresiones con Retardos
7.3. Aplicacin Inflacin en Guatemala
Casos Aplicados
ANEXOS .............................................................................................................. 95 . A-1. Areas de la Distribucin Normal Estndar
A-2. Percentiles de la Distribucin t (Student)
A-3. Valores Crticos de la Distribucin Chi-cuadrado
A-4. Estadstico Durbin-Watson: Valores Crticos (5 %) para dL y dU
REFERENCIAS ............................................................................................... 100
-
PREFACIO A LA SEGUNDA EDICIN
La primera edicin de este libro se public en 1996. Para esta reedicin he man-
tenido la estructura del texto original, pero he aprovechado la oportunidad para
realizar algunas ligeras correcciones y cambios de presentacin, y tambin para
incorporar varios casos aplicados que he desarrollado en estos ltimos 10 aos.
Estos casos han resultado de gran utilidad en el curso introductorio de econome-
tra que imparto desde hace muchos aos en la Universidad Francisco Marroqun,
y me alegro de poder ahora compartirlos con un pblico ms amplio.
J. H. C.
Guatemala, 2006
PREFACIO A LA TERCERA EDICIN
Para esta tercera edicin he mantenido la estructura del texto original, pero he in-
cluido algunos temas adicionales, y he efectuado algunos ligeros cambios de pre-
sentacin. He incluido tambin algunos casos prcticos que he usado con xito en
mi curso de econometra en la Universidad Francisco Marroqun, pero que no ha-
ba previamente incorporado al texto. Reitero el gusto que me da ahora poder
compartirlos con un pblico ms amplio.
J. H. C.
Guatemala, 2014
-
[1]
Captulo 1
INTRODUCCIN
All models are wrong, but some models
are useful .
G. E. P. Box1
if you torture the data enough, nature
will always confess .
R. H. Coase2
La Econometra es aquella rama de la ciencia econmica que aplica los
instrumentos de la economa terica, del anlisis matemtico y de la estadstica
inferencial al anlisis cuantitativo de los fenmenos econmicos. Las teoras
econmicas tpicamente expresan relaciones funcionales entre diferentes
variables. La curva de demanda, por ejemplo, representa la cantidad demandada
de una mercanca como funcin de su precio. En la teora de la empresa, por otro
lado, el costo de produccin se considera como funcin de la escala de
produccin, mientras que en el anlisis macroeconmico la funcin consumo
relaciona los gastos de consumo con el nivel de ingreso nacional. Todos estos son
ejemplos de relaciones entre dos variables, aunque por supuesto que una
formulacin ms completa debe incluir varias variables diferentes en cada
relacin.
El propsito de la Econometra consiste en desarrollar mtodos para la esti-
macin numrica de los parmetros que definen las relaciones funcionales entre
las diversas variables econmicas que nos pueden interesar, y para testar y com-
probar las diversas hiptesis que se pueden postular acerca de dichos parmetros.
El primer paso en cualquier investigacin economtrica debe ser la especificacin
1Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.
2How Should Economists Choose? [1981], en Ideas, Their Origins, and Their Conse-quences: Lectures to Commemorate the Life and Work of G. Warren Nutter (Washing-
ton: American Enterprise Institute, 1988), p. 74.
-
[2]
de un modelo matemtico para representar la relacin que se desea investigar. En
la prctica, lo comn es partir de una ecuacin de regresin que postula una re-
lacin causal entre una variable dependiente y una o ms variables indepen-
dientes. (En econometra, una variable es denominada dependiente si podemos
suponer que es funcin de otras variables, y el anlisis de regresin consiste en
explicar los cambios observados en la variable dependiente por medio de los
cambios observados en estas otras variables independientes.) Luego debemos re-
coger datos relevantes de la economa o sector que deseamos describir por medio
del modelo. Como tercer paso, se utilizan estos datos para estimar los parmetros
del modelo. Por ltimo, se realizan pruebas sobre el modelo estimado, a fin de
determinar si constituye una representacin adecuada del fenmeno estudiado, o
si debemos realizar modificaciones en la especificacin original.
En la econometra aplicada, la forma funcional que ms se utiliza en la
prctica para representar la relacin causal entre variables dependientes e
independientes es la funcin lineal, que en su forma ms general puede
expresarse de la siguiente manera:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
donde Y representa el valor de la variable dependiente, X1, X2, ... , Xk representan
los valores de las variables independientes, 0 representa la ordenada en el
origen, 1, 2 , ... , k representan los coeficientes de las respectivas variables
independientes, y u representa un trmino de error.
En un problema de econometra aplicada, deseamos obtener estimaciones de
los k + 1 parmetros (0, 1, 2, ... , k) que contiene esta ecuacin. Consideremos
la interpretacin de estos parmetros, obviando por el momento los problemas de
estimacin. El parmetro 0 es relativamente fcil de interpretar, ya que como se
mencion en el prrafo anterior, es simplemente la ordenada en el origen, o sea,
el valor de Y cuando todas las variables independientes son exactamente cero. Por
otra parte, los coeficientes 1, 2, etc., pueden interpretarse como las derivadas
parciales de Y respecto de las respectivas variables independientes: as, 1 nos
dice cunto cambia Y en respuesta a un cambio de una unidad en X1, suponiendo
que las dems variables independientes no cambian, y los dems coeficientes se
pueden interpretar de la misma manera. Obviamente, es muy importante contar
con estimaciones confiables de la magnitud de estos coeficientes, y el trabajo del
econometrista consiste en proporcionar estas estimaciones.
La presencia del trmino de error (u) en esta ecuacin refleja el hecho de que
los datos econmicos nunca se ajustan a funciones matemticamente exactas, de
modo que funciones simples como la anterior slo pueden considerarse como
aproximaciones a las verdaderas relaciones que se estn investigando. An si la
-
[3]
verdadera relacin no es lineal, sin embargo, si el rango relevante de variacin de
las variables no es muy grande, entonces la forma lineal podra constituir de todas
maneras una buena aproximacin a la verdadera forma funcional.
El Prof. Johnston ha propuesto tres diferentes razones para justificar el tr-
mino de error en un anlisis economtrico.3 Por un lado, los datos econmicos
siempre contienen errores de medicin, ya que las variables econmicas no pue-
den ser medidas con exactitud. En este sentido, u puede ser interpretado literal-
mente como un error genuino. Por otro lado, en un anlisis aplicado slo pue-
den tomarse en cuenta las variables ms importantes para la explicacin de un fe-
nmeno, y por tanto las ecuaciones en la prctica no pueden incluir todas las va-
riables que pueden afectar una determinada variable dependiente. El efecto neto
de las variables omitidas se refleja en el trmino de error, que en este sentido es
interpretado como un residuo. Por ltimo, y como ya se mencion en el prrafo
anterior, las relaciones econmicas probablemente no seran exactas an si no
existiera ningn error de medicin, y an si todas las variables relevantes son in-
cluidas en el anlisis. En ltima instancia, las variables econmicas dependen de
la accin humana, y existe una cierta indeterminacin en el comportamiento hu-
mano que slo puede ser representada mediante un trmino de perturbacin alea-
torio, cuya varianza es incrementada por los errores de medicin y el efecto resi-
dual de variables omitidas. Se reconoce de entrada, por tanto, que las estimacio-
nes economtricas siempre contienen cierto elemento de incertidumbre. Con tc-
nicas adecuadas, se puede tratar de reducir esta incertidumbre, aunque nunca se
podr eliminar del todo. El estudiante de econometra debe estar siempre cons-
ciente de las limitaciones de sus mtodos de anlisis.
El propsito de este texto es familiarizar al estudiante de economa y/o
administracin con las tcnicas ms comunes que se emplean en el anlisis
economtrico aplicado. Esencialmente, se trata de estimar los coeficientes de
ecuaciones lineales, tales como la ecuacin (1). En el siguiente captulo se discute
el caso ms sencillo, el de una sola variable independiente, que puede ser tratado
con tcnicas algebraicas relativamente simples. El caso ms general de k variables
independientes requiere de tcnicas ms sofisticadas, y por esto es que el Captulo
3 se dedica a un repaso de lgebra matricial, previo a la discusin del modelo de
Regresin Lineal Mltiple, que es el tema del Captulo 4. En el Captulo 5 se
consideran ampliaciones del modelo lineal, como ser la estimacin de formas no-
lineales y el uso de variable binarias, y se discuten algunos problemas especiales
que frecuentemente surgen en el anlisis de regresin, tales como multi-
colinealidad, heteroscedasticidad y el efecto de variables omitidas, mientras que
el importante problema de la autocorrelacin es tratado a fondo en el Captulo 6.
3J. Johnston, Econometric Methods, 2a ed. (Nueva York: McGraw-Hill, 1972), pp. 10-
11.
-
[4]
Finalmente, el Captulo 7 trata de los problemas especiales que puede plantear la
presencia de retardos en las ecuaciones de regresin.
La lectura de este texto presupone que el estudiante conoce los rudimentos del
clculo, y ciertos elementos de estadstica matemtica. Tambin es conveniente
cierta familiaridad con las computadoras, y particularmente con el manejo de ho-
jas electrnicas tipo Excel. Como lo indica el ttulo, este es un texto para un curso
introductorio de econometra aplicada. Un texto introductorio debe ser selectivo,
y si bien se ha hecho un esfuerzo por incluir la mayora de las herramientas que
en la prctica debe emplear el investigador tpico en la situacin tpica, sin duda
existen algunas lagunas ms o menos importantes. En aras de la brevedad, por
ejemplo, se ha omitido por completo el tema de la estimacin de modelos de
ecuaciones simultneas, de modo que el texto se limita nicamente al caso de
modelos de ecuacin nica, e incluso en este caso slo se discuten los problemas
que ms comnmente se plantean en la prctica. El estudiante que desea especia-
lizarse en este campo podr subsanar estas deficiencias consultando algunos de
los textos citados en la bibliografa.
-
[5]
Captulo 2
REGRESIN LINEAL SIMPLE
2.1. Introduccin.
En este captulo consideramos el caso ms simple de una regresin lineal, que
es el de una ecuacin lineal con una variable dependiente (Y), y una sola variable
independiente (X). Este modelo bsico puede ser representado como:
Y = 0 + 1X + u
donde 0 y 1 son los parmetros respectivos, y u es el trmino de error. (Siempre
conviene recordar que en econometra las relaciones entre variables no son fun-
ciones exactas, sino que son nicamente relaciones estadsticas. Por esto siempre
es necesario incluir una variable de error en la relacin.)
El parmetro 0, conocido como la ordenada en el origen, nos dice cunto
es Y cuando X = 0. El parmetro 1, conocido como la pendiente, nos dice
cunto aumenta Y por cada aumento de una unidad en X. Estos parmetros son
desconocidos, y nuestro problema consiste en obtener estimaciones numricas de
los mismos a partir de una muestra de observaciones sobre las variables estudia-
das. El mtodo de estimacin ms comnmente empleado en el anlisis de regre-
sin es el mtodo de mnimos cuadrados. La mejor forma de ilustrar la aplica-
cin de este mtodo es por medio de un ejemplo prctico.
Consideremos el Cuadro 2.1, que muestra datos mensuales de produccin y
costos de operacin para una empresa britnica de transporte de pasajeros por ca-
rretera durante los aos 1949-52. (La produccin se mide en trminos de miles de
millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de
libras por mes). Para poder visualizar el grado de relacin que existe entre las va-
riables, como primer paso en el anlisis es conveniente elaborar un diagrama de
dispersin, que es una representacin en un sistema de coordenadas cartesianas
de los datos numricos observados. En el diagrama resultante, en el eje X se mi-
den las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin
mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y
costos de operacin) que corresponde a un mes determinado. Como era de espe-
rarse, existe una relacin positiva entre estas variables: una mayor cantidad de
millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.
-
[6]
Por otro lado, tambin se aprecia por qu este grfico se denomina un
diagrama de dispersin: no existe una relacin matemticamente exacta entre
las variables, ya que no toda la variacin en el costo de operacin puede ser
explicada por la variacin en las millas-vehculo. Si entre estas variables existiera
una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la
recta de regresin, que tambin ha sido trazada y que muestra la relacin
promedio que existe entre las dos variables. En la prctica, se observa que la
mayora de los puntos no caen directamente sobre la recta, sino que estn
dispersos en torno a ella. Esta dispersin representa la variacin en Y que no
puede atribuirse a la variacin en X.
CUADRO 2.1.
OPERACIONES MENSUALES EN UNA EMPRESA DE TRANSPORTE DE PASAJEROS
Costos Millas- Costos Millas-
Totales Vehculo Totales Vehculo
(miles) (miles) (miles) (miles)
Mes N Y X Mes N Y X
1 213.9 3147 20 243.7 4019
2 212.6 3160 21 262.3 4394
3 215.3 3197 22 252.3 4251
4 215.3 3173 23 224.4 3844
5 215.4 3292 24 215.3 3276
6 228.2 3561 25 202.5 3184
7 245.6 4013 26 200.7 3037
8 259.9 4244 27 201.8 3142
9 250.9 4159 28 202.1 3159
10 234.5 3776 29 200.4 3139
11 205.9 3232 30 209.3 3203
12 202.7 3141 31 213.9 3307
13 198.5 2928 32 227.0 3585
14 195.6 3063 33 246.4 4073
15 200.4 3096
16 200.1 3096
17 201.5 3158
18 213.2 3338
19 219.5 3492
Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A.,
1966), p. 118.
-
[7]
DIAGRAMA DE DISPERSIN
180
200
220
240
260
280
2500 3000 3500 4000 4500
MILLAS
CO
STO
S
-
[8]
2.2. Mtodo de Mnimos Cuadrados.
En un anlisis de regresin, tratamos de contestar dos preguntas bsicas:
1. Cul es la relacin estadstica que existe entre la variable dependiente (Y) y la
variable independiente (X)? Para contestar esta pregunta, debemos obtener esti-
maciones de los parmetros de la recta de regresin, es decir, los coeficientes 0 y
1 de la ecuacin (1). En el ejemplo concreto que nos concierne aqu, el estima-
dor de 1 nos ayuda a responder una pregunta muy importante: cunto aumenta,
en promedio, el costo de operacin por cada milla-vehculo adicional?
2. Qu porcentaje de la variacin total en la variable dependiente se puede atri-
buir a la variacin en la variable independiente? Para contestar esta pregunta, de-
bemos comparar la dispersin de los datos en torno a la recta de regresin con la
variacin total en la variable dependiente.
La primera de estas dos preguntas supone encontrar la recta que mejor se
ajusta a los datos observados, lo que obviamente requiere algn criterio de
seleccin. Supongamos que tenemos dos estimadores de los coeficientes 0 y 1,
que denotaremos por b0 y b1, respectivamente, y consideremos el i-simo punto
del diagrama de dispersin, que representa un valor para la variable
independiente (Xi) y un valor para la variable dependiente (Yi). Dado el valor de
Xi, el valor de Y calculado por la recta de regresin ser b0 + b1Xi y la diferencia
entre este valor calculado y el valor realmente observado (Yi) ser el error
correspondiente a la i-sima observacin:
ei = Yi b0 b1Xi
Sea n el nmero total de observaciones en la muestra (en este ejemplo n = 33).
Para cada observacin individual habr un error correspondiente, y el mtodo de
minimos cuadrados consiste en encontrar los valores de b0 y b1 que minimizan
la suma de los errores cuadrados para la muestra en conjunto. Es decir, se trata
de minimizar la variable:
211
0
1
2 )( i
n
i
i
n
i
i XbbYeQ
Ntese que esta expresin es funcin de b0 y b1, ya que diferentes valores para
estos parmetros producirn diferentes conjuntos de errores. En otras palabras, la
suma de los errores cuadrados es funcin de la recta de regresin. Segn el
criterio de mnimos cuadrados, la mejor recta de regresin es la que minimiza
Q. Aplicando un conocido principio del clculo, para minimizar Q calculamos las
derivadas parciales respecto de b0 y de b1, y las igualamos a 0:
-
[9]
0)(2 11
0
0
i
n
i
i XbbYb
Q
0)(2 11
0
1
ii
n
i
i XXbbYb
Q
Esto nos proporciona un sistema de dos ecuaciones con dos incgnitas. Resol-
viendo el sistema podemos obtener los valores de b0 y b1. En la terminologa del
anlisis de regresin estas ecuaciones son a veces denominadas las ecuaciones
normales. Ntese que la primera de estas ecuaciones equivale a la restriccin
0 ie , mientras que la segunda equivale a la restriccin 0 iieX . Este es un resultado importante que ser utilizado ms adelante en este captulo. (En lo
sucesivo suprimiremos el uso del subndice en las sumatorias, para facilitar la no-
tacin. Se entiende que todas las sumas se efectan sobre i = 1, 2, ... , n.) Simpli-
ficando estas ecuaciones, podemos obtener las siguientes expresiones equivalen-
tes:
(1) XbnbY 10
(2) 210 XbXbXY
La ecuacin (1) tambin puede expresarse como
(3) xbyb 10
donden
Yy
es el promedio aritmtico de los valores para Y, y
n
Xx
es el
promedio aritmtico de los valores para X. Sustituyendo (3) en (2), y reordenando
trminos, obtenemos la siguiente expresin para b1:
(4)
XxX
XyXYb
21
Las frmulas (3) y (4) nos permiten calcular b0 y b1 a partir de los datos observa-
dos. Para el ejemplo de los costos de transporte, tenemos:
1.231,7Y (por tanto 12424.219331.231,7 y )
879,113X (por tanto 8788.450,333879,113 x )
3.020,216,25XY 769,855,3982X
-
[10]
Sustituyendo estos valores en la frmula (4) obtenemos:
044673.0)879,113)(8788.450,3(769,855,398
)879,113)(12424.219(3.020,216,251
b
Por ltimo, sustituyendo este valor en la frmula (3), juntamente con los valores
para x y y , obtenemos:
963.64)8788.450,3)(044673.0(12424.2190 b
Estos dos parmetros definen la recta de regresin, que podemos expresar como
sigue:
XY 044673.0963.64
(Usamos el smbolo Y para representar el valor calculado de Y segn la recta de
regresin. Es muy importante distinguir claramente entre Y y Y, que es el valor
observado de la variable dependiente.) Segn esta estimacin, y en nmeros
redondos, podemos esperar que en promedio el costo de operacin se incremente
alrededor de 0.045 libras por cada milla-vehculo adicional, mientras que el
costo fijo mensual (i.e., la parte del costo de operacin que no vara con las
millas recorridas) es de aproximadamente 65,000 libras al mes, en promedio.
2.3. Coeficiente de Determinacin (R2).
Habiendo calculado la recta de regresin, podemos ahora tratar de responder a
la segunda pregunta planteada en la seccin anterior: qu porcentaje de la varia-
cin total en el costo de operacin (Y) se debe a la variacin en las millas-
vehculo recorridas (X)? En otras palabras, y en trminos ms generales, cul es
la proporcin de la variacin total en Y que puede ser explicada por la variacin
en X? Para poder contestar esta pregunta, debemos antes descomponer la varia-
cin total en Y en sus dos componentes: la variacin explicada, que se puede
atribuir a la variacin en X, y la variacin no-explicada, que se debe a factores
desconocidos y que representamos por los errores de la regresin.
Por definicin de la recta de regresin, tenemos que para cualquier observa-
cin individual el valor observado de Y ser igual a la Y calculada ms el error:
iii eYY
Ntese que esto implica que ii YY , ya que se recordar que 0ie por la primera ecuacin normal. Esto implica a su vez que el promedio de las Y es
-
[11]
exactamente igual a y . Si restamos y de ambos lados de esta ecuacin y eleva-
mos al cuadrado tendremos:
iiiiiii eyYeyYeyYyY )(2)(])[()( 2222
Por ltimo, si sumamos sobre todas las observaciones tendremos:
(5) eyYeyYyY )(2)()( 222
donde nuevamente hemos suprimido los subndices para simplificar la notacin.
Consideremos ahora la expresin:
eYeyeYeyY )(
ya que 0e , por la primera ecuacin normal. A su vez, por la definicin de Y tenemos que:
0)( 1010 XebebeXbbeY
ya que 0e por la primera ecuacin normal, y 0Xe por la segunda ecuacin normal. Por tanto, la ecuacin (5) se reduce a la siguiente expresin:
222 )()( eyYyY
En palabras, esto nos indica que la variacin total de la variable dependiente (en
torno a su promedio) se puede descomponer en dos partes: (1) la variacin total
de la Y calculada, y (2) la suma de los errores cuadrados. Puesto que la
variacin de la Y calculada se debe totalmente a la variacin en X, a este primer
componente de la variacin total en Y se le conoce como la variacin explicada,
ya que es la parte de la variacin en Y que puede ser atribuida a la variacin en la
variable independiente. El segundo componente de la variacin en Y, la suma de
los errores cuadrados, representa la variacin no-explicada, ya que es la parte
residual de la variacin en Y que no puede ser atribuida a la variacin en X. Si
expresamos la variacin explicada como porcentaje de la variacin total,
obtenemos el siguiente estadstico importante que se conoce como el coeficiente
de determinacin:
2
2
2
2
2
)(1
)(
)(
yY
e
yY
yYR
Los clculos relevantes para el caso de los costos de transporte se muestran en el
Cuadro 2.2. El valor de 0.9464 para R2 nos indica que la variacin en las millas-
vehculo recorridas explica el 94.64 % de la variacin en el gasto de operacin
mensual. El resto de la variacin observada (5.36 %) se debe a otros factores.
-
[12]
CUADRO 2.2. CLCULO DE R2 PARA EL CASO DE LOS COSTOS DE TRANSPORTE.
Mes N Y X Y e e2 Y
2
1 213.9 3147 205.5489 8.3511 69.7409 45753.21
2 212.6 3160 206.1297 6.4703 41.8648 45198.76
3 215.3 3197 207.7826 7.5174 56.5113 46354.09
4 215.3 3173 206.7104 8.5896 73.7812 46354.09
5 215.4 3292 212.0265 3.3735 11.3805 46397.16
6 228.2 3561 224.0436 4.1564 17.2757 52075.24
7 245.6 4013 244.2357 1.3643 1.8613 60319.36
8 259.9 4244 254.5552 5.3448 28.5669 67548.01
9 250.9 4159 250.7580 0.1420 0.0202 62950.81
10 234.5 3776 233.6482 0.8518 0.7256 54990.25
11 205.9 3232 209.3461 -3.4461 11.8756 42394.81
12 202.7 3141 205.2809 -2.5809 6.6610 41087.29
13 198.5 2928 195.7655 2.7345 7.4775 39402.25
14 195.6 3063 201.7964 -6.1964 38.3954 38259.36
15 200.4 3096 203.2706 -2.8706 8.2403 40160.16
16 200.1 3096 203.2706 -3.1706 10.0527 40040.01
17 201.5 3158 206.0403 -4.5403 20.6143 40602.25
18 213.2 3338 214.0815 -0.8815 0.7770 45454.24
19 219.5 3492 220.9611 -1.4611 2.1348 48180.25
20 243.7 4019 244.5039 -0.8039 0.6463 59389.69
21 262.3 4394 261.2562 1.0438 1.0895 68801.29
22 252.3 4251 254.8679 -2.5679 6.5941 63655.29
23 224.4 3844 236.6860 -12.2860 150.9458 50355.36
24 215.3 3276 211.3117 3.9883 15.9065 46354.09
25 202.5 3184 207.2018 -4.7018 22.1069 41006.25
26 200.7 3037 200.6349 0.0651 0.0042 40280.49
27 201.8 3142 205.3256 -3.5256 12.4299 40723.24
28 202.1 3159 206.0850 -3.9850 15.8802 40844.41
29 200.4 3139 205.1915 -4.7915 22.9585 40160.16
30 209.3 3203 208.0506 1.2494 1.5610 43806.49
31 213.9 3307 212.6966 1.2034 1.4482 45753.21
32 227.0 3585 225.1157 1.8843 3.5506 51529.00
33 246.4 4073 246.9161 -0.5161 0.2664 60712.96
Sumas 7231.1 113879 7231.0953 (*) 0.0047 663.3451 1596893.53
2557.384,12)12424.219)(33(53.893,596,1)()( 2222 ynYyY
9464.0)2557.384,123451.663(12 R
(*) La suma algebraica de los errores no es exactamente 0 debido a errores de redondeo.
-
[13]
PREGUNTAS DE REPASO
1. Defina los siguientes conceptos:
a) diagrama de dispersin
b) recta de regresin
c) criterio de mnimos cuadrados
d) coeficiente de determinacin.
2. (Regresin por el Origen) En algunas situaciones, se sabe que la relacin en-
tre Y y X pasa por el origen en el sentido de que 0 = 0. Este sera el caso
cuando Y = 0 por definicin cuando X = 0. En este caso la recta de regresin
sera simplemente Y = 1X + u.
a) Derive la frmula para b1, el estimador de 1, usando el criterio de mni-
mos cuadrados.
b) Ntese que en este caso la suma algebraica de los errores, ie , ya no es igual a 0. Por qu? Qu implicaciones tiene esto para la interpretacin de
R2?
c) En el caso de una regresin lineal convencional, 0 < R2 < 1 por definicin.
Sin embargo, en el caso de una regresin por el origen, se puede dar el caso
de una R2 negativa. Muestre grficamente de qu forma podra darse esta
situacin.
-
[14]
CASOS APLICADOS
Caso A Elecciones en Florida
En las elecciones presidenciales norteamericanas de Noviembre 2000 los conten-
dientes principales, George Bush y Al Gore, resultaron casi empatados en trmi-
nos de votos electorales, por lo que el resultado dependa crucialmente de los co-
micios en el estado de Florida, donde el escrutinio inicial no dio un resultado de-
finitivo a favor de ninguno de los candidatos. A medida que prosegua el conteo,
surgieron varias anomalas, una de las cuales tuvo que ver con el condado de
Palm Beach. Entre otras cosas, se aleg que en este condado muchos votantes que
deseaban votar por Gore se confundieron, debido al diseo de la papeleta electo-
ral, y votaron por error por un candidato marginal, Pat Buchanan, del Reform
Party. (El condado de Palm Beach tena una papeleta electoral un tanto confusa y
con un formato diferente a la de los dems condados en el estado.)
El cuadro adjunto muestra la votacin obtenida por Buchanan en todos los con-
dados del estado de Florida, y se aprecia claramente que la cantidad de votos ob-
tenidos por ese candidato en Palm Beach fue exageradamente grande en compa-
racin al resto del estado. Presumiblemente, muchos de estos fueron efectivamen-
te votos errneos (y probablemente con la intencin de votar por Gore, debido al
diseo de la papeleta). La pregunta es si se puede obtener una estimacin aproxi-
mada de la cantidad de estos votos errneos.
Como una primera aproximacin, se esperara que la votacin obtenida por Bu-
chanan en un condado determinado estara positivamente relacionada con la can-
tidad de personas afiliadas al Reform Party residentes en ese condado. Este dato
tambin se muestra en el cuadro adjunto.
Con esta informacin:
(a) Construya un diagrama de dispersin, relacionando las dos variables.
(b) Calcule la lnea de regresin (excluyendo la observacin para Palm
Beach), y con los resultados obtenidos, haga una estimacin de la vota-
cin excedente obtenida por Buchanan en Palm Beach.
(c) Tomando en cuenta que segn los resultados oficiales, Bush gan a Gore
en Florida por una diferencia de 537 votos (sobre un total de ms de
6,100,000 votos emitidos), comente sobre las implicaciones de este anli-
sis para el resultado final de las elecciones presidenciales de ese ao.
-
[15]
RESULTADOS ELECTORALES EN FLORIDA, NOV 2000 REFORM PARTY (P. BUCHANAN)
Registrados Votos por Registrados Votos por
Condado Reform Party Buchanan Condado Reform Party Buchanan
Alachua 91 263 Lake 80 289
Baker 4 73 Lee 113 305
Bay 55 248 Leon 80 282
Bradford 3 65 Levy 17 67
Brevard 148 570 Liberty 0 39
Broward 332 788 Madison 2 29
Calhoun 2 90 Manatee 140 271
Charlotte 41 182 Marion 108 563
Citrus 44 270 Martin 48 112
Clay 40 186 Monroe 62 47
Collier 118 122 Nassau 13 90
Columbia 35 89 Okaloosa 96 267
Dade 217 560 Okeechobe 27 43
Desoto 7 36 Orange 199 446
Dixie 0 29 Osceola 62 145
Duval 150 652 Pasco 167 570
Escambia 130 502 Pinellas 425 1013
Flagler 30 83 Polk 119 532
Franklin 0 33 Putnam 27 148
Gadsden 11 38 Santa Rosa 55 311
Gilchrist 6 29 Sarasota 154 305
Glades 2 9 Seminole 81 194
Gulf 3 71 St.Johns 59 229
Hamilton 3 23 St.Lucie 25 124
Hardee 4 30 Sumter 21 114
Hendry 10 22 Suwannee 7 108
Hernando 43 242 Taylor 3 27
Highlands 24 127 Union 1 37
Hillsborough 299 847 Volusia 176 496
Holmes 2 76 Wakulla 7 46
Indian River 66 105 Walton 22 120
Jackson 8 102 Washington 9 88
Jefferson 2 29
Lafayette 0 10 PALM BEACH 337 3407
Fuentes: Florida Dept. of State, Division of Elections, "County Voter Registration by Party," Oct 10, 2000 (http://election.dos.state.fl.us/pdf/2000voterreg/2000genparty.pdf); ABC News, "Florida: Real-Time County Returns" (www.abcnews.go.com/sections/poli tics/2000vote/general/FL_county.html), visited June 15, 2001.
-
[16]
Caso B Desempleo y Crecimiento Econmico
En 1962 el economista norteamericano Arthur Okun plante un modelo macro-
econmico para explicar las variaciones en la tasa de desempleo. Segn este mo-
delo, que se conoce hoy en da como la ley de Okun, existe una relacin lineal
entre el cambio en la tasa de desempleo y la tasa de crecimiento del Producto In-
terno Bruto (PIB) real.4 El siguiente cuadro muestra datos sobre desempleo y cre-
cimiento econmico en los Estados Unidos durante el perodo 1972-2011:
Tasa de Crecimiento Tasa de Crecimiento
Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)
1972 5.6 5.3 1992 7.5 3.4
1973 4.9 5.8 1993 6.9 2.9
1974 5.6 -0.6 1994 6.1 4.1
1975 8.5 -0.2 1995 5.6 2.5
1976 7.7 5.4 1996 5.4 3.7
1977 7.1 4.6 1997 4.9 4.5
1978 6.1 5.6 1998 4.5 4.4
1979 5.8 3.1 1999 4.2 4.8
1980 7.1 -0.3 2000 4.0 4.1
1981 7.6 2.5 2001 4.7 1.1
1982 9.7 -1.9 2002 5.8 1.8
1983 9.6 4.5 2003 6.0 2.5
1984 7.5 7.2 2004 5.5 3.5
1985 7.2 4.1 2005 5.1 3.1
1986 7.0 3.5 2006 4.6 2.7
1987 6.2 3.2 2007 4.6 1.9
1988 5.5 4.1 2008 5.8 -0.3
1989 5.3 3.6 2009 9.3 -3.5
1990 5.6 1.9 2010 9.6 3.0
1991 6.8 -0.2 2011 8.9 1.7
Fuente: Economic Report of the President, 2012 (Washington: U.S. Government Printing Office, 2012), Table B-4, Table B-43 (pp. 321, 369).
4A. M. Okun, Potential GNP: Its Measurement and Significance, Proceedings (Busi-ness and Economics Section), American Statistical Association, 1962, pp. 98-104. Para
aplicaciones ms recientes del modelo de Okun vase Paul Krugman, How Fast Can the U.S. Economy Grow? Harvard Business Review, 75 (1997): 123-29 y J. Crespo Cuaresma, Okuns Law Revisited, Oxford Bulletin of Economics and Statistics, 65 (2003): 439-51.
-
[17]
a) Use estos datos para estimar el modelo de Okun, y explique el significado
de los coeficientes obtenidos.
b) En este problema, el punto donde la recta intersecta al eje X tiene un sig-
nificado econmico interesante. Determine este punto para este caso, y
explique su significado en trminos del modelo de Okun.
Caso C Desempleo y Crecimiento Econmico (cont.)
Como regularidad emprica, la Ley de Okun es una de las relaciones macroeco-
nmicas ms estables que se conocen. Para comprobarlo, vuelva a estimar el mo-
delo de Okun usando datos sobre desempleo y crecimiento econmico en Estados
Unidos durante el perodo 1929-54. (Para el estudio de las fluctuaciones en el
desempleo, este perodo muestral es particularmente interesante, porque incluye
el perodo de la Gran Depresin de los aos 30s.)
Compare con la regresin estimada en el caso anterior, y comente sobre los resul-
tados.
Tasa de Crecimiento Tasa de Crecimiento
Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)
1929 3.2 . 1942 4.7 12.1
1930 8.9 -9.5 1943 1.9 11.2
1931 15.9 -7.0 1944 1.2 7.1
1932 23.6 -15.0 1945 1.9 -1.2
1933 24.9 -2.7 1946 3.9 -10.0
1934 21.7 9.4 1947 3.6 -0.1
1935 20.1 10.4 1948 3.4 3.8
1936 17.0 13.3 1949 5.5 -0.1
1937 14.3 5.9 1950 5.0 8.7
1938 19.0 -4.6 1951 3.0 7.5
1939 17.2 8.1 1952 2.7 3.4
1940 14.6 8.7 1953 2.5 4.4
1941 9.9 15.7 1954 5.0 -1.6
Fuentes: (a) Desempleo Stanley Lebergott, Annual Estimates of Unemployment in the U.S., 1900-1950, en The Measurement and Behavior of Unemployment (Princeton University Press, 1957), Table 1, pp. 215-16; (b) Crecimiento PIB real Economic Report of the President, 1962 (Washington: Government Printing Office, 1962), Table B-3, p. 210.
-
[18]
Caso D Costos de Impresin
Se espera que mientras mayor sea el nmero de pginas en un libro, mayor sea su
costo de impresin, ceteris paribus. Usted desea estimar la relacin entre el costo
promedio por ejemplar y el nmero de pginas, tomando una muestra de los lti-
mos 10 anuarios publicados por una asociacin acadmica5:
Libro No. Nmero de
Pginas Cantidad de Ejemplares
Costo Total
1 754 12,400 $ 16,253.00
2 677 12,700 $ 15,471.00
3 689 14,000 $ 16,780.00
4 745 14,800 $ 18,914.00
5 675 15,800 $ 19,759.00
6 615 16,000 $ 18,277.00
7 753 17,700 $ 23,440.00
8 698 18,500 $ 23,362.00
9 652 20,000 $ 23,264.00
10 670 22,500 $ 28,405.00
(a) Qu porcentaje de la variacin en el costo promedio se explica por la varia-
cin en el nmero de pginas?
(b) Cul sera su estimacin del costo marginal por ejemplar para un libro de
500 pginas?
5Los datos sobre costos de publicacin fueron tomados de H. F. Williamson, Report of the Secretary for the Year 1966, American Economic Review, 57 (May 1967), p. 690 (Exhibit II).
-
[19]
Caso E Costos de Operacin en Escuelas Pblicas
En un estudio de los costos de operacin en escuelas pblicas del estado de Wis-
consin,6 el economista John Riew clasific a 109 escuelas secundarias en grupos
segn su tamao (nmero de estudiantes inscritos), y encontr que el costo anual
promedio por alumno se comportaba de la siguiente manera:
Tamao de la Escuela
Nmero de Escuelas
Costo Promedio por Alumno
143-200 6 $ 531.90
201-300 12 $ 480.80
301-400 19 $ 446.30
401-500 17 $ 426.90
501-600 14 $ 442.60
601-700 13 $ 413.10
701-900 9 $ 374.30
901-1100 6 $ 433.20
1101-1600 6 $ 407.30
1601-2400 7 $ 405.60
Total 109
Use estos datos para obtener una estimacin aproximada del costo marginal por
alumno en escuelas de este tipo.
6John Riew, Economies of Scale in High School Operation, Review of Economics and
Statistics, 48 (1966), p. 282 (Table 2).
-
[20]
Captulo 3
REPASO DE ALGEBRA MATRICIAL
En el captulo anterior se discuti el caso ms simple de una regresin lineal con
una sola variable independiente. Por cierto que la aplicabilidad prctica de este
modelo simple es relativamente limitada, ya que generalmente las variaciones en
la variable dependiente no obedecen a un solo factor, sino que ms bien existen
varios factores diferentes que pueden estarla influenciando.
En el caso ms general de k diferentes variables independientes, nuestro pro-
blema consiste en estimar los coeficientes de la siguiente ecuacin:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
Se puede apreciar que en este caso la aplicacin del criterio de mnimos cuadra-
dos por medio de mtodos algebraicos sera sumamente tedioso y complicado.
Afortunadamente, por medio de lgebra matricial se puede obtener una solucin
bastante compacta por medio de unas pocas frmulas muy simples. Por tanto, en
este captulo repasaremos los elementos del lgebra de matrices que sern reque-
ridos en el resto del texto.
3.1. Matrices.
Una matriz es una coleccin rectangular de elementos, ordenados en filas y
columnas. En su forma ms general, una matriz tiene la siguiente forma:
A =
mnmm
n
n
aaa
aaa
aaa
...
......
......
...
...
21
22221
11211
donde aij (el elemento caracterstico de la matriz) es el elemento ubicado en la
fila i y la columna j. Si una matriz tiene m filas y n columnas, se dice que es de
-
[21]
orden m por n ( nm ). La expresin [aij] tambin se usa para denotar a la ma-
triz que tiene aij como elemento caracterstico. En este caso, A = [aij].
Un vector es un caso especial de una matriz que tiene una sola fila (vector
fila) o una sola columna (vector columna). En lo que sigue, usaremos letras
maysculas para denotar matrices, y letras minsculas para denotar vectores.
3.2. Operaciones con Matrices.
a) Igualdad de dos matrices Se dice que dos matrices A y B son iguales cuan-
do son del mismo orden y aij = bij para todo i, j. Esto es, las matrices deben ser
iguales, elemento por elemento.
b) Suma y resta de matrices Si A y B son del mismo orden, entonces A + B
ser una nueva matriz C tal que cij = aij + bij. Esto es, se suman los elementos co-
rrespondientes de las dos matrices. En forma similar, A B ser una nueva matriz
D tal que dij = aij bij, esto es, se restan los elementos correspondientes de las dos
matrices.
Ejemplo.
A
3 4 1
0 1 2
1 2 0
B
0 0 1
5 6 4
4 1 6
A B
3 4 2
5 7 6
5 3 6
A B
3 4 0
5 5 2
3 1 6
c) Multiplicacin escalar Si es una constante, entonces el producto escalar
de por una matriz A ser tal que A = [aij]. Esto es, se multiplica cada ele-
mento de A por .
d) Multiplicacin de matrices Si A es una matriz de orden nm , y B es una
matriz de orden pn , entonces el producto AB ser una matriz C de orden
pm con elemento caracterstico:
n
k
kjikij bac1
-
[22]
Es decir, el elemento en la i-sima fila y j-sima columna de AB se encuentra
multiplicando los elementos de la i-sima fila de A por los elementos correspon-
dientes de la j-sima columna de B, y sumando los productos.
Ejemplo.
A
3 4
0 1
1 2
B 5 6
4 1AB
31 22
4 1
13 8
Ntese que para poder multiplicar dos matrices, el nmero de columnas de la
primera matriz debe ser igual al nmero de filas de la segunda matriz (caso con-
trario, el producto no est definido). Cuando se multiplican dos matrices, la ma-
triz resultante tendr el mismo nmero de filas que la primera matriz, y el mismo
nmero de columnas que la segunda matriz. Es muy importante el orden en que
se multiplican las matrices, ya que en el caso de lgebra matricial el orden de los
factores s altera el producto: BA generalmente no ser igual a AB, y podra no
existir.
3.3. Teoremas sobre Matrices.
(i) Ley Conmutativa de la Suma.
A + B = B + A
Este resultado se desprende directamente de la definicin de la suma de ma-
trices.
(ii) La Multiplicacin de Matrices no es Conmutativa.
Como ya se mencion en la seccin anterior, en general AB BA (excepto en
el caso algunas matrices especiales). De hecho, a veces alguno de estos productos
ni siquiera estar definido. Los dos productos AB y BA existirn si las matrices
son de orden nm y mn , respectivamente. En ese caso, el primer producto se-
r de orden mm , y el segundo de orden nn . (An en el caso de que los dos
productos sean del mismo orden, en general no sern iguales.)
(iii) Ley Asociativa de la Suma.
(A + B) + C = A + (B + C)
(iv) Ley Asociativa del Producto.
(AB)C = A(BC)
-
[23]
(v) Ley Distributiva.
A(B + C) = AB + AC
(A + B)C = AC + BC
3.4. Clases Especiales de Matrices.
Matriz Cuadrada: Se dice que una matriz es cuadrada si el nmero de filas
es igual al nmero de columnas (m = n).
Matriz Diagonal: Es una matriz cuadrada que tiene elementos, no necesaria-
mente iguales, a lo largo de su diagonal principal (los elementos aii), y ceros en
el resto. Obviamente, slo las matrices cuadradas tienen una diagonal principal.
Matriz Identidad: Es una clase especial de matriz diagonal, que slo tiene
unos en la diagonal principal. Esta es una matriz muy importante, y se representa
por el smbolo especial I. Se comprueba fcilmente que si se multiplica cualquier
matriz A por una matriz identidad del orden apropiado, entonces AI = A y IA =
A.
Matriz Escalar: Es una matriz diagonal que tiene la misma constante en la
diagonal principal. Si la constante es , entonces la matriz escalar se puede repre-
sentar por I.
Matriz Idempotente: Es una matriz cuadrada tal que AA = A.
3.5. Traza de una Matriz Cuadrada.
La traza de una matriz cuadrada de orden n, tr(A), se define como la suma
de los elementos de su diagonal principal:
tr(A) =
n
i
iia1
Es obvio que tr(A + B) = tr(A) + tr(B), y tr(A B) = tr(A) tr(B).
La traza tambin tiene la siguiente propiedad importante: Si el producto de dos
matrices A y B es una matriz cuadrada, entonces tr(AB) = tr(BA).
-
[24]
Demostracin. Sea C = AB, donde A es de orden nm , y B es de orden mn .
Entonces el elemento caracterstico de C ser:
n
k
kjikij bac1
tr(AB) =
m
i
n
k
n
k
m
i
ikkikiik
m
i
ii abbac1 1 1 11
= tr(BA)
ya que
m
i
ikki ab1
es el elemento dkk de D = BA.
Corolario: tr(ABC) = tr(BCA) = tr(CAB).
3.6. Transposicin de Matrices.
A' (A transpuesta) es la matriz que resulta de A tras intercambiar filas por
columnas. El elemento caracterstico de A' es a'ij = aji. Por ejemplo,
A =
3813
214
12231
A' =
321
8122
13431
Si A' = A, se dice que A es una matriz simtrica. (Obviamente, para que una
matriz sea simtrica, tiene que ser cuadrada.)
Teoremas sobre Transpuestas.
3.6.1. (A')' = A
3.6.2. (A + B)' = A' + B'
3.6.3. (AB)' = B'A'
Demostracin. Si C = AB, entonces
n
k
kjikij bac1
. Por tanto, el elemento carac-
terstico de C' ser
n
k
kjik
n
k
jkki
n
k
kijkjiij ababbacc111
'''
que es precisamente el elemento caracterstico del producto B'A'.
-
[25]
Corolario. (ABC)' = C'B'A'
Otro Corolario. AA' y A'A son simtricas. (Nota: En general AA' A'A, pero
sus trazas son siempre iguales. Por qu?)
3.7. Matriz Inversa.
Se dice que A1
es la inversa de una matriz cuadrada A, si A1A = AA1 = I.
Propiedades de la Inversa.
3.7.1. (A1
)1
= A
3.7.2. (AB)1
= B1
A1
Demostracin. AB(B1
A1
) = A(BB1
)A1
= AA1
= I
3.7.3. (A')1
= (A1
)'
Demostracin. Se sabe que
(1) A'(A')1
= I
Transponiendo (1) tenemos ((A')1
)'A = I. Por tanto,
(2) ((A')1
)' = A1
Transponiendo (2) obtenemos el teorema.
Corolario. Si A es simtrica, entonces A = A', y por tanto (A1
)' = A1
(la inversa
de una matriz simtrica es simtrica).
-
[26]
PREGUNTAS DE REPASO
1. Defina los siguientes trminos:
a) Matriz cuadrada
b) Matriz identidad
c) Diagonal principal
d) Matriz simtrica
e) Matriz idempotente
f) Traza de una matriz
2. Construya algunos ejemplos numricos para verificar los teoremas sobre
matrices enunciados en las secciones 3.3, 3.6 y 3.7.
3. Expanda (A + B)(A B) y (A B)(A + B). Son iguales? Por qu no?
4. Compruebe que para una matriz X de orden kn , las siguientes matrices son
idempotentes:
a) X(X'X)1
X'
b) I X(X'X)1X'
5. Compruebe que para una matriz X de orden kn , tr[I X(X'X)1X'] = n k.
6. Si y es un vector 1n , y X es una matriz kn , cul es el orden de la si-guiente expresin?
(X'X)1
X'y
-
[27]
Captulo 4
REGRESIN LINEAL MLTIPLE
En este captulo discutiremos el modelo general de regresin mltiple. En la
primera seccin derivamos el estimador mnimo-cuadrtico para el caso general
de k variables independientes, siguiendo un razonamiento anlogo al del Captulo
2. En la segunda seccin introducimos el tema de la inferencia estadstica en la
regresin lineal. Este es un tema nuevo, que no ha sido discutido en captulos
anteriores. En la tercera seccin comentamos sobre la interpretacin del
coeficiente de determinacin (R2) en el contexto de regresiones mltiples.
Finalmente, en la cuarta seccin ilustramos la aplicacin de los resultados
analticos obtenidos por medio de un ejemplo numrico.
4.1. Vector Mnimo-Cuadrtico.
4.1.1. Planteo del Problema.
Expresamos una variable dependiente Y como funcin lineal de k variables
independientes X1, X2, ... , Xk:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
donde 0, 1, 2, ... , k son constantes desconocidas, y u es una variable aleatoria
que refleja la variacin en Y que no puede atribuirse a las variables independien-
tes (o explicativas). El problema consiste en obtener estimaciones de los k + 1
coeficientes en este modelo mediante anlisis de n observaciones conjuntas sobre
la variable dependiente y las k variables independientes.
Ntese que podemos representar las observaciones sobre Y como un vector y
de orden 1n , mientras que las observaciones sobre las X podemos representar-
las como una matriz X de orden kn :
-
[28]
Observacin
N Y X1 X2 .... Xk
1 Y1 X11 X12 .... X1k
2 Y2 X21 X22 .... X2k
3 Y3 X31 X32 .... X3k
. . . . .... .
. . . . .... . i Yi Xi1 Xi2 .... Xik
. . . . .... .
. . . . .... .
n Yn Xn1 Xn2 .... Xnk
y X
Se comprueba adems que si la matriz X se aumenta con una columna de 1s
(para poder tomar en cuenta 0, la ordenada en el origen), entonces el modelo
lineal para las n observaciones se puede expresar como:
y = X + u
donde es un vector de orden 1)1( k cuyos elementos son los coeficientes del
modelo lineal (0, 1, 2, ... , k), X es una matriz de orden )1( kn de obser-
vaciones sobre la variables independientes (incluyendo la columna de 1s) y u es
un vector-columna de orden 1n cuyos elementos (u1, u2, ... , un) consisten de n variables aleatorias idnticamente distribuidas.
Dado un vector b de estimadores de los coeficientes, el vector y tambin pue-
de expresarse como:
y = Xb + e
donde e es un vector de orden 1n cuyos elementos (e1, e2, ... , en) son los resi-
duos obtenidos de la ecuacin estimada. (Esto es, e = y Xb, donde Xb es la Y
calculada. No debe confundirse b con , ni e con u.)
-
[29]
4.1.2. Estimacin de b.
El vector b que minimiza la suma de los errores cuadrados (e'e) se llama el
vector mnimo-cuadrtico. Por definicin,
e'e = 2
22110
2 )...( kk XbXbXbbYe
(Nuevamente, suprimimos los sub-ndices i para facilitar la notacin.) Para
minimizar e'e, derivamos respecto de cada uno de los k + 1 coeficientes, e
igualamos a cero. As, obtenemos las ecuaciones normales:
(1) 0)...(2'
22110
0
kk XbXbXbbY
b
ee
(2) 0)...(2'
122110
1
XXbXbXbbY
b
eekk
(3) 0)...(2'
222110
2
XXbXbXbbY
b
eekk
. . . . . .
(k + 1) 0)...(2'
22110
kkk
k
XXbXbXbbYb
ee
Estas k + 1 ecuaciones tambin pueden expresarse como
(1) 0e
(2) 01 eX
(3) 02 eX . . . . . .
(k + 1) 0 eX k
Se puede comprobar fcilmente que en trminos de nuestra notacin matricial
este sistema de k + 1 ecuaciones puede expresarse como
X'e = 0
-
[30]
donde 0 es un vector de ceros de orden 1)1( k . Puesto que e = y Xb, esto
tambin lo podemos expresar como
X'(y Xb) = 0
Por tanto,
X'Xb = X'y
Multiplicando ambos lados por (X'X)1
obtenemos el vector mnimo-cuadrtico:
b = (X'X)1
X'y
Los k + 1 elementos de este vector-columna (b0, b1, b2, ... , bk) son los respectivos
estimadores de 0, 1, 2, ... , k.
En la prctica el investigador no calcular el vector b directamente usando es-
ta frmula, ya que existen programas de computadora que hacen todos los clcu-
los requeridos con mayor rapidez y precisin que lo que podra hacerlo una per-
sona armada nicamente de una calculadora manual. Es importante, sin embargo,
tener una idea clara de qu es lo que hace la computadora cuando se corre un pro-
grama de regresin, y adems esta expresin nos ser muy til ms adelante para
propsitos analticos.
4.2. Inferencia Estadstica en la Regresin Lineal.
4.2.1. Supuestos Bsicos.
El objetivo de esta seccin es desarrollar procedimientos para testar hiptesis
sobre los coeficientes del modelo lineal. Para esto, debemos hacer ciertas suposi-
ciones sobre el comportamiento estadstico de los errores. Los dos supuestos ms
importantes en el modelo clsico de regresin lineal son los siguientes:
Supuesto No. 1: ui tiene una distribucin N(0, 2) para toda i.
En palabras, suponemos que todas las ui tienen una misma distribucin normal,
con la misma media (0) y la misma varianza (2). Una implicacin de este su-
puesto es que E(u) = 0, es decir, que el valor esperado del vector u es un vector
de ceros.
Supuesto No. 2: E(uu') = 2I.
Ntese que el elemento caracterstico de la matriz uu' es uiuj. Por tanto, suponer
que el valor esperado de uu' es una matriz escalar equivale a suponer lo siguiente:
-
[31]
(1) E(uiuj) = 0 para i j, o sea, todos los elementos no-diagonales de E(uu') son
cero. Esto implica que las ui son independientes unas de otras.
(2) E(ui2) = 2, o sea, todos los elementos de la diagonal de E(uu') son iguales a
2. Esto implica que cada ui tiene la misma varianza 2. (Si suponemos que la
media de ui es 0, entonces E(ui2) ser la varianza de ui.)
4.2.2. Valor Esperado y Matriz de Varianza-Covarianza de b.
Puesto que segn el modelo lineal y = X + u, entonces
b = (X'X)1
X'y = (X'X)1
X'(X + u) = + (X'X)1X'u
Por tanto, el valor esperado del vector b ser
E(b) = + E[(X'X)1X'u] = + (X'X)1X'E(u) =
dado que E(u) = 0. Este es un resultado muy importante, ya que significa que b es
un estimador insesgado de . Adems, puesto que b = (X'X)1X'u, entonces
(b )( b )' = (X'X)1X'uu'X(X'X)1
(Recurdese que X'X es una matriz simtrica.) Si obtenemos el valor esperado de
esta expresin y aplicamos el supuesto No. 2, tendremos:
E[(b )( b )'] = (X'X)1X'E(uu')X(X'X)1 = (X'X)1X'2IX(X'X)1
= 2(X'X)1
Ntese que el elemento caracterstico de E[(b )(b )'] es E[(bi i)(bj j)],
que es la covarianza entre bi y bj. Para i = j (los elementos de la diagonal de esta
matriz) esto se reduce a E[(bi i)2], que es la varianza de bi. Por tanto, a esta
matriz se le llama la matriz de varianza-covarianza del vector b.
4.2.3. Estimacin de 2 y 2(X'X)1.
En general, no conocemos 2, pero podemos obtener un estimador insesgado
de la siguiente manera. Por definicin, el vector de residuos de la regresin esti-
mada ser
e = y Xb = y X(X'X)1X'y = [I X(X'X)1X']y
= [I X(X'X)1X'](X + u) = [I X(X'X)1X']u
Ntese que la expresin entre corchetes es una matriz simtrica idempotente, y
que la traza de esta matriz es la diferencia entre las trazas de dos matrices identi-
dad:
-
[32]
tr[I X(X'X)1X'] = tr(I) tr[X(X'X)1X'] = tr(I) tr[(X'X)1X'X] = n (k + 1)
ya que la primera matriz identidad es de orden n, y la segunda es de orden (k + 1).
Adems, la suma de los errores cuadrados (e'e) es de orden 11 , y por tanto ser igual a su traza:
e'e = tr(e'e) = tr(u'[I X(X'X)1X']u) = tr([I X(X'X)1X']uu')
= tr(uu'[I X(X'X)1X'])
Por ltimo, puesto que la traza es una sumatoria,
E(e'e) = E[tr(uu'[I X(X'X)1X'])] = tr[E(uu')(I X(X'X)1X')]
= tr(2I[I X(X'X)1X'] ) = 2tr[I X(X'X)1X'] = 2(n k 1)
Por tanto, puede obtenerse un estimador insesgado de 2 calculando:
11
'2
2
kn
e
kn
eeS
i
y el estimador insesgado de 2(X'X)1 ser S2(X'X)1. Los elementos de la diago-
nal de esta matriz cuadrada de orden (k + 1) son los estimadores de las varianzas
de los coeficientes del vector b: el primer elemento de la diagonal de S2(X'X)
1 es
la varianza muestral de b0, el segundo elemento es la varianza muestral de b1,
etc.7
4.2.4. Testado de Hiptesis.
Supongamos que se desea testar la siguiente hiptesis nula sobre uno de los
coeficientes de regresin:
H0: i = * (donde * es algn valor numrico). Para testar esta hiptesis, se cal-
cula el siguiente estadstico:
)(
*
i
i
bs
b
7Esto es para el caso general de un modelo que incluye una ordenada en el origen (0).
Si la regresin es por el origen (ver Pregunta de Repaso No. 2 del Captulo 2), enton-
ces tr[I X(X'X)1X'] = n k, ya que la matriz X slo tiene k columnas, y el denomina-
dor en la frmula para S2 es n k. El primer elemento de la diagonal de S2(X'X)1 es la
varianza muestral de b1, el segundo elemento es la varianza muestral de b2, etc.
-
[33]
donde s(bi) es la desviacin estndar de bi, o sea, la raz cuadrada del elemento
correspondiente de la diagonal de S2(X'X)
1. Este estadstico tiene una distribu-
cin t con n k 1 grados de libertad.8 Por tanto, si la prueba es a dos colas
con un nivel de significancia de 5 %, rechazamos H0 si el valor absoluto de este
estadstico es mayor que el valor crtico de t para 2.5 % y n k 1 grados de li-
bertad. (Si la prueba es a una cola, usamos el valor crtico para 5 %.)
Muchas veces, la hiptesis nula que queremos testar en un anlisis de
regresin es H0: i = 0, o sea, la hiptesis de que la variable independiente Xi no
tiene realmente ningn efecto sobre Y. En este caso, para testar esta hiptesis
simplemente se calcula )( i
i
bs
b y se compara con el valor crtico relevante para la
distribucin t. En la terminologa del anlisis de regresin, esta razn se conoce
como la razn t, y si rechazamos la hiptesis nula podemos concluir que Xi s
tiene un efecto sobre Y. A menudo esto se expresa diciendo que Xi es una variable
significativa, o que su coeficiente (i) es significativamente mayor (o menor)
que 0.9
4.3. Coeficiente de Determinacin (R2).
En un anlisis de regresin mltiple, el coeficiente de determinacin (R2) se
define igual que en el caso de la regresin simple, y tiene la misma interpretacin,
aunque debe tomarse en cuenta que en este caso lo que estamos midiendo es el
porcentaje de la variacin en Y que se explica por la variacin conjunta de las
variables independientes. (El estudiante podr comprobar tambin que la R2
en
una regresin mltiple es igual a la R2
de la regresin simple de Y contra .Y Esta
segunda interpretacin es quiz ms fcil de visualizar.)
En general, no podemos descomponer la variacin explicada en trminos de
cunto aporta cada variable independiente individual, pero existe un caso especial
donde esto s es posible. Si la correlacin entre las diferentes variables explicati-
vas es exactamente cero, entonces la R2 de la regresin mltiple ser igual a la
8Para una demostracin rigurosa, vase Johnston, Econometric Methods, pp. 135-38.
(Por lo expuesto en la Nota 7, una regresin por el origen cuenta con n k grados de libertad.)
9A menudo los econometristas usan la siguiente regla emprica para decidir si una varia-
ble es significativa en una regresin lineal: Concluir que la variable es significativa si su coeficiente estimado es por lo menos dos veces mayor, en valor absoluto, que su des-
viacin estndar (o sea, si el valor absoluto de la razn t es mayor que 2). Cmo jus-tificara usted el empleo de este criterio?
-
[34]
suma de las R2 de las regresiones simples de cada variable explicativa contra Y.
Es muy raro que suceda esto en la prctica, pero si los datos provienen de un ex-
perimento controlado entonces es posible disear el experimento en forma tal que
los datos muestrales tengan esta propiedad.
4.3.1. Comparando dos o ms regresiones en trminos de R
2.
Un problema que surge cuando se calculan diferentes regresiones para una
misma variable dependiente es que los valores de R2 no son estrictamente compa-
rables. Cuando se agregan variables independientes a una regresin, el resultado
es que la R2 necesariamente aumenta, ya sea que las variables adicionales sean
significativas o no. Recordemos que R2 se calcula por medio de la frmula:
2
2
2
)(1
yY
eR
Supongamos que tenemos dos regresiones: una primera regresin con k varia-
bles independientes (Regresin 1), y una segunda regresin que contiene, adems
de estas variables, una variable adicional Xk+1 (Regresin 2). Puesto que 2)( yY ser igual para las dos regresiones, el efecto sobre R2 depender de
los que sucede con .2e Para la Regresin 2 la suma de los errores cuadrados necesariamente ser menor o igual que para la Regresin 1, no importando si Xk+1
es significativa o no. Para entender por qu, notemos que si aumenta 2e cuan-do se agrega Xk+1, entonces significa que los coeficientes estimados para la Re-
gresin 2 no minimizan ,2e ya que existe otro vector de coeficientes que pro-ducir una menor suma de errores cuadrados: este sera un vector que mantiene
los coeficientes de la Regresin 1, y asignando 0 para el coeficiente de Xk+1. Por
tanto 2e no puede ser mayor para la Regresin 2, y slo ser igual en las dos regresiones si el coeficiente estimado de Xk+1 es exactamente 0, lo cual es muy
poco probable que suceda en la prctica ya que incluso si la variable adicional no
tiene realmente ningn efecto sobre Y, su coeficiente estimado ser pequeo pero
no 0, debido a la variacin muestral. En la prctica, entonces, 2e siempre ser menor para la Regresin 2, y por tanto R
2 siempre aumentar.
4.3.2. R2 ajustada (
2
R ).
Esto significa que R2 no es, por s sola, una buena gua para comparar diferen-
tes regresiones, ya que este coeficiente siempre aumentar si se agregan ms va-
riables independientes, aun cuando stas no son significativas. Debido a esto,
Henri Theil propuso una modificacin a la frmula convencional, para compensar
-
[35]
por este efecto cuando se comparan regresiones diferentes.10
En el ajuste propues-
to por Theil se toma en cuenta el hecho de que, para un tamao de muestra de-
terminado, ms variables explicativas en una regresin implican menos grados de
libertad para la estimacin. A diferencia de la R2 convencional, que compara la
variacin no-explicada (suma de los errores cuadrados) con la variacin total en
Y, la R2 ajustada (que se representa por medio del smbolo
2
R ) compara la va-
rianza de los errores con la varianza de Y:
2
2
2
2
2
)(1
11
1
)
11)(
)(1
yY
e
kn
n
n
yY
kn
e
YVar
eVarR
Esto tambin puede expresarse como:
)1(1
11 2
2
Rkn
nR
2
R puede ser negativa, y su valor siempre ser menor o igual que la R2 conven-
cional.11
Adems, a diferencia de la R2 convencional,
2
R puede aumentar o dis-
minuir cuando se agregan ms variables independientes. La direccin del efecto
depender de si la reduccin en 2e compensa o no la reduccin en los grados de libertad debido a la inclusin de la variable adicional.
4.4. Aplicacin Costos Administrativos en la Banca Comercial.
Ahora podemos finalmente realizar un ejemplo numrico para ilustrar la apli-
cacin de estos conceptos. Como ya se mencion antes, en la prctica la mayor
parte de los clculos en un anlisis de regresin se realizan por medio de un pro-
grama de computacin, por lo que no viene al caso ilustrar numricamente los
clculos matriciales. El ejemplo concreto que se desarrolla a continuacin est
basado en un estudio estadstico de los costos de administracin en los bancos
comerciales guatemaltecos durante el ao 1991. Los resultados de este anlisis
pueden proporcionar una buena indicacin sobre el comportamiento de los costos
para el banco tpico en Guatemala, aunque la naturaleza misma de un estudio
10
Henri Theil, Principles of Econometrics (New York: John Wiley & Sons, 1971),
pp. 178-79.
11
Por lo expuesto en las Notas 7 y 8, cuando la regresin es por el origen el denomina-dor correcto para el factor de ajuste es n k.
-
[36]
de este tipo no puede arrojar resultados estrictamente aplicables a cada uno de los
bancos considerados individualmente. No obstante, a pesar de esto, un estudio de
este tipo de todos modos puede ser muy til, porque los resultados pueden pro-
porcionar una norma o estndar contra el cual se pueden comparar los costos
administrativos en un banco particular. En ausencia de un estudio de este tipo, un
banco no tiene realmente un criterio para determinar si sus costos son acepta-
bles o normales, ya que los bancos difieren enormemente en cuanto a cantidad
de activos, nmero de sucursales, etc., por lo que el nico criterio objetivo sera el
de compararse con un banco de similar tamao y caractersticas. Sin embargo, si
se pudiera obtener una frmula emprica que permita calcular un valor normal
o promedio para los costos administrativos en funcin de unas pocas variables
que permitan una medicin numrica, entonces se podra fcilmente determinar si
el banco en cuestin est mejor o peor que el banco tpico a ese respecto.
(Estos resultados tambin podran servir para comparar el comportamiento de los
costos administrativos en los bancos comerciales con los de otros tipos de institu-
ciones financieras.) La variable dependiente para el anlisis ser el nivel anual de
los Gastos Generales y de Administracin en los diferentes bancos del sistema.
Si se observa el Cuadro 4.1, se podr apreciar que estos costos (que en lo sucesi-
vo llamaremos simplemente costos administrativos) varan enormemente de un
banco a otro. Nuestro problema consistir, por tanto, en encontrar una lista de va-
riables que nos permitan explicar, estadsticamente, esta variacin observada.
4.3.1. Primera Aproximacin.
A un nivel muy elemental, por supuesto, dicha variacin no tiene realmente
ningn misterio, ya que los bancos varan mucho en cuanto a su tamao, y es ms
bien de esperarse que los bancos ms grandes tengan tambin costos adminis-
trativos ms altos por el slo hecho de ser ms grandes. Nuestra tarea ser tradu-
cir esta nocin intuitiva en un concepto operativo, y para esto debemos tratar de
expresar el tamao de un banco en trminos de alguna variable numrica. En
este estudio, la variable escogida para este propsito fue el Total de Activos del
banco. Con esto, y como una primera aproximacin para el anlisis, la recta de
regresin ser la siguiente:
(1) Yi = 0 + 1Xi + ui
donde Yi = Costos Administrativos del banco i, Xi = Activos Totales del banco i.
Los Activos Totales de un banco son una buena medida de su tamao, aun-
que no es la nica medida posible, por lo que la decisin de adoptar esta medida
especfica es en cierto modo arbitraria. Por otro lado, el empleo de los Activos
Totales como variable independiente en la regresin facilita en cierto modo la in-
terpretacin econmica de los coeficientes:
-
[37]
CUADRO 4.1. BANCOS COMERCIALES PRIVADOS EN GUATEMALA (1991).
Millones de Quetzales
Gastos Generales y de Admin.
Total Activo Promedio
Agencias
G&T 48.8 831.5 30
INDUSTRIAL 43.2 1204.0 18
OCCIDENTE 39.4 1153.5 20
del CAFE 29.8 499.6 25
del AGRO 26.2 466.6 30
AGRICOLA MERC. 24.8 522.3 12
INTERNACIONAL 24.0 376.6 12
INMOBILIARIO 21.5 431.3 20
CONSTRUBANCO 18.3 282.2 10
del EJERCITO 15.6 311.8 13
LLOYDS 14.3 284.5 7
METROPOLITANO 12.9 339.0 8
BANEX 12.5 462.8 3
del QUETZAL 8.8 205.0 12
PROMOTOR 6.0 162.4 3
CITIBANK 5.9 45.8 1
CONTINENTAL 3.6 113.7 4
REFORMADOR 1.7 237.3 7
UNO 1.0 170.8 5
Fuente: Superintendencia de Bancos, Boletn de Estadsticas Bancarias (Guatemala, 4 Trimestre, 1992).
(a) El coeficiente 1 nos indica en cunto incrementa el costo administrativo
anual por cada quetzal adicional de activos que maneja el banco. En otras pala-
bras, este coeficiente nos mide el costo marginal de administrar un quetzal adi-
cional de activos. Obviamente, este es un dato sumamente interesante para los
tomadores de decisiones en el sector bancario. Esperamos naturalmente que este
coeficiente sea positivo.
(b) Por otro lado, el coeficiente 0, que matemticamente es simplemente la or-
denada en el origen (o sea, el valor de Y cuando X = 0), nos estara indicando la
parte del costo administrativo que no vara directamente con el nivel de los acti-
vos del banco. En otras palabras, esta es la parte del costo administrativo que po-
dra interpretarse como un costo fijo. Esperamos tambin que este coeficiente
sea positivo.
-
[38]
4.3.2. Segunda Aproximacin.
Un posible defecto de la ecuacin (1) es la suposicin de que todos los bancos
tienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 4.1
que los bancos comerciales varan mucho en cuanto al nmero de sucursales o
agencias que operan, y este es un factor que seguramente debe afectar el nivel de
los costos administrativos. Por esto, como una segunda aproximacin, se estimar
la siguiente regresin adicional:
(2) Y = 0 + 1X1 + 2X2 + u
donde X1 = Activos Totales del banco i, X2 = Nmero de Agencias del banco i.
(De aqu en adelante suprimiremos el uso del sub-ndice i, para facilitar la nota-
cin. Se entiende que cada observacin corresponde a un banco diferente.) En es-
ta segunda regresin, el coeficiente 2 nos est midiendo el incremento en el cos-
to administrativo anual que resulta de manejar una agencia adicional. Esperamos,
por tanto, que este coeficiente sea positivo. (Naturalmente que este coeficiente
tendra que interpretarse como un costo promedio por agencia, ya que ninguna
agencia es exactamente igual que otra, por lo que difcilmente pueden tener todas
el mismo costo.) Los dems coeficientes tienen la misma interpretacin que en la
ecuacin (1).
4.3.3. Datos.
Antes de reportar los resultados de las regresiones, es necesario y conveniente
hacer las siguientes aclaraciones sobre los datos:
(a) Se tom la decisin de incluir en la muestra nicamente a los bancos comer-
ciales privados, ya que los bancos estatales tienen peculiaridades especiales que
posiblemente resulten en un comportamiento diferente en cuanto a sus costos
administrativos. (Puesto que lo que nos interesa es investigar el comportamiento
de los costos administrativos en el banco comercial tpico, incluir a los bancos
estatales podra resultar en una distorsin de los resultados, ya que dichos bancos
no son tpicos a ese respecto.)
(b) Podra existir un problema de comparabilidad de los datos sobre Costos
Administrativos y Activos Totales, dada la manera como se reportan los datos en
la fuente original, ya que las cifras sobre Costos Administrativos corresponden a
los gastos anuales efectuados durante un ao determinado, mientras que las cifras
sobre Activos Totales corresponden a los valores al 31 de Diciembre de cada ao.
No est del todo claro que la cifra correspondiente al final del ao sea la ms
adecuada para propsitos del anlisis, y probablemente sera mejor contar con una
-
[39]
cifra para los Activos Totales que represente algn valor promedio durante el ao.
Para evitar estos problemas, se opt por calcular un promedio aritmtico de los
Activos Totales al 31 de Diciembre de 1991, y al 31 de Diciembre del ao
anterior. Esta cifra promedio, si bien no es la solucin perfecta para este
problema, probablemente se acerca ms al nivel promedio de los Activos Totales
en cada ao, y en todo caso ser mejor que simplemente usar la cifra de fines de
ao.
4.3.4. Resultados.
Los resultados para la ecuacin (1) fueron los siguientes (los nmeros entre
parntesis son las desviaciones estndar de los coeficientes estimados):
103906.0203.2 XY R2 = 0.7935
(2.551) (0.00483) n = 19
Se puede apreciar en primer lugar que esta regresin, a pesar de ser muy sencilla,
tiene un alto grado de poder explicativo: el coeficiente de determinacin (R2) in-
dica que la variacin en los Activos Totales explica casi 80 % de la variacin en
los Costos Administrativos. Como era de esperarse, el valor estimado para b1, la
pendiente de la regresin, es positivo y altamente significativo. Para testar for-
malmente la hiptesis nula 1 = 0, calculamos el estadstico b1/s(b1), que en este
caso tiene un valor de 8.087 (= 0.03906 0.00483). Consultando la tabla de valo-
res crticos para la distribucin t (ver las tablas al final del texto), se puede ver
que para 17 grados de libertad el valor crtico para 5 % a dos colas es de 2.11.
Puesto que 8.087 > 2.11, en este caso se rechaza la hiptesis de que el verdadero
coeficiente 1 es cero, y por tanto concluimos que X1 es una variable significativa.
Por otro lado, el valor estimado para b0 , la ordenada en el origen, aunque positi-
vo, no es significativo, ya que 2.203 2.551 = 0.864 < 2.11.
Los resultados para la ecuacin (2) fueron los siguientes:
21 661.00275.022.1 XXY
(1.99) (0.0044) (0.157) R2 = 0.9018
La R
2 para esta segunda regresin es poco ms de 90 %, aunque, por lo explicado
en la seccin anterior, las dos regresiones no son estrictamente comparables en
trminos de la R2 convencional, por lo que debemos aplicar el concepto de R
2
ajustada. Para el primer modelo, con n = 19 y k = 1,
7814.0)7935.01(17
181
2
R
-
[40]
Para el segundo modelo, con k = 2, .8895.0)9018.01(16
181
2
R Se puede
apreciar claramente que la adicin de X2, el nmero de agencias, incrementa bas-
tante el poder explicativo de la regresin.
Al igual que en el caso anterior, el valor estimado para b1 es positivo y signi-
ficativo, y es interesante notar que es menor al estimado en la primera regresin.
Esto implica que la primera regresin probablemente tiende a sobre-estimar este
coeficiente, debido a que omite el efecto de la variable X2. Como era de esperarse,
el valor estimado para b2 es tambin positivo y altamente significativo. Por otro
lado, se aprecia que el valor estimado para b0 es negativo y no-significativo. Esto
nos apunta a una conclusin interesante: Al parecer, el componente fijo de los
costos administrativos depende bsicamente del nmero de agencias que adminis-
tra el banco.
Puesto que el coeficiente b0 no es significativamente diferente de cero en esta
segunda regresin, corresponde ahora volver a estimar esta regresin por el ori-
gen, es decir, sin esta constante. Los resultados son los siguientes:
21 621.00266.0 XXY
(0.0041) (0.141) R2 = 0.8995
Aqu se aprecia que el poder explicativo es bsicamente igual que en la regresin
anterior, aunque al haber eliminado un coeficiente posiblemente redundante,
esta tercera regresin nos proporciona en principio estimaciones ms eficientes de
los otros coeficientes:
(a) El coeficiente b1, se recordar, nos mide el costo marginal de administrar un
quetzal adicional de activos. Segn estas estimaciones, por tanto, se podra con-
cluir que en nmeros redondos el costo administrativo de un banco tpico au-
mentar entre 2 y 3 centavos por ao por cada quetzal adicional de activos que
administre.
(b) El coeficiente b2, se recordar, nos mide el incremento en el costo administra-
tivo anual que resulta de manejar una agencia adicional. Segn estas estimacio-
nes, por tanto, se podra concluir en nmeros redondos, y tomando en cuenta que
los datos se expresan en trminos de millones de quetzales, que el costo adminis-
trativo de un banco tpico aumentar alrededor de 620,000 quetzales por ao
por cada agencia adicional. (Debe recordarse que estas cifras estn expresadas en
trminos de quetzales de 1991.)
-
[41]
CASOS APLICADOS
Caso F Demanda de Fotocopias
En el cuadro adjunto se muestra una estadstica de la venta trimestral de fotoco-
pias en la Biblioteca de la Universidad Francisco Marroqun (UFM) durante un
perodo reciente, y la cantidad de usuarios en dicha biblioteca, clasificados segn
varias categoras. (Para facilitar los clculos, los datos se expresan en trminos de
miles de fotocopias y miles de usuarios.) Como se puede observar, el movimiento
de fotocopias vara mucho de un trimestre a otro. Utilice los datos disponibles pa-
ra estimar un modelo de regresin mltiple que explique esta variacin.
Qu porcentaje de la variacin en el volumen de fotocopias se puede explicar
por las variaciones en el nmero de usuarios de diferente tipo? Cules son los
usuarios que ms impacto tienen sobre las ventas de fotocopias?
Ao, Trimestre
Fotocopias (trimestral)
Visitantes por Trimestre
Estudiantes Universitarios Escolares Otros Total
UFM Otras Univ.
1994 I 55.786 33.813 1.758 1.853 2.336 39.760 II 55.734 30.431 1.352 2.317 1.906 36.006 III 51.222 27.226 1.737 1.695 1.547 32.205
IV 27.344 15.366 1.165 0.872 2.084 19.487
1995 I 52.456 31.724 1.255 1.328 2.177 36.484
II 47.630 26.745 1.140 2.915 1.821 32.621
III 43.670 31.612 1.594 1.835 1.439 36.480
IV 15.314 20.357 0.768 0.307 1.144 22.576
1996 I 67.434 36.322 1.799 1.917 2.790 42.828
II 59.024 29.418 0.962 1.712 1.624 33.716
III 60.868 29.728 1.352 1.634 0.811 33.525
IV 27.214 14.993 0.890 0.307 0.275 16.465
1997 I 57.632 36.361 1.865 2.066 2.622 42.914
II 57.518 38.427 1.276 2.759 2.188 44.650
III 48.266 28.327 1.580 1.933 2.111 33.951
IV 29.928 21.425 1.163 0.514 1.325 24.427
1998 I 56.128 36.398 1.930 2.214 2.451 42.993
II 46.948 30.474 1.670 1.874 2.103 36.121
III 37.942 22.712 1.948 1.342 1.716 27.718
IV 19.682 17.772 0.938 0.341 1.153 20.204
1999 I 45.282 28.261 1.939 1.741 1.639 33.580
II 67.546 27.090 1.711 2.323 1.796 32.920
III 65.364 23.751 2.210 1.732 1.658 29.351
IV 30.064 12.827 0.710 0.182 0.672 14.391
Fuente: Registros de la Biblioteca.
-
[42]
Caso G Inflacin en Amrica Latina
La llamada Teora Cuantitativa del Dinero (tambin conocida como monetaris-
mo) postula a largo plazo una relacin estable entre tres variables macroecon-
micas muy importantes: el cambio porcentual en el ndice general de precios (i.e.,
la tasa de inflacin), el cambio porcentual en la masa monetaria (la tasa de
crecimiento monetario), y el cambio porcentual en el PIB a precios constantes
(la tasa de crecimiento real).12 Segn esta teora, la inflacin estar positiva-
mente relacionada con la tasa de crecimiento monetario, e inversamente relacio-
nada con la tasa de crecimiento econmico real.
El cuadro adjunto muestra las tasas anuales promedio de inflacin, crecimiento
monetario, y crecimiento real en 16 pases latinoamericanos durante el perodo
1950-69. La inflacin fue medida por medio del IPC, y el crecimiento monetario
se basa en el agregado monetario conocido como M1 (efectivo fuera de bancos +
depsitos a la vista en bancos comerciales).
Use estos datos para estimar la siguiente regresin:
Y = 0 + 1X1 + 2X2 + u
donde Y = tasa anual promedio de inflacin, X1 = tasa anual promedio de creci-
miento monetario, y X2 = tasa anual promedio de crecimiento en PIB real.
Comente sobre los resultados, e interprete el significado de los coeficientes en
trminos de la Teora Cuantitativa.
12
Para un desarrollo moderno de esta teora, vase Milton Friedman, Money: Quantity
Theory, International Encyclopedia of the Social Sciences (1968), vol. 10, pp. 432-47.
-
[43]
INFLACIN EN 16 PASES LATINOAMERICANOS, 1950-69
Tasa Anual (%) Promedio de:
Inflacin
Crecimiento Monetario
Crecimiento PIB Real
Argentina 26.4 24.6 2.4
Bolivia 41.3 41.6 3.0
Brasil 35.1 38.2 3.9
Chile 28.2 35.2 4.6
Colombia 9.2 16.5 5.4
Costa Rica 1.9 9.0 5.7
Ecuador 3.0 8.8 4.7
El Salvador 0.3 3.5 4.6
Guatemala 1.1 5.9 3.9
Honduras 2.1 8.0 4.0
Mxico 5.3 11.3 6.9
Nicaragua 3.4 8.6 3.7
Paraguay 12.5 15.4 5.5
Per 8.5 13.4 5.7
Uruguay 43.0 40.1 0.7
Venezuela 1.1 7.9 6.8
Fuente: R. C. Vogel, The Dynamics of Inflation in Latin America, 1950-1969, American Economic Review, 64 (1974), Table 1, p. 103.
-
[44]
Captulo 5
AMPLIACIONES DEL MODELO LINEAL
En este captulo ampliaremos nuestra discusin del modelo lineal, considerando
primeramente la estimacin de formas funcionales no-lineales. La discusin se
concentrar principalmente en la aplicacin e interpretacin del llamado modelo
doble-log, que es el que ms se aplica en la prctica. Luego se ampla el modelo
lineal en otra direccin, mediante el uso de variables binarias. Por ltimo, se
discuten algunos problemas especiales que pueden surgir en aplicaciones prcti-
cas, como ser el problema de variables omitidas, el problema de multicolineali-