Cole_--_Econometria_3a_ed..pdf

109
Julio H. Cole ELEMENTOS DE ECONOMETRÍA APLICADA Tercera Edición J & G Ediciones ————————————————————————————————– Guatemala

Transcript of Cole_--_Econometria_3a_ed..pdf

  • Julio H. Cole

    ELEMENTOS DE ECONOMETRA APLICADA

    Tercera Edicin

    J & G Ediciones

    Guatemala

  • Para Gina,

    con todo mi amor

    Copyright 1996, 2006, 2014 por Julio H. Cole. Derechos reservados.

    J & G Ediciones (Guatemala).

    Impreso en Guatemala Printed in Guatemala

    Cole, Julio Harold (1955 )

    Elementos de Econometra Aplicada.

    Tercera edicin [2014]. Bibliografa.

    103 p., ilustrado, tablas.

    1. Econometra. I. Ttulo.

    330.015195 C689

  • CONTENIDO

    Prefacio a la Segunda Edicin . v . Prefacio a la Tercera Edicin .. v .

    Captulo

    1. INTRODUCCIN ........................................................................................ 1

    2. REGRESIN LINEAL SIMPLE ................................................................. 5

    2.1. Introduccin

    2.2. Mtodo de Mnimos Cuadrados

    2.3. Coeficiente de Determinacin (R2)

    Preguntas de Repaso

    Casos Aplicados

    3. REPASO DE ALGEBRA MATRICIAL ....................................................... 20

    3.1. Matrices

    3.2. Operaciones con Matrices

    3.3. Teoremas sobre Matrices

    3.4. Clases Especiales de Matrices

    3.5. Traza de una Matriz Cuadrada

    3.6. Transposicin de Matrices

    3.7. Matriz Inversa

    Preguntas de Repaso

    4. REGRESIN LINEAL MLTIPLE ............................................................ 27

    4.1. Vector Mnimo-Cuadrtico

    4.2. Inferencia Estadstica en la Regresin Lineal

    4.3. Coeficiente de Determinacin (R2)

    4.4. Aplicacin Costos Administrativos en la Banca Comercial

    Casos Aplicados

  • 5. AMPLIACIONES DEL MODELO LINEAL ............................................. 44

    5.1. Estimacin de Formas No-Lineales

    5.2. Variables Binarias o Cualitativas

    5.3. Problemas Especiales en la Regresin Lineal

    5.3.1. Variables Omitidas y Variables Irrelevantes

    5.3.2. Multicolinealidad

    5.3.3. Heteroscedasticidad

    Preguntas de Repaso

    Casos Aplicados

    6. AUTOCORRELACIN ................................................................................ 67

    6.1. Naturaleza del Problema

    6.2. Efectos de la Autocorrelacin

    6.3. Cmo Detectar la Autocorrelacin

    6.4. Estimacin en Presencia de Autocorrelacin

    Preguntas de Repaso

    Caso Aplicado

    7. RETARDOS DISTRIBUIDOS ................................................................... 82

    7.1. Variables Retardadas en Econometra

    7.2. Autocorrelacin en Regresiones con Retardos

    7.3. Aplicacin Inflacin en Guatemala

    Casos Aplicados

    ANEXOS .............................................................................................................. 95 . A-1. Areas de la Distribucin Normal Estndar

    A-2. Percentiles de la Distribucin t (Student)

    A-3. Valores Crticos de la Distribucin Chi-cuadrado

    A-4. Estadstico Durbin-Watson: Valores Crticos (5 %) para dL y dU

    REFERENCIAS ............................................................................................... 100

  • PREFACIO A LA SEGUNDA EDICIN

    La primera edicin de este libro se public en 1996. Para esta reedicin he man-

    tenido la estructura del texto original, pero he aprovechado la oportunidad para

    realizar algunas ligeras correcciones y cambios de presentacin, y tambin para

    incorporar varios casos aplicados que he desarrollado en estos ltimos 10 aos.

    Estos casos han resultado de gran utilidad en el curso introductorio de econome-

    tra que imparto desde hace muchos aos en la Universidad Francisco Marroqun,

    y me alegro de poder ahora compartirlos con un pblico ms amplio.

    J. H. C.

    Guatemala, 2006

    PREFACIO A LA TERCERA EDICIN

    Para esta tercera edicin he mantenido la estructura del texto original, pero he in-

    cluido algunos temas adicionales, y he efectuado algunos ligeros cambios de pre-

    sentacin. He incluido tambin algunos casos prcticos que he usado con xito en

    mi curso de econometra en la Universidad Francisco Marroqun, pero que no ha-

    ba previamente incorporado al texto. Reitero el gusto que me da ahora poder

    compartirlos con un pblico ms amplio.

    J. H. C.

    Guatemala, 2014

  • [1]

    Captulo 1

    INTRODUCCIN

    All models are wrong, but some models

    are useful .

    G. E. P. Box1

    if you torture the data enough, nature

    will always confess .

    R. H. Coase2

    La Econometra es aquella rama de la ciencia econmica que aplica los

    instrumentos de la economa terica, del anlisis matemtico y de la estadstica

    inferencial al anlisis cuantitativo de los fenmenos econmicos. Las teoras

    econmicas tpicamente expresan relaciones funcionales entre diferentes

    variables. La curva de demanda, por ejemplo, representa la cantidad demandada

    de una mercanca como funcin de su precio. En la teora de la empresa, por otro

    lado, el costo de produccin se considera como funcin de la escala de

    produccin, mientras que en el anlisis macroeconmico la funcin consumo

    relaciona los gastos de consumo con el nivel de ingreso nacional. Todos estos son

    ejemplos de relaciones entre dos variables, aunque por supuesto que una

    formulacin ms completa debe incluir varias variables diferentes en cada

    relacin.

    El propsito de la Econometra consiste en desarrollar mtodos para la esti-

    macin numrica de los parmetros que definen las relaciones funcionales entre

    las diversas variables econmicas que nos pueden interesar, y para testar y com-

    probar las diversas hiptesis que se pueden postular acerca de dichos parmetros.

    El primer paso en cualquier investigacin economtrica debe ser la especificacin

    1Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.

    2How Should Economists Choose? [1981], en Ideas, Their Origins, and Their Conse-quences: Lectures to Commemorate the Life and Work of G. Warren Nutter (Washing-

    ton: American Enterprise Institute, 1988), p. 74.

  • [2]

    de un modelo matemtico para representar la relacin que se desea investigar. En

    la prctica, lo comn es partir de una ecuacin de regresin que postula una re-

    lacin causal entre una variable dependiente y una o ms variables indepen-

    dientes. (En econometra, una variable es denominada dependiente si podemos

    suponer que es funcin de otras variables, y el anlisis de regresin consiste en

    explicar los cambios observados en la variable dependiente por medio de los

    cambios observados en estas otras variables independientes.) Luego debemos re-

    coger datos relevantes de la economa o sector que deseamos describir por medio

    del modelo. Como tercer paso, se utilizan estos datos para estimar los parmetros

    del modelo. Por ltimo, se realizan pruebas sobre el modelo estimado, a fin de

    determinar si constituye una representacin adecuada del fenmeno estudiado, o

    si debemos realizar modificaciones en la especificacin original.

    En la econometra aplicada, la forma funcional que ms se utiliza en la

    prctica para representar la relacin causal entre variables dependientes e

    independientes es la funcin lineal, que en su forma ms general puede

    expresarse de la siguiente manera:

    Y = 0 + 1X1 + 2X2 + ... + kXk + u

    donde Y representa el valor de la variable dependiente, X1, X2, ... , Xk representan

    los valores de las variables independientes, 0 representa la ordenada en el

    origen, 1, 2 , ... , k representan los coeficientes de las respectivas variables

    independientes, y u representa un trmino de error.

    En un problema de econometra aplicada, deseamos obtener estimaciones de

    los k + 1 parmetros (0, 1, 2, ... , k) que contiene esta ecuacin. Consideremos

    la interpretacin de estos parmetros, obviando por el momento los problemas de

    estimacin. El parmetro 0 es relativamente fcil de interpretar, ya que como se

    mencion en el prrafo anterior, es simplemente la ordenada en el origen, o sea,

    el valor de Y cuando todas las variables independientes son exactamente cero. Por

    otra parte, los coeficientes 1, 2, etc., pueden interpretarse como las derivadas

    parciales de Y respecto de las respectivas variables independientes: as, 1 nos

    dice cunto cambia Y en respuesta a un cambio de una unidad en X1, suponiendo

    que las dems variables independientes no cambian, y los dems coeficientes se

    pueden interpretar de la misma manera. Obviamente, es muy importante contar

    con estimaciones confiables de la magnitud de estos coeficientes, y el trabajo del

    econometrista consiste en proporcionar estas estimaciones.

    La presencia del trmino de error (u) en esta ecuacin refleja el hecho de que

    los datos econmicos nunca se ajustan a funciones matemticamente exactas, de

    modo que funciones simples como la anterior slo pueden considerarse como

    aproximaciones a las verdaderas relaciones que se estn investigando. An si la

  • [3]

    verdadera relacin no es lineal, sin embargo, si el rango relevante de variacin de

    las variables no es muy grande, entonces la forma lineal podra constituir de todas

    maneras una buena aproximacin a la verdadera forma funcional.

    El Prof. Johnston ha propuesto tres diferentes razones para justificar el tr-

    mino de error en un anlisis economtrico.3 Por un lado, los datos econmicos

    siempre contienen errores de medicin, ya que las variables econmicas no pue-

    den ser medidas con exactitud. En este sentido, u puede ser interpretado literal-

    mente como un error genuino. Por otro lado, en un anlisis aplicado slo pue-

    den tomarse en cuenta las variables ms importantes para la explicacin de un fe-

    nmeno, y por tanto las ecuaciones en la prctica no pueden incluir todas las va-

    riables que pueden afectar una determinada variable dependiente. El efecto neto

    de las variables omitidas se refleja en el trmino de error, que en este sentido es

    interpretado como un residuo. Por ltimo, y como ya se mencion en el prrafo

    anterior, las relaciones econmicas probablemente no seran exactas an si no

    existiera ningn error de medicin, y an si todas las variables relevantes son in-

    cluidas en el anlisis. En ltima instancia, las variables econmicas dependen de

    la accin humana, y existe una cierta indeterminacin en el comportamiento hu-

    mano que slo puede ser representada mediante un trmino de perturbacin alea-

    torio, cuya varianza es incrementada por los errores de medicin y el efecto resi-

    dual de variables omitidas. Se reconoce de entrada, por tanto, que las estimacio-

    nes economtricas siempre contienen cierto elemento de incertidumbre. Con tc-

    nicas adecuadas, se puede tratar de reducir esta incertidumbre, aunque nunca se

    podr eliminar del todo. El estudiante de econometra debe estar siempre cons-

    ciente de las limitaciones de sus mtodos de anlisis.

    El propsito de este texto es familiarizar al estudiante de economa y/o

    administracin con las tcnicas ms comunes que se emplean en el anlisis

    economtrico aplicado. Esencialmente, se trata de estimar los coeficientes de

    ecuaciones lineales, tales como la ecuacin (1). En el siguiente captulo se discute

    el caso ms sencillo, el de una sola variable independiente, que puede ser tratado

    con tcnicas algebraicas relativamente simples. El caso ms general de k variables

    independientes requiere de tcnicas ms sofisticadas, y por esto es que el Captulo

    3 se dedica a un repaso de lgebra matricial, previo a la discusin del modelo de

    Regresin Lineal Mltiple, que es el tema del Captulo 4. En el Captulo 5 se

    consideran ampliaciones del modelo lineal, como ser la estimacin de formas no-

    lineales y el uso de variable binarias, y se discuten algunos problemas especiales

    que frecuentemente surgen en el anlisis de regresin, tales como multi-

    colinealidad, heteroscedasticidad y el efecto de variables omitidas, mientras que

    el importante problema de la autocorrelacin es tratado a fondo en el Captulo 6.

    3J. Johnston, Econometric Methods, 2a ed. (Nueva York: McGraw-Hill, 1972), pp. 10-

    11.

  • [4]

    Finalmente, el Captulo 7 trata de los problemas especiales que puede plantear la

    presencia de retardos en las ecuaciones de regresin.

    La lectura de este texto presupone que el estudiante conoce los rudimentos del

    clculo, y ciertos elementos de estadstica matemtica. Tambin es conveniente

    cierta familiaridad con las computadoras, y particularmente con el manejo de ho-

    jas electrnicas tipo Excel. Como lo indica el ttulo, este es un texto para un curso

    introductorio de econometra aplicada. Un texto introductorio debe ser selectivo,

    y si bien se ha hecho un esfuerzo por incluir la mayora de las herramientas que

    en la prctica debe emplear el investigador tpico en la situacin tpica, sin duda

    existen algunas lagunas ms o menos importantes. En aras de la brevedad, por

    ejemplo, se ha omitido por completo el tema de la estimacin de modelos de

    ecuaciones simultneas, de modo que el texto se limita nicamente al caso de

    modelos de ecuacin nica, e incluso en este caso slo se discuten los problemas

    que ms comnmente se plantean en la prctica. El estudiante que desea especia-

    lizarse en este campo podr subsanar estas deficiencias consultando algunos de

    los textos citados en la bibliografa.

  • [5]

    Captulo 2

    REGRESIN LINEAL SIMPLE

    2.1. Introduccin.

    En este captulo consideramos el caso ms simple de una regresin lineal, que

    es el de una ecuacin lineal con una variable dependiente (Y), y una sola variable

    independiente (X). Este modelo bsico puede ser representado como:

    Y = 0 + 1X + u

    donde 0 y 1 son los parmetros respectivos, y u es el trmino de error. (Siempre

    conviene recordar que en econometra las relaciones entre variables no son fun-

    ciones exactas, sino que son nicamente relaciones estadsticas. Por esto siempre

    es necesario incluir una variable de error en la relacin.)

    El parmetro 0, conocido como la ordenada en el origen, nos dice cunto

    es Y cuando X = 0. El parmetro 1, conocido como la pendiente, nos dice

    cunto aumenta Y por cada aumento de una unidad en X. Estos parmetros son

    desconocidos, y nuestro problema consiste en obtener estimaciones numricas de

    los mismos a partir de una muestra de observaciones sobre las variables estudia-

    das. El mtodo de estimacin ms comnmente empleado en el anlisis de regre-

    sin es el mtodo de mnimos cuadrados. La mejor forma de ilustrar la aplica-

    cin de este mtodo es por medio de un ejemplo prctico.

    Consideremos el Cuadro 2.1, que muestra datos mensuales de produccin y

    costos de operacin para una empresa britnica de transporte de pasajeros por ca-

    rretera durante los aos 1949-52. (La produccin se mide en trminos de miles de

    millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de

    libras por mes). Para poder visualizar el grado de relacin que existe entre las va-

    riables, como primer paso en el anlisis es conveniente elaborar un diagrama de

    dispersin, que es una representacin en un sistema de coordenadas cartesianas

    de los datos numricos observados. En el diagrama resultante, en el eje X se mi-

    den las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin

    mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y

    costos de operacin) que corresponde a un mes determinado. Como era de espe-

    rarse, existe una relacin positiva entre estas variables: una mayor cantidad de

    millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.

  • [6]

    Por otro lado, tambin se aprecia por qu este grfico se denomina un

    diagrama de dispersin: no existe una relacin matemticamente exacta entre

    las variables, ya que no toda la variacin en el costo de operacin puede ser

    explicada por la variacin en las millas-vehculo. Si entre estas variables existiera

    una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la

    recta de regresin, que tambin ha sido trazada y que muestra la relacin

    promedio que existe entre las dos variables. En la prctica, se observa que la

    mayora de los puntos no caen directamente sobre la recta, sino que estn

    dispersos en torno a ella. Esta dispersin representa la variacin en Y que no

    puede atribuirse a la variacin en X.

    CUADRO 2.1.

    OPERACIONES MENSUALES EN UNA EMPRESA DE TRANSPORTE DE PASAJEROS

    Costos Millas- Costos Millas-

    Totales Vehculo Totales Vehculo

    (miles) (miles) (miles) (miles)

    Mes N Y X Mes N Y X

    1 213.9 3147 20 243.7 4019

    2 212.6 3160 21 262.3 4394

    3 215.3 3197 22 252.3 4251

    4 215.3 3173 23 224.4 3844

    5 215.4 3292 24 215.3 3276

    6 228.2 3561 25 202.5 3184

    7 245.6 4013 26 200.7 3037

    8 259.9 4244 27 201.8 3142

    9 250.9 4159 28 202.1 3159

    10 234.5 3776 29 200.4 3139

    11 205.9 3232 30 209.3 3203

    12 202.7 3141 31 213.9 3307

    13 198.5 2928 32 227.0 3585

    14 195.6 3063 33 246.4 4073

    15 200.4 3096

    16 200.1 3096

    17 201.5 3158

    18 213.2 3338

    19 219.5 3492

    Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A.,

    1966), p. 118.

  • [7]

    DIAGRAMA DE DISPERSIN

    180

    200

    220

    240

    260

    280

    2500 3000 3500 4000 4500

    MILLAS

    CO

    STO

    S

  • [8]

    2.2. Mtodo de Mnimos Cuadrados.

    En un anlisis de regresin, tratamos de contestar dos preguntas bsicas:

    1. Cul es la relacin estadstica que existe entre la variable dependiente (Y) y la

    variable independiente (X)? Para contestar esta pregunta, debemos obtener esti-

    maciones de los parmetros de la recta de regresin, es decir, los coeficientes 0 y

    1 de la ecuacin (1). En el ejemplo concreto que nos concierne aqu, el estima-

    dor de 1 nos ayuda a responder una pregunta muy importante: cunto aumenta,

    en promedio, el costo de operacin por cada milla-vehculo adicional?

    2. Qu porcentaje de la variacin total en la variable dependiente se puede atri-

    buir a la variacin en la variable independiente? Para contestar esta pregunta, de-

    bemos comparar la dispersin de los datos en torno a la recta de regresin con la

    variacin total en la variable dependiente.

    La primera de estas dos preguntas supone encontrar la recta que mejor se

    ajusta a los datos observados, lo que obviamente requiere algn criterio de

    seleccin. Supongamos que tenemos dos estimadores de los coeficientes 0 y 1,

    que denotaremos por b0 y b1, respectivamente, y consideremos el i-simo punto

    del diagrama de dispersin, que representa un valor para la variable

    independiente (Xi) y un valor para la variable dependiente (Yi). Dado el valor de

    Xi, el valor de Y calculado por la recta de regresin ser b0 + b1Xi y la diferencia

    entre este valor calculado y el valor realmente observado (Yi) ser el error

    correspondiente a la i-sima observacin:

    ei = Yi b0 b1Xi

    Sea n el nmero total de observaciones en la muestra (en este ejemplo n = 33).

    Para cada observacin individual habr un error correspondiente, y el mtodo de

    minimos cuadrados consiste en encontrar los valores de b0 y b1 que minimizan

    la suma de los errores cuadrados para la muestra en conjunto. Es decir, se trata

    de minimizar la variable:

    211

    0

    1

    2 )( i

    n

    i

    i

    n

    i

    i XbbYeQ

    Ntese que esta expresin es funcin de b0 y b1, ya que diferentes valores para

    estos parmetros producirn diferentes conjuntos de errores. En otras palabras, la

    suma de los errores cuadrados es funcin de la recta de regresin. Segn el

    criterio de mnimos cuadrados, la mejor recta de regresin es la que minimiza

    Q. Aplicando un conocido principio del clculo, para minimizar Q calculamos las

    derivadas parciales respecto de b0 y de b1, y las igualamos a 0:

  • [9]

    0)(2 11

    0

    0

    i

    n

    i

    i XbbYb

    Q

    0)(2 11

    0

    1

    ii

    n

    i

    i XXbbYb

    Q

    Esto nos proporciona un sistema de dos ecuaciones con dos incgnitas. Resol-

    viendo el sistema podemos obtener los valores de b0 y b1. En la terminologa del

    anlisis de regresin estas ecuaciones son a veces denominadas las ecuaciones

    normales. Ntese que la primera de estas ecuaciones equivale a la restriccin

    0 ie , mientras que la segunda equivale a la restriccin 0 iieX . Este es un resultado importante que ser utilizado ms adelante en este captulo. (En lo

    sucesivo suprimiremos el uso del subndice en las sumatorias, para facilitar la no-

    tacin. Se entiende que todas las sumas se efectan sobre i = 1, 2, ... , n.) Simpli-

    ficando estas ecuaciones, podemos obtener las siguientes expresiones equivalen-

    tes:

    (1) XbnbY 10

    (2) 210 XbXbXY

    La ecuacin (1) tambin puede expresarse como

    (3) xbyb 10

    donden

    Yy

    es el promedio aritmtico de los valores para Y, y

    n

    Xx

    es el

    promedio aritmtico de los valores para X. Sustituyendo (3) en (2), y reordenando

    trminos, obtenemos la siguiente expresin para b1:

    (4)

    XxX

    XyXYb

    21

    Las frmulas (3) y (4) nos permiten calcular b0 y b1 a partir de los datos observa-

    dos. Para el ejemplo de los costos de transporte, tenemos:

    1.231,7Y (por tanto 12424.219331.231,7 y )

    879,113X (por tanto 8788.450,333879,113 x )

    3.020,216,25XY 769,855,3982X

  • [10]

    Sustituyendo estos valores en la frmula (4) obtenemos:

    044673.0)879,113)(8788.450,3(769,855,398

    )879,113)(12424.219(3.020,216,251

    b

    Por ltimo, sustituyendo este valor en la frmula (3), juntamente con los valores

    para x y y , obtenemos:

    963.64)8788.450,3)(044673.0(12424.2190 b

    Estos dos parmetros definen la recta de regresin, que podemos expresar como

    sigue:

    XY 044673.0963.64

    (Usamos el smbolo Y para representar el valor calculado de Y segn la recta de

    regresin. Es muy importante distinguir claramente entre Y y Y, que es el valor

    observado de la variable dependiente.) Segn esta estimacin, y en nmeros

    redondos, podemos esperar que en promedio el costo de operacin se incremente

    alrededor de 0.045 libras por cada milla-vehculo adicional, mientras que el

    costo fijo mensual (i.e., la parte del costo de operacin que no vara con las

    millas recorridas) es de aproximadamente 65,000 libras al mes, en promedio.

    2.3. Coeficiente de Determinacin (R2).

    Habiendo calculado la recta de regresin, podemos ahora tratar de responder a

    la segunda pregunta planteada en la seccin anterior: qu porcentaje de la varia-

    cin total en el costo de operacin (Y) se debe a la variacin en las millas-

    vehculo recorridas (X)? En otras palabras, y en trminos ms generales, cul es

    la proporcin de la variacin total en Y que puede ser explicada por la variacin

    en X? Para poder contestar esta pregunta, debemos antes descomponer la varia-

    cin total en Y en sus dos componentes: la variacin explicada, que se puede

    atribuir a la variacin en X, y la variacin no-explicada, que se debe a factores

    desconocidos y que representamos por los errores de la regresin.

    Por definicin de la recta de regresin, tenemos que para cualquier observa-

    cin individual el valor observado de Y ser igual a la Y calculada ms el error:

    iii eYY

    Ntese que esto implica que ii YY , ya que se recordar que 0ie por la primera ecuacin normal. Esto implica a su vez que el promedio de las Y es

  • [11]

    exactamente igual a y . Si restamos y de ambos lados de esta ecuacin y eleva-

    mos al cuadrado tendremos:

    iiiiiii eyYeyYeyYyY )(2)(])[()( 2222

    Por ltimo, si sumamos sobre todas las observaciones tendremos:

    (5) eyYeyYyY )(2)()( 222

    donde nuevamente hemos suprimido los subndices para simplificar la notacin.

    Consideremos ahora la expresin:

    eYeyeYeyY )(

    ya que 0e , por la primera ecuacin normal. A su vez, por la definicin de Y tenemos que:

    0)( 1010 XebebeXbbeY

    ya que 0e por la primera ecuacin normal, y 0Xe por la segunda ecuacin normal. Por tanto, la ecuacin (5) se reduce a la siguiente expresin:

    222 )()( eyYyY

    En palabras, esto nos indica que la variacin total de la variable dependiente (en

    torno a su promedio) se puede descomponer en dos partes: (1) la variacin total

    de la Y calculada, y (2) la suma de los errores cuadrados. Puesto que la

    variacin de la Y calculada se debe totalmente a la variacin en X, a este primer

    componente de la variacin total en Y se le conoce como la variacin explicada,

    ya que es la parte de la variacin en Y que puede ser atribuida a la variacin en la

    variable independiente. El segundo componente de la variacin en Y, la suma de

    los errores cuadrados, representa la variacin no-explicada, ya que es la parte

    residual de la variacin en Y que no puede ser atribuida a la variacin en X. Si

    expresamos la variacin explicada como porcentaje de la variacin total,

    obtenemos el siguiente estadstico importante que se conoce como el coeficiente

    de determinacin:

    2

    2

    2

    2

    2

    )(1

    )(

    )(

    yY

    e

    yY

    yYR

    Los clculos relevantes para el caso de los costos de transporte se muestran en el

    Cuadro 2.2. El valor de 0.9464 para R2 nos indica que la variacin en las millas-

    vehculo recorridas explica el 94.64 % de la variacin en el gasto de operacin

    mensual. El resto de la variacin observada (5.36 %) se debe a otros factores.

  • [12]

    CUADRO 2.2. CLCULO DE R2 PARA EL CASO DE LOS COSTOS DE TRANSPORTE.

    Mes N Y X Y e e2 Y

    2

    1 213.9 3147 205.5489 8.3511 69.7409 45753.21

    2 212.6 3160 206.1297 6.4703 41.8648 45198.76

    3 215.3 3197 207.7826 7.5174 56.5113 46354.09

    4 215.3 3173 206.7104 8.5896 73.7812 46354.09

    5 215.4 3292 212.0265 3.3735 11.3805 46397.16

    6 228.2 3561 224.0436 4.1564 17.2757 52075.24

    7 245.6 4013 244.2357 1.3643 1.8613 60319.36

    8 259.9 4244 254.5552 5.3448 28.5669 67548.01

    9 250.9 4159 250.7580 0.1420 0.0202 62950.81

    10 234.5 3776 233.6482 0.8518 0.7256 54990.25

    11 205.9 3232 209.3461 -3.4461 11.8756 42394.81

    12 202.7 3141 205.2809 -2.5809 6.6610 41087.29

    13 198.5 2928 195.7655 2.7345 7.4775 39402.25

    14 195.6 3063 201.7964 -6.1964 38.3954 38259.36

    15 200.4 3096 203.2706 -2.8706 8.2403 40160.16

    16 200.1 3096 203.2706 -3.1706 10.0527 40040.01

    17 201.5 3158 206.0403 -4.5403 20.6143 40602.25

    18 213.2 3338 214.0815 -0.8815 0.7770 45454.24

    19 219.5 3492 220.9611 -1.4611 2.1348 48180.25

    20 243.7 4019 244.5039 -0.8039 0.6463 59389.69

    21 262.3 4394 261.2562 1.0438 1.0895 68801.29

    22 252.3 4251 254.8679 -2.5679 6.5941 63655.29

    23 224.4 3844 236.6860 -12.2860 150.9458 50355.36

    24 215.3 3276 211.3117 3.9883 15.9065 46354.09

    25 202.5 3184 207.2018 -4.7018 22.1069 41006.25

    26 200.7 3037 200.6349 0.0651 0.0042 40280.49

    27 201.8 3142 205.3256 -3.5256 12.4299 40723.24

    28 202.1 3159 206.0850 -3.9850 15.8802 40844.41

    29 200.4 3139 205.1915 -4.7915 22.9585 40160.16

    30 209.3 3203 208.0506 1.2494 1.5610 43806.49

    31 213.9 3307 212.6966 1.2034 1.4482 45753.21

    32 227.0 3585 225.1157 1.8843 3.5506 51529.00

    33 246.4 4073 246.9161 -0.5161 0.2664 60712.96

    Sumas 7231.1 113879 7231.0953 (*) 0.0047 663.3451 1596893.53

    2557.384,12)12424.219)(33(53.893,596,1)()( 2222 ynYyY

    9464.0)2557.384,123451.663(12 R

    (*) La suma algebraica de los errores no es exactamente 0 debido a errores de redondeo.

  • [13]

    PREGUNTAS DE REPASO

    1. Defina los siguientes conceptos:

    a) diagrama de dispersin

    b) recta de regresin

    c) criterio de mnimos cuadrados

    d) coeficiente de determinacin.

    2. (Regresin por el Origen) En algunas situaciones, se sabe que la relacin en-

    tre Y y X pasa por el origen en el sentido de que 0 = 0. Este sera el caso

    cuando Y = 0 por definicin cuando X = 0. En este caso la recta de regresin

    sera simplemente Y = 1X + u.

    a) Derive la frmula para b1, el estimador de 1, usando el criterio de mni-

    mos cuadrados.

    b) Ntese que en este caso la suma algebraica de los errores, ie , ya no es igual a 0. Por qu? Qu implicaciones tiene esto para la interpretacin de

    R2?

    c) En el caso de una regresin lineal convencional, 0 < R2 < 1 por definicin.

    Sin embargo, en el caso de una regresin por el origen, se puede dar el caso

    de una R2 negativa. Muestre grficamente de qu forma podra darse esta

    situacin.

  • [14]

    CASOS APLICADOS

    Caso A Elecciones en Florida

    En las elecciones presidenciales norteamericanas de Noviembre 2000 los conten-

    dientes principales, George Bush y Al Gore, resultaron casi empatados en trmi-

    nos de votos electorales, por lo que el resultado dependa crucialmente de los co-

    micios en el estado de Florida, donde el escrutinio inicial no dio un resultado de-

    finitivo a favor de ninguno de los candidatos. A medida que prosegua el conteo,

    surgieron varias anomalas, una de las cuales tuvo que ver con el condado de

    Palm Beach. Entre otras cosas, se aleg que en este condado muchos votantes que

    deseaban votar por Gore se confundieron, debido al diseo de la papeleta electo-

    ral, y votaron por error por un candidato marginal, Pat Buchanan, del Reform

    Party. (El condado de Palm Beach tena una papeleta electoral un tanto confusa y

    con un formato diferente a la de los dems condados en el estado.)

    El cuadro adjunto muestra la votacin obtenida por Buchanan en todos los con-

    dados del estado de Florida, y se aprecia claramente que la cantidad de votos ob-

    tenidos por ese candidato en Palm Beach fue exageradamente grande en compa-

    racin al resto del estado. Presumiblemente, muchos de estos fueron efectivamen-

    te votos errneos (y probablemente con la intencin de votar por Gore, debido al

    diseo de la papeleta). La pregunta es si se puede obtener una estimacin aproxi-

    mada de la cantidad de estos votos errneos.

    Como una primera aproximacin, se esperara que la votacin obtenida por Bu-

    chanan en un condado determinado estara positivamente relacionada con la can-

    tidad de personas afiliadas al Reform Party residentes en ese condado. Este dato

    tambin se muestra en el cuadro adjunto.

    Con esta informacin:

    (a) Construya un diagrama de dispersin, relacionando las dos variables.

    (b) Calcule la lnea de regresin (excluyendo la observacin para Palm

    Beach), y con los resultados obtenidos, haga una estimacin de la vota-

    cin excedente obtenida por Buchanan en Palm Beach.

    (c) Tomando en cuenta que segn los resultados oficiales, Bush gan a Gore

    en Florida por una diferencia de 537 votos (sobre un total de ms de

    6,100,000 votos emitidos), comente sobre las implicaciones de este anli-

    sis para el resultado final de las elecciones presidenciales de ese ao.

  • [15]

    RESULTADOS ELECTORALES EN FLORIDA, NOV 2000 REFORM PARTY (P. BUCHANAN)

    Registrados Votos por Registrados Votos por

    Condado Reform Party Buchanan Condado Reform Party Buchanan

    Alachua 91 263 Lake 80 289

    Baker 4 73 Lee 113 305

    Bay 55 248 Leon 80 282

    Bradford 3 65 Levy 17 67

    Brevard 148 570 Liberty 0 39

    Broward 332 788 Madison 2 29

    Calhoun 2 90 Manatee 140 271

    Charlotte 41 182 Marion 108 563

    Citrus 44 270 Martin 48 112

    Clay 40 186 Monroe 62 47

    Collier 118 122 Nassau 13 90

    Columbia 35 89 Okaloosa 96 267

    Dade 217 560 Okeechobe 27 43

    Desoto 7 36 Orange 199 446

    Dixie 0 29 Osceola 62 145

    Duval 150 652 Pasco 167 570

    Escambia 130 502 Pinellas 425 1013

    Flagler 30 83 Polk 119 532

    Franklin 0 33 Putnam 27 148

    Gadsden 11 38 Santa Rosa 55 311

    Gilchrist 6 29 Sarasota 154 305

    Glades 2 9 Seminole 81 194

    Gulf 3 71 St.Johns 59 229

    Hamilton 3 23 St.Lucie 25 124

    Hardee 4 30 Sumter 21 114

    Hendry 10 22 Suwannee 7 108

    Hernando 43 242 Taylor 3 27

    Highlands 24 127 Union 1 37

    Hillsborough 299 847 Volusia 176 496

    Holmes 2 76 Wakulla 7 46

    Indian River 66 105 Walton 22 120

    Jackson 8 102 Washington 9 88

    Jefferson 2 29

    Lafayette 0 10 PALM BEACH 337 3407

    Fuentes: Florida Dept. of State, Division of Elections, "County Voter Registration by Party," Oct 10, 2000 (http://election.dos.state.fl.us/pdf/2000voterreg/2000genparty.pdf); ABC News, "Florida: Real-Time County Returns" (www.abcnews.go.com/sections/poli tics/2000vote/general/FL_county.html), visited June 15, 2001.

  • [16]

    Caso B Desempleo y Crecimiento Econmico

    En 1962 el economista norteamericano Arthur Okun plante un modelo macro-

    econmico para explicar las variaciones en la tasa de desempleo. Segn este mo-

    delo, que se conoce hoy en da como la ley de Okun, existe una relacin lineal

    entre el cambio en la tasa de desempleo y la tasa de crecimiento del Producto In-

    terno Bruto (PIB) real.4 El siguiente cuadro muestra datos sobre desempleo y cre-

    cimiento econmico en los Estados Unidos durante el perodo 1972-2011:

    Tasa de Crecimiento Tasa de Crecimiento

    Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)

    1972 5.6 5.3 1992 7.5 3.4

    1973 4.9 5.8 1993 6.9 2.9

    1974 5.6 -0.6 1994 6.1 4.1

    1975 8.5 -0.2 1995 5.6 2.5

    1976 7.7 5.4 1996 5.4 3.7

    1977 7.1 4.6 1997 4.9 4.5

    1978 6.1 5.6 1998 4.5 4.4

    1979 5.8 3.1 1999 4.2 4.8

    1980 7.1 -0.3 2000 4.0 4.1

    1981 7.6 2.5 2001 4.7 1.1

    1982 9.7 -1.9 2002 5.8 1.8

    1983 9.6 4.5 2003 6.0 2.5

    1984 7.5 7.2 2004 5.5 3.5

    1985 7.2 4.1 2005 5.1 3.1

    1986 7.0 3.5 2006 4.6 2.7

    1987 6.2 3.2 2007 4.6 1.9

    1988 5.5 4.1 2008 5.8 -0.3

    1989 5.3 3.6 2009 9.3 -3.5

    1990 5.6 1.9 2010 9.6 3.0

    1991 6.8 -0.2 2011 8.9 1.7

    Fuente: Economic Report of the President, 2012 (Washington: U.S. Government Printing Office, 2012), Table B-4, Table B-43 (pp. 321, 369).

    4A. M. Okun, Potential GNP: Its Measurement and Significance, Proceedings (Busi-ness and Economics Section), American Statistical Association, 1962, pp. 98-104. Para

    aplicaciones ms recientes del modelo de Okun vase Paul Krugman, How Fast Can the U.S. Economy Grow? Harvard Business Review, 75 (1997): 123-29 y J. Crespo Cuaresma, Okuns Law Revisited, Oxford Bulletin of Economics and Statistics, 65 (2003): 439-51.

  • [17]

    a) Use estos datos para estimar el modelo de Okun, y explique el significado

    de los coeficientes obtenidos.

    b) En este problema, el punto donde la recta intersecta al eje X tiene un sig-

    nificado econmico interesante. Determine este punto para este caso, y

    explique su significado en trminos del modelo de Okun.

    Caso C Desempleo y Crecimiento Econmico (cont.)

    Como regularidad emprica, la Ley de Okun es una de las relaciones macroeco-

    nmicas ms estables que se conocen. Para comprobarlo, vuelva a estimar el mo-

    delo de Okun usando datos sobre desempleo y crecimiento econmico en Estados

    Unidos durante el perodo 1929-54. (Para el estudio de las fluctuaciones en el

    desempleo, este perodo muestral es particularmente interesante, porque incluye

    el perodo de la Gran Depresin de los aos 30s.)

    Compare con la regresin estimada en el caso anterior, y comente sobre los resul-

    tados.

    Tasa de Crecimiento Tasa de Crecimiento

    Ao Desempleo (%) PIB real (%) Ao Desempleo (%) PIB real (%)

    1929 3.2 . 1942 4.7 12.1

    1930 8.9 -9.5 1943 1.9 11.2

    1931 15.9 -7.0 1944 1.2 7.1

    1932 23.6 -15.0 1945 1.9 -1.2

    1933 24.9 -2.7 1946 3.9 -10.0

    1934 21.7 9.4 1947 3.6 -0.1

    1935 20.1 10.4 1948 3.4 3.8

    1936 17.0 13.3 1949 5.5 -0.1

    1937 14.3 5.9 1950 5.0 8.7

    1938 19.0 -4.6 1951 3.0 7.5

    1939 17.2 8.1 1952 2.7 3.4

    1940 14.6 8.7 1953 2.5 4.4

    1941 9.9 15.7 1954 5.0 -1.6

    Fuentes: (a) Desempleo Stanley Lebergott, Annual Estimates of Unemployment in the U.S., 1900-1950, en The Measurement and Behavior of Unemployment (Princeton University Press, 1957), Table 1, pp. 215-16; (b) Crecimiento PIB real Economic Report of the President, 1962 (Washington: Government Printing Office, 1962), Table B-3, p. 210.

  • [18]

    Caso D Costos de Impresin

    Se espera que mientras mayor sea el nmero de pginas en un libro, mayor sea su

    costo de impresin, ceteris paribus. Usted desea estimar la relacin entre el costo

    promedio por ejemplar y el nmero de pginas, tomando una muestra de los lti-

    mos 10 anuarios publicados por una asociacin acadmica5:

    Libro No. Nmero de

    Pginas Cantidad de Ejemplares

    Costo Total

    1 754 12,400 $ 16,253.00

    2 677 12,700 $ 15,471.00

    3 689 14,000 $ 16,780.00

    4 745 14,800 $ 18,914.00

    5 675 15,800 $ 19,759.00

    6 615 16,000 $ 18,277.00

    7 753 17,700 $ 23,440.00

    8 698 18,500 $ 23,362.00

    9 652 20,000 $ 23,264.00

    10 670 22,500 $ 28,405.00

    (a) Qu porcentaje de la variacin en el costo promedio se explica por la varia-

    cin en el nmero de pginas?

    (b) Cul sera su estimacin del costo marginal por ejemplar para un libro de

    500 pginas?

    5Los datos sobre costos de publicacin fueron tomados de H. F. Williamson, Report of the Secretary for the Year 1966, American Economic Review, 57 (May 1967), p. 690 (Exhibit II).

  • [19]

    Caso E Costos de Operacin en Escuelas Pblicas

    En un estudio de los costos de operacin en escuelas pblicas del estado de Wis-

    consin,6 el economista John Riew clasific a 109 escuelas secundarias en grupos

    segn su tamao (nmero de estudiantes inscritos), y encontr que el costo anual

    promedio por alumno se comportaba de la siguiente manera:

    Tamao de la Escuela

    Nmero de Escuelas

    Costo Promedio por Alumno

    143-200 6 $ 531.90

    201-300 12 $ 480.80

    301-400 19 $ 446.30

    401-500 17 $ 426.90

    501-600 14 $ 442.60

    601-700 13 $ 413.10

    701-900 9 $ 374.30

    901-1100 6 $ 433.20

    1101-1600 6 $ 407.30

    1601-2400 7 $ 405.60

    Total 109

    Use estos datos para obtener una estimacin aproximada del costo marginal por

    alumno en escuelas de este tipo.

    6John Riew, Economies of Scale in High School Operation, Review of Economics and

    Statistics, 48 (1966), p. 282 (Table 2).

  • [20]

    Captulo 3

    REPASO DE ALGEBRA MATRICIAL

    En el captulo anterior se discuti el caso ms simple de una regresin lineal con

    una sola variable independiente. Por cierto que la aplicabilidad prctica de este

    modelo simple es relativamente limitada, ya que generalmente las variaciones en

    la variable dependiente no obedecen a un solo factor, sino que ms bien existen

    varios factores diferentes que pueden estarla influenciando.

    En el caso ms general de k diferentes variables independientes, nuestro pro-

    blema consiste en estimar los coeficientes de la siguiente ecuacin:

    Y = 0 + 1X1 + 2X2 + ... + kXk + u

    Se puede apreciar que en este caso la aplicacin del criterio de mnimos cuadra-

    dos por medio de mtodos algebraicos sera sumamente tedioso y complicado.

    Afortunadamente, por medio de lgebra matricial se puede obtener una solucin

    bastante compacta por medio de unas pocas frmulas muy simples. Por tanto, en

    este captulo repasaremos los elementos del lgebra de matrices que sern reque-

    ridos en el resto del texto.

    3.1. Matrices.

    Una matriz es una coleccin rectangular de elementos, ordenados en filas y

    columnas. En su forma ms general, una matriz tiene la siguiente forma:

    A =

    mnmm

    n

    n

    aaa

    aaa

    aaa

    ...

    ......

    ......

    ...

    ...

    21

    22221

    11211

    donde aij (el elemento caracterstico de la matriz) es el elemento ubicado en la

    fila i y la columna j. Si una matriz tiene m filas y n columnas, se dice que es de

  • [21]

    orden m por n ( nm ). La expresin [aij] tambin se usa para denotar a la ma-

    triz que tiene aij como elemento caracterstico. En este caso, A = [aij].

    Un vector es un caso especial de una matriz que tiene una sola fila (vector

    fila) o una sola columna (vector columna). En lo que sigue, usaremos letras

    maysculas para denotar matrices, y letras minsculas para denotar vectores.

    3.2. Operaciones con Matrices.

    a) Igualdad de dos matrices Se dice que dos matrices A y B son iguales cuan-

    do son del mismo orden y aij = bij para todo i, j. Esto es, las matrices deben ser

    iguales, elemento por elemento.

    b) Suma y resta de matrices Si A y B son del mismo orden, entonces A + B

    ser una nueva matriz C tal que cij = aij + bij. Esto es, se suman los elementos co-

    rrespondientes de las dos matrices. En forma similar, A B ser una nueva matriz

    D tal que dij = aij bij, esto es, se restan los elementos correspondientes de las dos

    matrices.

    Ejemplo.

    A

    3 4 1

    0 1 2

    1 2 0

    B

    0 0 1

    5 6 4

    4 1 6

    A B

    3 4 2

    5 7 6

    5 3 6

    A B

    3 4 0

    5 5 2

    3 1 6

    c) Multiplicacin escalar Si es una constante, entonces el producto escalar

    de por una matriz A ser tal que A = [aij]. Esto es, se multiplica cada ele-

    mento de A por .

    d) Multiplicacin de matrices Si A es una matriz de orden nm , y B es una

    matriz de orden pn , entonces el producto AB ser una matriz C de orden

    pm con elemento caracterstico:

    n

    k

    kjikij bac1

  • [22]

    Es decir, el elemento en la i-sima fila y j-sima columna de AB se encuentra

    multiplicando los elementos de la i-sima fila de A por los elementos correspon-

    dientes de la j-sima columna de B, y sumando los productos.

    Ejemplo.

    A

    3 4

    0 1

    1 2

    B 5 6

    4 1AB

    31 22

    4 1

    13 8

    Ntese que para poder multiplicar dos matrices, el nmero de columnas de la

    primera matriz debe ser igual al nmero de filas de la segunda matriz (caso con-

    trario, el producto no est definido). Cuando se multiplican dos matrices, la ma-

    triz resultante tendr el mismo nmero de filas que la primera matriz, y el mismo

    nmero de columnas que la segunda matriz. Es muy importante el orden en que

    se multiplican las matrices, ya que en el caso de lgebra matricial el orden de los

    factores s altera el producto: BA generalmente no ser igual a AB, y podra no

    existir.

    3.3. Teoremas sobre Matrices.

    (i) Ley Conmutativa de la Suma.

    A + B = B + A

    Este resultado se desprende directamente de la definicin de la suma de ma-

    trices.

    (ii) La Multiplicacin de Matrices no es Conmutativa.

    Como ya se mencion en la seccin anterior, en general AB BA (excepto en

    el caso algunas matrices especiales). De hecho, a veces alguno de estos productos

    ni siquiera estar definido. Los dos productos AB y BA existirn si las matrices

    son de orden nm y mn , respectivamente. En ese caso, el primer producto se-

    r de orden mm , y el segundo de orden nn . (An en el caso de que los dos

    productos sean del mismo orden, en general no sern iguales.)

    (iii) Ley Asociativa de la Suma.

    (A + B) + C = A + (B + C)

    (iv) Ley Asociativa del Producto.

    (AB)C = A(BC)

  • [23]

    (v) Ley Distributiva.

    A(B + C) = AB + AC

    (A + B)C = AC + BC

    3.4. Clases Especiales de Matrices.

    Matriz Cuadrada: Se dice que una matriz es cuadrada si el nmero de filas

    es igual al nmero de columnas (m = n).

    Matriz Diagonal: Es una matriz cuadrada que tiene elementos, no necesaria-

    mente iguales, a lo largo de su diagonal principal (los elementos aii), y ceros en

    el resto. Obviamente, slo las matrices cuadradas tienen una diagonal principal.

    Matriz Identidad: Es una clase especial de matriz diagonal, que slo tiene

    unos en la diagonal principal. Esta es una matriz muy importante, y se representa

    por el smbolo especial I. Se comprueba fcilmente que si se multiplica cualquier

    matriz A por una matriz identidad del orden apropiado, entonces AI = A y IA =

    A.

    Matriz Escalar: Es una matriz diagonal que tiene la misma constante en la

    diagonal principal. Si la constante es , entonces la matriz escalar se puede repre-

    sentar por I.

    Matriz Idempotente: Es una matriz cuadrada tal que AA = A.

    3.5. Traza de una Matriz Cuadrada.

    La traza de una matriz cuadrada de orden n, tr(A), se define como la suma

    de los elementos de su diagonal principal:

    tr(A) =

    n

    i

    iia1

    Es obvio que tr(A + B) = tr(A) + tr(B), y tr(A B) = tr(A) tr(B).

    La traza tambin tiene la siguiente propiedad importante: Si el producto de dos

    matrices A y B es una matriz cuadrada, entonces tr(AB) = tr(BA).

  • [24]

    Demostracin. Sea C = AB, donde A es de orden nm , y B es de orden mn .

    Entonces el elemento caracterstico de C ser:

    n

    k

    kjikij bac1

    tr(AB) =

    m

    i

    n

    k

    n

    k

    m

    i

    ikkikiik

    m

    i

    ii abbac1 1 1 11

    = tr(BA)

    ya que

    m

    i

    ikki ab1

    es el elemento dkk de D = BA.

    Corolario: tr(ABC) = tr(BCA) = tr(CAB).

    3.6. Transposicin de Matrices.

    A' (A transpuesta) es la matriz que resulta de A tras intercambiar filas por

    columnas. El elemento caracterstico de A' es a'ij = aji. Por ejemplo,

    A =

    3813

    214

    12231

    A' =

    321

    8122

    13431

    Si A' = A, se dice que A es una matriz simtrica. (Obviamente, para que una

    matriz sea simtrica, tiene que ser cuadrada.)

    Teoremas sobre Transpuestas.

    3.6.1. (A')' = A

    3.6.2. (A + B)' = A' + B'

    3.6.3. (AB)' = B'A'

    Demostracin. Si C = AB, entonces

    n

    k

    kjikij bac1

    . Por tanto, el elemento carac-

    terstico de C' ser

    n

    k

    kjik

    n

    k

    jkki

    n

    k

    kijkjiij ababbacc111

    '''

    que es precisamente el elemento caracterstico del producto B'A'.

  • [25]

    Corolario. (ABC)' = C'B'A'

    Otro Corolario. AA' y A'A son simtricas. (Nota: En general AA' A'A, pero

    sus trazas son siempre iguales. Por qu?)

    3.7. Matriz Inversa.

    Se dice que A1

    es la inversa de una matriz cuadrada A, si A1A = AA1 = I.

    Propiedades de la Inversa.

    3.7.1. (A1

    )1

    = A

    3.7.2. (AB)1

    = B1

    A1

    Demostracin. AB(B1

    A1

    ) = A(BB1

    )A1

    = AA1

    = I

    3.7.3. (A')1

    = (A1

    )'

    Demostracin. Se sabe que

    (1) A'(A')1

    = I

    Transponiendo (1) tenemos ((A')1

    )'A = I. Por tanto,

    (2) ((A')1

    )' = A1

    Transponiendo (2) obtenemos el teorema.

    Corolario. Si A es simtrica, entonces A = A', y por tanto (A1

    )' = A1

    (la inversa

    de una matriz simtrica es simtrica).

  • [26]

    PREGUNTAS DE REPASO

    1. Defina los siguientes trminos:

    a) Matriz cuadrada

    b) Matriz identidad

    c) Diagonal principal

    d) Matriz simtrica

    e) Matriz idempotente

    f) Traza de una matriz

    2. Construya algunos ejemplos numricos para verificar los teoremas sobre

    matrices enunciados en las secciones 3.3, 3.6 y 3.7.

    3. Expanda (A + B)(A B) y (A B)(A + B). Son iguales? Por qu no?

    4. Compruebe que para una matriz X de orden kn , las siguientes matrices son

    idempotentes:

    a) X(X'X)1

    X'

    b) I X(X'X)1X'

    5. Compruebe que para una matriz X de orden kn , tr[I X(X'X)1X'] = n k.

    6. Si y es un vector 1n , y X es una matriz kn , cul es el orden de la si-guiente expresin?

    (X'X)1

    X'y

  • [27]

    Captulo 4

    REGRESIN LINEAL MLTIPLE

    En este captulo discutiremos el modelo general de regresin mltiple. En la

    primera seccin derivamos el estimador mnimo-cuadrtico para el caso general

    de k variables independientes, siguiendo un razonamiento anlogo al del Captulo

    2. En la segunda seccin introducimos el tema de la inferencia estadstica en la

    regresin lineal. Este es un tema nuevo, que no ha sido discutido en captulos

    anteriores. En la tercera seccin comentamos sobre la interpretacin del

    coeficiente de determinacin (R2) en el contexto de regresiones mltiples.

    Finalmente, en la cuarta seccin ilustramos la aplicacin de los resultados

    analticos obtenidos por medio de un ejemplo numrico.

    4.1. Vector Mnimo-Cuadrtico.

    4.1.1. Planteo del Problema.

    Expresamos una variable dependiente Y como funcin lineal de k variables

    independientes X1, X2, ... , Xk:

    Y = 0 + 1X1 + 2X2 + ... + kXk + u

    donde 0, 1, 2, ... , k son constantes desconocidas, y u es una variable aleatoria

    que refleja la variacin en Y que no puede atribuirse a las variables independien-

    tes (o explicativas). El problema consiste en obtener estimaciones de los k + 1

    coeficientes en este modelo mediante anlisis de n observaciones conjuntas sobre

    la variable dependiente y las k variables independientes.

    Ntese que podemos representar las observaciones sobre Y como un vector y

    de orden 1n , mientras que las observaciones sobre las X podemos representar-

    las como una matriz X de orden kn :

  • [28]

    Observacin

    N Y X1 X2 .... Xk

    1 Y1 X11 X12 .... X1k

    2 Y2 X21 X22 .... X2k

    3 Y3 X31 X32 .... X3k

    . . . . .... .

    . . . . .... . i Yi Xi1 Xi2 .... Xik

    . . . . .... .

    . . . . .... .

    n Yn Xn1 Xn2 .... Xnk

    y X

    Se comprueba adems que si la matriz X se aumenta con una columna de 1s

    (para poder tomar en cuenta 0, la ordenada en el origen), entonces el modelo

    lineal para las n observaciones se puede expresar como:

    y = X + u

    donde es un vector de orden 1)1( k cuyos elementos son los coeficientes del

    modelo lineal (0, 1, 2, ... , k), X es una matriz de orden )1( kn de obser-

    vaciones sobre la variables independientes (incluyendo la columna de 1s) y u es

    un vector-columna de orden 1n cuyos elementos (u1, u2, ... , un) consisten de n variables aleatorias idnticamente distribuidas.

    Dado un vector b de estimadores de los coeficientes, el vector y tambin pue-

    de expresarse como:

    y = Xb + e

    donde e es un vector de orden 1n cuyos elementos (e1, e2, ... , en) son los resi-

    duos obtenidos de la ecuacin estimada. (Esto es, e = y Xb, donde Xb es la Y

    calculada. No debe confundirse b con , ni e con u.)

  • [29]

    4.1.2. Estimacin de b.

    El vector b que minimiza la suma de los errores cuadrados (e'e) se llama el

    vector mnimo-cuadrtico. Por definicin,

    e'e = 2

    22110

    2 )...( kk XbXbXbbYe

    (Nuevamente, suprimimos los sub-ndices i para facilitar la notacin.) Para

    minimizar e'e, derivamos respecto de cada uno de los k + 1 coeficientes, e

    igualamos a cero. As, obtenemos las ecuaciones normales:

    (1) 0)...(2'

    22110

    0

    kk XbXbXbbY

    b

    ee

    (2) 0)...(2'

    122110

    1

    XXbXbXbbY

    b

    eekk

    (3) 0)...(2'

    222110

    2

    XXbXbXbbY

    b

    eekk

    . . . . . .

    (k + 1) 0)...(2'

    22110

    kkk

    k

    XXbXbXbbYb

    ee

    Estas k + 1 ecuaciones tambin pueden expresarse como

    (1) 0e

    (2) 01 eX

    (3) 02 eX . . . . . .

    (k + 1) 0 eX k

    Se puede comprobar fcilmente que en trminos de nuestra notacin matricial

    este sistema de k + 1 ecuaciones puede expresarse como

    X'e = 0

  • [30]

    donde 0 es un vector de ceros de orden 1)1( k . Puesto que e = y Xb, esto

    tambin lo podemos expresar como

    X'(y Xb) = 0

    Por tanto,

    X'Xb = X'y

    Multiplicando ambos lados por (X'X)1

    obtenemos el vector mnimo-cuadrtico:

    b = (X'X)1

    X'y

    Los k + 1 elementos de este vector-columna (b0, b1, b2, ... , bk) son los respectivos

    estimadores de 0, 1, 2, ... , k.

    En la prctica el investigador no calcular el vector b directamente usando es-

    ta frmula, ya que existen programas de computadora que hacen todos los clcu-

    los requeridos con mayor rapidez y precisin que lo que podra hacerlo una per-

    sona armada nicamente de una calculadora manual. Es importante, sin embargo,

    tener una idea clara de qu es lo que hace la computadora cuando se corre un pro-

    grama de regresin, y adems esta expresin nos ser muy til ms adelante para

    propsitos analticos.

    4.2. Inferencia Estadstica en la Regresin Lineal.

    4.2.1. Supuestos Bsicos.

    El objetivo de esta seccin es desarrollar procedimientos para testar hiptesis

    sobre los coeficientes del modelo lineal. Para esto, debemos hacer ciertas suposi-

    ciones sobre el comportamiento estadstico de los errores. Los dos supuestos ms

    importantes en el modelo clsico de regresin lineal son los siguientes:

    Supuesto No. 1: ui tiene una distribucin N(0, 2) para toda i.

    En palabras, suponemos que todas las ui tienen una misma distribucin normal,

    con la misma media (0) y la misma varianza (2). Una implicacin de este su-

    puesto es que E(u) = 0, es decir, que el valor esperado del vector u es un vector

    de ceros.

    Supuesto No. 2: E(uu') = 2I.

    Ntese que el elemento caracterstico de la matriz uu' es uiuj. Por tanto, suponer

    que el valor esperado de uu' es una matriz escalar equivale a suponer lo siguiente:

  • [31]

    (1) E(uiuj) = 0 para i j, o sea, todos los elementos no-diagonales de E(uu') son

    cero. Esto implica que las ui son independientes unas de otras.

    (2) E(ui2) = 2, o sea, todos los elementos de la diagonal de E(uu') son iguales a

    2. Esto implica que cada ui tiene la misma varianza 2. (Si suponemos que la

    media de ui es 0, entonces E(ui2) ser la varianza de ui.)

    4.2.2. Valor Esperado y Matriz de Varianza-Covarianza de b.

    Puesto que segn el modelo lineal y = X + u, entonces

    b = (X'X)1

    X'y = (X'X)1

    X'(X + u) = + (X'X)1X'u

    Por tanto, el valor esperado del vector b ser

    E(b) = + E[(X'X)1X'u] = + (X'X)1X'E(u) =

    dado que E(u) = 0. Este es un resultado muy importante, ya que significa que b es

    un estimador insesgado de . Adems, puesto que b = (X'X)1X'u, entonces

    (b )( b )' = (X'X)1X'uu'X(X'X)1

    (Recurdese que X'X es una matriz simtrica.) Si obtenemos el valor esperado de

    esta expresin y aplicamos el supuesto No. 2, tendremos:

    E[(b )( b )'] = (X'X)1X'E(uu')X(X'X)1 = (X'X)1X'2IX(X'X)1

    = 2(X'X)1

    Ntese que el elemento caracterstico de E[(b )(b )'] es E[(bi i)(bj j)],

    que es la covarianza entre bi y bj. Para i = j (los elementos de la diagonal de esta

    matriz) esto se reduce a E[(bi i)2], que es la varianza de bi. Por tanto, a esta

    matriz se le llama la matriz de varianza-covarianza del vector b.

    4.2.3. Estimacin de 2 y 2(X'X)1.

    En general, no conocemos 2, pero podemos obtener un estimador insesgado

    de la siguiente manera. Por definicin, el vector de residuos de la regresin esti-

    mada ser

    e = y Xb = y X(X'X)1X'y = [I X(X'X)1X']y

    = [I X(X'X)1X'](X + u) = [I X(X'X)1X']u

    Ntese que la expresin entre corchetes es una matriz simtrica idempotente, y

    que la traza de esta matriz es la diferencia entre las trazas de dos matrices identi-

    dad:

  • [32]

    tr[I X(X'X)1X'] = tr(I) tr[X(X'X)1X'] = tr(I) tr[(X'X)1X'X] = n (k + 1)

    ya que la primera matriz identidad es de orden n, y la segunda es de orden (k + 1).

    Adems, la suma de los errores cuadrados (e'e) es de orden 11 , y por tanto ser igual a su traza:

    e'e = tr(e'e) = tr(u'[I X(X'X)1X']u) = tr([I X(X'X)1X']uu')

    = tr(uu'[I X(X'X)1X'])

    Por ltimo, puesto que la traza es una sumatoria,

    E(e'e) = E[tr(uu'[I X(X'X)1X'])] = tr[E(uu')(I X(X'X)1X')]

    = tr(2I[I X(X'X)1X'] ) = 2tr[I X(X'X)1X'] = 2(n k 1)

    Por tanto, puede obtenerse un estimador insesgado de 2 calculando:

    11

    '2

    2

    kn

    e

    kn

    eeS

    i

    y el estimador insesgado de 2(X'X)1 ser S2(X'X)1. Los elementos de la diago-

    nal de esta matriz cuadrada de orden (k + 1) son los estimadores de las varianzas

    de los coeficientes del vector b: el primer elemento de la diagonal de S2(X'X)

    1 es

    la varianza muestral de b0, el segundo elemento es la varianza muestral de b1,

    etc.7

    4.2.4. Testado de Hiptesis.

    Supongamos que se desea testar la siguiente hiptesis nula sobre uno de los

    coeficientes de regresin:

    H0: i = * (donde * es algn valor numrico). Para testar esta hiptesis, se cal-

    cula el siguiente estadstico:

    )(

    *

    i

    i

    bs

    b

    7Esto es para el caso general de un modelo que incluye una ordenada en el origen (0).

    Si la regresin es por el origen (ver Pregunta de Repaso No. 2 del Captulo 2), enton-

    ces tr[I X(X'X)1X'] = n k, ya que la matriz X slo tiene k columnas, y el denomina-

    dor en la frmula para S2 es n k. El primer elemento de la diagonal de S2(X'X)1 es la

    varianza muestral de b1, el segundo elemento es la varianza muestral de b2, etc.

  • [33]

    donde s(bi) es la desviacin estndar de bi, o sea, la raz cuadrada del elemento

    correspondiente de la diagonal de S2(X'X)

    1. Este estadstico tiene una distribu-

    cin t con n k 1 grados de libertad.8 Por tanto, si la prueba es a dos colas

    con un nivel de significancia de 5 %, rechazamos H0 si el valor absoluto de este

    estadstico es mayor que el valor crtico de t para 2.5 % y n k 1 grados de li-

    bertad. (Si la prueba es a una cola, usamos el valor crtico para 5 %.)

    Muchas veces, la hiptesis nula que queremos testar en un anlisis de

    regresin es H0: i = 0, o sea, la hiptesis de que la variable independiente Xi no

    tiene realmente ningn efecto sobre Y. En este caso, para testar esta hiptesis

    simplemente se calcula )( i

    i

    bs

    b y se compara con el valor crtico relevante para la

    distribucin t. En la terminologa del anlisis de regresin, esta razn se conoce

    como la razn t, y si rechazamos la hiptesis nula podemos concluir que Xi s

    tiene un efecto sobre Y. A menudo esto se expresa diciendo que Xi es una variable

    significativa, o que su coeficiente (i) es significativamente mayor (o menor)

    que 0.9

    4.3. Coeficiente de Determinacin (R2).

    En un anlisis de regresin mltiple, el coeficiente de determinacin (R2) se

    define igual que en el caso de la regresin simple, y tiene la misma interpretacin,

    aunque debe tomarse en cuenta que en este caso lo que estamos midiendo es el

    porcentaje de la variacin en Y que se explica por la variacin conjunta de las

    variables independientes. (El estudiante podr comprobar tambin que la R2

    en

    una regresin mltiple es igual a la R2

    de la regresin simple de Y contra .Y Esta

    segunda interpretacin es quiz ms fcil de visualizar.)

    En general, no podemos descomponer la variacin explicada en trminos de

    cunto aporta cada variable independiente individual, pero existe un caso especial

    donde esto s es posible. Si la correlacin entre las diferentes variables explicati-

    vas es exactamente cero, entonces la R2 de la regresin mltiple ser igual a la

    8Para una demostracin rigurosa, vase Johnston, Econometric Methods, pp. 135-38.

    (Por lo expuesto en la Nota 7, una regresin por el origen cuenta con n k grados de libertad.)

    9A menudo los econometristas usan la siguiente regla emprica para decidir si una varia-

    ble es significativa en una regresin lineal: Concluir que la variable es significativa si su coeficiente estimado es por lo menos dos veces mayor, en valor absoluto, que su des-

    viacin estndar (o sea, si el valor absoluto de la razn t es mayor que 2). Cmo jus-tificara usted el empleo de este criterio?

  • [34]

    suma de las R2 de las regresiones simples de cada variable explicativa contra Y.

    Es muy raro que suceda esto en la prctica, pero si los datos provienen de un ex-

    perimento controlado entonces es posible disear el experimento en forma tal que

    los datos muestrales tengan esta propiedad.

    4.3.1. Comparando dos o ms regresiones en trminos de R

    2.

    Un problema que surge cuando se calculan diferentes regresiones para una

    misma variable dependiente es que los valores de R2 no son estrictamente compa-

    rables. Cuando se agregan variables independientes a una regresin, el resultado

    es que la R2 necesariamente aumenta, ya sea que las variables adicionales sean

    significativas o no. Recordemos que R2 se calcula por medio de la frmula:

    2

    2

    2

    )(1

    yY

    eR

    Supongamos que tenemos dos regresiones: una primera regresin con k varia-

    bles independientes (Regresin 1), y una segunda regresin que contiene, adems

    de estas variables, una variable adicional Xk+1 (Regresin 2). Puesto que 2)( yY ser igual para las dos regresiones, el efecto sobre R2 depender de

    los que sucede con .2e Para la Regresin 2 la suma de los errores cuadrados necesariamente ser menor o igual que para la Regresin 1, no importando si Xk+1

    es significativa o no. Para entender por qu, notemos que si aumenta 2e cuan-do se agrega Xk+1, entonces significa que los coeficientes estimados para la Re-

    gresin 2 no minimizan ,2e ya que existe otro vector de coeficientes que pro-ducir una menor suma de errores cuadrados: este sera un vector que mantiene

    los coeficientes de la Regresin 1, y asignando 0 para el coeficiente de Xk+1. Por

    tanto 2e no puede ser mayor para la Regresin 2, y slo ser igual en las dos regresiones si el coeficiente estimado de Xk+1 es exactamente 0, lo cual es muy

    poco probable que suceda en la prctica ya que incluso si la variable adicional no

    tiene realmente ningn efecto sobre Y, su coeficiente estimado ser pequeo pero

    no 0, debido a la variacin muestral. En la prctica, entonces, 2e siempre ser menor para la Regresin 2, y por tanto R

    2 siempre aumentar.

    4.3.2. R2 ajustada (

    2

    R ).

    Esto significa que R2 no es, por s sola, una buena gua para comparar diferen-

    tes regresiones, ya que este coeficiente siempre aumentar si se agregan ms va-

    riables independientes, aun cuando stas no son significativas. Debido a esto,

    Henri Theil propuso una modificacin a la frmula convencional, para compensar

  • [35]

    por este efecto cuando se comparan regresiones diferentes.10

    En el ajuste propues-

    to por Theil se toma en cuenta el hecho de que, para un tamao de muestra de-

    terminado, ms variables explicativas en una regresin implican menos grados de

    libertad para la estimacin. A diferencia de la R2 convencional, que compara la

    variacin no-explicada (suma de los errores cuadrados) con la variacin total en

    Y, la R2 ajustada (que se representa por medio del smbolo

    2

    R ) compara la va-

    rianza de los errores con la varianza de Y:

    2

    2

    2

    2

    2

    )(1

    11

    1

    )

    11)(

    )(1

    yY

    e

    kn

    n

    n

    yY

    kn

    e

    YVar

    eVarR

    Esto tambin puede expresarse como:

    )1(1

    11 2

    2

    Rkn

    nR

    2

    R puede ser negativa, y su valor siempre ser menor o igual que la R2 conven-

    cional.11

    Adems, a diferencia de la R2 convencional,

    2

    R puede aumentar o dis-

    minuir cuando se agregan ms variables independientes. La direccin del efecto

    depender de si la reduccin en 2e compensa o no la reduccin en los grados de libertad debido a la inclusin de la variable adicional.

    4.4. Aplicacin Costos Administrativos en la Banca Comercial.

    Ahora podemos finalmente realizar un ejemplo numrico para ilustrar la apli-

    cacin de estos conceptos. Como ya se mencion antes, en la prctica la mayor

    parte de los clculos en un anlisis de regresin se realizan por medio de un pro-

    grama de computacin, por lo que no viene al caso ilustrar numricamente los

    clculos matriciales. El ejemplo concreto que se desarrolla a continuacin est

    basado en un estudio estadstico de los costos de administracin en los bancos

    comerciales guatemaltecos durante el ao 1991. Los resultados de este anlisis

    pueden proporcionar una buena indicacin sobre el comportamiento de los costos

    para el banco tpico en Guatemala, aunque la naturaleza misma de un estudio

    10

    Henri Theil, Principles of Econometrics (New York: John Wiley & Sons, 1971),

    pp. 178-79.

    11

    Por lo expuesto en las Notas 7 y 8, cuando la regresin es por el origen el denomina-dor correcto para el factor de ajuste es n k.

  • [36]

    de este tipo no puede arrojar resultados estrictamente aplicables a cada uno de los

    bancos considerados individualmente. No obstante, a pesar de esto, un estudio de

    este tipo de todos modos puede ser muy til, porque los resultados pueden pro-

    porcionar una norma o estndar contra el cual se pueden comparar los costos

    administrativos en un banco particular. En ausencia de un estudio de este tipo, un

    banco no tiene realmente un criterio para determinar si sus costos son acepta-

    bles o normales, ya que los bancos difieren enormemente en cuanto a cantidad

    de activos, nmero de sucursales, etc., por lo que el nico criterio objetivo sera el

    de compararse con un banco de similar tamao y caractersticas. Sin embargo, si

    se pudiera obtener una frmula emprica que permita calcular un valor normal

    o promedio para los costos administrativos en funcin de unas pocas variables

    que permitan una medicin numrica, entonces se podra fcilmente determinar si

    el banco en cuestin est mejor o peor que el banco tpico a ese respecto.

    (Estos resultados tambin podran servir para comparar el comportamiento de los

    costos administrativos en los bancos comerciales con los de otros tipos de institu-

    ciones financieras.) La variable dependiente para el anlisis ser el nivel anual de

    los Gastos Generales y de Administracin en los diferentes bancos del sistema.

    Si se observa el Cuadro 4.1, se podr apreciar que estos costos (que en lo sucesi-

    vo llamaremos simplemente costos administrativos) varan enormemente de un

    banco a otro. Nuestro problema consistir, por tanto, en encontrar una lista de va-

    riables que nos permitan explicar, estadsticamente, esta variacin observada.

    4.3.1. Primera Aproximacin.

    A un nivel muy elemental, por supuesto, dicha variacin no tiene realmente

    ningn misterio, ya que los bancos varan mucho en cuanto a su tamao, y es ms

    bien de esperarse que los bancos ms grandes tengan tambin costos adminis-

    trativos ms altos por el slo hecho de ser ms grandes. Nuestra tarea ser tradu-

    cir esta nocin intuitiva en un concepto operativo, y para esto debemos tratar de

    expresar el tamao de un banco en trminos de alguna variable numrica. En

    este estudio, la variable escogida para este propsito fue el Total de Activos del

    banco. Con esto, y como una primera aproximacin para el anlisis, la recta de

    regresin ser la siguiente:

    (1) Yi = 0 + 1Xi + ui

    donde Yi = Costos Administrativos del banco i, Xi = Activos Totales del banco i.

    Los Activos Totales de un banco son una buena medida de su tamao, aun-

    que no es la nica medida posible, por lo que la decisin de adoptar esta medida

    especfica es en cierto modo arbitraria. Por otro lado, el empleo de los Activos

    Totales como variable independiente en la regresin facilita en cierto modo la in-

    terpretacin econmica de los coeficientes:

  • [37]

    CUADRO 4.1. BANCOS COMERCIALES PRIVADOS EN GUATEMALA (1991).

    Millones de Quetzales

    Gastos Generales y de Admin.

    Total Activo Promedio

    Agencias

    G&T 48.8 831.5 30

    INDUSTRIAL 43.2 1204.0 18

    OCCIDENTE 39.4 1153.5 20

    del CAFE 29.8 499.6 25

    del AGRO 26.2 466.6 30

    AGRICOLA MERC. 24.8 522.3 12

    INTERNACIONAL 24.0 376.6 12

    INMOBILIARIO 21.5 431.3 20

    CONSTRUBANCO 18.3 282.2 10

    del EJERCITO 15.6 311.8 13

    LLOYDS 14.3 284.5 7

    METROPOLITANO 12.9 339.0 8

    BANEX 12.5 462.8 3

    del QUETZAL 8.8 205.0 12

    PROMOTOR 6.0 162.4 3

    CITIBANK 5.9 45.8 1

    CONTINENTAL 3.6 113.7 4

    REFORMADOR 1.7 237.3 7

    UNO 1.0 170.8 5

    Fuente: Superintendencia de Bancos, Boletn de Estadsticas Bancarias (Guatemala, 4 Trimestre, 1992).

    (a) El coeficiente 1 nos indica en cunto incrementa el costo administrativo

    anual por cada quetzal adicional de activos que maneja el banco. En otras pala-

    bras, este coeficiente nos mide el costo marginal de administrar un quetzal adi-

    cional de activos. Obviamente, este es un dato sumamente interesante para los

    tomadores de decisiones en el sector bancario. Esperamos naturalmente que este

    coeficiente sea positivo.

    (b) Por otro lado, el coeficiente 0, que matemticamente es simplemente la or-

    denada en el origen (o sea, el valor de Y cuando X = 0), nos estara indicando la

    parte del costo administrativo que no vara directamente con el nivel de los acti-

    vos del banco. En otras palabras, esta es la parte del costo administrativo que po-

    dra interpretarse como un costo fijo. Esperamos tambin que este coeficiente

    sea positivo.

  • [38]

    4.3.2. Segunda Aproximacin.

    Un posible defecto de la ecuacin (1) es la suposicin de que todos los bancos

    tienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 4.1

    que los bancos comerciales varan mucho en cuanto al nmero de sucursales o

    agencias que operan, y este es un factor que seguramente debe afectar el nivel de

    los costos administrativos. Por esto, como una segunda aproximacin, se estimar

    la siguiente regresin adicional:

    (2) Y = 0 + 1X1 + 2X2 + u

    donde X1 = Activos Totales del banco i, X2 = Nmero de Agencias del banco i.

    (De aqu en adelante suprimiremos el uso del sub-ndice i, para facilitar la nota-

    cin. Se entiende que cada observacin corresponde a un banco diferente.) En es-

    ta segunda regresin, el coeficiente 2 nos est midiendo el incremento en el cos-

    to administrativo anual que resulta de manejar una agencia adicional. Esperamos,

    por tanto, que este coeficiente sea positivo. (Naturalmente que este coeficiente

    tendra que interpretarse como un costo promedio por agencia, ya que ninguna

    agencia es exactamente igual que otra, por lo que difcilmente pueden tener todas

    el mismo costo.) Los dems coeficientes tienen la misma interpretacin que en la

    ecuacin (1).

    4.3.3. Datos.

    Antes de reportar los resultados de las regresiones, es necesario y conveniente

    hacer las siguientes aclaraciones sobre los datos:

    (a) Se tom la decisin de incluir en la muestra nicamente a los bancos comer-

    ciales privados, ya que los bancos estatales tienen peculiaridades especiales que

    posiblemente resulten en un comportamiento diferente en cuanto a sus costos

    administrativos. (Puesto que lo que nos interesa es investigar el comportamiento

    de los costos administrativos en el banco comercial tpico, incluir a los bancos

    estatales podra resultar en una distorsin de los resultados, ya que dichos bancos

    no son tpicos a ese respecto.)

    (b) Podra existir un problema de comparabilidad de los datos sobre Costos

    Administrativos y Activos Totales, dada la manera como se reportan los datos en

    la fuente original, ya que las cifras sobre Costos Administrativos corresponden a

    los gastos anuales efectuados durante un ao determinado, mientras que las cifras

    sobre Activos Totales corresponden a los valores al 31 de Diciembre de cada ao.

    No est del todo claro que la cifra correspondiente al final del ao sea la ms

    adecuada para propsitos del anlisis, y probablemente sera mejor contar con una

  • [39]

    cifra para los Activos Totales que represente algn valor promedio durante el ao.

    Para evitar estos problemas, se opt por calcular un promedio aritmtico de los

    Activos Totales al 31 de Diciembre de 1991, y al 31 de Diciembre del ao

    anterior. Esta cifra promedio, si bien no es la solucin perfecta para este

    problema, probablemente se acerca ms al nivel promedio de los Activos Totales

    en cada ao, y en todo caso ser mejor que simplemente usar la cifra de fines de

    ao.

    4.3.4. Resultados.

    Los resultados para la ecuacin (1) fueron los siguientes (los nmeros entre

    parntesis son las desviaciones estndar de los coeficientes estimados):

    103906.0203.2 XY R2 = 0.7935

    (2.551) (0.00483) n = 19

    Se puede apreciar en primer lugar que esta regresin, a pesar de ser muy sencilla,

    tiene un alto grado de poder explicativo: el coeficiente de determinacin (R2) in-

    dica que la variacin en los Activos Totales explica casi 80 % de la variacin en

    los Costos Administrativos. Como era de esperarse, el valor estimado para b1, la

    pendiente de la regresin, es positivo y altamente significativo. Para testar for-

    malmente la hiptesis nula 1 = 0, calculamos el estadstico b1/s(b1), que en este

    caso tiene un valor de 8.087 (= 0.03906 0.00483). Consultando la tabla de valo-

    res crticos para la distribucin t (ver las tablas al final del texto), se puede ver

    que para 17 grados de libertad el valor crtico para 5 % a dos colas es de 2.11.

    Puesto que 8.087 > 2.11, en este caso se rechaza la hiptesis de que el verdadero

    coeficiente 1 es cero, y por tanto concluimos que X1 es una variable significativa.

    Por otro lado, el valor estimado para b0 , la ordenada en el origen, aunque positi-

    vo, no es significativo, ya que 2.203 2.551 = 0.864 < 2.11.

    Los resultados para la ecuacin (2) fueron los siguientes:

    21 661.00275.022.1 XXY

    (1.99) (0.0044) (0.157) R2 = 0.9018

    La R

    2 para esta segunda regresin es poco ms de 90 %, aunque, por lo explicado

    en la seccin anterior, las dos regresiones no son estrictamente comparables en

    trminos de la R2 convencional, por lo que debemos aplicar el concepto de R

    2

    ajustada. Para el primer modelo, con n = 19 y k = 1,

    7814.0)7935.01(17

    181

    2

    R

  • [40]

    Para el segundo modelo, con k = 2, .8895.0)9018.01(16

    181

    2

    R Se puede

    apreciar claramente que la adicin de X2, el nmero de agencias, incrementa bas-

    tante el poder explicativo de la regresin.

    Al igual que en el caso anterior, el valor estimado para b1 es positivo y signi-

    ficativo, y es interesante notar que es menor al estimado en la primera regresin.

    Esto implica que la primera regresin probablemente tiende a sobre-estimar este

    coeficiente, debido a que omite el efecto de la variable X2. Como era de esperarse,

    el valor estimado para b2 es tambin positivo y altamente significativo. Por otro

    lado, se aprecia que el valor estimado para b0 es negativo y no-significativo. Esto

    nos apunta a una conclusin interesante: Al parecer, el componente fijo de los

    costos administrativos depende bsicamente del nmero de agencias que adminis-

    tra el banco.

    Puesto que el coeficiente b0 no es significativamente diferente de cero en esta

    segunda regresin, corresponde ahora volver a estimar esta regresin por el ori-

    gen, es decir, sin esta constante. Los resultados son los siguientes:

    21 621.00266.0 XXY

    (0.0041) (0.141) R2 = 0.8995

    Aqu se aprecia que el poder explicativo es bsicamente igual que en la regresin

    anterior, aunque al haber eliminado un coeficiente posiblemente redundante,

    esta tercera regresin nos proporciona en principio estimaciones ms eficientes de

    los otros coeficientes:

    (a) El coeficiente b1, se recordar, nos mide el costo marginal de administrar un

    quetzal adicional de activos. Segn estas estimaciones, por tanto, se podra con-

    cluir que en nmeros redondos el costo administrativo de un banco tpico au-

    mentar entre 2 y 3 centavos por ao por cada quetzal adicional de activos que

    administre.

    (b) El coeficiente b2, se recordar, nos mide el incremento en el costo administra-

    tivo anual que resulta de manejar una agencia adicional. Segn estas estimacio-

    nes, por tanto, se podra concluir en nmeros redondos, y tomando en cuenta que

    los datos se expresan en trminos de millones de quetzales, que el costo adminis-

    trativo de un banco tpico aumentar alrededor de 620,000 quetzales por ao

    por cada agencia adicional. (Debe recordarse que estas cifras estn expresadas en

    trminos de quetzales de 1991.)

  • [41]

    CASOS APLICADOS

    Caso F Demanda de Fotocopias

    En el cuadro adjunto se muestra una estadstica de la venta trimestral de fotoco-

    pias en la Biblioteca de la Universidad Francisco Marroqun (UFM) durante un

    perodo reciente, y la cantidad de usuarios en dicha biblioteca, clasificados segn

    varias categoras. (Para facilitar los clculos, los datos se expresan en trminos de

    miles de fotocopias y miles de usuarios.) Como se puede observar, el movimiento

    de fotocopias vara mucho de un trimestre a otro. Utilice los datos disponibles pa-

    ra estimar un modelo de regresin mltiple que explique esta variacin.

    Qu porcentaje de la variacin en el volumen de fotocopias se puede explicar

    por las variaciones en el nmero de usuarios de diferente tipo? Cules son los

    usuarios que ms impacto tienen sobre las ventas de fotocopias?

    Ao, Trimestre

    Fotocopias (trimestral)

    Visitantes por Trimestre

    Estudiantes Universitarios Escolares Otros Total

    UFM Otras Univ.

    1994 I 55.786 33.813 1.758 1.853 2.336 39.760 II 55.734 30.431 1.352 2.317 1.906 36.006 III 51.222 27.226 1.737 1.695 1.547 32.205

    IV 27.344 15.366 1.165 0.872 2.084 19.487

    1995 I 52.456 31.724 1.255 1.328 2.177 36.484

    II 47.630 26.745 1.140 2.915 1.821 32.621

    III 43.670 31.612 1.594 1.835 1.439 36.480

    IV 15.314 20.357 0.768 0.307 1.144 22.576

    1996 I 67.434 36.322 1.799 1.917 2.790 42.828

    II 59.024 29.418 0.962 1.712 1.624 33.716

    III 60.868 29.728 1.352 1.634 0.811 33.525

    IV 27.214 14.993 0.890 0.307 0.275 16.465

    1997 I 57.632 36.361 1.865 2.066 2.622 42.914

    II 57.518 38.427 1.276 2.759 2.188 44.650

    III 48.266 28.327 1.580 1.933 2.111 33.951

    IV 29.928 21.425 1.163 0.514 1.325 24.427

    1998 I 56.128 36.398 1.930 2.214 2.451 42.993

    II 46.948 30.474 1.670 1.874 2.103 36.121

    III 37.942 22.712 1.948 1.342 1.716 27.718

    IV 19.682 17.772 0.938 0.341 1.153 20.204

    1999 I 45.282 28.261 1.939 1.741 1.639 33.580

    II 67.546 27.090 1.711 2.323 1.796 32.920

    III 65.364 23.751 2.210 1.732 1.658 29.351

    IV 30.064 12.827 0.710 0.182 0.672 14.391

    Fuente: Registros de la Biblioteca.

  • [42]

    Caso G Inflacin en Amrica Latina

    La llamada Teora Cuantitativa del Dinero (tambin conocida como monetaris-

    mo) postula a largo plazo una relacin estable entre tres variables macroecon-

    micas muy importantes: el cambio porcentual en el ndice general de precios (i.e.,

    la tasa de inflacin), el cambio porcentual en la masa monetaria (la tasa de

    crecimiento monetario), y el cambio porcentual en el PIB a precios constantes

    (la tasa de crecimiento real).12 Segn esta teora, la inflacin estar positiva-

    mente relacionada con la tasa de crecimiento monetario, e inversamente relacio-

    nada con la tasa de crecimiento econmico real.

    El cuadro adjunto muestra las tasas anuales promedio de inflacin, crecimiento

    monetario, y crecimiento real en 16 pases latinoamericanos durante el perodo

    1950-69. La inflacin fue medida por medio del IPC, y el crecimiento monetario

    se basa en el agregado monetario conocido como M1 (efectivo fuera de bancos +

    depsitos a la vista en bancos comerciales).

    Use estos datos para estimar la siguiente regresin:

    Y = 0 + 1X1 + 2X2 + u

    donde Y = tasa anual promedio de inflacin, X1 = tasa anual promedio de creci-

    miento monetario, y X2 = tasa anual promedio de crecimiento en PIB real.

    Comente sobre los resultados, e interprete el significado de los coeficientes en

    trminos de la Teora Cuantitativa.

    12

    Para un desarrollo moderno de esta teora, vase Milton Friedman, Money: Quantity

    Theory, International Encyclopedia of the Social Sciences (1968), vol. 10, pp. 432-47.

  • [43]

    INFLACIN EN 16 PASES LATINOAMERICANOS, 1950-69

    Tasa Anual (%) Promedio de:

    Inflacin

    Crecimiento Monetario

    Crecimiento PIB Real

    Argentina 26.4 24.6 2.4

    Bolivia 41.3 41.6 3.0

    Brasil 35.1 38.2 3.9

    Chile 28.2 35.2 4.6

    Colombia 9.2 16.5 5.4

    Costa Rica 1.9 9.0 5.7

    Ecuador 3.0 8.8 4.7

    El Salvador 0.3 3.5 4.6

    Guatemala 1.1 5.9 3.9

    Honduras 2.1 8.0 4.0

    Mxico 5.3 11.3 6.9

    Nicaragua 3.4 8.6 3.7

    Paraguay 12.5 15.4 5.5

    Per 8.5 13.4 5.7

    Uruguay 43.0 40.1 0.7

    Venezuela 1.1 7.9 6.8

    Fuente: R. C. Vogel, The Dynamics of Inflation in Latin America, 1950-1969, American Economic Review, 64 (1974), Table 1, p. 103.

  • [44]

    Captulo 5

    AMPLIACIONES DEL MODELO LINEAL

    En este captulo ampliaremos nuestra discusin del modelo lineal, considerando

    primeramente la estimacin de formas funcionales no-lineales. La discusin se

    concentrar principalmente en la aplicacin e interpretacin del llamado modelo

    doble-log, que es el que ms se aplica en la prctica. Luego se ampla el modelo

    lineal en otra direccin, mediante el uso de variables binarias. Por ltimo, se

    discuten algunos problemas especiales que pueden surgir en aplicaciones prcti-

    cas, como ser el problema de variables omitidas, el problema de multicolineali-