Est Ind Clase07

85
ING. WILLIAM LEÓN VELÁSQUEZ N LISIS DE REGRESIÓN MÚLTIPLE CLASE 07 UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FA CULT AD DE INGENIERIA INDUSTRIAL ESTADISTICA INDUSTRIAL

Transcript of Est Ind Clase07

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 1/85

I N G . W I L L I A M L E Ó N V E L Á S Q U E Z

N LISIS DE

REGRESIÓN

MÚLTIPLE

CLASE 07

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE INGENIERIA INDUSTRIAL 

ESTADISTICA INDUSTRIAL

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 2/85

Introducción 

Ing. William león Velásquez

En clases anteriores se ha tratado el análisis de regresiónsimple que trata de relacionar una variable explicativacuantitativa con una variable respuesta cuantitativa.

Todos los temas de esta clase va a servir ahora para

continuar con el caso más general y de mayor utilidadpráctica, que es la regresión lineal múltiple.

Por regresión lineal múltiple se entiende alanálisis de regresión lineal pero ahora con más

de una variable explicativa.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 3/85

Datos para regresión múltiple 

Ing. William león Velásquez

Los datos para regresión lineal simple consisten en pares deobservaciones ( x i , y i ) de dos variables cuantitativas. Ahora

tendremos múltiples variables explicativas, por lo que la

notación será más elaborada.

1  x11  x12  ...  x1p  y 1 2  x21  x22  ...  x2p  y 2 

: N  xn1  xn2  ...  xnp  y n 

Llamaremos x ij  el valor de la j-

ésima variable del i-ésimo sujeto o

unidad (i=1,2,...,n ; j=1,2,...,p). Los

datos se pueden organizar de la

siguiente forma en una base:

Donde n es el número de casos o tamaño muestral y p es el

número de variables explicatorias. Esta es una forma de organizar

la base de datos, no importa el orden de las variables.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 4/85

Modelo de regresión lineal múltiple:

Ing. William león Velásquez

El modelo estadístico de regresión lineal múltiple es:

para i= 1, 2, ...,n

 La respuesta media es una función lineal de las variablesexplicatorias:

Las desviaciones  son independientes y normalmente distribuidascon media 0 y desviación estándar :

Los parámetros del modelo son: y , los coeficiente de regresión yla estimación de la variabilidad, es decir son en total (p + 2)parámetros.

iip piii   x x x y                 22110

 p p y   x x x                22110

),0(~   2     N i

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 5/85

Modelo de regresión lineal múltiple:

Ing. William león Velásquez

Si suponemos que la respuesta media está relacionadacon los parámetros a través de la ecuación:

, esto quiere decir que podemos estimar la media de la variable respuesta a través de la estimación de losparámetros de regresión. Si esta ecuación se ajusta a larealidad entonces tenemos una forma de describir cómo

la media de la variable respuesta y varía con las variablesexplicatorias .

 p p y   x x x                22110

 p x x x   ,,, 21  

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 6/85

Estimación de los parámetros de regresiónmúltiple. 

Ing. William león Velásquez

En regresión lineal simple se usa el método demínimos cuadrados para obtener estimadores delintercepto y de la pendiente.

En regresión lineal múltiple el principio es el mismo, pero

necesitamos estimar más parámetros.

Llamaremos a los estimadores de los

parámetros

 pbbb   ,,, 10  

 p         ,,, 10 

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 7/85

Estimación de los parámetros de regresiónmúltiple 

Ing. William león Velásquez

La respuesta estimada por el modelo para la i-ésimaobservación es:

 

El i-ésimo residuo es la diferencia entre la respuesta

observada y la predicha:

 

residuo =

El i-ésimo residuo =

ip piii   xb xb xbb y     22110ˆ

estimadoˆobservado   y y  

iii   y ye   ˆ

ip piiii   xb xb xbb ye     22110

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 8/85

Estimación de los parámetros de regresiónmúltiple 

Ing. William león Velásquez

El método mínimos cuadrados elige los valores de losestimadores óptimos, es decir, que hacen la suma decuadrados de los residuos menor posible.

En otras palabras, los parámetros estimados minimizanla diferencia entre la respuesta observada y la respuestaestimada, lo que equivale a minimizar:

    2ˆ ii   y y

La fórmula de los estimadores de mínimos cuadrados para

regresión múltiple se complica porque se necesita notaciónmatricial, sin embargo estamos a salvo si entendemos el

concepto y dejaremos a a los software hacer los cálculos.

i ió d l á d ió

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 9/85

Estimación de los parámetros de regresiónmúltiple 

Ing. William león Velásquez

El parámetro  σ2 mide la variabilidad de la respuestaalrededor de la ecuación de regresión en la población.Como en regresión lineal simple estimamos σ2 como elpromedio de los residuos al cuadrado:

2

22

 

 pn

e s

  i

 x y     

1

ˆ  2

 

 pn

 y y ii

E i ió d l á d ió

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 10/85

Estimación de los parámetros de regresiónmúltiple 

Ing. William león Velásquez

La cantidad (n-p-1) son los grados de libertad asociadoscon la estimación de la variabilidad: S2

 y/x

S2 y/x es entonces el estimador de la variabilidad de la

respuesta y, tomando en cuenta las variablesexplicatorias x 

 j .

Lo distinguimos de que es la

 variabilidad de y sin tomar en cuenta las variables

explicativas x  j .

1

2

2

 

n

 y y s

  ii

 y

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 11/85

Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión 

Ing. William león Velásquez

Se puede obtener intervalos de confianza y prueba dehipótesis para cada uno de los coeficientes de regresióncomo se hizo en la regresión simple.

Los errores estándar de los estadísticos muestrales tienen

fórmulas más complicadas, así es que nuevamentedejaremos a un programa de software para que realicelos cálculos respectivos

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 12/85

Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión 

Ing. William león Velásquez

Prueba de hipótesis para : 

Para probar la hipótesis se usa el test t :

Donde EE(b j) es el error estándar de b j

0:

0:

1

0

  j

  j

 H 

 H 

  

  

)1(~)EE(b

 b

 j

 j   pnt t 

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 13/85

Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión 

Ing. William león Velásquez

EE(b j) es el error estándar de b j

Notas:

Se va a dejar al software el cálculo del error estándar de b j

Se tendrá entonces una prueba de hipótesis asociado acada variable explicatoria en el modelo.

Se puede realizar hipótesis de una cola, donde H 1: β j < 0 o

 H 1: β j >0 , pero lo usual es hacer una prueba bilateral.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 14/85

Intervalo de confianza para β j 

Ing. William león Velásquez

Un intervalo de confianza ( 1 - α)*100% para β j está dadopor:

Donde es el percentil apropiado de la distribución t  

con (n-p-1) grados de libertad, EE(b j) es el error estándar

de b j

)()1(2

1  j  j   b EE  pnt b  

 

21   

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 15/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

La tabla de análisis de varianza para la regresión múltiple es lasiguiente:  

Fuente de variación 

glGrados de libertad 

SCSuma de

Cuadrados 

CMCuadrados Medios 

Modelo p

Residuo 

n-p-1 

Total n-1 

    2)ˆ(Mod   y ySC 

 p

SC Mod

n

i

ii   y y sSC 1

2)ˆ(Re

1

Re

 pn

 sSC 

n

i

i   y ySCT 1

2

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 16/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son ahora p en vez de 1,

lo que refleja que ahora tenemos p variables explicatoriasen vez de sólo una.

Las sumas de cuadrados representan las fuentes de variación. Recuede que la suma de cuadrados total esigual a la suma de los cuadrados del modelo de regresiónmás la suma de los cuadrados del residuo:

SCT = SCMod + SCRes

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 17/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

El estimador de la varianza σ2 de nuestro modelo estádado por la media cuadrática residual

MCRes=SCRes/(n-p-1)

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 18/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

Estadístico F  La razón entre el cuadrado medio del modelo y el residuo

, permite estimar si la relación entre las variablesexplicatorias y la respuesta es significativa.

La hipótesis que prueba el test F es:

 s MC  MC  F    ReMod

ceroesnounmenosal:0:

1

210

  j

 p

 H  H 

            

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 19/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

La hipótesis nula dice que ninguna de las variablesexplicatorias son predictores de la variable respuesta.

La hipótesis alternativa dice que al menos una de las variables explicatorias está linealmente relacionada con larespuesta.

Como en regresión simple, valores grandes de F nos danevidencia en contra de hipótesis nula.

Cuando H0 es verdadera, el estadístico F tienedistribución F de Fisher con ( p, n-p-1) grados de libertad.

Los grados de libertad están asociados a losgrados de libertad del modelo y del residuo en latabla ANOVA.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 20/85

Tabla de ANOVA para regresión múltiple 

Ing. William león Velásquez

Recuerde que en regresión lineal simple el test F de latabla ANOVA es equivalente al test t bilateral para lahipótesis de que la pendiente es cero.

 Ahora, el test F de regresión múltiple prueba la hipótesis

de que todos los coeficientes de regresión (con excepcióndel intercepto) son cero, hipótesis que no es de muchointerés.

En el problema de regresión múltiple interesan más las

hipótesis individuales para cada parámetro asociado acada variable explicatoria.

 

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 21/85

Coeficiente de determinación (R 2) 

Ing. William león Velásquez

En regresión lineal simple se vio que el cuadrado del

coeficiente de correlación era

 y se podía interpretar como la proporción de la variabilidad de y que podía ser explicada por x . Uncoeficiente similar se calcula en regresión múltiple:

Total

Reg2

SC 

SC r   

2

2

2   )ˆ

(TotalMod

 y y y y

SC SC  R

i

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 22/85

Coeficiente de determinación (R 2) 

Ing. William león Velásquez

Donde R 2 es la proporción de la variabilidad de la variablerespuesta y que es explicada por las variablesexplicatorias en la regresión lineal múltiple.

 A menudo se multiplica R 2 por 100 y se expresa comoporcentaje. La raíz cuadrada de R 2 es el coeficiente decorrelación múltiple, es la correlación entre lasobservaciones yi  y los valores predichos .

2

22   )ˆ(

Total

Mod

 y y

 y y

SC 

SC  Ri

i y

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 23/85

Coeficiente de determinación (R 2) ajustado 

Ing. William león Velásquez

Cuando se evalúa un modelo de regresión linealmúltiple nos interesa decidir si una variable dadamejora la capacidad para predecir la respuestacomparando el R 2  de un modelo que contiene la

 variable, con el R 2 del modelo sin la variable.

El modelo con mejor R 2 debería ser el mejor modelo.

Pero se debe ser cuidadoso cuando se compara loscoeficientes de determinación de dos modelosdiferentes.

La inclusión de una variable adicional en el modelonunca provoca la reducción de R 2.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 24/85

Coeficiente de determinación (R 2) ajustado 

Ing. William león Velásquez

Para manejar este problema, se puede utilizar el R 2 ajustado, que ajusta por el número de variables que hayen el modelo.

El R 2 ajustado es:

221

)1(

11   R

 pn

n Ra  

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 25/85

Un ejemplo 

Ing. William león Velásquez

En educación existe polémica acerca de las notas de loscolegios que se creen están infladas. Si no estuvieraninfladas esperaríamos que las pruebas de ingreso a laUniversidad estén altamente correlacionadas con las

notas de enseñanza media. Revisemos, con datos de la Prueba de Aptitud Académica

(PAA) del año 2001 en una determinada región, sipodemos explicar las notas de enseñanza media con la

PAA.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 26/85

Un ejemplo 

Ing. William león Velásquez

Resumen del modelo

.578a .334 .334 81.25283

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), Prueba Historia y

Geografía, Prueba Aptitud Matemática, Prueba Aptitud Verbal

a.

ANOVAb

16400316 3 5466772.0 828.045 .000a

32660205 4947 6602.023

49060521 4950

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), Prueba Historia y Geograf ía, Prueba Aptitud

Matemática, Prueba Aptitud Verbal

a.

Variable dependiente: NEM Notas Ens Mediab.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 27/85

Un ejemplo 

Ing. William león Velásquez

Coeficientesa

312.088 5.656 55.179 .000 301.000 323.176.153 .019 .176 7.993 .000 .115 .190

.275 .015 .349 18.133 .000 .245 .304

.096 .019 .098 5.049 .000 .059 .133

(Constante)Prueba Aptitud Verbal

Prueba Aptitud

Matemática

Prueba Historia y

Geografía

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig. Límite inf erior  

Límite

superior 

Interv alo de conf ianza para

B al 95%

Variable dependiente: NEM Notas Ens Mediaa.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 28/85

Introducción 

Ing. William león Velásquez

Ejemplo  Seis ejecuciones fueron hechas a

 varias condiciones de saturación X1  y transisomers (X2) . La respuesta,

SCI, es listada abajo como Y paralos correspondientes niveles de X1 yX2.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 29/85

Introducción 

Ing. William león Velásquez

El gráfico para los datos del ejemplo es dado en la figura1. Sólo los modelos de regresión múltiple con dos

 variables independientes pueden ser graficados.

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 30/85

Estimación de mínimos cuadrados 

Ing. William león Velásquez

El método de mínimos cuadrados es utilizado paraestimar los parámetros en el modelo de regresión linealmúltiple

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 31/85

Estimación de mínimos cuadrados 

Ing. William león Velásquez

Suponga que se tienen n >k observaciones. Se asume queE(ε) =0 y V(ε) =σ2 y que los errores son no correlacionados.

El método de mínimos cuadrados minimiza la suma decuadrados

con respecto a cada uno de los parámetros del modelo β0 β1 …..βk  .

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 32/85

Estimación de mínimos cuadrados 

Ing. William león Velásquez

Luego las ecuaciones normales son:

i ió d í i d d

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 33/85

Estimación de mínimos cuadrados 

Ing. William león Velásquez

En esta notación el modelo se expresa como

con

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 34/85

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 35/85

E ti ió d í i d d

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 36/85

Estimación de mínimos cuadrados 

Ing. William león Velásquez

la cual es similar a las obtenidas anteriormente

Para solucionar las ecuaciones normales se requiere que

exista la inversa de la matriz . Esta existe siempre que las

variables regresoras sean linealmente independientes. Así, la

solución de mínimos cuadrados de vector parámetrico β es

E ti ió d í i d d Ej l

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 37/85

Estimación de mínimos cuadrados. Ejemplo 

Ing. William león Velásquez

para los datos del ejemplo tratado el vector Y y la matriz X son

respectivamente

E ti ió d í i d d Ej l

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 38/85

Estimación de mínimos cuadrados. Ejemplo 

Ing. William león Velásquez

La matriz X´X es

Estimación de mínimos cuadrados Ejemplo

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 39/85

Estimación de mínimos cuadrados. Ejemplo 

Ing. William león Velásquez

 Y el vector X´Y es

Estimación de mínimos cuadrados Ejemplo

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 40/85

Estimación de mínimos cuadrados. Ejemplo 

Ing. William león Velásquez

El estimador de mínimos cuadrados de β  es

 o

Estimación de mínimos cuadrados Ejemplo

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 41/85

Estimación de mínimos cuadrados. Ejemplo 

Ing. William león Velásquez

Luego el modelo ajustado por mínimos cuadrados es

Análisis de Varianza

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 42/85

 Análisis de Varianza 

Ing. William león Velásquez

Una tabla básica de análisis de varianza es dada por

Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 43/85

j p

El director de recursos humanos deVentas S.A. está entrevistando yseleccionando nuevos vendedores.

El ha diseñado una prueba que leayudará a realizar la mejor selección

posible para la fuerza de ventas. Con el fin de probar la validez de la

prueba para predecir las ventassemanales, él eligió vendedoresexperimentados y aplicó la prueba a cada

uno. La calificación de cada vendedor fueentonces pareada con sus ventassemanales.

Ing. William león Velásquez

Tabla de datosEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 44/85

Tabla de datos

Calificaciones y ventas semanales de 5 vendedores deVentas S.A. 

Vendedor   Calificación Ventas

semanales 

Calificación

archivada 

Luis  4  5,000  2 

Rufino  7  12,000  5 

Frida 3  4,000  1 

Diego  6  8,000  4 

José  10  11,000  6 

Ing. William león Velásquez

j p

Análisis de regresión múltipleEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 45/85

 Análisis de regresión múltiple

La ecuación de regresión simple que tiene una sola variable

independiente tiene la forma general de y' = a + bx.

En el caso de la regresión múltiple la ecuación tiene varias

variables independientes:

y' = a + b1x

1 + b

2x

2 + ... + b

kx

donde:

X1, X2, ... Xk son las variables independientes.

a es el punto donde la línea de regresión cruza el eje de las Y.b1, b2, ... bk son los coeficientes de regresión.

Ing. William león Velásquez

j p

Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 46/85

Estimación de los coeficientes de regresión

Para encontrar las valores de los

coeficientes de la ecuación de

regresión ( a, b1, b2, ... bk ) se utiliza

el método de mínimos cuadradosque consiste en resolver el siguiente

sistema de ecuaciones simultaneas.

Ing. William león Velásquez

E ti ió d l fi i t d ióEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 47/85

Estimación de los coeficientes de regresión

Σy  = an  + b1Σx1  + b2Σx2  + ... + bkΣxk 

Σx1y  = aΣx1  + b1Σx1x1  + b2Σx1x2  + ... + bkΣx1xk 

Σx2x  = aΣx2  + b1Σx2x1  + b2Σx2x2  + ... + bkΣx2xk 

...  ...  ...  ... 

Σxky  = aΣxk  + b1Σxkx1  + b2Σxk x2  + ... + bkΣxkxk 

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 48/85

Estimación de los coeficientes de regresión

Las ventas semanales se representan con y, La calificación de la prueba con x1, y

Las calificaciones archivadas con x2.

Con estos datos completamos la siguientetabla:

Ing. William león Velásquez

E ti ió d l fi i t d ióEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 49/85

Estimación de los coeficientes de regresión

Calificaciones y ventas semanales de 5 vendedores deVentas S.A. 

Vendedor   Y  X1  X2  X12  X2

2  X1Y  X2Y  X1X2 

Luis  5  4  2  16  4  20  10  8 

Rufino  12  7  5  49  25  84  60  35 

Frida  4 3  1  9  1 12  4 3 

Diego  8  6  4 36  16  48  32  24 

José  11  10  6 100  36  110  66  60 

Σ  40  30  18  210  82  274  172  130 

Ing. William león Velásquez

E ti ió d l fi i t d ióEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 50/85

Estimación de los coeficientes de regresión

Después de sustituir estas sumatorias en lasfórmulas de las ecuaciones, el sistema deecuaciones de la siguiente forma:

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 51/85

Estimación de los coeficientes de regresión

Una vez que ya tenemos el sistema deecuaciones, se procede a resolverlo con elmétodo de nuestra preferencia. En este caso

 vamos a utilizar el método de Gauss-Jordan

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 52/85

Estimación de los coeficientes de regresión

El método de Gauss-Jordan consiste enconvertir la matriz de coeficientes en unamatriz identidad, donde todos los elementos

son nulos salvo los de la diagonal principalque son 1.

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 53/85

Estimación de los coeficientes de regresión

En la columna de los términosindependientes quedarán los valores de loscoeficientes de la ecuación de regresión.

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 54/85

Estimación de los coeficientes de regresión

1. Expresamos el sistema de ecuaciones como unamatriz aumentada:

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 55/85

Estimación de los coeficientes de regresión

2. Para convertir el elemento (1,1) en 1, se divide el primer

renglón entre 5.

Para convertir el elemento (2,1) en cero, se multiplica el

renglón 1 por (-30) y se suma al renglón 2.

Para convertir el elemento (3,1) en cero, se multiplica el

renglón 1 por (-18) y se suma al renglón 3.

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 56/85

Estimación de los coeficientes de regresión

3. Para convertir el elemento (2,2) en 1, se divide el

segundo renglón entre 30. Para convertir el elemento (1,2) en cero, se multiplica el

renglón 2 por (-6) y se suma al renglón 1. Para convertir el elemento (3,2) en cero, se multiplica el

renglón 2 por (-22) y se suma al renglón 3.

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 57/85

Estimación de los coeficientes de regresión

4. Para convertir el elemento (3,3) en 1, se divide el tercer

renglón entre 32/30.

Para convertir el elemento (1,3) en cero, se multiplica elrenglón 3 por (4/5) y se suma al renglón 1.

Para convertir el elemento (2,3) en cero, se multiplica el

renglón 3 por (-22/30) y se suma al renglón 2.

Ing. William león Velásquez

Estimación de los coeficientes de regresiónEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 58/85

Estimación de los coeficientes de regresión

Los valores que están en la columna de la derechacorresponden a los valores de los coeficientes de laecuación de regresión, de tal forma que:

a = 560/160 = 3.5

 b1 = -936/960 = -.975 b2 = 92/32 = 2.875

 

La ecuación de regresión queda:

 y' = 3.5 - .975x1 + 2.875x2 

Ing. William león Velásquez

  Análisis de correlación múltipleEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 59/85

p

Los mismos tres coeficientes utilizados en el análisisde correlación simple para describir la relación entrela variable dependiente una variable independienteson usados en el análisis de correlación múltiple.

Estos coeficientes son

el coeficiente de correlación múltiple,

el coeficiente de determinación múltiple, y

el coeficiente de no determinación múltiple

Ing. William león Velásquez

Coeficiente de correlación múltiple.Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 60/85

  Coeficiente de correlación múltiple.

El coeficiente de correlación múltiple es una medidade la fuerza de la asociación entre la variabledependiente y dos o mas variables independientes.

El coeficiente de correlación múltiple solo puede

tener valores entre 0 y + 1.00 inclusive y serepresenta con la letra R.

Un coeficiente cercano a + 1.00 indica una muyfuerte correlación entre la variable dependiente y las

 variables independientes. Un coeficiente cercano a 0 revela una débil

correlación.Ing. William león Velásquez

Coeficiente de correlación múltiple.Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 61/85

El coeficiente de correlación múltiple se calcula de la

siguiente manera:

p

Ing. William león Velásquez

Coeficiente de determinación múltiple.Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 62/85

Es la proporción de la variación total en la variable dependiente

( Y ) que es explicada por la serie de variables independientes.

El coeficiente de determinación múltiple es una medida mas

significativa y precisa para medir la asociación la variable

dependiente y la s variables independientes.

Se simboliza con R². Lógicamente, el coeficiente de no

determinación múltiple mide la proporción de la variación en la

variable dependiente que no es explicada por las variables

independientes.

Coeficiente de determinación múltiple. 

Ing. William león Velásquez

C fi i d d i ió úl i l

Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 63/85

En el ejemplo de los cinco vendedores de Ventas S.A. para

calcular el coeficiente de correlación múltiple utilizamos lasiguiente tabla:

Coeficiente de determinación múltiple. 

y' = 3.5 - .975X1 + 2.875X2 

Vendedor   y  x1  x2  y'  y - y'  ( y - y’ )2  y - ( y - )2 

José Luis  5  4  2  5.35 -.35  .1225  - 3  9 

Rufino  12  7  5  11.05  .95  .9025  4  16 

Frida  4  3  1  3.45  .55  .3025  - 4  16 

Diego  8  6  4  9.15 -1.15  1.3225  0  0 

JoséClemente  11  10  6  11  0  0  3  9 

Σ  2.65  50 

Ing. William león Velásquez

Coeficiente de determinación múltiple. Ejemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 64/85

Se calculan los coeficientes de correlación ydeterminación múltiple.

Ing. William león Velásquez

INTERPRETACIÓNEjemplo 1

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 65/85

Podemos concluir que hay una fuerte correlaciónentre las ventas y las dos variables independientes,las calificaciones de la prueba y las calificacionesarchivadas.

Un 94.7% de la variación de las ventas semanales seexplican por la variación de las calificaciones de laprueba y la variación de las calificacionesarchivadas.

C Ó

Ing. William león Velásquez

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 66/85

El propietario de la cadena de cinesCINE PLANET desea estimar elingreso semanal neto en función delos gastos de publicidad.

Los datos históricos de una muestrade 8 semanas son los siguientes:

Ing. William león Velásquez

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 67/85

Ingresos Brutos

semanales (en

miles de dólares)

Anuncios en TV

(en miles de dólares)

Anuncios en

periódicos

(en miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94 3.0 2.5Ing. William león Velásquez

Planteando matricialmente los datosEjemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 68/85

1894

94

94

95

92

95

9096

 x

 y

1  5.0  1.5 1  2.0  2.0 

1  4.0  1.5 

1  2.5  2.5 1  3.0  3.3 

1  3.5  2.3 

1  2.5  4.2 

1  3.0  2.5 

 X 132

1

0

 x

b

b

b

  

8x3

Ing. William león Velásquez

Determinando la ecuación de regresiónEjemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 69/85

Determinando la ecuación de regresión

El modelo es:22110

ˆ   xb xbb y  

 y X  X  X      1)(  

Entonces primero resolvemos las matrices

para encontrar los parámetros:

  0,2491 0,1313 -1,0353 

0,1313 0,2239 -1,0389 

-1,0353 -1,0389 5,9989 

2

1

0

3010.1

2902.2

2301.83

1856

2401

750

b

b

b

1)(    X  X    y X Ing. William león Velásquez

Finalmente la ecuación es:Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 70/85

Coeficientesa

83.230 1.574 52.882 .000 79.184 87.276

2.290 .304 1.153 7.532 .001 1.509 3.072

1.301 .321 .621 4.057 .010 .477 2.125

(Constante)

 Anuncios en TV (en

miles de dólares)

 Anuncios en periódicos

(en miles de dólares)

Modelo1 B Error t íp.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig. Límite inf erior  

Límite

superior 

Interv alo de conf ianza para

B al 95%

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.

21  3010.12902.22301.83ˆ   X  X  y  

Ing. William león Velásquez

Finalmente la ecuación es:Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 71/85

• Interpretemos los parámetros estimados de las variables

independientes:

Para b1: Cuando los gastos de anunciar en televisión

varían una unidad y los gastos de anunciar en

 periódicos se mantienen constantes, los ingresos

 brutos semanales se incrementarán en 2.2902 miles de

dólares.

Para b2: Cuando los gastos de anunciar en televisión se

mantienen constantes y los gastos de anunciar en

 periódicos varían una unidad, los ingresos brutos

semanales se incrementarán en 1.3010 miles dedólares.

Ing. William león Velásquez

Hallando el error estándar de estimación

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 72/85

Para lo cual usaremos la fórmula abreviada para dosvariables independientes la cual se deriva de la forma general

 presentada en las fórmulas a utilizar. La fórmula es la

siguiente:

Hallando el error estándar de estimación

322110

2

. 21

 

n

 y X b y X b yb yS 

 X  X  y

Ing. William león Velásquez

Hallando el error estándar de estimación

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 73/85

64.021.   X  X  yS 

Hallando el error estándar de estimaciónReemplazando los valores previamente encontrados y

tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación:

Interpretación: La distancia promedio de los valores

observados alrededor de la ecuación de regresión es de

0.64. Es decir la dispersión de los valores observados es0.64.

Resumen del modelo

.959a

.919 .887 .64259

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Cons tante), Anuncios en periódicos

(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Ing. William león Velásquez

Hallando el Coeficiente de DeterminaciónEjemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 74/85

919.0

959.0

2

  Elevamos al cuadrado el coeficiente de correlación y

encontraremos el coeficiente de determinación:

Resumen del modelo

.959a .919 .887 .64259

Modelo1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Interpretación: Aproximadamente el 91.9% de los cambiosproducidos en los ingresos brutos semanales son explicados por

los cambios producidos en los gastos de publicidad (entelevisión y periódicos)

919.0

959.0

2

Ing. William león Velásquez

COEFICIENTE DE DETERMINACIONCORREGIDO

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 75/85

R2

Y.12...p= -----------SCE Coeficiente de

Determinación

MúltipleSCTO

R2Corr.= 1- ((1- R2

Y.12.. k ) ----------n-1

n-k-1

Representa la porción de

la variación en Y que se

puede explicar por Xi 

Necesario cuando se

comparan 2 o + modelos

de regresión que

predicen Y, pero condiferente Nº de Xi 

Ing. William león Velásquez

MATRIZ DE CORRELACIONCorrelaciones

Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 76/85

1.000 .808 -.021

.808 1.000 -.556

-.021 -.556 1.000

. .008 .481

.008 . .076

.481 .076 .

8 8 8

8 8 8

8 8 8

Ingresos Brutos

semanales (en

miles de dólares)

 Anuncios en TV (en

miles de dólares)

 Anuncios en periódicos

(en miles de dólares)

Ingresos Brutossemanales (en

miles de dólares)

 Anuncios en TV (en

miles de dólares)

 Anuncios en periódicos

(en miles de dólares)

Ingresos Brutos

semanales (en

miles de dólares)

 Anuncios en TV (en

miles de dólares)

 Anuncios en periódicos

(en miles de dólares)

Correlación de Pearson

Sig. (unilateral)

N

Ingresos

Brutos

semanales

(en miles dedólares)

 Anuncios en

TV (en milesde dólares)

 Anuncios en

periódicos

(en miles dedólares)

Ing. William león Velásquez

 Anova

0: H Ejemplo 2:

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 77/85

ANOVAb

23.435 2 11.718 28.378 .002a

2.065 5 .413

25.500 7

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrát ica F Sig.

Variables predictoras: (Constante), Anuncios en periódicos (en miles de dólares), Anunc ios en TV (en m iles de dó lares)

a.

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)b.

0:1 

iunmenoslo Por  H     

0...: 3210     k  H           

En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, loque ratifica la relación entre las variables.

Ing. William león Velásquez

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 78/85

La Facultad de una Universidad

quiere entender los factores de

aprendizaje de los alumnos que

cursan la asignatura de Gestión de

Proyectos, para lo cual se escoge al

azar una muestra de 7 alumnos yellos registran notas promedios en

las asignaturas de Contabilidad

Básica, Doctrina Contable y

Macroeconomía como se muestranen el siguiente cuadro.

Ing. William león Velásquez

AlumnoGestión de

P t

Contabilidad

Bá i

Doctrina

C t blMacroeconomía

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 79/85

Proyectos Básica Contable

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 176 15 16 17 15

7 12 13 15 11

Determinar la dependencia que exista de aprendizaje reflejada en

las notas de la asignatura de Métodos Cuantitativos, conociendolas notas de las asignaturas Contabilidad Básica, Doctrina Contable

II y Macroeconomía, con un nivel de significancia del 5%Ing. William león Velásquez

Calculamos los coeficientes de regresión utilizando las

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 80/85

Calculamos los coeficientes de regresión utilizando las

fórmulas de las ecuaciones o mediante un programa

Coeficientesa

3.140 2.529 1.241 .303

.054 .309 .088 .175 .872

.189 .189 .248 .999 .391

.501 .390 .739 1.284 .289

(Constante)

Contabilidad Basica

Doctrina Contable

Macroeconomia

Modelo1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: Metodos Cuantitativ osa.

Ing. William león Velásquez

Por lo tanto podemos construir la ecuación de

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 81/85

Por lo tanto podemos construir la ecuación deregresión que buscamos:

Ŷ = 3.140 + 0.054 X1  + 0.189 X2 + 0.501 X3

En el análisis de regresión múltiple la constante es elvalor de la ecuación de regresión de la variabledependiente Y dado que todas las variablesindependientes sean iguales a cero.

Ing. William león Velásquez

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 82/85

Resumen del modelo

.967a .935 .869 .529

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), Macroeconomia,

Doctrina Contable, Contabilidad Basica

a.

En los resultados del programas se llama error típico

y para explicar la relación del aprendizaje deMétodos Cuantitativos que se viene desarrollando es

de 0.529

Ing. William león Velásquez

Calculando el coeficiente de Determinación en

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 83/85

Calculando el coeficiente de Determinación en

el ejercicio (con variable independiente).

12.018 =  0.934 = R2…..Interprete¡¡¡ 

12.857

R = ……; Interprete 

Ing. William león Velásquez

Trabajando con el ejemplo del curso de Gestión de

Ejemplo 3

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 84/85

Trabajando con el ejemplo del curso de Gestión deProyectos, veremos que aplicando SPSS, nos saldríacomo resultado:

ANOVAb

12.018 3 4.006 14.314 .028a

.840 3 .280

12.857 6

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,

Contabilidad Basica

a.

Variable dependiente: Metodos Cuantitativ osb.

¿A que conclusión podemos llegar al 3% de error?Ing. William león Velásquez

7/26/2019 Est Ind Clase07

http://slidepdf.com/reader/full/est-ind-clase07 85/85

FINIng. William león Velásquez 85

Consultas o [email protected]