Est Ind Clase07
-
Upload
carlos-jesus-igreda-rivas -
Category
Documents
-
view
219 -
download
0
Transcript of Est Ind Clase07
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 1/85
I N G . W I L L I A M L E Ó N V E L Á S Q U E Z
N LISIS DE
REGRESIÓN
MÚLTIPLE
CLASE 07
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE INGENIERIA INDUSTRIAL
ESTADISTICA INDUSTRIAL
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 2/85
Introducción
Ing. William león Velásquez
En clases anteriores se ha tratado el análisis de regresiónsimple que trata de relacionar una variable explicativacuantitativa con una variable respuesta cuantitativa.
Todos los temas de esta clase va a servir ahora para
continuar con el caso más general y de mayor utilidadpráctica, que es la regresión lineal múltiple.
Por regresión lineal múltiple se entiende alanálisis de regresión lineal pero ahora con más
de una variable explicativa.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 3/85
Datos para regresión múltiple
Ing. William león Velásquez
Los datos para regresión lineal simple consisten en pares deobservaciones ( x i , y i ) de dos variables cuantitativas. Ahora
tendremos múltiples variables explicativas, por lo que la
notación será más elaborada.
1 x11 x12 ... x1p y 1 2 x21 x22 ... x2p y 2
: N xn1 xn2 ... xnp y n
Llamaremos x ij el valor de la j-
ésima variable del i-ésimo sujeto o
unidad (i=1,2,...,n ; j=1,2,...,p). Los
datos se pueden organizar de la
siguiente forma en una base:
Donde n es el número de casos o tamaño muestral y p es el
número de variables explicatorias. Esta es una forma de organizar
la base de datos, no importa el orden de las variables.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 4/85
Modelo de regresión lineal múltiple:
Ing. William león Velásquez
El modelo estadístico de regresión lineal múltiple es:
para i= 1, 2, ...,n
La respuesta media es una función lineal de las variablesexplicatorias:
Las desviaciones son independientes y normalmente distribuidascon media 0 y desviación estándar :
Los parámetros del modelo son: y , los coeficiente de regresión yla estimación de la variabilidad, es decir son en total (p + 2)parámetros.
iip piii x x x y 22110
p p y x x x 22110
),0(~ 2 N i
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 5/85
Modelo de regresión lineal múltiple:
Ing. William león Velásquez
Si suponemos que la respuesta media está relacionadacon los parámetros a través de la ecuación:
, esto quiere decir que podemos estimar la media de la variable respuesta a través de la estimación de losparámetros de regresión. Si esta ecuación se ajusta a larealidad entonces tenemos una forma de describir cómo
la media de la variable respuesta y varía con las variablesexplicatorias .
p p y x x x 22110
p x x x ,,, 21
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 6/85
Estimación de los parámetros de regresiónmúltiple.
Ing. William león Velásquez
En regresión lineal simple se usa el método demínimos cuadrados para obtener estimadores delintercepto y de la pendiente.
En regresión lineal múltiple el principio es el mismo, pero
necesitamos estimar más parámetros.
Llamaremos a los estimadores de los
parámetros
pbbb ,,, 10
p ,,, 10
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 7/85
Estimación de los parámetros de regresiónmúltiple
Ing. William león Velásquez
La respuesta estimada por el modelo para la i-ésimaobservación es:
El i-ésimo residuo es la diferencia entre la respuesta
observada y la predicha:
residuo =
El i-ésimo residuo =
ip piii xb xb xbb y 22110ˆ
estimadoˆobservado y y
iii y ye ˆ
ip piiii xb xb xbb ye 22110
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 8/85
Estimación de los parámetros de regresiónmúltiple
Ing. William león Velásquez
El método mínimos cuadrados elige los valores de losestimadores óptimos, es decir, que hacen la suma decuadrados de los residuos menor posible.
En otras palabras, los parámetros estimados minimizanla diferencia entre la respuesta observada y la respuestaestimada, lo que equivale a minimizar:
2ˆ ii y y
La fórmula de los estimadores de mínimos cuadrados para
regresión múltiple se complica porque se necesita notaciónmatricial, sin embargo estamos a salvo si entendemos el
concepto y dejaremos a a los software hacer los cálculos.
i ió d l á d ió
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 9/85
Estimación de los parámetros de regresiónmúltiple
Ing. William león Velásquez
El parámetro σ2 mide la variabilidad de la respuestaalrededor de la ecuación de regresión en la población.Como en regresión lineal simple estimamos σ2 como elpromedio de los residuos al cuadrado:
1ˆ
2
22
pn
e s
i
x y
1
ˆ 2
pn
y y ii
E i ió d l á d ió
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 10/85
Estimación de los parámetros de regresiónmúltiple
Ing. William león Velásquez
La cantidad (n-p-1) son los grados de libertad asociadoscon la estimación de la variabilidad: S2
y/x
S2 y/x es entonces el estimador de la variabilidad de la
respuesta y, tomando en cuenta las variablesexplicatorias x
j .
Lo distinguimos de que es la
variabilidad de y sin tomar en cuenta las variables
explicativas x j .
1
2
2
n
y y s
ii
y
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 11/85
Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión
Ing. William león Velásquez
Se puede obtener intervalos de confianza y prueba dehipótesis para cada uno de los coeficientes de regresióncomo se hizo en la regresión simple.
Los errores estándar de los estadísticos muestrales tienen
fórmulas más complicadas, así es que nuevamentedejaremos a un programa de software para que realicelos cálculos respectivos
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 12/85
Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión
Ing. William león Velásquez
Prueba de hipótesis para :
Para probar la hipótesis se usa el test t :
Donde EE(b j) es el error estándar de b j
0:
0:
1
0
j
j
H
H
)1(~)EE(b
b
j
j pnt t
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 13/85
Pruebas de significancia e Intervalos deconfianza para los coeficientes de regresión
Ing. William león Velásquez
EE(b j) es el error estándar de b j
Notas:
Se va a dejar al software el cálculo del error estándar de b j
Se tendrá entonces una prueba de hipótesis asociado acada variable explicatoria en el modelo.
Se puede realizar hipótesis de una cola, donde H 1: β j < 0 o
H 1: β j >0 , pero lo usual es hacer una prueba bilateral.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 14/85
Intervalo de confianza para β j
Ing. William león Velásquez
Un intervalo de confianza ( 1 - α)*100% para β j está dadopor:
Donde es el percentil apropiado de la distribución t
con (n-p-1) grados de libertad, EE(b j) es el error estándar
de b j
)()1(2
1 j j b EE pnt b
21
t
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 15/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
La tabla de análisis de varianza para la regresión múltiple es lasiguiente:
Fuente de variación
glGrados de libertad
SCSuma de
Cuadrados
CMCuadrados Medios
Modelo p
Residuo
n-p-1
Total n-1
2)ˆ(Mod y ySC
p
SC Mod
n
i
ii y y sSC 1
2)ˆ(Re
1
Re
pn
sSC
n
i
i y ySCT 1
2
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 16/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son ahora p en vez de 1,
lo que refleja que ahora tenemos p variables explicatoriasen vez de sólo una.
Las sumas de cuadrados representan las fuentes de variación. Recuede que la suma de cuadrados total esigual a la suma de los cuadrados del modelo de regresiónmás la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 17/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
El estimador de la varianza σ2 de nuestro modelo estádado por la media cuadrática residual
MCRes=SCRes/(n-p-1)
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 18/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
Estadístico F La razón entre el cuadrado medio del modelo y el residuo
, permite estimar si la relación entre las variablesexplicatorias y la respuesta es significativa.
La hipótesis que prueba el test F es:
s MC MC F ReMod
ceroesnounmenosal:0:
1
210
j
p
H H
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 19/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
La hipótesis nula dice que ninguna de las variablesexplicatorias son predictores de la variable respuesta.
La hipótesis alternativa dice que al menos una de las variables explicatorias está linealmente relacionada con larespuesta.
Como en regresión simple, valores grandes de F nos danevidencia en contra de hipótesis nula.
Cuando H0 es verdadera, el estadístico F tienedistribución F de Fisher con ( p, n-p-1) grados de libertad.
Los grados de libertad están asociados a losgrados de libertad del modelo y del residuo en latabla ANOVA.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 20/85
Tabla de ANOVA para regresión múltiple
Ing. William león Velásquez
Recuerde que en regresión lineal simple el test F de latabla ANOVA es equivalente al test t bilateral para lahipótesis de que la pendiente es cero.
Ahora, el test F de regresión múltiple prueba la hipótesis
de que todos los coeficientes de regresión (con excepcióndel intercepto) son cero, hipótesis que no es de muchointerés.
En el problema de regresión múltiple interesan más las
hipótesis individuales para cada parámetro asociado acada variable explicatoria.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 21/85
Coeficiente de determinación (R 2)
Ing. William león Velásquez
En regresión lineal simple se vio que el cuadrado del
coeficiente de correlación era
y se podía interpretar como la proporción de la variabilidad de y que podía ser explicada por x . Uncoeficiente similar se calcula en regresión múltiple:
Total
Reg2
SC
SC r
2
2
2 )ˆ
(TotalMod
y y y y
SC SC R
i
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 22/85
Coeficiente de determinación (R 2)
Ing. William león Velásquez
Donde R 2 es la proporción de la variabilidad de la variablerespuesta y que es explicada por las variablesexplicatorias en la regresión lineal múltiple.
A menudo se multiplica R 2 por 100 y se expresa comoporcentaje. La raíz cuadrada de R 2 es el coeficiente decorrelación múltiple, es la correlación entre lasobservaciones yi y los valores predichos .
2
22 )ˆ(
Total
Mod
y y
y y
SC
SC Ri
i y
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 23/85
Coeficiente de determinación (R 2) ajustado
Ing. William león Velásquez
Cuando se evalúa un modelo de regresión linealmúltiple nos interesa decidir si una variable dadamejora la capacidad para predecir la respuestacomparando el R 2 de un modelo que contiene la
variable, con el R 2 del modelo sin la variable.
El modelo con mejor R 2 debería ser el mejor modelo.
Pero se debe ser cuidadoso cuando se compara loscoeficientes de determinación de dos modelosdiferentes.
La inclusión de una variable adicional en el modelonunca provoca la reducción de R 2.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 24/85
Coeficiente de determinación (R 2) ajustado
Ing. William león Velásquez
Para manejar este problema, se puede utilizar el R 2 ajustado, que ajusta por el número de variables que hayen el modelo.
El R 2 ajustado es:
221
)1(
11 R
pn
n Ra
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 25/85
Un ejemplo
Ing. William león Velásquez
En educación existe polémica acerca de las notas de loscolegios que se creen están infladas. Si no estuvieraninfladas esperaríamos que las pruebas de ingreso a laUniversidad estén altamente correlacionadas con las
notas de enseñanza media. Revisemos, con datos de la Prueba de Aptitud Académica
(PAA) del año 2001 en una determinada región, sipodemos explicar las notas de enseñanza media con la
PAA.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 26/85
Un ejemplo
Ing. William león Velásquez
Resumen del modelo
.578a .334 .334 81.25283
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Prueba Historia y
Geografía, Prueba Aptitud Matemática, Prueba Aptitud Verbal
a.
ANOVAb
16400316 3 5466772.0 828.045 .000a
32660205 4947 6602.023
49060521 4950
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), Prueba Historia y Geograf ía, Prueba Aptitud
Matemática, Prueba Aptitud Verbal
a.
Variable dependiente: NEM Notas Ens Mediab.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 27/85
Un ejemplo
Ing. William león Velásquez
Coeficientesa
312.088 5.656 55.179 .000 301.000 323.176.153 .019 .176 7.993 .000 .115 .190
.275 .015 .349 18.133 .000 .245 .304
.096 .019 .098 5.049 .000 .059 .133
(Constante)Prueba Aptitud Verbal
Prueba Aptitud
Matemática
Prueba Historia y
Geografía
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Límite inf erior
Límite
superior
Interv alo de conf ianza para
B al 95%
Variable dependiente: NEM Notas Ens Mediaa.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 28/85
Introducción
Ing. William león Velásquez
Ejemplo Seis ejecuciones fueron hechas a
varias condiciones de saturación X1 y transisomers (X2) . La respuesta,
SCI, es listada abajo como Y paralos correspondientes niveles de X1 yX2.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 29/85
Introducción
Ing. William león Velásquez
El gráfico para los datos del ejemplo es dado en la figura1. Sólo los modelos de regresión múltiple con dos
variables independientes pueden ser graficados.
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 30/85
Estimación de mínimos cuadrados
Ing. William león Velásquez
El método de mínimos cuadrados es utilizado paraestimar los parámetros en el modelo de regresión linealmúltiple
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 31/85
Estimación de mínimos cuadrados
Ing. William león Velásquez
Suponga que se tienen n >k observaciones. Se asume queE(ε) =0 y V(ε) =σ2 y que los errores son no correlacionados.
El método de mínimos cuadrados minimiza la suma decuadrados
con respecto a cada uno de los parámetros del modelo β0 β1 …..βk .
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 32/85
Estimación de mínimos cuadrados
Ing. William león Velásquez
Luego las ecuaciones normales son:
i ió d í i d d
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 33/85
Estimación de mínimos cuadrados
Ing. William león Velásquez
En esta notación el modelo se expresa como
con
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 36/85
Estimación de mínimos cuadrados
Ing. William león Velásquez
la cual es similar a las obtenidas anteriormente
Para solucionar las ecuaciones normales se requiere que
exista la inversa de la matriz . Esta existe siempre que las
variables regresoras sean linealmente independientes. Así, la
solución de mínimos cuadrados de vector parámetrico β es
E ti ió d í i d d Ej l
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 37/85
Estimación de mínimos cuadrados. Ejemplo
Ing. William león Velásquez
para los datos del ejemplo tratado el vector Y y la matriz X son
respectivamente
E ti ió d í i d d Ej l
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 38/85
Estimación de mínimos cuadrados. Ejemplo
Ing. William león Velásquez
La matriz X´X es
Estimación de mínimos cuadrados Ejemplo
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 39/85
Estimación de mínimos cuadrados. Ejemplo
Ing. William león Velásquez
Y el vector X´Y es
Estimación de mínimos cuadrados Ejemplo
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 40/85
Estimación de mínimos cuadrados. Ejemplo
Ing. William león Velásquez
El estimador de mínimos cuadrados de β es
o
Estimación de mínimos cuadrados Ejemplo
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 41/85
Estimación de mínimos cuadrados. Ejemplo
Ing. William león Velásquez
Luego el modelo ajustado por mínimos cuadrados es
Análisis de Varianza
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 42/85
Análisis de Varianza
Ing. William león Velásquez
Una tabla básica de análisis de varianza es dada por
Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 43/85
j p
El director de recursos humanos deVentas S.A. está entrevistando yseleccionando nuevos vendedores.
El ha diseñado una prueba que leayudará a realizar la mejor selección
posible para la fuerza de ventas. Con el fin de probar la validez de la
prueba para predecir las ventassemanales, él eligió vendedoresexperimentados y aplicó la prueba a cada
uno. La calificación de cada vendedor fueentonces pareada con sus ventassemanales.
Ing. William león Velásquez
Tabla de datosEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 44/85
Tabla de datos
Calificaciones y ventas semanales de 5 vendedores deVentas S.A.
Vendedor Calificación Ventas
semanales
Calificación
archivada
Luis 4 5,000 2
Rufino 7 12,000 5
Frida 3 4,000 1
Diego 6 8,000 4
José 10 11,000 6
Ing. William león Velásquez
j p
Análisis de regresión múltipleEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 45/85
Análisis de regresión múltiple
La ecuación de regresión simple que tiene una sola variable
independiente tiene la forma general de y' = a + bx.
En el caso de la regresión múltiple la ecuación tiene varias
variables independientes:
y' = a + b1x
1 + b
2x
2 + ... + b
kx
k
donde:
X1, X2, ... Xk son las variables independientes.
a es el punto donde la línea de regresión cruza el eje de las Y.b1, b2, ... bk son los coeficientes de regresión.
Ing. William león Velásquez
j p
Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 46/85
Estimación de los coeficientes de regresión
Para encontrar las valores de los
coeficientes de la ecuación de
regresión ( a, b1, b2, ... bk ) se utiliza
el método de mínimos cuadradosque consiste en resolver el siguiente
sistema de ecuaciones simultaneas.
Ing. William león Velásquez
E ti ió d l fi i t d ióEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 47/85
Estimación de los coeficientes de regresión
Σy = an + b1Σx1 + b2Σx2 + ... + bkΣxk
Σx1y = aΣx1 + b1Σx1x1 + b2Σx1x2 + ... + bkΣx1xk
Σx2x = aΣx2 + b1Σx2x1 + b2Σx2x2 + ... + bkΣx2xk
... ... ... ...
Σxky = aΣxk + b1Σxkx1 + b2Σxk x2 + ... + bkΣxkxk
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 48/85
Estimación de los coeficientes de regresión
Las ventas semanales se representan con y, La calificación de la prueba con x1, y
Las calificaciones archivadas con x2.
Con estos datos completamos la siguientetabla:
Ing. William león Velásquez
E ti ió d l fi i t d ióEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 49/85
Estimación de los coeficientes de regresión
Calificaciones y ventas semanales de 5 vendedores deVentas S.A.
Vendedor Y X1 X2 X12 X2
2 X1Y X2Y X1X2
Luis 5 4 2 16 4 20 10 8
Rufino 12 7 5 49 25 84 60 35
Frida 4 3 1 9 1 12 4 3
Diego 8 6 4 36 16 48 32 24
José 11 10 6 100 36 110 66 60
Σ 40 30 18 210 82 274 172 130
Ing. William león Velásquez
E ti ió d l fi i t d ióEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 50/85
Estimación de los coeficientes de regresión
Después de sustituir estas sumatorias en lasfórmulas de las ecuaciones, el sistema deecuaciones de la siguiente forma:
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 51/85
Estimación de los coeficientes de regresión
Una vez que ya tenemos el sistema deecuaciones, se procede a resolverlo con elmétodo de nuestra preferencia. En este caso
vamos a utilizar el método de Gauss-Jordan
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 52/85
Estimación de los coeficientes de regresión
El método de Gauss-Jordan consiste enconvertir la matriz de coeficientes en unamatriz identidad, donde todos los elementos
son nulos salvo los de la diagonal principalque son 1.
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 53/85
Estimación de los coeficientes de regresión
En la columna de los términosindependientes quedarán los valores de loscoeficientes de la ecuación de regresión.
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 54/85
Estimación de los coeficientes de regresión
1. Expresamos el sistema de ecuaciones como unamatriz aumentada:
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 55/85
Estimación de los coeficientes de regresión
2. Para convertir el elemento (1,1) en 1, se divide el primer
renglón entre 5.
Para convertir el elemento (2,1) en cero, se multiplica el
renglón 1 por (-30) y se suma al renglón 2.
Para convertir el elemento (3,1) en cero, se multiplica el
renglón 1 por (-18) y se suma al renglón 3.
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 56/85
Estimación de los coeficientes de regresión
3. Para convertir el elemento (2,2) en 1, se divide el
segundo renglón entre 30. Para convertir el elemento (1,2) en cero, se multiplica el
renglón 2 por (-6) y se suma al renglón 1. Para convertir el elemento (3,2) en cero, se multiplica el
renglón 2 por (-22) y se suma al renglón 3.
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 57/85
Estimación de los coeficientes de regresión
4. Para convertir el elemento (3,3) en 1, se divide el tercer
renglón entre 32/30.
Para convertir el elemento (1,3) en cero, se multiplica elrenglón 3 por (4/5) y se suma al renglón 1.
Para convertir el elemento (2,3) en cero, se multiplica el
renglón 3 por (-22/30) y se suma al renglón 2.
Ing. William león Velásquez
Estimación de los coeficientes de regresiónEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 58/85
Estimación de los coeficientes de regresión
Los valores que están en la columna de la derechacorresponden a los valores de los coeficientes de laecuación de regresión, de tal forma que:
a = 560/160 = 3.5
b1 = -936/960 = -.975 b2 = 92/32 = 2.875
La ecuación de regresión queda:
y' = 3.5 - .975x1 + 2.875x2
Ing. William león Velásquez
Análisis de correlación múltipleEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 59/85
p
Los mismos tres coeficientes utilizados en el análisisde correlación simple para describir la relación entrela variable dependiente una variable independienteson usados en el análisis de correlación múltiple.
Estos coeficientes son
el coeficiente de correlación múltiple,
el coeficiente de determinación múltiple, y
el coeficiente de no determinación múltiple
Ing. William león Velásquez
Coeficiente de correlación múltiple.Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 60/85
Coeficiente de correlación múltiple.
El coeficiente de correlación múltiple es una medidade la fuerza de la asociación entre la variabledependiente y dos o mas variables independientes.
El coeficiente de correlación múltiple solo puede
tener valores entre 0 y + 1.00 inclusive y serepresenta con la letra R.
Un coeficiente cercano a + 1.00 indica una muyfuerte correlación entre la variable dependiente y las
variables independientes. Un coeficiente cercano a 0 revela una débil
correlación.Ing. William león Velásquez
Coeficiente de correlación múltiple.Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 61/85
El coeficiente de correlación múltiple se calcula de la
siguiente manera:
p
Ing. William león Velásquez
Coeficiente de determinación múltiple.Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 62/85
Es la proporción de la variación total en la variable dependiente
( Y ) que es explicada por la serie de variables independientes.
El coeficiente de determinación múltiple es una medida mas
significativa y precisa para medir la asociación la variable
dependiente y la s variables independientes.
Se simboliza con R². Lógicamente, el coeficiente de no
determinación múltiple mide la proporción de la variación en la
variable dependiente que no es explicada por las variables
independientes.
Coeficiente de determinación múltiple.
Ing. William león Velásquez
C fi i d d i ió úl i l
Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 63/85
En el ejemplo de los cinco vendedores de Ventas S.A. para
calcular el coeficiente de correlación múltiple utilizamos lasiguiente tabla:
Coeficiente de determinación múltiple.
y' = 3.5 - .975X1 + 2.875X2
Vendedor y x1 x2 y' y - y' ( y - y’ )2 y - ( y - )2
José Luis 5 4 2 5.35 -.35 .1225 - 3 9
Rufino 12 7 5 11.05 .95 .9025 4 16
Frida 4 3 1 3.45 .55 .3025 - 4 16
Diego 8 6 4 9.15 -1.15 1.3225 0 0
JoséClemente 11 10 6 11 0 0 3 9
Σ 2.65 50
Ing. William león Velásquez
Coeficiente de determinación múltiple. Ejemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 64/85
Se calculan los coeficientes de correlación ydeterminación múltiple.
Ing. William león Velásquez
INTERPRETACIÓNEjemplo 1
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 65/85
Podemos concluir que hay una fuerte correlaciónentre las ventas y las dos variables independientes,las calificaciones de la prueba y las calificacionesarchivadas.
Un 94.7% de la variación de las ventas semanales seexplican por la variación de las calificaciones de laprueba y la variación de las calificacionesarchivadas.
C Ó
Ing. William león Velásquez
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 66/85
El propietario de la cadena de cinesCINE PLANET desea estimar elingreso semanal neto en función delos gastos de publicidad.
Los datos históricos de una muestrade 8 semanas son los siguientes:
Ing. William león Velásquez
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 67/85
Ingresos Brutos
semanales (en
miles de dólares)
Anuncios en TV
(en miles de dólares)
Anuncios en
periódicos
(en miles de dólares)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5Ing. William león Velásquez
Planteando matricialmente los datosEjemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 68/85
1894
94
94
95
92
95
9096
x
y
1 5.0 1.5 1 2.0 2.0
1 4.0 1.5
1 2.5 2.5 1 3.0 3.3
1 3.5 2.3
1 2.5 4.2
1 3.0 2.5
X 132
1
0
x
b
b
b
8x3
Ing. William león Velásquez
Determinando la ecuación de regresiónEjemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 69/85
Determinando la ecuación de regresión
El modelo es:22110
ˆ xb xbb y
y X X X 1)(
Entonces primero resolvemos las matrices
para encontrar los parámetros:
0,2491 0,1313 -1,0353
0,1313 0,2239 -1,0389
-1,0353 -1,0389 5,9989
2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1)( X X y X Ing. William león Velásquez
Finalmente la ecuación es:Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 70/85
Coeficientesa
83.230 1.574 52.882 .000 79.184 87.276
2.290 .304 1.153 7.532 .001 1.509 3.072
1.301 .321 .621 4.057 .010 .477 2.125
(Constante)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Modelo1 B Error t íp.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Límite inf erior
Límite
superior
Interv alo de conf ianza para
B al 95%
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.
21 3010.12902.22301.83ˆ X X y
Ing. William león Velásquez
Finalmente la ecuación es:Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 71/85
• Interpretemos los parámetros estimados de las variables
independientes:
Para b1: Cuando los gastos de anunciar en televisión
varían una unidad y los gastos de anunciar en
periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles de
dólares.
Para b2: Cuando los gastos de anunciar en televisión se
mantienen constantes y los gastos de anunciar en
periódicos varían una unidad, los ingresos brutos
semanales se incrementarán en 1.3010 miles dedólares.
Ing. William león Velásquez
Hallando el error estándar de estimación
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 72/85
Para lo cual usaremos la fórmula abreviada para dosvariables independientes la cual se deriva de la forma general
presentada en las fórmulas a utilizar. La fórmula es la
siguiente:
Hallando el error estándar de estimación
322110
2
. 21
n
y X b y X b yb yS
X X y
Ing. William león Velásquez
Hallando el error estándar de estimación
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 73/85
64.021. X X yS
Hallando el error estándar de estimaciónReemplazando los valores previamente encontrados y
tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación:
Interpretación: La distancia promedio de los valores
observados alrededor de la ecuación de regresión es de
0.64. Es decir la dispersión de los valores observados es0.64.
Resumen del modelo
.959a
.919 .887 .64259
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Cons tante), Anuncios en periódicos
(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
Ing. William león Velásquez
Hallando el Coeficiente de DeterminaciónEjemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 74/85
919.0
959.0
2
r
r
Elevamos al cuadrado el coeficiente de correlación y
encontraremos el coeficiente de determinación:
Resumen del modelo
.959a .919 .887 .64259
Modelo1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
Interpretación: Aproximadamente el 91.9% de los cambiosproducidos en los ingresos brutos semanales son explicados por
los cambios producidos en los gastos de publicidad (entelevisión y periódicos)
919.0
959.0
2
r
r
Ing. William león Velásquez
COEFICIENTE DE DETERMINACIONCORREGIDO
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 75/85
R2
Y.12...p= -----------SCE Coeficiente de
Determinación
MúltipleSCTO
R2Corr.= 1- ((1- R2
Y.12.. k ) ----------n-1
n-k-1
Representa la porción de
la variación en Y que se
puede explicar por Xi
Necesario cuando se
comparan 2 o + modelos
de regresión que
predicen Y, pero condiferente Nº de Xi
Ing. William león Velásquez
MATRIZ DE CORRELACIONCorrelaciones
Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 76/85
1.000 .808 -.021
.808 1.000 -.556
-.021 -.556 1.000
. .008 .481
.008 . .076
.481 .076 .
8 8 8
8 8 8
8 8 8
Ingresos Brutos
semanales (en
miles de dólares)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Ingresos Brutossemanales (en
miles de dólares)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Ingresos Brutos
semanales (en
miles de dólares)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Correlación de Pearson
Sig. (unilateral)
N
Ingresos
Brutos
semanales
(en miles dedólares)
Anuncios en
TV (en milesde dólares)
Anuncios en
periódicos
(en miles dedólares)
Ing. William león Velásquez
Anova
0: H Ejemplo 2:
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 77/85
ANOVAb
23.435 2 11.718 28.378 .002a
2.065 5 .413
25.500 7
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrát ica F Sig.
Variables predictoras: (Constante), Anuncios en periódicos (en miles de dólares), Anunc ios en TV (en m iles de dó lares)
a.
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)b.
0:1
iunmenoslo Por H
0...: 3210 k H
En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, loque ratifica la relación entre las variables.
Ing. William león Velásquez
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 78/85
La Facultad de una Universidad
quiere entender los factores de
aprendizaje de los alumnos que
cursan la asignatura de Gestión de
Proyectos, para lo cual se escoge al
azar una muestra de 7 alumnos yellos registran notas promedios en
las asignaturas de Contabilidad
Básica, Doctrina Contable y
Macroeconomía como se muestranen el siguiente cuadro.
Ing. William león Velásquez
AlumnoGestión de
P t
Contabilidad
Bá i
Doctrina
C t blMacroeconomía
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 79/85
Proyectos Básica Contable
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 176 15 16 17 15
7 12 13 15 11
Determinar la dependencia que exista de aprendizaje reflejada en
las notas de la asignatura de Métodos Cuantitativos, conociendolas notas de las asignaturas Contabilidad Básica, Doctrina Contable
II y Macroeconomía, con un nivel de significancia del 5%Ing. William león Velásquez
Calculamos los coeficientes de regresión utilizando las
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 80/85
Calculamos los coeficientes de regresión utilizando las
fórmulas de las ecuaciones o mediante un programa
Coeficientesa
3.140 2.529 1.241 .303
.054 .309 .088 .175 .872
.189 .189 .248 .999 .391
.501 .390 .739 1.284 .289
(Constante)
Contabilidad Basica
Doctrina Contable
Macroeconomia
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig.
Variable dependiente: Metodos Cuantitativ osa.
Ing. William león Velásquez
Por lo tanto podemos construir la ecuación de
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 81/85
Por lo tanto podemos construir la ecuación deregresión que buscamos:
Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3
En el análisis de regresión múltiple la constante es elvalor de la ecuación de regresión de la variabledependiente Y dado que todas las variablesindependientes sean iguales a cero.
Ing. William león Velásquez
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 82/85
Resumen del modelo
.967a .935 .869 .529
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Macroeconomia,
Doctrina Contable, Contabilidad Basica
a.
En los resultados del programas se llama error típico
y para explicar la relación del aprendizaje deMétodos Cuantitativos que se viene desarrollando es
de 0.529
Ing. William león Velásquez
Calculando el coeficiente de Determinación en
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 83/85
Calculando el coeficiente de Determinación en
el ejercicio (con variable independiente).
12.018 = 0.934 = R2…..Interprete¡¡¡
12.857
R = ……; Interprete
Ing. William león Velásquez
Trabajando con el ejemplo del curso de Gestión de
Ejemplo 3
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 84/85
Trabajando con el ejemplo del curso de Gestión deProyectos, veremos que aplicando SPSS, nos saldríacomo resultado:
ANOVAb
12.018 3 4.006 14.314 .028a
.840 3 .280
12.857 6
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,
Contabilidad Basica
a.
Variable dependiente: Metodos Cuantitativ osb.
¿A que conclusión podemos llegar al 3% de error?Ing. William león Velásquez
7/26/2019 Est Ind Clase07
http://slidepdf.com/reader/full/est-ind-clase07 85/85
FINIng. William león Velásquez 85
Consultas o [email protected]