Analisis de Regresion y Correlacion Lineal Simple

26
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE. 1. Se tomó una muestra para analizar cuál es la relación entre la edad (en meses) y el peso (en kilogramos) de niños en edad pre escolar, en donde se obtuvo los siguientes resultados. X=1122 n=22 Y=308 X 2 =57809 Y 2 =¿ 4505¿ XY=16002 X : Edad (meses) Y : Peso( Kg ) a) Hallar la edad promedio de la muestra y sus medidas de dispersión. Promedio: X= X n = 1122 22 =51 meses≅ 4.25 años Varianza: S x 2 = x 2 ¿¿¿¿¿ Desviación estándar: S x = S x 2 =5.2870 meses XS x X≤ X+S x 45.713 meses≤ X≤ 56.287 meses 3.8 años ≤ X≤ 4.7 años Coeficiente de variación: C.V= S x X 100 % =10.37 % La muestra es homogénea b) Hallar el peso promedio de la muestra y sus medidas de dispersión.

description

regresión y correlacion

Transcript of Analisis de Regresion y Correlacion Lineal Simple

Page 1: Analisis de Regresion y Correlacion Lineal Simple

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE.

1. Se tomó una muestra para analizar cuál es la relación entre la edad (en meses) y el peso (en kilogramos) de niños en edad pre escolar, en donde se obtuvo los siguientes resultados.

∑ X=1122n=22 ∑Y=308∑ X2=57809

∑Y 2=¿4505¿ ∑ XY=16002

X : Edad (meses)Y :Peso(Kg)

a) Hallar la edad promedio de la muestra y sus medidas de dispersión.

Promedio: X=∑ X

n=

112222

=51meses≅ 4.25años

Varianza:

Sx2=∑ x2−¿¿¿¿¿

Desviación estándar:

Sx=√Sx2=5.2870meses

X−S x≤ X ≤X+Sx

45.713meses≤ X≤56.287meses3.8años≤ X ≤4.7años

Coeficiente de variación:

C .V=Sx

X∗100 %=10.37 % La muestra es homogénea

b) Hallar el peso promedio de la muestra y sus medidas de dispersión.

Promedio: Y=∑ y

n=

30822

=14Kg

Varianza:

Sy2=∑ y2−¿¿¿¿¿

Desviación estándar:

Page 2: Analisis de Regresion y Correlacion Lineal Simple

Sy=√S y2=3.031Kg

Y−S y≤Y ≤Y +S y

10.969Kg≤Y ≤17.031Kg

Coeficiente de variación:

C .V=Sy

Y∗100 %=21.65 % La muestra es homogenea

c) Estime un modelo según una relación lineal entre la edad y el peso de los niños, interprete el coeficiente de regresión.

El modelo es:

Y=a+bXPeso=a+b∗Edad

Donde:

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2=

22 (16002 )−(1122 )(308)22 (57809 )−(1122)2 =0.5

a=∑ Y

n−b

∑ X

n=

30822

−0.5∗1122

22=−11.5

Luego:

Peso=−11.5+0.5∗Edad

Interpretación: el coeficiente de regresión b=0.5 nos indica que por cada mes que pasa, el peso en promedio aumenta en 500 gr.

d) Estimar cuanto será el peso para un niño de 58 meses de edad.

Siedad ( x )=58meses≅ 4.83años entonces:

Peso=−11.5+0.5 (58 )

Peso=17.5Kg

e) Estimar que edad aproximada tiene un niño que pesa 12.5 Kg.

Peso=−11.5+0.5∗Edad

Edad=Peso+11.50.5

=12.5+11.50.5

=48meses≅ 4 años

Page 3: Analisis de Regresion y Correlacion Lineal Simple

f) Hallar la varianza residual de la regresión.

Sxy2 =¿¿

Sxy2 =

4505−(−11.5 )∗(308 )− (0.5 )(16002)20

=2.3

Desviación estándar: sxy=√S xy2 =1.52 es confiable

g) Determinar el coeficiente de correlación, interprete.

r=∑ XY−n (X )(Y )

√∑ X 2−n(X)2 √∑ Y 2−n(Y )2

r=16002−22(51)(14)

√57809−22(51)2 √4505−22 (14)2=0.87

Existe una relación positiva fuerte entre la edad y el peso de los niños.

h) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el peso de los niños.

R2=r2∗100=76.3 %

La variabilidad en el peso de los niños es explicado en un 76.3% por la variabilidad en su edad. Otros factores que determinan el peso de los niños en edad pre escolar es la alimentación (número de comidas por día), altura, ingreso económico de los padres….

2. En la comunidades A y B se realizo un estudio para determinar si la agilidad mental de los niños esta en relación directa con su edad. Se escogieron 10 niños de cada comunidad y se les aplico un test para medir su agilidad mental con los siguientes resultados.

Comunidad A Comunidad B

X=8 n X2=722.5

∑ X2=672 ∑ X2=747

Y=22.5 n y2=4368.10

∑Y 2=¿5549¿ ∑Y 2=¿4783¿

∑ XY=1888 ∑ XY=1835

Page 4: Analisis de Regresion y Correlacion Lineal Simple

a) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la edad y la agilidad mental de los niños, interprete el coeficiente de regresión.Comunidad A

El modelo es:Y=a+bX

Peso=a+b∗EdadDónde:

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2=

10 (1888 )− (80 )(225)10 (672 )−(80)2 =2.75

a=∑ Y

n−b

∑ X

n=

22510

−2.75∗80

10=0.5

Luego:

Peso=−11.5+0.5∗Edad

Interpretación: el coeficiente de regresión de b=2.75 nos indica por cada año cumplido por niños su agilidad mental en promedio aumenta 2.75Comunidad de BEl modelo es:

Y=a+bXPeso=a+b∗Edad

Dónde:

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2=

10 (1835 )− (85 )(209)10 (747 )−(85)2 =2.39

a=∑ Y

n−b

∑ X

n=

20910

−2.3∗85

10=0.604

Luego:

Peso=0.604+2.39∗Edad

Interpretación: el coeficiente de regresión b=2.39 nos indica que por cada año cumplido por los niños, su agilidad mental aumenta en promedio 2.39

b) Estimar cuanto será la agilidad mental de un niño de 7años de edad. Comunidad A:

Page 5: Analisis de Regresion y Correlacion Lineal Simple

Y=a+bXPeso=0.5+b2.75∗Edad

Peso=0.5+2.75∗7

Peso=¿19.75Comunidad B

Y=a+bXPeso=0.604+2.39∗Edad

Peso=0.604+2.39∗7

Peso=¿17.33

c) Hallar la varianza residual de la regresión.Comunidad A:

Sxy2 =¿¿

Sxy2 =

5549−(0.5 )∗(225 )−(2.75 )(1888)8

=30.56

Desviación estándar: sxy=√S xy2 =1.52 es confiable

Comunidad:

Sxy2 =¿¿

Sxy2 =

4783−(0.604 )∗(209 )−(2.39 )(1835)8

=33.89

Desviación estándar: sxy=√S xy2 =1.52 es confiable

d) Determinar el coeficiente de correlación, interprete.Comunidad A:

Page 6: Analisis de Regresion y Correlacion Lineal Simple

r=∑ XY−n (X )(Y )

√∑ X 2−n(X)2 √∑ Y 2−n(Y )2

r=1888−10(8)(22.5)

√672−10 (8)2√5549−10 (22.5)2=0.7052

Interpretación: existe una correlación positiva fuerte

Comunidad B:

r=∑ XY−n (X )(Y )

√∑ X 2−n(X)2 √∑ Y 2−n(Y )2

r=1835−10 (8.5)(20.9)

√747−10(8.5)2 √4783−10(20.9)2=0.580

Interpretación: existe una correlación positiva moderada

e) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan la agilidad mental de los niños.

Comunidad A:

R2=r2∗100

R2=0.7052∗100

R2=70.52 %Interpretación: la variabilidad en la agilidad mental de los niños es explicado en un 70.52% por la variabilidad en la edad

Comunidad B:

R2=r2∗100

R2=0.580∗100

R2=58.0 %Interpretación:La variabilidad en la agilidad mental de los niños es explicado en un 8.0% por la variabilidad en su edad. Otros factores que determinan la agilidad mental de los niños de las comunidades de la alimentación, horas de sueño, motivación, actividades intelectuales

3. Los siguientes datos corresponden a las notas obtenidas en dos exámenes parciales aplicados a ocho alumnos.

Page 7: Analisis de Regresion y Correlacion Lineal Simple

Primer examen 8 13 14 7 10 11 13 9

Segundo examen 10 12 11 9 14 13 11 8

X: Primer examenY: Segundo examen

a) Realizar el diagrama de dispersión para estos datos y analizar.

1413121110987

14

13

12

11

10

9

8

Primer examen

Segundo e

xam

en

S 1.93303R-cuad. 19.9%R-cuad.(ajustado) 6.6%

Gráfica de línea ajustadaSegundo examen = 7.294 + 0.3488 Primer examen

El diagrama de dispersión q no existe una relación lineal notoria es decir, que las notas del primer examen no determina los resultados en el segundo examen; sin embargo ajustamos a un modelo lineal.

b) Hallar la ecuación de regresión lineal considerando como variable dependiente al segundo examen.El modelo es:

Y=a+bXEXAC 2=a+b∗EXAC1

EXAC 2=7.29+0.35∗EXAC 1Interpretación: el coeficiente de regresión b=0.35 indica que por cada punto que aumente la nota del primer examen, en promedio del segundo examen aumente en 0.35 puntos

Si EXA 1=10entonces EXA 2=10.78∴P=(10 ,10.78)

Page 8: Analisis de Regresion y Correlacion Lineal Simple

Si EXA 1=11entonces EXA 2=11.13∴Q=(11 ,11.13)

Si EXA 1=14 entonces EXA 2=12.18∴R=(14 ,12.18)

c) Hallar la varianza residual de la regresión

Sxy2 =¿¿

Sxy2 =3.74

Desviación estándar: sxy=√S xy2 =1.1 .93 ¿será confiable?

Otra forma:

HIPOTESIS NULA H°= El modelo no es confiable

HIPOTESIS ALTERNA H°=El modelo es confiable

Del análisis de varianza (MINITAB) P=0.268

Regla de decisión (análisis de varianza)

Si (P) >0.005 entonces se acepta la hipótesis nula

Si (P)<0.05 entonces se rechaza la hipótesis nula

Como P=0.268 > 0.05 entonces se acepta la hipótesis nula es decir el modelo

no es confiable

Análisis de varianza

Fuente GL SC MC F PRegresión 1 5.5804 5.58038 1.49 0.268Error 6 22.4196 3.73660Total 7 28.0000

d) Determinar el coeficiente de correlación, interprete.

r=0.4464 Existe una correlacion positiva debil

e) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan las notas obtenidas en el segundo examen.

Page 9: Analisis de Regresion y Correlacion Lineal Simple

R2=19.92 % La variabilidad en el segundo examen es explicado en un 19.92% por

la variabilidad en el primer examen, otros factores que determinan las notas obtenidas en el segundo examen son horas de asistencia a clase, horas de estudio fuera de clase, métodos estudio….

4. Durante 10 años consecutivos , se registro la importación y la exportación de productos( en miles de TM)

Importación 12.3 10.8 9.6 8.4 6.7 5 4.8 3.6 2.8 2.2 1.8

Exportación 11.6 11.9 8.9 7.8 7.4 6.5 4.3 5.3 3.3 2.8 1.7

X: ImportarY: Exportara) Realizar el diagrama de dispersión para estos datos y analizar la tendencia.

12108642

12

10

8

6

4

2

Importacion

Export

aci

on

S 0.875865R-cuad. 94.1%R-cuad.(ajustado) 93.4%

Gráfica de línea ajustadaExportacion = 0.8646 + 0.9116 Importacion

El diagrama de dispersión se observa que existe una tendencia lineal creciente, es decir conforme pasen los años hay mayor es la exportación y/o importación de los productos

b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la importación y exportación de productos, interprete el coeficiente de regresión.

Y=a+bX

Page 10: Analisis de Regresion y Correlacion Lineal Simple

EXPORTACION=a+b∗IMPORTACIONEXPORTACION=0.86+0.91∗IMPORTACION

Interpretación: el coeficiente de regresión b= 0.91= 1 miles de TM

c) Graficar la recta de regresión en el diagrama de dispersión.

d) Estimar cuanto será la importación si se exporta 8.5 tm.

EXPORTACION=0.86+0.91∗IMPORTACIONIMPORTACION=8.37=8TM

e) Estimar cuanto será la exportación si se importa 7.3 tm.

EXPORTACION=0.86+0.91∗IMPORTACIONEXPORTACION=¿7.51= 8TM

f) Hallar la importación promedio y su desviación estándar. Promedio:

X=∑ X

n=6.18TM

Desviación estándar:

Sx=√Sx2=3.63TM

X−S x≤ X ≤X+Sx

2.55TM≤ X ≤9.81TM

g) Hallar la exportación promedio y su desviación estándar.

Promedio: Y=∑ y

n=6.5

Desviación estándar:

Sy=√S y2=3.41TM

Y−S y≤Y ≤Y +S y

3.08TM≤Y ≤9.91TMh) Hallar la varianza residual de la regresión.

Sxy2 =¿¿

Page 11: Analisis de Regresion y Correlacion Lineal Simple

Sxy2 =0.76TM

Desviación estándar: sxy=√S xy2 =0.88TM ¿será confiable?

Otra forma:

HIPOTESIS NULA H°= El modelo no es confiable

HIPOTESIS ALTERNA H°=El modelo es confiable

Del análisis de varianza (MINITAB) P=0.000

Regla de decisión (análisis de varianza)

Si (P) >0.005 entonces se acepta la hipótesis nula

Si (P)<0.05 entonces se rechaza la hipótesis nula

Como P=0.000> 0.05 entonces se rechaza la hipótesis nula es decir el

modelo es confiable

Análisis de varianza

Fuente GL SC MC F PRegresión 1 109.776 109.776 143.10 0.000Error 9 6.904 0.767Total 10 116.680

i) Determinar el coeficiente de correlación, interprete.

r=0.97 Correlación positiva fuerte

j) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan la variable dependiente.

R2=r2∗100=97 %

La variabilidad en el peso de los niños es explicado en un 76.3% por la variabilidad en su edad. Otros factores que determinan el peso de los niños en edad pre escolar es la alimentación (número de comidas por día), altura, ingreso económico de los padres….

5. Se desea saber si hay relación entre el tiempo que le dedican al estudio fuera de horas de clase y el rendimiento académico en un determinado curso, dando los siguientes resultados:

∑ X=180n=40 ∑Y=457∑ X2=1035.92

∑Y 2=¿6141¿ ∑ XY=2430.7

Page 12: Analisis de Regresion y Correlacion Lineal Simple

a) Hallar el tiempo promedio de estudio fuera de clases y sus medidas de dispersión.

Promedio: X=∑ X

n=

18040

=4.5horas

Varianza:

Sx2=∑ x2−¿¿¿¿¿

Desviación estándar:

Sx=√Sx2=2.4 horas

X−S x≤ X ≤X+Sx

2.1horas≤ X ≤6.9horas

Coeficiente de variación:

C .V=Sx

X∗100 %=53.3 % La muestra es homogénea

b) Hallar el rendimiento académico promedio y sus medidas de dispersión.

Promedio: Y=∑ y

n=

45740

=11.4capacidad

Varianza:

Sy2=∑ y2−¿¿¿¿¿23.6

Desviación estándar:

Sy=√S y2=4.9capacidad

Y−S y≤Y ≤Y +S y

6.5capacidad≤Y ≤16.3capacidad

Coeficiente de variación:

C .V=Sy

Y∗100 %=42.98 % La muestra es homogenea

c) Estime un modelo según una relación lineal entre horas de estudio fuera de clase y su rendimiento académico, interprete el coeficiente de regresión.

El modelo es:

Y=a+bX

Page 13: Analisis de Regresion y Correlacion Lineal Simple

RA=a+b∗HDDonde:

b=n∑ XY−∑ X∑Y

n∑ X2−(∑ X )2=

40 (2430.7 )−(180)(457)40 (1035.92 )−(180)2 =1.7

a=∑ Y

n−b

∑ X

n=

45740

−1.7∗180

40=3.8

Luego:

rendimiento academico=3.8+1.7∗horas de estudio

Interpretación: el coeficiente de regresión b=1.7 nos indica que por cada hora estudiada fuera de clases, el rendimiento académico promedio es

d) Estimar cuanto será el rendimiento académico para un alumno que estudio 3.5 horas

Sihoras ( x )=3.5horas entonces:

RA=3.8+1.7 (3.5 )

RA=9.8capacidad

e) Estimar cuantas horas estudio un alumno que obtuvo una nota de 14 puntos.

RA=3.77+1.7∗HD

HD=RA−3.81.7

=14−3.81.7

=6horas

f) Hallar la varianza residual de la regresión.

Sxy2 =¿¿

Sxy2 =

6141−3.8∗(457 )−(1.7 )(2430.7)38

=7.2

Desviación estándar: sxy=√S xy2 =2.esconfiable

g) Determinar el coeficiente de correlación, interprete.

Page 14: Analisis de Regresion y Correlacion Lineal Simple

r=∑ XY−n (X )(Y )

√∑ X 2−n(X)2 √∑ Y 2−n(Y )2

r=2430.7−40(4.5)(11.4 )

√1030.92−40(4.5)2 √6141−40(11.4 )2=¿0.83

Interpretación: Existe una relación positiva fuerte entre las horas que dedican sus estudios fuera de clases y el rendimiento académico

h) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el rendimiento académico.

R2=r2∗100=68.9 %

6. Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes velocidades produjeron los siguientes resultados.

Velocidad 20 30 40 50 60 70 80 90Consumo 18.3 18.8 19.1 19.6 19.8 20 20.6 21

a) Realizar el diagrama de dispersión para estos datos y analizar la tendencia.

b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la velocidad y el consumo, interprete el coeficiente de regresión.Como la tendencia es lineal el modelo es:

Y=a+bX

Page 15: Analisis de Regresion y Correlacion Lineal Simple

Consumo=17.63+0.03667VelocidadInterpretacion:

c) Graficar la recta de regresión en el diagrama de dispersión.Ver el grafico de a).

d) Estimar cuanto será el consumo de combustible si el auto va a una velocidad de 75 k/h.

Consumo=17.63+0.03667VelocidadConsumo=17.63+0.03667 (75 )=20.4 galones

e) Estimar cuanto será la velocidad del auto si ha consumido 25 galones de combustible.

Consumo=17.63+0.03667Velocidad

Velocidad= Consumo17.63+0.03667

= 2517.66

=1.42k /h

f) Hallar consumo de combustible promedio y su desviación estándar.Promedio:

y=∑ y in

=157.28

=19.65

Varianza:

Sy2=∑ y2−¿¿¿¿

Desviacion estándar:

SY=√ Sy2=√0.8171=0.9039

g) Hallar la velocidad promedio y su desviación estándar.Promedio:

x=∑ x in

= 4408

=55

Varianza:

Sx2=∑ x2−¿¿¿¿

Desviacion estándar:

Sx=√Sx2=√600=24.49

h) Hallar la varianza residual de la regresión.

Page 16: Analisis de Regresion y Correlacion Lineal Simple

Sxy2 =¿¿

Sxy2 =

6141−3.8∗(457 )−(1.7 )(2430.7)38

=7.2

i) Determinar el coeficiente de correlación, interprete.

r=∑ XY−n (X )(Y )

√∑ X 2−n(X)2 √∑ Y 2−n(Y )2

r=2430.7−40(4.5)(11.4)

√1030.92−40(4.5)2 √6141−40(11.4)2=¿0.83

Interpretación: Existe una relación positiva fuerte entre las horas que dedican sus estudios fuera de clases y el rendimiento académico

j) Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el consumo de combustible.

R2=r2∗100=68.9 %

7. Sea Y la producción (en millones ) de un determinado articulo fabricado por una compañía durante los años 1999 al 2008 como se observa en el siguiente cuadro:

Años 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008Producción 92.2 92.3 80 89.1 83.5 68.9 69.2 67.1 58.3 61.2

a) Trazar un grafico de líneas para estos datos y analizar la tendencia.

Page 17: Analisis de Regresion y Correlacion Lineal Simple

Del diagrama Podemos Observar q hay una tendencia decreciente en la producción según van pasando los años.

b) Hallar la recta de regresión (serie de tiempo) de mínimos cuadrados de la producción en función de los años

c) Estimar la producción de artículos para el año 2009.Como la tendencia es lineal el modelo es:

Page 18: Analisis de Regresion y Correlacion Lineal Simple

Y=a+bX

Produccion=8039+3.975 Años

Produccion=8039+3.975 (2009 )=53.2millones

8. Se sabe que la producción de algodón de un país, expresada en millones de toneladas, fueron:

Años 1995 1996 1997 1998 1999 2000 2001 2002 2003Producción 8 10 12 15 15 18 19 23 30

a) Trazar un grafico de líneas para estos datos y analizar la tendencia.

Observamos que existe una tendencia creciente es decir q según avanzan los años la producción aumenta

b) Hallar la recta de regresión (serie de tiempo) de mínimos cuadrados de la producción en función de los años

Page 19: Analisis de Regresion y Correlacion Lineal Simple

c) Estimar la producción de algodón para los tres años siguientes.Como la tendencia es lineal el modelo es:

Y=a+bX

Produccion=−4781+2.400 Años

Produccion=−4781+2.400 (2004 )=28.6millones de toneladas

Produccion=−4781+2.400 (2005 )=31millones de toneladas

Produccion=−4781+2.400 (2006 )=33.4millonesde toneladas

9. El auditor del sistema educativo público ha estudiado los registros del inventario para averiguar si el inventario actual de libros de texto es típico. Las siguientes existencias corresponden a los 5 años anteriores.

Año 2004 2005 2006 2007 2008

Inventario 4620 4910 5490 5730 5990

a) Trazar un grafico de líneas para estos datos y analizar la tendencia.

Page 20: Analisis de Regresion y Correlacion Lineal Simple

Se Observa en el diagrama que existe una tendencia creciente según pasan los años.

b) Hallar la recta de regresión (serie de tiempo) de mínimos cuadrados del inventario en función de los años

c) Estimar el inventario para el año 2009.Como la tendencia es lineal el modelo es:

Y=a+bXInventario=−708788+356.0 Años

Inventario=−708788+356.0 (2009 )=6416 libros