Regresion Simple

63
 Modelo de regresión Lineal Simple

description

estadistica industrial unmsm

Transcript of Regresion Simple

  • Modelo de regresin Lineal Simple

  • Caso: Pizzeras ArmandCadena de restaurantes de comida italiana que abarca cinco estados. Los lugares donde sus establecimientos han tenido ms xito estn cercanos a establecimientos de educacin superior. Los administradores creen que las ventas en esos restaurantes (representada por y), se relacionan en forma positiva con la poblacin estudiantil (representada por x). Esto es, que los restaurantes cercanos a centros escolares con gran poblacin tienden a generar ms ventas que los que estn cerca de centros con poblacin pequea. Aplicando el anlisis de regresin podremos plantear una ecuacin que muestre cmo se relaciona la variable dependiente y con la variable independiente x.

  • Modelo de regresin y ecuacin de regresinEn el ejemplo de Pezzeras Armand, cada restaurante est asociado con un valor de x (poblacin estudiantil) y un valor correspondiente de y (ventas trimestrales). La ecuacin que describe cmo se relaciona y con x y con un trmino de error se llama modelo de regresin. Modelo de regresin lineal simple

  • Ecuacin de regresin lineal simple

  • Ecuacin de regresin estimada

  • En la regresin lineal simple, la ecuacin de regresin se escribe en la siguiente forma:

  • Mtodo de cuadrados mnimos

    El mtodo de cuadrados mnimos es un procedimiento para encontrar la ecuacin de regresin estimada usando datos de una muestra. Para ilustrarlo en el ejemplo de Pizzeras Armand, suponga que se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos. Para la i-sima observacin o restaurante de la muestra, xi es el tamao de la poblacin estudiantil, en miles, y yi son las ventas trimestrales (en miles de dlares). Los valores de xi y yi para los 10 restaurantes de la muestra se resumen en la siguiente tabla:

  • En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 est cerca de un centro con 2000 estudiantes y sus ventas trimestrales son de 58 000 dlares. El restaurante 2, con x2 = 6 y y2 = 105 est cerca de un centro con 6 000 estudiantes y sus ventas trimestrales son de 105 000 dlares. El valor mximo de ventas es para el restaurante 10, que est cerca de un centro con 26 000 estudiantes y sus ventas trimestrales son de 202 000 dlares.

    RestauranteiPoblacin de estudiantes (miles) xiVentas trimestrales(miles de dlares) yi1258261053888481185121176161377201578201699221491026202

  • Diagrama de dispersinEl diagrama de dispersin permite observar grficamente los datos y hacer conclusiones preliminares acerca de la relacin posible entre las variables. El tamao de la poblacin de estudiantes se representa en el eje horizontal y el valor de las ventas trimestrales en el eje vertical. Los diagramas de dispersin, para el anlisis de regresin, se forman con valores de la variable independiente x en el eje horizontal, y los de la variable dependiente y en el eje vertical.

  • La siguiente figura muestra el diagrama de dispersin de los datos de Pizzeras Armand.

    81

  • Qu conclusiones preliminares se pueden obtener de la figura? Parece que las ventas trimestrales son mayores en los centros con ms poblacin de estudiantes. Adems, para esos datos, la relacin entre el tamao de la poblacin de estudiantes y las ventas trimestrales al parecer se aproximan con una lnea recta; de hecho, se indica una relacin lineal positiva entre x y y. En consecuencia, elegimos el modelo de regresin lineal para representar la relacin entre las ventas trimestrales y la poblacin de estudiantes. Dada esta opcin, nuestra siguiente tarea ser emplear los datos de la muestra para determinar los valores de b0 y b1 en la ecuacin de regresin lineal simple.Para el i-simo restaurante, la ecuacin de regresin estimada es:

  • Pendiente e intercepcin y para la ecuacin de regresin estimada

  • La ecuacin de regresin estimada, deducida con el mtodo de los cuadrados mnimos es:La pendiente de la ecuacin de regresin (b1 = 5) es positiva, lo cual implica que al aumentar la poblacin de estudiantes, las ventas tambin aumentan. De hecho, podemos llegar a la conclusin (ya que las ventas se miden en miles de dlares y la poblacin en miles de estudiantes) que un aumento de 1 000 estudiantes en la poblacin est asociado con un aumento de 5 000 dlares en las ventas esperadas; esto es, se espera que las ventas aumenten en 5.00 dlares por estudiante.Si creemos que la ecuacin de regresin estimada con cuadrados mnimos describe en forma adecuada la relacin entre x y y, parece razonable usarla para predecir el valor de y para determinado valor de x.

  • Por ejemplo, si quisiramos predecir las ventas en un restaurante ubicado cerca de un centro con 16 000 estudiantes, el resultado sera,En consecuencia, predeciramos ventas trimestrales de 140 000 dlares para este restaurante.

  • Coeficiente de determinacin

  • Coeficiente de correlacinEl coeficiente de correlacin es una medida descriptiva de la intensidad de la asociacin lineal entre dos variables, x y y. Los valores del coeficiente de correlacin siempre estn entre -1 y +1. Un valor de +1 indica que las dos variables, x y y, tienen una relacin lineal positiva perfecta. Esto es, todos los puntos de datos estn en una lnea recta con pendiente positiva. Un valor de -1 indica que x y y tienen una relacin lineal negativa perfecta, y que todos los puntos de datos estn en una recta con pendiente negativa. Los valores del coeficiente de correlacin cercanos a cero indican que x y y no tienen relacin lineal.

  • Si ya se ha hecho un anlisis de regresin y se ha calculado el coeficiente de determinacin r2, el coeficiente de correlacin de la muestra se puede calcular como sigue:El signo del coeficiente de correlacin es positivo si la ecuacin de regresin tiene pendiente positiva (b1 >0) y negativo si la ecuacin de regresin tiene pendiente negativa (b1 < 0). Para nuestro ejemplo, como la pendiente de la ecuacin de regresin es positiva, el coeficiente de correlacin es:

  • Concluimos que, con un coeficiente de correlacin de la muestra rxy =+0.9501, hay una fuerte asociacin lineal positiva entre x y y.Aunque el coeficiente de correlacin se restringe a una relacin lineal entre dos variables, el coeficiente de determinacin se puede emplear en relaciones no lineales y en relaciones que tengan dos o ms variables independientes. En este sentido, el coeficiente de determinacin tiene una aplicabilidad ms amplia.

  • Supuestos del modeloAl efectuar un anlisis de regresin se comienza haciendo una suposicin acerca del modelo adecuado de la relacin entre las variables dependiente e independiente(s). Para el caso de la regresin lineal simple, el modelo de regresin supuesto es:

  • Supuestos acerca del trmino de error

  • Pruebas de significancia

  • Para el ejemplo de Pizzeras Armand, se tiene:

  • Error estndar de la estimacin.

  • Prueba t de significancia en la regresin lineal simple

    Estadstico de pruebaRegla de rechazo

  • Desviacin estndar estimada de b1Para nuestro ejemplo, se tiene:como desviacin estndar estimada de b1.

  • Al usar la prueba t de significancia, las hiptesis probadas fueron:

  • Prueba FPrueba F de la significancia en la regresin lineal simpleEstadstico de prueba

  • Regla de rechazoHagamos la prueba F para nuestro ejemplo.

  • Forma general de la tabla de anlisis de varianza para regresin lineal simple

  • Uso de la ecuacin de regresin para evaluar y predecirEl modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y y. Al usar el mtodo de los cuadrados mnimos obtuvimos la ecuacin de regresin lineal simple. Si los resultados tienen una relacin estadsticamente significativa entre x y y, y si el ajuste que proporciona la ecuacin de regresin parece bueno, esa ecuacin podra usarse para estimaciones y predicciones.Estimacin puntual

  • Estimacin de intervaloLas estimaciones puntuales no dan ninguna informacin de la precisin asociada con la estimacin. Para este fin debemos determinar estimaciones de intervalo. El primer tipo de estimaciones de intervalo es la estimacin de intervalo de confianza; es una estimacin de intervalo del valor medio de y para determinado valor de x. El segundo tipo es la estimacin de intervalo de prediccin, que se usa cuando deseamos una estimacin de intervalo de un valor individual de y que corresponde a determinado valor de x. La estimacin puntual del valor medio de y es la misma que la correspondiente a un valor individual de y. No obstante, son diferentes las estimaciones de intervalo que obtenemos para estos dos casos.

  • Estimacin del intervalo de confianza del valor medio de yLa ecuacin de regresin determina una estimacin puntual del valor medio de y para determinado valor de x. Al describir el procedimiento de estimacin del intervalo de confianza usaremos la siguiente notacin:

  • Estimacin del intervalo de prediccin de un valor individual de y

  • Para nuestro ejemplo, la desviacin estndar estimada que corresponde a la prediccin de ventas para determinado restaurante cercano a un centro con 10 000 estudiantes se calcula como sigue:Estimacin de intervalo de prediccin de yp

  • Anlisis de residuales: validacin de los supuestos del modeloResidual en la observacin iEn otras palabras, el i-simo residual es el error debido al uso de la ecuacin de regresin para predecir el valor de yi. Los residuales en el ejemplo de Pizzeras Armand se calculan en la siguiente tabla.

  • Grfica de residuales en funcin de xEsta es una grfica de residuales en la que los valores de la variable independiente se representan en el eje horizontal y los valores de los residuos correspondientes en el eje vertical. La grfica para nuestro ejemplo, sera:

    Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los supuestos sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora confiamos en la conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede apreciar en la parte A de las grficas obtenidas en otros estudios.

    135

  • La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones que presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de regresin, que revisan con frecuencia grficas de residuales, tienen mucha destreza para captar las diferencias entre comportamientos razonables y patrones que indican que es conveniente cuestionar los supuestos del modelo.Grficas de residuales obtenidas en tres estudios de regresin

  • Residuos estandarizadosMuchas de las grficas de residuales que se obtienen con los programas de cmputo trabajan con una versin estandarizada de los residuales. Con el mtodo de los cuadrados mnimos, el promedio de los residuales es cero. As, tan slo con dividir cada residual entre su desviacin estndar se obtiene el residual estandarizado.Desviacin estndar del i-simo residualsiendo,Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual estandarizado dividindolo entre su desviacin estndar.

  • Residual estandarizado para la observacin iAs, al trabajar en una grfica de residuales estandarizados cabe esperar que, aproximadamente, 95% de los residuales estandarizados estn entre -2 y +2.A continuacin presentamos la grfica de residuales estandarizados en funcin de la variable independiente x, para nuestro ejemplo.

  • 144

  • Anlisis de residuales: valores atpicos y observaciones influyentesDescribiremos cmo se puede aplicar el anlisis de residuales para identificar observaciones que se pueden clasificar como valores atpicos, o que tengan una influencia especialmente grande para determinar la ecuacin estimada de regresin. Describiremos algunas medidas que se deben tomar cuando se hayan encontrado esas observaciones.Deteccin de valores atpicosUn valor atpico es un punto (observacin) que no se ajusta a la tendencia que muestran los datos restantes. Los valores atpicos representan observaciones de alguna manera sospechosas, que requieren un examen cuidadoso. Pueden representar datos errneos; en este caso, se deben corregir los datos. Pueden evidenciar una violacin de los supuestos del modelo; en este caso se debe tener en cuenta otro modelo. Por ltimo, simplemente pueden ser valores poco usuales que han sucedido por casualidad. En este caso se deben conservar.Para ilustrar el proceso de deteccin de valores atpicos revisaremos el conjunto de datos que se presentan en la siguiente tabla:

  • Conjunto de datos

  • En el diagrama de dispersin, vemos que excepto por la observacin 4 (x4 = 3, y4 = 75), se aprecia una tendencia que sugiere una relacin lineal negativa. En realidad, dada la tendencia del resto de los datos, cabra esperar que y4 fuera mucho menor y, por consiguiente, esa observacin es un valor atpico. Para el caso de la regresin lineal simple se pueden detectar los valores atpicos, con frecuencia, tan slo examinando el diagrama de dispersin.Tambin se pueden usar los residuales estandarizados para identificar los valores atpicos. Si una observacin se desva mucho de la tendencia del resto de los datos, el residual estandarizado correspondiente tendr valor absoluto grande. Muchos paquetes de cmputo identifican observaciones cuyos residuales estandarizados tiene valor absoluto grande.

  • Deteccin de observaciones influyentesAlgunas veces, una o ms observaciones tienen una gran influencia sobre los resultados obtenidos. Las observaciones influyentes se pueden identificar en un diagrama de dispersin cuando slo hay una variable independiente. Una observacin influyente tambin puede ser un valor atpico (observacin con un valor de y que se desva mucho de la tendencia), puede corresponder a un valor de x muy alejado de su promedio, o bien, puede ser causada por una combinacin de los dos casos (un valor de y algo fuera de la tendencia y un valor de x algo extremo).Como las observaciones influyentes tienen un efecto tan grande sobre la ecuacin de regresin, se deben revisar con cuidado. Primero se comprueba que no se haya cometido un error al recopilar o registrar los datos. Si se ha cometido un error se puede corregir y formarse una nueva ecuacin de regresin. Si la observacin es vlida, consideramos que es una fortuna contar con ella. Ese punto, si es vlido, puede contribuir a una mejor comprensin del modelo adecuado y conducir a una mejor ecuacin de regresin. La presencia de la observacin influyente, en caso de ser vlida, sugerira tratar de obtener datos con valores intermedios de x para comprender mejor la relacin entre x y y.

  • Las observaciones con valores extremos de la variable independiente se llaman puntos de influencia. La influencia de una observacin se determina por lo alejado que se encuentra el valor de la variable independiente respecto al valor promedio. Para el caso de una sola variable independiente, la influencia de la i-sima observacin, representada por hi, se puede calcular con la ecuacin:, mayo ser la influencia de la observacin i.Veamos los datos de la siguiente tabla:

  • En el diagrama de dispersin del conjunto de datos de la tabla, vemos claramente que la observacin 7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia, esperamos que sea identificado como un punto de alta influencia. Para esta observacin, la influencia se calcula:Las observaciones influyentes debidas a una interaccin de grandes residuales y gran influencia son difciles de detectar. Se cuenta con procedimientos de diagnsticos que consideran ambas cosas para determinar cundo una observacin es influyente. Una de estas medidas, llamado estadstico D de Cook, lo veremos ms adelante cuando se vea la regresin mltiple.