TEORÍA Mg. Ing. Susana Vanlesberg
Transcript of TEORÍA Mg. Ing. Susana Vanlesberg
![Page 1: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/1.jpg)
Universidad Nacional del Litoral
Facultad de Ingeniería y Ciencias Hídricas
ESTADÍSTICA
Ingenierías: RH-Amb-Agr
TEORÍAMg. Ing. Susana Vanlesberg
![Page 2: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/2.jpg)
REGRESIÓNY CORRELACIÓN
![Page 3: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/3.jpg)
• RETOMAMOS EL ESTUDIO DE VARIABLES QUE SE DISTRIBUYEN DE FORMA CONJUNTA
• El estudio de la asociación entre variables se hace a través de dos aspectos:
![Page 4: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/4.jpg)
• ANÁLISIS DE REGRESIÓN: permite encontrar el modelo que vincula a las variables en cuestión, brindando así un mecanismo de pronóstico.
• ANÁLISIS DE CORRELACIÓN: determina la medida del grado de exactitud de la relación entre variables.
![Page 5: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/5.jpg)
• Por ejemplo una empresa de servicios públicos establece la relación entre la temperatura diaria y la demanda de electricidad para predecir la necesidad del fluido eléctrico considerando las temperaturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación entre dos variables.
• Sin embargo, cuando los datos están disponibles, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener una ecuación que indique cuál es la relación entre las variables.
![Page 6: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/6.jpg)
• Se comienza realizando el gráfico que permite visualizar a las variables y su comportamiento, es lo que se denomina Dispersiograma, ya que muestra la variabilidad o dispersión entre ambas variables.
![Page 7: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/7.jpg)
DISPERSIOGRAMA
![Page 8: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/8.jpg)
• REGRESIÓN LINEAL SIMPLE
• Es el análisis en el que se estudia la relación en la que interviene una variable independiente y una variable dependiente, que se aproxima mediante una línea recta.
• Al análisis en el que intervienen dos o más variables independientes se le llama análisis de regresión múltiple.
![Page 9: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/9.jpg)
ECUACIÓN DE REGRESIÓN
iii β XαY
![Page 10: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/10.jpg)
ΙΙΙ
β XαY ii
i
![Page 11: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/11.jpg)
• I se denomina parte sistemática
• II es la parte aleatoria
• Debido a esta parte aleatoria el proceso de obtención del modelo no es como la determinación del ajuste de una función matemática a una serie de puntos.
![Page 12: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/12.jpg)
α y β parámetros del modelo, deberán ser estimados
Xi variable independiente, fija, conocida, variable explicativa.
ε término de error aleatorio
![Page 13: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/13.jpg)
Supuestos del modelo de regresión
• - Ɛ es una variable aleatoria cuyo valor esperado es cero: E (Ɛ)= 0.• -La varianza de Ɛ, es la misma para todos los valores de x.
Var(ε) =σ2
• Implicancia. La varianza de Y respecto al modelo de regresión es igual a σ2
y es la misma para todos los valores de x.• - Los valores de Ɛ son independientes.• Implicancia. El valor de Ɛ correspondiente a un determinado valor de x no
está relacionado con el valor de Ɛ para cualquier otro valor; por tanto, el valor de y correspondiente a un valor particular de x no está relacionado con el valor de y de ningún otro valor de x.
• - El término del error Ɛ es una variable aleatoria distribuida normalmente.• Implicancia. Como Y es una función lineal de Ɛ, también será una variable
aleatoria distribuida normalmente.
![Page 14: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/14.jpg)
• Lo que se determina es que para cada valor fijo de x existen distintos valores de la variable dependiente, ya que ella tiene parte aleatoria y eso provoca que se tengan subpoblaciones para cada valor de x.
• Cada una de estas distribuciones tiene su propia media o valor esperado.
• A la ecuación que describe la relación entre el valor esperado de y, que se simboliza E(y), y x se le llama ECUACIÓN DE REGRESIÓN.
![Page 15: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/15.jpg)
![Page 16: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/16.jpg)
Significado de los parámetros
α : intercepción de la línea de regresión con el eje Y.
β : pendiente de la recta, proporción de cambio en la media de la distribución de
probabilidad de Y por unidad de cambio de X.
![Page 17: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/17.jpg)
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
• Método de Mínimos cuadrados
Debido a que se pretende encontrar el mejor modelo que ajuste a la nube de puntos se utiliza este método.
• Se parte de considerar que la subpoblación de Y es normal, y que la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta verdadera sea mínima
![Page 18: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/18.jpg)
![Page 19: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/19.jpg)
Se parte de considerar las distancias entre valores observados y estimados a través del modelo de regresión
n
i
ii
n
i
iiii
n
i
ii
bXaYSluego
bXaYYYS
XYS
1
2
1
2
1
2
ˆˆ
![Page 20: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/20.jpg)
Los estimadores a y b de los parámetros serán aquellos que minimicen el valor de S:
0
S0
S
n
i
iii
n
i
ii
XYXS
XYS
1
1
2
2
![Page 21: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/21.jpg)
Luego:
n
ii
n
i
n
i
iiii
n
i
n
i
ii
XbXaYX
XbnaY
1 1
2
1 1
0
0
![Page 22: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/22.jpg)
xbya
SS
mb
XX
YYXX
b
xx
n
i
i
n
i
ii
22
1,1
1
2
1
cov
![Page 23: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/23.jpg)
• El análisis de regresión no puede entenderse como un procedimiento para establecer una relación de causa y efecto entre las variables. Sólo indica cómo o en qué medida las variables están relacionadas una con otra. Cualquier conclusión acerca de una relación causa y efecto debe basarse en los conocimientos de los especialistas en la aplicación de que se trate.
• Hay que tener cuidado al usar la ecuación de regresión estimada para hacer predicciones fuera del rango de valores de la variable independiente, ya que fuera de ese rango no puede asegurarse que esta relación siga siendo válida.
![Page 24: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/24.jpg)
Varianza de la regresión
![Page 25: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/25.jpg)
• Se suele llamar ecuación predictiva a la ecuación de regresión, ya que su principal objetivo es predecir valores medios de la variable dependiente asociados con un valor dado de la variable independiente.
• Para saber si realmente es conveniente utilizar esta ecuación como herramienta de predicción, puede analizarse la variabilidad del valor estimado a través del modelo de regresión.
![Page 26: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/26.jpg)
• La medida numérica de la desviación de las observaciones respecto al modelo es el estimador de la varianza de la regresión poblacional:
• S2y/x =Se
2
![Page 27: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/27.jpg)
• El análisis de la varianza de regresión se basa en la partición de la suma de cuadrados.
La variación de las variables dependientes Yi generalmente se mide en términos de las desviaciones respecto al valor medio:
![Page 28: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/28.jpg)
![Page 29: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/29.jpg)
• La variación total siempre se mide respecto al valor medio:
n
i
i YY1
2
![Page 30: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/30.jpg)
• Cuanto mayor es este valor, mayor es la variación de la curva ajustada respecto a las observaciones.
Utilizando el modelo ajustado, la variación total queda expresada de acuerdo a la diferencia con los valores ajustados:
![Page 31: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/31.jpg)
![Page 32: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/32.jpg)
• Con base en el modelo de regresión y sus supuestos, podemos decir que σ2, la varianza de Ɛ, representa también la varianza de los valores de y respecto de la recta de regresión.
• Las desviaciones de los valores de y respecto de la recta de regresión estimada se denominan residuos o residuales.
• La suma de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada: SCE Suma de cuadrados residuales o error.
![Page 33: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/33.jpg)
• Si se divide SCE por los grados de libertad que en este caso es (n-2) ya que a partir de la muestra se obtienen 2 estimadores puntuales de los parámetros, se obtiene una estimación puntual insesgada de la varianza de regresión σ2 que es desconocida:
![Page 34: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/34.jpg)
i i
iiii
ii
bxayyySCE
xbay
22 )()ˆ(
ˆ
![Page 35: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/35.jpg)
• El error estándar de estimación es la raíz de S2
y/x
2
2
/
n
SCEECMS xy
![Page 36: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/36.jpg)
Análisis de la tabla de Varianza de regresión:
• Generalmente del análisis hecho con los softwars se obtiene una tabla que resume el análisis de cuadrados que permite obtener la varianza , los residuos y que sirve también para otros análisis de bondad del modelo.
![Page 37: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/37.jpg)
![Page 38: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/38.jpg)
• POR EJEMPLO:
ANÁLISIS DE VARIANZA
Grados de libertadSuma de
cuadradosPromedio de los
cuadrados
Regresión 1 1701032,819 1701032,819
Residuos 21 1493449,89 71116,66145
Total 22 3194482,71
Varianza estimada de la regresión
![Page 39: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/39.jpg)
Interpretación
• Regresión, error y total son las etiquetas de las tres fuentes de variación, y SCR, SCE y STC son las sumas de cuadrados correspondientes que aparecen en la columna 2.
• En la columna 3 se indican los grados de libertad 1 para SCR ya que en este caso la variable independiente es 1, n - 2 para SCE y n -1 para STC.
• ECM es el cuadrado medio debido al error y es lo que se calculó como varianza de la regresión.
![Page 40: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/40.jpg)
Estimadores de los parámetros
• La base para inferencia referida a los parámetros de la regresión la proporcionan las propiedades de la distribución de muestreo de a y b, obtenidos mediante el método de mínimos cuadrados.
• Considerar qué ocurriría si para el mismo estudio de regresión se usaran muestras aleatorias diferentes. No puede esperarse que se obtenga exactamente la misma ecuación. Los estimadores a y b, obtenidos por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia distribución de muestreo.
• Se presentan las propiedades de la distribución de muestreo de cada uno:
![Page 41: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/41.jpg)
• Distribución muestral de b:Valor esperado: se obtiene de aplicar el operador esperanza a la expresión de b y trabajarlo matemáticamente:
Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente
Y distribución muestral Normal
)(bE
2
2
)()(
:σparaestimadodesvíoelcony
)()(
xx
SbS
xxb
i
i
![Page 42: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/42.jpg)
• Y esto permite encontrar intervalos de confianza especialmente para la pendiente de la regresión:
)(1 bStb
![Page 43: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/43.jpg)
• Distribución muestral de a:
De la misma forma, se obtiene la esperanza:
Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente:
Y distribución muestral Normal
)(
)()()()(
aE
XXXbEYEXbYEaE
n
i
i XX
X
na
1
2
222 1
![Page 44: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/44.jpg)
• Y esto permite encontrar el intervalo de confianza para la ordenada del modelo de regresión:
)(1 aSta
![Page 45: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/45.jpg)
• Estos intervalos también se brindan en la salida de regresión que se obtiene de aplicar este análisis en los softwars:
• Por ejemplo:
Coeficientes Error típico Inferior 95% Superior 95%
Intercepción -1032,201975 432,099881 -1930,80287 -133,6010803
Pendiente 437,7332939 89,50327239 251,6010495 623,8655383
![Page 46: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/46.jpg)
Uso de la ecuación de regresiónestimada para estimación y predicción• Si existe una relación significativa entre x
e y, y se determina que la ecuación de regresión estimada es adecuada entonces es útil para usarla para estimación y predicción.
• Tanto los intervalos de confianza como los de predicción indican la precisión de los resultados de la regresión. Los intervalos más estrechos proporcionan un mayor grado de precisión.
![Page 47: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/47.jpg)
• Las estimaciones puntuales no proporcionan información alguna acerca de la precisión de una estimación. Para eso es necesario obtener estimaciones por intervalo que son muy parecidas a las ya estudiadas.
• El primer tipo de estimación por intervalo, es el intervalo de confianza de una estimación del valor medio de las y que corresponden a un valor dado de x.
• El segundo tipo, el intervalo de predicción, se usa cuando se necesita una estimación por intervalo de un solo valor de y para un valor dado de x.
• La estimación puntual del valor medio de y es igual a la estimación puntual de un solo valor de y. Pero las estimaciones por intervalo que se obtienen para estos dos casos son diferentes. En un intervalo de predicción el margen de error es mayor ya que los errores para caso son diferentes.
![Page 48: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/48.jpg)
Predicción
• Predicción: es la estimación del valor medio de Y dado un valor particular de X:
• Se considera la recta de regresión y su precisión.
a + bX es el estimador insesgado de α + βX, su distribución es normal, ya que es una combinación lineal de variables aleatorias normales.
Entonces la variación depende de la variación o error en ambos estimadores, o sea en a y b:
hh bXaY ˆ
![Page 49: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/49.jpg)
• En general, no se puede esperar que sea exactamente igual a
• Para hacer una inferencia acerca de qué tan cerca está de la media verdadera es necesario estimar la varianza de . La fórmula para estimar la varianza de para un xp dado, es
py
pyE ˆ
py pyE ˆ
py
py pyS ˆ2
![Page 50: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/50.jpg)
Intervalo de confianza para el valor medio
pynp Sty ˆ2;1ˆ
![Page 51: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/51.jpg)
![Page 52: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/52.jpg)
Intervalo de predicción para un solo valor de y (Pronóstico)
• Para obtener un intervalo de predicción, es necesario determinar primero la varianza correspondiente al uso de como estimación de un valor individual de y cuando a x= xp. Esta varianza está formada por la suma de los dos componentes siguientes:
• 1. La varianza de los valores individuales de y respecto de la media para la cual una estimación está dada por
• 2. La varianza correspondiente al uso de para estimar para la cual una estimación está dada por
py
pyE ˆ 2S
py pyE ˆ
pyS ˆ2
![Page 53: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/53.jpg)
• La expresión para estimar la varianza de un valor individual de yp, Sind es:
2
2
2
2
2
22
2
ˆ
22
)(
)(11
)(
)(1
xx
xx
nS
xx
xx
nSS
SSS
i
p
i
p
yind p
![Page 54: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/54.jpg)
• Luego el intervalo es:
indnp Sty 2;1
ˆ
![Page 55: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/55.jpg)
![Page 56: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/56.jpg)
Análisis de Correlación
![Page 57: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/57.jpg)
• Brinda medidas que dicen cuan fuerte o importante es la asociación entre las variables
![Page 58: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/58.jpg)
Se analizan los coeficientes de
Correlación y Determinación
![Page 59: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/59.jpg)
Coeficiente de Correlación ρ
1 - Las variables X e Y son variables aleatorias, esto significa que no es fijo decir variable dependiente o independiente, cualquiera de las dos puede ser la
variable independiente o a la inversa.
2 - Las variables proceden de una población Normal bivariada, o sea X e Y están distribuidas
conjuntamente como normal.
3 - X e Y tienen cada una distribución Normal
![Page 60: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/60.jpg)
4 - La relación entre X e Y es lineal ; este supuesto implica decir que las medias de Y para valores de X
caen sobre la recta Yi = α + β Xi , de la misma manera que para
Xi = α + β Yi
5 - Si las dos rectas de regresión ( con X dependiente o con Y dependiente) son iguales, quiere decir que la
relación es perfecta.
![Page 61: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/61.jpg)
Coeficiente de Correlación poblacional:
yxyx
yx
yx
YEXE
YXE
1,1
22
cov
)()(
))((
![Page 62: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/62.jpg)
Variación de ρ
),cov(
1
)1,0(..
,
yx
, luego: iguales a y σσ Siendoσσ
Cov(xy)ρ
NsonavlasSi
) N(x e y son
)μ)(yμ(xECov(x,y)
yx
yx
yx
![Page 63: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/63.jpg)
11
022
0211
02
adasestandariz normales variables
ρ-
ρ
ρ
Cov Var(y*) Var(x*)
y*ex*
y*)Var(x*
![Page 64: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/64.jpg)
Coeficiente de correlación muestral
yx
i
i
i
i
i
ii
SS
m
yyxx
yyxx
r1,1
22 )()(
)()(
ˆ
![Page 65: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/65.jpg)
Coeficiente de determinación
• Se parte del mismo análisis realizado para la Varianza de regresión, la partición de cuadrados:
![Page 66: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/66.jpg)
![Page 67: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/67.jpg)
(SCError))y(y
R)aos (SCdebid)yy(
s) (SCTotale)y(y
)y(y)yy()y(y
i
ii
i
i
i
i
i
ii
i
i
i
i
2
2
2
222
ˆ
ˆ
ˆˆ
![Page 68: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/68.jpg)
SCT
SCE
SCT
SCR
SCT
SCR
SCT
SCT
SCT
SCE
SCRSCTSCE
1
![Page 69: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/69.jpg)
SCT
SCR
SCT
SCEr 12
![Page 70: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/70.jpg)
r2 varía entre 0 y 1, ya que SCR es menor o igual que SCT.
Algunos comentarios:
Si SCE = 0, implica que SCR = SCT, luego r2 es igual a 1. Esto significa que todos los puntos están sobre la recta
estimada.
![Page 71: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/71.jpg)
Si SCR = 0, implica que SCE = SCT, con lo cualr 2 = 0
Esto significaría que la pendiente de la recta es igual a cero. Esto puede
deberse a que la línea de regresión sea horizontal.
Esto puede ser relacionado a distintas causas:
![Page 72: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/72.jpg)
• las observaciones se dispersan alrededor del valor medio en forma aleatoria.
![Page 73: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/73.jpg)
• todas las observaciones tienen el mismo valor, cualquiera sea el valor de x
![Page 74: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/74.jpg)
• las observaciones se dispersan alrededor de una curva tal que la línea mejor ajustada es una línea recta horizontal
![Page 75: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/75.jpg)
Análisis de residuos: confirmación de los supuestos del modelo
• Otro análisis interesante y que ayuda a confirmar si el modelo es adecuado es el análisis de residuos.
• Como ya se indicó, el residuo de la observación i es la diferencia entre el valor observado de la variable dependiente (yi) y el valor estimado de ella usando el modelo de regresión iy
![Page 76: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/76.jpg)
• Se plantearon al comienzo los siguientes supuestos para el término del error Ɛ:
• 1. E (Ɛ)= 0
• 2. La varianza de Ɛ, σ2, es la misma para todos los valores de x.
• 3. Los valores de Ɛ son independientes.
• 4. El término del error Ɛ tiene una distribución Normal.
![Page 77: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/77.jpg)
Se puede hacer el análisis de los residuos para saber si se cumplen esos supuestos:
![Page 78: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/78.jpg)
![Page 79: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/79.jpg)
Gráfica de probabilidad normal
• Otro enfoque para determinar la validez del supuesto de que el término del error tiene una distribución normal es la gráfica de probabilidad normal.
• Se usa S en lugar de σ, la distribución de probabilidad de los residuos estandarizados no es técnicamente normal. Sin embargo, en la mayoría de los estudios de regresión el tamaño de la muestra es suficientemente grande para que una aproximación normal sea muy buena.
![Page 80: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/80.jpg)
• También puede hacerse un histograma de los residuos, un diagrama box plot, etc o bien verificar las características del modelo Normal de estos residuos: coincidencia de los valores de la media , mediana y moda, y el valor de asimetría aproximadamente igual a cero y la kurtosis próxima a tres.
![Page 81: TEORÍA Mg. Ing. Susana Vanlesberg](https://reader036.fdocuments.net/reader036/viewer/2022062918/62ba4cbfdb69ee37e451d516/html5/thumbnails/81.jpg)
0
2
4
6
8
10
12
14
16
18
20
Fre
cuen
cia
Clase
Histograma de residuos
Frecuencia