ˆ z n sx n x · x La varianza del estimador 1 E ... ley chi-cuadrado con n-2 grados de libertad,...
Transcript of ˆ z n sx n x · x La varianza del estimador 1 E ... ley chi-cuadrado con n-2 grados de libertad,...
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 1/51
Tema 2. Problemas de inferencia estadística en el modelo de regresión lineal simple.
1. Inferencia respecto a los parámetros 1.1 Intervalos de confianza respecto al parámetro 11.2 Intervalos de confianza respecto al parámetro 01.3 Intervalos de confianza respecto al parámetro 2
2. El contraste de regresión 2.1 El contraste de la pendiente (t-Student)2.2 El contraste de regresión con relación al análisis de la varianza (F-Fisher)
3. El contraste de las hipótesis mediante residuos 3.1 Introducción 3.2 El análisis de los residuos 3.3 Observaciones con influencia en regresión simple
4. Transformaciones 5. Predicción
5.1 Estimación de las medias condicionadas 5.2 Predicción de una nueva observación 5.3 Bandas de confianza
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 2/51
1. Inferencia respecto a los parámetros
La construcción de los intervalos de confianza para los parámetros 1, 0 y 2 se
realizará a partir de las distribuciones de probabilidad de 2
01ˆ,ˆ
Rs y .
1.1 Intervalo de confianza para 1Caso 1: Si 2 es conocida, vimos en el apartado 4.1 del Tema 1, que
)1,0(~ˆ
,~ˆ 112
2
11 N
snns
N
x
x
Proposición: El intervalo
xx snz
snzCI 2/112/111
ˆ,ˆ).(.,
donde 2/1z es el percentil (1- /2)100 de la ley normal estándar, es un intervalo de confianza para 1 con un nivel de confianza 1- cuando 2 es conocida.(Demostración)
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 3/51
De la fórmula anterior se deduce que la amplitud del intervalo depende de:
El nivel de confianza: A mayor nivel de confianza, mayor es la amplitud y, por tanto, menos precisión.
La varianza del estimador 1̂ : A mayor varianza, mayor amplitud.
Caso 2: Cuando 2 es desconocida, ésta se sustituye por su estimador,2Rs , y entonces
211 ~
ˆn
x
Rt
sns
Proposición: El intervalo
x
R
x
R
snst
snstCI 2/112/111
ˆ,ˆ).(.,
donde 2/1t es el percentil (1- /2)100 de la ley t de Student con n-2 grados de libertad, es un intervalo de confianza para 1 con un nivel de confianza 1- cuando 2
es desconocida. (Demostración análoga)
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 4/51
1.2 Intervalo de confianza para 0Análogamente se deducen los intervalos de confianza para el parámetro 0:
Caso 1: Si 2 es conocida, entonces:
)1,0(~1
ˆ1,~ˆ
2
200
2
22
00 N
sx
n
sx
nN
x
x
Proposición: El intervalo
2
2
2/102
2
2/100 1ˆ,1ˆ).(.xx s
xn
zsx
nzCI
,
donde 2/1z es el percentil (1- /2)100 de la ley normal estándar, es un intervalo de confianza para 0 con un nivel de confianza 1- cuando 2 es conocida.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 5/51
Caso 2: Si 2 es desconocida, entonces:
2
2
200 ~
1
ˆn
x
R
t
sx
ns
Proposición: El intervalo
2
2
2/102
2
2/100 1ˆ,1ˆ).(.x
R
x
R
sx
nst
sx
nstCI
,
donde 2/1t es el percentil (1- /2)100 de la ley t de Student con n-2 grados de libertad, es un intervalo de confianza para 0 con un nivel de confianza 1- cuando 2
es desconocida.
Observación: Para n 30, aunque 2 sea desconocida, la ley t de Student suele aproximarse por una ley normal estándar. Es decir, que si n 30 entonces
.2/12/1 zt
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 6/51
Ejemplo: Hallar los I.C. al 99% para los parámetros 1, 0 del Ejemplo 1 (densidad del tráfico) del Tema 1.
En el Ejemplo 1 (del Tema 1) se intentaba modelar la velocidad de circulación (y) en cierta carretera en función de la densidad del tráfico (x).
Para este conjunto de datos se tenía que: .09.8ˆ,057.0ˆ,44.54,0377.0,73.635,24 01
22 xssn Rx
Además, 2 es desconocida. Los I.C. deben calcularse al (1- )100%=99%, por tanto, 82.2995.02/1 tt .
3559.8,8240.773.635
44.541240377.082.209.81ˆ).(.
0526.0,0614.073.63524
0377.082.2057.0ˆ).(.
2
2
2
2/100
2/111
x
R
x
R
sx
nstCI
snstCI
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 7/51
Ejercicio: Hallar los I.C. al 99% para los parámetros 1, 0 del Ejemplo 2 (esperanza de vida) del Tema 1.
Ejercicio 7. a) Hallar un intervalo de confianza para la pendiente de la recta y=5.9+0.59 x, donde
y es el salario mensual y x son los años de escolarización, para un nivel de confianza del 90%.
b) Lo mismo para el término independiente.
Ejercicio 8. Hallar los intervalos de confianza al 95% para 0, 1 para y=79.3210-1.3765 x, donde y es la longitud de la línea de la mano y x es la edad al morir.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 8/51
1.3 Intervalo de confianza para 2
Utilizando el resultado que vimos en el apartado 5 del Tema 1:
222
2
~)2(n
Rsn
se puede deducir el intervalo de confianza para la varianza del modelo.
Proposición: El intervalo
2
2/
2
2/1
2 2,2).(. RR sxns
xnCI ,
donde 2/12/ , xx son, respectivamente, los percentiles ( /2)100 y (1- /2)100 de la ley chi-cuadrado con n-2 grados de libertad, es un intervalo de confianza para 2 con un nivel de confianza 1- .
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 9/51
Ejemplo: Hallar el I.C. al 90% para el parámetro 2 del Ejemplo 1 (densidad del tráfico) del Tema 1. Para este conjunto de datos se tenía que .0377.0,24 2
Rsn El I.C. debe calcularse al (1- )100%=90%, por tanto, .9.33,9.33 95.02/105.02/ xxxx .
0691.0,0245.00377.03.12
22,0377.09.33
222,2).(. 2
2/
2
2/1
2RR s
xns
xnCI
Ejercicio 9. Hallar un intervalo de confianza al 90% para 2 con los datos del Ejercicio 5 (longitud de la línea de la mano).
Ejercicio 10. Hallar un intervalo de confianza al 95% para 2 con los datos del Ejercicio 6 (salario-escolarización).
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 10/51
2. El contraste de regresión
2.1. El contraste de la pendiente (t- Student)
El objetivo general de los contrastes de hipótesis es ayudar al investigador a tomar una decisión sobre la población de estudio, a partir de una muestra de ella.
En este caso, el contraste de hipótesis sobre la pendiente nos ayudará a decidir si el parámetro 1 admite un valor concreto 1
*.
Mediante un contraste de hipótesis podremos responder a preguntas como, por ejemplo: 1) ¿El valor 1
* es un valor admisible para 1?2) ¿Es realmente significativa (es decir, influye) la variable x sobre la variable y?3) Se sabe de investigaciones anteriores que 1 vale 1
*, ¿mi resultado es similar, teniendo en cuenta que a partir de una muestra mi estimación es 1̂ ?
El planteamiento es similar en cualquiera de los tres casos.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 11/51
2.1.1. Contraste bilateral: Se plantean dos hipótesis: la hipótesis nula, H0, y la hipótesis alternativa, H1:
*11
*10
1
1
:
:
H
H
Para resolver el contraste se construye un estadístico de contraste, cuya distribución debe ser conocida bajo el supuesto de la hipótesis H0. En este caso, se utiliza:
2
*11
exp ~ˆ
n
x
Rt
snst
Cuanto más parecidos sean la estimación 1̂ y el valor del parámetro que se quiere contrastar 1
*, más próximo a cero será el valor de texp.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 12/51
Utilizando la ley del estadístico de contraste, se construyen las zonas de rechazo y deaceptación de H0, para un nivel de significación fijado:
Regla de decisión:
Para un nivel de significación fijado, se rechaza la hipótesis H0 si
)2(2/1exp
ntt
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 13/51
2.1.2. Contraste unilateral izquierdo:
Hipótesis del contraste:
*111
*110
:
:
HH
x
R
snst
*11
exp
ˆ
Regla de decisión:
Para un nivel de significación fijado, , se rechaza la hipótesis H0 si
)2(1exp
ntt
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 14/51
2.1.3. Contraste unilateral derecho:
Hipótesis del contraste:
*111
*110
:
:
HH
x
R
snst
*11
exp
ˆ
Regla de decisión:
Para un nivel de significación fijado, , se rechaza la hipótesis H0 si
)2(1exp
ntt
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 15/51
Observaciones: Es de particular interés el contraste de significación del parámetro 1, que consiste en tomar 1
*=0 en cualquiera de los contrastes anteriores:
0:0:
11
10
HH
0:0:
11
10
HH
0:0:
11
10
HH
bilateral unilateral izquierdo unilateral derecho En este caso, el no rechazar la hipótesis H0 y, por tanto, concluir que el valor 0 es un valor admisible para el parámetro 1, es equivalente a afirmar que la variable explicativa no influye en la variable respuesta.
Los paquetes estadísticos, como Statgraphics, basan el criterio de decisión en el p-valor, que para los contrastes unilaterales es la probabilidad de cola asociada al valor del estadístico de test. Para un nivel de significación fijado , se rechaza la hipótesis H0 si p-valor < .
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 16/51
Ejemplo: Contrastar con los datos del Ejemplo 1 (densidad del tráfico) la hipótesis nula de que la densidad no influye (linealmente) en la velocidad frente a la alternativa de que un incremento de la densidad produce un descenso en la velocidad, para un nivel de significación del 5%.x=”densidad del tráfico”, y=”velocidad”,
.09.8ˆ,057.0ˆ,0377.0,73.635,24 0122Rx ssn
Recta de regresión: y=8.09-0.057xPlanteamos el siguiente contraste:
0:0:
11
10
HH
A partir de la información muestral, calculamos el estadístico de test:
26.36
)73.635(240377.0
0057.0ˆ *11
exp
x
R
snst
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 17/51
Comparamos el valor del estadístico de test con el percentil 5% de la ley t de Student con 22 grados de libertad:
)22(95.0exp 72.126.36 tt
¿Cuánto vale el p-valor?
21032492)26.36( 22 E-.tP
Concluimos que 1<0 y, por tanto, la velocidad está influida por la densidad del tráfico, para un nivel de significación del 5%.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 18/51
Contraste de hipótesis a través del intervalo de confianza
El intervalo de confianza permite realizar el contraste de hipótesis bilateral.
Por ejemplo, para resolver el contraste de significación de 1, para un nivel de significación fijado , podemos utilizar el intervalo de confianza de 1 de la forma siguiente:
Basta verificar si para un nivel de confianza del (1- )100%, el valor 0 está contenido en el I.C. siguiente:
x
Rn
x
Rn
snst
snstCI )2(
2/11)2(2/1111
ˆ,ˆ).(.
Si el valor 0 pertenece a este intervalo concluiremos que 0 es un valor admisible para 1
para el nivel de significación .
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 19/51
Ejercicio 11. (producción-fertilizantes) Se dispone de los siguientes datos experimentales obtenidos en un campo de cultivo que relacionan la producción con la cantidad de fertilizante aplicado.
Fertilizantes (kg/hect.) x 100 200 300 400 500 600 700
Producción (kg/hect.) y 40 45 50 65 70 70 80
Hallar: a) La nube de puntos y dibujar una recta que pase “lo más cerca posible” de todos sus
puntos y en especial por el centroide. b) La recta de regresión de y sobre x. Interpretar los coeficientes. c) La varianza residual. d) I.C. al 95% para 1.e) I.C. al 95% para 2 y para .f) Coeficiente de correlación y coeficiente de determinación. Interpretar los resultados. g) Si se aplican 350kg/hect. de fertilizante, ¿qué producción se obtendrá? ¿Y con 1000
kg/hect.?h) Realiza un contraste de hipótesis con un nivel de significación del 5% para comprobar
si la producción depende del fertilizante.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 20/51
2.2. Contraste de regresión (ANOVA)
Definición: Se denomina contraste de regresión al contraste de hipótesis sobre la pendiente de la recta de regresión.
xxyEHxyEH
HH
101
00
11
10
)/(:)/(:
0:0: constante
Aunque en la sección anterior ya hemos deducido este contraste, aquí vamos a resolverlo mostrando su relación con el análisis de la varianza (ANOVA).
Recordemos la descomposición de la variabilidad:
)ˆ()2()ˆ(
ˆ)ˆ(
)(
221
22
1
2
1
2
221
1
2
2
1
2
xyR
n
ii
n
iii
x
n
ii
y
n
ii
ssnsneyyVNE
snyyVE
nsyyVT
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 21/51
Por un lado, sabemos que: 2
22 ~ nVNE
Y por otro, se puede demostrar (Peña vol. II, apéndice 11B) que cuando 1=0 (es decir, bajo el supuesto de H0 ):
212
212 ~~ VEVT
n y
Por tanto, si 1=0, se construye el siguiente estadístico de contraste:
lib.gr.2-n y 1conFisherdeF2,12
221
2exp ~ˆ
2
1n
R
x
R
Fs
snsVE
nVNE
VE
F
La regla de decisión ahora es: Para un nivel de significación fijado, , se rechaza la
hipótesis H0 si 2,1exp nFF
Cuando Fexp es grande significa la variabilidad explicada por el modelo es mucho mayor que la variabilidad residual.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 22/51
Este contraste suele realizarse a partir de la tabla ANOVA:
Fuente devariación
Sumas de Cuadrados
Gradosde libertad
Cociente o varianza
Fexp
VE 221̂ xsn 1 22
1̂ xsn2
221̂
R
x
ssn
VNE2)2( Rsn n-2 2
Rs
VT 2yns n-1
El estadístico Fexp compara el cuadrado del estimador 1̂ con su varianza.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 23/51
Atención!: Este contraste supone linealidad, puesto que compara dos modelos:
0)(0)(constante
1
1
xxyEHxyEH
101
00
)/(:)/(:
es decir, analiza si una recta con pendiente no nula representa mejor a los datos que una recta horizontal. Por tanto, aceptar H0 (recta horizontal) no implica que x e y sean independientes.
-1 -0.5 0 0.5 1
En este caso, se aceptaría H0 porque la recta horizontal tiene mejor ajuste que cualquier otra recta.
Aunque 1=0, existe relación entre x e y.
Para evitar casos patológicos como este, es siempre conveniente representar los datosmediante un diagrama de dispersión.
Solamente podremos concluir a partir del contraste de regresión que las variables x e yson independientes si conjuntamente tienen ley normal bivariante.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 24/51
Equivalencia entre el contraste de regresión y el contraste de significación de 1
Contraste de regresión:
2,12
221
exp ~ˆ
nR
x Fs
snF
Contraste de significación de 1:
211
exp ~ˆˆ
nR
x
xR
tssn
snst
Elevando texp al cuadrado se tiene que:
exp
2
12exp
ˆF
ssntR
x
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 25/51
Ejemplo: Con los datos del Ejercicio 11 (producción-fertilizantes) realizar un contraste de regresión con un nivel de significación del 1%.
y=”producción” (en kg/hect), x=”fertilizantes” (en kg/hect). Para este conjunto de datos se tenía que:
.8.32ˆ,068.0ˆ,0559.11,40000,7 0122Rx ssn
Recta de regresión estimada: y=32.8+0.068xEl contraste de regresión que se plantea es:
0:0:
)/(:)/(:
11
10
101
00
HH
xxyEHxyEH
Calculamos el estadístico de contraste:
1067.1170559.11
40000068.07ˆ 2
2
221
expR
x
ssnF
Puesto que Fexp =117.1067>16.23= F1, 5 (0.05), se rechaza H0, con lo que se concluye que la recta con pendiente no nula es mejor para representar estos datos.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 26/51
Otra forma de resolver este Ejemplo es mediante la tabla ADEVA (ANOVA):
Fuente devariación
Sumas de Cuadrados
Gradosde libertad
Cociente o varianza
Fexp
VE 1294.72 1 1294.72 117.1067VNE 55.2795 5 11.0559 VT 1349.9997 6
Fexp =117.1067>16.23= F1,5(0.05), se rechaza H0, sí existe relación lineal entre x e y.
Ejercicio 12. Dada la ecuación de regresión y=3+4x indicar, mediante el contraste de regresión, si hay evidencias de que y depende linealmente de x con un nivel de significación =0.01 y sabiendo que R2=0.4 y n=25.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 27/51
3. Contraste de las hipótesis mediante los residuos: Diagnosis del modelo.
Se realiza mediante el estudio gráfico de los residuos. Objetivo: validar las hipótesis sobre las que se basa el modelo de regresión.
Linealidad
xxyEiuE 10)|(0)( ó
Normalidad
Normalui ~
Homocedasticidad 2)var( iu
Independencia
jiuu ji ,0),cov(
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 28/51
Permite depurar los datos: Eliminar atípicos (cuando sea conveniente) Mejorar la Normalidad Mejorar la homocedasticidad Transformar un modelo no lineal en uno que sea lineal.
Gráficos preliminares: Conjuntos: diagrama de dispersión (detectar desviaciones de la linealidad) Individuales: hitogramas, gráficos de cajas (detectar desviaciones de la normalidad: más de una moda, asimetría, atípicos…)
Gráficos posteriores: Residuos vs. Valores predichos ( ) Residuos vs. Variable explicativa (x) Residuos vs. Sencuencia temporal Residuos vs. Otra variable de interés
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 29/51
Falta de linealidad
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 30/51
Falta de homocedasticidad
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 31/51
Falta de independencia entre los residuos
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 32/51
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 33/51
Observación influyente
Es una observación atípica (xA,yA) cuya exclusión produce un cambio drástico en la recta de regresión.
Posibles causas de una observación influyente
1) error de observación
2) modelo incorrecto: no linealidad: la relación entre x e y no es lineal cerca de xA
heterocedasticidad: la varianza aumenta mucho con x. variable desconocida que ha tomado un valor distinto en xA
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 34/51
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 35/51 Métodos de Regresión - Grado en Estadística y Empresa Tema 2 36/51
Resumen de posibles problemas a tener en cuenta
i. La función de regresión no es lineal.
Diagrama de dispersión:Observar si los datos se desvían de manera sistemática de la recta estimada, en particular si lo hacen sobre una trayectoria curvilínea.
Residuos vs. valores predichos o vs. variable independiente.
Posible remedio (a nuestro alcance):Por lo general, basta transformar solamente x.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 37/51
ii. Los errores no siguen una ley Normal.
Gráficos descriptivos de los residuos: Histograma, gráfico de caja,…
Gráficos de Probabilidad Normal (Normal Probability Plot). Desviaciones respecto a las colas del gráfico indican posible sesgo o colas muy pesadas.
Normal Probability Plot for lifeexpf
53 58 63 68 73 78 83
lifeexpf
0,115
2050809599
99,9
perc
enta
ge
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 38/51
Gráfico de residuos estandarizados vs. valores predichos: Si los errores son normales, los residuos estandarizados deberían encontrarse en su mayoría en la franja horizontal (-3, 3).
Residual Plot
predicted lifeexpf
Stud
entiz
ed re
sidu
al
55 60 65 70 75 80 85-2,6
-1,6
-0,6
0,4
1,4
2,4
3,4
Posible remedio (a nuestro alcance): Por lo general, basta transformar solamente la variable y, puesto que es la distribución de la variable respuesta la que, por hipótesis, debe ser Normal.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 39/51
iii. Los errores no tienen varianza constante.
Residuos vs. valores predichos o vs. variable independiente. Buscar formas de trompeta en la nube de residuos.
Residuos al cuadrado o en valor absoluto vs. valores predichos o vs. variable independiente:Puede ser más útil realizar este gráfico que el anterior, puesto que el signo de los residuos no tiene importancia y, en cambio, será más fácil de apreciar los cambios en la varianza.
Posible remedio (a nuestro alcance): Por lo general, basta transformar solamente la variable y, puesto que es la varianza de la variable respuesta la que, por hipótesis, debe ser constante.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 40/51
iv. Los errores no son independientes.
Residuos vs. secuencia temporal
Cuando los errores son independientes, los residuos deberían fluctuar en un patrón aleatorio alrededor del 0. Si se observa algún patrón definido, ello puede ser debido a que los errores están correlacionados.
v. Se han omitido variables en el modelo
Residuos vs. variables omitidas en el modelo.
Dividir la muestra en grupos según los valores de alguna variable categórica, o variable categorizada, (sexo, edad, …) y examinar los residuos de cada grupo por separado.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 41/51
4. Transformaciones Cuando el diagrama de dispersión entre las dos variables o el de los residuos presenta indicios de incumplimiento de alguna hipótesis básica, entonces hay que (i) abandonar el modelo inicial poruno menos simple, o bien (ii) aplicar alguna transformación a los datos.4.1 Corrección de la no linealidad
xxxx óln xexxx ó2
xx 1 xexxx ó1
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 42/51
4.2 Corrección de la no normalidad y la heterocedasticidad
Empezaremos transformando solamente la variable y, y si no es suficiente, transformaremos ambas variables.
xxyy
yylnln
ó yy ln yy 1
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 43/51
Más patrones
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 44/51
5. Predición
Un modelo de regresión permite: 1)Estimar las medias condicionadas: Estimar las medias de las distribuciones
de y para cada valor de x,2)Realizar pronósticos: Prever futuros valores de la variable respuesta.
Tanto la estimación de la media como la predicción de y se obtienen sustituyendo en la ecuación de la recta de regresión. Por tanto, sus valores numéricos son idénticos.
Sin embargo, la precisión de estas dos estimaciones es distinta y, por tanto, losintervalos de confianza serán distintos.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 45/51
5.1. Estimación de las medias condicionadas (o variación esperada)
Modelo: yi= 0+ 1 xi + ui, donde ui, i=1,…,n, son v.a. i.i.d.~N(0, 2).
Vimos en el Tema 1 que: E(y/x)= 0+ 1 x,
El nuevo parámetro que se quiere estimar es la media de y condicionada a que xtome un valor concreto xh, es decir:
E(y/x=xh)= 0+ 1 xh=mh
El estimador puntual de mh es:
hh xy 10ˆˆˆ ,
que tiene ley normal, al ser combinación lineal de normales.
Proposición: hh xy 10ˆˆˆ es un estimador insesgado de mh, cuya varianza es
2
2
1
ˆdonde,ˆ
)ˆvar(
x
hh
hh
sxx
nnn
y
(Demostración)
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 46/51
Observaciones:
hn̂ se denomina número equivalente de observaciones para la estimación de mh,2
x
hs
xxes el cuadrado de la distancia de Mahalanobis entre el punto xh y la
media de x,hn̂ depende de la distancia de Mahalanobis entre el punto xh y la media de x, y
determina la precisión de la estimación, es decir: Cuánto más cerca está xh de la media de x (menor distancia de Mahalanobis)
mayor hn̂ menor )ˆvar( hy y, por tanto, mayor precisión.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 47/51
Intervalo de confianza para mh
Utilizaremos la ley de probabilidad de su estimador puntual hh xy 10ˆˆˆ .
Caso 1: 2 conocida,
)1,0(~ˆ
ˆˆ
,~ˆ2
Nnmy
nmNy
h
hh
hhh
Caso 2: 2 desconocida,
2~ˆ
ˆn
hR
hh tnsmy
En general, se estará en la hipótesis del Caso 2, con lo que el I.C. para mh al (1- )100%será:
hRhh n
stymCIˆ1ˆ).(.
21
donde t1- /2 es el percentil (1- /2)100% de la ley t de Student con n-2 grados de libertad y
2
1
ˆ
x
h
h
sxx
nn
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 48/51
5.2 Predicción de una nueva observación (pronóstico) Se quiere prever el valor futuro de la variable respuesta cuando x=xh. Por tanto, se tiene una nueva v.a.
yh= 0+ 1 xh + uh, donde uh~N(0, 2) y es independiente de u1, u2,…, un.La predicción o pronóstico de la variable respuesta se obtiene sustituyendo en la ecuación de la recta de regresión:
hh xy 10ˆˆˆ
pero, ¿y si se quiere un intervalo de predicción?Aclaración: El intervalo que se construye para los valores futuros de la variable respuesta, en realidad, no es un intervalo de confianza porque no se está estimando ningún parámetro. Se trata de un intervalo de valores probables para la variable aleatoria yh, que se denomina intervalo de predicción o de pronóstico.Este intervalo al (1- )100% es
hRhh n
styyˆ11ˆ
21
donde t1- /2 es el percentil (1- /2)100% de la distribución t de Student con n-2 gr. lib. y
2
1
ˆ
x
h
h
sxx
nn
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 49/51
¿Cómo se deduce este intervalo?
Se considera la variable diferencia, es decir, el residuo hhh yye ˆ , que tiene ley normal al ser combinación lineal de normales.
Se obtienen su esperanza y varianza:
hhhhhh
mhh
mhhhhhh
nnyyyy
yEuExyuxEyyEhh
ˆ11
ˆ)ˆvar()var()ˆvar(
0)ˆ()()ˆ()ˆ(
22
2
01010
Observación: La varianza se obtiene como suma de varianzas puesto que hh yy ˆ, son independientes al serlo uh de u1, u2,…, un.
Por tanto, se tiene que:
)1,0(~
ˆ11
ˆˆ11,0~ˆ 2 N
n
yyn
Nyy
h
hh
hhh
siempre que 2 sea conocida.
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 50/51
Si 2 es desconocida, entonces se sustituye por su estimador, y entonces:
2~
ˆ11
ˆn
hR
hh t
ns
yy
Puesto que esta será la situación habitual, el intervalo de predicción para la respuesta concreta yh es:
hRhh n
styyˆ11ˆ
21
Observaciones: El intervalo de predicción es mucho más ancho que el I.C:(mh), porque se añade la variabilidad de una observación alrededor de la media.
En ambos intervalos, la amplitud aumenta cuando aumenta la distancia de Mahalanobis entre xh y la media de x.
Ambas amplitudes son mínimas cuando xxh .
Métodos de Regresión - Grado en Estadística y Empresa Tema 2 51/51
5.3 Bandas de confianza Las bandas de confianza para la predicción de las medias condicionadas (respuesta media) se obtienen uniendo los extremos de los intervalos construidos para el mismo nivel de confianza 1- , y para cada valor de x.Análogamente, también pueden construirse Las bandas de confianza para los pronósticos (futuros valores de y)