valores p y r
-
Upload
manuel-ariza -
Category
Documents
-
view
84 -
download
2
Transcript of valores p y r
1
Tema 7. REGRESIÓN Y CORRELACIÓN ∑=
−
−−
=n
1i y
i
x
i
sYy
sXx
1n1r
4035302520
90
80
70
60
50
X
Y
4035302520
90
80
70
60
50
X
Y
4035302520
90
80
70
60
50
X
Y
r = 1 aprox. r = 0 r = -1Correlación positiva perfecta No correlación Correlación negativa perfecta
Características del coeficiente de correlación de Pearson
Coeficiente de correlación: Precaución
El valor de r no sustituye la información del diagrama bivariante
Los 7 diagramaspresentanuna correlaciónde r = 0,7
Fuente:J.M. Chambers et al. “Graphical Methods for Data Analysis”. Duxbury Press 1983
Ejemplos reales
180170160150
95
90
85
80
75
Temperatura150 160 170 180
75
80
85
90
95
Temperatura150 160 170 180
75
80
85
90
95
Temperatura
Situación 1 Situación 2 Situación 3
r = 0,983 r = 0,887 r = 0,230p-value: 0,000 p-value: 0,000 p-value: 0,108
Un valor de r distinto de 0 no implica relación lineal
Es necesario que sea “significativamente distinto de cero”
2
Coeficiente de correlación: Tablas para valorar la significación
Valores de r que dan niveles de significación (p-valor) del 5 y del 1 %
0,05 0,01 0,05 0,01 0,05 0,013 0,997 1 16 0,497 0,623 29 0,367 0,4714 0,95 0,99 17 0,482 0,606 30 0,361 0,4635 0,878 0,959 18 0,468 0,59 35 0,334 0,436 0,811 0,917 19 0,456 0,575 40 0,312 0,4037 0,754 0,875 20 0,444 0,561 45 0,294 0,388 0,707 0,834 21 0,433 0,549 50 0,279 0,3619 0,666 0,798 22 0,423 0,537 55 0,266 0,34510 0,632 0,765 23 0,413 0,526 60 0,254 0,3311 0,602 0,735 24 0,404 0,515 65 0,244 0,31712 0,576 0,708 25 0,396 0,505 70 0,235 0,30613 0,553 0,684 26 0,388 0,496 75 0,227 0,29614 0,532 0,661 27 0,381 0,487 80 0,22 0,28615 0,514 0,641 28 0,374 0,479 85 0,213 0,278
p-valorn n n
p-valor p-valor
Ref. Pere Grima
Coeficiente de correlación: Interpretación del p-valor
150 160 170 18075
80
85
90
95
Temperatura
Situación 3r = 0,230p-value: 0,108
Pero, ¿qué significa p-value = 0,108 ?
Es el resultado de realizar un test para comprobar la hipótesis de independencia entre las variables consideradas(solo si p<0,05 se rechaza la hipótesis, porque sería muy poco probableque dos variables independientes “dieran un r con ese valor”)
Coeficiente de correlación: Interpretación del p-value
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,00
100
200
300
400
500
600
Freq
uenc
y 558 casos536 casos
0,23-0,23
Valores de r obtenidos al realizar 10.000 simulaciones con muestras INDEPENDIENTES
El 10,8 % de los casos [(536+558) /1000] da un valor de |r| > 0,23
Valores correspondientes a las
situaciones 1 y 2
Análisis de los residuos: 3 situaciones distintas de residuos
e
y0 y0 y0
ee
Los residuos no contieneninformación. El modelo
propuesto es el adecuado
Los residuos contieneninformación. la relación entre
X e Y parece no ser lineal
La recta será menos precisapara valores grandes de x,que para valores pequeños.
3
Cuidado con: Observaciones “raras”
Observación atípica: observación que no encaja en el aspecto general de la nube de puntos del gráfico de dispersión (puede serlo por tener un valor muy distanciado del resto en la y, en la x o en ambas)Observación influyente: aquella que si la eliminamos del estudio, produce un cambio notable en la posición de la recta de regresión (normalmente valores grandes de x. Su residuo puede ser pequeño) y
x
Obs. atípica
Obs. atípica einfluyente
Cuidado con: Extrapolación
Extrapolación: utilización de la recta de regresión para predecir fuera de los valores observados
x
y
Modelocorrecto
Previsión
Valor real
Cuidado con: Variables latentes y relaciones causa-efecto
La relación entre dos variables puede estar influida por otras que no sospechamos su existencia o simplemente no las medimos. A éstas se les llama variables latentes.
Una fuerte asociación entre 2 variables no es suficiente para sacar conclusiones sobre relaciones causa-efecto.
La mejor manera de evidenciar de que una asociación se debe a lacausalidad, se obtiene mediante las ténicas DOE