valores p y r

3
Tema 7. REGRESIÓN Y CORRELACIÓN = = n 1 i y i x i s Y y s X x 1 n 1 r 40 35 30 25 20 90 80 70 60 50 X Y 40 35 30 25 20 90 80 70 60 50 X Y 40 35 30 25 20 90 80 70 60 50 X Y r = 1 aprox. r = 0 r = -1 Correlación positiva perfecta No correlación Correlación negativa perfecta Características del coeficiente de correlación de Pearson Coeficiente de correlación: Precaución El valor de r no sustituye la información del diagrama bivariante Los 7 diagramas presentan una correlación de r = 0,7 Fuente:J.M. Chambers et al. “Graphical Methods for Data Analysis”. Duxbury Press 1983 Ejemplos reales 180 170 160 150 95 90 85 80 75 Temperatura 150 160 170 180 75 80 85 90 95 Temperatura 150 160 170 180 75 80 85 90 95 Temperatura Situación 1 Situación 2 Situación 3 r = 0,983 r = 0,887 r = 0,230 p-value: 0,000 p-value: 0,000 p-value: 0,108 Un valor de r distinto de 0 no implica relación lineal Es necesario que sea “significativamente distinto de cero”

Transcript of valores p y r

Page 1: valores p y r

1

Tema 7. REGRESIÓN Y CORRELACIÓN ∑=

−−

=n

1i y

i

x

i

sYy

sXx

1n1r

4035302520

90

80

70

60

50

X

Y

4035302520

90

80

70

60

50

X

Y

4035302520

90

80

70

60

50

X

Y

r = 1 aprox. r = 0 r = -1Correlación positiva perfecta No correlación Correlación negativa perfecta

Características del coeficiente de correlación de Pearson

Coeficiente de correlación: Precaución

El valor de r no sustituye la información del diagrama bivariante

Los 7 diagramaspresentanuna correlaciónde r = 0,7

Fuente:J.M. Chambers et al. “Graphical Methods for Data Analysis”. Duxbury Press 1983

Ejemplos reales

180170160150

95

90

85

80

75

Temperatura150 160 170 180

75

80

85

90

95

Temperatura150 160 170 180

75

80

85

90

95

Temperatura

Situación 1 Situación 2 Situación 3

r = 0,983 r = 0,887 r = 0,230p-value: 0,000 p-value: 0,000 p-value: 0,108

Un valor de r distinto de 0 no implica relación lineal

Es necesario que sea “significativamente distinto de cero”

Page 2: valores p y r

2

Coeficiente de correlación: Tablas para valorar la significación

Valores de r que dan niveles de significación (p-valor) del 5 y del 1 %

0,05 0,01 0,05 0,01 0,05 0,013 0,997 1 16 0,497 0,623 29 0,367 0,4714 0,95 0,99 17 0,482 0,606 30 0,361 0,4635 0,878 0,959 18 0,468 0,59 35 0,334 0,436 0,811 0,917 19 0,456 0,575 40 0,312 0,4037 0,754 0,875 20 0,444 0,561 45 0,294 0,388 0,707 0,834 21 0,433 0,549 50 0,279 0,3619 0,666 0,798 22 0,423 0,537 55 0,266 0,34510 0,632 0,765 23 0,413 0,526 60 0,254 0,3311 0,602 0,735 24 0,404 0,515 65 0,244 0,31712 0,576 0,708 25 0,396 0,505 70 0,235 0,30613 0,553 0,684 26 0,388 0,496 75 0,227 0,29614 0,532 0,661 27 0,381 0,487 80 0,22 0,28615 0,514 0,641 28 0,374 0,479 85 0,213 0,278

p-valorn n n

p-valor p-valor

Ref. Pere Grima

Coeficiente de correlación: Interpretación del p-valor

150 160 170 18075

80

85

90

95

Temperatura

Situación 3r = 0,230p-value: 0,108

Pero, ¿qué significa p-value = 0,108 ?

Es el resultado de realizar un test para comprobar la hipótesis de independencia entre las variables consideradas(solo si p<0,05 se rechaza la hipótesis, porque sería muy poco probableque dos variables independientes “dieran un r con ese valor”)

Coeficiente de correlación: Interpretación del p-value

-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,00

100

200

300

400

500

600

Freq

uenc

y 558 casos536 casos

0,23-0,23

Valores de r obtenidos al realizar 10.000 simulaciones con muestras INDEPENDIENTES

El 10,8 % de los casos [(536+558) /1000] da un valor de |r| > 0,23

Valores correspondientes a las

situaciones 1 y 2

Análisis de los residuos: 3 situaciones distintas de residuos

e

y0 y0 y0

ee

Los residuos no contieneninformación. El modelo

propuesto es el adecuado

Los residuos contieneninformación. la relación entre

X e Y parece no ser lineal

La recta será menos precisapara valores grandes de x,que para valores pequeños.

Page 3: valores p y r

3

Cuidado con: Observaciones “raras”

Observación atípica: observación que no encaja en el aspecto general de la nube de puntos del gráfico de dispersión (puede serlo por tener un valor muy distanciado del resto en la y, en la x o en ambas)Observación influyente: aquella que si la eliminamos del estudio, produce un cambio notable en la posición de la recta de regresión (normalmente valores grandes de x. Su residuo puede ser pequeño) y

x

Obs. atípica

Obs. atípica einfluyente

Cuidado con: Extrapolación

Extrapolación: utilización de la recta de regresión para predecir fuera de los valores observados

x

y

Modelocorrecto

Previsión

Valor real

Cuidado con: Variables latentes y relaciones causa-efecto

La relación entre dos variables puede estar influida por otras que no sospechamos su existencia o simplemente no las medimos. A éstas se les llama variables latentes.

Una fuerte asociación entre 2 variables no es suficiente para sacar conclusiones sobre relaciones causa-efecto.

La mejor manera de evidenciar de que una asociación se debe a lacausalidad, se obtiene mediante las ténicas DOE