Descriptiva bivariada cuantitativas

download Descriptiva bivariada cuantitativas

of 16

Transcript of Descriptiva bivariada cuantitativas

  • Pgina 1 de 16

    CAPTULO 4 (Continuacin): ESTADSTICA DESCRIPTIVA BIVARIADA

    Relaciones entre dos variables cuantitativas A menudo nos va a interesar describir la relacin o asociacin entre dos variables. Como siempre la metodologa va a depender del tipo de variable que queremos describir. Ac vamos a estudiar cmo describir la relacin entre dos variables cuantitativas. Describiendo relaciones entre dos variables cuantitativas. Para mostrar graficamente la relacin entre dos variables cuantitativas usaremos un grfico llamado de dispersin o de XY.

    Grfico de Dispersin de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadstica en la UTAL

    Prueba 1

    7654321

    Exa

    me

    n

    7

    6

    5

    4

    3

    2

    1

    ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5 Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5

    Ejemplo a) Encuentre el estudiante nmero 19 en el grfico. b) Suponga que otro estudiante tuvo un 5,0 en la primera prueba y un 5,5 en la prueba final

    acumulativa o Examen. Agregue este punto en el grfico.

    Estudiante 16

  • Pgina 2 de 16

    Al igual que cuando estudiamos los histogramas, tallos y hojas y otros grficos, ahora nos va interesar describir la forma del grfico. Especficamente en este caso particular de grficos de dispersin, nos va a interesar la direccin, forma y grado de asociacin entre dos variables cuantitativas. Por direccin, diremos que dos variables estn asociadas positivamente cuando a mayor valor de una variable el valor de la otra variable tambin aumenta, como se muestra en la figura A. Dos variables estarn negativamente asociadas cuando a mayor valor de una variable el valor de la otra variable disminuye, como se muestra en la figura B. La forma de una asociacin puede ser adems lineal, curva, cuadrtica, estacional o cclica, o quizs no tenga una forma definida. En la figura A podemos decir que la relacin es lineal. En cambio en las figuras B y D parece no lineal. Por ltimo la figura C muestra que no hay asociacin. Por el grado de asociacin entendemos cun cerca estn los datos de una forma dada. Por ejemplo, en la figura B se ve que existe un alto grado de asociacin no lineal entre los datos. En este punto debemos tener cuidado, porque cambios de escala pueden cambiar la figura y nos pueden llevar a conclusiones errneas. Ms adelante discutiremos sobre una medida de asociacin llamada el coeficiente de correlacin. Por ltimo, al mirar un grfico de dispersin nos van a interesar puntos que aparecen lejos o desviados del patrn general del grfico. En la figura A, el punto (21, 39) est lejos del resto de los puntos, sin embargo parece seguir el patrn general del grfico. Como resumen de las figuras tenemos lo siguiente: Figura A: muestra un grado de asociacin intermedio, positivo y lineal. Figura B: muestra un grado de asociacin fuerte, negativo y no lineal o curvo. Figura C: muestra que no hay asociacin entre las variables. Figura D: muestra un grado de asociacin muy fuerte y no lineal o cuadrtico.

    Figure A: Positive Association

    X

    30

    40

    50

    60

    70

    80

    90

    100

    10 20 30 40 50

    Figure C: No Linear Association

    X

    30

    40

    50

    60

    70

    80

    90

    100

    10 20 30 40 50

    Figure B: Negative Association

    X

    30

    40

    50

    60

    70

    80

    90

    100

    10 20 30 40 50

    Figure D: No Linear Association

    X

    30

    40

    50

    60

    70

    80

    90

    100

    10 20 30 40 50

    Ejemplo Interprete el grfico de las notas anterior.

  • Pgina 3 de 16

    Correlacin: Cun fuerte es la relacin lineal? Definicin: El coeficiente de correlacin muestral r mide el grado de asociacin lineal entre dos variables cuantitativas. Describe la direccin de la asociacin lineal e indica cun cerca estn los puntos a una lnea recta en el diagrama de dispersin.

    Nota: El coeficiente de correlacin muestral =r es un estimador puntual de la correlacin poblacional (parmetro). Caractersticas:

    1. Rango: El coeficiente de correlacin muestral est entre -1 y 1 )11( + r . 2. Signo: El signo de coeficiente de correlacin indica la direccin de la asociacin. La direccin

    ser negativa si el r est en el intervalo [-1 , 0). La direccin ser positiva si el r est en el intervalo (0 , +1].

    3. Magnitud: La magnitud del coeficiente de correlacin indica el grado de la relacin lineal. Si los datos estn linealmente asociados r = +1 o r = 1 indican una relacin lineal perfecta. Si r = 0 entonces no existe relacin lineal.

    4. Medida de asociacin: La correlacin slo mide el grado de asociacin lineal. 5. Unidad: La correlacin se calcula usando las dos variables cuantitativas estandarizadas. Por

    lo que r no tiene unidad y tampoco cambia si cambiamos la unidad de medida de X o Y. La correlacin entre X e Y es la misma que la correlacin entre Y y X.

    y

    x

    x x

    x

    x

    xx

    x

    x x

    xx

    x

    xx

    y

    x

    x x

    x

    x

    xx

    x

    x

    x

    x

    x

    x

    x

    x

    y

    x

    x

    x

    xx x

    x

    x

    x

    8,0r 2,0r 0=r

  • Pgina 4 de 16

    Ejemplo Asigne un posible valor de r para cada grfico:

    x

    y

    x

    y

    x

    y

    x

    y

    Graph A: ___________ Graph B: ___________

    Graph C: ___________ Graph D: ___________

    r = 0 r = +1 r = -1 r = 0,6 r = -0,2 r = -0,8 r = 0,1

    Cmo se calcula el coeficiente de correlacin r?:

    =YX s

    yy

    s

    xx

    nr

    )1(1

    Ejemplo Correlacin entre Test 1 y Test 2:

    Test 1 Test 2 8 9 10 13 12 14 14 15 16 19

    8 10 12 14 16

    Test 1

    8

    10

    12

    14

    16

    18

    20

    Test 2

  • Pgina 5 de 16

    Test de hiptesis para la correlacin Supuestos: Se tienen dos variables cuantitativas x e y, ambas provienen de una poblacin Normal, supuesto que no es relevante si el tamao de la muestra n es grande. Hiptesis:

    0:

    0:

    1

    0

    =

    H

    H

    Se fija el nivel de significancia SPSS arroja el valor-p del test (Sig. bilateral).

    Analizar > Correlaciones > Bivariadas.

    Correlaciones

    1 .965**

    .008

    5 5

    .965** 1

    .008

    5 5

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Test 1

    Test 2

    Test 1 Test 2

    La correlacin es significativa al nivel 0,01

    (bilateral).

    **.

    Ejemplo La Tabla adjunta presenta 4 bases de datos preparadas por el estadstico Frank Ascombe*

    x 10 8 13 9 11 14 6 4 12 7 5 y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 x 10 8 13 9 11 14 6 4 12 7 5 y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 x 10 8 13 9 11 14 6 4 12 7 5 y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 x4 8 8 8 8 8 8 8 8 8 8 19 y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.5

    En la salida de SPSS adjunta, encuentre los coeficientes de correlacin para los pares de variables preparadas por Ascombe. Cules son sus conclusiones?

    * Anscombe, F. (1973) "Graphs in statistical analysis", The American Statistician, 27: 17-21.

  • Pgina 6 de 16

    Correlaciones

    1 .816** .816** .816** -.400 .003

    . .002 .002 .002 .223 .993

    11 11 11 11 11 11

    .816** 1 .750** .469 -.297 .065

    .002 . .008 .146 .375 .849

    11 11 11 11 11 11

    .816** .750** 1 .588 -.451 -.014

    .002 .008 . .057 .164 .966

    11 11 11 11 11 11

    .816** .469 .588 1 -.289 .023

    .002 .146 .057 . .389 .947

    11 11 11 11 11 11

    -.400 -.297 -.451 -.289 1 .817**

    .223 .375 .164 .389 . .002

    11 11 11 11 11 11

    .003 .065 -.014 .023 .817** 1

    .993 .849 .966 .947 .002 .

    11 11 11 11 11 11

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    Correlacin de Pearson

    Sig. (bilateral)

    N

    X

    Y1

    Y2

    Y3

    X4

    Y4

    X Y1 Y2 Y3 X4 Y4

    La correlacin es significativa al nivel 0,01 (bilateral).**.

    Ahora revise los grficos de dispersin. Mantiene sus conclusiones anteriores?

    X

    161412108642

    Y1

    11

    10

    9

    8

    7

    6

    5

    4

    X

    161412108642

    Y2

    10

    9

    8

    7

    6

    5

    4

    3

    X

    161412108642

    Y3

    14

    12

    10

    8

    6

    4

    X4

    20181614121086

    Y4

    14

    12

    10

    8

    6

    4

  • Pgina 7 de 16

    Regresin Lineal Simple Como ya hemos visto muchos estudios son diseados para investigar la asociacin entre dos o ms variables. Muchas veces intentamos relacionar una variable explicativa con una variable respuesta. Los datos que se usan para estudiar la relacin entre dos variables se llaman datos bivariados. Datos bivariados se obtienen cuando medimos ambas variables en el mismo individuo. Suponga que est interesado en estudiar la relacin entre las notas de la primera prueba y las notas finales. Entonces las notas en la primera prueba corresponderan a la variable explicativa o independiente X y las notas finales sera la variable respuesta o dependiente Y. Estas dos variables son de tipo cuantitativo.Si el grfico de dispersin nos muestra una asociacin lineal entre dos variables de inters, entonces buscaremos una lnea recta que describa la relacin, la llamaremos recta de regresin. Un poco de historia El nombre de regresin deriva de los estudios de herencia de Francis Galton, quien en 1886* publica la ley de la "regresin universal". En sus estudios Galton encontr que haba una relacin directa entre la estatura de padres e hijos. Sin embargo, el promedio de estatura de hijos de padres muy altos era inferior al de sus padres y, el de hijos de padres muy bajos, era superior al de los padres, regresando a una media poblacional. De ah viene el nombre de regresin.

    Ejemplo Se seleccion a 7 alumnas de la carrera de Psicologa del ao 2003 que nos dieron sus datos de estatura (en cms) y de peso (en kilos).

    Estatura 155 157 159 162 165 168 169 Peso 48 48 51 55 53 55 57

    * Galton, F. (1886) "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (http://www.mugu.com/galton/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf)

  • Pgina 8 de 16

    154 156 158 160 162 164 166 168 170

    estatura

    48

    50

    52

    54

    56

    58

    peso

    Ajustando una recta a los datos: Si queremos describir los datos con una recta tenemos que buscar la "mejor", porque no ser posible que la recta pase por todos los puntos. Ajustar una recta significa buscar la recta que pase lo ms cerca posible de todos los puntos. Ecuacin de la recta: Suponga que Y es la variable respuesta (eje vertical) y X es la variable explicativa (eje horizontal). Una lnea recta relaciona a Y con X a travs de la ecuacin: bXaY += . En la ecuacin, b es la pendiente, cuanto cambia Y cuando X aumenta en una unidad. La pendiente puede tener signo positivo, negativo o valor cero. El nmero a es el intercepto, el valor de Y cuando X se iguala a cero.

    Si queremos relacionar al peso con la estatura entonces la lnea recta ser: estaturapeso += ba .

    La recta de regresin que resume el peso con la estatura es: estatura603,0276,45peso += .

    Y

    a

    a b

    b

    a

    2 3 1

    b = 0

    b = 0

    b negativo b positivo

    2 3 1

  • Pgina 9 de 16

    154 156 158 160 162 164 166 168 170

    estatura

    48

    50

    52

    54

    56

    58

    peso

    La figura muestra que la lnea ajusta ms o menos bien a los datos. La pendiente 603,0b = nos dice que el peso de este grupo aumenta en 0,603 kilos por cada centmetro que aumente de estatura. La pendiente b es la tasa de cambio en la respuesta Y cuando X cambia. La pendiente de la recta de regresin es una descripcin numrica importante de la relacin entre dos variables. El intercepto es 276,45a = , que sera el peso si la estatura fuera cero. En este caso, el cero de estatura no tiene sentido, as es que tomaremos al intercepto slo como parte de la ecuacin. Regresin de mnimos cuadrados Necesitamos una forma objetiva de obtener una recta y que esta pase por la mayora de los puntos.

    Definicin:

    La recta de regresin de mnimos cuadrados, dada por bXaY += , es la recta que hace mnima la suma de los cuadrados de las desviaciones verticales de los datos a la recta, donde

    ( )( )( )

    =

    2xx

    yyxxb

    i

    ii y xbya =

    Una forma fcil de calcular la pendiente es: X

    Y

    s

    srb = donde ys es la desviacin estndar de las

    respuestas y xs es la desviacin estndar de la variable explicativa.

    El mtodo de mnimos cuadrados fue publicado por el matemtico francs Adrien Legendre (1752-1833) en 1805. Este mtodo es una de las herramientas estadsticas ms usadas.

  • Pgina 10 de 16

    Ejemplo Test 1 vs Test 2.

    8 10 12 14 16

    Test 1

    8

    10

    12

    14

    16

    18

    20

    Test 2

    Podemos usar los clculos de la correlacin para calcular la pendiente:

    1,116227766,3605551275,3

    96476,0 ===x

    y

    s

    srb y 8,0121,114 === xbya

    Con estos valores podemos construir la recta de regresin de mnimos cuadrados:

    XY 1,18,0 += . Interpretacin de los coeficientes de regresin: Pendiente: b = 1,1 ==> cada punto adicional en el test 1, significa un aumento de 1,1 puntos en el test 2 en promedio. Intercepto: a = 0,8 ==> Si asignamos el valor cero puntos al test 1, el test 2 tendra un valor de 0,8 puntos. Si usamos la recta de regresin, podemos predecir que un estudiante que tiene 15 puntos en el

    test 1 tendr 3,17)15(1,18,0 =+=Y puntos en el test 2.

    Definicin: Un residuo es la diferencia entre la respuesta observada, Y, y la respuesta que predice la recta de regresin, Y . Cada par de observaciones ( )ii YX , , es decir, cada punto en el grfico de dispersin, genera un residuo:

    residuo = estimadoobservado YY

    El i-simo residuo = ( )iiiii bxaYYYe +==

    Test 1 Test 2 8 9 10 13 12 14 14 15 16 19

  • Pgina 11 de 16

    Prediccin: Podemos usar la recta de regresin para prediccin substituyendo el valor de X en la ecuacin y

    calculando el valor Y resultante. En el ejemplo de las estaturas:

    XY 603,0276,45 += . La exactitud de las predicciones de la recta de regresin depende de que tan dispersos estn las observaciones alrededor de la recta (ajuste). Extrapolacin: Extrapolacin es el uso de la recta de regresin para predecir fuera del rango de valores de la variable explicativa X. Este tipo de predicciones son a menudo poco precisas. Por ejemplo los datos de peso y estatura fueron tomados de un grupo de alumnas de Psicologa del ao 2003 que tenan entre 18 y 23 aos. Cunto debe haber pesado una persona si al nacer midi 45 centmetros? "No deje que los clculos invadan su sentido comn". (Moore, 1989). Tarea: Calcular los residuos de la regresin, Cunto vale la suma de los residuos? Los residuos muestran cun lejos estn los datos de la lnea de regresin ajustada, examinar los residuos nos ayuda a saber qu tan bien describe la recta a los datos. Los residuos que se generan a partir del mtodo de mnimos cuadrados tienen una propiedad bsica: el promedio de los residuos es siempre cero.

    Ejemplo Volvamos al ejercicio con las estaturas y pesos de 7 alumnas. La recta de regresin la podemos calcular usando el SPSS con la salida:

    En SPSS Analizar > Regresin > Lineal Coeficientes(a)

    Modelo

    Coeficientes no

    estandarizados

    Coeficientes

    estandarizados t Sig.

    B Error tp. Beta

    1 (Constante) -45.276 18.496 -2.448 .058

    estatura .603 .114 .921 5.285 .003

    a Variable dependiente: peso

    Tambin podemos hacer un grfico con los residuos versus la variable explicativa. El grfico de los residuos magnifica las desviaciones de los datos a la recta, lo que ayuda a detectar problemas con el ajuste. Si la recta de regresin se ajusta bien a los datos no deberamos detectar ningn patrn en los residuos.

  • Pgina 12 de 16

    La figura A adjunta muestra un grfico de residuos tpico, generalmente se dibuja una lnea horizontal en el cero. La figura B en cambio muestra que la relacin entre X e Y es no lineal, por lo tanto una lnea recta no es buena descripcin de la asociacin. La figura C muestra residuos en forma de embudo, donde la variacin de Y alrededor de X aumenta cuando X aumenta. Figura A:

    Figura B:

    Figura C:

    Ejemplo Los estudiantes de una clase de Fsica estn estudiando la cada libre para determinar la relacin entre la distancia desde que un objeto cae y el tiempo que demora en caer. Se muestra el grfico de dispersin de los datos obtenidos, y el grfico de residuos. Basado en estos grficos, Le parece apropiado un modelo de regresin lineal?

  • Pgina 13 de 16

    Puntos influyentes y extremos Un punto extremo es una observacin que est lejos de la lnea recta, lo que produce un residuo grande, positivo o negativo. Un punto es influyente si al sacarlo produce un cambio notorio en la recta de regresin. Considere el siguiente conjunto de datos I y su grfico de dispersin correspondiente.

    X Y

    1 1 1 2 2 1.5 2.5 2.5 3 3 3.5 3 4 3.5 4 4 4.5 4 5 5 5 6 5.5 6 2 6 654321

    x

    6

    5

    4

    3

    2

    1

    y

    Punto A

    Coeficientesa

    .958 .847 1.131 .282

    .815 .234 .724 3.482 .005

    (Constante)

    x

    Modelo

    1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientes

    estandarizad

    os

    t Sig.

    Variable dependiente: ya.

    Coeficientesa

    .036 .415 .087 .932

    1.002 .112 .943 8.973 .000

    (Constante)

    x

    Modelo

    1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientes

    estandarizad

    os

    t Sig.

    Variable dependiente: ya.

  • Pgina 14 de 16

    0

    1

    2

    3

    4

    5

    6

    7

    0 1 2 3 4 5 6

    X

    Y

    Recta con A

    Y = 0,958+0,815X

    Recta sin A

    Y = 0,036+1,002X

    Punto A

    El punto A produce un residuo grande, parece ser un punto extremo. Sin embargo, no es influyente, ya que al sacarlo la recta de regresin no cambia mucho.

    Considere ahora el siguiente conjunto de datos II y su grfico de dispersin:

    X Y

    1 3 1.5 2 2 3 2 4 2.5 1 2.5 2 3 1 3 2 3 3 3.5 2 4 1 7 7

    7654321x

    7

    6

    5

    4

    3

    2

    1

    y

    Punto B

  • Pgina 15 de 16

    Coeficientesa

    .886 .955 .928 .375

    .582 .292 .533 1.991 .074

    (Constante)

    x

    Modelo

    1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientes

    estandarizad

    os

    t Sig.

    Variable dependiente: ya.

    Coeficientesa

    3.694 .845 4.373 .002

    -.594 .315 -.532 -1.885 .092

    (Constante)

    x

    Modelo

    1

    B Error tp.

    Coeficientes no

    estandarizados

    Beta

    Coeficientes

    estandarizad

    os

    t Sig.

    Variable dependiente: ya.

    0

    1

    2

    3

    4

    5

    6

    7

    8

    0 1 2 3 4 5 6 7 8

    X

    Y

    Recta con B

    Y=0,886+0,882X

    Punto B

    Recta sin B

    Y=3,694-0,594X

    Punto B no produce un residuo grande.

  • Pgina 16 de 16

    Sin embargo, el punto B es muy influyente ya que la sacarlo del anlisis la lnea recta cambia totalmente. El Punto B es influyente, pero no extremo. Notas: a) La asociacin entre una variable explicativa X y una variable respuesta Y, aunque sea muy fuerte, no es por s sola evidencia de que los cambios en X causan cambios en Y. b) Un coeficiente de correlacin es el resumen de la relacin presente en un grfico de dispersin. Conviene, pues, asegurarse mirando este grfico que el coeficiente es un buen resumen del mismo. Tratar de interpretar un coeficiente de correlacin sin haber visto previamente el grfico de las variables puede ser muy peligroso (Pea, Romo, p.129). c) Como hemos visto el coeficiente de correlacin es un resumen del grfico de dispersin entre dos variables. La recta de regresin es otra manera de resumir esta informacin, y su parmetro fundamental, la pendiente, est relacionado con el coeficiente

    de correlacin por la ecuacin: X

    Y

    s

    srb = . La diferencia entre regresin y correlacin es que

    en el clculo de la correlacin ambas variables se tratan simtricamente, mientras que en la regresin, no. En regresin se trata de prever la variable respuesta en funcin de los valores de la variable explicativa. En consecuencia, si cambiamos el papel de las variables cambiar tambin la ecuacin de regresin, porque la recta se adaptar a las unidades de la variable que se desea predecir (Pea, Romo, p.142).