Analisis Preliminar Datos

download Analisis Preliminar Datos

of 20

description

Analisis Preliminar Datos

Transcript of Analisis Preliminar Datos

  • EL ANLISIS PRELIMINAR

    DE LOS DATOS

    TEMA II

  • Modelos Multivariantes 2

    Captulo 2: Preparacin del Archivo de datos. En Rial, A. y Varela, J. (2008).

    Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.

    Pginas 17-28.

    Captulo 3: Anlisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).

    Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.

    Pginas 31-57.

    Captulo 4: Inferencia estadstica. Estimacin de parmetros y contrates de hiptesis.

    En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de

    la Salud. Corua: Netbiblo. Pginas 59-96.

    LECTURA OBLIGATORIA

  • Modelos Multivariantes 3

    Preparar el archivo de datos: depurar errores e incoherencias

    Resolver el problema de la falta de respuesta: tamao de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)

    Problema I: los datos no son buenos

    Tratar los casos anmalos: eleccin de los estadsticos adecuados

    Comprobacin de supuestos paramtricos: pruebas paramtricas vs. no paramtricas, eleccin de la tcnica multivariante concreta

    Problema II: las herramientas no son las adecuadas

    Resumir la informacin que contienen los datos, informar de las tendencias, realciones entre variables, etc.

    Razones por las que examinar los datos

  • Modelos Multivariantes 4

    Errores de grabacin e incoherencias

    La Depuracin de los Datos

    Valores fuera de rango (no admisibles):

    Tablas de Frecuencias para todas las variables

    Incoherencias entre respuestas (preguntas filtro):

    Tablas de Contingencia para pares de variables

    Cmo corregir los errores?

    Buscar los valores errneos en la matriz de datos (variable por variable) e ir subsanndolos

  • Modelos Multivariantes 5

    Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra matriz de datos. Seleccionamos una submuestra de cuestionarios y comprobamos cuntos errores hay.

    Seleccionar una submuestra aleatoria (entre el 10 y el 20%)

    Contar el nmero de datos errneos

    Hacer una Regla de Tres para estimar cuntos habr en toda la matriz

    Aplicar la frmula del PE [Errores / (casos x variables)] x 100

    El resultado debe ser inferior al 0.05%

    Muestreo de Errores

  • Modelos Multivariantes 6

    Los valores ausentes o casos

    MISSING RIESGOS:

    1. LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en principio era una muestra adecuada se convierte en inadecuada y no

    representativa)

    2. La reduccin excesiva del tamao de la muestra condiciona las estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las

    comparaciones (REDUCIENDO AL SIGNIFICACIN ESTADSTICA)

    3. LOS RECHAZOS. Son iguales los que responden a una encuesta que los que no responden?. Los missing siguen algn patrn?, de quin estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)

    LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES

    DE LA NO RESPUESTA

  • Modelos Multivariantes 7

    Varias estrategias: Comprobar si los distintos segmentos presentan un

    porcentaje similar de falta de repuesta (Sexo, Provincia,

    Grupos de Edad, ...) 2

    Estudiar posibles patrones

    Identificar variables relacionadas y comprobar que los

    que responden y los missing se comportan igual, que no

    existen diferencias estadsticamente significativas entre

    ambos grupos.

    Se distribuyen al azar?

  • Modelos Multivariantes 8

    Media de la serie

    Media de los puntos adyacentes

    Mediana de los puntos adyacentes

    Interpolacin lineal

    Tendencia lineal en el punto

    Media de Subclases (Kalton)

    Fichero Caliente (Hot Deck)

    Regresin lineal

    Esperanza Maximizacin (EM)

    Sustituirlos o imputarlos?

    SUSTITUCIN

    IMPUTACIN

  • Modelos Multivariantes 9

    Valores que caen fuera del rango normal de los datos

    CRITERIO: distancia respecto al cuerpo central de la distribucin

    (50% de los casos, los que estn entre el P75 y el P25)

    Cuntas veces el valor del IQR (Recorrido Intercuartlico)

    OUTLIERS.................... 1.5 IQR 3 IQR

    EXTREMOS...................... 3 IQR

    Los valores ANMALOS o atpicos

  • Modelos Multivariantes 10

    3 Ejemplos:

    A NIVEL UNIVARIADO: Gasto promedio fin de semana

    A NIVEL BIVARIADO: Contraste de hiptesis para dos

    medias. Ingresos deportistas profesionales

    A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el

    anlisis de regresin lineal

    Implicaciones de los casos anmalos

  • Modelos Multivariantes 11

    SOLUCIONES:

    Acudir a estadsticos distintos de los habituales y

    RESISTENTES (Mediana, Media reducida, M-estimadores: Andrews, Huber, Tukey, Hampel)

    Utilizar Contrastes no paramtricos: Mann-Withney, Prueba

    de la Mediana, Kruskal-Wallis

    Detectarlos, eliminarlos de la muestra y repetir el anlisis

    (deben ser pocos y poco influyentes), recurrir a un

    procedimiento de Remuestreo (Bootstrapping) o a

    procedimientos de estimacin robustos.

    Implicaciones de los casos anmalos

  • Modelos Multivariantes 12

    A nivel univariante: Numricamente (IQR)

    Grficos de Caja (BOXPLOT)

    Grficos de Tallo y Hojas

    A nivel bivariado: Grficos de Dispersin

    A nivel multivariado: Residuos (tipificados, studentizados, etc.)

    Distancia de Mahalanobis

    Distancia de Cook

    Cmo detectarlos?

  • Modelos Multivariantes 13

    20N =

    INGRESOS

    600000

    500000

    400000

    300000

    200000

    100000

    0

    9

    10

    El BOXPLOT

  • Modelos Multivariantes 14

    MUCHA INFORMACIN:

    Extremos y outliers

    Percentiles 75 y 25

    IQR

    Mediana

    Asimetra

    Comparar la distribucin de 2 o ms variables

    Comparar la distribucin de 2 o ms grupos en una misma variable

    BOXPLOT

  • Modelos Multivariantes 15

    2020N =

    GASTOSINGRESOS

    600000

    500000

    400000

    300000

    200000

    100000

    0

    -100000

    2

    19

    10

    9

    10

    Comparar la distribucin de dos o ms variables

  • Modelos Multivariantes 16

    1010N =

    SEXO

    MUJERHOMBRE

    ING

    RE

    SO

    S

    600000

    500000

    400000

    300000

    200000

    100000

    0

    10

    Comparar la distribucin de dos o ms grupos

  • Modelos Multivariantes 17

    Para elegir la prueba estadstica adecuada en cada caso

    Optar por Pruebas Paramtricas No Paramtricas

    Garantizar la Estabilidad del modelo

    Ejemplos: t de Student Mann-Withney

    Anova Kruskal-Wallis

    Discriminante o Regresin Logstica

    La comprobacin de supuestos

  • Modelos Multivariantes 18

    NORMALIDAD, que la VD se distribuya normalmente

    ALEATORIEDAD o Independencia de las medidas: que los sujetos hayan sido seleccionados al azar (ANOVA)

    HOMOCEDASTICIDAD u Homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar

    LINEALIDAD: Relacin lineal entre las variables analizadas

    OTROS: ausencia colinealidad, normalidad de los residuos

    Cules son esos SUPUESTOS?

  • Modelos Multivariantes 19

    NORMALIDAD: Prueba K-S con correccin de Lilliefors

    (muestras pequeas: Shapiro-Wilk)

    ALEATORIEDAD: Prueba de las Rachas

    HOMOCEDASTICIDAD: Prueba de Levene

    Se parte siempre de que se cumplen los supuestos salvo que las

    pruebas sean significativas (p< 0.05)

    LINEALIDAD: Grfico de dispersin y/o correlacin

    Cmo se comprueban?

  • Modelos Multivariantes 20

    2 ALTERNATIVAS:

    TRANSFORMAR LA VARIABLE

    Posibles transformaciones

    Asimetra Positiva FUERTE: -1/X3, -1/X

    SUAVE: log X X

    Asimetra Negativa FUERTE: antilog X

    SUAVE: X2 X3

    Recurrir a una prueba no paramtrica o a tcnicas multivariantes ms robustas

    Y... si no es NORMAL