maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...

58
CONCEPTOS ESTADISTICOS Dr. Fabio Massari

Transcript of maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...

  • CONCEPTOS ESTADISTICOS

    Dr. Fabio Massari

  • DATO ESTADISTICO/ VARIABLES

    � Variable: Caracteristica observable que varia entre los

    distintos individuos de una poblacion

    � La informacion de cada individuo es resumida en

    variables

    � El estado de una variable en una poblacion se llama � El estado de una variable en una poblacion se llama

    parametro.

    � Si solo se toma una parte de la poblacion, se la

    denomina muestra.

    � El dato estadistico es un valor particular de la variable

    � Describe solamente el parametro de esa muestra.

  • VARIABLES

    Variable independiente: factor , causa

    � Es aquella cuyo valor no depende de otra

    variable.

    � En una función se suele representar por x.

    Se representa en el eje de abscisas.� Se representa en el eje de abscisas.

    Variable dependiente: (efecto, resultado)

    � Es aquella cuyos valores dependen de los que

    tomen otra variable.

    � En una función se suele representar por y.

    � Se representa en el eje ordenadas.

    � La variable y está en función de la variable x.

  • VARIALBES/DATOS CUALITATIVOS O

    CATEGORICOS

    � Datos acerca de una cualidad. No numericos

    � Pueden ser:

    � Nominales:� Modalidades no númericas, en las que no existe un

    orden.orden.

    � Por ejemplo:: profesión, nacionalidad

    � Ordinales:� Modalidades no númericas, en las que existe un

    cierto orden.

    � Por ejemplo: medallas olimpicas

  • VARIABLES/DATOS CUANTITATIVOS

    Continuos:

    � Son datos numéricos

    � Incluyen números enteros y todos los valores posibles

    dentro de un intervalo, ya sean enteros o decimales

    Ejemplos: tensión arterial, temperatura � Ejemplos: tensión arterial, temperatura

    Discontinuos o discretos:

    � Tipos de datos numéricos que consisten en valores

    enteros, no incluyendo valores intermedios

    � Ejemplo: número de hijos, años cumplidos

  • DATOS ESTADISTICOS: DE

    CATEGORIZACION

    � El conteo de datos es por categorias:

    � ej 300 hombres, 900 mujeres

    � Utilizan:

    � Razon: 300/900= 1/3= 0.33

    � Proporcion: 300/1200 = ¼= 0.25

  • ESTADISTICA: DATOS NUMERICOS

    � Medidas de Posicion: Ubicacion del conjunto en la escala numerica

    � Medida de tendencia central: media o mediana

    � Medidas de posicion no central: decilos, cuartilos, etc

    � Medidas de Dispersion: indican la heterogeneidad de los datos, lo separados que estos están entre sí en la escala numerica. 2

    tipos:

    � Absolutas: vienen en las mismas unidades en las que se mide

    la variable. Ej:varianza, desvio estandar

    � Relativa: informan la dispersión en términos relativos, como

    un porcentaje. Ej: Coeficiente de variacion

    � Forma de distribucion de los datos

    � Simetria o asimetria

    � Descripcion algebraica (gaussiana)

  • MEDIDAS DE TENDENCIA CENTRAL

    Ej: grupo A= 1 2 3 3 6

    • 1+2+3+3+6= 15/5 = 3

    1 2 3 3 6 3= Media • 1 2 3 3 6 3= Media aritmetica

    • 1 2 3 3 6 3= Mediana

    • 1 2 3 3 6 3= Moda

  • FORMA DE DISTRIBUCION

  • CAMPANA DE GAUSS

    •La distribución de los datos es más o menos simétrica y unimodal•Entonces aproximadamente:

    •68% de los datos caerán dentro de ±1 desviacion •68% de los datos caerán dentro de ±1 desviacion

    estándar de la media,

    •95% dentro de ±2 desviaciones

    •99.7% dentro de ±3 desviaciones estándar de la media.

  • VARIABLES CONTINUAS

  • VARIABLES DISCRETAS

  • DESCRIPCION NUMERICA

    • A: 1 2 3 3 6

    – Media=3

    – Mediana= 3

    – Moda= 3

    • B: 3 3 3 3 3• B: 3 3 3 3 3

    – Media=3

    – Mediana= 3

    – Moda= 3

    – Dispersion?:

    – Dispersion: A: 6-1= 5 B: 3-3= 0

  • DESCRIPCION DE DATOS� Cuando queremos describir una variable usamos

    alguna medida de posición central y una medida de dispersión.

    � El par de medidas más comúnmente usado es la

    media aritmética y la desviación estándar.

    Cuando la distribución de las observaciones es � Cuando la distribución de las observaciones es

    sesgada, la media no es una buena medida de posición

    central y preferimos la mediana.

    � La mediana en general va acompañada del rangocomo medida de dispersión.

    � Cuando observamos valores extraños (extremos) el

    rango se ve muy afectado, por lo que preferimos usar el

    rango entre cuartiles (interquartiles).

  • MEDIDA DE DISPERSION

    �Rango o Recorrido� Valor maximo – valor minimo

    �Variancia o Varianza: media de los cuadrados de las desviaciones de cada valor con respecto a

    la mediala media

    �Desvio estandar:� Raiz cuadrada de la variancia

  • COEFICIENTE DE VARIACION

    � Relación entre el tamaño de la media y la variabilidad

    de la variable

    Su fórmula expresa al desvio estándar como porcentaje

    de la media aritmética (CV: DS/x)

    � Permite una mejor interpretación porcentual del grado � Permite una mejor interpretación porcentual del grado

    de variabilidad que el desvio estandar.

    � El coeficiente de variación no posee unidades y es

    típicamente menor que uno.

    � Para su mejor interpretación se expresa como

    porcentaje

  • UBICACION DE UN DATO

    • Conociendo los parametros anteriores

    • Definir ubicacion

    – Percentilo: define q porcentaje de datos tiene valores inferiores a el. Valor = unidad (son 99)

    – Cuartilo• Primero: percentilo 25

    • Segundo: percentilo 50 (mediana)

    • Tercero: percentilo 75

    – Intervalo o rango intercuartilo• Diferencia entre percentilo 75 % y el 25 %

    • 50 % central de los datos

  • BOX PLOT

  • OUTLIERS:

    � Valores extremos, atipicos o anómalos: son observaciones que se alejan del conjunto de datos.

    � Generan resultados inexactos en el analisis estadistico

    � Para determinar si un dato es outliers es:

    � Box Plot

    � Si un dato es < Q1 – 1.5(Q3-Q1)

    � Si un dato es > Q3 + 1.5(Q3-Q1)

    � Por lo general son atribuibles a:

    � La observación se registro incorrectamente.

    � La observación proviene de una población distinta.

    � La observación es correcta pero representa un suceso poco

    común (fortuito).

    � Son esperables en muestras grandes

  • OUTLIERS

  • OUTLIERS

  • � Pasemos a la muestra…

  • DATOS DE CATEGORIZACION

    � Poblacion : 4 sanos y 4 enfermos

    � Muestra: n=4

    � 0 enfermo (prev 0%)

    � 1 enfermo (prev 25%)� 1 enfermo (prev 25%)

    � 2 enf (prev 50%)

    � 3 enf (prev 75%)

    � 4 enf (prev 100%)

  • DATOS NUMERICOS

    unidad datos

    A 2

    B 5

    C 8

    Media aritmetica 5

    Poblacion

    Muestra n=2 Opciones

    A,B

    A,C

    B,A

    B,C

    C,A

    C,B

  • N=2 Dato 1 Dato 2 media

    A,B 2 5 3.5

    A,C 2 8 5.0

    B,A 5 3 3.5

    B,C 5 8 6.5

    C,A 8 2 5.0C,A 8 2 5.0

    C,B 8 5 6.5

    Media de las medias muestrales 5.0

    u= 5

  • ESTADISTICOS DE LA MUESTRA

    • La mjuestra tiene una medida de posicion central:

    • ɥ= media de medias

    • Y una medida de dispersion del estadistico:

    • El ERROR ESTANDAR: DS/RAIZ CUADRADA de n

    La mayoria de los datos (95%) tiene valores • La mayoria de los datos (95%) tiene valores

    aproximados entre 2 ES por arriba y por debajo del

    valor del parametro

    • Forma de la distribucion: Gaussiana

    • Aumenta al disminuir el tamano de la muestra o

    disminuye al aumentarlo

  • � Al seleccionar una muestra al azar:

    � Es poco probable (p < 0.05) que su media aritmetica

    este alejada mas de 2 ES de la media de la poblacion

    original

    � Por lo tanto se confia en que el estadistico no esta muy � Por lo tanto se confia en que el estadistico no esta muy

    lejos de su respectivo parametro

    � No esta alejado mas de una cantidad de ES pre

    establecidos por su confianza

    � Esa cantidad de ES= Margen de Error

    � Margen de error = 2(Error estándar) para 95% confianza

  • INTERVALO DE CONFIANZA: DEFINICIONES…

    � Los intervalos de confianza ofrecen una manera de estimar, con

    alta probabilidad, un rango de valores en el que se encuentra el

    valor poblacional (o parámetro) de una determinada variable.

    � Esta probabilidad ha sido fijada por consenso en un 95% en base a

    supuestos de normalidad

    � Es el limite a nuestra confianza q definimos para considerar que � Es el limite a nuestra confianza q definimos para considerar que

    dentro de el estara nuestro valor del parametro de la muestra

    � Es la estimacion del valor de un parametro de la poblacion (ej

    media artimetica) dentro de 2 limites (margen de error) a partir

    de datos obtenidos de una muestra y con una confianza

    determinada (generalmente 95%)

  • INTERVALO DE CONFIANZA

    � La mayoría de los ICs tiene la forma de:

    Estimación puntual ± Margen de error

    con el margen de error basado en la dispersión de

    la distribución muestral del estimador puntual;

    Ej., Margen de error = 2(error estándar) para 95% confianza

    � Con 95 % de confianza sus limites seran la suma

    y la resta de 2 ES a nuestro estadistico de la

    muestra

    � Limite inferior: valor del estadistico – margen de

    error

    � Limite superior: valor del estatidistico + margen de

    error

  • INTERVALO DE CONFIANZA:

    � También permiten hacer inferencia estadística al

    excluir un valor crítico que indique la falta de

    asociación del intervalo. (los hallazgos son

    estadísticamente significativos porque el

    intervalo “no pasa por el 1”)intervalo “no pasa por el 1”)

    � De ser un indicador tipo el riesgo relativo (RR) o

    el Odds Ratio (OR), un valor 1 indica que la

    frecuencia de un determinado evento fue

    igualmente presentado tanto en el grupo

    expuesto como en el que no

  • �Ejemplo :� Un estudio detectó que la fibrilación auricular en el

    postoperatorio se asociaba a mayor mortalidad entre pacientes operados con un RR de 3 (IC 95%: 2-4).

    � Esto significa que en la muestra, la presencia de la arritmia triplicó la probabilidad de morir en relación a

    INTERVALOS DE CONFIANZA

    arritmia triplicó la probabilidad de morir en relación a quienes no la tuvieron.

    � Si bien no podemos trabajar con la población, la estimación del intervalo indica que podemos estar 95% seguros que el valor poblacional del riesgo relativo estará entre 2 y 4.

    � Como el valor 1 está excluido del rango del intervalo, podemos decir que los hallazgos son estadísticamente significativos.

  • � La probabilidad que el verdadero valor del parametro

    se encuentre en el intervalo construido se denomina

    Nivel de confianza (o coeficiente de confianza)

    � Se estima como: 1- alfa

    � Alfa= La probabilidad de equivocarnos; se llama � Alfa= La probabilidad de equivocarnos; se llama Nivel de significancia

    � El valor de alfa mas usado (consenso) es: 5 %

    � El IC mas frecuente es (1-alfa)= 95 %

  • ESTADISTICA INFERENCIAL

    • Estimacion de Parametros

    – Calculo de Intervalos de Confianza

    • Prueba de Hipotesis (metodo hipotetico-

    deductivo)deductivo)

    – Interrogante

    – Hipotesis

    – Deduccion de hechos

    – Contrastacion empirica

  • HIPOTESIS

    • Nula: (Ho)1. La variable dependiente se presenta de igual manera en los

    distintos grupos.

    2. La variable dependiente no es funcion de la variable independiente

    3. No hay diferencias entre las variables estudiadas

    4. No hay relacion entre las variables estudiadas4. No hay relacion entre las variables estudiadas

    5. La diferencia entre los grupos es nula

    6. Los datos estadisticos son iguales en los distintos grupos

    • Reformulada: (H1)1. La variable dependiente se presenta de manera distinta en los

    distintos grupos

    2. Hay alguna relacion entre las variables

    3. Hay asociacion entre las variables

    4. Hay diferencias entre los grupos

  • PRUEBA DE HIPOTESIS

    • Si los datos en el experimento fueron iguales en los distintos grupos:

    – Lo observado fue igual a lo esperado x la hipotesis

    – No se rechaza la hipotesis nula

    • Si los datos del experimento fueron distintos en los distintos grupos:

    – Puede ser q los datos (muestras)obtenidos sean realmente

    diferentes….o…

    – Puede ser que haya habido un error de muestreo (error

    estandar)

  • PRUEBA DE HIPOTESIS (CONT)

    � Si el rechazo de la Ho se produjo por que los datos

    (muestras) obtenidas entre los grupos eran

    realmente diferentes:

    � Rechazo correcto

    Si el rechazo de la Ho se produjo por un error de � Si el rechazo de la Ho se produjo por un error de

    muestreo:

    � Error de tipo I: La probabilidad de cometerlo esalfa (P= alfa): se rechaza una hipotesis nula q escorrecta

    � Si no se rechazo la Ho y resulta q la misma era

    incorrecta:

    � Error de tipo II: su probabilidad se llama beta (P= beta)

  • PRUEBA DE HIPOTESIS

    � Usamos las tecnicas estadisticas para calcular si

    la probabilidad de obtener un resultado (dato

    estadistico) es o no menor a un resultado critico

    pre-establecido (< 0.05) si la Ho planteada es pre-establecido (< 0.05) si la Ho planteada es

    verdadera

    � Para establecer la probabilidad de cometer un

    error tipo I si rechazamos la Ho.

    � Para calcular el valor de alfa

  • VALOR DE P

    � Si el valor de P< 0.05 la Ho es rechazada y la diferencia es ESTADISTICAMENTE significativa

    Si el valor de P>= 0.05 la Ho no es rechazada y la � Si el valor de P>= 0.05 la Ho no es rechazada y la diferencia no es estadisticamente significativa

  • SIGNIFICANCIA:

    � Ahora bien, la diferencia observada da un valor

    de P < 0.05…

    O sea q hay una diferencia estadisticamente � O sea q hay una diferencia estadisticamente

    significativa por ej entre tratar y no tratar…

    � ….pero vale la pena hacerlo?

    � Relevancia clinica!

    � Tener en cuenta el margen de error…(y ver IC)

  • SIGNIFICANCIA CLINICA

    �Tener en cuenta q podemos estar aceptando la

    Ho y q esta fuera erronea!

    �En ese caso estariamos cometiendo un error (de

    Tipo II)

    �La probabilidad de cometer ese error se

    denomina: Beta

    �Si su valor es elevado, reevaluar la

    significancia clinica

    �Ausencia de evidencia de diferencia no significa

    q no haya diferencia!

  • ERROR TIPO II

    � Contrariamente al error tipo I, en la mayoría de los

    casos no es posible calcular la probabilidad del error

    tipo II.

    � Esto es por como se formulan las hipótesis en una

    prueba estadística. prueba estadística.

    � Mientras que la hipótesis nula representa siempre

    una afirmación definida (ejemplo Promedio µ = 0) la

    hipótesis aternativa, debido a que engloba todas las

    otras posibilidades, es generalmente de naturaleza

    global (ejemplo Promedio µ ≠ 0)

    � Se acepta en un estudio que el valor del error beta

    esté entre el 5 y el 20%.

  • CALCULAR EL PODER

    � El poder o potencia del estudio representa la probabilidad de observar en la muestra una

    determinada diferencia o efecto, si existe en la población.

    � Es el complementario del error de tipo II .

    � PODER: capacidad del experimento para no cometer un � PODER: capacidad del experimento para no cometer un error de Tipo II

    � PODER= 1 – Beta (100 = Beta si es en %)

    � Ej: Para encontrar una diferencia entre dos ttos, la

    misma tendria q ser al menos de 0.5

    � Para encontrar esa diferencia la probabilidad calculada

    (x software) es del 13 %

    � 100 -13= 87 %

  • PODER= TAMAÑO MUESTRAL

    �El poder esta definido por el tamaño de la muestra

    �Por eso antes de hacer un experimento debe

    calcularse cual es el tamaño de muestra adecuado como para q el poder del estudio sea al

    menos de un 80 %

    �Esto dependera de:

    � Probabilidad aceptada de error de Tipo I (alfa)

    � Dispersion esperada de los datos

    � Diferencia q se considera importante detectar

    � Poder deseado (1 – Beta)

  • PODER DE HIPOTESIS: CONCLUSION

    Calculo de alfa:

    �Si es bajo: Rechazar Hipotesis� Analizar relevancia� Analizar relevancia

    �Si es alto: No rechazar Hipotesis

    � Analizar poder (1 – Beta)

    � Si es bajo: tamaño muestral insuficiente

  • Analisis de resultados:

    �Pruebas Parametricas�Pruebas Parametricas

    �Pruebas No Parametricas

  • PRUEBAS PARAMETRICAS

    � Tienen > capacidad para detectar una relación verdadera entre 2

    variables, si es que la misma existe.

    � Para su aplicación se exigen q los datos cumplan requisitos:

    � Variable numérica: Que la variable de estudio (dependiente) esté medida

    numericamente

    � Normalidad: Que los valores de la variable dependiente sigan una � Normalidad: Que los valores de la variable dependiente sigan una distribución normal; por lo menos, en la población a la que pertenece la muestra. Prueba estadística: Kolmogorov Smirnov

    � Muestras no muy pequenas.

    � Homocedasticidad: Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (homogeneidad de las varianzas).Prueba estadística: Test de Levene.

    � Si los datos cumplen con los requisitos, las pruebas paramétricas

    exhiben su máximo poder.

  • 48PRUEBA T� Compara las medias de una variable continua en

    muestras para determinar si o no la diferencia entre las dos medias esperadas excede la diferencia que debería ser esperada por azar

    Dr.H.Qotb

    a

    ¿Qué probabilidad de que las medias difieran?

  • 49

    TIPOS DE PRUEBAS T

    � Prueba t para una muestra: prueba si la media de la muestra de una variable difiere significativamente de la media conocida de la población

    � Prueba t no pareada o independiente: prueba si las medias estimadas de la población por 2 muestras

    Dr.H.Qotb

    a

    medias estimadas de la población por 2 muestras independientes difieren significativamente (grupo de hombres y grupo de mujeres)

    � Prueba t pareada: prueba si la media estimada de la población por muestras dependientes difieren significativamente (media de pre y post-tratamiento para el mismo grupo de pacientes.

  • PRUEBAS NO PARAMETRICAS� No hacen a los datos ninguna de las exigencias ni supuestos que les

    hacen las pruebas estadísticas paramétricas; por eso se les denomina

    "pruebas estadísticas libres de distribución".

    � No se presupone que los datos sigan una distribución determinada.

    � Se usan con muestras pequeñas (n < 10) en las que se desconoce la

    distribución que siguen los datos

    � Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables� Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables

    no numéricas).

    � Son convenientes cuando no se conoce la distribución de la población.

    � Utilizan menor información de la variable.

    � Son menos potentes que los resultados obtenidos en los métodos

    paramétricos.

  • 51

    PRUEBA CHI²

    � Usada para probar la fuerza de asociación entre dos variables cualitativas

    � Usada para datos categóricos

    Dr.H.Qotb

    a

    � Usada para datos categóricos

  • 52

    CORRELACIÓN Y REGRESIÓN

    � Métodos para estudiar magnitud de la asociación y la relación funcional entre dos o más variables.

    Dr.H.Qotb

    a

  • 53

    CORRELACIÓN

    �Denota fuerza de relación entre variables

    Dr.H.Qotb

    a

  • 54

    REGRESIÓN

    �Método que indica una relación matemática entre una variable dependiente y una o más variables independientes

    �Regresión lineal simple y regresión múltiple

    Dr.H.Qotb

    a

    �Regresión lineal simple y regresión múltiple son apropiadas para variables como tensión arterial, peso.

    �Regresión logística es aplicable para respuestas binarias como vivo/muerto

  • 55

    ANOVA

    � Es usada para descubrir el efecto principal y los efectos de interacción de variables categóricas independientes (llamados factores) sobre un interva lo

    Dr.H.Qotb

    a

    independientes (llamados factores) sobre un interva lo de la variable dependiente

  • Eligiendo el Test estadísticoEligiendo el Test estadístico

    •Test de Kolmogorov-Smirnov para probar si datos siguen una distribución (NP)•Test de SW para probar si datos siguen una distribución normal (NP)•Test “t” de comparación de la media de los datos con una media teórica (P)

    ¿Qué tests se pueden hacer con 1 muestra?:

    Variables de tipo cuantitativo

    •Test “t” de comparación de 2 medias con datos independientes (P)•Test “t” de comparación de 2 medias con datos apareados (P)•Test “U” de Mann-Whitney comparación 2 grupos datos independientes (NP)•Test de rangos con signos de Wilconxon 2 grupos apareados (NP)•Test F o Test de Levene de comparación de 2 varianzas (P)

    ¿Qué tests se pueden hacer con 2 muestras?:

  • PARA ELEGIR EL TEST ESTADISTICO….

    � Variables: Ordinales, numericas, nominales,

    binarias?

    � Numero de grupos: 1 o mas

    � Si son + de 2 grupos: son independientes?� Si son + de 2 grupos: son independientes?

    � Numero de observaciones: < o > 30

    � Distribucion de la muestra: Normal o No Normal

    � Varianzas: iguales o no?

    � Poder estadistico necesario: Probabilidad de rechazar la hipotesis nula cuando es falsa y debe

    ser rechazada: es mayor con las

    parametricas!!

  • MUCHAS GRACIASMUCHAS GRACIAS

    Dr. Fabio Massari