maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...

CONCEPTOS ESTADISTICOS

Dr. Fabio Massari

DATO ESTADISTICO/ VARIABLES

� Variable: Caracteristica observable que varia entre los

distintos individuos de una poblacion

� La informacion de cada individuo es resumida en

variables

� El estado de una variable en una poblacion se llama � El estado de una variable en una poblacion se llama

parametro.

� Si solo se toma una parte de la poblacion, se la

denomina muestra.

� El dato estadistico es un valor particular de la variable

� Describe solamente el parametro de esa muestra.

VARIABLES

Variable independiente: factor , causa

� Es aquella cuyo valor no depende de otra

variable.

� En una función se suele representar por x.

Se representa en el eje de abscisas.� Se representa en el eje de abscisas.

Variable dependiente: (efecto, resultado)

� Es aquella cuyos valores dependen de los que

tomen otra variable.

� En una función se suele representar por y.

� Se representa en el eje ordenadas.

� La variable y está en función de la variable x.

VARIALBES/DATOS CUALITATIVOS O

CATEGORICOS

� Datos acerca de una cualidad. No numericos

� Pueden ser:

� Nominales:� Modalidades no númericas, en las que no existe un

orden.orden.

� Por ejemplo:: profesión, nacionalidad

� Ordinales:� Modalidades no númericas, en las que existe un

cierto orden.

� Por ejemplo: medallas olimpicas

VARIABLES/DATOS CUANTITATIVOS

Continuos:

� Son datos numéricos

� Incluyen números enteros y todos los valores posibles

dentro de un intervalo, ya sean enteros o decimales

Ejemplos: tensión arterial, temperatura � Ejemplos: tensión arterial, temperatura

Discontinuos o discretos:

� Tipos de datos numéricos que consisten en valores

enteros, no incluyendo valores intermedios

� Ejemplo: número de hijos, años cumplidos

�

DATOS ESTADISTICOS: DE

CATEGORIZACION

� El conteo de datos es por categorias:

� ej 300 hombres, 900 mujeres

� Utilizan:

� Razon: 300/900= 1/3= 0.33

� Proporcion: 300/1200 = ¼= 0.25

ESTADISTICA: DATOS NUMERICOS

� Medidas de Posicion: Ubicacion del conjunto en la escala numerica

� Medida de tendencia central: media o mediana

� Medidas de posicion no central: decilos, cuartilos, etc

� Medidas de Dispersion: indican la heterogeneidad de los datos, lo separados que estos están entre sí en la escala numerica. 2

tipos:

� Absolutas: vienen en las mismas unidades en las que se mide

la variable. Ej:varianza, desvio estandar

� Relativa: informan la dispersión en términos relativos, como

un porcentaje. Ej: Coeficiente de variacion

� Forma de distribucion de los datos

� Simetria o asimetria

� Descripcion algebraica (gaussiana)

MEDIDAS DE TENDENCIA CENTRAL

Ej: grupo A= 1 2 3 3 6

• 1+2+3+3+6= 15/5 = 3

1 2 3 3 6 3= Media • 1 2 3 3 6 3= Media aritmetica

• 1 2 3 3 6 3= Mediana

• 1 2 3 3 6 3= Moda

FORMA DE DISTRIBUCION

CAMPANA DE GAUSS

•La distribución de los datos es más o menos simétrica y unimodal•Entonces aproximadamente:

•68% de los datos caerán dentro de ±1 desviacion •68% de los datos caerán dentro de ±1 desviacion

estándar de la media,

•95% dentro de ±2 desviaciones

•99.7% dentro de ±3 desviaciones estándar de la media.

VARIABLES CONTINUAS

VARIABLES DISCRETAS

DESCRIPCION NUMERICA

• A: 1 2 3 3 6

– Media=3

– Mediana= 3

– Moda= 3

• B: 3 3 3 3 3• B: 3 3 3 3 3

– Media=3

– Mediana= 3

– Moda= 3

– Dispersion?:

– Dispersion: A: 6-1= 5 B: 3-3= 0

DESCRIPCION DE DATOS� Cuando queremos describir una variable usamos

alguna medida de posición central y una medida de dispersión.

� El par de medidas más comúnmente usado es la

media aritmética y la desviación estándar.

Cuando la distribución de las observaciones es � Cuando la distribución de las observaciones es

sesgada, la media no es una buena medida de posición

central y preferimos la mediana.

� La mediana en general va acompañada del rangocomo medida de dispersión.

� Cuando observamos valores extraños (extremos) el

rango se ve muy afectado, por lo que preferimos usar el

rango entre cuartiles (interquartiles).

MEDIDA DE DISPERSION

�Rango o Recorrido� Valor maximo – valor minimo

�Variancia o Varianza: media de los cuadrados de las desviaciones de cada valor con respecto a

la mediala media

�Desvio estandar:� Raiz cuadrada de la variancia

COEFICIENTE DE VARIACION

� Relación entre el tamaño de la media y la variabilidad

de la variable

Su fórmula expresa al desvio estándar como porcentaje

de la media aritmética (CV: DS/x)

� Permite una mejor interpretación porcentual del grado � Permite una mejor interpretación porcentual del grado

de variabilidad que el desvio estandar.

� El coeficiente de variación no posee unidades y es

típicamente menor que uno.

� Para su mejor interpretación se expresa como

porcentaje

UBICACION DE UN DATO

• Conociendo los parametros anteriores

• Definir ubicacion

– Percentilo: define q porcentaje de datos tiene valores inferiores a el. Valor = unidad (son 99)

– Cuartilo• Primero: percentilo 25

• Segundo: percentilo 50 (mediana)

• Tercero: percentilo 75

– Intervalo o rango intercuartilo• Diferencia entre percentilo 75 % y el 25 %

• 50 % central de los datos

BOX PLOT

OUTLIERS:

� Valores extremos, atipicos o anómalos: son observaciones que se alejan del conjunto de datos.

� Generan resultados inexactos en el analisis estadistico

� Para determinar si un dato es outliers es:

� Box Plot

� Si un dato es < Q1 – 1.5(Q3-Q1)

� Si un dato es > Q3 + 1.5(Q3-Q1)

� Por lo general son atribuibles a:

� La observación se registro incorrectamente.

� La observación proviene de una población distinta.

� La observación es correcta pero representa un suceso poco

común (fortuito).

� Son esperables en muestras grandes

OUTLIERS

� Pasemos a la muestra…

DATOS DE CATEGORIZACION

� Poblacion : 4 sanos y 4 enfermos

� Muestra: n=4

� 0 enfermo (prev 0%)

� 1 enfermo (prev 25%)� 1 enfermo (prev 25%)

� 2 enf (prev 50%)

� 3 enf (prev 75%)

� 4 enf (prev 100%)

DATOS NUMERICOS

unidad datos

A 2

B 5

C 8

Media aritmetica 5

Poblacion

Muestra n=2 Opciones

A,B

A,C

B,A

B,C

C,A

C,B

N=2 Dato 1 Dato 2 media

A,B 2 5 3.5

A,C 2 8 5.0

B,A 5 3 3.5

B,C 5 8 6.5

C,A 8 2 5.0C,A 8 2 5.0

C,B 8 5 6.5

Media de las medias muestrales 5.0

u= 5

ESTADISTICOS DE LA MUESTRA

• La mjuestra tiene una medida de posicion central:

• ɥ= media de medias

• Y una medida de dispersion del estadistico:

• El ERROR ESTANDAR: DS/RAIZ CUADRADA de n

La mayoria de los datos (95%) tiene valores • La mayoria de los datos (95%) tiene valores

aproximados entre 2 ES por arriba y por debajo del

valor del parametro

• Forma de la distribucion: Gaussiana

• Aumenta al disminuir el tamano de la muestra o

disminuye al aumentarlo

� Al seleccionar una muestra al azar:

� Es poco probable (p < 0.05) que su media aritmetica

este alejada mas de 2 ES de la media de la poblacion

original

� Por lo tanto se confia en que el estadistico no esta muy � Por lo tanto se confia en que el estadistico no esta muy

lejos de su respectivo parametro

� No esta alejado mas de una cantidad de ES pre

establecidos por su confianza

� Esa cantidad de ES= Margen de Error

� Margen de error = 2(Error estándar) para 95% confianza

INTERVALO DE CONFIANZA: DEFINICIONES…

� Los intervalos de confianza ofrecen una manera de estimar, con

alta probabilidad, un rango de valores en el que se encuentra el

valor poblacional (o parámetro) de una determinada variable.

� Esta probabilidad ha sido fijada por consenso en un 95% en base a

supuestos de normalidad

� Es el limite a nuestra confianza q definimos para considerar que � Es el limite a nuestra confianza q definimos para considerar que

dentro de el estara nuestro valor del parametro de la muestra

� Es la estimacion del valor de un parametro de la poblacion (ej

media artimetica) dentro de 2 limites (margen de error) a partir

de datos obtenidos de una muestra y con una confianza

determinada (generalmente 95%)

INTERVALO DE CONFIANZA

� La mayoría de los ICs tiene la forma de:

Estimación puntual ± Margen de error

con el margen de error basado en la dispersión de

la distribución muestral del estimador puntual;

Ej., Margen de error = 2(error estándar) para 95% confianza

� Con 95 % de confianza sus limites seran la suma

y la resta de 2 ES a nuestro estadistico de la

muestra

� Limite inferior: valor del estadistico – margen de

error

� Limite superior: valor del estatidistico + margen de

error

INTERVALO DE CONFIANZA:

� También permiten hacer inferencia estadística al

excluir un valor crítico que indique la falta de

asociación del intervalo. (los hallazgos son

estadísticamente significativos porque el

intervalo “no pasa por el 1”)intervalo “no pasa por el 1”)

� De ser un indicador tipo el riesgo relativo (RR) o

el Odds Ratio (OR), un valor 1 indica que la

frecuencia de un determinado evento fue

igualmente presentado tanto en el grupo

expuesto como en el que no

�Ejemplo :� Un estudio detectó que la fibrilación auricular en el

postoperatorio se asociaba a mayor mortalidad entre pacientes operados con un RR de 3 (IC 95%: 2-4).

� Esto significa que en la muestra, la presencia de la arritmia triplicó la probabilidad de morir en relación a

INTERVALOS DE CONFIANZA

arritmia triplicó la probabilidad de morir en relación a quienes no la tuvieron.

� Si bien no podemos trabajar con la población, la estimación del intervalo indica que podemos estar 95% seguros que el valor poblacional del riesgo relativo estará entre 2 y 4.

� Como el valor 1 está excluido del rango del intervalo, podemos decir que los hallazgos son estadísticamente significativos.

� La probabilidad que el verdadero valor del parametro

se encuentre en el intervalo construido se denomina

Nivel de confianza (o coeficiente de confianza)

� Se estima como: 1- alfa

� Alfa= La probabilidad de equivocarnos; se llama � Alfa= La probabilidad de equivocarnos; se llama Nivel de significancia

� El valor de alfa mas usado (consenso) es: 5 %

� El IC mas frecuente es (1-alfa)= 95 %

ESTADISTICA INFERENCIAL

• Estimacion de Parametros

– Calculo de Intervalos de Confianza

• Prueba de Hipotesis (metodo hipotetico-

deductivo)deductivo)

– Interrogante

– Hipotesis

– Deduccion de hechos

– Contrastacion empirica

HIPOTESIS

• Nula: (Ho)1. La variable dependiente se presenta de igual manera en los

distintos grupos.

2. La variable dependiente no es funcion de la variable independiente

3. No hay diferencias entre las variables estudiadas

4. No hay relacion entre las variables estudiadas4. No hay relacion entre las variables estudiadas

5. La diferencia entre los grupos es nula

6. Los datos estadisticos son iguales en los distintos grupos

• Reformulada: (H1)1. La variable dependiente se presenta de manera distinta en los

distintos grupos

2. Hay alguna relacion entre las variables

3. Hay asociacion entre las variables

4. Hay diferencias entre los grupos

PRUEBA DE HIPOTESIS

• Si los datos en el experimento fueron iguales en los distintos grupos:

– Lo observado fue igual a lo esperado x la hipotesis

– No se rechaza la hipotesis nula

• Si los datos del experimento fueron distintos en los distintos grupos:

– Puede ser q los datos (muestras)obtenidos sean realmente

diferentes….o…

– Puede ser que haya habido un error de muestreo (error

estandar)

PRUEBA DE HIPOTESIS (CONT)

� Si el rechazo de la Ho se produjo por que los datos

(muestras) obtenidas entre los grupos eran

realmente diferentes:

� Rechazo correcto

Si el rechazo de la Ho se produjo por un error de � Si el rechazo de la Ho se produjo por un error de

muestreo:

� Error de tipo I: La probabilidad de cometerlo esalfa (P= alfa): se rechaza una hipotesis nula q escorrecta

� Si no se rechazo la Ho y resulta q la misma era

incorrecta:

� Error de tipo II: su probabilidad se llama beta (P= beta)

PRUEBA DE HIPOTESIS

� Usamos las tecnicas estadisticas para calcular si

la probabilidad de obtener un resultado (dato

estadistico) es o no menor a un resultado critico

pre-establecido (< 0.05) si la Ho planteada es pre-establecido (< 0.05) si la Ho planteada es

verdadera

� Para establecer la probabilidad de cometer un

error tipo I si rechazamos la Ho.

� Para calcular el valor de alfa

VALOR DE P

� Si el valor de P< 0.05 la Ho es rechazada y la diferencia es ESTADISTICAMENTE significativa

Si el valor de P>= 0.05 la Ho no es rechazada y la � Si el valor de P>= 0.05 la Ho no es rechazada y la diferencia no es estadisticamente significativa

SIGNIFICANCIA:

� Ahora bien, la diferencia observada da un valor

de P < 0.05…

O sea q hay una diferencia estadisticamente � O sea q hay una diferencia estadisticamente

significativa por ej entre tratar y no tratar…

� ….pero vale la pena hacerlo?

� Relevancia clinica!

� Tener en cuenta el margen de error…(y ver IC)

SIGNIFICANCIA CLINICA

�Tener en cuenta q podemos estar aceptando la

Ho y q esta fuera erronea!

�En ese caso estariamos cometiendo un error (de

Tipo II)

�La probabilidad de cometer ese error se

denomina: Beta

�Si su valor es elevado, reevaluar la

significancia clinica

�Ausencia de evidencia de diferencia no significa

q no haya diferencia!

ERROR TIPO II

� Contrariamente al error tipo I, en la mayoría de los

casos no es posible calcular la probabilidad del error

tipo II.

� Esto es por como se formulan las hipótesis en una

prueba estadística. prueba estadística.

� Mientras que la hipótesis nula representa siempre

una afirmación definida (ejemplo Promedio µ = 0) la

hipótesis aternativa, debido a que engloba todas las

otras posibilidades, es generalmente de naturaleza

global (ejemplo Promedio µ ≠ 0)

� Se acepta en un estudio que el valor del error beta

esté entre el 5 y el 20%.

CALCULAR EL PODER

� El poder o potencia del estudio representa la probabilidad de observar en la muestra una

determinada diferencia o efecto, si existe en la población.

� Es el complementario del error de tipo II .

� PODER: capacidad del experimento para no cometer un � PODER: capacidad del experimento para no cometer un error de Tipo II

� PODER= 1 – Beta (100 = Beta si es en %)

� Ej: Para encontrar una diferencia entre dos ttos, la

misma tendria q ser al menos de 0.5

� Para encontrar esa diferencia la probabilidad calculada

(x software) es del 13 %

� 100 -13= 87 %

PODER= TAMAÑO MUESTRAL

�El poder esta definido por el tamaño de la muestra

�Por eso antes de hacer un experimento debe

calcularse cual es el tamaño de muestra adecuado como para q el poder del estudio sea al

menos de un 80 %

�Esto dependera de:

� Probabilidad aceptada de error de Tipo I (alfa)

� Dispersion esperada de los datos

� Diferencia q se considera importante detectar

� Poder deseado (1 – Beta)

PODER DE HIPOTESIS: CONCLUSION

Calculo de alfa:

�Si es bajo: Rechazar Hipotesis� Analizar relevancia� Analizar relevancia

�Si es alto: No rechazar Hipotesis

� Analizar poder (1 – Beta)

� Si es bajo: tamaño muestral insuficiente

Analisis de resultados:

�Pruebas Parametricas�Pruebas Parametricas

�Pruebas No Parametricas

PRUEBAS PARAMETRICAS

� Tienen > capacidad para detectar una relación verdadera entre 2

variables, si es que la misma existe.

� Para su aplicación se exigen q los datos cumplan requisitos:

� Variable numérica: Que la variable de estudio (dependiente) esté medida

numericamente

� Normalidad: Que los valores de la variable dependiente sigan una � Normalidad: Que los valores de la variable dependiente sigan una distribución normal; por lo menos, en la población a la que pertenece la muestra. Prueba estadística: Kolmogorov Smirnov

� Muestras no muy pequenas.

� Homocedasticidad: Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (homogeneidad de las varianzas).Prueba estadística: Test de Levene.

� Si los datos cumplen con los requisitos, las pruebas paramétricas

exhiben su máximo poder.

48PRUEBA T� Compara las medias de una variable continua en

muestras para determinar si o no la diferencia entre las dos medias esperadas excede la diferencia que debería ser esperada por azar

Dr.H.Qotb

a

¿Qué probabilidad de que las medias difieran?

49

TIPOS DE PRUEBAS T

� Prueba t para una muestra: prueba si la media de la muestra de una variable difiere significativamente de la media conocida de la población

� Prueba t no pareada o independiente: prueba si las medias estimadas de la población por 2 muestras

Dr.H.Qotb

a

medias estimadas de la población por 2 muestras independientes difieren significativamente (grupo de hombres y grupo de mujeres)

� Prueba t pareada: prueba si la media estimada de la población por muestras dependientes difieren significativamente (media de pre y post-tratamiento para el mismo grupo de pacientes.

PRUEBAS NO PARAMETRICAS� No hacen a los datos ninguna de las exigencias ni supuestos que les

hacen las pruebas estadísticas paramétricas; por eso se les denomina

"pruebas estadísticas libres de distribución".

� No se presupone que los datos sigan una distribución determinada.

� Se usan con muestras pequeñas (n < 10) en las que se desconoce la

distribución que siguen los datos

� Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables� Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables

no numéricas).

� Son convenientes cuando no se conoce la distribución de la población.

� Utilizan menor información de la variable.

� Son menos potentes que los resultados obtenidos en los métodos

paramétricos.

51

PRUEBA CHI²

� Usada para probar la fuerza de asociación entre dos variables cualitativas

� Usada para datos categóricos

Dr.H.Qotb

a

� Usada para datos categóricos

52

CORRELACIÓN Y REGRESIÓN

� Métodos para estudiar magnitud de la asociación y la relación funcional entre dos o más variables.

Dr.H.Qotb

a

53

CORRELACIÓN

�Denota fuerza de relación entre variables

Dr.H.Qotb

a

54

REGRESIÓN

�Método que indica una relación matemática entre una variable dependiente y una o más variables independientes

�Regresión lineal simple y regresión múltiple

Dr.H.Qotb

a

�Regresión lineal simple y regresión múltiple son apropiadas para variables como tensión arterial, peso.

�Regresión logística es aplicable para respuestas binarias como vivo/muerto

55

ANOVA

� Es usada para descubrir el efecto principal y los efectos de interacción de variables categóricas independientes (llamados factores) sobre un interva lo

Dr.H.Qotb

a

independientes (llamados factores) sobre un interva lo de la variable dependiente

Eligiendo el Test estadísticoEligiendo el Test estadístico

•Test de Kolmogorov-Smirnov para probar si datos siguen una distribución (NP)•Test de SW para probar si datos siguen una distribución normal (NP)•Test “t” de comparación de la media de los datos con una media teórica (P)

¿Qué tests se pueden hacer con 1 muestra?:

Variables de tipo cuantitativo

•Test “t” de comparación de 2 medias con datos independientes (P)•Test “t” de comparación de 2 medias con datos apareados (P)•Test “U” de Mann-Whitney comparación 2 grupos datos independientes (NP)•Test de rangos con signos de Wilconxon 2 grupos apareados (NP)•Test F o Test de Levene de comparación de 2 varianzas (P)

¿Qué tests se pueden hacer con 2 muestras?:

PARA ELEGIR EL TEST ESTADISTICO….

� Variables: Ordinales, numericas, nominales,

binarias?

� Numero de grupos: 1 o mas

� Si son + de 2 grupos: son independientes?� Si son + de 2 grupos: son independientes?

� Numero de observaciones: < o > 30

� Distribucion de la muestra: Normal o No Normal

� Varianzas: iguales o no?

� Poder estadistico necesario: Probabilidad de rechazar la hipotesis nula cuando es falsa y debe

ser rechazada: es mayor con las

parametricas!!

MUCHAS GRACIASMUCHAS GRACIAS

Dr. Fabio Massari

maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...

Documents

Transcript of maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...