maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...
Transcript of maestria015EstadisticaALUMNOS [Modo de compatibilidad] · 2015. 11. 13. · • Conociendo los...
-
CONCEPTOS ESTADISTICOS
Dr. Fabio Massari
-
DATO ESTADISTICO/ VARIABLES
� Variable: Caracteristica observable que varia entre los
distintos individuos de una poblacion
� La informacion de cada individuo es resumida en
variables
� El estado de una variable en una poblacion se llama � El estado de una variable en una poblacion se llama
parametro.
� Si solo se toma una parte de la poblacion, se la
denomina muestra.
� El dato estadistico es un valor particular de la variable
� Describe solamente el parametro de esa muestra.
-
VARIABLES
Variable independiente: factor , causa
� Es aquella cuyo valor no depende de otra
variable.
� En una función se suele representar por x.
Se representa en el eje de abscisas.� Se representa en el eje de abscisas.
Variable dependiente: (efecto, resultado)
� Es aquella cuyos valores dependen de los que
tomen otra variable.
� En una función se suele representar por y.
� Se representa en el eje ordenadas.
� La variable y está en función de la variable x.
-
VARIALBES/DATOS CUALITATIVOS O
CATEGORICOS
� Datos acerca de una cualidad. No numericos
� Pueden ser:
� Nominales:� Modalidades no númericas, en las que no existe un
orden.orden.
� Por ejemplo:: profesión, nacionalidad
� Ordinales:� Modalidades no númericas, en las que existe un
cierto orden.
� Por ejemplo: medallas olimpicas
-
VARIABLES/DATOS CUANTITATIVOS
Continuos:
� Son datos numéricos
� Incluyen números enteros y todos los valores posibles
dentro de un intervalo, ya sean enteros o decimales
Ejemplos: tensión arterial, temperatura � Ejemplos: tensión arterial, temperatura
Discontinuos o discretos:
� Tipos de datos numéricos que consisten en valores
enteros, no incluyendo valores intermedios
� Ejemplo: número de hijos, años cumplidos
�
-
DATOS ESTADISTICOS: DE
CATEGORIZACION
� El conteo de datos es por categorias:
� ej 300 hombres, 900 mujeres
� Utilizan:
� Razon: 300/900= 1/3= 0.33
� Proporcion: 300/1200 = ¼= 0.25
-
ESTADISTICA: DATOS NUMERICOS
� Medidas de Posicion: Ubicacion del conjunto en la escala numerica
� Medida de tendencia central: media o mediana
� Medidas de posicion no central: decilos, cuartilos, etc
� Medidas de Dispersion: indican la heterogeneidad de los datos, lo separados que estos están entre sí en la escala numerica. 2
tipos:
� Absolutas: vienen en las mismas unidades en las que se mide
la variable. Ej:varianza, desvio estandar
� Relativa: informan la dispersión en términos relativos, como
un porcentaje. Ej: Coeficiente de variacion
� Forma de distribucion de los datos
� Simetria o asimetria
� Descripcion algebraica (gaussiana)
-
MEDIDAS DE TENDENCIA CENTRAL
Ej: grupo A= 1 2 3 3 6
• 1+2+3+3+6= 15/5 = 3
1 2 3 3 6 3= Media • 1 2 3 3 6 3= Media aritmetica
• 1 2 3 3 6 3= Mediana
• 1 2 3 3 6 3= Moda
-
FORMA DE DISTRIBUCION
-
CAMPANA DE GAUSS
•La distribución de los datos es más o menos simétrica y unimodal•Entonces aproximadamente:
•68% de los datos caerán dentro de ±1 desviacion •68% de los datos caerán dentro de ±1 desviacion
estándar de la media,
•95% dentro de ±2 desviaciones
•99.7% dentro de ±3 desviaciones estándar de la media.
-
VARIABLES CONTINUAS
-
VARIABLES DISCRETAS
-
DESCRIPCION NUMERICA
• A: 1 2 3 3 6
– Media=3
– Mediana= 3
– Moda= 3
• B: 3 3 3 3 3• B: 3 3 3 3 3
– Media=3
– Mediana= 3
– Moda= 3
– Dispersion?:
– Dispersion: A: 6-1= 5 B: 3-3= 0
-
DESCRIPCION DE DATOS� Cuando queremos describir una variable usamos
alguna medida de posición central y una medida de dispersión.
� El par de medidas más comúnmente usado es la
media aritmética y la desviación estándar.
Cuando la distribución de las observaciones es � Cuando la distribución de las observaciones es
sesgada, la media no es una buena medida de posición
central y preferimos la mediana.
� La mediana en general va acompañada del rangocomo medida de dispersión.
� Cuando observamos valores extraños (extremos) el
rango se ve muy afectado, por lo que preferimos usar el
rango entre cuartiles (interquartiles).
-
MEDIDA DE DISPERSION
�Rango o Recorrido� Valor maximo – valor minimo
�Variancia o Varianza: media de los cuadrados de las desviaciones de cada valor con respecto a
la mediala media
�Desvio estandar:� Raiz cuadrada de la variancia
-
COEFICIENTE DE VARIACION
� Relación entre el tamaño de la media y la variabilidad
de la variable
Su fórmula expresa al desvio estándar como porcentaje
de la media aritmética (CV: DS/x)
� Permite una mejor interpretación porcentual del grado � Permite una mejor interpretación porcentual del grado
de variabilidad que el desvio estandar.
� El coeficiente de variación no posee unidades y es
típicamente menor que uno.
� Para su mejor interpretación se expresa como
porcentaje
-
UBICACION DE UN DATO
• Conociendo los parametros anteriores
• Definir ubicacion
– Percentilo: define q porcentaje de datos tiene valores inferiores a el. Valor = unidad (son 99)
– Cuartilo• Primero: percentilo 25
• Segundo: percentilo 50 (mediana)
• Tercero: percentilo 75
– Intervalo o rango intercuartilo• Diferencia entre percentilo 75 % y el 25 %
• 50 % central de los datos
-
BOX PLOT
-
OUTLIERS:
� Valores extremos, atipicos o anómalos: son observaciones que se alejan del conjunto de datos.
� Generan resultados inexactos en el analisis estadistico
� Para determinar si un dato es outliers es:
� Box Plot
� Si un dato es < Q1 – 1.5(Q3-Q1)
� Si un dato es > Q3 + 1.5(Q3-Q1)
� Por lo general son atribuibles a:
� La observación se registro incorrectamente.
� La observación proviene de una población distinta.
� La observación es correcta pero representa un suceso poco
común (fortuito).
� Son esperables en muestras grandes
-
OUTLIERS
-
OUTLIERS
-
� Pasemos a la muestra…
-
DATOS DE CATEGORIZACION
� Poblacion : 4 sanos y 4 enfermos
� Muestra: n=4
� 0 enfermo (prev 0%)
� 1 enfermo (prev 25%)� 1 enfermo (prev 25%)
� 2 enf (prev 50%)
� 3 enf (prev 75%)
� 4 enf (prev 100%)
-
DATOS NUMERICOS
unidad datos
A 2
B 5
C 8
Media aritmetica 5
Poblacion
Muestra n=2 Opciones
A,B
A,C
B,A
B,C
C,A
C,B
-
N=2 Dato 1 Dato 2 media
A,B 2 5 3.5
A,C 2 8 5.0
B,A 5 3 3.5
B,C 5 8 6.5
C,A 8 2 5.0C,A 8 2 5.0
C,B 8 5 6.5
Media de las medias muestrales 5.0
u= 5
-
ESTADISTICOS DE LA MUESTRA
• La mjuestra tiene una medida de posicion central:
• ɥ= media de medias
• Y una medida de dispersion del estadistico:
• El ERROR ESTANDAR: DS/RAIZ CUADRADA de n
La mayoria de los datos (95%) tiene valores • La mayoria de los datos (95%) tiene valores
aproximados entre 2 ES por arriba y por debajo del
valor del parametro
• Forma de la distribucion: Gaussiana
• Aumenta al disminuir el tamano de la muestra o
disminuye al aumentarlo
-
� Al seleccionar una muestra al azar:
� Es poco probable (p < 0.05) que su media aritmetica
este alejada mas de 2 ES de la media de la poblacion
original
� Por lo tanto se confia en que el estadistico no esta muy � Por lo tanto se confia en que el estadistico no esta muy
lejos de su respectivo parametro
� No esta alejado mas de una cantidad de ES pre
establecidos por su confianza
� Esa cantidad de ES= Margen de Error
� Margen de error = 2(Error estándar) para 95% confianza
-
INTERVALO DE CONFIANZA: DEFINICIONES…
� Los intervalos de confianza ofrecen una manera de estimar, con
alta probabilidad, un rango de valores en el que se encuentra el
valor poblacional (o parámetro) de una determinada variable.
� Esta probabilidad ha sido fijada por consenso en un 95% en base a
supuestos de normalidad
� Es el limite a nuestra confianza q definimos para considerar que � Es el limite a nuestra confianza q definimos para considerar que
dentro de el estara nuestro valor del parametro de la muestra
� Es la estimacion del valor de un parametro de la poblacion (ej
media artimetica) dentro de 2 limites (margen de error) a partir
de datos obtenidos de una muestra y con una confianza
determinada (generalmente 95%)
-
INTERVALO DE CONFIANZA
� La mayoría de los ICs tiene la forma de:
Estimación puntual ± Margen de error
con el margen de error basado en la dispersión de
la distribución muestral del estimador puntual;
Ej., Margen de error = 2(error estándar) para 95% confianza
� Con 95 % de confianza sus limites seran la suma
y la resta de 2 ES a nuestro estadistico de la
muestra
� Limite inferior: valor del estadistico – margen de
error
� Limite superior: valor del estatidistico + margen de
error
-
INTERVALO DE CONFIANZA:
� También permiten hacer inferencia estadística al
excluir un valor crítico que indique la falta de
asociación del intervalo. (los hallazgos son
estadísticamente significativos porque el
intervalo “no pasa por el 1”)intervalo “no pasa por el 1”)
� De ser un indicador tipo el riesgo relativo (RR) o
el Odds Ratio (OR), un valor 1 indica que la
frecuencia de un determinado evento fue
igualmente presentado tanto en el grupo
expuesto como en el que no
-
�Ejemplo :� Un estudio detectó que la fibrilación auricular en el
postoperatorio se asociaba a mayor mortalidad entre pacientes operados con un RR de 3 (IC 95%: 2-4).
� Esto significa que en la muestra, la presencia de la arritmia triplicó la probabilidad de morir en relación a
INTERVALOS DE CONFIANZA
arritmia triplicó la probabilidad de morir en relación a quienes no la tuvieron.
� Si bien no podemos trabajar con la población, la estimación del intervalo indica que podemos estar 95% seguros que el valor poblacional del riesgo relativo estará entre 2 y 4.
� Como el valor 1 está excluido del rango del intervalo, podemos decir que los hallazgos son estadísticamente significativos.
-
� La probabilidad que el verdadero valor del parametro
se encuentre en el intervalo construido se denomina
Nivel de confianza (o coeficiente de confianza)
� Se estima como: 1- alfa
� Alfa= La probabilidad de equivocarnos; se llama � Alfa= La probabilidad de equivocarnos; se llama Nivel de significancia
� El valor de alfa mas usado (consenso) es: 5 %
� El IC mas frecuente es (1-alfa)= 95 %
-
ESTADISTICA INFERENCIAL
• Estimacion de Parametros
– Calculo de Intervalos de Confianza
• Prueba de Hipotesis (metodo hipotetico-
deductivo)deductivo)
– Interrogante
– Hipotesis
– Deduccion de hechos
– Contrastacion empirica
-
HIPOTESIS
• Nula: (Ho)1. La variable dependiente se presenta de igual manera en los
distintos grupos.
2. La variable dependiente no es funcion de la variable independiente
3. No hay diferencias entre las variables estudiadas
4. No hay relacion entre las variables estudiadas4. No hay relacion entre las variables estudiadas
5. La diferencia entre los grupos es nula
6. Los datos estadisticos son iguales en los distintos grupos
• Reformulada: (H1)1. La variable dependiente se presenta de manera distinta en los
distintos grupos
2. Hay alguna relacion entre las variables
3. Hay asociacion entre las variables
4. Hay diferencias entre los grupos
-
PRUEBA DE HIPOTESIS
• Si los datos en el experimento fueron iguales en los distintos grupos:
– Lo observado fue igual a lo esperado x la hipotesis
– No se rechaza la hipotesis nula
• Si los datos del experimento fueron distintos en los distintos grupos:
– Puede ser q los datos (muestras)obtenidos sean realmente
diferentes….o…
– Puede ser que haya habido un error de muestreo (error
estandar)
-
PRUEBA DE HIPOTESIS (CONT)
� Si el rechazo de la Ho se produjo por que los datos
(muestras) obtenidas entre los grupos eran
realmente diferentes:
� Rechazo correcto
Si el rechazo de la Ho se produjo por un error de � Si el rechazo de la Ho se produjo por un error de
muestreo:
� Error de tipo I: La probabilidad de cometerlo esalfa (P= alfa): se rechaza una hipotesis nula q escorrecta
� Si no se rechazo la Ho y resulta q la misma era
incorrecta:
� Error de tipo II: su probabilidad se llama beta (P= beta)
-
PRUEBA DE HIPOTESIS
� Usamos las tecnicas estadisticas para calcular si
la probabilidad de obtener un resultado (dato
estadistico) es o no menor a un resultado critico
pre-establecido (< 0.05) si la Ho planteada es pre-establecido (< 0.05) si la Ho planteada es
verdadera
� Para establecer la probabilidad de cometer un
error tipo I si rechazamos la Ho.
� Para calcular el valor de alfa
-
VALOR DE P
� Si el valor de P< 0.05 la Ho es rechazada y la diferencia es ESTADISTICAMENTE significativa
Si el valor de P>= 0.05 la Ho no es rechazada y la � Si el valor de P>= 0.05 la Ho no es rechazada y la diferencia no es estadisticamente significativa
-
SIGNIFICANCIA:
� Ahora bien, la diferencia observada da un valor
de P < 0.05…
O sea q hay una diferencia estadisticamente � O sea q hay una diferencia estadisticamente
significativa por ej entre tratar y no tratar…
� ….pero vale la pena hacerlo?
� Relevancia clinica!
� Tener en cuenta el margen de error…(y ver IC)
-
SIGNIFICANCIA CLINICA
�Tener en cuenta q podemos estar aceptando la
Ho y q esta fuera erronea!
�En ese caso estariamos cometiendo un error (de
Tipo II)
�La probabilidad de cometer ese error se
denomina: Beta
�Si su valor es elevado, reevaluar la
significancia clinica
�Ausencia de evidencia de diferencia no significa
q no haya diferencia!
-
ERROR TIPO II
� Contrariamente al error tipo I, en la mayoría de los
casos no es posible calcular la probabilidad del error
tipo II.
� Esto es por como se formulan las hipótesis en una
prueba estadística. prueba estadística.
� Mientras que la hipótesis nula representa siempre
una afirmación definida (ejemplo Promedio µ = 0) la
hipótesis aternativa, debido a que engloba todas las
otras posibilidades, es generalmente de naturaleza
global (ejemplo Promedio µ ≠ 0)
� Se acepta en un estudio que el valor del error beta
esté entre el 5 y el 20%.
-
CALCULAR EL PODER
� El poder o potencia del estudio representa la probabilidad de observar en la muestra una
determinada diferencia o efecto, si existe en la población.
� Es el complementario del error de tipo II .
� PODER: capacidad del experimento para no cometer un � PODER: capacidad del experimento para no cometer un error de Tipo II
� PODER= 1 – Beta (100 = Beta si es en %)
� Ej: Para encontrar una diferencia entre dos ttos, la
misma tendria q ser al menos de 0.5
� Para encontrar esa diferencia la probabilidad calculada
(x software) es del 13 %
� 100 -13= 87 %
-
PODER= TAMAÑO MUESTRAL
�El poder esta definido por el tamaño de la muestra
�Por eso antes de hacer un experimento debe
calcularse cual es el tamaño de muestra adecuado como para q el poder del estudio sea al
menos de un 80 %
�Esto dependera de:
� Probabilidad aceptada de error de Tipo I (alfa)
� Dispersion esperada de los datos
� Diferencia q se considera importante detectar
� Poder deseado (1 – Beta)
-
PODER DE HIPOTESIS: CONCLUSION
Calculo de alfa:
�Si es bajo: Rechazar Hipotesis� Analizar relevancia� Analizar relevancia
�Si es alto: No rechazar Hipotesis
� Analizar poder (1 – Beta)
� Si es bajo: tamaño muestral insuficiente
-
Analisis de resultados:
�Pruebas Parametricas�Pruebas Parametricas
�Pruebas No Parametricas
-
PRUEBAS PARAMETRICAS
� Tienen > capacidad para detectar una relación verdadera entre 2
variables, si es que la misma existe.
� Para su aplicación se exigen q los datos cumplan requisitos:
� Variable numérica: Que la variable de estudio (dependiente) esté medida
numericamente
� Normalidad: Que los valores de la variable dependiente sigan una � Normalidad: Que los valores de la variable dependiente sigan una distribución normal; por lo menos, en la población a la que pertenece la muestra. Prueba estadística: Kolmogorov Smirnov
� Muestras no muy pequenas.
� Homocedasticidad: Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (homogeneidad de las varianzas).Prueba estadística: Test de Levene.
� Si los datos cumplen con los requisitos, las pruebas paramétricas
exhiben su máximo poder.
-
48PRUEBA T� Compara las medias de una variable continua en
muestras para determinar si o no la diferencia entre las dos medias esperadas excede la diferencia que debería ser esperada por azar
Dr.H.Qotb
a
¿Qué probabilidad de que las medias difieran?
-
49
TIPOS DE PRUEBAS T
� Prueba t para una muestra: prueba si la media de la muestra de una variable difiere significativamente de la media conocida de la población
� Prueba t no pareada o independiente: prueba si las medias estimadas de la población por 2 muestras
Dr.H.Qotb
a
medias estimadas de la población por 2 muestras independientes difieren significativamente (grupo de hombres y grupo de mujeres)
� Prueba t pareada: prueba si la media estimada de la población por muestras dependientes difieren significativamente (media de pre y post-tratamiento para el mismo grupo de pacientes.
-
PRUEBAS NO PARAMETRICAS� No hacen a los datos ninguna de las exigencias ni supuestos que les
hacen las pruebas estadísticas paramétricas; por eso se les denomina
"pruebas estadísticas libres de distribución".
� No se presupone que los datos sigan una distribución determinada.
� Se usan con muestras pequeñas (n < 10) en las que se desconoce la
distribución que siguen los datos
� Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables� Se pueden aplicar a datos de tipo cuantitativo y cualitativo (variables
no numéricas).
� Son convenientes cuando no se conoce la distribución de la población.
� Utilizan menor información de la variable.
� Son menos potentes que los resultados obtenidos en los métodos
paramétricos.
-
51
PRUEBA CHI²
� Usada para probar la fuerza de asociación entre dos variables cualitativas
� Usada para datos categóricos
Dr.H.Qotb
a
� Usada para datos categóricos
-
52
CORRELACIÓN Y REGRESIÓN
� Métodos para estudiar magnitud de la asociación y la relación funcional entre dos o más variables.
Dr.H.Qotb
a
-
53
CORRELACIÓN
�Denota fuerza de relación entre variables
Dr.H.Qotb
a
-
54
REGRESIÓN
�Método que indica una relación matemática entre una variable dependiente y una o más variables independientes
�Regresión lineal simple y regresión múltiple
Dr.H.Qotb
a
�Regresión lineal simple y regresión múltiple son apropiadas para variables como tensión arterial, peso.
�Regresión logística es aplicable para respuestas binarias como vivo/muerto
-
55
ANOVA
� Es usada para descubrir el efecto principal y los efectos de interacción de variables categóricas independientes (llamados factores) sobre un interva lo
Dr.H.Qotb
a
independientes (llamados factores) sobre un interva lo de la variable dependiente
-
Eligiendo el Test estadísticoEligiendo el Test estadístico
•Test de Kolmogorov-Smirnov para probar si datos siguen una distribución (NP)•Test de SW para probar si datos siguen una distribución normal (NP)•Test “t” de comparación de la media de los datos con una media teórica (P)
¿Qué tests se pueden hacer con 1 muestra?:
Variables de tipo cuantitativo
•Test “t” de comparación de 2 medias con datos independientes (P)•Test “t” de comparación de 2 medias con datos apareados (P)•Test “U” de Mann-Whitney comparación 2 grupos datos independientes (NP)•Test de rangos con signos de Wilconxon 2 grupos apareados (NP)•Test F o Test de Levene de comparación de 2 varianzas (P)
¿Qué tests se pueden hacer con 2 muestras?:
-
PARA ELEGIR EL TEST ESTADISTICO….
� Variables: Ordinales, numericas, nominales,
binarias?
� Numero de grupos: 1 o mas
� Si son + de 2 grupos: son independientes?� Si son + de 2 grupos: son independientes?
� Numero de observaciones: < o > 30
� Distribucion de la muestra: Normal o No Normal
� Varianzas: iguales o no?
� Poder estadistico necesario: Probabilidad de rechazar la hipotesis nula cuando es falsa y debe
ser rechazada: es mayor con las
parametricas!!
-
MUCHAS GRACIASMUCHAS GRACIAS
Dr. Fabio Massari