Resumenes númericas de una muestra II: medidas...
Transcript of Resumenes númericas de una muestra II: medidas...
![Page 1: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/1.jpg)
Resumenes númericas de una muestra II:
medidas basadas en momentos
Michael Wiper
Departamento de Estadística
Universidad Carlos III de Madrid
M. Wiper Estadística 1 / 18
![Page 2: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/2.jpg)
Objetivo
Introducir medidas de forma de una muestra basadas en momentos.
M. Wiper Estadística 2 / 18
![Page 3: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/3.jpg)
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural es la media (aritmética), es decir el promedio de los datos.
x̄ =1
n(x1 + x2 + · · · xn).
Nota para los ingenieros: si se colocan pesos iguales sobre una barra muy ligera enposiciones x1, ...., xn, la media es el centro de gravedad de la barra.
1, 2, 4, 5, 7, 9, 11, 13
x̄ =1
8(1 + 2 + · · ·+ 13) = 6,5
M. Wiper Estadística 3 / 18
![Page 4: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/4.jpg)
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural es la media (aritmética), es decir el promedio de los datos.
x̄ =1
n(x1 + x2 + · · · xn).
Nota para los ingenieros: si se colocan pesos iguales sobre una barra muy ligera enposiciones x1, ...., xn, la media es el centro de gravedad de la barra.
1, 2, 4, 5, 7, 9, 11, 13
x̄ =1
8(1 + 2 + · · ·+ 13) = 6,5
M. Wiper Estadística 3 / 18
![Page 5: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/5.jpg)
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural es la media (aritmética), es decir el promedio de los datos.
x̄ =1
n(x1 + x2 + · · · xn).
Nota para los ingenieros: si se colocan pesos iguales sobre una barra muy ligera enposiciones x1, ...., xn, la media es el centro de gravedad de la barra.
1, 2, 4, 5, 7, 9, 11, 13
x̄ =1
8(1 + 2 + · · ·+ 13) = 6,5
M. Wiper Estadística 3 / 18
![Page 6: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/6.jpg)
Calculando la media a través de la tabla de
frecuencias
Con datos discretas la tabla de frecuencias tiene forma:
Valor Frecuencia absoluta Frecuencia relativa
x1 n1 f1
x2 n2 f2...
......
xk nk fk
Total n 1
El valor xi es repetido ni veces. Luego, la media es
x̄ =1
n
k∑i=1
nixi =k∑
i=1
fixi .
M. Wiper Estadística 4 / 18
![Page 7: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/7.jpg)
Ejemplo
x̄ =1
181(7×0+26×1+ · · ·+2×9+0×10) = 3,365 accidentes mortales por día.
M. Wiper Estadística 5 / 18
![Page 8: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/8.jpg)
Ejemplo
Con datos continuos, usamos las misma formulas, aproximando los valores dentrode un intervalo con la marca de clase. Obviamente el resultado es sólo unaaproximación a la verdadera media de la muestra.
x̄ ≈ (0,06× 25 + 0,18× 75 + · · ·+ 0,02× 2500 + 0× 3250) = 326,5.
La verdadera media de los datos es x̄ = 320 hectáreas quemadas por provincia
No importa el hecho de que los intervalos son de anchuras distintas.
M. Wiper Estadística 6 / 18
![Page 9: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/9.jpg)
Sensibilidad de la media a datos atípicos
Obviamente la media es muy sensible a atípicos.
1, 2, 4, 5, 7, 9, 11, 13
x̄ = 6,5.
1, 2, 4, 5, 7, 9, 11, 130
x̄ = 21,125.
Luego para muestras muy asimétricas o con muchos datos atípicos, es preferibleemplear la mediana como medida de localización.
M. Wiper Estadística 7 / 18
![Page 10: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/10.jpg)
Sensibilidad de la media a datos atípicos
Obviamente la media es muy sensible a atípicos.
1, 2, 4, 5, 7, 9, 11, 13
x̄ = 6,5.1, 2, 4, 5, 7, 9, 11, 130
x̄ = 21,125.
Luego para muestras muy asimétricas o con muchos datos atípicos, es preferibleemplear la mediana como medida de localización.
M. Wiper Estadística 7 / 18
![Page 11: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/11.jpg)
Comparando media, mediana y moda
En contraste a la media, la mediana y moda no son afectadas por datos atípicos.
M. Wiper Estadística 8 / 18
![Page 12: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/12.jpg)
Otras medias
La media truncada es un intento de evitar la sensibilidad a los datos atípicos,calculando la media de los datos pero quitando (por ejemplo) los 5% másaltos y los 5% más bajos.
La media geométrica de una muestra (no-negativa) x1, ..., xn es igual an
√x1x2 · · · xn.
Son muy apropiadas para promediar índices porcentuales, por ejemplo lavariabilidad regional en Europe entre homicidios y otras formas de muerteexterna.
M. Wiper Estadística 9 / 18
![Page 13: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/13.jpg)
Midiendo dispersión: la varianza y desvianza típica
Suponiendo que la media es una buena medida de localización de la muestra, unaidea razonable es medir la dispersión como la distancia típica de una observaciónen torno de la media.
Con datos x1, ..., xn, con media x̄ , las distancias son x1 − x̄ , x2 − x̄ , ..., xn − x̄ .
Obviamente, algunas son positivas y otras negativas y∑
n
i=1(xi − x̄) = 0.
Entonces, una idea posible es considerar las distancias cuadradas ...
M. Wiper Estadística 10 / 18
![Page 14: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/14.jpg)
Midiendo dispersión: la varianza y desvianza típica
Suponiendo que la media es una buena medida de localización de la muestra, unaidea razonable es medir la dispersión como la distancia típica de una observaciónen torno de la media.
Con datos x1, ..., xn, con media x̄ , las distancias son x1 − x̄ , x2 − x̄ , ..., xn − x̄ .
Obviamente, algunas son positivas y otras negativas y∑
n
i=1(xi − x̄) = 0.
Entonces, una idea posible es considerar las distancias cuadradas ...
M. Wiper Estadística 10 / 18
![Page 15: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/15.jpg)
La varianza
La varianza de la muestra se de�ne como:
σ̂2 =1
n
n∑i=1
(xi − x̄)2 =1
n
n∑i=1
x2
i− x̄
2.
Nota para los ingenieros: la varianza es el momento de inercia de la barra en tornodel centro de gravedad.
Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan lavarianza así. Como alternativa se pre�ere la cuasi-varianza:
s2 =
1
n − 1
n∑i=1
(xi − x̄)2 =n
n − 1σ̂2.
¾Porqué?
Razones estadísticas complicadas: insesgadez, ...
M. Wiper Estadística 11 / 18
![Page 16: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/16.jpg)
La varianza
La varianza de la muestra se de�ne como:
σ̂2 =1
n
n∑i=1
(xi − x̄)2 =1
n
n∑i=1
x2
i− x̄
2.
Nota para los ingenieros: la varianza es el momento de inercia de la barra en tornodel centro de gravedad.
Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan lavarianza así. Como alternativa se pre�ere la cuasi-varianza:
s2 =
1
n − 1
n∑i=1
(xi − x̄)2 =n
n − 1σ̂2.
¾Porqué?
Razones estadísticas complicadas: insesgadez, ...
M. Wiper Estadística 11 / 18
![Page 17: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/17.jpg)
La varianza
La varianza de la muestra se de�ne como:
σ̂2 =1
n
n∑i=1
(xi − x̄)2 =1
n
n∑i=1
x2
i− x̄
2.
Nota para los ingenieros: la varianza es el momento de inercia de la barra en tornodel centro de gravedad.
Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan lavarianza así. Como alternativa se pre�ere la cuasi-varianza:
s2 =
1
n − 1
n∑i=1
(xi − x̄)2 =n
n − 1σ̂2.
¾Porqué?
Razones estadísticas complicadas: insesgadez, ...
M. Wiper Estadística 11 / 18
![Page 18: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/18.jpg)
La varianza
La varianza de la muestra se de�ne como:
σ̂2 =1
n
n∑i=1
(xi − x̄)2 =1
n
n∑i=1
x2
i− x̄
2.
Nota para los ingenieros: la varianza es el momento de inercia de la barra en tornodel centro de gravedad.
Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan lavarianza así. Como alternativa se pre�ere la cuasi-varianza:
s2 =
1
n − 1
n∑i=1
(xi − x̄)2 =n
n − 1σ̂2.
¾Porqué?
Razones estadísticas complicadas: insesgadez, ...
M. Wiper Estadística 11 / 18
![Page 19: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/19.jpg)
La desviación típica
El problema más importante de la varianza es su interpretación.
Volviendo al ejemplo de los accidentes de trá�co, la varianza en este caso es 3,79
(accidentes mortales cuadrados al día).
Más natural es una medida con las mismas unidades que los datos.
La desviación típica es σ̂ =√σ̂2 y la cuasi-desviación típica es s =
√s2.
En el ejemplo, la desviación típica es 1,95 accidentes mortales por día.
M. Wiper Estadística 12 / 18
![Page 20: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/20.jpg)
La desviación típica
El problema más importante de la varianza es su interpretación.
Volviendo al ejemplo de los accidentes de trá�co, la varianza en este caso es 3,79(accidentes mortales cuadrados al día).
Más natural es una medida con las mismas unidades que los datos.
La desviación típica es σ̂ =√σ̂2 y la cuasi-desviación típica es s =
√s2.
En el ejemplo, la desviación típica es 1,95 accidentes mortales por día.
M. Wiper Estadística 12 / 18
![Page 21: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/21.jpg)
El teorema de Chebyshev y la interpretación de la
desviación típica
El teorema de Chebyshev dice que para cualquier conjunto de datos:
Por lo menos 3/4 de los datos de la muestra están a menos de dosdesviaciones típicas en torno de la media.
Por lo menos 8/9 de los datos están a menos de tres desviaciones típicas dela media.
Por lo menos 1− 1/k2 de los datos están a menos de k desviaciones típicasde la media.
El teorema de Chebyshev es muy conservadora. Para datos más o menossimétricas, una regla empírica dice que aproximadamente 68% 95% 99.7% de losdatos están a menos de uno dos tres desviaciones de la media.
M. Wiper Estadística 13 / 18
![Page 22: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/22.jpg)
El teorema de Chebyshev y la interpretación de la
desviación típica
El teorema de Chebyshev dice que para cualquier conjunto de datos:
Por lo menos 3/4 de los datos de la muestra están a menos de dosdesviaciones típicas en torno de la media.
Por lo menos 8/9 de los datos están a menos de tres desviaciones típicas dela media.
Por lo menos 1− 1/k2 de los datos están a menos de k desviaciones típicasde la media.
El teorema de Chebyshev es muy conservadora. Para datos más o menossimétricas, una regla empírica dice que aproximadamente 68% 95% 99.7% de losdatos están a menos de uno dos tres desviaciones de la media.
M. Wiper Estadística 13 / 18
![Page 23: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/23.jpg)
Ejemplo
1, 2, 4, 5, 7, 9, 11, 13
x̄ = 6,5∑
x2
i= 466 σ̂2 =
1
8× 466− 6,52 = 16 σ̂ = 4.
En este caso, un 100% de los datos están comprendidos en la región6,5± 2× 4 = [−1,5, 14,5]
1, 2, 4, 5, 7, 9, 11, 130
x̄ = 21,125∑
x2
i= 17197 σ̂2 =
1
8× 17197− 21,1252 = 1703,36 σ̂ = 41,27.
En contraste el intervalo 21,125± 2× 41,27 = [−61,42, 103,67] contiene un87.5% de lo datos.
M. Wiper Estadística 14 / 18
![Page 24: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/24.jpg)
Ejemplo
1, 2, 4, 5, 7, 9, 11, 13
x̄ = 6,5∑
x2
i= 466 σ̂2 =
1
8× 466− 6,52 = 16 σ̂ = 4.
En este caso, un 100% de los datos están comprendidos en la región6,5± 2× 4 = [−1,5, 14,5]
1, 2, 4, 5, 7, 9, 11, 130
x̄ = 21,125∑
x2
i= 17197 σ̂2 =
1
8× 17197− 21,1252 = 1703,36 σ̂ = 41,27.
En contraste el intervalo 21,125± 2× 41,27 = [−61,42, 103,67] contiene un87.5% de lo datos.
M. Wiper Estadística 14 / 18
![Page 25: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/25.jpg)
Midiendo la dispersión relativa: el coe�ciente de
variación
Supongamos que se quiere comparar la variabilidad en las cantidades de heroina(gm) y de cigarillos ilegales (cajas) encontrados en sospechosos.
Obviamente no tiene sentido comparar las desviaciones típicas directamente yaque las cantidades típicas encontradas de los dos productos son muy distintos.
Luego se tiene que comparar las dispersiones relativas al tamaño típico.
Con este objetivo se utiliza el coe�ciente de variación:
CV =σ̂
|x̄ |.
M. Wiper Estadística 15 / 18
![Page 26: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/26.jpg)
Midiendo la dispersión relativa: el coe�ciente de
variación
Supongamos que se quiere comparar la variabilidad en las cantidades de heroina(gm) y de cigarillos ilegales (cajas) encontrados en sospechosos.
Obviamente no tiene sentido comparar las desviaciones típicas directamente yaque las cantidades típicas encontradas de los dos productos son muy distintos.
Luego se tiene que comparar las dispersiones relativas al tamaño típico.
Con este objetivo se utiliza el coe�ciente de variación:
CV =σ̂
|x̄ |.
M. Wiper Estadística 15 / 18
![Page 27: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/27.jpg)
Midiendo asimetría
La medida más típica es la asimetría de Fisher:
γ̂1 =1
n
∑n
i=1(xi − x̄)3
σ̂3.
Para datos simétricas, tipicamente γ1 ≈ 0.
La asimetría es γ̂1 = 3.Para datos asimétricos a la derecha, la asimetría es positiva.
M. Wiper Estadística 16 / 18
![Page 28: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/28.jpg)
Curtosis
Curtosis es otra medida de forma que está relacionado con la proporción de lavariabilidad de los datos debida a datos extremos.
La medida más utilizada es
κ̂ =1
n
∑n
i=1(xi − x̄)4
σ̂4.
Valores grandes de la curtosis indican una proiporción más alta de datos extremos.
Una muestra platicurtica tiene pocos atípicos y una muestra leptocurtica tienemás atípicos.
M. Wiper Estadística 17 / 18
![Page 29: Resumenes númericas de una muestra II: medidas …halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/GC... · Resumenes númericas de una muestra II: medidas basadas en](https://reader031.fdocuments.net/reader031/viewer/2022012309/5bbf393709d3f216668b900d/html5/thumbnails/29.jpg)
Resumen y siguiente sesión
En las últimas dos sesiones hemos introducido las resumenes numéricas mástípicas de un conjunto de datos.
En las siguientes sesiones empezamos a mirar conjuntos de varios tipos de datos yver las relaciones entre ellos.
M. Wiper Estadística 18 / 18