ESTADÍSTICA - matesap.wikispaces.com Bachillerato... · Para ello, recoge 1 de cada 100 tornillos...
Transcript of ESTADÍSTICA - matesap.wikispaces.com Bachillerato... · Para ello, recoge 1 de cada 100 tornillos...
ESTADÍSTICA La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones. La Estadística puede ser:
a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos. Llamados parámetros estadísticos.
b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra.
La Estadística descriptiva se encarga de estudiar una o varias de las características de un conjunto de elementos. Para conseguirlo necesitará:
- Recoger los datos. - Registrar y ordenar los datos en tablas. - Representar y resumir los datos mediante gráficas que faciliten su interpretación. - Calcular unos “números” llamados estadísticos, que describen y simplifican los datos recogidos para
el estudio a efectuar.. Conceptos básicos:
Población: es el conjunto de todos los elementos objeto de nuestro estudio. Muestra: es un subconjunto extraído de la población, cuyo estudio sirve para inferir características
de toda la población. Tendrá que ser representativo y aleatorio. La Teoría de Muestreo es la encargada de estudiar las condiciones óptimas para la elección de las muestras según el estudio a hacer.
Individuo: es cada uno de los elementos del conjunto que forman la población o la muestra. Caracteres y variables estadísticas: son los aspectos que deseamos estudiar en los individuos de
una población. Cada carácter puede tomar distintos valores o modalidades. Ejemplo:
Un fabricante de tornillos desea hacer un control de calidad. Para ello, recoge 1 de cada 100 tornillos producidos y lo analiza para llegar a la conclusión de que es CORRECTO o DEFECTUOSO. - POBLACIÓN: el conjunto de todos los tornillos producidos. - MUESTRA: los tornillos analizados. - INDIVIDUO: cada uno de los tornillos. - CARÁCER ESTADÍSTICO: “estado de los tornillos”. Sólo hay dos modalidades de la
variable. Defectuoso y no defectuoso. Se trata de una variable cualitativa. Las variables estadísticas pueden ser:
Cualitativas: son las que no toman valores numéricos. Presentan modalidades. Ejemplo: Variable estadística X = estado civil X = { casado, soltero, viudo, divorciado}
.,,, 4321 divorciadoxviudoxsolteroxcasadox ==== Es una variable cualitativa, con cuatro modalidades distintas.
Cuantitativas: son las que toman valores numéricos. A su vez se clasifican en: - Discretas o no agrupadas: son las que toman valores numéricos aislados.
Ejemplo: X = El número de hijos. - Continuas o agrupadas: son las que pueden tomar todos los valores de un intervalo.
Ejemplo: X = Altura media de todos los estudiantes de bachillerato. 1
CONFECCIÓN DE TABLAS DE FRECUENCIAS Definiciones: Tamaño muestral: es el número de individuos total de la población o muestra a estudiar. Lo denotamos
por la letra N. Frecuencia absoluta de un resultado es el número de veces que se presenta dicho resultado. La
representaremos por ni. Frecuencia relativa de un resultado es la frecuencia absoluta dividida por el número total de veces
que se ha realizado el experimento. Es decir, entre el tamaño de la muestra. La representaremos por fi.
Se obtiene: Nn
f ii =
Frecuencia absoluta acumulada de un resultado, es el número de veces que se presenta un resultado o todos los anteriores a él. Se representa por Ni
Se obtiene: ∑=
=++++=i
kkii nnnnnN
1321 ...
Frecuencia relativa acumulada de un resultado, a la frecuencia absoluta acumulada dividida por el número total de observaciones. La representaremos por Fi Se obtiene:
∑∑==
==++++==i
k
ki
kki
ii N
nfffff
NN
F11
321 ...
Propiedades de las frecuencias:
La suma de todas las frecuencias absolutas es igual al tamaño de la muestra. Es decir, N nm
ii =∑
=1
La frecuencia relativa y la acumulada toma valores comprendidos entre cero y uno: 1 0 ≤≤ if
La suma de todas las frecuencias relativas es igual a uno. Es decir, 1 1
=∑=
m
iif
Confección de una tabla de frecuencias para una variable cuantitativa discreta: Ejemplo Supongamos el experimento aleatorio consistente en anotar las calificaciones de matemáticas de un colectivo de 50 alumnos. Los resultados han sido: 1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-4-6-7-6-5-4-3-4-5
Variable X = calificaciones de Matemáticas
Es una variable cuantitativa discreta, pues sólo toma valores enteros comprendidos entre 1 y 10. Tamaño de la muestra N = 50 Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada uno de ellos
y agrupándolos en grupos de 5 para facilitar el conteo:
1— II .....................2 2— III ....................3 3— III ....................3 4— IIIII IIII ...........9 5— IIIII IIIII II ....12
6— IIIII IIII ..........9 7— IIIII I ..............6 8— III ...................3 9— I ......................1 10— II ...................2
Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro experimento en una tabla de frecuencias de la siguiente manera.
2
TABLA DE FRECUENCIAS
F.absoluta F.relativa F.absta Acumu F.relativa Acum xi ni fi Ni Fi 1 2 0,04 211 == nN 04,011 == fF 2 3 0,06 5 0,1 3 3 0,06 8 0,16 4 9 0,18 17 0,34 5 12 0,24 29 0,58 6 9 0,18 38 0,76 7 6 0,12 44 0,88 8 3 0,06 47 0,94 9 1 0,02 48 0,96 10 2 0,04 5010 =N 110 =F Totales N = 50
110
1=∑
=iin
Representación gráfica (variable discreta) Los resultados del experimento anterior, se podrían ver con mucha mayor claridad si los datos tabulados (de la tabla), estuviesen representados gráficamente. Los principales tipos de representaciones gráficas que con ellos podemos hacer son:
a) Diagramas de barras. Colocamos en el eje de abcisas los valores de la variable xi y en el eje de ordenadas los valores de las frecuencias y dibujamos barras de igual anchura cuya altura sea exactamente la frecuencia. Así tenemos
b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de las
barras en el diagrama anterior:
3
c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se hace mediante una proporcionalidad directa de la siguiente manera:
Si a 360º le corresponde una frecuencia 50, a xº le corresponderá la frecuencia fi
De manera que se tiene:
Así, por ejemplo para una frecuencia de 12, se obtiene:
Luego con ayuda de un semicírculo graduado, se llevan los ángulos obtenidos a la circunferencia. Sale un gráfico parecido al siguiente:
d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un dibujo de
altura proporcional a las frecuencias y que hace más intuitiva la interpretación de los resultados. Así podíamos sustituir las barras por dibujos de libros por ejemplo.
Confección de una tabla de frecuencias para una variable cuantitativa continua o agrupada: Cuando en una distribución estadística el número de valores que toma la variable es muy grande (más de 20), conviene elaborar una tabla de frecuencias agrupándolos en intervalos. Para ello: Se localizan los valores extremos. El menor: a y el mayor: b, y se halla su diferencia, que se llama
recorrido de la variable: a br −= Se decide el número de intervalos que se quiere formar, teniendo en cuenta la cantidad de datos que se
poseen. El número de intervalos no debe ser inferior a 6 ni superior a 15. Se toma un valor r’ que sea algo superior al valor del recorrido r y que sea múltiplo del número de
intervalos, con objeto de que estos tengan una longitud entera. Se forman los intervalos de modo que el extremo inferior del primero sea algo menor que a y el
extremo superior del último sea algo superior a b. Es deseable que los extremos de los intervalos no coincidan con ningún valor de los datos. Para ello, puede convenir que dichos extremos tengan valores no enteros.
Introducimos nuevos conceptos: Marca de clase: es el punto medio de cada intervalo. Es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros. Es decir, las marcas de clase se corresponden con los valores de la variable: m i xxxxx ,.....,....,, 321
El intervalo i-ésimo lo denotaremos: [ )ii LL ,1−
Podemos pues calcular las marcas de clase como sigue: 2
1 iii
LLx += −
Amplitud del intervalo: es la diferencia entre los dos extremos del intervalo. Los intervalos suelen tener amplitud constante, aunque puede que no sea así.
Se tiene: amplitud del i-ésimo intervalo 1−−= iii LLa NOTA: cuando se elabora una tabla con datos agrupados, se pierde algo de información. A cambio, se gana en claridad y eficacia. El número de intervalos a elegir es un poco arbitrario. Sin embargo dichos intervalos deben cumplir necesariamente unas normas que son: Cubrir todo el recorrido de la variable. Ninguno de sus extremos puede coincidir con los valores de la variable. El extremo final de uno de ellos ha de coincidir con el extremo inicial del siguiente.
4
Tienen que ser intervalos disjuntos. Con ello, se pretende que nunca se dé el caso de haber un mismo valor de la variable en dos intervalos diferentes. Suelen elegirse cerrados por la derecha y abiertos por la izquierda. Aunque al revés también es igualmente válido.
Ejemplo: Elaborar una tabla de frecuencias con las estaturas de 40 adolescentes dadas a continuación: 168, 160, 167, 175, 175, 167, 168, 158, 149, 160, 178, 166, 158, 163, 171, 162, 165, 163, 156, 174, 160, 165, 154, 163, 165, 161, 162, 166, 163, 159, 170, 165, 150, 167, 164, 165, 173, 164, 169, 170. El número de valores distintos que hay es grande (mayor que 20) Por eso, lo adecuado es clasificarlos en intervalos. Para ello, procedemos del siguiente modo: Localizamos los valores extremos:
recorridodelvalorelesquerbmayorElamenorEl Diferencia 29149178
178149
=−=⎯⎯⎯ →⎯⎭⎬⎫
⎩⎨⎧
==
Por ser pequeño el número de datos, decidimos que el número de intervalos sea pequeño. Por ejemplo seis. Buscamos un número algo mayor que el recorrido y que sea múltiplo de seis. Por ejemplo r’ = 30. de este
modo, cada intervalo tendrá una amplitud igual a 56
30=
Formamos los intervalos comenzando por un número algo menor que 149 y de modo que los seis intervalos abarquen la totalidad de los datos.
1º intervalo: 148,5 — 153,5 4º intervalo: 163,5 — 168,5 2º intervalo: 153,5 — 158,5 5º intervalo: 188,5 — 173,5 3º intervalo: 158,5 — 163,5 6º intervalo: 173,5 — 178,5
Repartimos los cuarenta datos en los seis intervalos. Hacemos el recuento:
148,5 — 153,5 II 163,5 — 168,5 IIIII IIIII IIII 153,5 — 158,5 IIII 188,5 — 173,5 IIIII 158,5 — 163,5 IIIII IIIII I 173,5 — 178,5 IIII
TABLA DE FRECUENCIAS
Intervalos Marca de clase ix ni fi Ni Fi
148,5 — 153,5 151 2 0,05 211 = =nN 05,011 == fF 153,5 — 158,5 156 4 0,1 6 0,15 158,5—163,5 161 11 0,275 17 0,425 163,5 — 168,5 166 14 0,35 31 0,775 168,5 — 173,5 171 5 0,125 36 0,9 173,5 — 178,5 176 4 0,1 406 =N 16 =F Totales N = 40
∑=
=6
11
iiif
Representaciones gráficas (variable continua) Los principales tipos de representaciones gráficas que podemos hacer son:
a) Histograma.- Colocamos en el eje de abscisas los extremos de los intervalos y en el eje de ordenadas los valores de las frecuencias y dibujamos rectángulos unidos de la misma base si los intervalos tienen la misma amplitud y de altura la frecuencia de cada un de ellos. Así tenemos
5
b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de los rectángulos del histograma anterior:
c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se hace mediante una proporcionalidad directa de la siguiente manera:
Si a 360º le corresponde una frecuencia 40, a xº le corresponderá la frecuencia fi
De manera que se tiene: 40360.i
if
x =
Con ayuda de un semicírculo graduado, se llevan los ángulos obtenidos a la circunferencia. Sale un gráfico parecido al siguiente:
PARÁMETROS ESTADÍSTICOS Puesto que las representaciones gráficas no siempre consiguen ofrecer una información completa de una serie de datos, es necesario analizar procedimientos numéricos que permitan resumir toda la información del fenómeno en estudio en unos números llamados parámetros estadísticos. Se les exige que tengan ciertas propiedades. Pero no existe ninguno que las verifique todas. No existe un parámetro ideal. Usaremos aquellos que sean “lo más representativo posible” de la situación concreta que estemos estudiando. Su eficacia depende de muchos factores, entre ellos, la naturaleza de la variable en estudio, los datos de que se disponga, etc. Los parámetros estadísticos pueden ser de dos clases:
6
a) Medidas de centralización. Buscan características del centro de la distribución. Las más importantes son la media aritmética, la mediana y la moda. Otras menos utilizadas son media geométrica, media armónica y media ponderada.
b) Medidas de posición. Indican, una vez ordenados, cuantos elementos quedan a la izquierda o derecha de uno dado. Son: cuartiles, deciles, centiles o percentiles.
c) Medidas de dispersión. Proporcionan una idea sobre la separación de los datos. Son: rango, el recorrido, desviación media, varianza, desviación típica y coeficiente de variación.
d) Medidas de forma. Proporcionan una idea de la simetría y apuntamiento de la distribución. Son: coeficiente de simetría y coeficiente de apuntamiento.
MEDIDAS DE CENTRALIZACIÓN La media aritmética. Se llama así a la suma de todos los valores observados dividido por el número total de los mismos. Para una tabla de frecuencias en la que a cada valor de la variable xi, le corresponda una frecuencia absoluta ni, la media, que se representa por X se calcula así:
∑ ∑∑
= =
= ===m
i
m
iii
ii
m
iii
fxNn
xN
nxX
1 1
1 ...
7
OBSERVACIÓN: cuando la variable sea continua o agrupada el valor será la marca de clase de los diferentes intervalos.
ix
Así, para los datos de la tabla de los ejemplos anteriores, calcularíamos la media aritmética de la siguiente manera: - Añadimos una columna nueva en la tabla de frecuencias en la que vamos a calcular iinx . Calculamos
pues, el producto de los valores de la variable por la frecuencia absoluta que le corresponde a cada uno de dichos valores.
- En la última fila, la de los totales, calculamos la suma de toda esta nueva columna. ∑ =
10
1iii nx
- El resultado obtenido lo dividimos entre el tamaño de la muestra N. Y el valor obtenido es el valor de la media aritmética.
Podríamos hacer los cálculos de forma similar pero con la columna de las frecuencias relativas y en ese caso la suma de todos los elementos de dicha columna sería el valor de la media. Cuando la variable sea continua o agrupada en intervalos, procedemos de forma análoga, pero ahora, las marcas de clases son las que hacen el papel de los distintos valores de la variable: ix Es decir: En el ejemplo de variable discreta tenemos:
xi ni fi xi.ni xi.fi 1 2 0,04 2 0,04 2 3 0,06 6 0,12 3 3 0,06 9 0,18 4 9 0,18 36 0,72 5 12 0,24 60 1,2 6 9 0,18 54 1,08 7 6 0,12 42 0,84 8 3 0,06 24 0,48 9 1 0,02 9 0,18
10 2 0,04 20 0,4 Totales N = 50
110
1
=∑=i
in 26210
1=∑
=iii nx
5,24
m
i ii=1
x .nX=
N
∑
→== 24,550262X 5,24 es la nota media de las calificaciones de Matemáticas.
En el ejemplo de variable continua tenemos:
Intervalos Marca de clase ix ni ii nx . if ii fx . 148,5 — 153,5 151 2 302 0,05 7,55 153,5 — 158,5 156 4 624 0,1 15,6 158,5—163,5 161 11 1771 0,275 44,275
163,5 — 168,5 166 14 2324 0,35 58,1 168,5 — 173,5 171 5 855 0,125 21,375 173,5 — 178,5 176 4 704 0,1 17,6
Totales N = 40 6580 1 164,5
→== .5,16440
6580 cmX Es la altura media de los adolescentes
OBSERVACIÓN: La media aritmética es una medida única para cada distribución. La moda:
Es el valor de la variable que tiene mayor frecuencia absoluta. Su cálculo es diferente según la naturaleza de la variable. Se denota: 0MPara calcular la moda procedemos de forma diferente, según sea la naturaleza de la variable en estudio. Variable discreta o no agrupada: El cálculo es directo
En el ejemplo de variable discreta tenemos: (ver página 3) La moda es Mo=5, pues es a esta nota a la que corresponde la mayor frecuencia absoluta (12) Luego: La nota obtenida más veces es 5
Si a dos o más valores les corresponde la misma frecuencia máxima, la distribución se llama bimodal o multimodal. NOTA: cuando las frecuencias absolutas tienen valores muy similares, la moda no es muy representativa.
Variable continua o agrupada:
Supongamos que la frecuencia absoluta mayor es, correspondiente al intervalo [ que recibe el nombre de intervalo modal. La moda se calcula mediante la siguiente fórmula:
)oi LL ,1−
( ) iiiii
iiio a
nnnnnn
LM .)( 11
11
+−
−− −+−
−+=
Siendo: 1−iL el extremo inferior del intervalo modal.
1−in la frecuencia absoluta del intervalo anterior al intervalo modal,
1in + la frecuencia absoluta del intervalo siguiente al intervalo modal
ia La amplitud del intervalo modal.
8
En el ejemplo de variable continua tenemos: (ver página 8)
Intervalo modal: [ ) [ )5'168,5'163, 43 =LLExtremo inferior del intervalo modal: 5,1633 =L Frecuencia absoluta del intervalo modal: 144 =n Frecuencia absoluta del intervalo anterior al modal: 113 =n Frecuencia absoluta del intervalo siguiente al modal: 55 =n Amplitud del intervalo modal: 54 =a
Por tanto la Moda es:
( ) ( )4 3
3 44 3 4 5
14 11. 163,5 .5 164,75 .( ) 14 11 (14 5)o
n nM L an n n n
− cm−= + = + =
− − − − + −
La altura más frecuente entre los adolescentes es 164,75 cm. La mediana. Es un valor de la variable, que denotamos por Me tal que al menos la mitad de los valores de la distribución es inferior o igual a Me, y al menos la mitad es superior o igual a Me. Es decir, es el valor de la variable que divide la distribución en dos partes iguales.
Para calcular la mediana, los datos tienen que presentarse en una tabla ordenados de menor a mayor
Para calcular la mediana procedemos de forma diferente, según sea la naturaleza de la variable en estudio. Variable discreta o no agrupada: Distinguimos dos casos según tengamos número par o impar de observaciones. Cuando el número de observaciones, N, es impar, la mediana es el que ocupa el lugar central. Cuando el número de observaciones, N, es par. Para calcular la mediana, se toma la media aritmética
de los dos valores centrales. En el ejemplo de la variable discreta o no agrupada:
- Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. - Dado que hay N = 50 valores y se trata de un número par, los dos valores centrales son los
que ocupan las posiciones 25 y 26. - Mirando la tabla de frecuencias absolutas acumuladas vemos que ambos corresponden
al valor 5 (ya que menores o iguales que él hay 29), por tanto, →= 55 este
resultado significa:
+=
25
eM
Que la calificación de 5 puntos es el valor que divide la distribución en dos partes iguales, es decir, hay el mismo número de alumnos con notas inferiores a 5, que alumnos con notas superiores a 5 puntos. O lo que es lo mismo, el 50% de loa alumnos tienen menos de un 5 de puntuación y el otro 50% tiene una calificación de más de 5 puntos.
9
Variable continua o agrupada: Para su calculo procedemos del siguiente modo:
- Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Es decir, los intervalos seguirán orden creciente.
- Calculamos 2N
- En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta
acumulada, identificamos el PRIMER valor que sea mayor o igual que 2N . Vamos a
suponer que este valor se alcanza en el intervalo i-ésimo. - Identificamos los siguientes elementos:
→iN valor de la primera frecuencia absoluta acumulada que supera o es igual 2N
→−1iN valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a [ )ii LL ,1−
[ ) →− ii LL ,1 Intervalo correspondiente a . En él se encuentra el valor de la mediana. Se denomina
iNintervalo mediano.
→ia amplitud del intervalo [ )ii LL ,1−
→in frecuencia absoluta del intervalo [ )ii LL ,1−
Aplicamos la siguiente fórmula:
ii
i
ie an
NN
LM .2 1
1
−
−
−+= y obtenemos el valor de la mediana.
En el ejemplo de la variable continua o agrupada:
Intervalos Marca de clase ix
ni Ni
148,5 — 153,5 151 2 2 153,5 — 158,5 156 4 6 158,5—163,5 161 11 17 163,5 — 168,5 166 14 31 168,5 — 173,5 171 5 36 173,5 — 178,5 176 4 40 Totales N = 40
Los intervalos siguen orden creciente.
20240
2==
N
El PRIMER valor de mayor o igual que iN2N
es 314 =N
Identificamos los siguientes elementos:
314 =N 171 =−iN
[ ) [ ) →= 5'168,5'163, 43 LL Intervalo mediano.
10
54 =a amplitud del intervalo 144 =n Frecuencia absoluta del intervalo mediano.
Aplicamos la siguiente fórmula:
57,1645.14
17240
5,163.24
4
3
3 =−
+=−
+= an
NN
LM e
Por tanto, 164,57cm. Es el valor de la altura que divide la distribución en dos partes iguales. Es decir, el 50% de los adolescentes mide menos de 164,57cm. Y el otro 50% de ellos mide más de 164,57cm. OBSERVACIÓN: La mediana es una medida única para cada distribución.
Ejercicios: 1, 2, 3, 4
MEDIDAS DE POSICIÓN
Para calcular las medidas de posición debemos tener SIEMPRE los datos ordenados. Los ordenaremos de menor a mayor. En caso contrario podríamos, razonando de forma similar, obtener las expresiones de estas medidas.
Los cuartiles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son TRES valores de la variable que dividen la distribución en CUATRO partes iguales. Es decir, entre cada dos cuartiles consecutivos se encuentra el 25% de las observaciones. Es decir, el 25% de los individuos de la población. Notación: . Son pues 3 valores: 3,2,1=kconQk 321 ,, QQQ
Los deciles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son NUEVE valores de la variable que dividen la distribución en DIEZ partes iguales. Es decir, entre cada dos deciles consecutivos se encuentra un 10% de los individuos de la población. Se representan por 9...3,2,1=kDh
Por ejemplo: es el valor de la variable que deja a su izquierda el 30% de los individuos de la población. Es decir, un 30% de la población tendrá valor de la variable menor o igual que .
→3D
32C
Los centiles o percentiles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son NOVENTA Y NUEVE valores de la variable que dividen la distribución en CIEN partes iguales. Es decir, entre cada dos percentiles consecutivos se encuentra un 1% de los individuos de la población. Se representan por 99...3,2,1=kCh Por ejemplo: es el valor de la variable que deja a su izquierda el 32% de los individuos de la población. Es decir, un 32% de la población tendrá valor de la variable menor o igual que.
→32C
Cálculo de los cuartiles, deciles y percentiles:
- Su cálculo se obtiene de forma similar a la mediana. - Para poder calcular estas medidas de posición, los datos tienen que presentarse en una tabla
ordenados de menor a mayor. - Procedemos de forma diferente, según sea la naturaleza de la variable en estudio.
11
Variable discreta o no agrupada:
o Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. o Calculamos, según el caso:
Para el cálculo de un cuartil: →= 3,2,1; kQk 3,2,14.
=kNk
Para el cálculo de un decil: →= 9,..3,2,1; kDk 9,...3,2,110.
=kNk
Para el cálculo de un percentil: →= 99,...3,2,1; kCk 99,...3,2,1100
.=kNk
o Miramos la tabla de frecuencias absolutas acumuladas y observamos el primer valor de dichas frecuencias que sea superior o igual al valor obtenido en el punto anterior.
o El valor de la variable correspondiente a dicha frecuencia es el cuartil, decil o percentil buscado.
En el ejemplo de la variable discreta o no agrupada:
- Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor.
TABLA DE FRECUENCIAS
xi ni Ni 1 2 2 2 3 5 3 3 8 4 9 17 5 12 29 6 9 38 7 6 44 8 3 47 9 1 48
10 2 50
Totales N = 50
Calculamos los tres cuartiles: →= 3,2,1; kQk 3,2,14.
=kNk
PRIMER CUARTIL: 1Q
1. Calculamos: 5,124
504.1
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 417 44 =→= xF 3. →= El 25% de los alumnos han tenido una nota menor o igual que 4. = 441 xQ
SEGUNDO CUARTIL: eMQ =2
1. Calculamos: 254
1004.2
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 529 55 =→= xF 3. →=== 552 xMQ e El 50% de los alumnos han tenido una nota menor o igual que 5.
12
TERCER CUARTIL: 3Q
1. Calculamos: 5,374
1504.3
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 638 66 =→= xF 3. 66 Comentario: el 75% de los alumnos han tenido una nota menor o igual que 6 3 == xQ
Calculamos los deciles: →= 9,..3,2,1; kDk 9,...3,2,110.
=kNk
Por ejemplo: 853; DyDD
TERCER DECIL: 3D
1. Calculamos: 1510150
10.3
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 417 44 =→= xF 3. →= El 30% de los alumnos han tenido una nota menor o igual a 4. = 443 xD
QUINTO DECIL: 5D
1. Calculamos: 2510250
10.5
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 529 55 =→= xF 3. 555 === xMD e El 50% de los alumnos han tenido una nota menor o igual que 5.
OCTAVO DECIL: 8D
1. Calculamos: 4010400
108
==N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 40 948 9.9 =→= xF 3. 77 El 80% de los alumnos han tenido una nota menor o igual a 7. 8 == xD
Calculamos los percentiles: →= 99,...3,2,1kCk 99,...3,2,1100
.=kNk
Por ejemplo: 95755030 ;;; CCCC
PERCENTIL: 30C
1. Calculamos: 15100
.30=
N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 417 44 =→= xF 3. 44 El 30% de los alumnos han tenido una nota menor o igual a 4. 30 == xC
13
PERCENTIL: 50C
1. Calculamos: 25100
.50=
N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 529 55 =→= xF 3. 5550 === xMC e El 50% de los alumnos han tenido una nota menor o igual que 5.
PERCENTIL: 75C
1. Calculamos: 5,3710075
=N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 37,5 638 66 =→= xF 3. 66 El 75% de los alumnos han tenido una nota menor o igual a 6. 75 == xC
PERCENTIL: 95C
1. Calculamos: 5,4710095
=N
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 47,5 948 99 =→= xF 3. 99 El 95% de los alumnos han tenido una nota menor o igual a 9. 95 == xC
Variable continua o agrupada:
Para su calculo procedemos del siguiente modo:
• Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Es decir, los intervalos seguirán orden creciente.
• Calculamos, según el caso:
Para el cálculo de un cuartil: →= 3,2,1; kQk 3,2,14.
=kNk
Para el cálculo de un decil: →= 9,..3,2,1; kDk 9,...3,2,110.
=kNk
Para el cálculo de un percentil: →= 99,...3,2,1; kCk 99,...3,2,1100
.=kNk
• En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta acumulada, identificamos el PRIMER valor que sea mayor o igual que el resultado obtenido en el apartado anterior. Vamos a suponer que este valor se alcanza en el intervalo i-ésimo.
Identificamos los siguientes elementos:
- →iN Valor de la primera frecuencia absoluta acumulada que supera o es igual 100
.10.
4. NkoNkoNk
según estemos calculando cuartil, decil o percentil.
- →−1iN valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a
[ )ii LL ,1−
14
- Intervalo correspondiente a iN . En él se encuentra el valor del cuartil, decil o percentil
buscado.
[ ) →− ii LL ,1
- →ia amplitud del intervalo [ )ii LL ,1−
- →in frecuencia absoluta del intervalo [ )ii LL ,1−
• Aplicamos la siguiente fórmula y obtenemos el valor del parámetro buscado:
Para el cálculo de un cuartil: 3,2,1.4.
1
1 =−
+=−
− kparaan
NNk
LQ ii
i
ik
Para el cálculo de un decil: 9,...3,2,1.10.
1
1 =−
+=−
− kparaan
NNk
LD ii
i
ik
Para el cálculo de un percentil: 99,...2,1.100.
1
1 =−
+=−
− kparaan
NNk
LC ii
i
ik
En el ejemplo de la variable continua o agrupada:
Vamos a calcular, por ejemplo, 9051 ;; CDQ
Intervalos Marca de clase
ix ni Ni
148,5 — 153,5 151 2 2 153,5 — 158,5 156 4 6 158,5—163,5 161 11 17
163,5 — 168,5 166 14 31 168,5 — 173,5 171 5 36 173,5 — 178,5 176 4 40
Totales N = 40
• Los intervalos siguen orden creciente. • Calculamos:
Para el cálculo de un cuartil: 104
404.1
1 ==→NQ
Para el cálculo de un decil: 2010200
10.5
5 ==→ND
Para el cálculo de un percentil: 36100
.9090 =→
NC
• El PRIMER valor de iN mayor o igual que:
1Q 5D 90C
104.1
=N
es 173 =N 2010.5
=N
es 314 =N 28100
.70=
N es 365 =N
15
Identificamos los siguientes elementos:
1Q 5D 90C
173 =N 62 =N
[ ) [ )5'163,5'158, 32 =LL 53 =a amplitud intervalo 113 =n frec abs intervalo
16
314 =N 173 =N
[ ) [ )5'168,5'163, 43 =LL 54 =a amplitud intervalo 144 =n frec abs intervalo
365 =N 314 =N
[ ) [ )5'173,5'168, 54 =LL 55 =a amplitud intervalo 55 =n frec abs intervalo
• Aplicamos la siguiente fórmula:
Para el cálculo del cuartil:
321605.11
6105,158.4.1
33
2
21−
+=−
+= an
NN
LQ ,=
Por tanto, el 25% de los adolescentes miden menos de 160,32 cm. También podemos concluir que, el 75% de los adolescentes miden más de 160,32 cm.
Para el cálculo del decil:
eMan
NN
LD ==−
+=−
+= 57,1645.14
17205,163.10.5
44
3
35
Por tanto, el 50% de los adolescentes mide menos de 164,57cm.
Para el cálculo del percentil:
5,1735.5
31365,168.10040.90
55
4
490 =−
+=−
+= an
NLC
Por tanto, el 90 % de los adolescentes mide menos de 173,5 cm. O lo que es lo mismo, el 10% de los adolescentes mide más de 173,5cm. OBSERVACIÓN: La mediana coincide con el segundo cuartil, el quinto decil y, el percentil número 50. Es decir, 5052 CDQM e === . Además: ; ; ; 251 CQ = 753 CQ = 101 CD = 101 CD = ; 202 CD = ; ... 808 CD = ; 909 CD =
Ejercicios: 8
MEDIDAS DE DISPERSIÓN Varianza. Es la media de los cuadrados de las desviaciones respecto a la media. Se representa por . 2S
Cuadrado de las desviaciones respecto de la media: ( )2Xxi −→
Varianza: ( )
( ) 222
1
221
2
1
21
2
2.
. XXXfxXN
nxfXx
N
nXxS
m
iii
m
iiim
iii
m
iii
−=−=−=−=−
= ∑∑
∑∑
=
=
=
=
OBSERVACIONES:
( )2
2 1
m
i ii
x X nS
N=
−=
∑ Tiene la ventaja de que las desviaciones grandes afectan más al resultado. No tiene las mismas unidades que la variable en estudio. Es siempre positiva. Es nula cuando todos los valores coinciden con la media.
Desviación típica. Es la raíz cuadrada de la varianza.
( )( ) 222221
2
1
21
2
2 ..
..
XXXfxXN
nxfXx
N
nXxSS ii
m
iiim
iii
m
iiI
−=−=−=−=−
== ∑∑
∑∑
=
=
=
OBSERVACIONES:
2S S= Es la unidad de dispersión más utilizada. Las unidades son las mismas que las de la muestra. Es siempre positiva. Cuanto mayor sea la desviación típica, más alejados están los valores de la distribución de su valor
medio. Haciendo las cálculos en la tabla del ejemplo anterior, se pueden calcular las medidas de dispersión de la variable discreta de la siguiente manera:
xi ni xi.ni ( )Xxi − ( )2Xxi −
( ) ii nXx .2
−2ix ii nx ,2
1 2 2 -4,24 17,9776 35,9552 1 2 2 3 6 -3,24 10,4976 31,4928 4 12 3 3 9 -2,24 5,0176 15,0528 9 27 4 9 36 -1,24 1,5376 13,8384 16 144 5 12 60 -0,24 0,0576 0,6912 25 300 6 9 54 0,76 0,5776 5,1984 36 324 7 6 42 1,76 3,0976 18,5856 49 294 8 3 24 2,76 7,6176 22,8528 64 192 9 1 9 3,76 14,1376 14,1376 81 81
10 2 20 4,76 22,6576 45,3152 100 200 Totales N = 50 262 203,12 1576
MEDIA:
m
i ii=1
x .n262X= 5,24
N 50= =
∑
VARIANZA.: la obtenemos de dos formas.
( )0624,4
5012,2031
2
2 ==−
=∑
=
N
nXxS
m
iii
( ) 0624,44576,2752,3124,550
1576.
221
2
2 =−=−=−=∑
= XN
nxS
m
iii
DESVIACIÓN TÍPICA:
01553,20624,42 === SS
17
Variable continua Para variables agrupadas. el procedimiento es el mismo, salvo que la marca de clase hace el papel de valor de la variable: ix
Intervalos Marca de clase ix ni ii nx .
( )Xxi − ( )2Xxi − ( ) ii nXx .2
− 2ix ii nx ,2
148,5 — 153,5 151 2 302 -13,5 182,25 364,5 22801 45602 153,5 — 158,5 156 4 624 -8,5 72,25 289 24336 97344 158,5—163,5 161 11 1771 -3,5 12,25 134,75 25921 285131
163,5 — 168,5 166 14 2324 1,5 2,25 31,5 27556 385784 168,5 — 173,5 171 5 855 6,5 42,25 211,25 29241 146205 173,5 — 178,5 176 4 704 11,5 132,25 529 30976 123904
Totales N = 40 6580 1560 1083970
MEDIA:
m
i ii=1
x .n6580X= 164,5
N 40cm= =
∑ Es la altura media de los adolescentes
VARIANZA.: 2( )σ la obtenemos de dos formas.
( )2
2 1 1560 3940
m
i ii
x X nS
N=
−= =
∑= ( )
2
2 22 1.
1083970 1,645 3940
m
i ii
x nS X
N== − = − =∑
DESVIACIÓN TÍPICA: ( )σ
2 39 19,5S S= = =
Ejercicios: 5, 6, 7, 9 NOTACIÓN: En Estadística es muy útil la notación con subíndices. El símbolo xi (léase "x sub i") denota cualquiera de los m valores x1, x2, x3, ....., xm que una variable x puede
tomar. La letra "i" en xi puede representar cualquiera de los números 1, 2, 3, ... m y se llama subíndice.
También es muy frecuente el uso del símbolo de sumatorio ∑=
m
iix
1
Para indicar la suma de todas las xi desde i = 1 hasta i = m, es decir, por definición:
mi m
ii xxxxxx ......321
1+++++=∑
=
En general, identificamos a las variables estadísticas por una letra mayúscula: X y entonces, xi representa el valor o modalidad i-ésimo de la variable estadística X. En general diremos que los valores o modalidades de la variable X son; mi xx o bien
m xxx ,.....,....,, 321
idesdexi .....1=
18
EJERCICIO RESUELTO Para las quince notas siguientes:
2, 5, 6, 1, 7, 6, 9, 6, 8, 5, 5, 4, 7, 7, 1
a) Construye una tabla de frecuencias y halla la media aritmética. b) Calcula la varianza 2( )σ y la desviación típica ( )σ . c) Halla el número de alumnos comprendidos en el intervalo ( )σσ +− xx , . d) Dibuja un diagrama de barras con frecuencias absolutas e) Dibuja un polígono de frecuencias absolutas.
ix ni ii nx .
( )Xxi − ( )2Xxi − ( ) ii nXx .2
−2ix ii nx ,2
1 2 2 -4,3 18,49 36,98 1 22 1 2 -3,3 10,89 10,89 4 44 1 4 -1,3 1,69 1,69 16 165 3 15 -0,3 0,09 0,27 25 756 3 18 0,7 0,49 1,47 36 1087 3 21 1,7 2,89 8,67 49 1478 1 8 2,7 7,29 7,29 64 649 1 9 3,7 13,69 13,69 81 81 N = 15 79 80,95 497
MEDIA:
m
i ii=1
x .n79X= 5,3
N 15= =
∑ Es la nota media
VARIANZA.: la obtenemos de dos formas.
( )2
2 1.
80,95 5,415
m
i ii
x X nS
N=
−= =
∑= ( )
2
2 22 1.
497 5,3 5,415
m
i ii
x nS X
N== − = − =∑
DESVIACIÓN TÍPICA:
2 5, 4 2,7S S= = =
INTERVALO ( )σσ +− xx , : ( )σσ +− xx , = ( )5,3 2,7 , 5,3 2,7 (2.6 , 8)− + = 11 alumnos (11/15 = 73%)
19
EJERCICIOS 1) El número de hermanos de los alumnos de una clase es el siguiente:
0 1 0 0 3 2 1 4 0 0 1 1 2 0 1 1 2 0 1 1 2 1 3 0 0 2 1 2 3 5
a) Efectúa el recuento. b) Elabora una tabla de frecuencias en las que se incluyan: frecuencia absoluta, absoluta
acumulada, relativa y relativa acumulada. c) Dibuja un diagrama de barras con frecuencias absolutas acumuladas y un polígono de
frecuencias absolutas. d) Calcula la media, la moda y la mediana.
2) Se ha lanzado un dado 20 veces y se han obtenido los siguientes resultados: 3, 4, 5, 2, 1, 4, 6, 1, 3, 2, 5, 5, 3, 2, 4, 4, 1, 2, 5, 6
a) Construir la tabla de frecuencias. b) Representar los datos con un diagrama de barras y un diagrama de sectores. c) ¿Cuál a sido la puntuación media obtenida?. d) Calcula la moda y la mediana
3) La dirección de tráfico ha recogido la siguiente información relativa al número de multas diarias que
sus agentes han impuesto en una autopista. Hallar todos los parámetros de la muestra e interpretarlos.
Multas Días
[ )5,0 6
[ )10,5 14
[ )15,10 20
[ )20,15 10
4) Se ha pasado un test de 79 preguntas a 600 personas. El número de respuestas correctas se refleja en
la siguiente tabla. Calcula la media, la moda y la mediana
Aciertos Personas
[ )10,0 40
[ )20,10 60
[ )30,20 75
[ )40,30 90
[ )50,40 105
[ )60,50 85
[ )70,60 80
[ )80,70 65
20
5)
De la distribución de frecuencias absolutas representada en la tabla, calcular:
Peso n
[10,12) 4
[12,14) 7
[14,16) 13
[16,18) 10
[18,20] 6
a) La media aritmética y la desviación típica b) ¿Entre qué valores se encuentran los veinte pesos centrales? c) Represente el polígono de frecuencias absolutas acumuladas.
6)
La tabla siguiente representa las frecuencias absolutas , ni , las frecuencias absolutas acumuladas, Fi , y las frecuencias relativasfi , correspondientes a la distribución de una variable estadísticaXi:
Xi ni F f
1 2 0,04
2 6
3 0,16
4 6
5 30
6 5
7 0,2
8
a) Complete los datos que faltan en la tabla y representar la distribución mediante una gráfica adecuada.
b) Calcule la media, la moda y la desviación típica de la distribución.
7)
21
Puntuaciones Nº de (38,44] 4
(44,50] 12
(50,56] 10
(56,62] 30 (62,68] 20 (68,74] 8 (74,80] 6
Se ha aplicado un test, sobre satisfacción en el trabajo, a 90 empleados de una fábrica, obteniéndose los siguientes resultados:
a) Calcule la media y la mediana. b) Calcule el coeficiente de variación.
8) Hallar de los ejercicios 1,2,3 y 4
a) 1 2;Q Q y Q3
b) 85 3; DyDDc) 33 50 80;P P y P
9) Hallar de los ejercicios 1,2,3 y 4
a) Desviación media b) Varianza c) Desviación típica d) Coeficiente de variación