Estadistica Descriptiva
description
Transcript of Estadistica Descriptiva
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 1
Concepto estadística y su clasificación
La Estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
Desde los comienzos de la civilización han existido formas sencillas de estadística, se utilizaban
representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas
para contar el número de personas, animales o cosas. Hacia el año 3000 a.C. los babilonios
usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y sobre los
géneros vendidos o cambiados mediante trueque. En el siglo XXXI a.C., mucho antes de construir
las pirámides, los egipcios analizaban los datos de la población y la renta del país. Los griegos
clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos.
En nuestros días, la estadística se ha convertido en un método efectivo para describir con
exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos o físicos, y
sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico
no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación
de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las
aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran
exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se
pueden utilizar para analizar datos estadísticos.
La estadística es una importante herramienta para la toma de decisiones en los negocios y se
utiliza prácticamente en todos los campos de negocios.
La palabra estadística tiene muchas connotaciones.
En realidad tiene dos significados
1. El uso más común, la estadística se refiere a información numérica.
Ejemplo:
- En Canadá la información correspondiente es que recorre 10 371 millas para automóviles,
19 823 millas para autobuses, y 7 001 millas para camiones.
- El tiempo promedio que se pasa en espera para recibir apoyo técnico es de 17 minutos.
- La oficina del Censo calcula que la población en EUA será de 335 050 000 en el año 2025.
- La extensión promedio de los nueve ciclos empresariales desde 1945 (medidos de pico a
pico) es de 61 meses.
El tema de lo estadístico tiene un significado mucho mayor que el de la recopilación y publicación
de la información numérica.
2. Estadística Es la ciencia que recolecta, organiza, presenta, analiza e interpretar datos
para ayudar en una forma de decisiones más efectiva.
El primer paso en la investigación de un problema es la recolección de datos importantes. Debe
de organizarse de cierta manera y presentarse. Podemos analizar e interpretar la información
hasta que los datos hayan sido organizados.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 2
¿Por qué hay que estudiar Estadística?
En todos lados encontramos información numérica.
Las técnicas estadísticas se utilizan para tomar decisiones que afectan nuestra vida
diaria.
El conocimiento de los métodos estadísticos ayudarán a entender por qué se toman
ciertas decisiones, y aportarán una mejor comprensión sobre la manera en la que
afectan.
Generalmente el estudio de la Estadística se divide en dos categorías: Estadística descriptiva y
Estadística inferencial.
ESTADISTICA DESCRIPTIVA
La estadística descriptiva analiza, estudia y describe en su totalidad los individuos o elementos
de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla para
que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente
para el fin que se desee.
Los conjuntos de datos no organizados (como el censo de población, los ingresos semanales de
programadores en informática y las respuestas individuales de 2340 electores registrados acerca
de su selección para presidente de México) son de poco valor. Sin embargo, hay técnicas
disponibles para organizar este tipo de información de manera significativa.
Algunos datos pueden organizarse en una distribución de frecuencias. Pueden utilizarse diversos
tipos de gráficas para describir los datos. Pueden utilizarse un cierto número de medidas
estadísticas para describir como se agrupan estrechamente los datos respecto a un promedio y a
su variabilidad.
ESTADISTICA INFERENCIAL
La estadística inferencial, trabaja con muestras, subconjuntos formados por algunos individuos de
la población. A partir del estudio de la muestra se pretende inferir en aspectos relevantes de
toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de
confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para
cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y
matemáticas.
Es un conjunto de métodos utilizados para saber algo acerca de una población, basándose en una
muestra.
Si un investigador reúne datos de una muestra y utiliza la estadística generada para llegar a
conclusiones acerca de la población de la cual se toma la muestra, la estadística es inferencial.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 3
Una población en el sentido estadístico, no siempre se refiere a personas.
Población Conjunto de todos los posibles individuos, objetos o medidas de interés.
Generalmente tomamos una muestra de una población para deducir algo acerca de la
misma.
Muestra Una porción, o parte, de una población de interés y si se toma adecuadamente,
es representativa de la población.
Existen algunos conceptos que se aplican al análisis de las variables que deben quedar en claro.
Algunas medidas son generales y otras especiales de acuerdo al tipo de variable mensurada.
Medidas generales
n: es el número de casos de la muestra
N: es la suma del número de casos de varias muestras.
x: cada uno de los datos de la muestra
Σ : sumatoria de los datos de una serie
Medidas para variables numéricas:
Media: es la suma de todos los valores divido por el número de casos n.
Mediana: corresponde al valor central de la serie de datos observada.
Moda: valor más frecuente de una serie de datos.
Varianza: es el promedio de los cuadrados de los desvíos; la Varianza mide la
dispersión de los valores y marca el punto de inflexión de las curvas en los
histogramas.
Desviación Estándar (SD) : es la raíz cuadrada de la Varianza
Error Estándar: es la división entre el SD y la raíz cuadrada de n.
Intervalo de Confianza para la Media ( ): se define como el espacio o intervalo comprendido por
los valores extremos de la muestra, en el que teóricamente se va a encontrar la media de la
población o universo. Habitualmente se utiliza el IC del 95% de la media, representado por un
valor mínimo y máximo.
Variables discretas y continuas, dando ejemplo.
Una variable aleatoria es un evento numérico cuyo valor es determinado mediante un proceso
escogido al azar, es decir, es una variable que asume cualquier valor. Una variable aleatoria es
una función que es asociado con un número o valor real a cada elemento de un conjunto de
todos los resultados posibles de un experimento (espacio muestral).
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 4
Estas variables pueden ser discretas o continuas
1. Variable Discreta si un espacio muestral contiene un número finito de posibilidades o
una secuencia sin final con igual número de elementos que números enteros, por
ejemplo: en un proceso de producción se revisan las tarjetas electrónicas que se van
procesando al ser revisada cada tarjeta se clasifican como buena o mala, de manera que
los elementos son cantidades enteras, es decir el conjunto de posibles resultados son
contables.
2. Variable Continua si un espacio muestral contiene un número infinito de posibilidades,
es decir es cualquier valor dentro de límites determinados, cuando una variable puede
tomar valores en una escala continua, por ejemplo: El tiempo de un corredor un una
distancia determinada, el tiempo es una variable que se puede medir con un grado de
precisión, entonces tenemos claro que podemos tener un número infinito de tiempos
posibles en el espacio muestral y que no puede igualarse a números enteros
MUESTREO ALEATORIO Y TECNICAS DE MUESTREO
Un estudio con un número de posibles observaciones ya sea pequeño o grande finito o infinito,
por ejemplo; si se lanzara un dado de manera indefinida y registramos todos los datos obtenidos
de este lanzamiento, obtendríamos un conjunto infinito de valores y cada valor es un resultado
de una sola tirada de dados.
En este caso la totalidad de las observaciones obtenidas, sea un número finito o infinito,
constituye lo que se llama una población, una población consiste en la totalidad de las
observaciones o valores.
Tomar una muestra ( es un subconjunto de una población) significa escoger elementos de una
población con el objeto de analizar alguna característica que nos permita hacer deducciones
acerca de la población, el hecho de tomar una muestra nos ahorra trabajo y costo en la
investigación, por ejemplo, si recibimos un lote de 5000 unidades de un artículo, pensar en
revisar todo el lote completo para verificar si tiene las especificaciones con las que fueron
solicitados o las especificaciones que indica, implicaría costo de mano de obra y tiempo, por esa
razón sacamos una muestra de ese lote y podemos obtener información acerca de la población,
con esos datos podremos aceptar o rechazar el lote. Las unidades de un lote deben de ser
elegidas al azar, es decir que todos los elementos tienen la misma probabilidad de ser elegidos,
para una inspección y estas unidades son representativas de todos los artículos del lote.
Un muestreo aleatorio es cuando cada uno de los elementos de la población tiene la misma
probabilidad de ser elegido para una muestra. Las muestras aleatorias son llamadas también
muestras probabilísticas o muestras científicas.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 5
Los pasos principales para toma una MUESTRA son:
1. Especificar cuál es el objetivo del estudio
2. Conocer la Población
3. Recolección de datos es importante conocer los elementos que serán seleccionados
aleatoriamente estudiando sus características ya que estos elementos o unidades nos dan
una información representativa de la población.
4. Especificar el grado de precisión los resultados muestrales siempre están sujetos a
cierta incertidumbre debido a que solamente son una parte de la población.
5. Método de medición se selecciona un instrumento de medición y un método adecuado
para muestrear la población.
6. Estructura es la clasificación adecuada de las unidades de medida, deben manejarse las
mismas unidades de medida, es decir, si utilizamos centímetros, metros, kilogramos, etc.
Organización de Datos.
Una manera de obtener datos es a través de la observación directa. Un experimento estadístico
es una forma de observación directa en la que se controlan algunos o todos los factores que
pueden influir sobre la variable que se estudia.
En algunas situaciones, no es posible obtener datos en forma directa, sino que, más bien, la
información debe obtenerse a partir de respuestas individuales. Una encuesta estadística es el
proceso de recopilar datos pidiendo a personas que proporciones información. Los datos pueden
obtenerse con métodos como la entrevista personal o telefónica o a través de un cuestionario
escrito.
Ejemplo: Puede compararse dos métodos de ensamblar un componente, haciendo que un grupo
de empleados utilice uno de ellos y que otro grupo el segundo. Se iguala a los miembros de los
dos grupos en términos de factores como edad y experiencia.
En algunas situaciones la información debe obtenerse a partir de respuestas individuales. Una
encuesta estadística es el proceso de recopilar datos pidiendo a personas que proporcionen
información y puede ser por entrevista personal, entrevista telefónica o cuestionarios escritos.
Ejemplo: Un analista de la Secretaría del Trabajo necesita determinar que aumentos o
reducciones en el nivel de empleo tiene planeados las empresas. Un método común para obtener
los datos es efectuando una encuesta entre las empresas.
Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien
pensadas acerca de las causas y por tanto de los efectos probables de ciertas características en
situaciones dadas.
Antes de depositar nuestra confianza en cualquier conjunto de datos debemos asegurarnos que
éstos están basados en suposiciones e interpretaciones correctas, pues obtendríamos resultados
falsos si se trabaja con datos incompletos, parciales y no representativos de nuestra población.
Por ello es importante el muestreo.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 6
El muestreo aleatorio es aquel en el que cada uno de los elementos de la población de interés, o
población objeto, como se le conoce, tiene una probabilidad conocida, y frecuentemente igual,
de ser elegido para la muestra. Son cuatro los principales métodos de muestreo aleatorio:
aleatorio simple, sistemático, estratificado y por conglomerados.
TIPOS DE MUESTREO
1. Muestreo aleatorio simple se selecciona “n” unidades de una población de tamaño “N”
de tal forma que cada uno de sus elementos tiene la misma probabilidad de ser
seleccionada. Debido a que el número que es seleccionado se retira de la población en
cada selección a este método se le llama muestreo aleatorio simple sin reemplazamiento.
El muestreo aleatorio simple con reemplazamiento es cuando se selecciona un elemento
y es regresado Y seleccionado nuevamente, es decir todos los elementos tienen la misma
probabilidad de ser seleccionados no importando si ellos fueron seleccionados
previamente.
2. Muestreo aleatorio estratificado se utiliza cuando existe situaciones donde la
característica de interés no parece homogénea en toda la población, ejemplo cuando se
desea estimar el tiempo promedio que tarda una persona en ser atendida en un
determinado banco de la ciudad, en este caso de debe de considerar la hora, el día de la
semana o el día del mes, puesto que el tiempo de atención de una persona varía
considerablemente de acuerdo a estas características.
3. Muestreo sistemático cuando tenemos un proceso continuo se toma al azar o
aleatoriamente, el primer elemento para tomar muestra de los elementos siguientes para
saber si nos encontramos dentro de proceso, se toma la unidad cada k-esima unidad, por
ejemplo si k =10 y la primera unidad escogida al azar es de 7, las siguientes van a hacer
17, 27, 37 así sucesivamente hasta tener la muestra completa.
4. Muestreo por conglomerados cuando se tiene una población grande y es imposible
enumerar se subdividen las poblaciones en subgrupos de igual tamaño y posteriormente
se toma una muestra aleatoria simple de cada subgrupo, ejemplo, una compañía
productora de aparatos eléctricos embarca radios en cajas que contienen 10 radios cada
una en este caso se toma una muestra de cajas y se inspeccionan los 10 radios de cada
caja.
5. Muestreo en dos etapas es cuando dividimos un número de unidades más pequeñas,
ejemplo suponga que en un almacén llega un embarque de 100 cajas con 20 cajas cada
una de 10 de diskettes para computadora, si deseamos verificar la calidad del producto
se toma una muestra al azar dentro de las 100 cajas (primera etapa de la muestra) y
posteriormente otra segunda muestra aleatoria de cajas de los diskettes
Un principio básico de este modelo es aquel que define que todos los elementos tienen la
misma probabilidad de ser elegidos y consiste en seleccionar una muestra en forma
aleatoria, generalmente se utiliza una tabla de números aleatorios (random) o por
procesos de computación.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 7
Por ejemplo: si se desea elegir una muestra aleatoria de los padres de familia de una
determinada escuela, se obtiene el archivo de los nombres de los estudiantes, esta lista
se enumera en orden progresivo y se revisa la lista con el propósito de que no se
duplique los nombres.
Al tener la lista con una calculadora que tenga la función de números aleatorios
(random), con una urna con números o nombres de los alumnos, con una tabla ya
generada de números aleatorios o con procesos computacionales, se eligen los alumnos
que serán parte de la investigación que se realizará.
Ya que se han obtenido los datos, el siguiente paso es organizarlos en Distribuciones de
Frecuencia
Medidas de Tendencia central (o de posición)
Una medida de tendencia central o de posición es un valor que se calcula para un grupo de
datos y que se utiliza para describirlos de alguna manera. Normalmente se desea que el valor sea
representativo de todos los valores incluidos en el grupo y, por ello, se desea alguna clase de
promedio. En sentido estadístico, un “promedio” es una medida de tendencia central para un
conjunto de valores.
Medidas de Tendencia Central:
- Media Aritmética
- Media Ponderada
- Mediana
- Moda
La media aritmética y media ponderada.
La media aritmética, o promedio aritmético, se define como la división de la suma de todos los
valores entre el número de valores.
PROPIEDADES DE LA MEDIA ARITMETICA
1. Todo conjunto de datos de nivel de intervalo y nivel de razón tienen un valor medio.
2. al evaluar la media se incluyen todos los valores
3. un conjunto de datos solo tiene una media
4. la media es una medida útil para comparar dos o más poblaciones
5. la media es la única medida de posición donde la suma de las desviaciones de cada valor
con respecto a la media siempre será cero.
En estadística es normal representar una medida descriptiva de una población, o
parámetro poblacional, mediante letras griegas, en tanto que se utilizan letras romanas para las
medidas descriptivas de muestras, o estadísticos muestrales. Así, la media aritmética para una
población de valores se presenta mediante el símbolo μ (que se pronuncia mu), en tanto que la
media aritmética de una muestra de valores se representa mediante el símbolo X (que se lee “x
barra”).
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 8
En estadística las características o medidas descriptivas de una población que son los parámetros
se representan mediante letras griegas.
Para las características o medidas descriptivas de una muestra que son estadísticos se
representan mediante letras romanas.
Media de la población
∑
x representa los valores de la variable de interés
N Número total de valores o elementos en la población
x Media de la muestra
∑
n Número total de valores o elementos en la muestra
En cuanto a operaciones se refiere, las dos fórmulas son idénticas; en ambos casos se
suman todos los valores y después se divide este total entre el número de valores que son. Sin
embargo, la diferencia en los denominadores se debe a que el análisis estadístico, la N
normalmente indica el número de elementos de una población, en tanto que la n señala el
número de elementos de una muestra.
La Media Aritmética para Datos Agrupados.
Cuando se agrupan datos en una distribución de frecuencias, se utiliza el punto medio de
cada clase como aproximación de todos los valores contenidos en ella. El punto medio se
representa con el símbolo Xc, en donde el subíndice c se debe a “clase”, y se utiliza la letra f
para representar la frecuencia observada de valores en la clase respectiva. Por ello, las fórmulas
para la media de la población y de la muestra para datos agrupados son:
∑
∑
Media ponderada.- es u caso especial de la media aritmética en la cual se considera a cada uno
de los valores de acuerdo con su importancia en el grupo. A cada valor se le asigna una
ponderación o peso de acuerdo a su importancia en el grupo.
∑
∑
w valor ponderado o peso
La Mediana.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 9
La mediana ( x~ ) de un grupo de datos es el valor del dato que ocupa un lugar medio de
cuando se les agrupa a todos en orden ascendente o descendente. Si el número de medidas es
impar, la mediana será la medida en el centro. Para un grupo con un número par de elementos,
se supone que la mediana se encuentra a la mitad entre los dos valores adyacentes al centro.
Cuando el conjunto de datos contiene un número grande de valores, resulta útil la siguiente
fórmula para determinar la posición de la mediana en el conjunto ordenado.
PROPIEDADES DE LA MEDIANA
1. Es única; esto es, a semejanza de la media, sólo existe una mediana para un conjunto de
datos.
2. No se ve afectada por valores muy grandes o muy pequeños, por lo tanto es una medida
valiosa de tendencia central cuando ocurre este tipo de valores.
3. Puede calcularse para una distribución de frecuencia con una clase de extremo abierto.
4. Puede calcularse para datos de nivel de razón, de intervalo y ordinal.
La media aritmética puede no ser representativa cuando se tienen en los datos uno o dos valores
sumamente grandes o pequeños
La Mediana para Datos Agrupados.
Para datos agrupados, en primer lugar es necesario determinar la clase que contiene el
valor de la mediana, para después determinar la posición de la mediana dentro de la clase
mediante interpolación. La clase que contiene la mediana es la primera cuya frecuencia
acumulada iguala o excede la mitad del total de observaciones. Una vez que se identifica esta
clase, se determina el valor específico mediante la siguiente fórmula:
[
∑
]
En donde: Li = límite exacto inferior de la clase que contiene la mediana.
N = número total de observaciones en la distribución de frecuencias (n para una
muestra)
faA = la frecuencia acumulada de la clase que precede (“antes”) a la clase que
contiene la mediana
fc = número de observaciones en la clase que contiene la mediana.
c = tamaño del intervalo de clase.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 10
La Moda.
La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. A
una distribución que tiene una sola moda se le denomina unimodal. Para un conjunto de datos
poco numeroso, en el que no se repite ningún valor, no existe moda. Cuando dos valores no
adyacentes tienen frecuencias máximas similares, se dice que la distribución es bimodal. A las
distribuciones de mediciones que tienen varias modas se les denomina multimodales.
La moda para el ejemplo es 2860 pues es el valor que presenta mayor frecuencia.
PROPIEDADES DE LA MODA
1. Puede calcularse para datos de nivel de razón, de intervalo, nominal y ordinal.
2. No se ve afectada por valores muy grandes o muy pequeños.
3. Puede utilizarse para una distribución de frecuencia con una clase de extremo abierto.
Sin embargo, la moda tiene algunas desventajas que hacen que se utilice con menos frecuencia
que la media o la mediana.
1. Para muchos conjuntos de datos no hay valor modal porque ningún valor aparece más de
una vez. Tendría que tomarse cada valor como una moda.
2. Para algunos conjuntos de datos hay más de una moda. Sería cuestionable utilizar más de
una moda para representar la tendencia central de un conjunto de datos.
con una moda se le denomina unimodal
cuando dos valores no adyacentes tienen frecuencias máximas similares en el
conjunto de datos se dice que se tiene dos modas se le denomina bimodal
a las distribuciones de mediciones que tienen varias modas se les denomina
multimodal.
La Moda para Datos Agrupados.
Para datos agrupados en una distribución de frecuencias con intervalos de clase iguales, primero
se identifica la clase que contiene la moda determinando cuál de ellas tiene el mayor número de
observaciones. Algunos profesionales de estadística consideran que la moda es el punto medio de
la clase modal. Sin embargo, la mayoría de ellos interpolan dentro de la clase modal, de acuerdo
con la siguiente fórmula:
[
]
En donde: Li = límite exacto inferior de la clase que contiene la moda.
d1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
precedente.
d2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
siguiente.
c = tamaño del intervalo de clase.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 11
La diferencia entre los valores de la media, la mediana y la moda permiten saber la forma de la
curva de frecuencia en términos de asimetría.
Para una distribución unimodal simétrica, el valor de la media, la mediana y la moda es
igual.
Para una distribución asimétrica positiva, la media es el mayor valor de las tres y la
mediana es mayor que la moda pero menor que la media
Para una distribución asimétrica negativa, la media es el menor valor de las tres y la
mediana es inferior a la moda pero mayor que la media
Medidas de dispersión.
Media Mediana
Moda
X
F R E C U E N C I
A
Moda Mediana
Media
X
F R E C U E N C I
A
Media Mediana
Moda
F R E C U E N C I
A X
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 12
Las medidas de tendencia central son útiles para identificar un valor típico en un conjunto de
datos. Estas localizan el centro de los datos.
Un promedio no dice nada de la dispersión o variabilidad de los datos.
Un valor pequeño para una medida de dispersión indica que los datos se encuentran acumulados
cercanamente, alrededor de la media por lo que es un promedio confiable.
Por lo contrario una medida de dispersión grande indica que la media no es factible.
Una segunda razón para estudiar la dispersión en un conjunto de datos es poder comparar cuán
dispersas están dos o más distribuciones.
MEDIDAS DE DISPERSION
Amplitud de variación o Rango (se basa en la ubicación del valor mayor y el más pequeño
en un conjunto de datos).
Desviación media
Varianza
Desviación estándar
Estas tres se basan en las desviaciones respecto a la media.
Amplitud de variación o Rango.- es la medida de dispersión más sencilla se trata de la
diferencia entre el valor más grande y el más pequeño de un conjunto de datos.
Una desventaja es que no se consideran todos los datos.
R = Xmay - Xmin
R = rango
Xmay = el valor mayor
Xmin = valor mínimo
Para los ejemplos de las medidas de tendencia central calcular el rango.
Las medidas de variabilidad o dispersión se ocupan de describir la variabilidad entre los
valores.
Rango.
El rango o R es la diferencia entre los valores mayor y menor del conjunto de datos. Así cuando
U representa el mayor valor del grupo y L representa el menor, el rango de los datos es:
Las descripciones más comprensivas de la dispersión son aquellas que tratan con la desviación
promedio con respecto a alguna medida de tendencia central. Dos de tales medidas son
importantes para el estudio estadístico: la varianza y la desviación estándar. Ambas medidas nos
dan una distancia promedio de cualquier observación del conjunto de datos con respecto a la
media de la distribución.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 13
Para el ejemplo, el rango de los datos no agrupados es:
Varianza.
Cada población tiene una varianza, que se simboliza con (σ² sigma cuadrada). La fórmula
para calcular la varianza de una población es
∑
∑ ∑
La fórmula para calcular la varianza muestral incluye un factor de corrección para que
la varianza muestral sea un estimador insesgado de la varianza poblacional.
∑
∑ ∑
La fórmula de varianza para datos agrupados es:
∑
∑
Desviación Estándar.
Por lo general resulta difícil interpretar el significado del valor de una varianza porque las
unidades en las que se expresa son valores al cuadrado, así que con mayor frecuencia
utilizamos la raíz cuadrada de la varianza denominada desviación estándar. La desviación
estándar poblacional se denota por σ y la desviación estándar muestral por s.
√∑
√
∑
La fórmula de desviación estándar para datos agrupados es la raíz de la fórmula
correspondiente de varianza.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 14
Coeficiente de Variación.
El coeficiente de variación proporciona una medida de variabilidad que es
independiente de la unidad de medida, por ello, puede usarse para comparar la variabilidad de
dos grupos de datos expresados en dos distintas unidades de medida. Por ejemplo, puede
usarse para comparar la desviación estándar de la distribución de los ingresos anuales, y la
desviación estándar de los años de servicio de todos los empleados de una compañía.
El coeficiente de Variación (CV) expresa la desviación estándar como un porcentaje de
la media y se define como
(
)
Dicho de otra manera, el CV indica la magnitud relativa de la desviación estándar con respecto a
la medida de la distribución. El CV es útil cuando se desea comparar la variabilidad de dos
conjuntos de datos con respecto al nivel general de los valores de cada conjunto.
FORMULARIO:
Distribución de frecuencia
1. El intervalo de clase o amplitud w
Núm. Clases nln3.3
n núm. Datos
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN
(MEDIA, MODA, VARIANZA Y DESVIACIÓN ESTÁNDAR).
DATOS AGRUPADOS: A) MEDIDAS DE TENDENCIA CENTRAL:
1. MEDIA DE LA POBLACIÓN:
∑
2. MEDIANA:
[
]
Li= limite exacto inferior de la clase que contiene la mediana N = Número total de observaciones en la distribución de frecuencias (n para muestras) = Frecuencia acumulada de la clase que precede (antes) a la clase que contiene la mediana = Frecuencia de clase que contiene la mediana w = longitud del intervalo de clase
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 15
3. MODA:
[
]
Li = limite exacto inferior de la clase modal d1 = diferencia entre la frecuencia de clase modal y la frecuencia de clase precedente (antes) d2 = diferencia entre la frecuencia de clase modal y la frecuencia de la siguiente clase. w = longitud del intervalo de clase.
VARIANZA:
∑
DATOS NO AGRUPADOS:
A) MEDIDAS DE TENDENCIA CENTRAL.
1. Media aritmética .
2. Media aritmética ponderada ( xw ).
3. Mediana (xmed).
4. Moda (xmod).
B) Varianza o variancia (s2).
POBLACIÓN:
∑
∑ ∑
MUESTRA:
∑ ∑
∑ ∑
n
x
x
n
i
i
1
k
i
i
k
i
ii
w
xwwx
1
1
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 16
DISTRIBUCIÓN DE FRECUENCIA (ELABORACION DE UN CUADRO): 2. Número de clases (NC): indica el rango de los valores incluidos dentro de una clase y puede
ser determinado restando el límite exacto inferior de clase de su límite exacto superior. Cuando no se identifican límites exactos, puede determinarse el intervalo de clase restando el límite nominal inferior de una clase del límite nominal inferior de la clase inmediata siguiente.
Una sugerencia útil para el número de clases está dado por la regla de Sturges, que establece como número de clases (NC) necesario, aproximadamente NC = 3.3 (log n) + 1. El valor NC es común redondearlo al entero más cercano.
EJEMPLO: En la siguiente tabla se presentan las calificaciones de los alumnos de la materia de Estadística Administrativa I
3. Amplitud del intervalo aproximado (w):
Buscar entre los datos cual es el número más pequeño y tomar la decisión de iniciar con ese número o un número menor. Verifica que todos los datos estén en contenido en la tabla, es decir que el dato este contenido en un intervalo.
Por razones de cálculo, todos los intervalos de clase en una distribución de frecuencias dada tienden que ser iguales. Una fórmula que puede utilizarse para determinar el intervalo de clase aproximado es:
88 95 70 70 90 100 90 83 70 95 70 100 70 85 100 97 90 97
100 95 80 80 100 90 100 85 77 100 95 92 75 100 80 77 66 90
100 95 98 70 100 70 90 76 70 80 100 100 90 90 75 80 90 82
Número
de Clase
Intervalo
Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
Este valor significa que la separación entre
un valor y otro es de 5 números, por ejemplo:
Iniciamos en el valor 66, 67, 68, 69, 70, el
primer intervalo estará contemplado desde el
número 66 al 70 ya que se encuentran 5
números, para construir el segundo intervalo se
inicia en el 71, 72, 73, 74, 75, es decir el
segundo intervalo estará desde el 71 al 75 y así
sucesivamente se realizan los cálculos
correspondientes.
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 17
4. Calculo de los limites inferior y superior
Los límites de cada uno de los intervalos se pueden determinar identificando los puntos que están a la mitad entre el intervalo superior e inferior, respectivamente, de las clases adyacentes.
5. Captura la FRECUENCIA, todos los datos que se tienen en la tabla se concentran, es decir
revisa cada uno de los intervalos y captura la cantidad de datos que se encuentra entre esos datos, al final la suma debe de dar el total de los datos.
6. Elabora la FRECUENCIA ACUMULADA:
Número
de Clase
Intervalo Limites
Inferior Superior Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
65.5
70.5
75.5
80.5
85.5
90.5
95.5
70.5
75.5
80.5
85.5
90.5
95.5
100.5
Número
de Clase
Intervalo Limites Frecuencia
Inferior Superior Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
65.5
70.5
75.5
80.5
85.5
90.5
95.5
70.5
75.5
80.5
85.5
90.5
95.5
100.5
9
2
8
4
10
6
15
Número
de Clase
Intervalo Limites Frecuencia
Frecuencia
acumulada Inferior Superior Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
65.5
70.5
75.5
80.5
85.5
90.5
95.5
70.5
75.5
80.5
85.5
90.5
95.5
100.5
9
2
8
4
10
6
15
9
11
19
23
33
39
54
Se considera el valor del intervalo superior
de la clase 1 después suma el intervalo de la
clase 2 y calcula el promedio.
De la columna de frecuencia suma el
número de clase 1 más el número de
clase 2, después el resultado súmalo al
número de clase 3 y así sucesivamente:
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 18
7. Una DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS es aquella en la que la frecuencia de cada clase se divide entre el número total de observaciones. Por esto, cada frecuencia relativa es una proporción y se le puede convertir en porcentaje multiplicándola por 100.
8. FRECUENCIA RELATIVA ACUMULADA
Una de las ventajas que presenta la construcción de la distribución de frecuencias relativas reside en que la distribución acumulada y la ojiva correspondiente indican la proporción acumulada (o porcentaje) de observaciones presentes hasta los diversos valores posibles de la variable.
HISTOGRAMA Y POLIGONO DE FRECUENCIA Una de las formas más comunes utilizadas para representar una distribución de frecuencias es con un histograma, este es un diagrama en el que se marcan los LÍMITES INFERIORES en el EJE HORIZONTAL y las FRECUENCIAS de cada una de las clases en el EJE VERTICAL.
Número
de Clase
Intervalo Limites Frecuencia
Frecuencia
acumulada
Frecuencia
Relativa (%) Inferior Superior Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
65.5
70.5
75.5
80.5
85.5
90.5
95.5
70.5
75.5
80.5
85.5
90.5
95.5
100.5
9
2
8
4
10
6
15
9
11
19
23
33
39
54
16.67
3.70
14.81
7.41
18.52
11.11
27.78
Número
de Clase
Intervalo Limites
Frecuencia
Frecuencia
acumulada
Frecuencia
Relativa (%)
Frecuencia
Relativa
Acumulada (%) Inferior Superior
Inferior Superior
1
2
3
4
5
6
7
66
71
76
81
86
91
96
70
75
80
85
90
95
100
65.5
70.5
75.5
80.5
85.5
90.5
95.5
70.5
75.5
80.5
85.5
90.5
95.5
100.5
9
2
8
4
10
6
15
9
11
19
23
33
39
54
16.67
3.70
14.81
7.41
18.52
11.11
27.78
16.67
20.37
35.18
42.59
61.11
72.22
100
De la columna de frecuencia se divide entre el total de observaciones:
Ahora multiplícalo por 100 para representarlo en porcentaje:
De la columna de frecuencia relativa se suma el número de clase 1
más el número de clase 2:
ESTADISTICA Y CONTROL DE CALIDAD
UNIDAD I Página 19
EJERCICIOS:
1. Los siguientes datos son el número de meses de duración de una muestra de 40 baterías para
coche.
22 41 35 45 32 37 30 26
34 16 31 33 38 31 47 37
25 43 34 36 29 33 39 31
33 31 37 44 32 41 19 34
47 38 32 26 39 30 42 35
2. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible
similares.
24 36 4 40 16 5 18 6 30 60
3 72 66 78 3 28 67 72 15 3
18 48 71 22 57 9 54 4 12 72
3. Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los siguientes datos son
las cuentas que se les facturó el mes pasado:
54 48 58 50 25 47 75 46 60 70
67 68 39 35 56 66 33 62 65 67
4. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística
elemental.
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 97 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61