Estadistica Descriptiva

ESTADISTICA Y CONTROL DE CALIDAD

UNIDAD I Página 1

Concepto estadística y su clasificación

La Estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos

numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de

decisiones.

Desde los comienzos de la civilización han existido formas sencillas de estadística, se utilizaban

representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas

para contar el número de personas, animales o cosas. Hacia el año 3000 a.C. los babilonios

usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y sobre los

géneros vendidos o cambiados mediante trueque. En el siglo XXXI a.C., mucho antes de construir

las pirámides, los egipcios analizaban los datos de la población y la renta del país. Los griegos

clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con

exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos o físicos, y

sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico

no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación

de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las

aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran

exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se

pueden utilizar para analizar datos estadísticos.

La estadística es una importante herramienta para la toma de decisiones en los negocios y se

utiliza prácticamente en todos los campos de negocios.

La palabra estadística tiene muchas connotaciones.

En realidad tiene dos significados

1. El uso más común, la estadística se refiere a información numérica.

Ejemplo:

- En Canadá la información correspondiente es que recorre 10 371 millas para automóviles,

19 823 millas para autobuses, y 7 001 millas para camiones.

- El tiempo promedio que se pasa en espera para recibir apoyo técnico es de 17 minutos.

- La oficina del Censo calcula que la población en EUA será de 335 050 000 en el año 2025.

- La extensión promedio de los nueve ciclos empresariales desde 1945 (medidos de pico a

pico) es de 61 meses.

El tema de lo estadístico tiene un significado mucho mayor que el de la recopilación y publicación

de la información numérica.

2. Estadística Es la ciencia que recolecta, organiza, presenta, analiza e interpretar datos

para ayudar en una forma de decisiones más efectiva.

El primer paso en la investigación de un problema es la recolección de datos importantes. Debe

de organizarse de cierta manera y presentarse. Podemos analizar e interpretar la información

hasta que los datos hayan sido organizados.


UNIDAD I Página 2

¿Por qué hay que estudiar Estadística?

En todos lados encontramos información numérica.

Las técnicas estadísticas se utilizan para tomar decisiones que afectan nuestra vida

diaria.

El conocimiento de los métodos estadísticos ayudarán a entender por qué se toman

ciertas decisiones, y aportarán una mejor comprensión sobre la manera en la que

afectan.

Generalmente el estudio de la Estadística se divide en dos categorías: Estadística descriptiva y

Estadística inferencial.

ESTADISTICA DESCRIPTIVA

La estadística descriptiva analiza, estudia y describe en su totalidad los individuos o elementos

de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla para

que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente

para el fin que se desee.

Los conjuntos de datos no organizados (como el censo de población, los ingresos semanales de

programadores en informática y las respuestas individuales de 2340 electores registrados acerca

de su selección para presidente de México) son de poco valor. Sin embargo, hay técnicas

disponibles para organizar este tipo de información de manera significativa.

Algunos datos pueden organizarse en una distribución de frecuencias. Pueden utilizarse diversos

tipos de gráficas para describir los datos. Pueden utilizarse un cierto número de medidas

estadísticas para describir como se agrupan estrechamente los datos respecto a un promedio y a

su variabilidad.

ESTADISTICA INFERENCIAL

La estadística inferencial, trabaja con muestras, subconjuntos formados por algunos individuos de

la población. A partir del estudio de la muestra se pretende inferir en aspectos relevantes de

toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de

confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para

cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y

matemáticas.

Es un conjunto de métodos utilizados para saber algo acerca de una población, basándose en una

muestra.

Si un investigador reúne datos de una muestra y utiliza la estadística generada para llegar a

conclusiones acerca de la población de la cual se toma la muestra, la estadística es inferencial.


UNIDAD I Página 3

Una población en el sentido estadístico, no siempre se refiere a personas.

Población Conjunto de todos los posibles individuos, objetos o medidas de interés.

Generalmente tomamos una muestra de una población para deducir algo acerca de la

misma.

Muestra Una porción, o parte, de una población de interés y si se toma adecuadamente,

es representativa de la población.

Existen algunos conceptos que se aplican al análisis de las variables que deben quedar en claro.

Algunas medidas son generales y otras especiales de acuerdo al tipo de variable mensurada.

Medidas generales

n: es el número de casos de la muestra

N: es la suma del número de casos de varias muestras.

x: cada uno de los datos de la muestra

Σ : sumatoria de los datos de una serie

Medidas para variables numéricas:

Media: es la suma de todos los valores divido por el número de casos n.

Mediana: corresponde al valor central de la serie de datos observada.

Moda: valor más frecuente de una serie de datos.

Varianza: es el promedio de los cuadrados de los desvíos; la Varianza mide la

dispersión de los valores y marca el punto de inflexión de las curvas en los

histogramas.

Desviación Estándar (SD) : es la raíz cuadrada de la Varianza

Error Estándar: es la división entre el SD y la raíz cuadrada de n.

Intervalo de Confianza para la Media ( ): se define como el espacio o intervalo comprendido por

los valores extremos de la muestra, en el que teóricamente se va a encontrar la media de la

población o universo. Habitualmente se utiliza el IC del 95% de la media, representado por un

valor mínimo y máximo.

Variables discretas y continuas, dando ejemplo.

Una variable aleatoria es un evento numérico cuyo valor es determinado mediante un proceso

escogido al azar, es decir, es una variable que asume cualquier valor. Una variable aleatoria es

una función que es asociado con un número o valor real a cada elemento de un conjunto de

todos los resultados posibles de un experimento (espacio muestral).


UNIDAD I Página 4

Estas variables pueden ser discretas o continuas

1. Variable Discreta si un espacio muestral contiene un número finito de posibilidades o

una secuencia sin final con igual número de elementos que números enteros, por

ejemplo: en un proceso de producción se revisan las tarjetas electrónicas que se van

procesando al ser revisada cada tarjeta se clasifican como buena o mala, de manera que

los elementos son cantidades enteras, es decir el conjunto de posibles resultados son

contables.

2. Variable Continua si un espacio muestral contiene un número infinito de posibilidades,

es decir es cualquier valor dentro de límites determinados, cuando una variable puede

tomar valores en una escala continua, por ejemplo: El tiempo de un corredor un una

distancia determinada, el tiempo es una variable que se puede medir con un grado de

precisión, entonces tenemos claro que podemos tener un número infinito de tiempos

posibles en el espacio muestral y que no puede igualarse a números enteros

MUESTREO ALEATORIO Y TECNICAS DE MUESTREO

Un estudio con un número de posibles observaciones ya sea pequeño o grande finito o infinito,

por ejemplo; si se lanzara un dado de manera indefinida y registramos todos los datos obtenidos

de este lanzamiento, obtendríamos un conjunto infinito de valores y cada valor es un resultado

de una sola tirada de dados.

En este caso la totalidad de las observaciones obtenidas, sea un número finito o infinito,

constituye lo que se llama una población, una población consiste en la totalidad de las

observaciones o valores.

Tomar una muestra ( es un subconjunto de una población) significa escoger elementos de una

población con el objeto de analizar alguna característica que nos permita hacer deducciones

acerca de la población, el hecho de tomar una muestra nos ahorra trabajo y costo en la

investigación, por ejemplo, si recibimos un lote de 5000 unidades de un artículo, pensar en

revisar todo el lote completo para verificar si tiene las especificaciones con las que fueron

solicitados o las especificaciones que indica, implicaría costo de mano de obra y tiempo, por esa

razón sacamos una muestra de ese lote y podemos obtener información acerca de la población,

con esos datos podremos aceptar o rechazar el lote. Las unidades de un lote deben de ser

elegidas al azar, es decir que todos los elementos tienen la misma probabilidad de ser elegidos,

para una inspección y estas unidades son representativas de todos los artículos del lote.

Un muestreo aleatorio es cuando cada uno de los elementos de la población tiene la misma

probabilidad de ser elegido para una muestra. Las muestras aleatorias son llamadas también

muestras probabilísticas o muestras científicas.


UNIDAD I Página 5

Los pasos principales para toma una MUESTRA son:

1. Especificar cuál es el objetivo del estudio

2. Conocer la Población

3. Recolección de datos es importante conocer los elementos que serán seleccionados

aleatoriamente estudiando sus características ya que estos elementos o unidades nos dan

una información representativa de la población.

4. Especificar el grado de precisión los resultados muestrales siempre están sujetos a

cierta incertidumbre debido a que solamente son una parte de la población.

5. Método de medición se selecciona un instrumento de medición y un método adecuado

para muestrear la población.

6. Estructura es la clasificación adecuada de las unidades de medida, deben manejarse las

mismas unidades de medida, es decir, si utilizamos centímetros, metros, kilogramos, etc.

Organización de Datos.

Una manera de obtener datos es a través de la observación directa. Un experimento estadístico

es una forma de observación directa en la que se controlan algunos o todos los factores que

pueden influir sobre la variable que se estudia.

En algunas situaciones, no es posible obtener datos en forma directa, sino que, más bien, la

información debe obtenerse a partir de respuestas individuales. Una encuesta estadística es el

proceso de recopilar datos pidiendo a personas que proporciones información. Los datos pueden

obtenerse con métodos como la entrevista personal o telefónica o a través de un cuestionario

escrito.

Ejemplo: Puede compararse dos métodos de ensamblar un componente, haciendo que un grupo

de empleados utilice uno de ellos y que otro grupo el segundo. Se iguala a los miembros de los

dos grupos en términos de factores como edad y experiencia.

En algunas situaciones la información debe obtenerse a partir de respuestas individuales. Una

encuesta estadística es el proceso de recopilar datos pidiendo a personas que proporcionen

información y puede ser por entrevista personal, entrevista telefónica o cuestionarios escritos.

Ejemplo: Un analista de la Secretaría del Trabajo necesita determinar que aumentos o

reducciones en el nivel de empleo tiene planeados las empresas. Un método común para obtener

los datos es efectuando una encuesta entre las empresas.

Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien

pensadas acerca de las causas y por tanto de los efectos probables de ciertas características en

situaciones dadas.

Antes de depositar nuestra confianza en cualquier conjunto de datos debemos asegurarnos que

éstos están basados en suposiciones e interpretaciones correctas, pues obtendríamos resultados

falsos si se trabaja con datos incompletos, parciales y no representativos de nuestra población.

Por ello es importante el muestreo.


UNIDAD I Página 6

El muestreo aleatorio es aquel en el que cada uno de los elementos de la población de interés, o

población objeto, como se le conoce, tiene una probabilidad conocida, y frecuentemente igual,

de ser elegido para la muestra. Son cuatro los principales métodos de muestreo aleatorio:

aleatorio simple, sistemático, estratificado y por conglomerados.

TIPOS DE MUESTREO

1. Muestreo aleatorio simple se selecciona “n” unidades de una población de tamaño “N”

de tal forma que cada uno de sus elementos tiene la misma probabilidad de ser

seleccionada. Debido a que el número que es seleccionado se retira de la población en

cada selección a este método se le llama muestreo aleatorio simple sin reemplazamiento.

El muestreo aleatorio simple con reemplazamiento es cuando se selecciona un elemento

y es regresado Y seleccionado nuevamente, es decir todos los elementos tienen la misma

probabilidad de ser seleccionados no importando si ellos fueron seleccionados

previamente.

2. Muestreo aleatorio estratificado se utiliza cuando existe situaciones donde la

característica de interés no parece homogénea en toda la población, ejemplo cuando se

desea estimar el tiempo promedio que tarda una persona en ser atendida en un

determinado banco de la ciudad, en este caso de debe de considerar la hora, el día de la

semana o el día del mes, puesto que el tiempo de atención de una persona varía

considerablemente de acuerdo a estas características.

3. Muestreo sistemático cuando tenemos un proceso continuo se toma al azar o

aleatoriamente, el primer elemento para tomar muestra de los elementos siguientes para

saber si nos encontramos dentro de proceso, se toma la unidad cada k-esima unidad, por

ejemplo si k =10 y la primera unidad escogida al azar es de 7, las siguientes van a hacer

17, 27, 37 así sucesivamente hasta tener la muestra completa.

4. Muestreo por conglomerados cuando se tiene una población grande y es imposible

enumerar se subdividen las poblaciones en subgrupos de igual tamaño y posteriormente

se toma una muestra aleatoria simple de cada subgrupo, ejemplo, una compañía

productora de aparatos eléctricos embarca radios en cajas que contienen 10 radios cada

una en este caso se toma una muestra de cajas y se inspeccionan los 10 radios de cada

caja.

5. Muestreo en dos etapas es cuando dividimos un número de unidades más pequeñas,

ejemplo suponga que en un almacén llega un embarque de 100 cajas con 20 cajas cada

una de 10 de diskettes para computadora, si deseamos verificar la calidad del producto

se toma una muestra al azar dentro de las 100 cajas (primera etapa de la muestra) y

posteriormente otra segunda muestra aleatoria de cajas de los diskettes

Un principio básico de este modelo es aquel que define que todos los elementos tienen la

misma probabilidad de ser elegidos y consiste en seleccionar una muestra en forma

aleatoria, generalmente se utiliza una tabla de números aleatorios (random) o por

procesos de computación.


UNIDAD I Página 7

Por ejemplo: si se desea elegir una muestra aleatoria de los padres de familia de una

determinada escuela, se obtiene el archivo de los nombres de los estudiantes, esta lista

se enumera en orden progresivo y se revisa la lista con el propósito de que no se

duplique los nombres.

Al tener la lista con una calculadora que tenga la función de números aleatorios

(random), con una urna con números o nombres de los alumnos, con una tabla ya

generada de números aleatorios o con procesos computacionales, se eligen los alumnos

que serán parte de la investigación que se realizará.

Ya que se han obtenido los datos, el siguiente paso es organizarlos en Distribuciones de

Frecuencia

Medidas de Tendencia central (o de posición)

Una medida de tendencia central o de posición es un valor que se calcula para un grupo de

datos y que se utiliza para describirlos de alguna manera. Normalmente se desea que el valor sea

representativo de todos los valores incluidos en el grupo y, por ello, se desea alguna clase de

promedio. En sentido estadístico, un “promedio” es una medida de tendencia central para un

conjunto de valores.

Medidas de Tendencia Central:

- Media Aritmética

- Media Ponderada

- Mediana

- Moda

La media aritmética y media ponderada.

La media aritmética, o promedio aritmético, se define como la división de la suma de todos los

valores entre el número de valores.

PROPIEDADES DE LA MEDIA ARITMETICA

1. Todo conjunto de datos de nivel de intervalo y nivel de razón tienen un valor medio.

2. al evaluar la media se incluyen todos los valores

3. un conjunto de datos solo tiene una media

4. la media es una medida útil para comparar dos o más poblaciones

5. la media es la única medida de posición donde la suma de las desviaciones de cada valor

con respecto a la media siempre será cero.

En estadística es normal representar una medida descriptiva de una población, o

parámetro poblacional, mediante letras griegas, en tanto que se utilizan letras romanas para las

medidas descriptivas de muestras, o estadísticos muestrales. Así, la media aritmética para una

población de valores se presenta mediante el símbolo μ (que se pronuncia mu), en tanto que la

media aritmética de una muestra de valores se representa mediante el símbolo X (que se lee “x

barra”).


UNIDAD I Página 8

En estadística las características o medidas descriptivas de una población que son los parámetros

se representan mediante letras griegas.

Para las características o medidas descriptivas de una muestra que son estadísticos se

representan mediante letras romanas.

Media de la población

∑

x representa los valores de la variable de interés

N Número total de valores o elementos en la población

x Media de la muestra

∑

n Número total de valores o elementos en la muestra

En cuanto a operaciones se refiere, las dos fórmulas son idénticas; en ambos casos se

suman todos los valores y después se divide este total entre el número de valores que son. Sin

embargo, la diferencia en los denominadores se debe a que el análisis estadístico, la N

normalmente indica el número de elementos de una población, en tanto que la n señala el

número de elementos de una muestra.

La Media Aritmética para Datos Agrupados.

Cuando se agrupan datos en una distribución de frecuencias, se utiliza el punto medio de

cada clase como aproximación de todos los valores contenidos en ella. El punto medio se

representa con el símbolo Xc, en donde el subíndice c se debe a “clase”, y se utiliza la letra f

para representar la frecuencia observada de valores en la clase respectiva. Por ello, las fórmulas

para la media de la población y de la muestra para datos agrupados son:

∑

∑

Media ponderada.- es u caso especial de la media aritmética en la cual se considera a cada uno

de los valores de acuerdo con su importancia en el grupo. A cada valor se le asigna una

ponderación o peso de acuerdo a su importancia en el grupo.

∑

∑

w valor ponderado o peso

La Mediana.


UNIDAD I Página 9

La mediana ( x~ ) de un grupo de datos es el valor del dato que ocupa un lugar medio de

cuando se les agrupa a todos en orden ascendente o descendente. Si el número de medidas es

impar, la mediana será la medida en el centro. Para un grupo con un número par de elementos,

se supone que la mediana se encuentra a la mitad entre los dos valores adyacentes al centro.

Cuando el conjunto de datos contiene un número grande de valores, resulta útil la siguiente

fórmula para determinar la posición de la mediana en el conjunto ordenado.

PROPIEDADES DE LA MEDIANA

1. Es única; esto es, a semejanza de la media, sólo existe una mediana para un conjunto de

datos.

2. No se ve afectada por valores muy grandes o muy pequeños, por lo tanto es una medida

valiosa de tendencia central cuando ocurre este tipo de valores.

3. Puede calcularse para una distribución de frecuencia con una clase de extremo abierto.

4. Puede calcularse para datos de nivel de razón, de intervalo y ordinal.

La media aritmética puede no ser representativa cuando se tienen en los datos uno o dos valores

sumamente grandes o pequeños

La Mediana para Datos Agrupados.

Para datos agrupados, en primer lugar es necesario determinar la clase que contiene el

valor de la mediana, para después determinar la posición de la mediana dentro de la clase

mediante interpolación. La clase que contiene la mediana es la primera cuya frecuencia

acumulada iguala o excede la mitad del total de observaciones. Una vez que se identifica esta

clase, se determina el valor específico mediante la siguiente fórmula:

[

∑

]

En donde: Li = límite exacto inferior de la clase que contiene la mediana.

N = número total de observaciones en la distribución de frecuencias (n para una

muestra)

faA = la frecuencia acumulada de la clase que precede (“antes”) a la clase que

contiene la mediana

fc = número de observaciones en la clase que contiene la mediana.

c = tamaño del intervalo de clase.


UNIDAD I Página 10

La Moda.

La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. A

una distribución que tiene una sola moda se le denomina unimodal. Para un conjunto de datos

poco numeroso, en el que no se repite ningún valor, no existe moda. Cuando dos valores no

adyacentes tienen frecuencias máximas similares, se dice que la distribución es bimodal. A las

distribuciones de mediciones que tienen varias modas se les denomina multimodales.

La moda para el ejemplo es 2860 pues es el valor que presenta mayor frecuencia.

PROPIEDADES DE LA MODA

1. Puede calcularse para datos de nivel de razón, de intervalo, nominal y ordinal.

2. No se ve afectada por valores muy grandes o muy pequeños.

3. Puede utilizarse para una distribución de frecuencia con una clase de extremo abierto.

Sin embargo, la moda tiene algunas desventajas que hacen que se utilice con menos frecuencia

que la media o la mediana.

1. Para muchos conjuntos de datos no hay valor modal porque ningún valor aparece más de

una vez. Tendría que tomarse cada valor como una moda.

2. Para algunos conjuntos de datos hay más de una moda. Sería cuestionable utilizar más de

una moda para representar la tendencia central de un conjunto de datos.

con una moda se le denomina unimodal

cuando dos valores no adyacentes tienen frecuencias máximas similares en el

conjunto de datos se dice que se tiene dos modas se le denomina bimodal

a las distribuciones de mediciones que tienen varias modas se les denomina

multimodal.

La Moda para Datos Agrupados.

Para datos agrupados en una distribución de frecuencias con intervalos de clase iguales, primero

se identifica la clase que contiene la moda determinando cuál de ellas tiene el mayor número de

observaciones. Algunos profesionales de estadística consideran que la moda es el punto medio de

la clase modal. Sin embargo, la mayoría de ellos interpolan dentro de la clase modal, de acuerdo

con la siguiente fórmula:

[

]

En donde: Li = límite exacto inferior de la clase que contiene la moda.

d1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase

precedente.

d2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase

siguiente.

c = tamaño del intervalo de clase.


UNIDAD I Página 11

La diferencia entre los valores de la media, la mediana y la moda permiten saber la forma de la

curva de frecuencia en términos de asimetría.

Para una distribución unimodal simétrica, el valor de la media, la mediana y la moda es

igual.

Para una distribución asimétrica positiva, la media es el mayor valor de las tres y la

mediana es mayor que la moda pero menor que la media

Para una distribución asimétrica negativa, la media es el menor valor de las tres y la

mediana es inferior a la moda pero mayor que la media

Medidas de dispersión.

Media Mediana

Moda

X

F R E C U E N C I

A

Moda Mediana

Media

X

F R E C U E N C I

A

Media Mediana

Moda

F R E C U E N C I

A X


UNIDAD I Página 12

Las medidas de tendencia central son útiles para identificar un valor típico en un conjunto de

datos. Estas localizan el centro de los datos.

Un promedio no dice nada de la dispersión o variabilidad de los datos.

Un valor pequeño para una medida de dispersión indica que los datos se encuentran acumulados

cercanamente, alrededor de la media por lo que es un promedio confiable.

Por lo contrario una medida de dispersión grande indica que la media no es factible.

Una segunda razón para estudiar la dispersión en un conjunto de datos es poder comparar cuán

dispersas están dos o más distribuciones.

MEDIDAS DE DISPERSION

Amplitud de variación o Rango (se basa en la ubicación del valor mayor y el más pequeño

en un conjunto de datos).

Desviación media

Varianza

Desviación estándar

Estas tres se basan en las desviaciones respecto a la media.

Amplitud de variación o Rango.- es la medida de dispersión más sencilla se trata de la

diferencia entre el valor más grande y el más pequeño de un conjunto de datos.

Una desventaja es que no se consideran todos los datos.

R = Xmay - Xmin

R = rango

Xmay = el valor mayor

Xmin = valor mínimo

Para los ejemplos de las medidas de tendencia central calcular el rango.

Las medidas de variabilidad o dispersión se ocupan de describir la variabilidad entre los

valores.

Rango.

El rango o R es la diferencia entre los valores mayor y menor del conjunto de datos. Así cuando

U representa el mayor valor del grupo y L representa el menor, el rango de los datos es:

Las descripciones más comprensivas de la dispersión son aquellas que tratan con la desviación

promedio con respecto a alguna medida de tendencia central. Dos de tales medidas son

importantes para el estudio estadístico: la varianza y la desviación estándar. Ambas medidas nos

dan una distancia promedio de cualquier observación del conjunto de datos con respecto a la

media de la distribución.


UNIDAD I Página 13

Para el ejemplo, el rango de los datos no agrupados es:

Varianza.

Cada población tiene una varianza, que se simboliza con (σ² sigma cuadrada). La fórmula

para calcular la varianza de una población es

∑

∑ ∑

La fórmula para calcular la varianza muestral incluye un factor de corrección para que

la varianza muestral sea un estimador insesgado de la varianza poblacional.

∑

∑ ∑

La fórmula de varianza para datos agrupados es:

∑

∑

Desviación Estándar.

Por lo general resulta difícil interpretar el significado del valor de una varianza porque las

unidades en las que se expresa son valores al cuadrado, así que con mayor frecuencia

utilizamos la raíz cuadrada de la varianza denominada desviación estándar. La desviación

estándar poblacional se denota por σ y la desviación estándar muestral por s.

√∑

√

∑

La fórmula de desviación estándar para datos agrupados es la raíz de la fórmula

correspondiente de varianza.


UNIDAD I Página 14

Coeficiente de Variación.

El coeficiente de variación proporciona una medida de variabilidad que es

independiente de la unidad de medida, por ello, puede usarse para comparar la variabilidad de

dos grupos de datos expresados en dos distintas unidades de medida. Por ejemplo, puede

usarse para comparar la desviación estándar de la distribución de los ingresos anuales, y la

desviación estándar de los años de servicio de todos los empleados de una compañía.

El coeficiente de Variación (CV) expresa la desviación estándar como un porcentaje de

la media y se define como

(

)

Dicho de otra manera, el CV indica la magnitud relativa de la desviación estándar con respecto a

la medida de la distribución. El CV es útil cuando se desea comparar la variabilidad de dos

conjuntos de datos con respecto al nivel general de los valores de cada conjunto.

FORMULARIO:

Distribución de frecuencia

1. El intervalo de clase o amplitud w

Núm. Clases nln3.3

n núm. Datos

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

(MEDIA, MODA, VARIANZA Y DESVIACIÓN ESTÁNDAR).

DATOS AGRUPADOS: A) MEDIDAS DE TENDENCIA CENTRAL:

1. MEDIA DE LA POBLACIÓN:

∑

2. MEDIANA:

[

]

Li= limite exacto inferior de la clase que contiene la mediana N = Número total de observaciones en la distribución de frecuencias (n para muestras) = Frecuencia acumulada de la clase que precede (antes) a la clase que contiene la mediana = Frecuencia de clase que contiene la mediana w = longitud del intervalo de clase


UNIDAD I Página 15

3. MODA:

[

]

Li = limite exacto inferior de la clase modal d1 = diferencia entre la frecuencia de clase modal y la frecuencia de clase precedente (antes) d2 = diferencia entre la frecuencia de clase modal y la frecuencia de la siguiente clase. w = longitud del intervalo de clase.

VARIANZA:

∑

DATOS NO AGRUPADOS:

A) MEDIDAS DE TENDENCIA CENTRAL.

1. Media aritmética .

2. Media aritmética ponderada ( xw ).

3. Mediana (xmed).

4. Moda (xmod).

B) Varianza o variancia (s2).

POBLACIÓN:

∑

∑ ∑

MUESTRA:

∑ ∑

∑ ∑

n

x

x

n

i

i

1

k

i

i

k

i

ii

w

xwwx

1

1


UNIDAD I Página 16

DISTRIBUCIÓN DE FRECUENCIA (ELABORACION DE UN CUADRO): 2. Número de clases (NC): indica el rango de los valores incluidos dentro de una clase y puede

ser determinado restando el límite exacto inferior de clase de su límite exacto superior. Cuando no se identifican límites exactos, puede determinarse el intervalo de clase restando el límite nominal inferior de una clase del límite nominal inferior de la clase inmediata siguiente.

Una sugerencia útil para el número de clases está dado por la regla de Sturges, que establece como número de clases (NC) necesario, aproximadamente NC = 3.3 (log n) + 1. El valor NC es común redondearlo al entero más cercano.

EJEMPLO: En la siguiente tabla se presentan las calificaciones de los alumnos de la materia de Estadística Administrativa I

3. Amplitud del intervalo aproximado (w):

Buscar entre los datos cual es el número más pequeño y tomar la decisión de iniciar con ese número o un número menor. Verifica que todos los datos estén en contenido en la tabla, es decir que el dato este contenido en un intervalo.

Por razones de cálculo, todos los intervalos de clase en una distribución de frecuencias dada tienden que ser iguales. Una fórmula que puede utilizarse para determinar el intervalo de clase aproximado es:

88 95 70 70 90 100 90 83 70 95 70 100 70 85 100 97 90 97

100 95 80 80 100 90 100 85 77 100 95 92 75 100 80 77 66 90

100 95 98 70 100 70 90 76 70 80 100 100 90 90 75 80 90 82

Número

de Clase

Intervalo

Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

Este valor significa que la separación entre

un valor y otro es de 5 números, por ejemplo:

Iniciamos en el valor 66, 67, 68, 69, 70, el

primer intervalo estará contemplado desde el

número 66 al 70 ya que se encuentran 5

números, para construir el segundo intervalo se

inicia en el 71, 72, 73, 74, 75, es decir el

segundo intervalo estará desde el 71 al 75 y así

sucesivamente se realizan los cálculos

correspondientes.


UNIDAD I Página 17

4. Calculo de los limites inferior y superior

Los límites de cada uno de los intervalos se pueden determinar identificando los puntos que están a la mitad entre el intervalo superior e inferior, respectivamente, de las clases adyacentes.

5. Captura la FRECUENCIA, todos los datos que se tienen en la tabla se concentran, es decir

revisa cada uno de los intervalos y captura la cantidad de datos que se encuentra entre esos datos, al final la suma debe de dar el total de los datos.

6. Elabora la FRECUENCIA ACUMULADA:

Número

de Clase

Intervalo Limites

Inferior Superior Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

65.5

70.5

75.5

80.5

85.5

90.5

95.5

70.5

75.5

80.5

85.5

90.5

95.5

100.5

Número

de Clase

Intervalo Limites Frecuencia

Inferior Superior Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

65.5

70.5

75.5

80.5

85.5

90.5

95.5

70.5

75.5

80.5

85.5

90.5

95.5

100.5

9

2

8

4

10

6

15

Número

de Clase


Frecuencia

acumulada Inferior Superior Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

65.5

70.5

75.5

80.5

85.5

90.5

95.5

70.5

75.5

80.5

85.5

90.5

95.5

100.5

9

2

8

4

10

6

15

9

11

19

23

33

39

54

Se considera el valor del intervalo superior

de la clase 1 después suma el intervalo de la

clase 2 y calcula el promedio.

De la columna de frecuencia suma el

número de clase 1 más el número de

clase 2, después el resultado súmalo al

número de clase 3 y así sucesivamente:


UNIDAD I Página 18

7. Una DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS es aquella en la que la frecuencia de cada clase se divide entre el número total de observaciones. Por esto, cada frecuencia relativa es una proporción y se le puede convertir en porcentaje multiplicándola por 100.

8. FRECUENCIA RELATIVA ACUMULADA

Una de las ventajas que presenta la construcción de la distribución de frecuencias relativas reside en que la distribución acumulada y la ojiva correspondiente indican la proporción acumulada (o porcentaje) de observaciones presentes hasta los diversos valores posibles de la variable.

HISTOGRAMA Y POLIGONO DE FRECUENCIA Una de las formas más comunes utilizadas para representar una distribución de frecuencias es con un histograma, este es un diagrama en el que se marcan los LÍMITES INFERIORES en el EJE HORIZONTAL y las FRECUENCIAS de cada una de las clases en el EJE VERTICAL.

Número

de Clase


Frecuencia

acumulada

Frecuencia

Relativa (%) Inferior Superior Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

65.5

70.5

75.5

80.5

85.5

90.5

95.5

70.5

75.5

80.5

85.5

90.5

95.5

100.5

9

2

8

4

10

6

15

9

11

19

23

33

39

54

16.67

3.70

14.81

7.41

18.52

11.11

27.78

Número

de Clase

Intervalo Limites

Frecuencia

Frecuencia

acumulada

Frecuencia

Relativa (%)

Frecuencia

Relativa

Acumulada (%) Inferior Superior

Inferior Superior

1

2

3

4

5

6

7

66

71

76

81

86

91

96

70

75

80

85

90

95

100

65.5

70.5

75.5

80.5

85.5

90.5

95.5

70.5

75.5

80.5

85.5

90.5

95.5

100.5

9

2

8

4

10

6

15

9

11

19

23

33

39

54

16.67

3.70

14.81

7.41

18.52

11.11

27.78

16.67

20.37

35.18

42.59

61.11

72.22

100

De la columna de frecuencia se divide entre el total de observaciones:

Ahora multiplícalo por 100 para representarlo en porcentaje:

De la columna de frecuencia relativa se suma el número de clase 1

más el número de clase 2:


UNIDAD I Página 19

EJERCICIOS:

1. Los siguientes datos son el número de meses de duración de una muestra de 40 baterías para

coche.

22 41 35 45 32 37 30 26

34 16 31 33 38 31 47 37

25 43 34 36 29 33 39 31

33 31 37 44 32 41 19 34

47 38 32 26 39 30 42 35

2. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible

similares.

24 36 4 40 16 5 18 6 30 60

3 72 66 78 3 28 67 72 15 3

18 48 71 22 57 9 54 4 12 72

3. Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los siguientes datos son

las cuentas que se les facturó el mes pasado:

54 48 58 50 25 47 75 46 60 70

67 68 39 35 56 66 33 62 65 67

4. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística

elemental.

23 60 79 32 57 74 52 70 82 36

80 77 81 95 41 65 97 85 55 76

52 10 64 75 78 25 80 98 81 67

41 71 83 54 64 72 88 62 74 43

60 78 89 76 84 48 84 90 15 79

34 67 17 82 69 74 63 80 85 61

Estadistica Descriptiva

Documents

Transcript of Estadistica Descriptiva