Estadistica Inferencial

Distribuciones MUESTRALES

[ ESTADÍSTICA INFERENCIAL ]

SEMANA 2

2 [ POLITÉCNICO GRANCOLOMBIANO ]

DISTRIBUCIONES MUESTRALES

CONTENIDO SEMANA DOS:

TEOREMA DEL LÍMITE CENTRAL DISTRIBUCIÓN MUESTRAL DE LA MEDIA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN DISTRIBUCIÓN MUESTRAL DE LAS DIFERENCIAS.

Palabras clave: Distribución muestral, error estándar de la media, error estándar de la proporción, factor de corrección.

INTRODUCCIÓN

El propósito del muestreo es indagar algo sobre la población de estudio. Cuando se diseña una muestra, es importante considerar la información que se va a obtener y el grado de exactitud de lo que se encuentre acerca de la población. Con este propósito es importante que se analice claramente la obtención de la muestra y los resultados obtenidos a partir de ella, utilizando los conceptos probabilísticos ya vistos.

Una distribución muestral es una distribución de probabilidad de un estadístico muestral calculado a partir de todas las muestras posibles de tamaño n, elegidas al azar en una población determinada. En términos generales estamos interesados en conocer una o más de las siguientes características:

• Su forma funcional • Su media • Su desviación estándar.

Antes de comprender la inferencia estadística, tenemos que entender claramente el concepto de distribución muestral. Con esto se pretende dar a conocer la naturaleza de tales distribuciones y su papel en la inferencia estadística, sin detenernos mucho en este tema, ya que por regla general en las aplicaciones estadísticas no se construyen distribuciones muestrales. Para emplear los métodos de la inferencia estadística, necesitamos conocer

3 [ ESTADÍSTICA INFERENCIAL ]

solamente las características de la distribución muestral del estadístico apropiado al problema que se está resolviendo.

A partir de las distribuciones muestrales es importante diferenciar si estamos hablando de elementos de la población o de la muestra y esto lo haremos teniendo en cuenta la siguiente notación:

Característica

Población Muestra

Total de elementos. N n Media o promedio. µ ! Varianza. !! S2 Proporción o probabilidad de éxito.

π P

Vamos a construir una distribución muestral experimental de medias calculadas a partir de todas las muestras posibles que se pueden obtener de una población pequeña, con el fin de comprender la naturaleza de la distribución muestral y esto lo haremos con el siguiente ejemplo:

Consideremos una población conformada por cuatro personas (N=4). La variable de interés es el gasto mensual en transporte (en miles de pesos). Los datos de la población son: {78, 67, 83, 56} y vamos a responder a cada literal teniendo en cuenta la notación utilizada:

a. Calcular la media y la desviación estándar de la población La media poblacional se obtiene con:

! = !"!

78 67 83 56 284 714 4

µ+ + +

= = =

Y la desviación estándar es:! = (!!!)!

!

2 2 2 2(78 71) (67 71) (83 71) (56 71) 10.41634

σ− + − + − + −

= ≈

Tenemos entonces una población con media = 71 y desviación estándar = 10,4163. b. De la población vamos a seleccionar todas las muestras posibles de tamaño n =2 sin

orden y sin repetición. ¿Cuántas muestras de dos elementos de la población pueden formarse?

Como hay cuatro elementos en la población y queremos formar grupos de dos sin importar su orden tenernos que calcular una combinación:


4 4! 62 2!(4 2)!⎛ ⎞

= =⎜ ⎟ −⎝ ⎠

Es decir que podemos formar seis grupos de dos elementos cada uno. Observémoslos:

1 2 3

4 5 6

: (78,67) : (78,83) : (78,56): (67,83) : (67,56) : (83,56)

X X XX X X .

c. ¿Dichas muestras son de tipo aleatorio simple para población finita o infinita? Como cada una de estas muestras tiene la misma probabilidad de ser elegida entonces la probabilidad de escoger una muestra estaría dada por:

Muestra 1X 2X 3X 4X 5X 6X

Probabilidad 16 1

6 1

6 1

6 1

6 1

6

Y por ende estamos en presencia de muestreo aleatorio simple para población finita.

Como X es una variable aleatoria, vamos a calcular la media en cada muestra, entonces

1X : el promedio de la primera muestra, 2X : el promedio de la segunda muestra, etc., Veamos:

1 2 3

4 5 6

78 67 78 83 78 5672.5 80.5 672 2 2

67 83 67 56 83 5675 61.5 69.52 2 2

X X X

X X X

+ + += = = = = =

+ + += = = = = =

d. Ahora vamos a calcular la media de estas medias es decir:

1 2 3 4 5 6

1 2 3 4 5 6

1 1 1 1 1 1( )6 6 6 6 6 6

72.5 80.5 67 75 61.5 69.5 426 716 6 6

XE X X X X X X

X X X X X X

µ = + + + + +

+ + + + + + + + + += = = =

Nótese que el promedio de las medias muestrales es igual a la media poblacional, entonces podemos decir que ! es una buena estimación de µ.

Calculamos ahora la desviación estándar de ! para las seis muestras posibles:

! ! = !


2 2 2 2 2 2(72.5 71) (80.5 71) (67 71) (75 71) (61.5 71) (69.5 71)6

6.013

Xσ

− + − + − + − + − + −=

≈

Observamos que la varianza poblacional es diferente a la varianza de !, por lo tanto es necesario trabajar con una varianza corregida, esto se logra de la siguiente forma:

!!! =!!

!! − !! − 1

Con los datos del ejemplo se tiene que:

!!! =(10,4163)!

24− 24− 1

!!! = 36,1664

!! = 6,013

Podemos decir entonces que si se seleccionan todas las muestras posibles de tamaño n de una población dada entonces se tiene:

y

El factor !!!!!!

se denomina factor de corrección por finitud y en los casos de poblaciones

infinitas este factor se hace igual a 1 es decir que queda como: !!! =!!

!.

!(!)= µ !!! =!!

!! − !! − 1


TEORÍA DEL LÍMITE CENTRAL

Con lo anterior estamos preparados para estudiar las distribuciones muestrales y las características de los estimadores puntuales más usados en la inferencia estadística. A continuación se expondrán las variables aleatorias (con sus distribuciones de probabilidad) que más se utilizan para estimar los parámetros poblacionales media, varianza y proporción y hacer inferencias de los mismos.

Si X es la media de una muestra aleatoria de tamaño n sacada de una

población distribuida normalmente con media µ y desviación X n

σσ = y por lo tanto la

estandarización !! es:

!!=X !!!!

Al seleccionar muestras simples de tamaño de una población, la distribución muestral de la media muestral se puede aproximar con una distribución de probabilidad normal, cuando el tamaño de la muestra es grande: de tamaño mayor que treinta.

Otra manera de presentar el teorema es la siguiente:

Si son un conjunto de variables aleatorias independientes que se distribuyen idénticamente con media y varianza , entonces la variable aleatoria:

!!̅=!!

!!!

Para la cual es la suma de dichas variables aleatorias y es el promedio

de las mismas, se distribuye normal estándar cuando n tiende a aumentar significativamente.

Distribución muestral de ! en una población normal


Ejemplo:

Se realizó una prueba a un grupo de ochenta aspirantes al cargo de administrador de cierta empresa y se obtuvo que las calificaciones siguen una distribución normal con calificación promedio de 300 puntos y desviación estándar de 20. Cuando se toma una muestra de diez y seis calificaciones de las pruebas:

a. ¿Cuál es el error típico de la media de muestral? b. ¿Cuál es la probabilidad de que la media muestral sea superior a 280 puntos? Para responder cada literal utilizaremos la teoría dada:

a. La varianza muestral es 2( )X

σ , luego el error típico de la media muestral es:

!! =!!

!! =2016

= 5

b. Con base al enunciado debemos calcular ( 280)P X > y esto lo logramos estandarizando

la variable aleatoria X :

( )280 280 280 300 20 45 5

X X X

XP P Z P Z P Z P Zµ µ µσ σ σ

⎛ ⎞ ⎛ ⎞− − − − −⎛ ⎞ ⎛ ⎞> = > = > = > = > −⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠

Veamos la representación gráfica de la probabilidad solicitada.

Cabe resaltar que como la normal estándar es una distribución para la cual los valores de la probabilidad de una cantidad negativa son igual al valor de la probabilidad de la cantidad pero positiva, es decir:

( 4) 1 ( 4) 1 0.9999 0.0001P Z P Z> − = − < − ≈ − =


Con lo cual decimos que la probabilidad de que la media muestral sea superior a 280 en una muestra de tamaño 16 es casi nula. En otras palabras no es muy probable que en una muestra de diez y seis calificaciones la media muestral sea mayor a 280 puntos.

Ejemplo

En cierta ciudad los gastos semanales en transporte para los habitantes, están distribuidos normalmente con media de $16.500 y una desviación estándar de $1.500. ¿Cuál es la probabilidad de que una muestra de veinticinco personas tengan un gasto promedio semanal superior a $15.750.

Vamos a identificar los datos que nos dan en el problema y a plantear la probabilidad

X: Gastos semanales en transporte:

µ=$16.500 σ=$1.500 n = 25

P (!>15760) = P !! !!!> !"#$%!!"#$$

!"##!"

= P !! > −2.47 = 1-‐ P !! ≤ −2.47

= 1-‐0.0068

=0.9832

Cuando la muestra no proviene de una distribución normal, el tamaño de la muestra desempeña un papel muy importante. Cuando n es pequeña, la forma de la distribución depende principalmente de la forma de la población. Sin embargo cuando n crece, uno de los teoremas más importantes de la inferencia estadística establece que la forma de la distribución muestral se aproxima a una distribución normal, independientemente de la distribución que tenga la población de origen.

(Teorema del límite central).

La diferencia entre este enunciado y el anterior está en que no se requiere que la población de origen tenga distribución normal cuando n es grande (n se considera grande si es mayor o igual a treinta).

Distribución muestral de ! cuando se desconoce la distribución de la población.


Ejemplo:

La duración de cierta marca de bombillas tiene una media de 900 horas y la desviación estándar de setenta horas. Si se selecciona una muestra de 36 bombillas, determine la probabilidad de que dure entre 870 y 925 horas.

Observe que no se hace ninguna mención de la forma funcional de la distribución, pero como el tamaño de muestra es grande (n≥30), por el teorema del límite central entonces la distribución es aproximadamente normal:

X: tiempo de duración de las bombillas

µ=900 σ= 70 n = 36

P (870≤! ≤ 925) = P !"#!!""!"!"

≤ !! !!!≤ !"#!!""

!"!"

= P −2.57 ≤ !! ≤ 2.14 = 0.9838-‐0.0051=0.9787

Es muy común el hecho de que en la práctica de que la varianza de la población !! es desconocida. En estos casos se trabaja con la varianza de la muestra !! como una estimación de !!, dando lugar a una variable T tal que:

! =!− !!/ !

Conocida como la distribución t Student o simplemente con el nombre de la distribución t. Esto quiere decir que para hacer inferencias sobre medias poblacionales cuando no se conoce la varianza de la población, se utiliza la distribución t en lugar de la distribución normal.

La distribución t, de la misma manera que la distribución normal estandarizada, tiene forma de campana y tiene media igual a 0, alrededor de la cual es simétrica. La varianza de la distribución t, en cambio, es mayor que 1, es por esto que la distribución es más aguda en el centro y más alta en las colas, como lo muestra la siguiente figura.

Distribución muestral de ! en una población normal con varianza poblacional desconocida.


El área total bajo la distribución t es igual a 1 y esta distribución se encuentra tabulada para cada valor (n-‐1) o grados de libertad denominados gl:

La tabla de la distribución t tiene la siguiente tabla:

La columna de la izquierda de la tabla contiene diversos valores de (n – 1) grados de libertad. Cada encabezamiento en las columnas indica la proporción del área superior bajo la curva de la distribución t. Si estamos interesados por ejemplo, en la distribución t para 10 grados de libertad, para un área superior de 0,05 el valor es t = 1,8125.

En la práctica, son muy utilizadas las inferencias sobre proporciones poblacionales. Por lo tanto la distribución muestral de una proporción es de gran interés. En un estudio de mercados se puede estar interesado en la proporción o porcentaje de consumidores que estarían dispuestos a comprar algún producto nuevo que se piensa lanzar al mercado. El jefe de personal puede estar interesado en conocer el porcentaje de empleados que se ausentan en horas de trabajo.

Distribución de la proporción de una muestra


Sea A el número total de elementos que presentan cierta característica en una población, entonces la proporción de aquellos que cumplen y no cumplen con dicha característica está

dada por la expresión APN

= y 1 N APN−

− = respectivamente.

Obsérvese que cada observación de este experimento es de tipo Bernoulli éxito (cumple con la característica) y fracaso (no cumple con la característica) y como se repite cierto número de veces se convierte en una Binomial para la cual el valor esperado de la variable aleatoria proporción de individuos con la característica es P y la varianza es (1 )P P− . Si el tamaño de muestra es grande por el teorema del límite central esta binomial puede aproximarse a una normal con media P y varianza (1 )P P− .

Para tamaño de muestra pequeño es decir que cumpla que 5np < o (1 ) 5n p− < se tiene que la varianza y desviación estándar están definidas de la siguiente manera

µ (1 )( )1

N n P PVar PN n− −

=−

y µ (1 )( )1

N n P PVar PN n− −

=−

respectivamente a 1

N nN−

− se le

conoce como factor de corrección de poblaciones finitas:

Ejemplo

Se sabe que el 60% de los adultos de una zona del país compran determinado producto. Se obtiene una muestra de 150 adultos de esta área. ¿Cuál es la probabilidad de que la proporción muestral este entre el 50% y el 70%?

Si P es la variable aleatoria proporción de individuos de una población que presentan determinada característica, entonces la proporción muestral se distribuye de la siguiente manera:

!~! !!,!!(1− !)

! !

π proporción poblacional y !!(!!!)!

es el error estándar de la proporción.


!! = ! = 0,6 !! =(!,!)(!,!)

!"#= 0,04

Recordemos que como P es aproximadamente normal se requiere estandarizar la variable aleatoria para poder utilizar las tablas de probabilidades:

P(0,5 < P < 0,7) = ! !,!"!!,!!,!"

< !!!!!

< !,!!!,!!,!"

= ! −2,5 < !! < 2,5

= !,!!"#− !,!!"# = !,!"#$

Muchas veces el interés se centra en dos poblaciones de las cuales vamos a ver si las medias poblacionales no son iguales, o podemos estar interesados en la magnitud de cualquier diferencia que se pueda presentar, por ejemplo se podría estar interesado en conocer si dos líneas de producción sacan en promedio el mismo número de unidades, o si son diferentes dos métodos de entrenamiento utilizados en el personal de producción.

Como una generalización de la distribución muestral para la media se puede decir lo siguiente:

1. La diferencia muestral para la diferencia entre dos medias muestrales a partir de muestras independientes de tamaño n1 y n2, extraídas de dos poblaciones distribuidas normalmente, estará distribuida normalmente y tendrá una media igual a (µ1 -‐ µ2) y una varianza igual a

(!!!

!!+ !!

!

!!).

2. Si n1y n2 son grandes la distribución muestral de la diferencia entre las dos medias muestrales será aproximadamente normal sin tener en cuenta la forma funcional de las poblaciones originales.

Para encontrar las posibilidades asociadas a (!! − !! ) se deben transformar los valores de (!! − !! ) en los valores de la distribución normal estandarizada, mediante la fórmula:

! =!! − !! − (µμ! − µμ! )

!!!!!+ !!

!

!!

Distribución Muestral para la Diferencia entre dos Medias muestrales(!! − !! ) :


EJEMPLOS:

1. La producción diaria de una primera fábrica de envases de plástico tiene una distribución normal con una media de 50 unidades y una desviación estándar de 8 unidades. La producción de una segunda fábrica esta distribuida normalmente con una media de cuarenta unidades y una desviación estándar de doce. Para comparar el rendimiento en el trabajo en dos fábricas de envases plásticos se saca de la primera fábrica, una muestra aleatoria de 100 obreros y de la segunda una muestra de 400. Encontrar la probabilidad de que los obreros de la primera fábrica produzcan ocho unidades más que los de la segunda.

Solución:

Primera Fábrica.

n1 = 10 µμ!= 50 !! = !

Segunda Fábrica.

n2 = 400 µμ!= 40 !! = !"

! !! − !! > 8 =?

! =!! − !! − (µμ! − µμ! )

!!!!!+ !!

!

!!

! =8− (50 − 40 )

64100 +

144400

! = −2

P[Z > -‐2] = 1 – P[Z ≤ -‐2] = 1 – 0,0228 = 0,9772

2. El rendimiento de los autos la marca. A es de 20 kilómetros por galón de gasolina (k.p.g.), con una desviación están darde 6k.p.g. las cifras comparables para los autos Bsonde 25 y5,5k. p.g. respectivamentes supone que el rendimiento década una de


ambas marcas está norma mente distribuido. ¿Cuáles probabilidad de que en un concurso, el rendimiento medio para 10 autos de la marca A sea mayor que el de 9 autos de la marca B?

Solución:

MARCA A MARCA B

Muestra. n1 = 10 n2 = 9

Media. µ1 = 20 µ2 = 25

Desviación Estándar. σ1 = 6 σ2 = 5,5

La probabilidad que se busca se plantea de la siguiente forma:

! !! − !! > 0 =?

! =!! − !! − (µμ! − µμ! )

!!!!!+ !!

!

!!

! =0− (20 − 25 )3610 +

30,259

! = 1,81

P [Z > 1,81] = 1 – P [Z ≤ 1,81] = 1 – 0,9649 = 0,0351


La probabilidad de que el rendimiento medio para 10 autos de la marca A sea mayor que el de 9 autos de la marca B es de 0,0351

BIBLIOGRAFÍA

FREUND, John E., MILLER, Irwin y MILLER, Marylees. Estadística Matemática con aplicaciones. 6ed. Madrid Prentice Hall, 2000.

GUTIERREZ, Humberto y DE LA VARA, Román. Control estadístico de Calidad y Seis Sigma (6s). México: McGraw-‐Hill, 2005.

KENNET, Ron S., y ZACKS, Shelemyahu. Estadística Industrial Moderna. Barcelona, Thomson, 2000.

MONTGOMERY, Douglas C. y RUNGER, George C. Probabilidad y Estadística aplicadas a la Ingeniería. 2ed. México: Limusa, 2002.

NEWBOLD. Paul. Estadística para los Negocios y la Economía. 4ed. Madrid Prentice Hall, 1988.

WALPOLE Ronal, E., MYERS, Raymond H. y MYERS, Sharon L. Probabilidad y Estadística para Ingenieros. 6ed. Madrid Prentice Hall, 1998.

Estadistica Inferencial

Documents

Transcript of Estadistica Inferencial