Clases Estadistica

Diseños de Muestreo y Distribuciones Muestrales 1

UNIDAD 1 Teoría Clásica del Muestreo

Población Muestra

Diseños de Muestreo

Una Población es el conjunto de todos los elementos de interés en un determinado estudio, es decir, el conjunto completo de la información numérica sobre una característica particular en el que el investigador esta interesado.

En un estudio empírico, este grupo puede consistir de gente, animales u otros objetos

Una Muestra es un Subconjunto de la

población

Tenemos dos tipos de poblaciones a considerar: Infinitas y Finitas.

2

Inferencia Estadística

El objetivo de la inferencia estadística es recolectar información de una Población, partiendo de la información que contiene una muestra.

Es importante darse cuenta que los resultados de una muestra son estimados de los valores de las características de una población.

Sin embargo, con los métodos adecuados de muestreo podemos obtener buenos resultados.

3

• Muestreo es el proceso de recolección de información de sólo una parte de un agregado o conjunto de la Población . A la parte seleccionada la llamamos muestra.

• Podemos clasificar el Muestreo como: Probabilístico y No probabilística


4


• Muestreo Probabilístico es cualquier método de muestreo para el cual se puede calcular la probabilidad de cada muestra posible.

Ejemplos: Aleatorio Simple, Sistemático, Estratificado y Por

conglomerados

• Muestreo No probabilística es cualquier método de muestreo para el cual NO se puede calcular la probabilidad de cada muestra posible.

Ejemplos: Muestreo de juicio y Muestreo por conveniencia

5

Muestreo Aleatorio Simple

• El muestreo aleatorio puede aplicarse a poblaciones Finitas o Infinitas

6

Muestreo Probabilístico Diseños de Muestreo


Para Poblaciones Finitas Es una Muestra de tamaño n extraída de una población de tamaño N de tal forma que cada muestra posible tenga la misma probabilidad de ser seleccionada

Por ejemplo, si se conoce un listado de los elementos de la población (Finita) lo que se hace es seleccionarlos mediante el uso de números aleatorios.

Es muy importante resaltar que lo aleatorio de una muestra está en el proceso de selección y no en el resultado.

7


• El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposición y Con reposición

• El numero de muestras posibles de tamaño n que se puede obtener de una población de tamaño N viene dada por:

– Sin reposición o reemplazo

– Con reposición o reemplazo: Nn

8

Muestreo Probabilístico Diseños de Muestreo

)!(!

!

nNn

NCnN

)!(

!

nN

NP nN


Para Poblaciones Infinitas Es aquella que se selecciona de tal forma que cumple con las siguientes condiciones:

1. Cada elemento seleccionado proviene de la misma población.

2. Cada elemento se selecciona de forma independiente.

9

En poblaciones infinitas un procedimiento para la selección de una muestra debe ser concebido especialmente para cada situación , de manera que cumpla con la condición 2 y evitar el sesgo en la selección que dé mayores probabilidades de selección a cierto tipo de elementos.

10

Ejemplos

Solución:

Muestra sin reemplazo: 022, 147, 229 y 289

Muestra con reemplazo: 022, 147, 229 y 147

Población Finita

Población Infinita

Ejer

cici

os

11

Otros tipos de muestreos probabilísticos

Muestreo Aleatorio Sistemático

Similar al muestro simple salvo que: 1. Solo la primera unidad de la muestra se elige al azar siempre que el

número seleccionado sea mayor que el coeficiente de elevación.

Coeficiente de Elevación = N/ n Donde

N: Tamaño de la población

n : Tamaño de la muestra

2. Los restantes elementos de la muestra se hayan sumando, sucesivamente el coeficiente de elevación.

Ejemplo

• Un centro comercial acaba de recibir un pedido de sintonizadores TDT para ponerlos a la venta entre sus clientes. Dichos sintonizadores vienen numerados con códigos desde el 39456 al 48795. El gerente de dicho centro está preocupado por la calidad de dichos sintonizadores y decide obtener una muestra sistemática de 7 aparatos y someterlos a varias pruebas. Ayúdale a obtener la muestra.

14

Tamaño de la población de Sintonizadores (N)= 48795-39455= 9340

Coeficiente de Elevación = N/ n = 9340/7= 1334.2857 ≈ 1334

Si iniciamos con el 1er número aleatorio que se encuentre a partir de la fila

y columna 1, de izquierda a derecha, en la tabla de números aleatorios,

la primera muestra es el sintonizador con código 40102

La muestra sería: 40102, 41436, 42770, 44104, 45438, 46772 y 48106

Muestreo Aleatorio Estratificado

Es un proceso en dos fases en el que la población se divide en estratos. Después,

los elementos se seleccionan para cada estrato mediante un procedimiento

aleatorio, por lo general muestreo aleatorio simple.

Un objetivo principal de este muestreo es incrementar la precisión sin aumentar

el coste

El criterio para la selección de las variables de estratificación consiste en

homogeneidad, relación y costos. Las variables comúnmente utilizadas incluyen

características demográficas, tipo de cliente (con o sin tarjeta), tamaño de la

empresa o tipo de industria.

Metodologías:

Afijación Simple: A cada estrato le corresponde igual número de elementos

muestrales.

Afijación Proporcional: La distribución se hace de acuerdo con el peso

(tamaño) de la población en cada estrato.

Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados,

de modo que se considera la proporción y la desviación típica.

Métodos de muestreo

probabilístico

Muestreo Aleatorio

Estratificado: Una población

es primero divida en

subgrupos llamados estratos

y una muestra es

seleccionada de cada estrato.

Ejemplo: Muestro por Estratos

Ejemplo Muestro por Estratos. Afiliación Simple

3

2500estratosn

Ejemplo Muestro por Estratos. Afiliación Proporcional

400250016,0

975250039,0

1125250045,0

3

2

1

xn

xn

xn

estrato

estrato

estrato

Ejemplo de Muestreo por Estratos. Afiliación Óptima

33600210016

101400260039

85500190045

x

x

x

Paso 1 : Multiplicar el porcentaje de la población correspondiente al estrato por

la varianza del estrato

Paso 2: Se suman todos los valores obtenidos en el paso 1 (85500+101400+33600=220500)

Paso 3: Se calcula a proporción de cada valor obtenido en el paso 1 dentro del paso 2.

152,0220500/33600Pr

460,0220500/101400Pr

388,0220500/85500Pr

3

2

1

estrato

estrato

estrato

oporción

oporción

oporción

Paso 4 : Se calcula el tamaño de la muestra de cada estrato multiplicando

su proporción por el tamaño de la muestra global ( 2500)

2500380,1150,970

3802500152,0

11502500460,0

9702500388,0

x

x

x

Muestreo Aleatorio por conglomerados

• La unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado.

• A diferencia de un estrato, un conglomerado es una unidad de elementos que contienen representantes de toda la población.

• El conglomerado más utilizado en la investigación es un conglomerado geográfico.

• Lo más importante sobre esta técnica de muestreo es dar a todos los conglomerados iguales posibilidades de ser seleccionados.

https://explorable.com/es/tecnicas-de-muestreo-estadistico

Muestreo por Conglomerados: Una población es dividida

primero en unidades primarias y entonces una muestra es

seleccionada de la unidades primarias.

Muestreo Aleatorio por conglomerados

Ejemplo: un investigador desea estudiar el rendimiento

académico de los estudiantes de bachillerato en El Salvador.

• Puede dividir a toda la población (población de El Salvador) en diferentes conglomerados (ciudades o departamentos).

• Luego, el investigador selecciona una serie de conglomerados en función de su investigación, a través de un muestreo aleatorio simple o sistemático.

• Luego, de los conglomerados seleccionados (ciudades o departamentos seleccionadas al azar) el investigador puede incluir a todos los estudiantes como sujetos o seleccionar un número de sujetos de cada conglomerado a través de un muestreo aleatorio simple o sistemático.

Ejercicios • Se acercan las Navidades y cierta empresa de turrones cree que no va a poder

entregar todos los pedidos a tiempo, a no ser que aumente la plantilla. La empresa dispone de un listado ordenado alfabéticamente de 20 personas con las mismas características para el puesto y que actualmente están en paro. Puesto que el tiempo apremia y no es posible hacer una entrevista para seleccionar al personal, se decide elegir cinco trabajadores de forma aleatoria usando el muestreo sistemático.

a. Determine la muestra que debe tomarse.

b. Supongamos que se desea extraer una muestra de 6 trabajadores, cual es la muestra a tomarse.

• Supongamos que estamos interesados en estudiar el grado de aceptación que la implantación de la reforma educativa ha tenido entre los padres de una determinado municipio. A tal efecto seleccionamos una muestra de 600 niños. Conocemos por los datos del ministerio que de los 10000 niños escolarizados en las edades que nos interesan, 6000 acuden a colegios públicos, 3000 a colegios privados católicos y 1000 a colegios privados no católicos. Como estamos interesados en que en nuestra muestra estén representados todos los tipos de colegio, realizamos un muestreo estratificado empleando como variable de estratificación el tipo de centro.

24

Solución • Nivel de elevación=20/5= 4

• Si iniciamos con el 1er número aleatorio que se encuentre a partir de la fila y columna 1, de izquierda a derecha y utilizando los últimos dígitos de cada número en la tabla de números aleatorios, la primera muestra es la persona número 02, luego sumamos el nivel de elevación para calcular las demás muestras.

Muestra: 02, 06, 10, 14 y 18.

• Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en este caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de los estratos respecto de la población para poder reflejarlo en la muestra.

• Colegios públicos: 6000/10000=0.60 Colegios privados concertados: 3000/10000=0.30 Colegios privados no concertados: 1000/10000=0.10

• Colegios públicos: 0.60x600=360 sujetos Colegios privados concertados: 0.30x600=180 sujetos Colegios privados no concertados: 0.10x600= 60 sujetos

25

Distribuciones Muestrales

26

27

Introducción

• Uno de los puntos claves de la Estadística es extraer conclusiones a través de un conjunto de datos observados. Por lo general estos datos observados provienen de una muestra, con el objetivo de sacar conclusiones de la población total.

• La Distribución Muestral de un Estadístico es la distribución de probabilidades con que constan todos los posibles valores de un estadístico muestral.

Distribuciones Muestral de Medias

• Distribución Muestral de Medias Es la distribución de probabilidad de todas las media posibles que se pueden extraer de una muestra de tamaño “n”, con o sin reemplazo.

• Propiedades que definen una Distribución Muestral de Medias

1. El valor esperado 2. La Varianza y Desviación Estándar 3. Tipo de Distribución. Se refiere a la forma de la distribución

de probabilidad.

28

Distribuciones Muestrales de

1. El valor esperado. E(x) Es la media de todas las medias

muestrales

29

Demostración:

Distribuciones Muestrales de 1. La varianza V(x) y el Error estándar

nxVx

)(

El error estándar de la media, mide la variabilidad entre medias muestrales.

nxVx

)(

30

Distribuciones Muestrales de 2. La varianza V(x) y el Error estándar

nxVx

)(

Lo que revela que es menor que . Además, indica que cuando: Así, cuanto mayor es la muestra, tanto menor es la fluctuación entre medias muestrales extraídas de la misma población.

Si se toman muestras de una población finita sin reposición, debe de introducirse un factor de corrección para población finitas para calcular el error estándar de la media. En general si la relación n / N > 0.05, se usa:

x 0, xn

1

N

nN

nx

Factor de corrección 31

Ejemplo

• Población de salarios por hora: {7,7,8,8,7,8,9}

N=7

Parámetros:

32

N

xi

2

2)(

N

xi

N

xi

2)(

μ=7.71

σ2=0.49

σ= 0.70

Número de muestras posibles

• # de muestras con reemplazo=

• # de muestras sin reemplazo

– Si el orden no es importante=

– Si el orden es importante=

)!(!

!

nNn

NCnN

)!(

!

nN

NP nN

nN

Número de muestras posibles de tamaño n=2

• # de muestras con reemplazo=

• # de muestras sin reemplazo

– Si el orden no es importante=

– Si el orden es importante=

21)!27(!2

!727

C

42)!27(

!727

P

4972

Muestras posibles con reemplazo de tamaño n=2

7 7 8 8 7 8 9

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

9 (9,7) (9,7) (9,8) (9,8) (9,7) (9,8) (9,9)

Muestras posibles sin reemplazo y el orden no es importante

7 7 8 8 7 8 9

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

9 (9,7) (9,7) (9,8) (9,8) (9,7) (9,8) (9,9)

Muestras posibles sin reemplazo y el orden es importante

7 7 8 8 7 8 9

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

7 (7,7) (7,7) (7,8) (7,8) (7,7) (7,8) (7,9)

8 (8,7) (8,7) (8,8) (8,8) (8,7) (8,8) (8,9)

9 (9,7) (9,7) (9,8) (9,8) (9,7) (9,8) (9,9)

Medias de todas las muestras posibles de tamaño n=2

7 7 8 8 7 8 9

7 7 7 7.5 7.5 7 7.5 8

7 7 7 7.5 7.5 7 7.5 8

8 7.5 7.5 8 8 7.5 8 8.5

8 7.5 7.5 8 8 7.5 8 8.5

7 7 7 7.5 7.5 7 7.5 8

8 7.5 7.5 8 8 7.5 8 8.5

9 8 8 8.5 8.5 8 8.5 9

Valor esperado de medias

Distribución muestral de medias

Medias (x) Frecuencia Probabilidad

7 9 18.37%

7.5 18 36.73%

8 15 30.61%

8.5 6 12.24%

9 1 2.04%

Total 49 100%

Distribución muestral de medias

Medias (x) Frecuencia Probabilidad

Error muestral por

media Error muestral

total Error

muestral ^2

7 9 18.37% -0.7143 -6.4287 4.59202041

7.5 18 36.73% -0.2143 -3.8574 0.82664082

8 15 30.61% 0.2857 4.2855 1.22436735

8.5 6 12.24% 0.7857 4.7142 3.70394694

9 1 2.04% 1.2857 1.2857 1.65302449

Total 49 100% 0.00 12.00

σ2x= 0.2449

σx= 0.4949

datos

xExi

x#

))(( 2

2 σ2= 0.25

0%

20%

40%

60%

80%

100%

120%

5 6

Pro

bab

ilid

ad

Medias

Distribución muestral de probabilidad de

0%

20%

40%

60%

80%

100%

120%

0 1 2 3 4 5 6

Pro

bab

ilid

ad

Medias

Distribución poblacional de probabilidad

Conclusiones

1. El valor esperado de la DMM es igual a μ

2. La dispersión de la DMM es menor a la

distribución poblacional

3. El error estándar de la DMM será:

σx= σ2 / √n

43

Ejercicio 3 Sea la siguiente población de 4 asistentes administrativos, se pide a cada uno de ellos que digite una carta, el número de errores cometidos se presenta a continuación:

44

Ejercicio 3 Calcular : 1. La media, varianza y desviación poblacional. R(2.5, 1.25, 1.1180) 2. Las medias de todas las muestras de n=2 que se puedan extraer

de esa población con reposición . R.16 3. Las medias de todas las muestras de n=2 que se puedan extraer

de esa población sin reposición y si el orden importa. R. 12 4. Las medias de todas las muestras de n=3 que se puedan extraer

de esa población sin reposición sin importar el orden. R 4 5. El valor esperado de la distribución muestral de medias del

literal 2 y 3. R 2.5, 2.5 6. La varianza y desviación estándar de las distibución muestral

de medias del literal 2 y 3. R 0.62500, 0.79057, 0.41667 y 0.64550 7. Transformar la serie de medias de n=2 con reposición en una

Distribución Muestral de medias. 8. Transformar la serie de medias de n=2 sin reposición en una

Distribución Muestral de medias. 9. Grafique la Distribución Muestral de medias del literal 2.

45

Ejercicio 2. Las medias de todas las muestras de n=2 que se puedan

extraer de esa población con reposición y sin reposición.

Muestras Con Reemplazo

A R C D A (3,3) (3,2) (3,1) (3,4) R (2,3) (2,2) (2,1) (2,4) C (1,3) (1,2) (1,1) (1,4) D (4,3) (4,2) (4,1) (4,4)

Muestras Sin Reemplazo A R C D

A (3,3) (3,2) (3,1) (3,4) R (2,3) (2,2) (2,1) (2,4) C (1,3) (1,2) (1,1) (1,4) D (4,3) (4,2) (4,1) (4,4)

Con reposición o reemplazo Nn = 16

Sin reposición o reemplazo y el orden importa { N! / (N-n)! } =12

Medias de cada muestra

A R C D A 3 2.5 2 3.5 R 2.5 2 1.5 3 C 2 1.5 1 2.5 D 3.5 3 2.5 4

46

Ejercicio 4. Las medias de todas las muestras de n=3 que se puedan

extraer de esa población .

Sin reposición o reemplazo y el orden no importa { N! /n (N-n)! } = 4

47

Ejercicio

5. El valor esperado de todas las medias

48

Medias de cada muestra con reemplazo

A R C D

A 3 2.5 2 3.5

R 2.5 2 1.5 3

C 2 1.5 1 2.5

D 3.5 3 2.5 4

Suma= 40

N° de medias 16

µx = 2.5

Medias de cada muestra sin reemplazo

A R C D

A 2.5 2 3.5

R 2.5 1.5 3

C 2 1.5 2.5

D 3.5 3 2.5

Suma= 30

N° de medias 12

µx = 2.5

Ejercicio

6. Varianza y desviación estándar de todas las medias

49

Muestras sin reemplazo

Media muestral

Medias muestral - Valor esperado

(Medias muestral - Valor esperado)^2

R y A 2.5 0 0

C y A 2 -0.5 0.25

D y A 3.5 1 1

A y R 2.5 0 0

C y R 1.5 -1 1

D y R 3 0.5 0.25

A y C 2 -0.5 0.25

R y C 1.5 -1 1

D y C 2.5 0 0

A y D 3.5 1 1

R y D 3 0.5 0.25

C y D 2.5 0 0

∑ 5

N° de muestras= 12

σ2x= 0.41667

σx= 0.64550

FC= 0.81650

Muestras con reemplazo Media muestral

Medias muestral - Valor esperado

(Medias muestral - Valor esperado)^2

A y A 3 0.5 0.25

R y A 2.5 0 0

C y A 2 -0.5 0.25

D y A 3.5 1 1

A y R 2.5 0 0

R y R 2 -0.5 0.25

C y R 1.5 -1 1

D y R 3 0.5 0.25

A y C 2 -0.5 0.25

R y C 1.5 -1 1

C y C 1 -1.5 2.25

D y C 2.5 0 0

A y D 3.5 1 1

R y D 3 0.5 0.25

C y D 2.5 0 0

D y D 4 1.5 2.25

∑ 10

N° de muestras= 16

σ2x= 0.62500

σx= 0.79057

Ejercicio

7. Transformar la serie de medias con reposición en una Distribución Muestral de medias

8. Transformar la serie de medias de n=2 sin reposición en una Distribución Muestral de medias. (Considere factor de corrección)

50

Medias X Frecuencia P(x)

1.5 2 0.16667

2 2 0.16667

2.5 4 0.33333

3 2 0.16667

3.5 2 0.16667

Total 12 1

Medias X Frecuencia P(x)

1 1 0.0625 1.5 2 0.125 2 3 0.1875

2.5 4 0.25 3 3 0.1875

3.5 2 0.125 4 1 0.0625

Total 16 1

Ejercicio 9. Grafique la Distribución Muestral de medias

51

0

0.05

0.1

0.15

0.2

0.25

0.3

1 1.5 2 2.5 3 3.5 4

P(x

)

Numero de errores (x)

Distribucion Muestral de x

Distribuciones Muestrales de

3. Tipo de distribución

Distribución de x

Normal

Desconocida

52

Si la distribución es Normal

53

Si la distribución es desconocida

54

CARACTERISTICAS DE LA DISTRIBUCION NORMAL

Es una campana simétrica con

respecto a su centro La curva tiene un solo pico; por tanto,

es unimodal. La media de una población distribuida

normalmente cae en el centro de su curva normal.

Debido a la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución se encuentran también en el centro; en consecuencia, para una curva normal, la media, la mediana y la moda tienen el mismo valor.

Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal

57

AREAS BAJO LA CURVA NORMAL

Teorema de Chebyshev:

1. Aproximadamente 68.26% de todos los

valores de una población normalmente

distribuida se encuentra dentro de 1

desviación estándar de la media.

2. Aproximadamente 95.46 % de todos los




3. Aproximadamente 99.73% de todos los




+1s +2s +3s -1s -2s -3s

68.26%

95.46%

99.73%

z0 1 2 3-1-2-3

z0 1 2 3-1-2-3 0 1 2 3-1-2-3

x x+ x+2 x+3x-x-2x-3 x x+ x+2 x+3x-x-2x-3

XX

La desviación estándar

sigma representa la

distancia de la media al

punto de inflexión de la

curva normal

58

Valor práctico de la distribución muestral de medias • Si sabemos que la distribución muestral es normal podemos usar la

Distribución Normal Estándar para calcular la probabilidad.

Si Z es el número de desviaciones estándar que hay desde x a la media de la distribución (margen de error) y σ = σ/√n entonces, podemos definir que Z σ/√n= (X-µ), por lo tanto la formula de estandarización será:

• Donde el valor absoluto de la diferencia entre el estimador y el parámetro , se llama Error muestral o Margen de error (e), así :

59

60

– El salario básico inicial promedio de los obreros no calificados

(sin antigüedad), es de $600 mensuales, segun la ley. Suponga que en una empresa la distribución de los salarios sigue una distribucion Normal y tiene una desv estandar de $100. Si se toma una muestra aleatoria simple de 25 obreros, explique para cada situacion si debiera de sancionarse a la empresa o no por pagar menos del promedio establecido:

a) Si la muestra da como resultado un salario promedio mensual de $550 ó

menos? b) Si la muestra da como resultado un salario promedio mensual de al

menos $625? c) Si la muestra da como resultado un salario promedio mensual de $ 630 ó

menos? d) Si la muestra da como resultado un salario promedio mensual de por lo

menos $575? e) Si la muestra da como resultado un salario promedio mensual que se

encuentre entre $575 y $625? f) Si la muestra da como resultado un salario promedio mensual se

encuentre entre $570 y $615? g) Si la muestra da como resultado un salario promedio mensual se

encuentre entre $625 y $650? h) Cual seria el salario promedio limite que se aceptaria como resultado de

la muestra para no sancionar a la empresa, si se establece como maximo un 5%, 10% de probabilidad.

Ejercicio

Ejercicio

61

62

)5

(5833,0

5,3

5

2

2

x

x

n

)10

(2917,0

5,3

10

2

2

x

x

n

)25

(1167,0

5,3

25

2

2

x

x

n

Relacion entre el tamaño de muestra y distribucion muestral de Medias

63

Distribución de la Media Muestral

)5

(5833,0

5,3

5

2

2

x

x

n

)10

(2917,0

5,3

10

2

2

x

x

n

)25

(1167,0

5,3

25

2

2

x

x

n

Notar que es menor que . Cuanto

mayor es el tamaño de muestra, va a ser

menor . . Entonces, tiende a ubicarse

cerca de , a medida que el tamaño de la

muestra aumenta

2x

x2

x

Usando la N(0,1), calcule para cada caso la probabilidad que la media muestral este a mas o menos 0.5 de la media poblacional, ¿Qué pasa con la probabilidad?

64

El estimador de π es =

• El parámetro de interés para datos nominales

es la proporción de veces que se presenta

un determinado resultado(suceso).

• Para estimar la proporción poblacional ‘π’ se

usa la proporción muestral.

Distribución Muestral de Proporciones p

p ^ = X

n

Donde x: número de elementos de la muestra que poseen la

característica de interés.

n: tamaño de la muestra

^

65

• Se define como la distribución de probabilidad de todos los valores posible de p que se pueden extraer, con o sin reemplazo

• Si X es binomial, las probabilidades

se pueden calcular con la distribución binomial.

• Pero, para inferencia acerca de se prefiere usar la normal como aproximación a la binomial. (muestras grandes)

p ^

^

p ^ Distribución Muestral de Proporciones

66

Aproximación Normal a la Binomial

n π 5 ; n(1 - π) 5

– La aproximación normal de la binomial es mejor cuando :

• La cantidad de experimentos (tamaño de la muestra) es grande, y la probabilidad del suceso, π, es próxima a 0.5.

– Para que la aproximación dé buenos

resultados se deben cumplir dos condiciones:

67

• De las propiedades del valor esperado y la varianza, se cumple:

• E( ) = π y V ( ) = π(1- π)/n • La desviacion estandar o error estandar se representa como σ

Se calcula como la raiz cuadrada de v( ) , asi:

• Al igual que las x, si la relación n/N>0.05, entonces se utiliza :

• Si ambos n π > 5 y np(1- π) > 5, entonces:

• Z se distribuye como una normal estándar.

p̂ p̂

Factor de corrección

p̂p̂

p̂

n

pz

)1(

ˆ

1

)1(

N

nN

np

np

)1(

Aproximación Normal a la Binomial

68

• Ejemplo – Un partido FM recibió en promedio el 52% de los

votos en la última elección. – Un año después el partido quiere estudiar su

popularidad. Si p representa la proporción de votantes que votan por el FM.

– Si la elección próxima se gana con la mitad más uno, cuál es la probabilidad de que gane el FM, si se toma una muestra de 300 personas?

– Cuál es la probabilidad de que 200 o menos de la muestra de 300 electores voten por el FM?

– ¿Qué proporción de votantes necesitaría el partido para tener una probabilidad 80 % en la muestra? ¿Cuántos votos representa esto?

69

• Ejemplo – Solución

El número de electores que prefieren el

representante es binomial con n = 300 y π = 0,52.

Se tiene n π = 300(0,52) = 156 y n(1- π) = 300(1-0,52) = 144

(ambos mayores de 5)

7549,0300)52,01)(52,0(

52,050,0

)1(

ˆ)50,0ˆ()

n

pPpPa

85,0300)52,01)(52,0(

52,0

)1(

ˆ%)ˆ()

p

n

pPpPc

85,0300)52,01)(52,0(

52,003.1)ˆ(

pPxpP

tesvonpx

p

tan165300*5499.0*

,%99.545499.0

9859.0)2.2()58.0ˆ() zPpPb

Ejercicio

70

71

Distribución Muestral de la Diferencia entre dos Medias

• Se extraen dos muestras independientes de dos poblaciones con distribución normal.

• Interesa la distribución muestral de la diferencia entre las dos medias muestrales.

21xx

72

• La distribución de es normal si:

– Las dos muestras son independientes, y

– Las distribuciones poblacionales se distribuyen normalmente.

21xx

21xx

Si cada una de las poblaciones no tiene

distribución normal, pero los tamaños de

muestra son 30 o más, la distribucion de

es aproximadamente normal (TCL).


73

• Aplicando las propiedades de valor esperado y varianza se tiene:

nn)x(V)x(V)xx(V

)x(E)x(E)xx(E2

2

2

1

2121

212121

Se puede definir:


2

2

2

1

2

1

2121

nn

)()xx(Z

74

Ejemplo – Los ingresos promedios de los funcionarios de dos

empresas, WLU y UWO son de $62.000 (d. estándar = $14.500), y $60.000 (d. estándar = $18.300). (Valores anuales)

– Cuál es la probabilidad de que una media muestral de la WLU sea mayor que la media

muestral de UWO (nWLU = 50; nUWO = 60)


75

• Ejemplo 9.4 – Solución

Hay que determinar :

128.3$60

300.18

50

500.14 222

2

2

1 nn

7389,02389,05,0)64,0(

)3128

20000(()0(

2

2

2

1

2

1

2121

zP

nn

) - xxPxxP 21

)0xx(P 21

1 - 2 = 62.000 - 60.000 = $2.000


Ejercicio

• Los cinescopios para la televisión del fabricante A tiene una duración media de 6.5 años y una desviación estándar de 0.9 años, mientras que los del fabricante B tienen una duración media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que una muestra aleatoria de 36 cinescopios del fabricante A tenga una duración media que sea al menos de un año más que la duración media de una muestra de 49 cinescopios del fabricante B?

76

78

Distribución muestral de la diferencia de Proporciones normales

2121)( ppE

nnppV

2

22

1

11

21

)1()1()(

Aplicando las propiedades de valor esperado y varianza se tiene:

Se puede definir:

nn

ppZ

2

22

1

11

2121

)1()1(

)()(

79

Ejemplo

Se sabe que en una población el 28% de las mujeres y

el 25% de los hombres son fumadores. Se extraen

muestras de 42 mujeres y 40 hombres. Determinar la

probabilidad de que las mujeres fumadoras superen a los

hombres fumadores en al menos el 4%.

Otras Distribuciones muestrales para poblaciones Normales

80

DISTRIBUCION "t DE STUDENT"

• La apariencia general de la distribución t es similar a la de la distribución normal estándar: ambas son simétricas y unimodales, y el valor máximo de la ordenada se alcanza en la media.

• v es el numero de grados de libertad (n-1)

82

• Se utiliza la Distribucion “ t de student “ en lugar de la distribución Z estándar, para muestreo pequeño.

• Teorema. Xi y S² son la media y la varianza de una muestra aleatoria de tamaño n tomada de una población normal con media µ y varianza σ², entonces la variable

• tiene la distribución t con n-1 grados de libertad.

DISTRIBUCION "t DE STUDENT"

Propiedades de la distribución t

• 1. Cada curva t tiene forma de campana con centro en 0. 2. Cada curva t, está más dispersa que la curva normal estándar z. 3. A medida que γ aumenta, la dispersión de la curva t disminuye. 4. A medida que γ aumenta, la secuencia de curvas t se aproxima a la curva normal estándar.

• Propiedades generales

a) El valor esperado es cero, E(t)= 0 b) Distribución simétrica con respecto a cero. c) La varianza de t es ligeramente mayor de 1.0, es decir, es ligeramente mayor que la de la distribución normal estándar. d) Para n ≥ 30 la distribución t tiende hacia la distribución normal.

• Ejemplo. En un recorrido de prueba de una hora cada uno, el consumo promedio de gasolina de 16 motores fue 12.4 galones, con una desviación estándar de 3.1 galones.

a) Se quiere saber la probabilidad de que el consumo sea mayor a 12.4 galones/hora, si el fabricante afirma que "el consumo promedio de gasolina es 12 galones/hora".

b) Cual es la probabilidad que una media tenga un consumo entre 11.6 y 12.4?

c) Si en la muestra obtuviéramos X=16, s= 2.1, cual es la probabilidad de que el consumo sea mayor a 16 gal/h.

84

Nota: Para aquellos valores que no se encuentren en la tabla t ó x2, se puede

usar interpolación lineal, mediante la siguiente fórmula:

DISTRIBUCIÓN CHI CUADRADO X 2

El valor esperado y la varianza de la distribución Chi cuadrado están dados por:

E(X) = V, V(X) = 2 V

donde: V es el número de grados de libertad, o simplemente "grados de libertad".

Propiedades de las distribuciones Chi-cuadrada

• Los valores de X2 son mayores o iguales que 0.

• La forma de una distribución X2 depende de los V =n-1.

• El área bajo una curva Chi-cuadrada y sobre el eje horizontal es 1.

• Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha.

Teorema.

Si y S2 son la media y la varianza de una muestra aleatoria (n) tomada de una población normal con media μ y varianza σ2, entonces:

a) y S2 son independientes.

b) La variable aleatoria X2 tiene una distribución Chi Cuadrado con n-1 grados de libertad.

X2=

x

x

Ejercicio Un fabricante de baterías para automóviles garantiza que sus baterías duran, en

promedio 2.5 años con una varianza de 0.36. Si la distribución de las duraciones sigue

una distribución normal y se toma una muestra de 12 baterías:

a) Cual es la probabilidad que la media de la muestra sea mayor a 3 años?

b) Cual es la probabilidad que las baterías tengan una desviación estándar de 1 años o más.

c) Que garantía debe ofrecer el fabricante en cuanto a la duración de las baterías si desea un probabilidad de cumplimiento del 95%

• Nota: Para aquellos valores que no se encuentren en la tabla t ó x2, se puede usar interpolación lineal, mediante la siguiente fórmula:

88

Fórmulas Importantes

89

Fórmulas Importantes

nn)x(V)x(V)xx(V

)x(E)x(E)xx(E2

2

2

1

2121

212121

2

2

2

1

2

1

2121

nn

)()xx(Z

Clases Estadistica

Documents

Transcript of Clases Estadistica