Estadistica inferencial 1

81
1 Estadística Inferencial Distribución de Probabilidad Normal Distribución Normal Distribución Normal Estándar Cálculo de Probabilidades con la Distribución Normal Estándar Estimación Puntual Teorema del Límite Central Distribuciones t Estimación por Intervalos (Intervalos de Confianza) Prueba de Hipótesis Hipótesis para un promedio Hipótesis para una proporción Hipótesis para dos promedios Hipótesis para dos proporciones Hipótesis para dos promedios muestras pareadas Prueba Chi-Cuadrado Análisis de Variancia

Transcript of Estadistica inferencial 1

Page 1: Estadistica inferencial 1

1

Estadística Inferencial

• Distribución de Probabilidad Normal

• Distribución Normal

• Distribución Normal Estándar

• Cálculo de Probabilidades con la Distribución Normal Estándar

• Estimación Puntual

• Teorema del Límite Central

• Distribuciones t

• Estimación por Intervalos (Intervalos de Confianza)

• Prueba de Hipótesis

• Hipótesis para un promedio

• Hipótesis para una proporción

• Hipótesis para dos promedios

• Hipótesis para dos proporciones

• Hipótesis para dos promedios muestras pareadas

• Prueba Chi-Cuadrado

• Análisis de Variancia

Page 2: Estadistica inferencial 1

2

2

3

6

9

10

9

6

3

2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

Estadístico Edad

Promedio: 34,52

Desv.Est.: 8,20

3452.

Ejemplo: Distribución de Frecuencias de las Edades de 50 personas

Distribución de Probabilidad Normal

Page 3: Estadistica inferencial 1

3

Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio

nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la

que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.

Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica

tiene forma de campana.

Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie:

tallas, pesos, envergaduras, diámetros, perímetros,...

Caracteres fisiológicos: efecto de una misma dosis de un fármaco, o de una misma

cantidad de abono.

Caracteres sociológicos: consumo de cierto producto por un mismo grupo de individuos,

puntuaciones de examen.

Caracteres psicológicos: cociente intelectual, grado de adaptación a un medio,...

Errores cometidos al medir ciertas magnitudes.

Valores estadísticos muestrales: la media.

Otras distribuciones como la binomial o la de Poisson son aproximaciones normales,

f x e

x

( )

1

2

2

22

media

desv est

pi

e base nat

. .

. ...

log .

31415

2 7182

Función de Densidad

de la Distribución

Normal

Distribución de Probabilidad Normal

Page 4: Estadistica inferencial 1

4

,1

2

Punto Máximo

Puntos de Inflexión

Eje de Simetría

Características de la Distribución Normal

Distribución de Probabilidad Normal

Page 5: Estadistica inferencial 1

5

Distribución Normal Estándar

Cualquier variable, si se transforma a otra variable restando a todas sus

observaciones la media aritmética y dividiendo por la desviación estándar,

produce una nueva variable cuyo promedio es 0 y su desviación estándar es 1

( )2 4

21

x z

2 -1,0

4 0,0

6 1,0

Promedio: 4,00 0,00

Desv. Est.: 2,00 1,00

( )6 4

21

zx

( )

Page 6: Estadistica inferencial 1

6

2

3

6

9

10

9

6

3

2

-2,25--1,75 -1,75--1,25 -1,25--0,75 -0,75--0,25 -0,25-0,25 0,25-0,75 0,75-1,25 1,25-1,75 1,75-2,25

2

3

6

9

10

9

6

3

2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

Distribución Normal Estándar

0

Ejemplo: Distribución de Frecuencias

de las Edades de 50 personas

Page 7: Estadistica inferencial 1

7

f z e

z

( ) 1

2

2

2

z

x

Función de Densidad

de la Distribución

Normal Estándar

01

20 0 399, , . ...

Punto Máximo

Puntos de Inflexión

1 1 0

Eje de Simetría = Eje Y

z

z

0

1

Distribución Normal Estándar

Page 8: Estadistica inferencial 1

8

34 3

7 7

2 2 7 7 155

2 34 3 15 5 188

2 34 3 15 5 49 8

.

.

( )( . ) .

. .

. .

Probabilidades con la Distribución Normal Estándar

Cerca de 2 personas: aproximadamente el 5% de las personas es menor a 18.8 años o mayor a 49.8 años, y cerca del 95% de las personas tiene edades entre 18.8 y 49.8 años.

2

3

6

9

10

9

6

3

2

17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52

188. 498.

Apróx. 1 Persona Apróx. 1 Persona

95%

25%.25%.

Ejemplo: En la Distribución de Frecuencias de las Edades de

50 personas, al promedio le restamos 2 desviaciones

estándar y también le sumamos dos desviaciones estándar:

Page 9: Estadistica inferencial 1

9

2 2 196 .

Cálculo de Probabilidades con la Distribución Normal Estándar

2 2 196 .

95%

25%.25%.

233. 233.

99%

05%.05%.

Page 10: Estadistica inferencial 1

10

Cálculo de Probabilidades con la Distribución Normal Estándar

196.

975%. 25%.

233.

1% 99%

=DISTR.NORM.ESTAND.INV(0,975)

Cálculo en Excel

Page 11: Estadistica inferencial 1

11

Cálculo de Probabilidades con la Distribución Normal Estándar

Cálculo en Minitab

Inverse Cumulative Distribution Function

Normal with mean = 0 and standard deviation = 1,0

P( X <= x ) x

0,9750 1,9600

97 5%, 25%.

Page 12: Estadistica inferencial 1

12

Lecturas:

Mason & Lind: pág 304 a 321

Ejercicios:

Mason & Lind:

Página Ejercicios

321 12

Distribución de Probabilidad Normal

Page 13: Estadistica inferencial 1

13

Estimación Puntual

1 2 3 4

2,50

1,12

Elementos de la Población

Promedio de la Población:

Desviación Estándar de la

Número de

la Muestra

Promedio de

cada Muestra

1 1 2 1,5

2 2 1 1,5

3 1 3 2,0

4 3 1 2,0

5 1 4 2,5

6 4 1 2,5

7 2 3 2,5

8 3 2 2,5

9 2 4 3,0

10 4 2 3,0

11 4 3 3,5

12 3 4 3,5

Elementos en cada

Muestra

X1

X 2

X12

2,50

0,645

Promedio de las 12 Muestras:

Desviación Estándar de las 12

Muestras:

X

X

Una Población está compuesta de

4 valores: 1,2,3,4. El Promedio de

esta Población es 2,5 y la

Desviación Estándar es 1,12

Si extraemos las 12 posibles muestras

(todas las posibles muestras), podemos

calcular el promedio de cada muestra:

Como se obtienen 12 muestras, podemos

calcular 12 promedios y también podemos

calcular el promedio de esos 12 promedios, y

la desviación estándar de esas 12 muestras:

Page 14: Estadistica inferencial 1

14

X n

N n

N

22

1

X

2

3

1,414

0,791

0,667

0,816

0,645

N n

N

1

N n

N 1

N n

N

12

n2

n2

n

N n

N22

1

1,12Desviación Estándar de la

0,645Desviación Estándar de las 12

Muestras:

X

Estimación Puntual

Observemos que el Promedio de los Promedios

de las 12 muestras es igual al Promedio de la

Población: 2,5.

Sin embargo la Desviación Estándar de las 12

muestras no es igual a la Desviación Estándar

de la Población ( 0,645 y 1,12).

Observemos que si utilizamos la Desviación

Dstándar de la Población, mediante una

fórmula que involucra el tamaño de Población y

el tamaño de las muestras (2 de 4), si

obtenemos la Desviación Estándar de las 12

muestras:

Page 15: Estadistica inferencial 1

15

Insesgado: si el promedio del estimador es igual al parámetro que se va a

estimar.

Eficiente: si hay dos o más estimadores para el mismo parámetro, el más

eficiente es el que tiene menor variancia.

Consistente: si se calcula el estimador para dos o más muestras, conforme el

tamaño de la muestra se incrementa, la aproximación es mejor.

Suficiente: si hay más de un estimador, suficiente es el que utiliza la mayor

cantidad de datos de la muestra.

Características de un buen estimador

Estimación Puntual

Page 16: Estadistica inferencial 1

16

Un estimador puntual es un número que se utiliza para aproximar el valor de la

población. Los Estimadores Puntuales para variables cuantitativas son:

Estos son estimadores insesgados, eficientes, consistentes y suficientes

x

x

n

s

x x

n

ii

n

ii

n

1

2

1

1

( )

Estimación Puntual

Page 17: Estadistica inferencial 1

17

P px

n

Los Estimadores Puntuales para Proporciones (en variables cualitativas) son:

En dónde x son los elementos de la muestra de tamaño n que cumplen con la

característica de estudio. Por ejemplo, x=20 mujeres de n=50 personas en una

muestra p=0.4 ( o 40% )

s pq

q pn x

n

1Aquí:

En la Población la Proporción y su Desviación Estándar se calculan: PX

n

PQ

Q PN X

N

1

Estimación Puntual

Page 18: Estadistica inferencial 1

18

Estimación por Intervalo: Nivel de Confianza

Nivel de Confianza (1-)

12

2

95.01 025.02

025.0

2

05.0

Nivel de Confianza (95%)

Page 19: Estadistica inferencial 1

19

Nivel de Confianza (1-)

96.1975.0 z

975.02

1

96.1025.0 z

025.02

Estimación por Intervalo: Nivel de Confianza

Page 20: Estadistica inferencial 1

20

Distribución t (t-student)

La distribución t-student tiene

promedio 0 y su desviación estándar

depende del tamaño de la muestra

pero conforme aumenta n la

desviación estándar se acerca a 1.

De igual forma al aumentar n, la

distribución t-student tiende a ser

similar a la distribución normal

estándar.

Para cada valor de n (tamaño de

muestra), existe una distribución t-

student conocida como distribución

t con n-1 grados de libertad.

La Distribución t-student (o

simplemente t) es muy utilizada en

estadística inferencial.

Intervalos de Confianza

Page 21: Estadistica inferencial 1

21

Distribución t

198.

95% 25%.25%.

198.

=DISTR.T.INV( 0,05 ; 100 )

Probabilidad (2 colas) Grados de Libertad

Cálculo en Excel

Page 22: Estadistica inferencial 1

22

Distribución t

Cálculo en Minitab

97 5%, 25%.

Inverse Cumulative Distribution Function

Student's t distribution with 100 DF

P( X <= x ) x

0,9750 1,9840

Page 23: Estadistica inferencial 1

23

Si es la media de una muestra aleatoria de tamaño n extraída de una población que tiene

media y variancia 2 , entonces:

Teorema del Límite Central

1

_

N

nN

n

xz

es el valor de una variable aleatoria cuya distribución de probabilidad se aproxima a la

distribución normal estándar cuando n tiende a infinito:

Este teorema nos permite utilizar la distribución normal estándar en cualquier caso siempre y cuando el tamaño de muestra sea “suficientemente grande”. En muchos textos

se considera que si el tamaño de muestra es superior a 30, se puede aplicar la distribución normal estándar.

Page 24: Estadistica inferencial 1

24

Si x es la media de una muestra aleatoria de tamaño n extraída de una población

normal que tiene media y variancia 2 , entonces:

1

_

)1(

N

nN

n

s

xt n

es el valor de una variable aleatoria cuya distribución de probabilidad es la

distribución t-student con parámetro n-1 (grados de libertad)

Teorema Distribución t

Este resultado nos permite utilizar la distribución t cuando no se conoce el valor (variancia de la población), y se utiliza s como su estimación puntual. Es válido siempre y

cuando la distribución de la variable original sea aproximadamente normal.

Para muestras grandes (n≥30) debido a que la distribución t y la distribución normal son muy cercanas, el requisito de normalidad no es necesario para utilizar la distribución t.

Page 25: Estadistica inferencial 1

25

Intervalo de confianza para al (1-)100%

11 21

2

N

nN

n

pqzpP

N

nN

n

pqzp

121

N

nN

n

pqzp

Intervalo de confianza para P al (1-)100%

Intervalos de Confianza

11

21;1

_

21;1

_

N

nN

n

stx

N

nN

n

stx nn

1

21;1

_

N

nN

n

stx n

Page 26: Estadistica inferencial 1

26

Intervalo de confianza para al (1-)100%

ss

nt

s

n

N n

N

12

1

] [

111

21

2

t ts

n

N n

N

] [

ns

nt

s

n

N n

N

12

1 ] [

Si la Desviación Estándar “aumenta” el intervalo se hace

más “ancho”

Si la confianza “aumenta” el intervalo se hace más “ancho”

Si el tamaño de muestra “aumenta” el intervalo se hace

más “angosto”

Como se afecta el Intervalo al variar la Desviación Estándar, la Confianza

y el Tamaños de Muestra

Intervalos de Confianza

Page 27: Estadistica inferencial 1

27

8,000 950

12,000 ± 1,677 * ———— * ————

50 999

8,000

12,000 ± 1,677 * ———— * 0,951

7,071068

12,000 ± 1,677 * 1,131 * 0,975

12,000 ± 1,850

Tamaño n = 50

Promedio = 12

Desviación Estándar s = 8

Confianza 1- = 0,900

Tamaño N = 1000

Población

Muestra

_

x

4,000 950

12,000 ± 1,677 * ———— * ————

50 999

4,000

12,000 ± 1,677 * ———— * 0,951

7,071068

12,000 ± 1,677 * 0,566 * 0,975

12,000 ± 0,925

Intervalo de confianza para al (1-)100%

Si la Desviación Estándar “aumenta” el intervalo se hace más “ancho”

Como se afecta el Intervalo al variar la Desviación Estándar

9,9 10,0 10,1 10,2 10,3 10,4 10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5 13,6 13,7 13,8 13,9 14,0

Intervalos de Confianza

Tamaño n = 50

Promedio = 12

Desviación Estándar s = 4

Confianza 1- = 0,900

Tamaño N = 1000

Población

Muestra

_

x

11,08 12,9210,15 13,85

1

21;1

_

N

nN

n

stx n

Page 28: Estadistica inferencial 1

28

Tamaño n = 50

Promedio = 12

Desviación Estándar s = 4

Confianza 1- = 0,900

Tamaño N = 1000

Población

Muestra

_

x

Intervalo de confianza para al (1-)100%

Si la Confianza “aumenta” el intervalo se hace más “ancho”

Como se afecta el Intervalo al variar la Confianza

10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5

Intervalos de Confianza

11,08 12,92

4,000 950

12,000 ± 1,677 * ———— * ————

50 999

4,000

12,000 ± 1,677 * ———— * 0,951

7,071068

12,000 ± 1,677 * 0,566 * 0,975

12,000 ± 0,925

Tamaño n = 50

Promedio = 12

Desviación Estándar s = 4

Confianza 1- = 0,990

Tamaño N = 1000

Población

Muestra

_

x

4,000 950

12,000 ± 2,680 * ———— * ————

50 999

4,000

12,000 ± 2,680 * ———— * 0,951

7,071068

12,000 ± 2,680 * 0,566 * 0,975

12,000 ± 1,478

10,52 13,48

1

21;1

_

N

nN

n

stx n

Page 29: Estadistica inferencial 1

29

Tamaño n = 50

Promedio = 12

Desviación Estándar s = 4

Confianza 1- = 0,900

Tamaño N = 1000

Población

Muestra

_

x

Intervalo de confianza para al (1-)100%

Si el Tamaño de Muestra “aumenta” el intervalo se hace más “angosto”

Como se afecta el Intervalo al variar el Tamaño de Muestra

11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0

Intervalos de Confianza

Tamaño n = 200

Promedio = 12

Desviación Estándar s = 4

Confianza 1- = 0,990

Tamaño N = 1000

Población

Muestra

_

x

11,08 12,92

4,000 950

12,000 ± 1,677 * ———— * ————

50 999

4,000

12,000 ± 1,677 * ———— * 0,951

7,071068

12,000 ± 1,677 * 0,566 * 0,975

12,000 ± 0,925

4,000 800

12,000 ± 2,576 * ———— * ————

200 999

4,000

12,000 ± 2,576 * ———— * 0,801

14,14214

12,000 ± 2,576 * 0,283 * 0,895

12,000 ± 0,652

11,35 12,65

1

21;1

_

N

nN

n

stx n

Page 30: Estadistica inferencial 1

30

Distribución t

Promedio 316

Desviación Estándar 243,91

Muestra 40

Nivel de Confianza 95%

Alfa 5%

Grados Libertad 39

t 2,023

E 78,0

Límite Inferior 237,99

Límite Superior 394,01

Intervalos de Confianza

Cálculo en Excel

404 87 703 968

74 234 125 712

234 68 350 503

149 489 440 498

279 57 37 327

215 185 252 608

123 141 27 358

55 758 521 425

43 72 302 303

321 863 127 203

Distribución Normal

Promedio 316

Desviación Estándar 243,91

Muestra 40

Nivel de Confianza 95%

Alfa 5%

E 75,59

Límite Inferior 240,41

Límite Superior 391,59

=+PROMEDIO(B$4:B$43)

=+DESVEST(B$4:B$43)

=+CONTAR(B$4:B$43)

0,95

=(1-H7)

=+H6-1

=DISTR.T.INV(H8;H9)

=+(H5/RAIZ(H6))*H10

=+H4-H11

=+H4+H12

=+PROMEDIO(B$4:B$43)

=+DESVEST(B$4:B$43)

=+CONTAR(B$4:B$43)

0,95

=(1-E7)

=INTERVALO.CONFIANZA(E8;E5;E6)

=+E4-E9

=+E4+E9

Ejemplo

Page 31: Estadistica inferencial 1

31

Intervalos de Confianza

One-Sample T: Saldos

Variable N Mean StDev SE Mean 95,0% CI

Saldos 40 316,0 243,9 38,6 ( 238,0. 394,0)

Cálculo en Minitab

Stat / Basic Statistics / 1-Sample t

Ejemplo

Page 32: Estadistica inferencial 1

32

El error de estimación es la diferencia

entre el promedio de la muestra y el

verdadero promedio de la población:

1)1,2

1(

N

nN

n

stE

n

proporciónunaparaPp

promediounparax

Error de Estimación

El error de estimación no se puede conocer porque precisamente se está tratando de

estimar μ o P. Sin embargo es posible limitar su valor por medio de las probabilidades.

Para calcular el límite máximo del error de estimación para un promedio μ o una

proporción P, con un nivel de confianza 1- α establecido, utilizamos:

En dónde s es la desviación estándar de la muestra, p la proporción de la muestra (q=1-p),

n el tamaño de la muestra, N el tamaño de la población, 1- α el nivel de confianza.

E se conoce como el Error Máximo de Estimación con una confianza de 1- α

121

N

nN

n

pqzE

Para un Promedio μ :

Para una Proporción P :

Page 33: Estadistica inferencial 1

33

Tamaño de Muestra

2

21

E

zPQn

Donde:

E es el límite máximo para el error permitido. 1-α es la probabilidad de que el error no

supere E. P es una aproximación la proporción de la población.

Si se desea estimar el tamaño de muestra para estimar una proporción P, se utiliza:

2

21

)5.0)(5.0(

E

zn

Si no se tiene idea del valor de P, se puede utilizar P=0.5, este valor genera el tamaño de

muestra más grande:

Para una proporción

Page 34: Estadistica inferencial 1

34

Para un promedio

2

2

21

E

zn

Donde:

E es el límite máximo para el error permitido.

1-a es la probabilidad de que el error no supere E.

s es una aproximación la variancia de la población.

Tamaño de Muestra

Page 35: Estadistica inferencial 1

35

Lecturas:

Mason & Lind: pág 374 a 394

Ejercicios:

Mason & Lind:

Página Ejercicios

396 32, 34

403 65, 66

Medidas de Variabilidad

Page 36: Estadistica inferencial 1

36

Prueba de Hipótesis

• Hipótesis estadística y tipos de hipótesis

• Nivel de significancia

• Tipos de errores

• Estadísticos para las pruebas

• Reglas de decisión

• Planteo de la hipótesis

• Pasos para realizar la prueba de hipótesis

Page 37: Estadistica inferencial 1

37

Prueba de Hipótesis

Un Parámetro es un valor que se calcula utilizando todos los valores de la Población

Por lo general se denotan con letras griegas o mayúsculas

Los Parámetros en muchas ocasiones son valores desconocidos ya que no tenemos

todos los componentes de la población

Page 38: Estadistica inferencial 1

38

Como los parámetros son valores desconocidos, podemos plantear hipótesis

sobre su valor real, y mediante un mecanismo científico, realizar una

comprobación de esta hipótesis (demostrar si es verdadera o falsa)

Ejemplos de hipótesis:

-La proporción de personas contagiadas de alguna enfermedad es 8%.

El ingreso mensual promedio de las familias de un barrio marginal es 55000

colones.

El tiempo promedio de capacitación de un software es de 18 horas.

Prueba de Hipótesis

Page 39: Estadistica inferencial 1

39

Dado que los valores completos de la población son desconocidos (y el valor del parámetro

también es desconocido), la forma de realizar una prueba y verificar la validez o no de una

hipótesis, es tomando una muestra y calculando el estadístico correspondiente

(estadístico: medición que se calcula con los valores de la muestra).

Si el valor de la muestra es suficientemente cercano al valor hipotético en la población

decimos que la hipótesis es cierta.

De lo contrario, si el valor de la muestra es suficientemente lejano al valor supuesto en la

población decimos que la hipótesis es falsa.

Prueba de Hipótesis

Page 40: Estadistica inferencial 1

40

Prueba de Hipótesis

Hipótesis simple

Es una hipótesis en la que el parámetro queda especificado por completo, o sea solo

puede tomar un único valor.

• El promedio de edad de un grupo de estudiantes universitarios es 25 años: μ= 25.

• La proporción de trabajadores de una empresa que sufren de estrés es 35%: P = 0.35

Hipótesis compuesta

Es una hipótesis en la que el parámetro puede tomar más de un valor.

• El promedio de gastos mensuales en medicamentos por familia en San José es superior a

5000 colones: μ > 5000.

• La proporción de adultos que votaran en las próximas elecciones es superior al 70%:

P > 0.7

• La proporción de personas que llaman a la sección de servicio al cliente de una empresa

vendedora de computadoras es inferior al 6%: P < 0.06

Page 41: Estadistica inferencial 1

41

Hipótesis Nula

Es una hipótesis que se plantea para ser rechazada o no. A la hipótesis nula se le

considera cierta hasta tanto no encontremos evidencia para rechazarla.

La hipótesis nula siempre es una hipótesis simple.

7.0:

30:

0

0

PH

H

Ejemplo

El fabricante de un software asegura que con un nuevo manual no más del 10% de los

compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción

es 10%).

P es la proporción de todos los compradores que llaman a solicitar servicio (La afirmación

se aplica a todos los compradores: la población completa)

1.0:0 PH

Prueba de Hipótesis

Page 42: Estadistica inferencial 1

42

Hipótesis alternativa

Siempre se formula un hipótesis nula y una hipótesis alternativa apropiada; ésta última es

la que aceptamos como cierta cuando la hipótesis nula es rechazada.

La hipótesis alternativa siempre es una hipótesis compuesta (unilateral o bilateral).

7.0:30: 11 PHH

Ejemplo

El fabricante de un software asegura que con un nuevo manual no más del 10% de los

compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción

es 10%).

1.0:1 PH

Prueba de Hipótesis

Page 43: Estadistica inferencial 1

43

Cuando la hipótesis alternativa es una hipótesis unilateral se dice que es de una cola.

Si es bilateral se dice que es de dos colas.

Prueba de Hipótesis

Prueba de

Hipótesis de

DOS COLAS

Prueba de

Hipótesis de

UNA COLA

Page 44: Estadistica inferencial 1

44

Prueba de Hipótesis

Decisión

Correcta

Error

Tipo I

Error

Tipo II

Decisión

Correcta

Se Acepta Se Rechaza

H0

Verdadera

Falsa

H0

Posibles errores al tomar la decisión

Si el procedimiento de prueba lleva al Rechazo de H0 pero en la Realidad la hipótesis es

verdadera, se comete un error, este error se llama Error Tipo I

Procedimiento

de Prueba

Realidad

Si mediante el procedimiento de prueba se Acepta H0 pero en la Realidad la hipótesis es

falsa, se comete un error, este error se llama Error Tipo II

Page 45: Estadistica inferencial 1

45

Ejemplo

Un fabricante de software afirma que la proporción de personas que llamará solicitando

servicio se su producto no supera el 10%. Pero un distribuidor mayorista del software

sospecha que esta proporción es mayor a lo que el fabricante afirma.

El distribuidor quiere determinar si la afirmación del fabricante es incorrecta (se quiere

demostrar que la afirmación del distribuidor es la correcta)

1.0:

1.0:

1

0

PH

PH

Prueba de Hipótesis

Page 46: Estadistica inferencial 1

46

Ejemplo

Para verificar si la afirmación del fabricante es cierta, se toman los primeros 100

compradores del software y se controla si llaman solicitando servicio durante el siguiente

mes luego de la compra.

La proporción de personas llamaron en esa muestra es de 13%, o sea p=0.13.

¿Podríamos considerar que 0.13 es muy cercano a 0.10 y que la diferencia se debe al

azar? Entonces: ¿Podemos concluir que la afirmación del fabricante es cierta?

O sea, no rechazamos H0

¿O podemos considerar que 0.13 y 0.10 son muy lejanos y que hay “suficiente evidencia”

para concluir que la proporción de llamadas es superior al 10%? Entonces: ¿Podemos

rechazar H0

Prueba de Hipótesis

Page 47: Estadistica inferencial 1

47

Nivel de Significancia

Cuando consideramos que la diferencia entre el parámetro y el valor en la muestra es

mayor que lo que puede atribuirse al azar, decimos que la diferencia es significativa.

Cuando la diferencia es significativa rechazamos la hipótesis nula y aceptamos como

válida la hipótesis alternativa. De lo contrario se mantiene como cierta la hipótesis nula.

El nivel de significancia es la probabilidad de cometer el error tipo I () . Como es una

probabilidad se le dan valores porcentuales entre 0 y 100.

Los valores más comunes son 0.01 (1%) , 0.05 (5%) y 0.1 (10%).

Un nivel de significancia del 1%, (= 0.01) indica que existe un 1% de probabilidad de

cometer el error de rechazar H0 cuando es realmente cierta (Error Tipo I).

En otras palabras, si se realizara 100 veces el proceso, cometeríamos 1 vez el error de

rechazar la hipótesis nula cuando realmente es cierta.

Prueba de Hipótesis

Page 48: Estadistica inferencial 1

48

¿Como se determina ?

Si se esta probando un nuevo medicamento contra una enfermedad.

Y suponemos que las normas dicen que el medicamento se comercializa si por lo menos el

60% de las personas que lo prueban sanan. La hipótesis es:

H0 : P = 0.6

H1 : P < 0.6

¿ Utilizamos: =0.1 o =0.01 ?

Prueba de Hipótesis

Con =0.1, la probabilidad de rechazar H0 cuando es cierta es 10% O sea, que si se

extrajeran 100 muestra, en 10 de éstas podríamos concluir que el porcentaje de personas

que sanan es menor al 60% cuando en realidad es el 60% (o más)

Al usar =0.1, podríamos rechazar la comercialización del producto cuando este

realmente funciona un 10% de las veces.

Page 49: Estadistica inferencial 1

49

Si usamos =0.01, la probabilidad de rechazar H0 cuando es cierta es de un 1% O sea, que

en 1 de cada 100 muestras posibles podríamos concluir que el porcentaje de personas que

sanan es menor al 60% cuando en realidad es el 60% (o más)

Al usar =0.01, rechazaríamos la comercialización del producto cuando realmente

funciona solamente en 1% de las veces.

En este caso es mejor utilizar =0.01 en lugar de =0.1, ya que el rechazo de

comercialización de un medicamento que cumple las normas es un error serio, por ello la

probabilidad de cometer el error tipo I debe ser pequeña.

En algunos casos el a puede ser superior (10%, 15%, e incluso más del 15%).

Prueba de Hipótesis

Page 50: Estadistica inferencial 1

50

Estadístico para realizar la prueba de hipótesis

Para determinar si la diferencia entre el estimador y el parámetro es significativa se utiliza

un estadístico zc o tc. Este se compara con un valor en la distribución normal o la

distribución t-student de acuerdo con el nivel de significancia establecido.

01

00

:

:

H

H

1

0

_

N

nN

n

xzc

conocido

Estadístico de prueba

Prueba de Hipótesis

Page 51: Estadistica inferencial 1

51

zzc

01

00

:

:

H

H

Prueba de cola izquierda

Rechazar Ho si

Tradicional Software

Método

Prueba de Hipótesis

Regla de Decisión

Valor P <

Page 52: Estadistica inferencial 1

52

Prueba de cola derecha

Rechazar Ho si

Tradicional Software

Método

Prueba de Hipótesis

1zzc

01

00

:

:

H

H

Regla de Decisión

Valor P <

Page 53: Estadistica inferencial 1

53

Prueba de dos colas

Rechazar Ho si

Valor P <

Tradicional Software

Método

Prueba de Hipótesis

2

21

:

zz

sio

zz

c

c

01

00

:

:

H

H

Regla de Decisión

Page 54: Estadistica inferencial 1

54

404 87 703 968

74 234 125 712

234 68 350 503

149 489 440 498

279 57 37 327

215 185 252 608

123 141 27 358

55 758 521 425

43 72 302 303

321 863 127 203

One-Sample Z: Var1

Test of mu = 310 vs mu not = 310

The assumed sigma = 243,9

Variable N Mean StDev SE

Mean

Var1 40 316,0 243,9 38,6

Variable 95,0% CI Z P

Var1 ( 240,4. 391,6) 0,16 0,876

310:

310:

1

0

H

H

1- = 0.95 → = 0.05 → 1-/2 = 0.025

Hipótesis:

Nivel de Significancia:

Regla de Decisión: i) Rechazar H0 si zc>1,96 o si zc<1,96

ii) Rechazar H0 si Valor P < 0,05

Datos

Cálculo en MinitabCálculo en Excel

No se rechaza H0 ya que:

Valor P > 0,05

En Excel cuando la prueba de hipótesis es de dos colas, el valor de la fórmula se debe multiplicar por 2 (Excel calcula siempre la prueba de una cola

Prueba de Hipótesis

Page 55: Estadistica inferencial 1

55

Cálculo tradicional

Dado que

zc = 0,156 < 1,96 , y

zc = 0,156 > -1,96

Entonces no se rechaza H0

Prueba de Hipótesis

Page 56: Estadistica inferencial 1

56

Prueba de Hipótesis

¿Cómo plantear una hipótesis?

Cuando se desea probar una afirmación, la negación de la afirmación se debe

tomar como hipótesis nula (siempre una hipótesis simple =). Entonces, la

afirmación es la hipótesis alternativa (siempre una hipótesis compuesta > < ≠)

Ejemplos:

Un tratamiento tradicional contra una enfermedad tiene una efectividad del 35%.

Se desarrolló un nuevo tratamiento que se asegura es más efectivo que el anterior (efectivo

en el 45% de los casos). Se afirma que el nuevo tratamiento es mejor que el tradicional.

Sea P: Proporción de personas que sanan de la enfermedad con el nuevo tratamiento.

35.0:

35.0:

1

0

PH

PH

Page 57: Estadistica inferencial 1

57

Ejemplos:

En un gimnasio se sigue una rutina de ejercicios que junto a una dieta produce un

descenso de 20 libras en 5 semanas. La rutina de ejercicios será sustituida por otra que se

afirma disminuye 25 libras (o más). Se quiere demostrar que la nueva rutina de ejercicios

es mejor que la anterior.

Sea μ : promedio de disminución de peso en libras luego de 5 semanas de ejercicios junto

con la dieta

20:

20:

1

0

H

H

En cierto país se sabe que la proporción de mujeres jóvenes que ingresan a los hospitales

embarazadas sin saberlo es de 7%. Un nuevo hospital se construye para dar servicio a una

zona con índices de pobreza altos. Se sospecha que en esta zona la proporción de mujeres

jóvenes que ingresen embarazadas sin saberlo será mayor que en el resto de los

hospitales.

Sea P : proporción de mujeres jóvenes que ingresan embarazadas al nuevo hospital sin

saberlo.

7.0:

7.0:

1

0

PH

PH

Prueba de Hipótesis

Page 58: Estadistica inferencial 1

58

Pasos para hacer una prueba de hipótesis

Método tradicional

1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1

2. Fijar el nivel de significancia ()

3. Se determina el estadístico apropiado y se construye una regla de decisión.

4. Cálculo del estadístico

5. Decisión

Por Software

1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1

2. Fijar el nivel de significancia ()

3. Determinar en el software la Prueba Apropiada (o fórmulas apropiadas).

4. Cálculo en el Software

5. Decisión

Prueba de Hipótesis

Page 59: Estadistica inferencial 1

59

Prueba de Hipótesis para Un Promedio

Estadístico de Prueba

conocida

01

00

:

:

H

H

1

0

_

N

nN

n

xzc

Page 60: Estadistica inferencial 1

60

Prueba de Hipótesis para Un Promedio

Estadístico de Prueba

desconocida

01

00

:

:

H

H

1

0

_

N

nN

n

s

xtc

Page 61: Estadistica inferencial 1

61

Hipótesis:

La Carolina Tobacco Company afirma que sus cigarrillos sin filtro más vendidos

tienen como máximo 40 mg de nicotina. Se examinaron, de forma aleatoria, 10

cigarrillos de esta compañía. Usando un nivel de significancia del 1%, probar si

la afirmación de la compañía es incorrecta.

Nivel de significancia: = 0,01

Regla de Decisión: Rechazar H0 si:

Valor P < 0,01

Prueba de Hipótesis para Un Promedio

40:

40:

1

0

H

H

Ejemplo

Nicotina

47,3

39,3

40,3

38,3

46,3

43,3

42,3

49,3

40,3

46,3

Page 62: Estadistica inferencial 1

62

Stat / Basic Statistics / 1-Sample t

Calculo en Minitab

One-Sample T: Nicotina

Test of mu = 40 vs mu > 40

Variable N Mean StDev SE Mean

Nicotina 10 43,30 3,80 1,20

Variable 95,0% Lower Bound T P

Nicotina 41,10 2,75 0,011

Dado que Valor P = 0,011 y es mayor que =0,01, entonces NO se rechaza H0

→ μ=40

Ejemplo

Prueba de Hipótesis para Un Promedio

Page 63: Estadistica inferencial 1

63

Prueba de Hipótesis para Dos Promedios

Estadístico de Prueba

1 y 2 desconocidas

21

2121

2

22

2

11

212

_

1

_

1

)2(

)1()1(

)()(21 nn

nnnn

snsn

xxt

nnc

0:

0:

21211

21210

H

H

kH

kH

211

210

:

:

Page 64: Estadistica inferencial 1

64

Hipótesis:

Contenido de alquitrán en miligramos en cigarrillos con filtro y sin filtro. Se

quiere probar con un 5% de nivel de significancia si los cigarrillos con filtrotienen menor contenido medio de alquitrán que los sin filtro.

Nivel de significancia: = 0,01

Regla de Decisión: Rechazar H0 si:

Valor P < 0,01

Prueba de Hipótesis para Dos Promedios

Con Filtro Sin Filtro

16 23

15 23

16 24

14 26

16 25

1 26

16 21

18 24

10

14

12

11

14

13

13

13

16

16

8

16

11

CS

CS

H

H

:

:

1

0

Ejemplo

Page 65: Estadistica inferencial 1

65

Prueba de Hipótesis para Dos Proporciones

Stat / Basic Statistics / 2-Sample t

Calculo en Minitab

Two-Sample T-Test and CI: Sin Filtro. Con Filtro

Two-sample T for Sin Filtro vs Con Filtro

N Mean StDev SE Mean

Sin Filt 8 24,00 1,69 0,60

Con Filt 21 13,29 3,74 0,82

Difference = mu Sin Filtro - mu Con Filtro

Estimate for difference: 10,71

95% lower bound for difference: 8,99

T-Test of difference = 0 (vs >): T-Value = 10,59 P-Value = 0,000 DF = 25

Dado que Valor P = 0,00 y es menor que =0,01, entonces SI se rechaza H0

→ μS>μC

Ejemplo

Page 66: Estadistica inferencial 1

66

Prueba de Hipótesis para Dos Proporciones

Calculo en Excel

Valor P 2,57E-08

Ejemplo

Page 67: Estadistica inferencial 1

67

Estadístico de Prueba

01

00

:

:

PPH

PPH

n

QP

Ppzc

00

0

Prueba de Hipótesis para una Proporción

Page 68: Estadistica inferencial 1

68

Prueba de Hipótesis para una Proporción

Hipótesis:

Los datos corresponden a 25 fumadores que siguieron una terapia para dejar de

fumar con parches de nicotina, después de un año se verifica cuales dejaron de

fumar (1) y cuales continúan fumando (0). Se desea demostrar que no hay

diferencia en la proporción de fumadores que dejaron de fumar y los que no,

luego de la terapia de parches de nicotina.

5,0:

5,0:

1

0

PH

PH

Nivel de significancia: = 0,05

Regla de Decisión: Rechazar H0 si:

Valor P < 0,05

Individuo Resultado

1 0

2 0

3 1

4 0

5 1

6 1

7 0

8 0

9 0

10 1

11 0

12 1

13 1

14 1

15 1

16 0

17 0

18 1

19 0

20 1

21 0

22 1

23 0

24 0

25 0

Ejemplo

Page 69: Estadistica inferencial 1

69

Prueba de Hipótesis para Dos Proporciones

Stat / Basic Statistics / 1 Proportion

Calculo en Minitab

Test and CI for One Proportion: Resutlado

Test of p = 0,5 vs p not = 0,5

Success = 1

Exact

Variable X N Sample p 95,0% CI P-Value

Resutlado 11 25 0,440000 (0,244024. 0,650718) 0,690

Dado que Valor P = 0,69 y es mucho mayor que =0,05, entonces NO se rechaza H0

→ P=50%

Ejemplo

Page 70: Estadistica inferencial 1

70

Prueba de Hipótesis para dos Proporciones

Estadístico de Prueba

0:

0:

21211

21210

PPPPH

PPPPH

21

2121

11)ˆ1(ˆ

)()(

nnpp

PPppzc

kPPH

kPPH

211

210

:

:

21

21ˆnn

xxp

Page 71: Estadistica inferencial 1

71

Prueba de Hipótesis para Dos Proporciones

Hipótesis:

Los datos corresponden a 20 mujeres y 30 hombres

a los que en una encuesta se les pidió que dijeran si

estaban de acuerdo (1) o en desacuerdo (0) con la

afirmación: Definitivamente quiero estar casado (a).

Se desea poner a prueba la hipótesis de que la

proporción de hombres que contestó

afirmativamente es igual a la proporción de mujeres

que también contestó afirmativamente

MH

MH

PPH

PPH

:

:

1

0

Nivel de significancia: = 0,05

Regla de Decisión: Rechazar H0 si:

Valor P < 0,05

Individuo Sexo Respuesta Individuo Sexo Respuesta

A1 Mujer 0 B1 Hombres 0

A2 Mujer 0 B2 Hombres 0

A3 Mujer 1 B3 Hombres 0

A4 Mujer 0 B4 Hombres 1

A5 Mujer 0 B5 Hombres 1

A6 Mujer 0 B6 Hombres 0

A7 Mujer 0 B7 Hombres 0

A8 Mujer 1 B8 Hombres 0

A9 Mujer 0 B9 Hombres 1

A10 Mujer 0 B10 Hombres 0

A11 Mujer 0 B11 Hombres 0

A12 Mujer 1 B12 Hombres 1

A13 Mujer 1 B13 Hombres 0

A14 Mujer 0 B14 Hombres 1

A15 Mujer 0 B15 Hombres 0

A16 Mujer 0 B16 Hombres 0

A17 Mujer 0 B17 Hombres 1

A18 Mujer 1 B18 Hombres 0

A19 Mujer 0 B19 Hombres 0

A20 Mujer 0 B20 Hombres 0

B21 Hombres 0

B22 Hombres 1

B23 Hombres 0

B24 Hombres 0

B25 Hombres 0

B26 Hombres 1

B27 Hombres 0

B28 Hombres 0

B29 Hombres 1

B30 Hombres 0

Ejemplo

Page 72: Estadistica inferencial 1

72

Prueba de Hipótesis para Dos Proporciones

Stat / Basic Statistics / 2 Proportions

Calculo en Minitab

En Minitab los datos se organizan en una sola

columna y se diferencian por la Variable Sexo

Test and CI for Two Proportions: Respuesta. Sexo

Success = 1

Sexo X N Sample p

Hombres 9 30 0,300000

Mujer 5 20 0,250000

Estimate for p(Hombres) - p(Mujer): 0,05

95% CI for p(Hombres) - p(Mujer): (-0,200806. 0,300806)

Test for p(Hombres) - p(Mujer) = 0 (vs not = 0):

Z = 0,39 P-Value = 0,696

Dado que Valor P = 0,696 y es mucho mayor que =0,05,

entonces NO se rechaza H0 → PH=PM

Ejemplo

Page 73: Estadistica inferencial 1

73

Prueba de Hipótesis para Dos Muestras Pareadas

n

D

D

n

i

i 1

_

Media

1

1

2

12

2

n

n

D

D

S

n

i

n

i

i

i

D

Desviación Estándar

Page 74: Estadistica inferencial 1

74

Estadístico de Prueba

Prueba de Hipótesis para Dos Muestras Pareadas

00:

00:

21211

21210

D

D

H

H

kkH

kkH

D

D

211

210

:

:

n

S

Dt

D

D

nc

_

)1(

Page 75: Estadistica inferencial 1

75

Prueba de Hipótesis para Dos Muestras Pareadas

Sujeto Antes Después

A 6,6 6,8

B 6,5 2,4

C 9,0 7,4

D 10,3 8,5

E 11,3 8,1

F 8,1 6,1

G 6,3 3,4

H 11,6 2,0

Hipótesis:

Los datos corresponden a 8 individuos

seleccionados al azar: mediciones

antes y después de la hipnosis en una

escala de dolor en centímetros. Se

quiere probar que el promedio en la

escala de dolor es diferente luego de la

hipnosis.

DA

DA

H

H

:

:

1

0

Nivel de significancia: = 0,05

Regla de Decisión: Rechazar H0 si: Valor P < 0,05

Ejemplo

Page 76: Estadistica inferencial 1

76

Prueba de Hipótesis para Dos Muestras Pareadas

Valor de P 0,0190

Stat / Basic Statistics / Paired t

Paired T for Antes - Después

N Mean StDev SE Mean

Antes 8 8,713 2,177 0,770

Después 8 5,588 2,608 0,922

Difference 8 3,13 2,91 1,03

95% CI for mean difference: (0,69. 5,56)

T-Test of mean difference = 0 (vs not = 0):

T-Value = 3,04 P-Value = 0,019

Calculo en Minitab

Calculo

en Excel

Valor P = 0,019

1- = 0,05

Se rechaza H0

→ μA≠μD

Ejemplo

Page 77: Estadistica inferencial 1

77

Lecturas:

Mason & Lind:

Prueba de Hipótesis muestras grandes: pág 410 a 441

Prueba de Hipótesis para Proporciones: pág 451 a 467

Prueba t student Muestras pequeñas: pág 479 a 505

Ejercicios:

Mason & Lind:

Página Ejercicios

446 36, 37

469 23

503 21

504 24

506 31

509 39

510 40

Prueba de Hipótesis

Page 78: Estadistica inferencial 1

78

Análisis de Variancia de un Factor

Distribución F

La distribución de probabilidad que se utiliza para la

prueba de hipótesis relacionada con el análisis de

variancia es la Distribución F. Esta distribución es

sesgada a la derecha.

La prueba de hipótesis del análisis de variancia es solo

de cola derecha, por lo que si se utilizan los valores de la

distribución como regla de decisión, solamente se

Rechaza H0 si el valor calculado Fc es mayor que el valor

de la distribución F1-

Si se utiliza un software que calcule el Valor P, la regla de

decisión, siempre es Rechazar H0 si Valor P < 1-

Page 79: Estadistica inferencial 1

79

Análisis de Variancia de un Factor

Análisis de Variancia

En experimentos, se conducen automóviles nuevos contra una pared fija a 35 millas por

hora, luego se miden las lesiones en la cabeza que sufren los “maniquíes”. Los

resultados dependen del tipo de automóvil, por lo que se separan en Subcompacto,

Compacto, Medio, y Full-size.

La cantidad de lesiones sufridas tiene una variabilidad que se puede asociar a

condiciones aleatorias, pero también hay variación debida al tamaño del automóvil. El

análisis de variancia divide la variabilidad total en dos fuentes: una variabilidad debida

al tamaño del automóvil, y el resto debido a otros factores (que consideramos

aleatorios).

Cuando solo se considera una fuente de variación (tamaño del automóvil en este caso)

se llama análisis de variancia de un factor.

Se puede realizar análisis de variancia de muchos factores. En este curso solo tratamos

el de un solo factor.

Page 80: Estadistica inferencial 1

80

Análisis de Variancia de un Factor

Hipótesis en el Análisis de Variancia

Sean: μsc el promedio de lesiones en autos subcompactos, μc el promedio de lesiones en

autos compactos, μm el promedio de lesiones en autos medianos y μfs el promedio de

lesiones en autos full-size. Entonces la prueba de hipótesis por plantear es:

diferente es promedioalgún :

:

1

0

H

H fsmcsc

La hipótesis nula es que los promedios de lesiones para autos subcompactos, compactos,

medianos y full-size son todos iguales, contra la hipótesis alternativa de que al menos uno

de esos promedios es diferente.

Con el análisis de variancia no es posible determinar cuál de los promedios es diferente, solo se prueba que alguno es diferente.

Page 81: Estadistica inferencial 1

81

Lecturas:

Mason & Lind:

Ejercicios:

Mason & Lind:

Página Ejercicios

510 40

Prueba de Hipótesis