Análisis de Varianza

Post on 19-Jun-2015

395 views 7 download

description

Tema de Estadística nivel Posgrado.

Transcript of Análisis de Varianza

Análisis de varianza

Mayo, 2010

Qué es y para qué sirve el Análisis de Varianza

Compara SI los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos.

Se utiliza para decidir si las medias de dos o más poblaciones son iguales.

Los datos se obtienen tomando una muestra de cada población y calculando la media muestral y la varianza en el caso de cada muestra.

Los tres supuestos.

• Las muestras deben ser de tipo aleatorio independiente.1

• Las muestras deben ser obtenidas a partir de poblaciones normales.2

• Las poblaciones deben tener varianzas iguales3

Pretenda medir la influencia que tiene en la venta de un producto, la posición en que se exhibe.

ESTABLECIMIENTO NIVEL VENTAS

BAJO MEDIO ALTO

1 X

2 X

3 X

4 X

5 X

6 X

7 X

8 X

9 X

10 X

11 X

12 X

Se pretende responder.

1º.¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.2º.¿Qué posicionamiento es más eficaz?3º.¿Son estadísticamente significativas las diferencias obtenidas?

El análisis de varianza será útil en supuestos en los que queramos analizar distintas situaciones o alternativas de actuación y donde de alguna forma podemos intervenir en la realización del experimento.

A diferencia de otros análisis donde las series históricas son dadas y no podemos repetir la situación, ni modificar alguna de las condiciones o variables (pensemos en el P.I.B., inflación, etc.)

Varianza muestral.

Es el promedio de las desviaciones elevadas al cuadrado de la media del grupo.

VARIANZA=∑(Xi – X)2 n – 1

Procedimiento :1. Calcular la media muestral.2. Restar la media de cada valor de la muestra.3. Elevar al cuadrado cada una de las diferencias.4. Sumar las diferencias elevadas al cuadrado.5. Dividir entre n -1.

Explicación del análisis de varianza. Si las dos estimaciones son aproximadamente

iguales,

esto tiende a confirmar Ho Si una de las dos estimaciones es mucho mayor que

la otra, esto tiende a confirmar H1

Se utilizan dos métodos un poco diferentes para estimar las varianzas de la población:

ESTIMACIÓN INTERNA DE VARIANZA

(Sw2)

ESTIMACIÓN INTERMEDIANTE DE VARIANZA

(Sb2)

Estimación interna de varianza.

Sw2=S1

2+S22+S3

2+S42+…+Sk

2

k En la cual:S1

2=varianza de la varianza de una muestra

S22=varianza de la varianza de dos muestras

Sk2=varianza de la varianza de k muestras

K= número de muestras

Estimación intermediante de varianza.

Sb2

Obtener X, que es la media de los valores medios de la muestra:

X= 15.2+15.0+15.4+15.6 = 15.3 4 Determinar las desviaciones elevadas al cuadrado,

sumarlas y dividirlas entre K-1:(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =

0.067 4-1 Como cada muestra consta de 6 observaciones, n =6

y la estimación de las varianzas de población es: Sb

2=nsx2= 6(0.067)= 0.402

Estimación intermediante de varianza.

Sb2

Obtener X, que es la media de los valores medios de la muestra:

X= 15.2+15.0+15.4+15.6 = 15.3 4 Determinar las desviaciones elevadas al cuadrado,

sumarlas y dividirlas entre K-1:(15.2-15.3)2+(15.0-15.3)2+(15.4-15.3)2+(15.6-15.3)2 =

0.067 4-1 Como cada muestra consta de 6 observaciones, n =6

y la estimación de las varianzas de población es: Sb

2=nsx2= 6(0.067)= 0.402

Estimaciones.

Sw2

Es la norma de comparación No se afecta si Ho es verdadera o falsa

Sb2

Aproximadamente igual a Sw2 cuando Ho es

verdadera. Mayor que Sw

2 cuando Ho es falsa

Definición.

Distribución F.

En muchas situaciones estamos interesados en probar si dos poblaciones independientes tiene la misma variabilidad.

Con el fin de probar la igualdad de las varianzas de dos poblaciones independientes, se ha diseñado un procedimiento estadístico, basado en el cociente de los varianzas de muestra. Si se supone que los datos obtenido de cada población están distribuidos normalmente, entonces el cociente sigue una distribución denominada distribución F que recibe su nombre al famoso estadístico Ronald Fisher.

Dependen de dos conjuntos de grados de libertad – los grados de libertad en el numerador y en el denominador.

2

1S / S

2

2

2

1S / S

2

2

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

Donde:n1 = tamaño de muestra en el grupo 1n2 = tamaño de muestra en el grupo 2n1 - 1 = grados de libertad en el grupo 1n2 - 1 = grados de libertad en el grupo 2 = varianza de la muestra en el grupo 1

= varianza de la muestra en el grupo 2

2

1S

2

1S

S2

2S

2

2

Al probar la igualdad de dos varianzas se pueden emplear pruebas de una cola o de dos colas como se muestra a continuación.

Si deseamos determinar la variabilidad en la cantidad de llenado de cajas de cereales en la planta A que en la planta B, se puede establecer una prueba de cola de la siguiente manera:

2

AH0: σ ≤ σ

2

B

H1: σ2

A> σ

2

B

2

AH0: σ ≤ σ

2

B

2

AH0: σ ≤ σH0: σ ≤ σ

2

B

H1: σ2

A> σ

2

BH1: σ

2

A> σ

2

B

Para este ejemplo el grupo 1 consta de cajas de cereales llenadas en la planta A y el grupo 2 llenadas en la planta B, la región de rechazo está ubicada en la cola de la distribución.

Tenemos un valor de significación de 0.01 con 24 y 19 grados de libertad

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

F(25 -1),(20-1) =

2

A S

S 2

B

En este caso el valor de SA = 16.71 y SB = 14.20

F24,19 =(16.91)2

(14.20)2= 1.385F24,19 =

(16.91)2

(14.20)2= 1.385

Como 1.385 < 2.92, no se rechaza H0

El gerente concluirá que no es evidente la variabilidad en la cantidad de cereal de llenado sea mayor en la planta A.

Suponga que un investigador de mercados quisiera estudiar el efecto de la ubicación del producto sobre las ventas de hojas de afeitar desechables, de hecho querría determinar si hay alguna diferencia en las ventas, si las hojas de afeitar se colocaron en la caja registradora y en las otras seis tiendas en el departamento de cosméticos. Se seleccionó una muestra aleatoria de 13 tiendas de igual tamaño de la cadena de supermercados; en 7 tiendas las hojas de afeitar se colocaron en la caja registradora y en las otras seis tiendas en el departamento de cosméticos.

El investigador de mercados desea determinar si hay alguna diferencia en la variabilidad entre la caja registradora y el departamento de cosméticos.

Se puede establecer una prueba de dos colasen la forma siguiente:

2

AH0: σ = σ

2

B

H1: σ2

A= σ

2

B

2

AH0: σ = σ

2

B

2

AH0: σ = σH0: σ = σ

2

B

H1: σ2

A= σ

2

BH1: σ

2

A= σ

2

B

Ejemplo.

TiendaCaja

Registradora

Sección de Cosmeticos

1 107 902 153 833 82 864 158 945 141 896 87 937 119

Total 847 535Media 121 89.17

Varianza 945 17.37n1 7 6.00

X1 X1

1 107 121 -14 196 90 89.17 0.83 0.692 153 121 32 1024 83 89.17 -6.17 38.033 82 121 -39 1521 86 89.17 -3.17 10.034 158 121 37 1369 94 89.17 4.83 23.365 141 121 20 400 89 89.17 -0.17 0.036 87 121 -34 1156 93 89.17 3.83 14.697 119 121 -2 4

121 Total 5670 89.17 Total 86.83Varianza 945 Varianza 17.37

Caja Registradora Sección de CosmeticosTienda

XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX (X1 - )2X(X1 - )2XX(X1 - )X(X1 - )XX

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

Ejemplo.

Puesto que es una prueba de dos colas, la región de rechazo se decide en las colas inferior y superior de la distribución F. Si se selecciona el nivel de significancia 0.05, cada región de rechazo contendría 0.025.

En este caso deseamos obtener el valor superior de 0.025 con 5 grados de libertad en el numerador y 6 grados de libertad en el denominador.

La tabla nos indica que este valor es de 5.99

Ejemplo.

FL(a,b) = 1FU(b,a)

FL(a,b) = 1FU(b,a)

FL(6,5) = 1FU(5,6)

= 15.99

= 0.167FL(6,5) = 1FU(5,6)

FL(6,5) = 1FU(5,6)

= 15.99

= 0.167

Para este ejemplo si = 945 y = 17.37 utilizando la fórmula:2

1S

2

1S S

2

2S

2

2

F(n1-1),(n2-1) =

2

1S

S2

2

F(n1-1),(n2-1) =

2

1S

2

1S

S2

2S

2

2

F6,5 = 495

17.37= 54.40F6,5 =

495

17.37= 54.40

Si sustituimos la fórmula que nos permite verificar esto tenemos:

La regla de expresión se puede expresar así:Rechazar H0 si F6,5 > 6.98O bien si F6,5 < 0.167De lo contrario H0

Tenemos que Por lo tanto F6,5 = 54.50 > 6.98 se rechaza H0

Existe una variabilidad del número de hojas de afeitar vendidas cada semana según su ubicación.

Ejemplo.

Los resultados del análisis de varianza se presentan en una tabla ANOVA que resume los valores importantes de la prueba.

En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las medias poblacionales usando análisis de varianza.

Tabla ANOVA.

Tabla ANOVA.

Donde:j = Número de la columna

i = Número de la fila

k = Número de columnas (grupos)

n = Número de elementos en cada grupo (tamaño de la muestra)

Tabla ANOVA.

Esta Tabla nos muestra tres puntos importantes:

Realmente existen tres formas diferentes de estimar la varianza real de la población si la hipótesis nula es verdadera.

Los cálculos fueron ideados de manera deliberada para mostrar lo que ocurre cuando las estimaciones de varianza de la población son exactamente iguales.

Los grados de libertad totales, pueden servir como una rápida comprobación de los valores de los grados de libertad Internos (Dentro) e Intermediantes (Entre). En teoría, la suma total de los cuadrados puede también servir como comprobación de la suma de los cuadrados internos e intermediantes, pero, debido a que en la práctica los cálculos son muy laboriosos, se evita llegar al total, a menos que los cálculos se realicen mediante computadora.

Tabla ANOVA.

Una analista de una cadena de supermercados, quiere saber si las tres tiendas tienen el mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras en cada tienda. La tabla número 1 presenta los datos recolectados de esta muestra junto con las medias maestrales para cada tienda y la media global de todos los datos. Hará una prueba con un nivel de significancia de 0.01.

Ejemplo.

La hipótesis nula que se quiere probar es que todas las poblaciones de las que se obtuvieron los datos maestrales tienen la misma media. La hipótesis alternativa es que las poblaciones no tienen la misma media. Las primeras dos medias maestrales en la tabla número 1 sugieren que la hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es considerablemente mas pequeña que las otras dos. Pero, ¿Se debe esta diferencia a la aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas? Esta es la pregunta que vamos a responder con el procedimiento de ANOVA.

Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejemplo.

Ejemplo.

Tienda 1 Tienda 2 Tienda 3

---------------------------------------------------------------------------

12.05 15.17 9.48

23.94 18.52 6.92

14.63 19.57 10.47

25.78 21.40 7.63

17.52 13.59 11.90

18.45 20.57 5.92

Media 18.73 / 18.14 / 8.72

Media global: x = 15.20, k=3, n=6

Se usan ambos métodos, dentro y entre, para estimar la varianza de las tres poblaciones.

Recuerde la suposición fundamental de ANOVA: todas las poblaciones tienen la misma varianza sin importar si tienen la misma media.

La tabla número 2 contiene los cálculos para el método dentro, y la tabla número 3 da los cálculos para el método entre.

Tabla número 2 Cálculos del método dentro para el ejemplo.

Tienda 1 (12.05 – 18.73)2 + (23.94 – 18.73)2 + (14.63 – 18.73)2 + (25.78 – 18.73)2 + (17.52 – 18.73)2 + (18.45 – 18.73)2 = 139.82

Tienda 2 (15.17 – 18.14)2 + (18.52 – 18.14)2 + (19.57 – 18.14)2 + (21.40 – 18.14)2 + (13.59 – 18.14)2 + (20.57 – 18.14)2 = 48.25

Tienda 3 (9.48 – 8.72)2 + (6.92 – 8.72)2 + (10.47 – 8.72)2 + (7.63 – 8.72)2 + (11.90 – 8.72)2 + (5.92 – 8.72)2 = 26.02

Suma de cuadrados dentro (SCw) = 139.82 + 48.25 + 26.02 = 214.09

Ejemplo.

Tabla número 3 Cálculos del método entre para el ejemplo.

(18.73 – 15.20)2 + (18.14 – 15.20)2 + (8.72 – 15.20)2 = 63.09

Suma de los cuadrados entre (SCb) = 6(63.09) = 378.54

Los valores calculados en las tablas 2 y 3 se usan para llenar la tabla ANOVA.

Como se tienen tres poblaciones en la prueba, k = 3. Se obtuvo una muestra de seis valores de cada población, así que n = 6. La tabla número cuatro presenta la tabla ANOVA para este ejemplo.

Ejemplo.

Tabla número 4 Tabla ANOVA para el ejemplo.

Ejemplo.

Fuente de Variación / SC / gl / Estimación de varianza / Coeficiente F

----------------------------------------------------------------------------------------------------------

Grupos entre 378.54 / 2 / 189.27 / 13.26

Grupos dentro 214.09 / 15 / 14.27

TOTAL 592.63 / 17

Los grados de libertad se calcularon como sigue:

k- 1 = 3 - 1 = 2 (Grupos entre)

k (n - 1) = 3 ( 6 - 1 ) = 15 (Grupos dentro)

Ejemplo.

Como se puede ver en la tabla número 4, el método entre para estimar la varianza, produce un valor de 189.27, mientras que la estimación del método dentro es de 14.27. El cociente F indica que la estimación del método ente es 13.26 veces el valor del método dentro. ¿Se debe esta diferencia al error de muestreo, o se debe a que la hipótesis nula es falsa? Para contestar a esta pregunta se consulta la tabla F y se determina un valor crítico.

Dos grados de libertad están asociados con el numerador del cociente de F, y se asocian quince grados de libertad con el denominador. De la tabla F el valor crítico es 6.36 para estos grados de libertad a un nivel de significancia de 0,01. El valor F calculado de 13.26 es mayor que el valor crítico, lo que significa que se tiene suficiente evidencia muestral para rechazar la hipótesis nula de medias poblacionales iguales.

Análisis de Varianza.

Pruebas ParamétricasPruebas No

Paramétricas

Cuando una prueba de significancia, requiere de

normalidad y de una medida de nivel por intervalos.

Estas pruebas son:

• F• t

Pruebas cuya lista de requisitos no incluye una distribución normal o el

nivel de medición por intervalos. Tienen exigencias menos estrictas y constituyen pruebas de significancia

menos poderosas.

• La chi cuadrada.• Prueba de la mediana.

• Análisis de varianza Kruskal-Wallis• Análisis de varianza Friedman.

Pruebas No Paramétricas (La Chi Cuadrada).

Definición

Es la prueba de significancia no paramétrica más popular en la investigación social.

Se utiliza para hacer comparaciones entre dos o más muestras.

Se emplea para hacer comparaciones entre frecuencias más que entre puntajes medios. La fórmula se representa de la siguiente manera:

x2 = Chi Cuadrada.

fo = La frecuencia obtenida.

fe = La frecuencia esperada.

Cálculo de Chi Cuadrada.

Tiene que ver esencialmente con la distribución entre las frecuencias

esperadas (fe) y las frecuencias obtenidas (fo).

Las frecuencias esperadas se refieren a los términos de la hipótesis nula. En contraste las frecuencias obtenidas se refieren a los resultados que obtenemos realmente al realizar el estudio.

Sólo si la diferencia entre las frecuencias esperadas y obtenidas es lo suficientemente grande, rechazamos la hipótesis nula y decidimos que existe una diferencia poblacional verdadera.

Otras fórmulas involucradas en Cálculo de Chi Cuadrada.

Frecuencias Esperadas (fe)

Grados de Libertad

gl=(r-1)(c-1)

Donde:

gl = Grados de libertad.r = Número de renglones en la tabla de frecuencias obtenidas .c = Número de columnas en la tabla de frecuencias obtenidas.

(total marginal de renglón)(total marginal de columna)

Nfe =

Donde:

N = Total de la muestra

Ejemplo del cálculo de chi cuadrada.

Supongamos que queremos estudiar el uso de drogas en estudiantes de bachillerato, con relación a sus planes de ingreso a la universidad.

Las hipótesis se platearían de la siguiente manera:

Hipótesis nula: La proporción de estudiantes de bachillerato orientados hacia la universidad y que usan drogas es igual a la de los estudiantes que no piensan asistir a la universidad. Hipótesis alternativa: La proporción de estudiantes de bachillerato orientados hacia la universidad y que usan drogas no es igual a la de los estudiantes que no piensan asistir a la universidad.

Para verificar esta hipótesis al nivel de confianza de 0.05, digamos que debemos entrevistar a dos muestras aleatorias de la población de una escuela de bachillerato acerca del uso de drogas: una muestra de 21 estudiantes que van a ingresar a la universidad y una muestra de 15 estudiantes que no planean extender su educación más allá del bachillerato.

Situación

Ejemplo del cálculo de chi cuadrada.

Paso 1. Vaciar los datos en una tabla de frecuencias obtenidas (fo).

Universidad No Universidadfo fo

Consumidores 15 5No consumidores 6 10

Total 21 15

Orientación hacia la universidad

Uso de Drogas

Paso 2. Reordenar los datos en forma de Tabla 2 x 2. En este espacio integraremos la

frecuencia esperada (fe)

Ejemplo del cálculo de chi cuadrada.

Paso 3. Obtener la frecuencia esperada (fe) para cada casilla.

Ejemplo del cálculo de chi cuadrada.

Paso 4. Restar las frecuencias esperadas (fe) e las frecuencias obtenidas (fo).

Paso 5. Elevar al cuadrado esta diferencia.

Ejemplo del cálculo de chi cuadrada.Paso 6. Dividir entre la frecuencia esperada (fe).

Paso 7. Sumar estos cocientes para obtener el valor de chi cuadrada.

Ejemplo del cálculo de chi cuadrada.

Paso 8.Encontrar los grados de libertad.

Ejemplo del cálculo de chi cuadrada.

Paso 9. Comparar el valor de chi cuadrada obtenido con el valor de chi cuadrada correspondiente en la Tabla de Valores de Chi Cuadrada a los Niveles de Confianza de 0.05 y 0.01.

Ejemplo del cálculo de chi cuadrada.

Para rechazar la hipótesis nula, al nivel de confianza de 0.05 con 1 grado de libertad, nuestro valor de chi cuadrada calculado tendría que ser de 3.84 ó más. Como hemos obtenido un valor de chi cuadrada de 5.13 podemos rechazar la hipótesis nula y aceptar la hipótesis de investigación.

Conclusión.

Nuestros resultados sugieren que la proporción de consumidores de alguna droga es mayor entre los estudiantes de bachillerato que van a ingresar a la universidad que entre los estudiantes cuyos planeas no incluyen el ingreso a la universidad.

Fuentes.

LEVIN, Jack y William C. Levin, Fundamentos de estadística en la investigación social, Edit. Oxford University Press, México, 2008, 305 pp.

STEVENSON, William, Estadística para administración y economía: Conceptos y aplicaciones, Edit. Oxford University Press, México, 2004, 585 pp.