Apuntes Inferencia Estadistica

240
Apuntes de Probabilidad y Estad´ ıstica (Versi´ on Preliminar) CARLOS BUSTOS-L ´ OPEZ

Transcript of Apuntes Inferencia Estadistica

Page 1: Apuntes Inferencia Estadistica

Apuntesde Probabilidad y Estadıstica

(Version Preliminar)

CARLOS BUSTOS-LOPEZ

Page 2: Apuntes Inferencia Estadistica

A los caminos que aun faltan por recorrersiendo un pequeno saltamontes

Page 3: Apuntes Inferencia Estadistica

Indice general

1. Estadısticas Descriptivas: Definiciones 41.1. Fundamentos de la Investigacion

Cientıfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2. Motivaciones y Definiciones . . . . . . . . . . . . . . . . . . . 5

1.2.1. Tipos de Variables . . . . . . . . . . . . . . . . . . . . 61.2.2. Tabulacion . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.3. Representacion Grafica . . . . . . . . . . . . . . . . . . 13

1.3. Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . 221.3.1. Media Armonica (H(X)). . . . . . . . . . . . . . . . . 221.3.2. Media Geometrica (G(X)). . . . . . . . . . . . . . . . . 231.3.3. Media Aritmetica o Promedio (µ

X, x o M(X)). . . . . 23

1.3.4. Media Ponderada (µP , xP ). . . . . . . . . . . . . . . . 261.3.5. Media Recortada en α % . . . . . . . . . . . . . . . . . 271.3.6. Moda (Mo(X)). . . . . . . . . . . . . . . . . . . . . . . 281.3.7. Mediana (Me(X)). . . . . . . . . . . . . . . . . . . . . 291.3.8. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . 31

1.4. Medidas de Posicion . . . . . . . . . . . . . . . . . . . . . . . 311.4.1. Mınimo (XMin). . . . . . . . . . . . . . . . . . . . . . . 321.4.2. Maximo (XMax). . . . . . . . . . . . . . . . . . . . . . 321.4.3. Percentiles( Pα). . . . . . . . . . . . . . . . . . . . . . 321.4.4. Diagrama de Cajon o Box-Plot: . . . . . . . . . . . . . 34

1.5. Medidas de Variabilidad o de Dispersion . . . . . . . . . . . . 351.5.1. Amplitud o Rango (R). . . . . . . . . . . . . . . . . . . 351.5.2. Rango Intercuartil (RI). . . . . . . . . . . . . . . . . . 361.5.3. Desviacion Media (DM). . . . . . . . . . . . . . . . . . 361.5.4. Varianza y Desviacion Estandar (σ2

X , S2X o VVar(X)). . 36

1.5.5. Coeficiente de Variacion (C.V.(X)). . . . . . . . . . . . 38

1

Page 4: Apuntes Inferencia Estadistica

INDICE GENERAL 2

1.6. Analisis Bivariado . . . . . . . . . . . . . . . . . . . . . . . . . 391.6.1. Tablas de Doble Entrada. . . . . . . . . . . . . . . . . 401.6.2. Analisis Condicional. . . . . . . . . . . . . . . . . . . . 411.6.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . 45

1.7. Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461.7.1. Coeficiente de Correlacion Lineal de Pearson (ρ

XYo r

XY) 47

1.7.2. Matrix-Plot . . . . . . . . . . . . . . . . . . . . . . . . 501.7.3. Concepto de Rango . . . . . . . . . . . . . . . . . . . . 501.7.4. Correlacion de Rangos de Spearman (r

S). . . . . . . . . 52

1.7.5. Correlacion de Punto Biserial (rpb

). . . . . . . . . . . . 531.7.6. Correlacion Phi (φ). . . . . . . . . . . . . . . . . . . . 54

1.8. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 56

2. Regresion Lineal 1332.1. Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . . 1332.2. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 135

3. Probabilidades 1533.1. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 153

3.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 1533.1.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . 1543.1.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 156

4. Variables Aleatorias 1644.1. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 164

4.1.1. Varaibles Aleatorias Discretas . . . . . . . . . . . . . . 1654.1.2. Varaibles Aleatorias Continuas . . . . . . . . . . . . . . 165

4.2. Valor Esperado . . . . . . . . . . . . . . . . . . . . . . . . . . 166

5. Inferencia Estadıstica 1705.1. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1705.2. Estimacion Puntual . . . . . . . . . . . . . . . . . . . . . . . . 172

5.2.1. Metodo de Maxima Verosimilitud . . . . . . . . . . . . 1735.2.2. Metodo de los Momentos . . . . . . . . . . . . . . . . . 1805.2.3. Propiedades de los Estimadores Puntuales . . . . . . . 1825.2.4. Estimacion Intervalar . . . . . . . . . . . . . . . . . . . 198

5.3. Docima de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . 2035.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 203

Carlos Bustos-Lopez

Page 5: Apuntes Inferencia Estadistica

INDICE GENERAL 3

5.3.2. Docimas . . . . . . . . . . . . . . . . . . . . . . . . . . 2045.3.3. Docimas Univariadas . . . . . . . . . . . . . . . . . . . 2055.3.4. Docimas Bivariadas . . . . . . . . . . . . . . . . . . . . 209

5.4. Docimas de Hipotesis No Parametricas . . . . . . . . . . . . . 2145.4.1. Prueba de Suma de Rangos de Wilcoxon . . . . . . . . 2145.4.2. Docima de Bondad de Ajuste Chi-cuadrado . . . . . . 2175.4.3. Tablas de Contingencia . . . . . . . . . . . . . . . . . . 2185.4.4. Docima Chi-cuadrado de Independencia . . . . . . . . 220

6. Muestreo 2246.1. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

6.1.1. Muestreo Aleatorio Simple. (m.a.s.) . . . . . . . . . . . 2276.1.2. Muestreo Estratificado. . . . . . . . . . . . . . . . . . . 2276.1.3. Muestreo Sistematico. . . . . . . . . . . . . . . . . . . 2286.1.4. Tamano Muestral . . . . . . . . . . . . . . . . . . . . . 2296.1.5. Plan de Muestreo . . . . . . . . . . . . . . . . . . . . . 230

Carlos Bustos-Lopez

Page 6: Apuntes Inferencia Estadistica

Capıtulo 1

Estadısticas Descriptivas:Definiciones

1.1. Fundamentos de la Investigacion

Cientıfica

La Ciencia se puede entender como un conjunto sistematizado de conocimien-tos, sobre la realidad observada, que se obtienen aplicando el metodo cientıfi-co.

El fin esencial de la ciencia es la teorıa, la que levanta como un conjunto deleyes y reglas que son la base del conocimiento; la teorıa sirve para relacionar,explicar, predecir y controlar fenomenos.

Definicion 1.1.1 El metodo, (meta=hacia; hodos=camino), es un conjun-

to de acciones desarrolladas segun un plan preestablecido con el fin de lograr

un objetivo.

El metodo cientıfico diferencia la investigacion de la especulacion, yel conocimiento cientıfico (universal, necesario, sistematico y metodico), delvulgar (particular, contingente, asistematico y ametodico).

4

Page 7: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 5

1.2. Motivaciones y Definiciones

¿Que es la Estadıstica?

Originalmente la palabra estadıstica ha estado asociada al procesamientode datos, censos y demografıas en la Roma Imperial, entendiendose por estola representacion grafica, la tabulacion y el calculo de medidas resumen, quepermiten analizar e interpretar un conjunto de datos.

La estadıstica es una Ciencia (disciplina) que se preocupa de desarrollartecnicas y modelos que permitan estudiar la forma como la “incertidumbre”sobre un fenomeno es alterada por la informacion disponible.

La Estadıstica no es “una ciencia vulgar que busca la manera de tratarlos datos numericos”, sino “la base del conocimiento cuantitativo, el principalinstrumento hasta ahora descubierto por el hombre para poder dominar laterrible complejidad de las cosas y de las relaciones entre ellas.” (Kendall,19..).

¿Que es la Poblacion?

Definicion 1.2.1 Conjunto formado por TODAS las unidades (personas,

animales o cosas) que tienen algo en comun. La poblacion puede ser listada

en lo que llamaremos Marco Muestral (Ω).

¿Que es una Muestra?

Definicion 1.2.2 Una muestra es un subconjunto de la poblacion. General-

mente de denotan con letras mayusculas. (p.e. A, B, C, etc.).

¿Que es una Variable?

Definicion 1.2.3 Caracterıstica que cambia (varıa) de sujeto a sujeto. (p.e.

color de ojos). Las denotaremos por letras mayusculas. (p.e. X, Y, Z, etc.).

¿Que es un Dato?

Carlos Bustos-Lopez

Page 8: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 6

Definicion 1.2.4 Es un registro alfanumerico. Ycorresponde a una real-

izacion de una caracterıstica o variable, al ser evaluada en un conjunto. (p.e.

Color de ojos = azul). Los denotaremos con la misma letra de la variable,

pero con letras minusculas. (p.e. x1, x2, . . . , xn).

¿Que es Informacion?

Definicion 1.2.5 Llamaremos informacion al conjunto de datos.

x1, x2, . . . , xn .

Basicamente, al conjunto de observaciones (datos) que permiten disminuir

la incertidumbre que se tiene de un fenomeno.

1.2.1. Tipos de Variables

V ariable

Cualitativa

NominalOrdinal

Cuantitativa

DiscretaContinua

Cualitativas: Son todas aquellas variables cuyo conjunto de posiblesrespuestas corresponden a cualidades del objeto en estudio.

• Nominales: El conjunto de posibles respuestas de las variablescorresponden a nombres de las cualidades del objeto en estudio.(p.e. 1: representa sexo masculino y 2: sexo femenino).

• Ordinales: El conjunto de posibles respuestas de las variablestienen un orden jerarquico natural. (p.e. En un partido de futbol:-1 es perder, 0 es empatar y 1 es ganar).

Carlos Bustos-Lopez

Page 9: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 7

Cuantitativas: Son todas aquellas variables cuyo conjunto de posiblesresultados corresponden a mediciones de la caracterıstica del objeto enestudio.

• Discretas: El conjunto de posibles respuestas, es un conjuntofinito o infinito numerable. (p.e. Numero de hijos, etc.).

• Continuas: El conjunto de posibles respuestas, es un conjuntoinfinito no numerable. (p.e. Altura, Peso, etc.).

Ejemplos de datos estadısticos.

1. Variable Discreta Nominal: Las preferencias de colores para undeterminado envase en una encuesta a 32 personas se representan en lasiguiente tabla de codigos:

Color Rojo Verde Azul AmarilloCodigo 1 2 3 4

y el conjunto de datos es el siguiente:

1 1 1 2 3 3 4 11 1 2 3 3 4 1 12 2 3 3 1 1 2 23 4 1 1 2 2 3 4

esta variable es nominal porque los valores posibles solo representan unnombre de acuerdo a la tabla de codigos.

2. Variable Discreta Ordinal: Las 25 personas que trabajan en undepartamento de una tienda se clasifican segun la edad x en la formasiguiente:

Edad x < 18 18 ≤ x < 25 25 ≤ x < 40 40 ≤ x < 60 60 ≤ xCodigo 1 2 3 4 5

las observaciones son las siguientes:

Carlos Bustos-Lopez

Page 10: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 8

1 2 2 4 32 2 2 5 22 2 3 2 34 3 3 3 34 3 2 2 3

esta variable es ordinal, ya que los valores de las respuestas, tienen unorden jerarquico natural.

3. Variable Cuantitativa Discreta: Las ventas de un modelo de au-tomovil durante una semana entre 15 distribuidores:

Distrib. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Venta 2 1 0 0 3 2 0 0 2 1 1 1 0 1 2

esta variable es cuantitativa porque representa una cantidad y es discre-

ta debido a que, aunque el numero de valores posibles es infinitamente

grande, estos se pueden enumerar, 0-1-2-3-4-etc.

4. Variable Cuantitativa Continua: Las duraciones de 10 ampolletas,

son los siguientes:

Ampolleta 1 2 3 4 5 6 7 8 9 10

Duracion 18.0 18.4 19.0 20.2 19.6 18.6 19.4 19.2 17.0 18.5

esta variable es continua, ya que el conjunto de valores posibles es no

numerable.

1.2.2. Tabulacion

[Tabla de Frecuencias]

Carlos Bustos-Lopez

Page 11: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 9

Definicion 1.2.6 Una tabla de frecuencias es un arreglo en la que se

anotan las frecuencias de los distintos valores posibles, denotados por X.

Toda tabla consta de filas y columnas, utilizandose la primera columna para

la identificacion de la variable y de sus respectivos atributos o intervalos,

como veremos en lo que sigue:

Variable ni fi fi % Ni Fi Fi %

categorıa 1 n1 f1 f1 % N1 F1 F1 %

categorıa 2 n2 f2 f2 % N2 F2 F2 %

......

......

......

...

categorıa k nk fk fk % Nk Fk Fk %

Total N 1 100 %

Variables Cuantitativas

1. Variables Discretas

Para un conjunto de N observaciones de una variable discreta X, sedefine:

a) La frecuencia absoluta u observada de la variable X, como elnumero de observaciones iguales a xi, y se simboliza por ni.

b) La frecuencia relativa de la variable X, como:

fi =ni

N.

c) La frecuencia absoluta acumulada de la variable X, como el numerode observaciones menores o iguales a xi. Se denota por:

Ni =i∑

j=1

nj .

Carlos Bustos-Lopez

Page 12: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 10

d) La frecuencia relativa acumulada de la variable X, como:

Fi =i∑

j=1

fj .

Note que:

a)∑k

i=1 ni = N .

b)∑k

i=1 fi = 1 .

c) Nk =∑k

i=1 ni = N .

d) Fk =∑k

i=1 fi = 1 .

e) Fi =∑i

j=1 fj =∑i

j=1nj

N= 1

N

∑ij=1 nj = Ni

N.

Ejemplo 1.2.1 La siguiente informacion representa el nivel de in-

struccion de 20 personas:

B,M, S, S, B, B,M, M, M, S, S,M, B,B,M, M, B, M, S, B .

Nivel de Instruccion ni fi Ni Fi Fi %

Basico 7 720

= 0,35 7 0,35 35 %

Medio 8 820

= 0,40 15 0,75 75 %

Superior 5 520

= 0,25 20 1,00 100 %

Total 20 1,00

Ejemplo 1.2.2 Para las ventas de un modelo de automovil en una

Carlos Bustos-Lopez

Page 13: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 11

semana en 15 distribuidores:

X ni fi Ni Fi Fi %

0 5 0,333 5 0,333 33,3 %

1 5 0,333 10 0,667 66,7 %

2 4 0,268 14 0,933 93,3 %

3 1 0,067 15 1,000 100 %

Total 15 1,000

2. Variables Continuas

Si la variable que se estudia es continua o bien el numero de resultadosposibles de una variable discreta es muy grande, es conveniente agruparlas observaciones en intervalos de clase.

Ejemplo 1.2.3 Se tienen las edades de 50 pacientes que han sido aten-

didos en la consulta medica, referentes a problemas de stress, los datos

se presentan en la tabla siguiente:

20 22 23 23 24 24 25 25 25 26

26 27 27 28 30 30 30 30 30 31

32 34 34 34 36 36 36 36 37 37

37 37 37 37 38 38 38 38 38 40

40 41 42 42 42 43 44 45 45 48

En este caso como la variable es cuantitativa continua la cantidad decategorıas posibles son infinitas, por lo cual no se pueden representarfacilmente en la tabla. Por lo cual se procede de la siguiente forma:

Carlos Bustos-Lopez

Page 14: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 12

Ejemplo 1.2.4 Para el ejemplo de tiempo de duracion de ampolletas,

se tiene la tabla de frecuencias:

Intervalos de Clase Marca de Clase ni fi Ni Fi Fi %

17− 18 17,5 2 0,20 2 0,20 20 %

18− 19 18,5 4 0,40 6 0,60 60 %

19− 20 19,5 3 0,30 9 0,90 90 %

20− 21 20,5 1 0,10 10 1,00 100 %

Total 10 1,00

3. Notas:

a) Es usual que los intervalos de clase sean de igual longitud.

b) El criterio utilizado para definir el numero de intervalos (k) cuandola cantidad de observaciones es un numero pequeno es:

k =√

N .

c) Cuando el numero de observaciones es muy grande se prefiere:

k = 1,6 ln N .

d) Otra posibilidad para el numero de intervalos es la formula deSturges:

NI = 1 + 3,3 ln N .

e) Ademas la amplitud del intervalo esta dado por:

a =XMax −XMin

k.

f ) En una tabla de frecuencias con intervalos de clase se pierde in-formacion, porque solo se conoce el intervalo al que pertenecen losresultados. Lo usual es considerar a la marca de clase como unvalor representativo de todos los datos del correspondiente inter-valo.

Carlos Bustos-Lopez

Page 15: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 13

g) En variables nominales no tiene sentido calcular frecuencias acu-muladas porque no existe relacion de orden entre los valores posi-bles de la variable.

Ejemplo 1.2.5 Considere las notas de 20 alumnos:

6,2 4,8 3,8 4,6 4,4

5,7 6,4 5,4 6,3 4,8

4,9 3,1 3,8 5,5 5,1

6,8 4,7 5,5 7,0 4,2

De donde, k =√

20 ≈ 4,47 ≈ 4,5 ≈ 5 , R = 7,0 − 3,1 = 3,9 , y

A = 3,95≈ 0,78 .

Notas Marca de Clase ni fi Ni Fi Fi %

3,10− 3,88 3,49 3 0,15 3 0,15 15 %

3,88− 4,66 4,27 3 0,15 6 0,30 30 %

4,66− 5,44 5,05 6 0,30 12 0,60 60 %

5,44− 6,22 5,83 4 0,20 16 0,80 80 %

6,22− 7,00 6,61 4 0,20 20 1,00 100 %

Total 20 1,00

1.2.3. Representacion Grafica

1. Diagrama de Tallo y Hojas:

Otra alternativa para estudiar la variabilidad consiste en estudiar losdatos usando un diagrama de “Tallo y Hojas”. Tiene la ventaja de

Carlos Bustos-Lopez

Page 16: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 14

retener todo el detalle de los datos originales y al mismo tiempo permiteordenarlos rapidamente.

Cada dato numerico se divide en dos partes: el (los) dıgito(s) princi-pal(es) se convierte(n) en el tallo, y el (los) dıgito(s) secundario(s) enhojas.

Ejemplo 1.2.6 Consideremos los siguientes datos de la tabla:

13 18 15 12 14 13

13 18 10 14 13 13

13 18 15 14 17 13

17 12 17 18 14 15

17 13 10 18 17 15

Entonces el diagrama de tallo y hojas es el siguiente:

2 1 00

2 1

4 1 22

12 1 33333333

16 1 4444

14 1 5555

10 1

10 1 77777

5 1 88888

Ejemplo 1.2.7 Consideremos los siguientes datos de la tabla:

Carlos Bustos-Lopez

Page 17: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 15

-5.5 -3.4 -1.3 1.7 1.4 3.6

-1.9 -7.6 -1.2 1.7 -1.0 5.8

-5.2 -4.2 5.8 4.5 6.6 6.9

-4.2 2.5 4.0 2.4 -3.6 4.7

0.8 -0.9 -1.6 -4.3 1.7 -1.3

Entonces el diagrama de tallo y hojas es el siguiente:

1 -7 6

1 -6

3 -5 52

6 -4 322

8 -3 64

8 -2

14 -1 963320

15 -0 9

15 0 8

14 1 4777

10 2 45

8 3 6

7 4 057

4 5 88

2 6 69

2. Diagrama Circular o Torta:

El diagrama Circular permite representar las frecuencias porcentuales

de las categorıas de una variable cualitativa nominal.

Carlos Bustos-Lopez

Page 18: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 16

Ejemplo 1.2.8 Consideremos los datos del ejemplo de preferencias de

color para un envase, el grafico asociado es el siguiente:

Fracuencias

α =ni

N· 360 .

3. Diagrama de Puntos o Dot-plot:

Este tipo de grafico permite exhibir rapidamente los datos sobre la

recta real. Consiste basicamente en una recta horizontal, bajo la cual

se marcan los valores mınimo y maximo, y se completa con los demas

valores en incrementos espaciados.

Se marca el valor observado con una • o una ? sobre el valor correspon-

diente en la recta. Si hay dos o mas unidades con el mismo valor de la

variable ubicarlos verticalmente.

Ejemplo 1.2.9 Consideremos los datos obtenidos al calibrar un ins-

trumento de medicion:

Carlos Bustos-Lopez

Page 19: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 17

4. Grafico de Barras:

En variables discretas la mejor forma de representar las frecuencias es

mediante un grafico de barras en el que se colocan los valores posibles

de la variable en el eje horizontal y las frecuencias relativas en el eje

vertical.

Ejemplo 1.2.10 Consideremos los datos de las ventas de automovil

en las 15 distribuidoras. Su grafico de barras asociado es:

5. Histograma:

Carlos Bustos-Lopez

Page 20: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 18

Un histograma es una representacion grafica de las frecuencias rela-

tivas.

En variables continuas el histograma se construye a partir de rectangu-

los para cada uno de los intervalos de clase; en estos rectangulos, la base

corresponde al intervalo de clase y la altura es la frecuencia relativa del

intervalo, es claro que el area no corresponde a la frecuencia relativa,

salvo en el caso que la longitud del intervalo sea la unidad.

Ejemplo 1.2.11 Considere los siguientes datos:

271 301 301 312

312 314 317 319

324 325 329 334

335 337 342 349

351

El histograma asociado es el siguiente:

Carlos Bustos-Lopez

Page 21: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 19

6. Poligono de Frecuencias:

Los poligonos de frecuencias permiten representar las distribuciones de

uno mas grupos de datos, y ademas como se representan las frecuen-

cias relativas o porcentuales es facil comparar el comportamiento de la

variable en los grupos.

Ejemplo 1.2.12 Consideremos los datos del ejemplo anterior:

Carlos Bustos-Lopez

Page 22: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 20

7. Ojiva:

Es un poligoo de frecuencias, pero permite representar las frecuencias

acumuladas, de tal forma que pueda establecer para los distintos inter-

valos cual grupo presenta mayor frecuencia relativa o porcentaje para

un determinado punto de la variable.

Ejemplo 1.2.13 Consideremos los datos del ejemplo anterior:

Carlos Bustos-Lopez

Page 23: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 21

Nota historica:La primera aplicacion de metodologıa estadıstica, corresponde a fines del

siglo XIX y retrata a una gran mujer, Florence Nightingale, quien realizo im-portantes aportes a la medicina y a la estadıstica.

En la Guerra de Crimea (1854-1856), ella grafico la incidencia de lasmuertes previsibles en el hospital del frente de batalla por las malas condi-ciones sanitarias.

Desarrollo un diagrama de area polar, a fin de ilustrar la necesidad de lareforma en las condiciones de atencion.

Nightingale, revoluciono el sistema y mostro que un fenomeno social podıaser medido objetivamente, y estudiado mediante un analisis matematico.

Luego de este estudio, la tasa de mortalidad bajo de un 42.7 % a un 2.2%.

Carlos Bustos-Lopez

Page 24: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 22

El diagrama, muestra la evolucion de las causas de mortalidad en el Ejerci-to en el Oriente a fines de 1858.

Se observa que la mayorıa de los soldados britanicos que murieron durantela guerra de Crimea, fue producto de una enfermedad (azul) en lugar deheridas u otras causas (rojo o negro).

Tambien, se puede apreciar que la tasa de mortalidad fue mayor en elprimer ano de la guerra (mitad derecha del diagrama), antes de que laComision Sanitaria llegara en marzo de 1855 para mejorar la higiene en loscampamentos y hospitales.

1.3. Medidas de Tendencia Central

Las medidas de Tendencia Central, son valores alrededor de los cuales lasobservaciones tienden a concentrarse1.

1.3.1. Media Armonica (H(X)).

Definicion 1.3.1 Sean x1, x2, . . . , xn los valores observados de una variable

X, entonces denominamos como media armonica a:

H(X) =n

n∑i=1

1

xi

=n

1x1

+ 1x2

+ · · ·+ 1xn

.

Ejemplo 1.3.1 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:

H(X) =5

13

+ 14

+ 16

+ 16

+ 18

=52524

= 4,8 .

1A estos indicadores llamaremos Estadıgrafos.

Carlos Bustos-Lopez

Page 25: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 23

1.3.2. Media Geometrica (G(X)).

Definicion 1.3.2 Sean x1, x2, . . . , xn los valores observados de una variable

X, entonces denominamos como media geometrica a:

G(X) = n

√√√√n∏

i=1

xi = n√

x1 · x2 · · · xn .

Ejemplo 1.3.2 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:

G(X) =5√

3 · 4 · 6 · 6 · 8 = 5,1 .

1.3.3. Media Aritmetica o Promedio (µX, x o M(X)).

Definicion 1.3.3 Sean x1, x2, . . . , xn los valores observados de una variable

X, entonces denominamos como media o promedio a2:

µX

=x1 + x2 + · · ·+ xn

n=

n∑i=1

xi

n.

Ejemplo 1.3.3 Consideremos el conjunto de datos que consta de 5 valores:

3, 4, 6, 6 y 8, entonces:

µX

=3 + 4 + 6 + 6 + 8

5=

27

5= 5,4 .

2Se denota con µX

a la media aritmeticapoblacional y con x a la media aritmetica

muestral.

Carlos Bustos-Lopez

Page 26: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 24

Nota: La media es un punto de equilibrio en el siguiente sentido:

Si di = xi − x representa el desvıo de la i-esima observacion con respectoa la media, entonces d1 + d2 + · · ·+ dn = 0.

Es decir, los desvıos por bajo la media son compensados por los desvıospor sobre la media.

En el ejemplo anterior los desvıos correspondientes son d1 = 3 − 5,4,d2 = 4− 5,4, d3 = d4 = 6− 5,4, d5 = 8− 5,4, cuya suma es cero.

Ejemplo 1.3.4 Consideremos la siguiente tabla con datos:

Muestra x1 x2 x3 x4 x5 x

A 2 3 4 5 6 4

B 2 4 4 4 6 4

C 1 5 4 5 5 4

D 4 4 4 4 4 4

La lista anterior se puede extender con todas las colecciones de cinco numeros

cuya suma sea 20.

Nota: La media es una caracterıstica del comportamiento de los datosque puede ser utilizada como un indicador (p.e. de rendimiento), pero nose puede pretender que un solo numero nos de una idea de la forma delcomportamiento de los datos.

Propiedades de la Media:

Sean X e Y variables aleatorias, y a, b y c constantes.

µ(c) = c.

µ(X ± b) = µ(X)± b.

Carlos Bustos-Lopez

Page 27: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 25

µ(aX ± b) = aµ(X)± b.

µ(aX ± bY ) = aµ(X)± bµ(Y ).

Ejemplo 1.3.5 Considere la siguiente tabla con edades de varones, que tra-

bajan en una empresa manufacturera.

56 41 49 56 48 47 46 53 51 52 47 42

56 49 48 52 50 43 58 38 54 46 47 58

47 48 52 57 51 47 55 46 41 48 47 56

54 48 51 52 50 44 47 43 49 53 51 52

49 46 62 51 51 47 51 50 49 53 52 33

Para este caso el valor de x = 49,50 anos.

Cuando los datos estan agrupados en una tabla de frecuencias, con kintervalos de clase, el procedimiento para calcular x es el siguiente:

x =x1n1 + x2n2 + · · ·+ xknk

n=

k∑i=1

xini

n,

note que en este caso xi no es la observacion i, sino corresponde a la i-esimamarca de clase.

Ejemplo 1.3.6 Ahora construyamos la tabla de frecuencias: k =√

60 ≈7,75 ≈ 8, R = 62− 33 = 29, entonces LI = 29

8≈ 3,63.

Carlos Bustos-Lopez

Page 28: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 26

Int. de Clase M. de C. xi ni fi fi % Ni Fi Fi % xini

33,00− 36,63 34,82 1 0,017 1,7% 1 0,017 1,7% 34,8

36,63− 40,26 38,45 1 0,017 1,7% 2 0,033 3,3% 38,4

40,26− 43,89 42,08 5 0,083 8,3% 7 0,117 11,7% 210,4

43,89− 47,52 45,71 13 0,217 21,7% 20 0,333 33,3% 594,2

47,52− 51,15 49,34 20 0,333 33,3% 40 0,667 66,7% 986,7

51,15− 54,78 52,97 11 0,183 18,3% 51 0,850 85,0% 582,6

54,78− 58,41 56,60 8 0,133 13,3% 59 0,983 98,3% 452,8

58,41− 62,04 60,23 1 0,017 1,7% 60 1,000 100,0% 60,2

Total 60 1 100% 2960,1

Ahora, al calcular el valor de x se obtiene: x = 2960,160

≈ 49,33 anos.

1.3.4. Media Ponderada (µP , xP ).

Definicion 1.3.4 Sean x1, x2, . . . , xn los valores observados en una variable

X y w1, w2, . . . , wn numeros no negativos cuya suma es 1, entonces denomi-

namos media ponderada de n observaciones a:

xP =n∑

i=1

wixi = w1x1 + w2x2 + · · ·+ wnxn , conn∑

i=1

wi = 1 .

Si la variable en la muestra tiene k valores distintos (k ≤ n) que aparecencon frecuencias n1, n2, . . . , nk, entonces la media puede ser obtenida como:

x =n1x1 + n2x2 + · · ·+ nkxk

n=

k∑i=1

nixi

n,

= f1x1 + f2x2 + . . . + fkxk =k∑

i=1

fixi ,

donde fi es la frecuencia relativa de la observacion xi, con i = 1, 2, . . . , k.

Carlos Bustos-Lopez

Page 29: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 27

Note que en este caso wi = fi. Ademas, si la poblacion fue divididaen p grupos, cada uno con tamano ni, con i = 1, 2, . . . , p, con xi la mediacorrespondiente al grupo i, entonces el valor de la media poblacional es:

x =

p∑i=1

xini

p∑i=1

ni

.

Ejemplo 1.3.7 En un estudio de 92 personas de tres grupos sobre la altura

media en cierta companıa, se obtuvieron los siguientes resultados, separados

segun tramo de edad:

x1 = 158,5mt. , n1 = 34

x2 = 172,3mt. , n2 = 30

x3 = 163,1mt. , n3 = 28

Ejemplo 1.3.8 Y el valor de la media poblacional es:

x =x1n1 + x2n2 + x3n3

n1 + n2 + n3

,

=158,5× 34 + 172,3× 30 + 163,1× 28

34 + 30 + 28,

=5389 + 5169 + 4566,8

92=

15124,8

92= 164,4mt.

Ademas, si wi = 1/n, para todo i, entonces xP = x.

1.3.5. Media Recortada en α % .

Definicion 1.3.5 Se llama media recortada en α a un promedio o media que

no considera una proporcion α de las observaciones en cada extremos de las

Carlos Bustos-Lopez

Page 30: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 28

observaciones ordenadas de menor a mayor (Corte simetrico)3.

El objetivo es eliminar la influencia de las observaciones mas extremas,asignandoles peso cero.

Ejemplo 1.3.9 Calculemos la media de los siguientes datos que correspon-

den al numero de bibliotecas por region.

68 (I) 78 (II) 52 (III) 74 (IV) 214 (V) 84 (VI)

75 (VII) 186 (VIII) 125 (IX) 105 (X) 33 (XI) 47 (XII)

855 (XIII)

x =68 + 78 + 52 + 74 + 214 + 84 + 75 + 186 + 125 + 105 + 33 + 47 + 855

13

=1996

13= 153,5bibliotecas.

y la media recortada a un 10% es

x,1 =68 + 78 + 52 + 74 + 214 + 84 + 75 + 186 + 125 + 105 + 47

11= 100,7bibliotecas.

1.3.6. Moda (Mo(X)).

Definicion 1.3.6 La moda, como su nombre lo indica, corresponde a la ob-

servacion mas frecuente o que se repite mas veces.

Ejemplo 1.3.10 Considere los siguientes conjuntos de datos:

1, 2, 3, 4, 5, 6, 7, 8, 9, y la moda para este grupo no existe.

1, 1, 2, 2, 3, 3, 3, 3, 4, y la moda para este grupo es Mo(X) = 3.

1, 1, 2, 2, 3, 4, 4, 5, 6, y la moda para este grupo es Mo(X)1 = 1,

Mo(X)2 = 2 y Mo(X)3 = 4.

3Es tıpico tomar α = 5% o bien α = 10 %.

Carlos Bustos-Lopez

Page 31: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 29

Segun lo anterior, el valor modal puede existir o no, si existe este valorpuede ser no unico, en ese caso se habla de bimodal, trimodal, multimodal.En el caso de tener solo un valor modal, se habla de unimodal.

En el caso que los datos se encuentren tabulados, la forma de calcular lamoda es la siguiente:

1. Primero, identificar el o los intervalos que contienen el valor modal, esdecir, el intervalo con mayor frecuencia absoluta o relativa.

2. Determinar el valor de

Mo(X) = LIi +

(ni − ni−1

(ni − ni−1) + (ni − ni+1)

)ai ,

donde ai es la amplitud del i-esimo intervalo.

3. Si existe mas de un intervalo repetir el calculo anterior.

Ejemplo 1.3.11 Retomemos el ejemplo anterior de las edades, en este caso

i = 5, LI5 = 47,52, n5 = 20, n4 = 13, n6 = 11 y a5 = 3,63, entonces:

Mo(X) = 47,52 +

(20− 13

(20− 13) + (20− 11)

)3,63 ,

= 47,52 +

(7

16

)3,63 = 47,52 + 1,588 ,

= 49,108 ≈ 49,11anos.

Pero si nos referimos a los datos sueltos, el valor que mas se repite es 47

anos.

1.3.7. Mediana (Me(X)).

Definicion 1.3.7 Es la realizacion u observacion que ocupa la posicion que

divide en dos partes iguales al conjunto de datos previamente ordenados de

Carlos Bustos-Lopez

Page 32: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 30

menor a mayor, es decir, el 50 % de las observaciones son menores a este

valor y el 50 % restante son valores mayores a esta observacion.

Si el numero de observaciones es impar, entonces, el valor de la medianacoincide con la observacion central, en cambio si el numero de observacioneses par, el valor de la mediana sera la media de los dos valores centrales.

Ejemplo 1.3.12 Considere los siguientes conjuntos de datos:

1, 2, 3, 4, 5, 6, 7, 8, 9, y la mediana para este grupo Me(X) = 5.

1, 2, 3, 4, 5, 6, 7, 8, y la mediana para este grupo es Me(X) = 4+52

=

4,5.

En el caso de que los datos ya se encuentren tabulados, el procedimiento

es el siguiente:

Me(X) = LIi +

(N

2−Ni−1

)ai

ni

.

En el caso del ejemplo anterior se tiene que i = 5, LI5 = 47,52, N = 60,

N4 = 20, a5 = 3,63 y n5 = 20, entonces:

Me(X) = 47,52 +

(60

2− 20

)3,63

20,

= 47,52 + 10× 0,1815 = 49,335 ≈ 49,34anos.

Si se calcula directamente con los datos sueltos, la Me(X) = 49+502

=

49,5anos, donde las observaciones 49 anos y 50 anos corresponden a las

posicines 30 y 31, respectivamente.

Carlos Bustos-Lopez

Page 33: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 31

1.3.8. Comentarios

:

1. La Media Armonica, se utiliza principalmente para obtener un valorrepresentativo de un conjunto de datos expresados en forma de tasas,esto es, tantas unidades de un tipo por cada unidad de otras especies.

2. La Media Geometrica, se utiliza principalmente para: 1) promediarporcentajes, ındices y cifras relativas; y 2) determinar el incrementoporcentual promedio en ventas, produccion u otras actividades o serieseconomicas de un periodo a otro.

3. Las Medias Geometrica y armonica tienden a reducir la influencia devalores grandes y a destacar la de los valores pequenos. El calculo deestas dos estadısticas exige que los valores de la variable sean positivos.

4. La Media Aritmetica, se utiliza principalmente cuando la distribucionde los datos es aceptablemente simetrica.

5. La Media Ponderada, se utiliza principalmente cuando se sabe que al-gunos datos tienen mayor importancia dentro de la muestra.

6. La Media Recortada, se utiliza principalmente cuando los datos ex-tremos son muy anomalos y se alejan mucho del centro de los datos.

7. La Moda, se utiliza principalmente cuando la variable que se esta es-tudiando es cualitativa nominal.

8. La Mediana, se utiliza cuando la variable en estudio es al menos ordinal.

1.4. Medidas de Posicion

Las medidas de posicion, nos permiten cuantificar en que posicion seencuentra una observacion dentro de un conjunto de datos previamente or-denado de menor a mayor.

Carlos Bustos-Lopez

Page 34: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 32

1.4.1. Mınimo (XMin).

Corresponde a la observacion mas pequena, y se encuentra en la primeraposicion.

1.4.2. Maximo (XMax).

Corresponde a la observacion mas grande, y se encuentra en la ultimaposicion.

1.4.3. Percentiles( Pα).

Los percentiles corresponden a ciertos valores de las observaciones quedejan un determinado porcentaje de observaciones por bajo este valor. Engeneral se designa como Pα, que representa la valor del percentil que dejaα % de las observaciones por bajo de este valor.

Definicion 1.4.1 Para un numero α ∈ [0, 100] se denomina percentil α a

un numero xα tal que la frecuencia relativa acumulada en xα es α % de las

observaciones, es decir:

Fxα = α % .

Los percentiles se calculan de manera diferente segun sea la variable disc-reta o continua.

1. Variable Discreta.

En este caso el percentil α se define como xα: el menor numero x talque Fxα ≥ α.

Recordemos el ejemplo de venta de automoviles, el percentil 50 es P50 =1, esto quiere decir que el 50 % de los distribuidores vende un auto omenos, el percentil 93 corresponde a P93 = 2 y esto significa que el 93%de los distribuidores vende dos o menos.

Carlos Bustos-Lopez

Page 35: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 33

2. Variable Continua.

En esta situacion, se puede encontrar el intervalo de clase en el cualesta el percentil α mediante la frecuencia relativa acumulada en la tablade frecuencias. El procedimiento es similar al calculo de la mediana,utilizandose para esto la siguiente formula:

Pα = LIi +

(α× n

100−Ni−1

)ai

ni

.

Ejemplo 1.4.1 Retomemos el ejemplo anterior, y calculemos el P75,

en este caso i = 6, LI6 = 51,15, n = 60, α = 75, N5 = 40, a6 = 3,63 y

n6 = 11, entonces:

P75 = 51,15 + (60× 0,75− 40)3,63

11,

= 51,15 + 5× 0,33 = 52,8anos .

Notas:

Los percentiles no tienen sentido en variables nominales en las que nose puede ordenar las observaciones de menor a mayor.

Los percentiles dependen de la forma segun la que se ha construido latabla de frecuencias; esto significa que no existe una forma unica paraobtener los percentiles. (a menos que conozcamos la distribucion de losdatos.).

Para datos no agrupados es usual calcular los percentiles del siguientemodo: se supone que la observacion ordenada que ocupa el lugar icorresponde al percentil:

k =i− 1

n− 1× 100 .

Otra forma es definir a la observacion ya ordenada, numero i comocorrespondiente al percentil:

k =i

n + 1× 100 .

Carlos Bustos-Lopez

Page 36: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 34

Para calcular percentiles correspondientes a otros valores de k se ocupaninterpolaciones.

Se denominan Cuartiles a:

C1 = P25, C2 = P50 = Me(X), C3 = P75 .

De la misma forma se denominan Quintiles a:

Q1 = P20, Q2 = P40, Q3 = P60, Q4 = P80 .

Deciles a:D1 = P10, D2 = P20, . . . , D9 = P90 .

1.4.4. Diagrama de Cajon o Box-Plot:

El diagrama de cajon (Box-Plot) denominado tambien cajon con bigotes,es una representacion grafica de los datos basado en 5 numeros: mınimo,primer cuartil, mediana, tercer cuartil y maximo.

La lınea vertical que se dibuja desde el tercer cuartil hacia arriba, ge-neralmente se extiende hasta el mayor valor que esta a una distancia de1.5(C3 − C1) del tercer cuartil. Analogamente, la lınea que sale del primercuartil, hacia abajo, se extiende hasta el menor valor que esta a una distanciade 1.5(C3 − C1) del primer cuartil.

Los datos que esten fuera de estos rangos se denominan “outliers” uobservaciones anomalas.

Ejemplo 1.4.2 El Box-plot para los datos de edades es:

Carlos Bustos-Lopez

Page 37: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 35

1.5. Medidas de Variabilidad o de Dispersion

Estas medidas son estadıgrafos que permiten medir la dispersion de unconjunto de datos. Los mas importantes son aquellos que representan lasdesviaciones de las observaciones respecto a alguna medida de tendencia cen-tral.

1.5.1. Amplitud o Rango (R).

Definicion 1.5.1 Corresponde a la mayor diferencia que existe entre dos

observaciones de un conjunto de datos.

Rango = XMax −XMin .

Carlos Bustos-Lopez

Page 38: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 36

1.5.2. Rango Intercuartil (RI).

Definicion 1.5.2 Corresponde a la mayor diferencia que existe entre dos

observaciones del 50 % de los datos centrales.

RI = C3 − C1 = P75 − P25

.

1.5.3. Desviacion Media (DM).

Definicion 1.5.3 En este caso nos interesa la magnitud de los desvıos, es

decir su valor absoluto. La desviacion media se define como:

DM =|x1 − x|+ · · ·+ |xn − x|

n=

n∑i=1

|xi − x|2

n.

1.5.4. Varianza y Desviacion Estandar (σ2X, S2

X o VVar(X)).

Definicion 1.5.4 Corresponde a la media de las desviaciones o diferencias

al cuadrado de las observaciones, con respecto a su media4.

1. Datos desagrupados (no tabulados): En este caso se tienen para X(variable de interes) las n observaciones x1, x2, . . . , xn.

σ2X =

1

n

n∑i=1

(xi − µ)2 =1

n

(n∑

i=1

x2i − nµ2

),

⇔ σX =

√√√√ 1

n

(n∑

i=1

x2i − nµ2

).

4Se denomina Desviacion Estandar a σ =√

σ2 .

Carlos Bustos-Lopez

Page 39: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 37

S2X =

1

n− 1

n∑i=1

(xi − X

)2=

1

n− 1

(n∑

i=1

x2i − nX2

),

⇔ SX =

√√√√ 1

n− 1

(n∑

i=1

x2i − nX2

).

2. Datos agrupados (tabulados): En este caso se tiene una tabla de fre-cuencias con k intervalos, donde ni es la frecuencia absoluta del in-tervalo i, xi la marca de clase del i-esimo intervalo y n el total deobservaciones.

σ2X =

1

n

(k∑

i=1

nix2i − nµ2

)⇔ σX =

√√√√ 1

n

(k∑

i=1

nix2i − nµ2

).

S2X =

1

n− 1

(k∑

i=1

nix2i − nX2

)⇔ SX =

√√√√ 1

n− 1

(k∑

i=1

nix2i − nX2

).

Propiedades de la Varianza (VVar(X)).

Sean X e Y variables aleatorias independientes, y a, b y c constantes.

VVar(X) ≥ 0.

VVar(c) = 0.

VVar(X ± b) = VVar(X).

VVar(aX ± b) = a2VVar(X).

VVar(aX ± bY ) = a2VVar(X) + b2VVar(Y ).

Carlos Bustos-Lopez

Page 40: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 38

1.5.5. Coeficiente de Variacion (C.V.(X)).

Definicion 1.5.5 El coeficiente de variacion o de variabilidad relativa, es

una medida que entrega la dispersion relativa de los datos. Y permite com-

parar la homogeneidad de dos o mas conjuntos de datos.

C.V.(X) =σX

µX

× 100 % .

El coeficeinte de variacion (CV ), nos entrega una forma de medir la ho-mogeneidad de los datos, ademas es un indicador sin unidad de medida, loque permite comparar distintos conjuntos de datos. Si el valor del coeficientede variacion es cercano a 0, diremos que los datos son muy homogeneos, esdecir, son muy parecidos entre ellos, al contrario si el valor del coeficientede variacion es muy alto, diremos que los datos son heterogeneos, es decir,muy diferentes entre ellos. De esa forma podemos comparar conjuntos dedatos distintos, ya sean de poblaciones o muestras distintas o de variablescon unidades de medida distintas. La interpretacion sera:

Si 0 ≤ C.V.(X) < 25 %, los datos se diran Muy Homogeneos.

Si 25 % ≤ C.V.(X) < 50 %, los datos se diran Homogeneos.

Si 50 % ≤ C.V.(X) < 75 %, los datos se diran Heterogeneos.

Si C.V.(X) ≥ 75 %, los datos se diran Muy Heterogeneos.

Ejemplo 1.5.1 Modifiquemos la tabla del ejemplo.

Int. de Clase M. de C.xi ni xini x2i x2

i ni

[33,00, 36,63] 34,82 1 34,8 1212,08 1212,08

(36,63, 40,26] 38,45 1 38,4 1478,02 1478,02

(40,26, 43,89] 42,08 5 210,4 1770,31 8851,53

(43,89, 47,52] 45,71 13 594,2 2088,95 27156,31

(47,52, 51,15] 49,34 20 986,7 2433,94 48678,84

(51,15, 54,78] 52,97 11 582,6 2805,29 30858,20

(54,78, 58,41] 56,60 8 452,8 3202,99 25623,95

(58,41, 62,04] 60,23 1 60,2 3627,05 3627,05

Total 60 2960,1 147485,99

Carlos Bustos-Lopez

Page 41: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 39

La µX = 2960,160

= 49,34 anos, y el valor de la varianza es σ2X = 147485,99

60−

49,342 = 23,66 (anos)2, ademas la desviacion estandar es σX =√

23,66 =

4,87 anos, y el coeficiente de variacion C.V.(X) = 4,8749,34

100 % = 9,87 %.

Ejemplo 1.5.2 Determine el coeficiente de variacion de Y = 3,2X + 4,

donde µX = 12,1 y σX = 4,3.

Como C.V.(Y ) = σY

µY× 100 %, necesitamos determinar la media de Y y

su desviacion estandar.

Pero M(Y ) = M(3,2X + 4) = 3,2M(X) + 4 = 3,2 × 12,1 + 4 = 42,72.

Ademas,

VVar(Y ) = VVar(3,2X + 4) = 3,22VVar(X) = 10,24× 4,32 ,

= 10,24× 18,49 = 189,3376 .

Entonces, el

C.V.(Y ) =

√189,3376

42,72× 100% =

13,76

42,72× 100% ≈ 32,2% .

1.6. Analisis Bivariado

En todas las discusiones anteriores, hemos tratado las variables y su res-pectiva informacion como variables aisladas, pero en general, no solo nosinteresa una variable especıfica, sino varias de ellas, y poder descubrir lasposibles asociaciones entre dos o mas variables.

Carlos Bustos-Lopez

Page 42: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 40

1.6.1. Tablas de Doble Entrada.

Definicion 1.6.1 Estas tablas son un arreglo que consta de filas y columnas,

que corresponden a distintas categıas, y en las celdas se anota la frecuencia

absoluta de la realizacion de dos variables aleatorias simultaneamente.

Sean X e Y variables aleatorias, con I y J categorıas, respectivamente. Ysea nij la frecuencia absoluta de las caracterısticas (Xi, Yj). La informacionse puede resumir de la siguiente forma:

Y Totaln11 n12 · · · n1J n1+

X n21 n22 · · · n2J n2+...

.... . .

......

nI1 nI2 · · · nIJ n1+

Total n+1 n+2 · · · n+J n++

Note que ni+ corresponde a la i-esima frecuencia absoluta de la variable X5, yn+j corresponde a la j-esima frecuencia absoluta de la variable Y 6. Ademas,

ni+ =J∑

j=1

nij , n+j =I∑

i=1

nij , n++ =I∑

i=1

J∑j=1

nij .

Ejemplo 1.6.1 Considere la siguiente tabla con la informacion de puntajes

obtenidos en un test, segun tramo de edad.

5Este total corresponde a la frecuencia marginal de X6Este total corresponde a la frecuencia marginal de Y .

Carlos Bustos-Lopez

Page 43: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 41

Y : Edades de postulantes

25− 27 27− 29 Frec. Marg.

X : Puntajes xi yj 26 28 de X

30− 40 35 5 10 15

40− 50 45 6 10 16

50− 60 55 10 8 18

Frec. Marg. de Y 21 28 49

1.6.2. Analisis Condicional.

En muchas ocasiones no interesa por completo la tabla de doble entrada

sino algun aspecto especıfico de ella, es decir, ya poseemos cierta informacion

que nos permite acotar el estudio.

Ejemplo 1.6.2 De la tabla anterior nos interesa saber la media de puntajes,

dado que las personas son menores de 27 anos.

En este caso debemos determinar la tabla de distribucion de frecuencias

condicional dado que Y ≤ 27.

Y ≤ 27

Puntajes xi 25− 27 xini

30− 40 35 5 175

40− 50 45 6 270

50− 60 55 10 550

Total 21 995

Carlos Bustos-Lopez

Page 44: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 42

Entonces,

µX|Y≤27 =995

21≈ 43,38puntos.

Ejemplo 1.6.3 De la tabla anterior, nos interesa saber la media de edad,

dado que las personas lograron menos de 45 puntos.

En este caso, debemos determinar la tabla de distribucion de frecuencias

condicional dado que X < 45.

X < 45

Edad yj 30− 40 ∧ 40− 50 yjnj

25− 27 26 5 + 6 = 11 286

27− 29 28 10 + 10 = 20 560

Total 31 846

Luego,

µY |X<45 =846

31≈ 27,29anos.

Ejemplo 1.6.4 La siguiente tabla corresponde a las alturas de 151 personas

de una empresa, separadas por sexo. Donde X es la altura en centımetros,

Y = 0 (Mujer) e Y = 1 (Hombre). Determine la media, moda y mediana de

X.Y : Sexo

Muj. Hom. Frec. Marg.

X : Altura xi yj 0 1 de X xini hi Hi

155− 160 157,5 30 15 45 7087,5 0,298 0,298

160− 165 162,5 25 32 57 9262,5 0,378 0,676

165− 170 167,5 17 20 37 6197,5 0,245 0,921

170− 175 172,5 3 9 12 2070 0,079 1,000

Frec. Marg. de Y 75 76 151 24617,5

µX =24617,5

151≈ 163,03cm.

Carlos Bustos-Lopez

Page 45: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 43

Mo(X) = 160 +

„57− 45

(57− 45) + (57− 37)

«5 ,

= 160 +

„12

12 + 20

«5 ,

= 160 +

„12

32

«5 ,

≈ 160 + 1,875 ≈ 161,875cm.

Me(X) = 160 +

„151

2− 45

«5

57,

= 160 + (75,5− 45)5

57,

≈ 160 + 30,5× 0,088 ,

≈ 160 + 2,684 ≈ 162,684cm.

Ejemplo 1.6.5 Determine la distribucion condicional de X dado Y = 0 y

su respectiva media, moda y mediana.

Y = 0

Altura xi (Mujeres) xini hi Hi

155− 160 157,5 30 4725 0,400 0,400

160− 165 162,5 25 4062,5 0,333 0,733

165− 170 167,5 17 2847,5 0,227 0,960

170− 175 172,5 3 517,5 0,040 1,000

Total 75 12152,5

µX|Y =0 =12152,5

75≈ 162,03cm.

Mo(X|Y = 0) = 155 +

„30− 0

(30− 0) + (30− 25)

«5 ,

= 155 +

„30

30 + 5

«5 ,

= 155 +

„30

35

«5 ,

≈ 155 + 0,857 ≈ 159,286cm.

Carlos Bustos-Lopez

Page 46: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 44

Me(X|Y = 0) = 160 +

„75

2− 30

«5

25,

= 160 + (37,5− 30)5

25,

≈ 160 + 7,50× 0,20 ,

≈ 160 + 1,50 ≈ 161,50cm.

Ejemplo 1.6.6 Determine la distribucion condicional de X dado Y = 1 y

su respectiva media, moda y mediana.

Y = 1

Altura xi (Hombres) xini hi Hi

155− 160 157,5 15 2362,5 0,197 0,197

160− 165 162,5 32 5200 0,421 0,618

165− 170 167,5 20 3350 0,263 0,881

170− 175 172,5 9 51552,5 0,118 1,000

Total 76 12465

µX|Y =1 =12465

76≈ 164,01cm.

µX|Y =1 =12465

76≈ 164,01cm.

Mo(X|Y = 1) = 160 +

„32− 15

(32− 15) + (32− 20)

«5 ,

= 160 +

„17

17 + 12

«5 ,

= 160 +

„17

29

«5 ,

≈ 160 + 2,93 ≈ 162,93cm.

Carlos Bustos-Lopez

Page 47: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 45

Me(X|Y = 1) = 160 +

„76

2− 15

«5

32,

= 160 + (38− 15)5

32,

≈ 160 + 23× 0,156 ,

≈ 160 + 3,588 ≈ 163,588cm.

1.6.3. Covarianza

En los analisis bivariados obtenemos la informacion de las frecuencias

absolutas de un suceso bajo dos variables aleatorias, pero ademas nos interesa

saber la relacion que existe entre estas dos variables.

Ası como la varianza es una forma de medir la variabilidad de una variable

de interes, la covarianza nos permite medir la variabilidad conjunta de dos

variables X e Y 7.

1. Datos no agrupados: Sean x1, . . . , xn e y1, . . . , yn las respectivas obser-

vaciones para las variables X e Y , ademas sean µX y µY , las respectivas

medias de las variables. La covarianza se denota por σXY8.

σXY =1

n

(n∑

i=1

xiyi − nµXµY

)=

∑ni=1 xiyi

n− µXµY .

2. Datos agrupados: En este caso se tiene una tabla con frecuencias con-

juntas para las variables X e Y , es decir, se tiene una tabla con I filas

7El lector debe poner atencion en que, la covarianza de una variable X con sigo misma,

es decir, σXX = σ2X corresponde a la varianza de la variable X.

8Tambien se suele utilizar Cov(X, Y ).

Carlos Bustos-Lopez

Page 48: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 46

para X y J columnas para Y , donde nij corresponde a la frecuencia

absoluta observada en la celda que se genera al intersectarse la fila i

con la columna j, con i = 1, . . . , I y j = 1, . . . , J .

σXY =1

n

(I∑

i=1

J∑j=1

nijxiyj − nµXµY

)=

∑Ii=1

∑Jj=1 nijxiyj

n− µXµY .

Ejemplo 1.6.7 Considere el siguiente ejemplo:

Edades de postulantes

25− 27 27− 29 Frec. Marg. xini

Puntajes xi yj 26 28 de X

30− 40 35 5 10 15 525

40− 50 45 6 10 16 720

50− 60 55 10 8 18 990

Frec. Marg. de Y 21 28 49 2235

yjnj 546 784 1330

Luego, µX = 223549

= 45,61anos y µY = 133049

= 27,14anos.

Entonces,

Cov(X, Y ) =35 · 26 · 5 + 35 · 28 · 10 + 45 · 26 · 6 + 45 · 28 · 10 + 55 · 26 · 10 + 55 · 28 · 8

49− 45,61 · 27,14

=60590

49− 45,61 · 27,14

= 1236,53− 45,61 · 27,14

= 1236,53− 1237,86

= −1,33anos× puntos .

1.7. Correlacion

En la seccion anterior hemos visto como las tablas bivariadas nos permiten

tener una idea del comportamiento de las observaciones cuando estas son

Carlos Bustos-Lopez

Page 49: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 47

medidas de forma conjunta, y como determinar las respectivas distribuciones

condicionales de las variables.

Pero muchas veces nos interesa, ademas, saber cual es la relacion que

existe entre estas dos variables, es decir, cuanto se afectan la una a la otra.

Un indicador que nos permite responder a las necesidades anteriores, es

el coeficiente de correlacion.

1.7.1. Coeficiente de Correlacion Lineal de Pearson (ρXY

o rXY

)

El coeficiente de correlacion lineal de Pearson, permite cuantificar el grado

de asociacion o relacion lineal entre las variables. Y se define como:

ρXY

XY√σ2

Xσ2

Y

,

rXY

=

n∑i=1

xiyi − nxy

√√√√(

n∑i=1

x2i − nx2

)(n∑

i=1

y2i − ny2

) .

El coeficiente de correlacion, cumple que: −1 ≤ rXY≤ 1.

Interpretacion:

Cuando los valores de rXY

son cercanos a -1, se dice que las variables

X e Y tienen alta asociacion lineal inversa.

Carlos Bustos-Lopez

Page 50: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 48

Cuando los valores de rXY

son cercanos a 1, se dice que las variables X

e Y tienen alta asociacion lineal directa

Cuando el valor de rXY

es cero, se tienen dos situaciones, la primera si

estamos bajo normalidad en las variables, entonces se dira que X e Y

son independientes; en otro caso, simplemente no se sabe que tipo de

asociacion existe entre las variables, al menos no es lineal (p.e. puede

ser: cuadratica, cubica, etc.).

Ejemplo 1.7.1 Consideremos los siguientes datos de un experimento sobre

mediciones espirometricas.

Individuo Edad (Z) Altura (X) FV C (Y ) XY X2 Y 2 XZ Z2

1 25 160 5.08 812.80 25600 25.8064 4000 625

2 25 159 4.89 777.51 25281 23.9121 3975 625

3 26 174 5.44 946.56 30276 29.5936 4524 676

4 26 171 4.12 704.52 29241 16.9744 4446 676

5 26 164 6.36 1043.04 26896 40.4496 4264 676

6 27 168 5.17 868.56 28224 26.7289 4536 729

7 27 170 5.52 938.40 28900 30.4704 4590 729

8 28 174 5.24 911.76 30276 27.4576 4872 784

Total 210 1340 41.82 7003.15 224694 221.3930 35207 5520

Carlos Bustos-Lopez

Page 51: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 49

x = 13408≈ 167,5, y = 41,82

8≈ 5,23

rXY

=7003,15− 8× 167,5× 5,23√

(224694− 8× 167,52)(221,3930− 8× 5,232),

=7003,15− 7008,2√

(224694− 224450)(221,3930− 218,82),

=−5,05√

244× 2,573,

=−5,05√627,812

,

=−5,05

25,01,

≈ −0,202 .

Ejemplo 1.7.2 Consideremos la tabla anterior y calculemos la correlacion

entre Edad y Altura.

x = 13408≈ 167,5, z = 210

8≈ 26,25

rXZ

=35207− 8× 167,5× 26,25√

(224694− 8× 167,52)(5520− 8× 26,252),

=35207− 35175√

(224694− 224450)(5520− 5512,5),

=32√

244× 7,5,

=32√1830

,

=32

42,78,

≈ 0,75 .

Carlos Bustos-Lopez

Page 52: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 50

1.7.2. Matrix-Plot

La matriz dfe graficos permite, determinar rapidamente si dos variables

tienen algun grado de asociacion lineal, pero mas aun, permite visualizar

todas las combinaciones posibles de las variables.

1.7.3. Concepto de Rango

La idea es ordenar las observaciones de menor a mayor y asignarles un

numero correlativo a la posicion que ocupan, el cual se denomina rango.

Ejemplo 1.7.3 Consideremos las siguientes observaciones:

9, 2, 4, 6, 3, 12 .

Ordenemos los datos de menor a mayor y asignemos un numero a la posicion

que ocupan:

Carlos Bustos-Lopez

Page 53: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 51

Observacion 2 3 4 6 9 12

Posicion o Rango 1 2 3 4 5 6

Cuando existen observaciones repetidas, el procedimiento para asignar los

rangos es el siguiente:

Ejemplo 1.7.4 Consideremos las siguientes observaciones:

9, 2, 2, 2, 4, 6, 6, 3, 12 .

Ordenemos los datos de menor a mayor y asignemos un numero a la posicion

que ocupan.

Observacion 2 2 2 3 4 6 6 9 12

Posicion o Rango 1 2 3 4 5 6 7 8 9

Ejemplo 1.7.5 Ahora, calculamos la media de las posiciones para las obser-

vaciones que estan repetidas.

Rango de empatados (2) =1 + 2 + 3

3=

6

3= 2 ,

y para

Rango de empatados (6) =6 + 7

2=

13

2= 6,5 ,

entonces la tabla con los rangos es:

Observacion 2 2 2 3 4 6 6 9 12

Posicion o Rango 2 2 2 4 5 6.5 6.5 8 9

Carlos Bustos-Lopez

Page 54: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 52

1.7.4. Correlacion de Rangos de Spearman (rS).

Corresponde a un estadıgrafo no parametrico, y se basa en la utilizacion

de los rangos asignados a los respectivos valores de las variables.

Su forma es la siguiente:

rS

= 1−6

n∑i=1

d2i

n(n2 − 1),

donde di = Rango de xi− Rango de yi, y n es el numero total de obser-

vaciones.

Ejemplo 1.7.6 Retomemos los datos de Espirometrıa, y determinemos sus

respectivos rangos:

Edad (Z) Altura (X) Z X di d2i

25 160 1.5 2 0.5 0.25

25 159 1.5 1 -0.5 0.25

26 174 4 7.5 3.5 12.25

26 171 4 6 2.0 4.00

26 164 4 3 -1.0 1.00

27 168 6.5 4 -2.5 6.25

27 170 6.5 5 -1.5 2.25

28 174 7 7.5 0.5 0.25

Total 26.50

rS

= 1− 6× 26,50

8(82 − 1),

= 1− 159

504,

≈ 1− 0,316 ,

≈ 0,684 .

Carlos Bustos-Lopez

Page 55: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 53

De la misma forma que el coeficiente de correlacion de Pearson (rXZ

= 0,75),

este nos indica que existe asociacion positiva entre las variables.

1.7.5. Correlacion de Punto Biserial (rpb).

Permite establecer la relacion entre una variable dicotomica (Nominal) y

una variable cuantitativa.

Su forma es la siguiente:

rpb

=(xA − xB)

σt

√nAnB

n(n− 1),

donde xA y xB corresponden a las medias de cada grupo, σt es la desviacion

estandar de todos los datos, nA y nB son los respectivos tamanos de los

grupos, y n es el total de observaciones.

Se utiliza para saber si las personas “adecuada” son las que obtienen las

respuestas correctas.

Ejemplo 1.7.7 Consideremos los datos de disminucion de grasa, en por-

centaje, segun si realizaron dieta o no.

Respuesta

SI 17 18 23 16 21 14 22 15

NO 11 10 17 23 13 20 18

En este caso debemos determinar las respectivas medias de cada grupo y

la desviacion estandar total.

Carlos Bustos-Lopez

Page 56: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 54

Los valores son: xS = 18,3, xN = 16,0 y σt = 4,13.

rpb =(18,3− 16,0)

4,13

√8× 7

15(15− 1),

=2,3

4,13

√56

210,

≈ 0,557×√

0,2667 ,

≈ 0,287 .

En este caso, aunque el valor de rpb

es mayor que cero, no es muy claro que

exista una relacion lineal entre la dieta y la disminucion de grasa.

1.7.6. Correlacion Phi (φ).

Permite relacionar dos variables dicotomicas del tipo nominal.

Sea la tabla bidimensional:

Variable 2

Atributo 1 Atributo 2 Total

Variable 1 Atributo 1 a b a + b

Atributo 2 c d c + d

Total a + c b + d

Entonces la forma del coeficiente esta dado por:

φ =a · d− b · c√w · x · y · z ,

donde w = a + c, x = b + d, y = a + b y z = c + d.

Ejemplo 1.7.8 Consideremos los datos de participacion en la empresa y

nivel de reconocimiento.

Carlos Bustos-Lopez

Page 57: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 55

Reconocimiento

Alto Bajo Total

Participacion Alta 16 12 28

Baja 34 88 122

Total 50 100

En este caso debemos determinar: w = 50, x = 100, y = 28, z = 122.

φ =16 · 88− 12 · 34√50 · 100 · 28 · 122

,

=1408− 408√

17080000,

≈ 1000

4132,796,

≈ 0,2420 .

Interpretacion:

Si el coeficiente resulta ser positivo, entonces los valores iguales estan

asociados entre sı, reflejando una relacion directa entre ambos atributos

de ambas variables.

Si el coeficiente resulta ser negativo, entonces existen relaciones opues-

tas entre los atributos de las variables.

Carlos Bustos-Lopez

Page 58: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 56

1.8. Ejercicios Resueltos

1. La siguiente tabla muestra las frecuencias de un grupo de trabajadores

segun su nivel educacional en una industria agricola.

Nivel educacional Numero de trabajadores

Educacion Basica 33

Educacion Media 45

Educacion Tecnico-Profesional 24

Educacion Universitaria 11

a) Determine el porcentaje de trabajadores que tienen solo educacion

media.

b) Determine el porcentaje de trabajadores que a lo mas tienen edu-

cacion media.

c) Determine el porcentaje de trabajadores que a lo menos tienen

educacion media.

d) Determine la mejor medida de tendencia central.

Des.

Primero completemos la tabla con las frecuencias relativas y acumu-

ladas.

Niveleducacional ni fi Ni Fi fi × 100% Fi × 100%

Educacion Basica 33 0,292 33 0,292 29,2% 29,2%

Educacion Media 45 0,398 78 0,690 39,8% 69,0%

Educacion Tecnico-Profesional 24 0,212 102 0,903 21,2% 90,3%

Educacion Universitaria 11 0,097 113 1,000 9,7% 100,0%

Total 113 1,000 100,0%

Carlos Bustos-Lopez

Page 59: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 57

Directamente desde la tabla se obtinen los resultados pedidos.

a) El 39,8 % de los trabajadores tiene solo educacion Basica.

b) En este caso necesitamos el porcentaje de trabajadores que a

lo mas tienen educacion media, es decir, son todos aquellos que

tienen solo educacion Basica (29,2 %) mas los que solo tienen ed-

ucacion media (39,8 %) que es igual a 69,0 % es el porcentaje de

trabajadores que tiene a lo mas educacion Media.

c) En este caso necesitamos los porcentajes de aquellos trabajadores

que tienen educacion Media (39,8 %) mas los que tienen educacion

Tecnico-Profesional (21,2 %) mas los con educacion Universitaria

(9,7 %), lo que es igual a 70,7 %.

d) La tabla resume los resultados para la variable X:Nivel educa-

cional de los trabajadores, que es una variable cualitativa ordi-

nal, ya que los resultados de la variable tienen un orden natu-

ral, por lo cual podemos determinar la mediana, en este caso es

Med(X) = Educacion Media.

2. Al entrevistar a 30 personas se obtuvo las siguientes preferencias de

colores para un determinado envase de desodorante, segun la tabla de

codigos.

Color Azul Verde Rojo Morado

Codigo 1 2 3 4

Carlos Bustos-Lopez

Page 60: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 58

1 1 1 2 3 3 1 1 2 3

2 2 3 3 1 1 3 4 3 4

2 3 1 4 2 3 1 1 2 2

a) Construya una tabla de frecuencias.

b) Determine el porcentaje de preferencias por el color Verde.

c) Determine el porcentaje de personas que prefieren el color Azul o

Verde.

d) Determine el color mas frecuente.

Des.

a) Sea X:Color preferido, de esta forma la variable es cualitativa

nominal.

Color ni fi

1 (Azul) 10 0,333

2 (Verde) 8 0,267

3 (Rojo) 9 0,300

4 (Morado) 3 0,100

Total 30 1,000

b) El 26,7 % de los entrevistados prefiere el color Verde.

c) Sumando los porcentajes de preferencias por Azul (33,3 %) y Verde

(26,7 %), el resultado es 60,0 %.

Carlos Bustos-Lopez

Page 61: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 59

d) En este caso la Moda corresponde al valor mas frecuente, en este

caso Mod(X) = Azul.

3. En una encuesta realizada a 25 Ingenieros en USA respecto a la op-

timizacion en el uso del cobre, se consulto ¿Cual cree usted que es la

mejor forma de utilizar el cobre?

Forma Combinado con oro Combinado con plata Puro lıquido Puro solido

Codigo 1 2 3 4

y los resultados son los siguientes:

2 4 2 1 2 1 1 1 2 2

3 2 1 2 4 4 4 1 3 2

4 1 2 2 2

a) Identifique y clasifique la variable en estudio.

b) Construya una tabla de frecuencias.

c) ¿Que proporcion de Ingenieros considera que debe ser utilizado

combinado con plata?

d) ¿Que porcentaje de Ingenieros cree que se puede utilizar mejor el

cobre en forma combinada?

e) ¿Que porcentaje de Ingenieros estima que se optimiza su uso en

cualquiera de sus estados puros?

Des.

a) Sea X:forma de uso del cobre. Cualitativa nominal.

Carlos Bustos-Lopez

Page 62: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 60

b) .

Codigo ni fi

1 7 0,280

2 11 0,440

3 2 0,080

4 5 0,200

Total 25 1,000

c) La proporcion de Ingenieros que considera que debe ser utilizado

combinado con plata es 11 de 25 o 11/25 = 0,44.

d) El porcentaje de Ingenieros que considera que se debe utilizar

combinado es la suma de los que consideran que debe ser utilizado

combinado con oro (28,0 %) con los que consideran que debe ser

utilizado combinado con plata (44,0 %) que es igual a un 72,0 %.

e) Al igual que en el caso anterior debemos sumar los porcentajes de

los que consideran que se optimiza su uso puro lıquido (8,0 %) con

el porcentaje de puro solido (20,0 %) que es igual a un 28,0 %.

4. La siguiente informacion corresponde a las notas obtenidas por un

grupo de alumnos de cierto curso.

Nota Numero de alumnos

1-3 15

3-5 38

5-7 12

Carlos Bustos-Lopez

Page 63: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 61

a) Determine y clasifique la variable de interes.

b) ¿Cual es la nota mas frecuente obtenida por los alumnos?

c) ¿Cual es la nota media obtenida por estos alumnos?

d) ¿Cuantos alumnos tienen una nota inferior a la nota mediana?

Determine el valor del valor mediano para la nota.

Des.

a) Sea X:Nota obtenida por un alumno. Cuantitativa Continua9. Con-

struimos la tabla de frecuencias:

marca de clase X ni fi Ni

xi

2 1− 3 15 0,230 15

4 3− 5 38 0,585 53

6 3− 7 12 0,185 65

Total 65 1,000

9Una variable continua siempre es cuantitativa, por lo cual es equivalente decir que una

variable es cuantitativa continua con solo decir que es una variable continua

Carlos Bustos-Lopez

Page 64: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 62

b) Necesitamos determinar la moda de la nota.

Mo(X) = LIi +

(ni − ni−1

(ni − ni−1) + (ni − ni+1)

)ai ,

= 3 +

(38− 15

(38− 15) + (38− 12)

)2 ,

= 3 +

(23

(23) + (28)

)2 ,

= 3 +

(23

51

)2 ,

= 3 +46

51,

= 3 + 0,90 ,

= 3,90 .

c) Como los datos estan tabulados necesitamos utilizar la marca de

clase (xi) para este calculo.

µX =1

65(2× 15 + 4× 38 + 6× 12) ,

=254

65,

= 3,91 .

d) Directamente de la definicion de mediana se puede concluir que

bajo este valor esta el 50 % de las observaciones, es decir, 65 ×(50 %/100 %) = 32,5 ≈ 33 alumnos. Para determinar el valor de

la mediana, realizamos el calculo previo de 65/2 = 32,5, que esta

Carlos Bustos-Lopez

Page 65: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 63

contenido en el segundo intervalo.

Me(X) = 3 +

(65× 50

100− 15

)2

38,

= 3 + (32,5− 15)2

38,

= 3 + 17,5× 2

38,

= 3 +35

38,

= 3 + 0,921 ,

= 3,921 .

5. La siguiente tabla muestra la oferta de precios para departamentos en

el centro de la ciudad.

UF Cantidad de departamentos

920-990 140

990-1050 350

1050-1200 300

1200-1400 160

a) ¿Cual es el precio medio de los departamentos?

b) ¿Cuantos departamentos tienen un precio inferior a 1150 UF?

c) Determine el valor modal de los departamentos.

d) ¿Cual es la variacion de los precios de los departamentos?

Des.

Sea X: precio de los departamentos en $UF.

Carlos Bustos-Lopez

Page 66: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 64

xi X ni fi Ni

955 920− 990 140 0,147 140

1050 990− 1050 350 0,368 490

1125 1050− 1200 300 0,316 790

1300 1200− 1400 160 0,168 950

Total 950 1,000

a)

µX =1

950(955× 140 + 1020× 350 + 1125× 300 + 1300× 160) ,

=1036200

950,

= 1090,74 UF .

b)

1150 = 1050 +

(α× 950

100− 490

)150

300,

(1150− 1050) =

(α× 950

100− 490

)150

300,

100× 300

150=

alpha× 950

100− 490 ,

200 + 490 =α× 950

100,

690× 100

950= α ,

α = 72,63 % .

Luego el 72,63 % de los departamentos tiene un precio inferior a

1150, entonces 950× (72,63 %/100 %) = 690 departamentos.

Carlos Bustos-Lopez

Page 67: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 65

c)

Mo(X) = 990 +

(350− 140

(350− 140) + (350− 300)

)60 ,

= 990 +

(210

210 + 50

)60 ,

= 990 +210

260× 60 ,

= 990 +12600

260,

= 990 + 48,46 ,

= 1038,46 UF .

d)

σ2X =

1

950

((140× 9552 + 350× 10202 + 300× 11252 + 160× 13002)− 950× 1090,742

),

=1

950(1141911000− 1130228060) ,

=11682940

950,

= 12297,83 (UF)2 ,

σX = 110,90 UF .

6. La siguiente tabla muestra el gasto anual en electricidad (en millones

de pesos) de 200 personas.

Carlos Bustos-Lopez

Page 68: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 66

Gasto anual Numero de personas

0.8-1.0 20

1.0-1.6 70

1.6-2.0

2.0-2.6 65

Total

a) Determine el gasto medio y su variacion.

b) ¿Cuantas personas gastan mas de $1800000, en electricidad al ano?

c) Determine el valor modal de gasto.

Des.

Sea X:gasto anual en electricidad, en millones de pesos. Primero com-

pletamos la tabla. Por enunciado el total de personas es 200, luego

sabemos que la suma de la columna de frecuencias observadas debe ser

200, por lo cual restamos al total las frecuencias que aparecen en la

tabla y obtenemos el valor faltante.

xi X ni fi Ni nixi

0,9 0,8− 1,0 20 0,100 20 18

1,3 1,0− 1,6 70 0,350 90 91

1,8 1,6− 2,0 45 0,225 135 81

2,3 2,0− 2,6 65 0,325 200 149,5

Total 200 1,000 339,5

Carlos Bustos-Lopez

Page 69: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 67

a)

µX =339,5

200= 1,70 millones de pesos.

b)

1,8 = 1,6 +

(α× 200

100− 90

)0,4

45,

1,8− 1,6 =

(α× 200

100− 90

)0,4

45,

0,2× 45

0,4=

α× 200

100− 90 ,

22,5 + 90 =α× 200

100,

α = 112,5× 100

200,

α = 56,25 % .

Luego el 56,25 % de las personas tiene un gasto inferior a 1.8 mil-

lones, entonces 100 %− 56,25 % = 43,75 % tiene un gasto superior

a 1.8 millones, ası 200× (43,75 %/100 %) = 87,5 ≈ 88 personas.

c)

Mo(X) = 1,0 +

(70− 20

(70− 20) + (70− 45)

)0,6 ,

= 1,0 +50

50 + 25× 0,6 ,

= 1,0 +50

75× 0,6 ,

= 1,0 + 0,4 ,

= 1,4 millones de pesos.

Carlos Bustos-Lopez

Page 70: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 68

7. En un estudio a 250 personas sobre su sueldo anual, se recopilo la

siguiente informacion, en millones de pesos:

Sueldo anual Numero de personas

1.5-2.5 27

2.5-3.5 19

3.5-4.5 15

4.5-5.5

Total

a) Determine el ingreso medio para estas personas.

b) Determine su variacion.

c) ¿Cuantas personas ganan menos de $3200000 anualmente?

d) Determine si el valor modal es superior al valor mediano.

Des.

Sea X: sueldo anual, en millones de pesos. Completamos la tabla de

frecuencias.

xi X ni fi Ni nixi nix2i

2,0 1,5− 2,5 27 0,108 27 54 108

3,0 2,5− 3,5 19 0,076 46 57 171

4,0 3,5− 4,5 25 0,100 71 100 400

5,0 4,5− 5,5 179 0,716 250 895 4475

Total 250 1,000 1106 5154

Carlos Bustos-Lopez

Page 71: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 69

a)

µX =1106

250= 4,42 millones de pesos.

b)

σ2X =

1

250

(5154− 250× 4,422

),

=269,9

250,

= 1,08 (millones de pesos)2 ,

σX = 1,34 millones de pesos.

c)

3,2 = 2,5 +

(α× 250

100− 27

)1,0

19,

α =

((3,2− 2,5)× 19

1,0+ 27

)100

250,

= (13,3 + 27)100

250,

= 16,12 % .

d) Para el valor modal, primero identificamos el intervalo con la may-

or frecuencia observada.

Mo(X) = 4,5 +

(179− 25

(179− 25) + (179− 0)

)1,0 ,

= 4,5 +154

154 + 179× 1,0 ,

= 4,5 +154

333,

= 4,5 + 0,46 ,

= 4,96 millones de pesos.

Carlos Bustos-Lopez

Page 72: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 70

Para el valor mediano, primero determinamos el valor 250/2 =

125, para encontrar el intervalo de la mediana.

Me(X) = 4,5 +

(250× 50

100− 71

)1,0

179,

= 4,5 + (125− 71)1,0

179,

= 4,5 + 0,30 ,

= 4,80 millones de pesos.

Efectivamente el valor modal es superior al valor mediano.

8. La siguiente tabla muestra el gasto mensual en locomocion de un grupo

de 30 familias expresado en miles de pesos.

Gasto mensual Numero de

(miles de pesos) familias

5-12 7

12-18 9

18-25

25-33 7

a) ¿Cual es el gasto mensual medio en locomocion de estas familias?

b) ¿Cuantas familias gastan mensualmente mas de $19000 en loco-

mocion?

c) ¿Cual es el gasto mas frecuente en locomocion?

Carlos Bustos-Lopez

Page 73: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 71

d) ¿Cual es la variabilidad respecto a la media del gasto en locomo-

cion?

e) ¿Cual es el monto de gasto mensual que deja por bajo este valor

al 75 % de los montos?

Des.

Sea X: gasto mensual en locomocion.

xi X ni fi Ni nixi nix2i

8,5 5− 12 7 0,233 7 59,5 505,75

15 12− 18 9 0,300 16 135 2025

21,5 18− 25 7 0,233 23 150,5 3235,75

29 25− 33 7 0,233 30 203 5887

Total 30 1,000 548 11653,5

a)

µX =548

30= 18,27 millones de pesos.

b)

19 = 18 +

(α× 30

100− 16

)7

7,

α = ((19− 18)1 + 16)100

30,

= 56,67 % .

Entonces el 56,67 % de las familias tienen un gasto inferior a

$19000 mensuales en locomocion, ası el (100 %−56,67 %) = 43,33 %

Carlos Bustos-Lopez

Page 74: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 72

tienen un gasto superior, es decir, 30 × (43,33 %/100 %) = 13 fa-

milias.

c)

Mo(X) = 12 +

(9− 7

(9− 7) + (9− 7)

)6 ,

= 12 +2

2 + 26 ,

= 12 + 3 ,

= 15 miles de pesos.

d)

σ2X =

1

30(11653,5− 30× 18,272) =

1639,71

30= 54,66 (miles de pesos)2

e)

P75 = 18 +

(30× 75

100− 16

)7

7,

= 18 + (22,5− 16) ,

= 24,5 miles de pesos.

9. En una encuesta realizada a 200 personas sobre su edad se registraron

los siguientes resultados.

Edad Numero de personas

18-21 16

21-27 42

27-30

30-35 25

Carlos Bustos-Lopez

Page 75: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 73

a) Determine la edad media de los entrevistados.

b) Determine si la edad mediana es superior a la edad mas frecuentes.

c) Determine la variabilidad respecto a la media de las edades para

estos entrevistados.

d) ¿Cuantas personas de las entrevistadas tienen entre 25 y 31 anos?

Des.

Sea X: edad, en anos.

xi X ni fi Ni nixi nix2i

19,5 18− 21 16 0,080 16 312 6084

24 21− 27 42 0,210 58 1008 24192

28,5 27− 30 117 0,585 175 3334,5 95033,25

32,5 30− 35 25 0,125 200 812,5 26406,25

Total 200 1,000 5467 151715,5

a)

µX =5467

200= 27,34 anos.

b)

Me(X) = 27 +

(200× 50

100− 58

)3

117,

= 27 + (100− 58)3

117,

= 27 + 1,08 ,

= 28,08 anos.

Carlos Bustos-Lopez

Page 76: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 74

Mo(X) = 27 +

(117− 42

(117− 42) + (117− 25)

)3 ,

= 27 +75

75 + 923 ,

= 27 + 1,35 ,

= 28,35 anos.

Entonces, se puede observar que la edad mediana no es mayor a

la edad mas frecuente.

c)

σ2X =

1

200(151715,5− 200× 27,342) =

2220,38

200= 11,10 (anos)2 ,

σX = 3,33 anos.

d) Primero determinaremos el porcentaje de personas que se encuen-

tra en el intervalo, para ello determinaremos el porcentaje de per-

sonas que estan por bajo los 31 anos y luego lo restaremos con

el porcentaje que deja por bajo los 25 anos, para posteriormente

determinar la cantidad de personas.

31 = 30 +

(α× 200

100− 175

)5

25,

α =

((31− 30)

25

5+ 175

)100

200,

= 180× 100

200,

= 90 % .

Carlos Bustos-Lopez

Page 77: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 75

25 = 21 +

(α× 200

100− 16

)6

42,

α =

((25− 21)

42

6+ 16

)100

200,

= (28 + 18)100

200,

= 22 % .

Entonces, el porcentaje de personas que tiene entre 25 y 31 anos

es 90 % − 22 % = 68 %, ası la cantidad de personas es 200 ×(68 %/100 %) = 136 personas.

10. La siguiente tabla resume a un grupo de profesionales jovenes respecto

a la cantidad de dinero que gastan en diversion mensualmente, en miles

de pesos.

Gasto mensual numero de jovenes

5-15 91

15-28 105

28-32 70

32-50 56

a) ¿Cuale es el gasto promedio de dinero en diversion?

b) ¿Cuantos jovenes gastas mas de $30000 mensuales en diversion?

c) ¿Cual es el maximo que gasta el 75% de los entrevistados que

menos gasta?

d) Determine el coeficiente de variacion para estos jovenes?

Carlos Bustos-Lopez

Page 78: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 76

Des.

Sea X: cantidad de dinero que gastan en diversion, en miles de pesos.

xi X ni fi Ni nixi nix2i

10 5− 15 91 0,283 91 910 9100

21,5 15− 28 105 0,326 196 2257,5 48536,25

30 28− 32 70 0,217 266 2100 63000

41 32− 50 56 0,174 322 2296 94136

Total 322 1,000 7563,5 214772,25

a)

µX =7563,5

322= 23,49 miles de pesos.

b)

30 = 28 +

(α× 322

100− 196

)4

70,

α =

((30− 28)

70

4+ 196

)100

322,

= (35 + 196)100

322,

= 71,74 % .

Entonces, el 71,74 % de los entrevistados gasta menos de $30000 al

mes en diversion, ası el 28,26 % gasta mas de $30000 en diversion,

y estos son 322× (28,26 %/100 %) = 91 jovenes.

Carlos Bustos-Lopez

Page 79: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 77

c)

P75 = 28 +

(75× 322

100− 196

)4

70,

= 28 + (241,5− 196)4

70,

= 28 + 2,6 ,

= 30,6 miles de pesos.

d)

σ2X =

1

322(214772,25− 322× 23,492) ,

=37099,06

322,

= 115,21 (miles de pesos)2 ,

σX = 10,73 miles de pesos.

C.V.(X) =10,73

23,49× 100 % = 45,7 % .

11. Las utilidades en millones de pesos que tienen dos empresas, estan

relacionadas con el numero de proyectos que realizan anualmente, la

siguiente tabla muestra las utilidades de los ultimos anos de ambas

empresas.

Carlos Bustos-Lopez

Page 80: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 78

Utlidades Numero de Proyectos

millones de $ Empresa 1 Empresa 2

4.5-6.0 40 35

6.0-7.8 81 16

7.8-9.0 82 20

9.0-10.2 38 45

a) ¿En que empresa la utilidad presenta una mayor variabilidad re-

specto a la media?

b) ¿Cual es la cantidad de proyectos que presentan una utlidad menor

a $8000000 anual?

c) ¿Cual es el monto maximo de utilidad que presentan la mayoria

de los proyectos de la empresa 2?

d) Si la empresa 1 aumentara en un 7% sus utilidades, y la empresa

2 disminuye en un 6%, pero lo intenta compensar aumentando en

3 proyectos adicionales, ¿Cuales serıan los nuevos coeficientes de

variacion para las empresas?

Des.

Sea Ei: utilidades de la empresa i = 1, 2.

Carlos Bustos-Lopez

Page 81: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 79

e1i E1 n1i f1i N1i n1ie1i n1ie21i n2i f2i N2i n2ie2i n2ie

22i

5,25 4,5− 6,0 40 0,166 40 210 1102,5 35 0,302 35 183,75 964,69

6,90 6,0− 7,8 81 0,336 121 558,9 3856,41 16 0,138 51 110,4 761,76

8,40 7,8− 9,0 82 0,340 203 688,8 5785,92 20 0,172 71 168 1411,2

9,60 9,0− 10,2 38 0,158 241 364,8 3502,08 45 0,388 116 432 4147,2

Total 241 1,000 1822,5 14246,91 116 1,000 794,15 7284,85

a)

µE1 =1822,5

241,

= 7,56 millones de pesos.

µE2 =794,15

116,

= 6,85 millones de pesos.

σ2E1

=1

241

(14246,91− 241× 7,562

),

=472,89

241,

= 1,96 (millones de pesos)2 : .

σ2E2

=1

116

(7284,85− 116× 6,852

),

=1841,84

116,

= 15,88 (millones de pesos)2 .

La empresa 2 presenta una mayor variabilidad en sus utilidades.

b) Sea E: utilidad de las empresas, en millones de pesos.

Carlos Bustos-Lopez

Page 82: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 80

ei E ni fi Ni

5,25 4,5− 6,0 75 0,210 75

6,90 6,0− 7,8 97 0,272 172

8,40 7,8− 9,0 102 0,286 274

9,60 9,0− 10,2 83 0,232 357

Total 357 1,000

8,0 = 7,8 +

(α× 357

100− 172

)1,2

102,

α =

((8,0− 7,8)

102

1,2+ 172

)100

357,

α = (17 + 172)100

357,

α = 52,94 % .

Entonces el 52,94 % de los proyectos tienen una utilidad menor

a 8.0 millones de pesos, es decir, 357 × (52,94 %/100 %) = 189

proyectos.

c)

Me(E2) = 7,8 +

(116× 50

100− 51

)1,2

20,

= 7,8 + (58− 51)1,2

20,

= 7,8 + 0,42 ,

= 8,22 millones de pesos.

d) Determinemos los respectivos coeficientes de variacion (CV )para

Carlos Bustos-Lopez

Page 83: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 81

cada empresa.

C.V.(E1) =

√1,96

7,56100% = 18,5 % , C.V.(E2) =

√15,88

6,82100% = 58,2% .

Por propiedades de la varianza y la media se tiene que luego de

los ajustes los nuevos coeficientes de variacion para las empresas

son:

C.V.(E1) =(1 + 0,07)

√1,96

(1 + 0,07)× 7,56100% =

1,07√

1,96

1,07× 7,56100% =

√1,96

7,56100% = 18,5% ,

C.V.(E2) =(1− 0,06)

√15,88

(1− 0,06)× 6,82 + 3100% =

0,94√

15,88

0,94× 6,82 + 3100% =

3,74

9,41100% = 39,7% .

12. La siguiente tabla muestra la distribucion del nivel de ingresos, en mil-

lones de pesos, de un grupo de Profesionales segun su sexo.

Sueldo mensual Sexo

(millones de pesos) Hombres Mujeres

0.4-0.6 2 3

0.6-0.8 8 2

0.8-1.2 9 4

1.2-1.5 10 6

1.5-1.8 5 3

1.8-2.0 2 1

a) ¿Cuales son los ingresos medios de hombres y mujeres?

b) ¿Que cantidad de mujeres tiene un ingreso entre $650000 y $1250000?

c) Comparativamente, ¿Quienes tiene sueldos mas homogeneos?

Carlos Bustos-Lopez

Page 84: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 82

d) ¿El sueldo mas frecuente de los hombres es mayor al mas frecuente

de las mujeres?

e) Si el sueldo de los hombres aumentara en un 3%, y el de las mu-

jeres fuera reajustado en un 5% mas un bono mensual de $10000.

¿Quienes tendrıan un sueldo medio superior?

Des.

Sean X: sueldo mensual, en miles de pesos, H: Hombres y M : Mujeres.

Hombres

xi X ni fi Ni nixi nix2i

0,5 0,4− 0,6 2 0,056 2 1,0 0,5

0,7 0,6− 0,8 8 0,222 10 5,6 3,92

1,0 0,8− 1,2 9 0,250 19 9 9

1,35 1,2− 1,5 10 0,278 29 13,5 18,23

1,65 1,5− 1,8 5 0,139 34 8,25 13,61

1,9 1,8− 2,0 2 0,056 36 3,8 7,22

Total 36 1,000 41,15 52,48

Mujeres

xi X ni fi Ni nixi nix2i

0,5 0,4− 0,6 3 0,158 3 1,5 0,75

0,7 0,6− 0,8 2 0,105 5 1,4 0,98

1,0 0,8− 1,2 4 0,211 9 4 4

1,35 1,2− 1,5 6 0,316 15 8,1 10,94

1,65 1,5− 1,8 3 0,158 18 4,95 8,17

1,9 1,8− 2,0 1 0,053 19 1,9 3,61

Total 19 1,000 21,75 28,45

a)

µH =41,15

36= 1,143 millones de pesos.

µM =21,75

19= 1,145 millones de pesos.

Carlos Bustos-Lopez

Page 85: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 83

b)

1,25 = 1,2 +

(α× 19

100− 9

)0,3

6,

α =

((1,25− 1,2)

6

0,3+ 9

)100

19,

= (1 + 9)100

19,

= 52,63 % .

0,65 = 0,6 +

(α× 19

100− 3

)0,2

2,

α =

((0,65− 0,6)

2

0,2+ 3

)100

19,

= (0,5 + 3)100

19,

= 18,42 % .

Entonces, El porcentaje de mujeres que esta en el intervalo es

52,63 %−18,42 % = 34,21 %, es decir, hay 19×(34,21 %/100 %) =

6,5 ≈ 7 mujeres.

c)

σ2H =

1

36(52,48− 36× 1,1432) =

5,448

36= 0,151 (millones de pesos)2 ,

σH = 0,389 millones de pesos.

σ2M =

1

19(28,45− 19× 1,1452) =

3,541

19= 0,186 (millones de pesos)2 ,

σH = 0,431 millones de pesos.

C.V.(H) =0,389

1,143100 % = 34,0 % , C.V.(M) =

0,431

1,145100 % = 37,6 .

Carlos Bustos-Lopez

Page 86: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 84

d)

Mo(X)H = 1,2 +

(10− 9

(10− 9) + (10− 5)

)0,3 ,

= 1,2 +1

1 + 50,3 ,

= 1,2 + 0,05 ,

= 1,25 millones de pesos.

Mo(X)M = 1,2 +

(6− 4

(6− 4) + (6− 3)

)0,3 ,

= 1,2 +2

2 + 30,3 ,

= 1,2 + 0,2 ,

= 1,4 millones de pesos.

Entonces, como se puede observar el sueldo mas frecuente de los

varones no es superior al sueldo mas frecuente de las damas.

e)

µH = (1 + 0,03)1,143 = 1,03× 1,143 = 1,177 millones de pesos. ,

µM = (1 + 0,05)1,145 + 0,01 = 1,05× 1,145 + 0,01 = 1,212 millones de pesos.

13. Las demanda mensual de cajas (X) de cierto producto en los superme-

rcados de dos comunas se resume en la siguiente tabla.

Carlos Bustos-Lopez

Page 87: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 85

Cantidad (X) Comuna A Comuna B

30-70 12 5

70-100 21 8

100-130 36 19

130-150 29 10

a) Determine las demandas mas frecuentes para ambas comunas.

b) ¿Es mayor la demanda promedio de la Comuna A comparado con

la Comuna B de este producto?

c) Determine la cantidad de demanda mınima de 25 % de las mayores

demandas.

d) ¿Que comuna tiene una demanda mas homogenea?

e) Si para el proximo mes se determina que la comuna B tendra un

crecimiento en su poblacion, que involucrara un aumento en la

demanda de este producto en un 15%, en cambio la comuna A

disminuira su consumo en un 5% menos 7 cajas. ¿Cuales serıan

las nuevas demandas medias?

Des.

Carlos Bustos-Lopez

Page 88: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 86

xi X A B Total Ni

50 30− 70 12 5 17 17

85 70− 100 21 8 29 46

115 100− 130 36 19 55 101

140 130− 150 29 10 39 140

Total 98 42 140

a)

Mo(X|A) = 100 +

(36− 21

(36− 21) + (36− 29)

)30 ,

= 100 +15

15 + 730 ,

= 100 + 20,45 ,

= 120,45 cajas mensuales.

Mo(X|B) = 100 +

(19− 8

(19− 8) + (19− 10)

)30 ,

= 100 +11

11 + 930 ,

= 100 + 16,50 ,

= 116,50 cajas mensuales.

b)

µX|A =50× 12 + 85× 21 + 115× 36 + 140× 29

98=

10585

98= 108,01 cajas mensuales.

µX|B =50× 5 + 85× 8 + 115× 19 + 140× 10

42=

4515

42= 107,50 cajas mensuales.

Carlos Bustos-Lopez

Page 89: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 87

Efectivamente, la Comuna A tiene una mayor demanda media de

cajas mensuales de este producto en comparacion a la Comuna B.

c)

P75 = 130 +

(140× 75

100− 101

)20

39,

= 130 + (105− 101)20

39,

= 130 + 2,05 ,

= 132,05 cajas mensuales.

La maxima demanda de cajas del 75 % de las demandas inferiores

es 132,05 ≈ 132, entonces este valor tambien corresponde a la

demanda mınima del 25 % de las mayores demandas.

d)

σ2X|A =

1

98

((502 × 12 + 852 × 21 + 1152 × 36 + 1402 × 29)− 98× 108,012

),

=1

98(1226225− 1143283,69) ,

=82941,31

98,

= 846,34 (cajas mensuales)2 ,

σX|A = 29,09 cajas mensuales.

Carlos Bustos-Lopez

Page 90: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 88

σ2X|B =

1

42

((502 × 5 + 852 × 8 + 1152 × 19 + 1402 × 10)− 42× 107,502

),

=1

42(517575− 485362,50) ,

=32212,50

42,

= 766,96 (cajas mensuales)2 ,

σX|B = 27,69 cajas mensuales.

C.V.(X|A) =29,09

108,01100 % = 26,9 % C.V.(X|B) =

27,69

107,50100 % = 25,8 % .

La Comuna B tiene una demanda mas homogenea en comparacion

a la Comuna A.

e)

µX|A = (1− 0,05)× 108,01− 7 = 95,61 cajas mensuales.

µX|B = (1 + 0,15)× 107,50 = 123,63 cajas mensuales.

14. En una encuesta realizada a 800 familias, se les consulta sobre dos

puntos: si estan inscritos en los registros electorales y sobre el nivel de

ingresos, de donde se obtiene la siguiente tabla.

Carlos Bustos-Lopez

Page 91: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 89

Nivel de Inscripcion

Ingresos en registros Total

(miles de pesos) SI NO

100-400 120 320

400-700 150 240

700-1000 210

Total

a) ¿Es superior el ingreso medio de las familias inscritas en los reg-

istros electorales que las no inscritas?

b) ¿Cuantas familias no inscritas en los registros electorales tienen

un ingreso superior a 500 mil?

c) ¿Son mas homogeneas los ingresos de las familias inscritas en los

registros electores que las no inscritas?

Des.

Y

xi X SI NO Total

250 100− 400 120 200 320

550 400− 700 90 150 240

850 700− 1000 210 30 240

Total 420 380 800

Carlos Bustos-Lopez

Page 92: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 90

a)

µX|Y =SI =250× 120 + 550× 90 + 850× 210

420=

258000

420= 614,29 miles de pesos.

µX|Y =NO =250× 200 + 550× 150 + 850× 30

380=

158000

380= 415,79 miles de pesos.

El ingreso medio de las familias que estan inscritas en los registros

electorales es mayor que las familas no inscritas.

b)

500 = 400 +

(α× 380

100− 200

)300

150

α =

((500− 400)

150

300+ 200

)100

380

= 250100

380

= 65,79

El 65,79 % de las familias no inscritas en los registros electorales

tiene un ingreso menor a $500000, entonces, el 34,21 % tiene un

ingreso superior, es decir, 380× (34,21 %/100 %) = 130 familias.

c)

σ2X|Y =SI =

1

420

((2502 × 120 + 5502 × 90 + 8502 × 210)− 420× 614,292

),

=1

420(186450000− 158487925,7) ,

=27962074,28

420,

= 66576,37 (miles de pesos)2 ,

σX|Y =SI = 258,02 miles de pesos.

Carlos Bustos-Lopez

Page 93: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 91

σ2X|Y =NO =

1

380

((2502 × 200 + 5502 × 150 + 8502 × 30)− 380× 415,792

),

=1

380(79550000− 65694903,16) ,

=13855096,84

380,

= 36460,78 (miles de pesos)2 ,

σX|Y =NO = 190,95 miles de pesos.

C.V.(X|Y = SI) =258,02

614,29100 % = 42,0 % C.V.(X|Y = NO) =

190,95

415,79100 % = 45,9 % .

Las familias inscritas en los registros electorales tienen sueldos

mas homogeneos que las familias no inscritas en los registros elec-

torales.

15. El siguiente cuadro muestra el numero de horas semanales dedicadas

al estudio de un grupo de alumnos y la nota final que obtuvieron al

termino del curso.

Horas de estudio Nota final

1-3 3-5 5-7

0-2 3 1 4

2-4 5 5 6

4-6 6 4 9

6-8 1 4 7

a) Determine el numero medio de horas de estudio y de nota final.

Carlos Bustos-Lopez

Page 94: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 92

b) ¿Cual es la cantidad de horas de estudios mas frecuente de este

grupo de estudiantes?

c) ¿Cuantos de estos estudiantes aprobaron el curso?

d) Determine la nota mınima que obtuvo el 50% de los mejores alum-

nos.

e) ¿Cuantas horas en promedio estudiaron aquellos alumnos que ob-

tuvieron una nota superior a 5.0?

f ) ¿Que nota obtuvieron los alumnos que estudiaron menos de 4

horas?

g) Determine si los alumnos son mas parecidos respecto a las horas

que estudian en comparacion a la nota final que obtuvieron.

h) Determine el tipo y fuerza de asociacion entre las variables.

Des.

Y

yi 2 4 6

xi X 1− 3 3− 5 5− 7 Total

1 0− 2 3 1 4 8

3 2− 4 5 5 6 16

5 4− 6 6 4 9 19

7 6− 8 1 4 7 12

Total 15 14 26 55

Carlos Bustos-Lopez

Page 95: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 93

a)

µX =1× 8 + 3× 16 + 5× 19 + 4× 12

55,

=235

55,

= 4,27 horas.

µY =2× 15 + 4× 14 + 6× 26

55,

=242

55,

= 4,40 .

b)

Mo(X) = 4 +

(19− 16

(19− 16) + (19− 12)

)2 ,

= 4 +3

3 + 72 ,

= 4 + 0,6 ,

= 4,6 horas.

c)

4 = 3 +

(α× 55

100− 15

)2

14,

α =

((4− 3)

14

2+ 15

)100

55,

α = 22100

55,

= 40 % .

Como el 40 % de las observaciones tiene una nota final inferior

Carlos Bustos-Lopez

Page 96: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 94

a 4.0, entonces el 60 % tiene una nota superior a 4.0, es decir,

55× (60 %/100 %) = 33 alumnos aprobaron el curso.

d)

P50 = 3 +

(50× 55

100− 15

)2

14,

= 3 + (27,5− 15)2

14,

= 3 + 1,79 ,

= 4,79 .

e) .

xi X|Y > 5

1 0− 2 4

3 2− 4 6

5 4− 6 9

7 6− 8 7

Total 26

µX|Y >5 = 1×4+3×6+5×9+7×726

= 11626

= 4,46 horas.

f ) .

xi Y |X < 4

2 1− 3 3 + 5 = 8

4 3− 5 1 + 5 = 6

6 5− 7 4 + 6 = 10

Total 24

µY |X<4 = 2×8+4×6+6×1024

= 10024

= 4,17

Carlos Bustos-Lopez

Page 97: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 95

g)

σ2X =

1

55

((12 × 8 + 32 × 16 + 52 × 19 + 72 × 12)− 55× 4,272

),

=1

55(1215− 1002,81) ,

= 3,86 (horas)2 ,

σX = 1,96 horas.

σ2Y =

1

55

((22 × 15 + 42 × 14 + 62 × 26)− 55× 4,402

),

=1

55(1220− 1064,80) ,

= 2,82 ,

σY = 1,68 .

C.V.(X) =1,96 horas

4,27 horas100 % = 45,9 % C.V.(Y ) =

1,68

4,40100 % = 38,2 % .

Como el C.V.(X) > C.V.(Y ) los alumnos son mas homogeneos en

la nota que obtuvieron que en las horas de estudio.

h)

σXY =1

55((1× 3× 2 + 1× 1× 4 + 1× 4× 6 + 3× 5× 2 + 3× 5× 4 + 3× 6× 6 ,

+5× 6× 2 + 5× 4× 4 + 5× 9× 6 + 7× 1× 2 + 7× 4× 4 + 7× 7× 6) ,

−55× 4,27× 4,40) ,

=1

55(1062− 55× 4,27× 4,40) ,

=28,66

55,

= 0,52 ,

rXY =0,52

1,96× 1,68= 0,158 .

Carlos Bustos-Lopez

Page 98: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 96

Las variables tienen una baja asociacion lineal directa.

16. El Subgerente de refrigeracion y aire acondicionado de una empresa,

debe decidir entre instalar calefactores a parafina o a gas, en las nuevas

dependencias de bodega. Con el proposito de tomar una decision in-

teligente, solicito la siguiente informacion.

Antecedentes Parafina (P) Gas (G)

Numero de calefactores 4 2 5 6 3 3 2 3 4 1

Precio de calefactores (US$) 90 85 91 100 95 93 112 86 95 98

Importados (I) 3 1 3 4 2 3 1 1 2 0

Nacionales (N) 1 1 2 2 1 0 1 2 2 1

a) ¿Es el precio medio de los calefactores a Parafina superior al de

los a Gas?

b) Determine de los calefactores nacionales, si el precio mediano de

los a Parafina es superior a los de Gas.

c) ¿Es el precio medio de los calefactores a Parafina nacioanales

menor al de los importados?

d) ¿Cuales calefactores tienen precios mas homogeneos, los nacionales

a Gas o los nacionales a Parafina?

e) ¿Cual es precio mas comun de los calefactores nacionales a Gas?

Des.

a)

µP =4× 90 + 2× 85 + 5× 91 + 6× 100 + 3× 95

20=

1870

20= 93,5 US$ ,

µG =3× 93 + 2× 112 + 3× 86 + 4× 95 + 1× 98

13=

1239

13= 95,31 US$ .

Carlos Bustos-Lopez

Page 99: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 97

En este caso el precio medio de los calefactores a Gas es superior

al precio medio de los calefactores a Parafina.

b) .

P |N85 1 1

90 1 2

91 2 4

95 1 5

100 2 7

G|N86 2 2

93 0 2

95 2 4

98 1 5

112 1 6

Me(P |N) = 91 US$ Med(G|N) = 95 US$ .

En este caso el pecio mediano de los calefactores nacionales a

Gas es superior al precio mediano de los calefactores nacionales a

Parafina.

c) .

N |P I|P85 1 1

90 1 3

91 2 3

95 1 2

100 2 4

Total 7 13

µN |P = 85×1+90×1+91×2+95×1+100×27

,

= 6527

,

= 93,14 US$ ,

µI|P = 85×1+90×3+91×3+95×2+100×413

,

= 121813

,

= 93,69 US$ .

Carlos Bustos-Lopez

Page 100: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 98

Efectivamente el precio medio de los calefactores a Parafina Na-

cionales es menor al precio medio de los calefactores a Parafina

Importados.

d) Utilizando las resultados de b) y c), se tienen:

µP |N = 93,14 US$ ,

µG|N =86× 2 + 93× 0 + 95× 2 + 98× 1 + 112× 1

6=

572

6= 95,33 US$ .

σ2P |N =

1

7

((852 × 1 + 902 × 1 + 912 × 2 + 952 × 1 + 1002 × 2)− 7× 93,142

),

=1

7(60912− 60725,42) ,

= 26,65 (US$)2 ,

σP |N = 5,76 US$ .

σ2G|N =

1

6

((862 × 2 + 932 × 0 + 952 × 2 + 982 × 1 + 1122 × 1)− 6× 95,332

),

=1

6(54990− 54526,85) ,

= 77,19 (US$)2 ,

σG|N = 8,79 US$ .

C.V.(P |N) =5,76 US$

93,14 US$100 % = 5,5 % , C.V.(G|N) =

8,79 US$

95,33 US$100 % = 9,2 % .

Los calefactores Nacionales a Parafina tienen precios mas homogeneos

que los calefactores Nacionales a Gas.

e)

Mo1(G|N) = 86 US$ , Mo2(G|N) = 95 US$ .

Carlos Bustos-Lopez

Page 101: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 99

17. La siguiente tabla muestra los ingresos mensuales (X), en miles de

pesos, y el nivel educacional (Y) de un grupo de empleados de una

empresa de asesoria computacional.

X Y

Media (M) Tecnico-Profesional (TP) Universitaria(U)

150-350 9 12 3

350-600 8 15 5

600-1100 2 7 5

a) ¿Cual es el sueldo mas frecuente de estos empleados?

b) ¿Cual es el sueldo promedio de estos empleados?

c) ¿Cual es el sueldo medio de los empleados con eduacion Universi-

taria?

d) ¿Cual sueldo es mas homogeneo respecto al nivel educacional?

Des.

Y

xi X M TP U Total

250 150− 350 9 12 3 24

475 350− 600 8 15 5 28

850 600− 1100 2 7 5 14

Total 19 34 13 66

Carlos Bustos-Lopez

Page 102: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 100

a)

Mo(X) = 350 +

(28− 24

(28− 24) + (28− 14)

)250 ,

= 350 +4

4 + 14250 ,

= 350 + 55,56 ,

= 405,56 miles de pesos.

b)

µX =250× 24 + 475× 28 + 850× 14

66,

=31200

66,

= 472,73 miles de pesos.

c)

µX|Y =U =250× 3 + 475× 5 + 850× 5

13=

7375

13= 567,31 miles de pesos.

d)

µX|Y =M =250× 9 + 475× 8 + 850× 2

19=

7750

19= 407,89 miles de pesos.

µX|Y =TP =250× 12 + 475× 15 + 850× 7

34=

16075

34= 472,79 miles de pesos.

σ2X|Y =M =

1

19

((2502 × 9 + 4752 × 8 + 8502 × 2)− 19× 407,892

),

=1

19(3812500− 3161110,79) ,

= 34283,64 (miles de pesos)2 ,

σX|Y =M = 185,16 miles de pesos.

Carlos Bustos-Lopez

Page 103: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 101

σ2X|Y =TP =

1

34

((2502 × 12 + 4752 × 15 + 8502 × 7)− 34× 472,792

),

=1

34(9191875− 7600033,06) ,

= 46818,89 (miles de pesos)2 ,

σX|Y =TP = 216,38 miles de pesos.

σ2X|Y =U =

1

13

((2502 × 3 + 4752 × 5 + 8502 × 5)− 13× 567,312

),

=1

13(4928125− 4183928,27) ,

= 57245,90 (miles de pesos)2 ,

σX|Y =M = 239,26 miles de pesos.

C.V.(M) = 185,16407,89

100 % = 45,4 % , C.V.(TP ) = 216,38472,79

100 % = 45,8 % , C.V.(U) = 239,26567,31

100 % = 42,2 % .

Los empleados con educacion Universitaria tienen sueldos mas ho-

mogeneos, en comparacion a los otros trabajadores.

18. Una empresa dedicada a la venta de departamentos en la Quinta region,

resume en la siguiente tabla los valores de departamentos segun sus

contribuciones.

Carlos Bustos-Lopez

Page 104: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 102

Precio de venta (X) Contribuciones en miles de pesos (Y)

(millones de pesos) 50-100 100-200 200-300 300-400

10-15 10 4 3 1

15-20 3 6 1 3

20-30 4 3 5 7

30-40 0 2 5 2

40-50 0 1 6 9

a) ¿Cual es el precio y monto de contribuciones promedio de estos

departamentos?

b) ¿Que porcentaje de departamentos tiene un precio de venta a lo

menos de 30 millones y sus contribuciones son superiores a los 200

mil?

c) ¿Cual es el valor mas frecuente de los departamentos que pagan

contribuciones entre los 100 y 300 mil?

d) Calcule el coeficiente de asociacion lineal para las variables en

estudio e interprete.

Des.

Carlos Bustos-Lopez

Page 105: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 103

Y

yi 75 150 250 350

xi X 50− 100 100− 200 200− 300 300− 400 Total

12,5 10− 15 10 4 3 1 18

17,5 15− 20 3 6 1 3 13

25 20− 30 4 3 5 7 19

35 30− 40 0 2 5 2 9

45 40− 50 0 1 6 9 16

Total 17 16 20 22 75

a)

µX =12,5× 18 + 17,5× 13 + 25× 19 + 35× 9 + 45× 16

75,

=1764,5

75= 23,53 millones de pesos.

µY =75× 17 + 150× 16 + 250× 20 + 350× 22

75,

=16375

75= 218,33 miles de pesos.

b)

5 + 2 + 6 + 9

75100 % =

22

75100 % = 29,3 % .

c) .

Carlos Bustos-Lopez

Page 106: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 104

xi X|100 < Y < 300

12,5 10− 15 4 + 3 = 7

17,5 15− 20 6 + 1 = 7

25 20− 30 3 + 5 = 8

35 30− 40 2 + 5 = 7

45 40− 50 1 + 6 = 7

Total 26

Mo(X|100 < Y < 300) = 20 +

(8− 7

(8− 7) + (8− 7)

)10 ,

= 20 +1

1 + 110 ,

= 25 millones de pesos.

d)

σXY =1

75((12,5× 10× 75 + 12,5× 4× 150 + 12,5× 3× 250 + 12,5× 1× 350

+17,5× 3× 75 + 17,5× 6× 150 + 17,5× 1× 250 + 17,5× 3× 350

+25× 4× 75 + 25× 3× 150 + 25× 5× 250 + 25× 7× 350

+35× 0× 75 + 35× 2× 150 + 35× 5× 250 + 35× 2× 350

+45× 0× 75 + 45× 1× 150 + 45× 6× 250 + 45× 9× 350)

−75× 23,53× 218,33) ,

=1

75(479062,5− 75× 23,53× 218,33) ,

=93764,63

75,

= 1250,20 .

Carlos Bustos-Lopez

Page 107: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 105

σ2X =

1

75

`(12,52 × 18 + 17,52 × 13 + 252 × 19 + 352 × 9 + 452 × 16)− 17× 23,532

´,

=1

75(62093,75− 41524,57) ,

=20569,18

75,

= 274,26 (millones de pesos)2 ,

σX = 16,56 millones de pesos.

σ2Y =

1

75

`(752 × 17 + 1502 × 16 + 2502 × 20 + 3502 × 22)− 75× 218,332

´,

=1

75(4400625− 3575099,17) ,

=825525,83

75,

= 11007,01 (miles de pesos)2 ,

σY = 104,91 miles de pesos.

rXY =1250,20

16,56× 104,91= 0,720 .

En este caso existe una mediana asociacin lineal directa entre las variables.

19. En un curso de 50 alumnos, 15 de ellos obtuvieron una nota final menor

a 3.5 y solo 4 de ellos una nota superior a 6.2.

a) Determine la nota media y su variabilidad.

b) ¿Supera la nota mediana a la mas frecuente?

c) ¿Cuantos alumnos aprobaron el curso?

Des.

Carlos Bustos-Lopez

Page 108: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 106

xi X ni Ni

2,25 1,0− 3,5 15 15

4,85 3,5− 6,2 31 46

6,6 6,2− 7,0 4 50

Total 50

a)

µX =2,25× 15 + 4,85× 31 + 6,6× 4

50=

210,5

50= 4,21 ,

σ2X =

1

50

((2,252 × 15 + 4,852 × 31 + 6,62 × 4)− 50× 4,212

),

=1

50(979,38− 886,21) ,

=93,17

50,

= 1,86 .

b)

Me(X) = 3,5 +

(50× 50

100− 15

)2,7

31,

= 3,5 + (25− 15)2,7

31,

= 3,5 + 0,87 ,

= 4,37 ,

Mo(X) = 3,5 +

(31− 15

(31− 15) + (31− 4)

)2,7 ,

= 3,5 +16

16 + 272,7 ,

= 3,5 + 1,0 ,

= 4,5 .

Carlos Bustos-Lopez

Page 109: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 107

Como se puede observar la nota mediana es menor a la nota mas

frecuente.

c)

4,0 = 3,5 +

(α× 50

100− 15

)2,7

31,

α =

((4,0− 3,5)

31

2,7+ 15

)100

50,

= (5,74 + 15)100

50,

= 41,48 % .

El 41,48 % de los alumnos obtuvo una nota inferior a 4,0, entonces,

el 58,52 % tiene aprobaron el curso, es decir, 50×(58,52 %/100 %) =

29,26 ≈ 29 alumnos.

20. Los siguientes datos corresponden al sueldo mensual(X) en miles de

pesos de un grupo de trabajadores de una empresa metalurgica respecto

a las horas de trabajo semanal (Y).

X Y

30-35 35-40 40-46

250-450 6 4 5

450-650 3 2 6

650-850 1 8 9

a) Determine el sueldo y horas de trabajo promedio para este grupo

de trabajadores.

Carlos Bustos-Lopez

Page 110: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 108

b) ¿Cual es el sueldo medio de aquellos que trabajan mas de 40 horas?

c) ¿Cuantas horas en promedio trabajan aquellos que tienen un suel-

do entre 450 y 650 mil?

d) Determine el coeficiente de correlacion lineal para las variables.

Des.

Y

yi 32,5 37,5 43

xi X 30− 35 35− 40 40− 46 Total

350 250− 450 6 4 5 15

550 450− 650 3 2 6 11

750 650− 850 1 8 9 18

Total 10 14 20 44

a)

µX =350× 15 + 550× 11 + 750× 18

44=

24800

44,

= 563,64 miles de pesos.

µY =32,5× 10 + 37,5× 14 + 43× 20

44=

1710

44,

= 38,86 horas.

b)

µX|Y >40 =350× 5 + 550× 6 + 750× 9

20,

=11800

20= 590 miles de pesos.

Carlos Bustos-Lopez

Page 111: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 109

c)

µY |450<X<650 =32,5× 3 + 37,5× 2 + 43× 6

11,

=430,5

11= 39,14 horas.

d)

σXY =1

44((350× 10× 32,5 + 350× 4× 37,5 + 350× 5× 43

+550× 3× 32,5 + 550× 2× 37,5 + 550× 6× 43

+750× 1× 32,5 + 750× 8× 37,5 + 750× 9× 43) ,

−44× 563,64× 38,86) ,

=1

44(972400− 44× 563,64× 38,86) ,

=8665,78

44,

= 196,95 .

σ2X =

1

44

((3502 × 15 + 5502 × 11 + 7502 × 18)− 44× 563,642

),

=1

44(15290000− 13978362,18) ,

=1311637,82

44,

= 29809,95 (miles de pesos)2 ,

σX = 172,66 miles de pesos.

Carlos Bustos-Lopez

Page 112: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 110

σ2Y =

1

44

((32,52 × 10 + 37,52 × 14 + 432 × 20)− 44× 38,862

),

=1

44(67230− 66444,38) ,

=785,62

44,

= 17,85 (horas)2 ,

σY = 4,23 horas.

rXY =196,95

172,66× 4,23= 0,270 .

21. La siguiente tabla resume el resultados de 54 postulantes a un cargo

ejecutivo de una gran empresa, segun sus edades.

Puntajes Edad (Y)

(X) 25-28 28-32

30-45 5 12

45-50 7 10

50-65 11 9

a) Calcule el valor medio de los puntajes y de las edades.

b) Determine el valor mas frecuente de la edad dado que los postu-

lantes obtuvieron menos de 50 puntos.

c) Determine el puntaje que obtuvieron como maximo el 25% de los

mas bajos, dado que tienen menos de 28 anos.

d) Determine el coeficiente de correlacion lineal entre las variables.

Carlos Bustos-Lopez

Page 113: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 111

Des.

Y

yi 26,5 30

xi X 25− 28 28− 32 Total

37,5 30− 45 5 12 17

47,5 45− 50 7 10 17

57,5 50− 65 11 9 20

Total 23 31 54

a)

µX =37,5× 17 + 47,5× 17 + 57,5× 20

54=

2595

54= 48,06 puntos.

µY =26,5× 23 + 30× 31

54=

1539,5

54= 28,51 anos.

b) .

Y |X < 50

25− 28 5 + 7 = 12

28− 32 12 + 10 = 22

Total 34

Carlos Bustos-Lopez

Page 114: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 112

Mo(Y |X < 50) = 28 +

(22− 12

(22− 12) + (22− 0)

)4 ,

= 28 +10

10 + 224 ,

= 28 + 1,25 ,

= 29,25 anos.

c) .

X|Y < 28 Ni

30− 45 5 5

45− 50 7 12

50− 65 11 23

Total 23

P25 = 45 +

(25× 23

100− 5

)5

7,

= 45 + (5,75− 5)5

7,

= 45 + 0,54 ,

= 45,54 puntos.

Carlos Bustos-Lopez

Page 115: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 113

d)

σXY =1

54((37,5× 5× 26,5 + 37,5× 12× 30

+47,5× 7× 26,5 + 47,5× 10× 30

+57,5× 11× 26,5 + 57,5× 9× 30)

−54× 48,06× 28,51) ,

=1

54(73816,25− 54× 48,06× 28,51) ,

=−174,04

54,

= −3,22 .

σ2X =

1

54

((37,52 × 17 + 47,52 × 17 + 57,52 × 20)− 54× 48,062

),

=1

54(128387,50− 124727,23) ,

=3660,27

54,

= 67,78 (puntos)2 ,

σX = 8,23 puntos.

σ2Y =

1

54

((26,52 × 23 + 302 × 31)− 54× 28,512

),

=1

54(44051,75− 43892,29) ,

=159,46

54,

= 2,95 (anos)2 ,

σY = 1,72 anos.

rXY =−3,22

8,23× 1,72= −0,227 .

Carlos Bustos-Lopez

Page 116: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 114

Existe una baja asociacion lineal inversa entre las variables.

22. La siguiente tabla resume la informacion de un grupo de estudiantes

universitarios segun su edad y peso.

Edad Peso (Y)

(X) 65-75 75-85

18-22 6 11

22-25 7 14

25-28 10 16

a) Determine la edad mas frecuente de los que pesan menos de 75

kilos.

b) Determine el peso medio, de los alumnos que tienen mas de 22

anos.

c) Determine si el peso medio de todos los alumnos, supera al peso

medio de los alumnos con edades inferiores a los 25 anos.

d) Determine el coeficiente de correlacion lineal para las variables.

Des.

Carlos Bustos-Lopez

Page 117: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 115

Y

yi 70 80

xi X 65− 75 75− 85 Total

20 18− 22 6 11 17

23,5 22− 25 7 14 21

26,5 25− 28 10 16 26

Total 23 41 64

a)

Mo(X|Y < 75) = 25 +

(10− 7

(10− 7) + (10− 0)

)3 ,

= 25 +3

3 + 103 ,

= 25 + 0,69 ,

= 25,69 anos.

b) .

yi Y |X > 22

70 65− 75 7 + 10 = 17

80 75− 85 14 + 16 = 30

Total 47

µY |X>22 =70× 17 + 80× 30

47=

3590

47= 76,41 Kgrs.

c)

µY =70× 23 + 80× 41

64=

4890

64= 76,41 Kgrs.

Carlos Bustos-Lopez

Page 118: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 116

yi Y |X < 25

70 65− 75 6 + 7 = 13

80 75− 85 11 + 14 = 25

Total 38

µY |X<25 =70× 13 + 80× 25

38=

2910

38= 76,58 Kgrs.

El peso medio de todos los alumnos es menor que el peso de los

alumnos menores de 25 anos.

d)

µX =20× 17 + 23,5× 21 + 26,5× 26

64=

1522,5

64= 23,79 anos.

σXY =1

64((20× 6× 70 + 20× 11× 80

+23,5× 7× 70 + 23,5× 14× 80

+26,5× 10× 70 + 26,5× 16× 80)

−64× 23,79× 76,41)

=1

64(116305− 64× 23,79× 76,41)

=−33,81

64

= −0,528

Carlos Bustos-Lopez

Page 119: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 117

σ2X =

1

64

((202 × 17 + 23,52 × 21 + 26,52 × 26)− 64× 23,792

)

=1

64(36655,75− 36221,70)

=434,05

64

= 6,78 (anos)2

σX = 2,60 anos.

σ2Y =

1

64

((702 × 23 + 802 × 41)− 64× 76,412

)

=1

64(375100− 373663,24)

=1436,76

64

= 22,45 (Kgrs.)2

σY = 4,74 kgrs.

rXY =−0,528

2,60× 4,74= −0,056

Existe una baja asociacion lineal inversa entre las variables.

23. La siguiente tabla muestra los puntajes (X) obtenidos por un grupo de

alumnos de un colegio segun el tramo de edad (Y ).

Puntajes Edad (Y)

(X) 9-11 11-14 14-16

0-30 3 6 10

30-50 8 4 11

50-70 9 7 5

Carlos Bustos-Lopez

Page 120: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 118

a) Obtenga la edad media y puntaje medio de estos alumnos.

b) Obtenga las varianzas de la edad y del puntaje.

c) Determine el coeficiente de correlacion lineal.

d) ¿Cual es la edad media de los alumnos que obtuvieron puntajes

mayores a 30 puntos?

e) ¿Cual es el puntaje medio de aquellos alumnos que tienen mas de

11 anos?

Des.

Y

yi 10 12,5 15

xi X 9− 11 11− 14 14− 16 Total

15 0− 30 3 6 10 19

40 30− 50 8 4 11 23

60 50− 70 9 7 5 21

Total 20 17 26 63

a)

µX =15× 19 + 40× 23 + 60× 21

63=

2465

63= 39,13 puntos.

µY =10× 20 + 12,5× 17 + 15× 26

63=

802,5

63= 12,74 anos.

Carlos Bustos-Lopez

Page 121: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 119

b)

σ2X =

1

63

((152 × 19 + 402 × 23 + 602 × 21)− 63× 39,132

),

=1

63(116675− 96462,88) ,

=20212,12

63

= 320,83 (puntos)2 ,

σX = 17,91 puntos.

σ2Y =

1

63

((102 × 20 + 12,52 × 17 + 152 × 26)− 63× 12,742

),

=1

63(10506,25− 10225,38) ,

=280,87

63,

= 4,46 (anos)2 ,

σY = 2,11 anos.

c)

σXY =1

63((15× 3× 10 + 15× 6× 12,5 + 15× 10× 15

+40× 8× 10 + 40× 4× 12,5 + 40× 11× 15

+60× 9× 10 + 60× 7× 12,5 + 60× 5× 12,5)

−63× 39,13× 12,74) ,

=1

63(30775− 63× 39,13× 12,74) ,

=−631,52

63,

= −10,02 .

Carlos Bustos-Lopez

Page 122: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 120

rXY =−10,02

17,91× 2,11= −0,265 .

d) .

yi Y |X > 30

10 9− 11 8 + 7 = 17

12,5 11− 14 4 + 7 = 11

15 14− 16 11 + 5 = 16

Total 44

µY |X>30 =10× 17 + 12,5× 11 + 15× 16

44=

547,5

44= 12,44 anos.

e) .

xi X|Y > 11

15 0− 30 6 + 10 = 16

40 30− 50 4 + 11 = 15

60 50− 70 7 + 5 = 12

Total 43

µX|Y >11 =15× 16 + 40× 15 + 60× 12

43=

1560

43= 36,28 puntos.

24. La siguiente tabla resume las horas semanales que un grupo de ninos

pasa frente al computador (Y ) respecto a su edad (X).

Carlos Bustos-Lopez

Page 123: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 121

X Y

2-4 4-6 6-8

12-14 13 14 15

14-16 12 15 16

a) Determine el promedio de horas a la semana y de edad de este

grupo de ninos.

b) Determine la cantidad de horas mas frecuentes que pasan frente

al computador los ninos mayores de 14 anos?

c) ¿Cual es la edad media de los ninos que pasan menos de 6 horas

frente al computador?

d) Determine el coeficiente de correlacion lineal.

Des.

Y

yi 3 5 7

xi X 2− 4 4− 6 6− 8 Total

13 12− 14 13 14 15 42

15 14− 16 12 15 16 43

Total 25 29 31 85

a)

µX =13× 42 + 15× 43

85=

1191

85= 14,01 anos.

µY =3× 25 + 5× 29 + 7× 31

85=

437

85= 5,14 horas.

Carlos Bustos-Lopez

Page 124: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 122

b) .

yi Y |X > 14

3 2− 4 12

5 4− 6 15

7 6− 8 16

Total 43

Mo(Y |X > 14) = 6 +

(16− 15

(16− 15) + (16− 0)

)2 ,

= 6 +1

1 + 162 ,

= 6 + 0,12 ,

= 6,12 horas.

c) .

xi X|Y < 6

13 12− 14 13 + 14 = 27

15 14− 16 12 + 15 = 27

Total 54

µX|Y <6 =13× 27 + 15× 27

54=

756

54= 14 anos.

Carlos Bustos-Lopez

Page 125: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 123

d)

σXY =1

85((13× 13× 3 + 13× 14× 5 + 13× 15× 7

+15× 12× 3 + 15× 15× 5 + 15× 16× 7)

−85× 14,01× 5,14)

=1

85(6127− 85× 14,01× 5,14) ,

=6,03

85,

= 0,071 (anos)× (horas).

σ2X =

1

85

((132 × 42 + 152 × 43)− 85× 14,012

),

=1

85(16773− 16683,81) ,

=89,19

85,

= 1,05 (anos)2 ,

σX = 1,02 anos.

σ2Y =

1

85

((32 × 25 + 52 × 29 + 72 × 31)− 85× 5,142

),

=1

85(2469− 2245,67) ,

=223,33

85,

= 2,63 (horas)2 ,

σY = 1,62 horas.

rXY =0,071

1,02× 1,62= 0,043 .

Carlos Bustos-Lopez

Page 126: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 124

25. La tabla muestra el gasto mensual en diarios y revistas de 45 familias

en miles de pesos, diferenciadas segun si tienen automovil o no.

Gasto mensual Con automovil Sin automovil

1-5 7 3

5-10 5 4

10-15 10 6

15-25 6 4

a) ¿Cual es el gasto mensual medio en diarios y revistas de estas

familias?

b) ¿Que porcentaje de familias gastan mensualmente mas de $12000

en diarios y revistas?

c) ¿Cual es el gasto medio de las familias que no tienen automovil?

d) ¿Son los gastos en diarios y revistas de las familias con automovil

mas homogeneos que las sin automovil?

Des.

Y

xi X CA SA Total

3 1− 5 7 3 10

7,5 5− 10 5 4 9

12,5 10− 15 10 6 16

20 15− 25 6 5 10

Total 18 17 45

Carlos Bustos-Lopez

Page 127: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 125

a)

µX =3× 10 + 7,5× 9 + 12,5× 16 + 20× 10

45,

=497,5

45= 11,06 miles de pesos.

b)

12 = 10 +

(α× 45

100− 9

)5

16,

α =

((12− 10)

16

5+ 9

)100

45,

= (6,4 + 9)100

45,

= 15,4100

45,

= 34,22 % .

El 34,22 % de las familias gasta mensualmente menos de $12000,

luego el 65,78 % de las familas gasta mas de $12000 mensualmente.

c)

µX|Y =SA =3× 3 + 7,5× 4 + 12,5× 6 + 20× 4

17,

=194

17= 11,41 miles de pesos.

d)

µX|Y =CA =3× 7 + 7,5× 5 + 12,5× 10 + 20× 6

28,

=303,5

28= 10,84 miles de pesos.

Carlos Bustos-Lopez

Page 128: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 126

σ2X|Y =CA =

1

28

((32 × 7 + 7,52 × 5 + 12,52 × 10 + 202 × 6)− 28× 10,842

),

=1

28(4306,75− 3290,16) ,

=1016,59

28,

= 36,31 (miles de pesos)2 ,

σX|Y =CA = 6,03 miles de pesos.

σ2X|Y =SA =

1

17

((32 × 3 + 7,52 × 4 + 12,52 × 6 + 202 × 4)− 17× 11,412

),

=1

17(2789,50− 2213,20) ,

=576,30

17,

= 33,90 (miles de pesos)2 ,

σX|Y =SA = 5,82 miles de pesos.

CVX|Y =CA =6,03

10,84100 % = 55,6 % .

CVX|Y =SA =5,82

11,41100 % = 51,0 % .

Los gastos en diarios y revistas de las familias sin automovil son

mas homogeneos que las familias con automovil.

26. La siguiente tabla muestra las alturas y pesos de un grupo de jovenes

deportistas.

Carlos Bustos-Lopez

Page 129: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 127

Altura (X) Edades (Y)

(en mt.) 13-17 17-20

1.4-1.5 14 10

1.5-1.7 20 15

1.7-1.8 12 17

a) ¿Cual es la edad mas comun de aquellos que miden como mınimo

1.5 mt.?

b) ¿Cual es la altura media de los que tienen a lo mas 17 anos?

c) ¿Que porcentaje de estos jovenes tienen entre 17 y 20 anos y miden

entre 1.5 y 1.8 mt.?

d) Determine la variabilidad de las edades y las alturas.

Des.

Y

yi 15 18,5

xi X 13− 17 17− 20 Total

1,45 1,4− 1,5 14 10 24

1,60 1,5− 1,7 20 15 35

1,75 1,7− 1,8 12 17 29

Total 46 42 88

a) .

Carlos Bustos-Lopez

Page 130: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 128

yi Y |X > 15

15 13− 17 20 + 12 = 32

18,5 17− 20 15 + 17 = 32

Total 64

Mo(Y |X > 15)1 = 13 +

(32− 0

(32− 0) + (32− 32)

)4100 %

= 17 anos.

Mo(Y |X > 15)2 = 17 +

(32− 32

(32− 32) + (32− 0)

)3100 %

= 17 anos.

En este caso si tienen dos modas y ambas iguales.

b) .

xi X|Y < 17

1,45 1,4− 1,5 14

1,60 1,5− 1,7 20

1,75 1,7− 1,8 12

Total 46

µX|Y <17 =1,45× 14 + 1,60× 20 + 1,75× 12

46=

73,3

46= 1,59 mt.

c)

15 + 17

88=

32

88= 0,3636100 .

Carlos Bustos-Lopez

Page 131: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 129

Equivalentemente, el 36,36 % de estos jovenes tiene entre 17 y 20

anos y miden entre 1.5 y 1.8 mt.

d)

µX =1,45× 24 + 1,60× 35 + 1,75× 29

88=

141,55

88= 1,61 mt.

µY =15× 46 + 18,5× 42

88=

1467

88= 16,67 anos.

σ2X =

1

88

((1,452 × 24 + 1,602 × 35 + 1,752 × 29)− 88× 1,612

),

=1

88(228,87− 228,10) ,

=0,77

88,

= 0,0087 (mt)2 ,

σX = 0,093 mt.

σ2Y =

1

88

((152 × 46 + 18,52 × 42)− 88× 16,672

),

=1

88(24724,50− 24454,22) ,

=270,28

88,

= 3,07 (anos)2 ,

σX = 1,75 anos.

27. La tabla siguiente muestra los litros de alcohol (X) utilizados en un pro-

ceso de limpieza de ciertos filtos, por algunas farmacias y el presupuesto

disponible de ellas (Y), en miles de pesos.

Carlos Bustos-Lopez

Page 132: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 130

X Y

35-60 60-110 110-180

1-6 18 7 8

6-12 4 1 6

12-15 7 8 4

a) ¿Cual es el presupuesto medio de estas farmacias? ¿Cual es la

cantidad promedio de litros de alcohol utilizados?

b) ¿Cuantos litros utilizan en promedio las farmacias con unpre-

supuesto inferior a los 110 mil?

c) De las farmacias que utilizan mas de 6 litros de alcohol, ¿que por-

centaje de ellas tienen un presupuesto inferior a los 60 mil?

d) Determine el coeficiente de correlacion lineal.

Des.

Y

yi 47,5 85 145

xi X 35− 60 60− 110 110− 180 Total

3,5 1− 6 18 7 8 33

9,0 6− 12 4 1 6 11

13,5 12− 15 7 8 4 19

Total 29 16 18 63

Carlos Bustos-Lopez

Page 133: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 131

a)

µX =3,5× 33 + 9,0× 11 + 13,5× 19

63=

471

63= 7,48 litros.

µY =47,5× 29 + 85× 16 + 145× 18

63=

5347,5

63= 84,88 miles de pesos.

b) .

xi X|Y < 110

3,5 1− 6 18 + 7 = 25

9,0 6− 12 4 + 1 = 5

13,5 12− 15 7 + 8 = 15

Total 45

µX|Y <110 =3,5× 25 + 9,0× 5 + 13,5× 15

45=

335

45= 7,44 litros.

c) .

yi Y |X > 6

47,5 35− 60 4 + 7 = 11

85 60− 110 1 + 8 = 9

145 110− 180 6 + 4 = 10

Total 30

11

30= 0,367

El 36,7 % de las farmacias que utilizan mas de 6 litros de alcohol

en la limpieza de sus filtros, tiene un presupuesto inferior a $60000.

Carlos Bustos-Lopez

Page 134: Apuntes Inferencia Estadistica

CAPITULO 1. ESTADISTICAS DESCRIPTIVAS: DEFINICIONES 132

d)

σXY =1

63((3,5× 18× 47,5 + 3,5× 7× 85 + 3,5× 8× 145

+9,0× 4× 47,5 + 9× 1× 85 + 9× 6× 145

+13,5× 7× 47,5 + 13,5× 8× 85 + 13,5× 4× 145)

−63× 7,48× 84,88) ,

=1

63(40938,75− 63× 7,48× 84,88) ,

=939,90

63,

= 14,92 .

σ2X =

1

63

((3,52 × 33 + 92 × 11 + 13,52 × 19)− 63× 7,482

),

=1

63(4758− 3524,88) ,

=1233,12

63,

= 19,57 (litros)2 ,

σX = 4,42 litros.

σ2Y =

1

63

((47,52 × 29 + 852 × 16 + 1452 × 18)− 63× 84,882

),

=1

63(559481,25− 453890,71) ,

=105590,54

63,

= 1676,04 (miles de pesos)2 ,

σY = 40,94 miles de pesos.

rXY =14,92

4,42× 40,94= 0,082 .

Carlos Bustos-Lopez

Page 135: Apuntes Inferencia Estadistica

Capıtulo 2

Regresion Lineal

2.1. Modelo de Regresion Lineal

La idea fundamental de los modelos de regresion es, poder representar

de la mejor forma posible el comportamiento de los datos. Los datos tienen

distintos comportamientos dependiendo del tipo de variable que se este in-

vestigando. Si se observan dos variables al mismo tiempo, se puede estar

interesado en el comportamiento conjunto de estas variables y a traves del

coeficientes de correlacion podriamos conocer el tipo de asociacion que exis-

te entre ellas. El modelo matematico mas simple que intenta representar el

comportamiento de los datos es el modelo lineal, el cual parte de la base que

es posible ajustar una linea recta a las observaciones, siendo esta ecuacion

una forma de resumir y representar la informacion. El modelo de regresion

lineal simple en la version frecuentista, considera las observaciones de pares

ordenados (xi, yi), con i =, . . . , n. Para el modelo

y = β0 + β1x + ε ,

133

Page 136: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 134

en general, el interes se concentra en la estimacion de los parametros =¯(β0, β1),

los cuales se pueden obtener mediante los EMCO1 al resolver la equacion:

mınβ∼∑n

i=1 ε2i = mınβ∼

∑ni=1(yi − β0 − β1xi)

2 ,

derivando con respecto a β0 y β1 e igualando a cero se obtienen:

β0 = Y − β1X , β1 = SXY

SXX,

donde SXY =∑n

i=1(xi− X)(yi− Y ) y SXX =∑n

i=1(xi− X)2, siendo (X, Y ),

las medias muestrales respectivas. De esa forma el modelo de regresion lineal

estimado esta dado por:

yi = β0 + β1xi ,

para todo i = 1, . . . , n.

Ademas, se puede determinar el grado de asociacion representada por el

modelo de regresion lineal estimado para las observaciones, este coeficiente

es denominado R2 y corresponde exactamente al cuadrado del coeficiente de

correlacion lineal de Pearson, que ademas puede ser calculado por:

R2 = (rXY )2 =S2

XY

SXXSY Y

,

donde SY Y =∑n

i=1(yi − Y )2, y su interpretacion es que el modelo explica a

los observaciones (o representa) en un R2 × 100 %. Con un poco de algebra

se puede llegar a las siguientes expresiones simplificadas de S:

SXY =n∑

i=1

xiyi − nXY , SXX =n∑

i=1

x2i − nX2 , SY Y =

n∑i=1

y2i − nY 2 .

1Estimadores de mınimos cuadrados ordinarios.

Carlos Bustos-Lopez

Page 137: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 135

2.2. Ejercicios Resueltos

1. La siguiente tabla muestra el flujo diario de automoviles (X) en miles,

y su cantidad de partıculas que emiten en mg/cm3.

X Y

19,09 522,10

27,83 1198,30

39,10 1472,00

39,10 1239,70

39,10 1674,40

55,89 2173,50

55,89 1697,40

76,36 1745,70

a) Determine el modelo de regresion lineal simple asociado.

b) Determine el grado de explicacion del modelo.

c) Para un flujo de 20000 automoviles diarios, ¿Cual serıa la cantidad

esperada de particulas en suspencion dadas por este flujo?

d) Determine la cantidad de automoviles que generan 1000 mg/cm3

en un dıa.

Des.

Completamos la tabla con las respectivas multiplicaciones y sumas para

determinar los parametros del modelo.

Carlos Bustos-Lopez

Page 138: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 136

X Y XY X2 Y 2

19,09 522,10 9966,89 364,43 272588,41

27,83 1198,30 33348,69 774,51 1435922,89

39,10 1472,00 57555,20 1528,81 2166784,00

39,10 1239,70 48472,27 1528,81 1536856,09

39,10 1674,40 65469,04 1528,81 2803615,36

55,89 2173,50 121476,92 3123,69 4724102,25

55,89 1697,40 94867,69 3123,69 2881166,76

76,36 1745,70 133301,65 5830,85 3047468,49

352,36 11723,10 564458,34 17803,60 18868504,25

a)

X =352,36

8= 44,05 Y =

11723,10

8= 1465,39

SXY = 564458,34− 8× 44,05× 1465,39 = 48054,90

SXX = 17803,60− 8× 44,052 = 2280,38

SY Y = 18868504,25− 8× 1465,392 = 1689561,43

β1 =48054,90

2280,38= 21,07 β0 = 1465,39− 21,07× 44,05 = 537,26

y = 537,26 + 21,07x

b)

R2 =48054,902

2280,38× 1689561,43= 0,5994

El modelo representa a las observaciones en un 59,94 %.

Carlos Bustos-Lopez

Page 139: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 137

c)

y = 537,26 + 21,07× 20

= 958,66 mg/cm3.

d)

1000 = 537,26 + 21,07x

x =1000− 537,26

21,07

= 21,96 miles de automoviles.

2. Una empresa desea determinar como la inversion que ha realizado en

publicidad (X) en UF, de los ltimos meses ha afectado la demanda de

su producto (Y ) en miles de unidades. Para tal efecto ha recopilado la

siguiente informacion dque se resume en la tabla.

Carlos Bustos-Lopez

Page 140: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 138

X Y

105,80 27,60

121,90 32,20

85,10 25,30

75,90 29,90

92,00 23,00

92,00 18,40

96,60 39,10

78,20 27,60

66,70 23,00

138,00 34,50

101,20 20,70

94,30 29,90

110,40 34,50

a) Determine un modelo de regresion lineal.

b) La empresa esta interesada en determinar cual debe ser la cantidad

que debe invertir en publicidad de tal forma que espere tener una

venta de 30000 unidades de su producto.

c) Si no quiere invertir mas de 80 UF en publicidad, ¿Cual serıa la

cantidad maxima de unidades que esperarıa vender?

d) ¿Cual es el grado de ajuste del modelo?

Des.

Carlos Bustos-Lopez

Page 141: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 139

X Y XY X2 Y 2

105,80 27,60 2920,08 11193,64 761,76

121,90 32,20 3925,18 14859,61 1036,84

85,10 25,30 2153,03 7242,01 640,09

75,90 29,90 2269,41 5760,81 894,01

92,00 23,00 2116,00 8464,00 529,00

92,00 18,40 1692,80 8464,00 338,56

96,60 39,10 3777,06 9331,56 1528,81

78,20 27,60 2158,32 6115,24 761,76

66,70 23,00 1534,10 4448,89 529,00

138,00 34,50 4761,00 19044,00 1190,25

101,20 20,70 2094,84 10241,44 428,49

94,30 29,90 2819,57 8892,49 894,01

110,40 34,50 3808,80 12188,16 1190,25

1258,10 365,70 36030,19 126245,85 10722,83

a)

X =1258,10

13= 96,78 Y =

365,70

13= 28,13

SXY = 36030,19− 13× 96,78× 28,13 = 638,71

SXX = 126245,85− 13× 96,782 = 4483,06

SY Y = 10722,83− 13× 28,132 = 435,97

β1 =638,71

4483,06= 0,142 β0 = 28,13− 0,142× 96,78 = 14,39

Carlos Bustos-Lopez

Page 142: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 140

y = 14,39 + 0,142x

b)

30 = 14,39 + 0,142x

x =30− 14,39

0,142

= 109,93 UF

c)

y = 14,39 + 0,142× 80

= 25,75 miles de unidades.

d)

R2 =638,712

4483,06× 435,97= 0,2087

El modelo explica a las observaciones en un 20,87 %.

3. En un estudio realizado al contenido de calorıas (X) en kcal, respecto al

nivel de grasas (Y ) en g, de cierto producto, se recopilaron los siguientes

datos:

Carlos Bustos-Lopez

Page 143: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 141

X Y

103,50 161,00

46,00 115,00

92,00 138,00

92,00 115,00

108,10 207,00

69,00 126,50

57,50 126,50

46,00 80,50

34,50 92,00

80,50 149,50

a) Determine un modelo de regresion, que permita determinar el

comportamiento de los niveles grasa por calirıas.

b) ¿Cuantas calorıas contiene 110 g de grasa?

c) ¿Cuantos gramos de grasa se necesitan para tener 100 kcal?

d) Determine el nivel de ajuste del modelo estimado.

Des.

Carlos Bustos-Lopez

Page 144: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 142

X Y XY X2 Y 2

103,50 161,00 16663,50 10712,25 25921,00

46,00 115,00 5290,00 2116,00 13225,00

92,00 138,00 12696,00 8464,00 19044,00

92,00 115,00 10580,00 8464,00 13225,00

108,10 207,00 22376,70 11685,61 42849,00

69,00 126,50 8728,50 4761,00 16002,25

57,50 126,50 7273,75 3306,25 16002,25

46,00 80,50 3703,00 2116,00 6480,25

34,50 92,00 3174,00 1190,25 8464,00

80,50 149,50 12034,75 6480,25 22350,25

729,10 1311,00 102520,20 59295,61 183563,00

a)

X =729,10

10= 72,91 Y =

1311,00

10= 131,10

SXY = 102520,20− 10× 72,91× 131,10 = 6935,19

SXX = 59295,61− 10× 72,912 = 6136,93

SY Y = 183563,00− 10× 131,102 = 11690,9

β1 =6935,19

6136,93= 1,13 β0 = 131,10− 1,13× 72,91 = 48,71

y = 48,71 + 1,13x

Carlos Bustos-Lopez

Page 145: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 143

b)

110 = 48,71 + 1,13x

x =110− 48,71

1,13

= 54,24 kcal.

c)

y = 48,71 + 1,13× 100

= 161,71 g.

d)

R2 =6935,192

6136,93× 11690,9= 0,6704

El modelo tiene un ajuste del 67,04 % de los datos.

4. En un centro hospilatario se ha implementado una nueva campaa de

provencion para disminuir el porcentaje de afecciones respiratorias en

el periodo invernal, para ello han distribuido una serie de folletos ex-

plicativos donde una de las medidas mas importantes es dismincion de

niveles de toxicidad derivados del humo del cigarrillo por lo cual se les

recomienda a las personas que no fumen dentro de su hogar. A contin-

uacion se muestra una tabla con los porcentajes de personas que han

dejado de fumar al interior de sus hogares (X) y el porcentaje de per-

sonas al interior del hogar que han sufrido de afecciones respiratorias

durante el periodo (Y ).

Carlos Bustos-Lopez

Page 146: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 144

X( %) Y ( %)

23,00 43,70

27,60 41,40

29,90 36,80

32,20 34,50

34,50 34,50

39,10 32,20

46,00 32,20

48,30 29,90

50,60 27,60

46,00 29,90

a) Determine si se puede establecer algun modelo simple que refleje

el comportamiento de estas medidas.

b) Establezca el porcentaje esperado de personas por hogar que ten-

drıan algun problema respiratorio, si el 30 % de ellas ha dejado de

fumar al interior de sus hogares.

c) Si el porcentaje de personas afectadas por problemas respiratorios

ha sido de un 30 %, ¿Cual ha sido el porcentaje de personas que

ha seguido las sugerencias del centro de salud?

d) ¿Cual es el nivel de ajuste del modelo de regresion lineal estimado?

Des.

Carlos Bustos-Lopez

Page 147: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 145

X Y XY X2 Y 2

23,00 43,70 1005,10 529,00 1909,69

27,60 41,40 1142,64 761,76 1713,96

29,90 36,80 1100,32 894,01 1354,24

32,20 34,50 1110,90 1036,84 1190,25

34,50 34,50 1190,25 1190,25 1190,25

39,10 32,20 1259,02 1528,81 1036,84

46,00 32,20 1481,20 2116,00 1036,84

48,30 29,90 1444,17 2332,89 894,01

50,60 27,60 1396,56 2560,36 761,76

46,00 29,90 1375,40 2116,00 894,01

377,20 342,70 12505,56 15065,92 11981,85

a)

X =377,20

10= 37,72 Y =

342,70

10= 34,27

SXY = 12505,56− 10× 37,72× 34,27 = −421,08

SXX = 15065,92− 10× 37,722 = 837,94

SY Y = 11981,85− 10× 34,272 = 237,52

β1 =−421,08

837,94= −0,503 β0 = 34,27− (−0,503)× 37,72 = 53,24

y = 53,24− 0,503x

Carlos Bustos-Lopez

Page 148: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 146

b)

y = 53,24− 0,503× 30

= 38,15 %

c)

30 = 53,24− 0,503x

x =30− 53,24

−0,503

=−23,24

−0,503

= 46,20 %

d)

R2 =(−421,08)2

837,94× 237,52= 0,8909

El modelo explica el 89,09 % del comportamiento de las observa-

ciones.

5. En un experimento con ratas de laboratorio sobre el nivel de glucosa

en la sangre (Y ), en mg/dL, bajo la administracion de cierto farmaco

(X), en g/Kgr, se recopilo la siguiente informacion

Carlos Bustos-Lopez

Page 149: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 147

X(g/Kgr) Y (mg/dL)

8,28 55,20

7,59 48,30

6,44 50,60

5,98 50,60

6,21 41,40

5,98 52,90

6,21 43,70

6,67 29,90

4,60 20,70

5,98 13,80

8,51 57,50

7,82 48,30

a) Estime el modelo de regresion para la respuesta nivel de glicemia

en la sangre de estas ratas.

b) Determine el nivel de ajuste del modelo estimado.

c) ¿Que dosis es necesaria ser administrada a las ratas para que su

nivel de glucosa sea de 50 mg/dL?

d) ¿Que nivel de glicemia tendrıa una rata a la que se le administre

8 g/kgr?

Des.

Carlos Bustos-Lopez

Page 150: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 148

X Y XY X2 Y 2

8,28 55,20 457,06 68,56 3047,04

7,59 48,30 366,60 57,61 2332,89

6,44 50,60 325,86 41,47 2560,36

5,98 50,60 302,59 35,76 2560,36

6,21 41,40 257,09 38,56 1713,96

5,98 52,90 316,34 35,76 2798,41

6,21 43,70 271,38 38,56 1909,69

6,67 29,90 199,43 44,49 894,01

4,60 20,70 95,22 21,16 428,49

5,98 13,80 82,52 35,76 190,44

8,51 57,50 489,33 72,42 3306,25

7,82 48,30 377,71 61,15 2332,89

80,27 512,90 3541,13 551,27 24074,79

a)

X =80,27

12= 6,69 Y =

512,90

12= 42,74

SXY = 3541,13− 12× 6,69× 42,74 = 109,96

SXX = 551,27− 12× 6,692 = 14,20

SY Y = 24074,79− 12× 42,742 = 2154,30

β1 =109,96

14,20= 7,74 β0 = 42,74− 7,74× 6,69 = −9,04

Carlos Bustos-Lopez

Page 151: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 149

y = −9,04 + 7,74x

b)

R2 =109,962

14,20× 2154,30= 0,3953

El modelo explica solo el 39,53 % de las observaciones.

c)

50 = −9,04 + 7,74x

x =50 + 9,04

7,74

= 7,63 g/Kgr.

d)

y = −9,04 + 7,74× 8

= 52,88 mg/dL.

6. En un estudio realizado sobre el gasto en electricidad (Y , en miles de

pesos) derivado del uso de aire acondicionado, respecto al incremento

en grados de temperatura ambiental (X, en grados celsius), arrojo los

siguientes resultados:

Carlos Bustos-Lopez

Page 152: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 150

X Y

2,30 7,89

2,76 8,63

3,22 10,40

3,68 11,80

4,14 13,66

4,60 14,61

5,52 18,38

5,98 18,93

6,44 21,76

6,90 23,81

8,05 26,59

8,28 28,84

8,51 29,69

a) Estime el mejor modelo de regresion lineal para estas variables.

b) ¿Cual es el nivel de ajuste del modelo?

c) Si la temperatura ha sufrido un incremento de 6,5 grados celsius,

¿Cual es gasto en electricidad esperado por el concepto de aire

acondicionado?

d) Si los departamentos tuvieron un gasto en electricidad de $30000,

¿Cuanto fue el incremento en la temperatura?

Des.

Carlos Bustos-Lopez

Page 153: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 151

X Y XY X2 Y 2

2,30 7,89 18,14 5,29 62,24

2,76 8,63 23,81 7,62 74,39

3,22 10,40 33,48 10,37 108,08

3,68 11,80 43,42 13,54 139,22

4,14 13,66 56,56 17,14 186,65

4,60 14,61 67,18 21,16 213,31

5,52 18,38 101,44 30,47 337,71

5,98 18,93 113,20 35,76 358,31

6,44 21,76 140,12 41,47 473,41

6,90 23,81 164,25 47,61 566,68

8,05 26,59 214,03 64,80 706,92

8,28 28,84 238,81 68,56 831,86

8,51 29,69 252,69 72,42 881,67

70,38 234,97 1467,13 436,21 4940,44

a)

X =70,38

13= 5,41 Y =

234,97

13= 18,07

SXY = 1467,13− 13× 5,41× 18,07 = 196,27

SXX = 436,21− 13× 5,412 = 55,72

SY Y = 4940,44− 13× 18,072 = 695,62

β1 =196,27

55,72= 3,52 β0 = 18,07− 3,52× 5,41 = −0,973

Carlos Bustos-Lopez

Page 154: Apuntes Inferencia Estadistica

CAPITULO 2. REGRESION LINEAL 152

y = −0,973 + 3,52x

b)

R2 =196,272

55,72× 695,62= 0,9939

El modelo explica el 99,39 % de los datos.

c)

y = −0,973 + 3,52× 6,5

= 21,907 miles de pesos.

d)

30 = −0,973 + 3,52x

x =30 + 0,973

3,52

= 8,80 grados celsius.

Carlos Bustos-Lopez

Page 155: Apuntes Inferencia Estadistica

Capıtulo 3

Probabilidades

3.1. Probabilidades

3.1.1. Introduccion

El concepto de Probabilidades no es ajeno a la vida cotidiana, siempre

estamos, de una forma u otra, utilizando las probabilidades, por ejemplo,

cuando nos preguntamos en la manana antes de salir de casa, “¿llovera o

no?”, lo hacemos bajo un contexto determinado, es decir, si creemos que

existen posibilidades de que ese fenomeno ocurra.

Ademas de ciertas evidencias cualitativas que favorezcan el realizar la

pregunta, por ejemplo, si es invierno, si esta nublado, etc.

Bajo lo anterior, uno trata de responder la pregunta en condiciones de

incerteza, asignando un valor a aquella afirmacion, es decir, “sı , creo que

llovera”, o simplemente “no creo que llueva”. Esta asignacion subjetiva, le

dara mayor, menor o igual peso a cada una de las posibilidades.

153

Page 156: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 154

La pregunta anterior y sus respectivas respuestas, nos permiten determi-

nar un conjunto de posibilidades y de respectivos valores a cada una de las

respuestas y que pueden ser distintas de sujeto a sujeto.

La forma de medir, objetivamente, la ocurrencia de un evento, dentro

de todas las posibilidades que existen para ese fenomeno, es a traves de la

medida de probabilidad.

3.1.2. Definiciones

Experimento (E)

Definicion 3.1.1 Un experimento sera aquel, que permite recopilar infor-

macion sobre algun evento o fenomeno que tengamos incerteza sobre su com-

portamiento. Es decir, esta involucrado el azar, por eso denominamos a este

experimento como aleatorio.

La idea de realizar un experimento es: “si el experimento se puede repetir

una cantidad infinita de veces, este nos permitira descubrir la ley que sostiene

sus resultados”.

Ejemplo 3.1.1 Experimentos aleatorios.

1. El lanzar una moneda al aire y observar su resultado.

2. El lanzamiento de un dado cubico y observar su resultado.

3. Sacar una carta de un mazo al azar y observar su resultado.

Carlos Bustos-Lopez

Page 157: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 155

Espacio Muestral (Ω)

Definicion 3.1.2 Es el conjunto de todos los posibles resultados de un ex-

perimento aleatorio. El cual denotaremos con la letra Ω.

Ejemplo 3.1.2 Espacio Muestral de experimentos aleatorios.

1. Ω = cara, sello

2. Ω = 1, 2, 3, 4, 5, 6

3. Ω = As, 2, 3, 4, 5, 6, 7, 8, 9, 10, J,Q, K × ♣,♦,♥,♠

Suceso o Evento

Definicion 3.1.3 Es un subconjunto del espacio muestral, el cual lo deno-

taremos con letras mayusculas. (p.e. A ⊆ Ω).

Ejemplo 3.1.3 El experimento E= Lanzar un dado y observar sus resulta-

dos.

Espacio muestral Ω = 1, 2, 3, 4, 5, 6.Sucesos:

A= Sale numero impar.

B= Sale numero par.

C= Sale un numero menor o igual a 3.

D= Sale un numero mayor o igual a 4.

Carlos Bustos-Lopez

Page 158: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 156

3.1.3. Probabilidad

La definicion clasica (equiprobable) de probabilidad considera lo siguien-

te:

Definicion 3.1.4 Si E es un experimento y Ω su espacio muestral asociado,

siempre que Ω este formado por un numero contable o numerable de elemen-

tos; entonces, para un suceso A ∈ Ω, se puede escribir la probabilidad de que

ocurra A, como:

IP(A) =Numero de elementos de A

Numero de elementos de Ω,

y que corresponde a:

IP(A) =Casos Favorables asociados a A

Casos Totales=

CF (A)

CT (Ω).

Ejemplo 3.1.4 Sea el siguiente experimento E: “Tirar un dado cubico y

observar su resultado”.

A: sale 2.

B: sale numero par.

C: el numero es menor o igual a 4.

Determinemos el espacio muestral:

Ω = 1, 2, 3, 4, 5, 6 ,

y los casos totales son:

CT (Ω) = 6 ,

Carlos Bustos-Lopez

Page 159: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 157

ahora, los casos favorables para cada item:

CF (A) = 1.

CF (B) = 3.

CF (C) = 4.

y calculemos las respectivas probabilidades asociadas a estos eventos:

P (A) = CF (A)CT (Ω)

= 16.

P (B) = CF (B)CT (Ω)

= 36

= 12.

P (C) = CF (C)CT (Ω)

= 46

= 23.

Axiomas

Sean, Ω espacio muestral del experimento E , A un evento en Ω, Ac el

complemento de A y IP una medida de probabilidad.

1. 0 ≤ IP(A) ≤ 1.

2. IP(Ω) = 1, donde Ω se denomina evento seguro.

3. IP(A) = 1− IP(Ac).

4. IP(Ωc) = IP(φ) = 0, donde φ se denomina evento imposible.

Carlos Bustos-Lopez

Page 160: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 158

Teoremas y Definiciones

Definicion 3.1.5 Sean A y B dos sucesos cualquiera, entonces la probabili-

dad de que ocurra A o B, esta dada por:

IP(A ∪B) = IP(A) + IP(B)− IP(A ∩B) .

Definicion 3.1.6 Si A y B son dos sucesos independientes (estocasti-

camente), es decir, la ocurrencia de uno no afecta la ocurrencia del otro y

vice versa, entonces, la probabilidad de que ocurra A y B esta dada por:

IP(A ∩B) = IP(A) · IP(B) .

Definicion 3.1.7 Si A y B son dos sucesos excluyentes, es decir, la ocur-

rencia de uno impide la ocurrencia del otro y vice versa, entonces, la proba-

bilidad de que ocurra A y B esta dada por:

P (A ∩B) = 0 ⇒ IP(A ∪B) = IP(A) + IP(B) .

Ejemplo 3.1.5 Sea el siguiente experimento E: “Sacar una carta de un mazo

de 52”.

Ademas, sean los siguientes eventos:

A: Sale trebol.

B: Sale K.

Determinemos ahora sus respectivas probabilidades asociadas:

Carlos Bustos-Lopez

Page 161: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 159

CT (Ω) = 52.

CF (A) = 13 =⇒ IP(A) = 1352

= 14.

CF (B) = 4 =⇒ IP(B) = 452

= 113

.

a) Ahora, ¿que sera el evento “sale el rey de trebol”?

Lo anterior corresponde al evento A ∩B, y la probabilidad de su ocur-

rencia es:

CF (A ∩B) = 1 =⇒ IP(A ∩B) =1

52,

pero la ocurrencia del evento A no afecta la ocurrencia del evento B,

luego, se tiene que:

IP(A ∩B) = IP(A) · IP(B) =1

4× 1

13=

1

52.

∴ A y B son eventos independientes.

b) El evento “Sale rey o sale trebol”, tiene una probabilidad asociada:

CF (A ∪B) = 4 + 13− 1 =⇒ IP(A ∪B) =16

52,

pero por el teorema, se tiene:

IP(A ∪B) = IP(A) + IP(B)− IP(A ∩B) =13

52+

4

52− 1

52=

16

52.

c) Sea el evento C: “Sale diamante”, ¿cual sera la probabilidad del evento

A ∩ C?

Carlos Bustos-Lopez

Page 162: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 160

Notemos que la ocurrencia del evento C, impide la ocurrencia del evento

A, luego:

P (A ∩ C) = 0 .

∴ A y C son eventos excluyentes.

Definicion 3.1.8 (Probabilidad Condicional) Si se tienen dos sucesos

posibles A y B en Ω, con IP(B) > 0, entonces la probabilidad de que ocurra

A dado que ya ocurrio B, esta dada por:

IP(A|B) =IP(A ∩B)

IP(B).

Teorema 3.1.1 (Teorema de Probabilidad Total) Sean los siguientes even-

tos Bi en Ω, con i = 1, 2, . . . , n, se dira que son una particion del espacio

muestral Ω, exhaustiva y excluyente, si:

i)n⋃

i=1

Bi = Ω.

ii) Bi ∩Bj = φ, ∀ i 6= j.

Ademas, sea A un suceso cualquiera en Ω, de tal forma que podemos escribir

el suceso A como:

A = A ∩ Ω ,

= A ∩ (B1 ∪B2 ∪ · · · ∪Bn) ,

= (A ∩B1) ∪ (A ∩B2) ∪ · · · ∪ (A ∩Bn) =n⋃

i=1

(A ∩Bi) ,

Carlos Bustos-Lopez

Page 163: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 161

entonces, utilizando

IP(A|Bi) =IP(A ∩Bi)

IP(Bi), ∀ i = 1, 2, . . . , n ,

se tiene que:

IP(A) = IP

(n⋃

i=1

(A ∩Bi)

),

= IP(A ∩B1) + IP(A ∩B2) + · · ·+ IP(A ∩Bn) ,

= IP(A|B1)IP(B1) + IP(A|B2)P (B2) + · · ·+ IP(A|Bn)P (Bn) ,

=n∑

i=1

IP(A|Bi)IP(Bi) .

Ejemplo 3.1.6 Sea el siguiente experimento E: “Se lanzan dos dados cubicos

equilibrados y se observan sus resultados”, ademas se ha observado que la

suma T es impar. Determinar la probabilidad de que la suma sea menor a 8.

Definamos los siguientes eventos:

A := T < 8, es decir, la suma es menor a 8.

B := T impar.

Entonces, el evento A ∩ B (“la suma es menor que 8 y es impar”) tiene

los siguientes elementos:

A ∩B = 3, 5, 7 .

Ademas, el espacio muestral Ω es el siguiente:

Carlos Bustos-Lopez

Page 164: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 162

Dado 1

+ 1 2 3 4 5 6

1 2 3 4 5 6 7

2 3 4 5 6 7 8

Dado 2 3 4 5 6 7 8 9

4 5 6 7 8 9 10

5 6 7 8 9 10 11

6 7 8 9 10 11 12

Entonces las probabilidades asociadas a los eventos son:

P (B) = 1836

= 12.

P (A ∩B) = 1236

= 13.

Reemplazando se tiene que,

IP(A|B) =IP(A ∩B)

IP(B)=

1/3

1/2=

2

3.

Teorema 3.1.2 (Teorema de la Multiplicacion) Sean A1, A2, . . . , An ∈Ω, eventos cualquiera, entonces:

IP

n\

i=1

Ai

!=

8><>:

Qni=1 IP(Ai) , si los Ai son independientes.

IP(A1)IP(A2|A1)IP(A3|A1 ∩A2) · · · IP“An|

Tn−1i=1 Ai

”, si los Ai no son independientes.

Teorema 3.1.3 (Teorema de Bayes) Si un espacio muestral Ω esta for-

mado por A1, A2, . . . , An particiones y conocemos la ocurrencia de un suceso

B, que esta en Ω; entonces para determinar la probabilidad de que un suceso

cualquiera de la particion ocurra dado que ocurrio B, esta dado por:

IP(Ai|B) =IP(B|Ai)IP(Ai)

n∑j=1

IP(B|Aj)IP(Aj)

,∀ i = 1, 2, . . . , n .

Carlos Bustos-Lopez

Page 165: Apuntes Inferencia Estadistica

CAPITULO 3. PROBABILIDADES 163

Ejemplo 3.1.7 En la fabricacion de un lote de artıculos, intervienen tres

maquinas: M1, M2 y M3. Se sabe que el 20% de los artıculos del lote provienen

de M1, el 30% de M2 y el resto de M3. Ademas, la maquina M1 produce un

1% de artıculos defectuosos, M2 un 2% y M3 un 3%. Se selecciona un artıcu-

lo al azar del lote y se observa que es defectuoso. Determinar la probabilidad

de que el artıculo haya sido fabricado por M2.

Definamos los siguientes eventos:

Ai:= el artıculo seleccionado proviene de la maquina Mi, con i = 1, 2, 3.

B:= el artıculo es defectuoso.

Del enunciado se tiene que:

IP(A1) = 0,2 , IP(A2) = 0,3 , IP(A3) = 0,5

IP(B|A1) = 0,01 , IP(B|A2) = 0,02 , IP(B|A3) = 0,03 .

Luego, la probabilidad pedida es:

IP(A2|B) =IP(B|A2)IP(A2)3∑

i=1

IP(B|Ai)IP(Ai)

,

=0,02× 0,3

0,01× 0,2 + 0,02× 0,3 + 0,03× 0,5,

=0,006

0,023,

≈ 0,26 .

Carlos Bustos-Lopez

Page 166: Apuntes Inferencia Estadistica

Capıtulo 4

Variables Aleatorias

4.1. Variable Aleatoria

Sea (Ω,A, IP) un espacio de probabilidad. Una variable aleatoria X es

una funcion medible desde (Ω,A) hasta (IR,B(IR)). Ademas, sea A cualquier

subconjunto de la recta real y sea IP(X ∈ A la probabilidad de que el valor

de X pertenezca al subconjunto A. Entonces IP(X ∈ A) es igual a la proba-

bilidad de que el resultado s ∈ B del experimento, sea tal que X(s) ∈ A, es

decir1:

IP(X ∈ A) = IP(s : X(s) ∈ A) .

Existen basicamente dos tipos de variables aleatorias (v.a.), las discretas

y las continuas, que se diferencias en el recorrido de sus posibles resultados.

1Definicion de distribucion de una variable aleatoria, DeGroot, 1988.

164

Page 167: Apuntes Inferencia Estadistica

CAPITULO 4. VARIABLES ALEATORIAS 165

4.1.1. Varaibles Aleatorias Discretas

La v.a. X se dice que es discreta, si su conjunto de posibles resultados

(soporte) B ∈ Ω (subconjunto numerable de los reales) es un conjunto finito

o infinito numerable.

Definicion 4.1.1 Llamaremos funcion de distribucion de probabili-

dad (f.d.p.) de la v.a. X a:

pX(x) = IP(X = x) , ∀ x ∈ B .

La cual cumple:

0 ≤ pX(x) ≤ 1 , ∀ x ∈ B .

∑x∈B p

X(x) =

∑x∈B IP(X = x) = 1 .

4.1.2. Varaibles Aleatorias Continuas

La v.a. X se dice que es continua, si su conjunto de posibles resultados

(soporte) B ∈ Ω es un conjunto infinito no numerable.

Definicion 4.1.2 Llamaremos funcion de distribucion acumulada (f.d.a.)

de la v.a. X, si existe una funcion no negativa f , definida sobre la recta real,

tal que para cualquier intervalo A:

FX(x) = IP(X ∈ A) =

A

fX(x)dx .

lımx→−∞ FX(x) = 0 .

Carlos Bustos-Lopez

Page 168: Apuntes Inferencia Estadistica

CAPITULO 4. VARIABLES ALEATORIAS 166

lımx→+∞ FX(x) = 1 .

La funcion f se denomina funcion de distribucion de probabilidad (f.d.p.) de

X. La cual cumple:

fX(x) ≥ 0 , ∀ x ∈ B .

∫∞−∞ f

X(x)dx = 1 .

Ademas, se define para todo a < b ∈ IR que la probabilidad que el valor

de X se encuentre en el intervalo [a, b] esta dada por:

IP(a ≤ X ≤ b) =

∫ b

a

fX(x)dx .

4.2. Valor Esperado

Definicion 4.2.1 Llamaremos Valor Esperado o Esperanza Matematica

de la v.a. X a:

IE(X) =∑x∈B

xIP(X = x) .

La cual cumple, que si a, b ∈ IR, y X una v.a.,

IE(aX + b) = aIE(X) + b .

Definicion 4.2.2 Llamaremos Momento de Orden k de la v.a. X a:

IE(Xk) =∑x∈B

xkIP(X = x) .

Carlos Bustos-Lopez

Page 169: Apuntes Inferencia Estadistica

CAPITULO 4. VARIABLES ALEATORIAS 167

Se dice que el momento de orden k existe si, y solo si, IE(|x|k) < ∞. Ademas, si

la v.a. es acotada, es decir, si existen a, b ∈ IR tales que IP(a ≤ X ≤ b) = 1,

entonces deben existir todos los momentos de X. Sin embargo, es posible

que todos los momentos de orden k existan, sin necesidad que la v.a. X sea

acotada.

Teorema 4.2.1 Si IE(|X|k) < ∞ para un entero positivo k, entonces IE(|X|j) <

∞ para cualquier entero positivo j tal que j < k.

Definicion 4.2.3 Llamaremos Varianza de la v.a. X a:

VVar(X) = IE((X − IE(X))2) .

La cual cumple, que si a, b ∈ IR, y X una v.a.,

VVar(aX + b) = a2VVar(X) .

Una forma mas facil de determinar el valor de la varianza de X es consideran-

do la siguiente igualdad:

VVar(X) = IE((X − IE(X))2) ,

= IE(X2 − 2XIE(X) + IE2(X)) ,

= IE(X2)− 2IE(X)IE(X) + IE(IE2(X)) ,

= IE(X2)− 2IE2(X) + IE2(X) ,

= IE(X2)− IE2(X) .

Carlos Bustos-Lopez

Page 170: Apuntes Inferencia Estadistica

CAPITULO 4. VARIABLES ALEATORIAS 168

Definicion 4.2.4 Llamaremos Funcion Generadora de Momentos (f.g.m.)

de la v.a. X, para cada valor de t ∈ IR a:

ψ(t) = IE(etX) .

Ademas, se tiene que:

ψ′(0) =

(d

dtIE(etX)

)∣∣∣∣t=0

,

= IE

[(d

dtetX

)∣∣∣∣t=0

],

= IE[(

XetX)∣∣

t=0

],

= IE [X] .

De donde se tiene que la f.g.m. ψ(t) en el punto t = 0 corresponde al primer

momento de la v.a. X. Ası se tiene que:

ψ(n)(0) =

(dn

dtnIE(etX)

)∣∣∣∣t=0

,

= IE

[(dn

dtnetX

)∣∣∣∣t=0

],

= IE[(

XnetX)∣∣

t=0

],

= IE [Xn] .

Entonces, ψ′(0) = IE(X), ψ′′(0) = IE(X2), ψ

′′′(0) = IE(X3), y ası sucesiva-

mente.

Teorema 4.2.2 Sea X una variable acleatoria cuya f.g.m., es ψ1; sea Y =

aX + b, donde a y b son constantes; y sea ψ2 la f.g.m. de Y . Entonces, para

Carlos Bustos-Lopez

Page 171: Apuntes Inferencia Estadistica

CAPITULO 4. VARIABLES ALEATORIAS 169

cualquier valor de t tal que existe ψ1(at),

ψ2(t) = ebtψ1(at) .

Dem.

ψ2(t) = IE(etY ) = IE(et(aX+b)) = IE(etaXetb) = etbIE(etaX) = ebtψ1(at) .¤

Teorema 4.2.3 Si las f.g.m., de dos variables aleatorias X1 y X2 son identi-

cas para todos los valores de t en un intervalo alrededor del punto t = 0,

entonces las distribuciones de probabilidad de X1 y X2 deben ser identicas.

Carlos Bustos-Lopez

Page 172: Apuntes Inferencia Estadistica

Capıtulo 5

Inferencia Estadıstica

5.1. Estimacion

En las secciones anteriores hemos visto distintas formas de como describir

una o dos variables poblacionales, pero en general, tabajamos con una mues-

tra que corresponde a una parte de la poblacion y nuestro interes es poder

concluir algo sobre el comportamiento de la poblacion.

Para responder a las necesidades anteriores, es necesario que utilicemos

la Estadıstica Inferencial.

Definicion 5.1.1 La Estadıstica Inferencial, permite concluir, inferir y

deducir aspectos importantes de una poblacion mediante el analisis de una

muestra de ella.

Definicion 5.1.2 Muestra Aleatoria (m.a.): Consiste en un conjunto

de variables aleatorias independientes X1, X2, . . . , Xn que tienen la misma

densidad de probabilidad fX(x|θ) de la variable X asociada a la poblacion.

170

Page 173: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 171

Definicion 5.1.3 Espacio de Informacion (⊃⊂– ): Es el conjunto de to-

das las posibles muestras aleatorias de tamano n que se pueden obtener de la

poblacion. Es decir:

⊃⊂– = (x1, x2, . . . , xn) ∈ IRn|(x1, x2, . . . , xn) es una m.a. de X.

Definicion 5.1.4 Estadıstico o estadıgrafo (T (X∼)): Es cualquier fun-

cion de las variables aleatorias que forman la muestra aleatoria y que no

depende de cantidades desconocidas.

p.e.

1. T1 =1

n

n∑i=1

Xi

2. T2 =1

n

n∑i=1

X2i

3. T3 =1

n

n∑i=1

(Xi − X)2

Definicion 5.1.5 Espacio Parametrico (Θ): El espacio parametrico es

el conjunto de todos los valores posibles que puede asumir un parametro pobla-

cional.

Carlos Bustos-Lopez

Page 174: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 172

5.2. Estimacion Puntual

Definicion 5.2.1 Parametro: Un parametro es una caracterıstica de in-

teres en la poblacion, que tiene un valor fijo, pero desconocido. Generalmente,

se denota con letras griegas (p.e. θ, µ, σ, π, ρ, etc.).

Una de las tecnicas mas utilizadas para poder describir el comportamien-

to de la poblacion es la estimacion del verdadero valor del parametro pobla-

cional, mediante un solo valor.

Existen numerosas tecnicas de estimacion puntual de los parametros, las

mas utilizadas son:

1. Metodo de los Momentos.

2. Metodo de Maxima Verosimilitud.

Carlos Bustos-Lopez

Page 175: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 173

3. Metodo de los Mınimos Cuadrados.

4. Metodos Bayesianos.

5. Metodos Robustos.

6. Metodos Computacionales.

5.2.1. Metodo de Maxima Verosimilitud

Definicion 5.2.2 La Funcion de Verosimilitud, corresponde a la fun-

cion de probabilidad conjunta de la muestra X∼ = (X1, . . . , Xn) y esta dada

por:

L(θ|x∼) =n∏

i=1

fXi(xi|θ) .

Ejemplo 5.2.1 Suponga que x∼ = (x1, x2, . . . , xn) son los datos asociados a

una muestra aleatoria (X1, X2, . . . , Xn) de una poblacion Poisson, con fun-

cion de probabilidad dada por:

fX(x|λ) =λxe−λ

x!.

La funcion de verosimilitud es:

L(λ|x∼) =n∏

i=1

fXi(xi|λ) =

n∏i=1

λXie−λ

Xi!= λ

Pni=1 Xi

e−nλ

∏ni=1 Xi!

.

El objetivo es determinar el valor del parametro que maximiza la funcion

de verosimilitud. Donde tambien se define la funcion de log-verosimilitud

como:

Carlos Bustos-Lopez

Page 176: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 174

l(λ) = ln

(λPn

i=1 Xie−nλ

∏ni=1 Xi!

),

=n∑

i=1

Xi ln(λ)− nλ− ln

(n∏

i=1

Xi!

),

=n∑

i=1

Xi ln(λ)− nλ−n∑

i=1

ln Xi! ,

∂l

∂λ=

1

λ

n∑i=1

Xi − n = 0

λMV =

∑ni=1 Xi

n.

Luego, λ = X es el estimador maximo verosimail de λ.

Ejemplo 5.2.2 Sea una poblacion con funcion de densidad:

fX(x|θ) =

1− θx

3θ−11−θ , si 0 ≤ x ≤ 1 .

El estimador maximo verosimil de θ es:

L(θ|X1, . . . , Xn) =n∏

i=1

1− θX

3θ−11−θ

i ,

=

(2θ

1− θ

)n(

n∏i=1

Xi

) 3θ−11−θ

,

l(θ|X1, . . . , Xn) = n ln 2 + n ln θ − n ln(1− θ) +3θ − 1

1− θ

n∑i=1

ln Xi ,

∂l

∂θ=

n

θ+

n

1− θ+

3(1− θ) + (3θ − 1)

(1− θ)2

n∑i=1

ln Xi = 0 ,

0 =n

θ+

n

1− θ+

2

(1− θ)2

n∑i=1

ln Xi ,

Carlos Bustos-Lopez

Page 177: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 175

2

(1− θ)2

n∑i=1

ln Xi = −n

θ− n

1− θ,

2

(1− θ)2

n∑i=1

ln Xi = −n(1− θ) + nθ

θ(1− θ),

2

(1− θ)2

n∑i=1

ln Xi = − n

θ(1− θ),

2

(1− θ)

n∑i=1

ln Xi = −n

θ,

θMV =n

n− 2∑n

i=1 ln Xi

.

Ejercicos Resueltos

1. Despues de varios reclamos de diferentes consumidores formulados al

SERNAC, la empresa de productos lacteos ZOPROLIN ha sido someti-

da a varias inspecciones para verificar la calidad del estado de conser-

vacion de la leche en envases tetra pack. Para ello a tomado una caja

al azar con 10 de estos envases donde se ha observado lo siguiente:

B, B, D, B, B,B,D,B,D,B ,

donde B la leche esta en buen estado, y D la leche esta descompuesta.

Con estos resultados, ¿Cual es la probabilidad de que al tomar cualquier

otra caja se registren 2 envases con leche descompuesta?

Des.

Claramente, el estado de la leche B o D es una variable con un com-

portamiento que puede ser representado mediante un modelo Bernoulli

Carlos Bustos-Lopez

Page 178: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 176

(Xi ∼ Ber(p)), entonces el problema se reduce a determinar la mejor

estrategia para estimar p. De esa forma, el estimador MV, se puede

extraer de:

L(p|X1, . . . , Xn) =n∏

i=1

pXi(1− p)1−Xi ,

= pPn

i=1 Xi(1− p)n−Pni=1 Xi ,

l(p|X1, . . . , Xn) =n∑

i=1

Xi ln(p) + (n−n∑

i=1

Xi) ln(1− p) ,

∂l

∂p=

∑ni=1 Xi

p+

n−∑ni=1 Xi

(1− p)(−1) = 0 ,

0 = (1− p)n∑

i=1

Xi − p(n−n∑

i=1

Xi) ,

p =1

n

n∑i=1

Xi .

2. Considere una m.a., proveniente de una distribucion Poisson de parametro

λ. Determine el EMV de λ. Des.

L(λ|X1, . . . , Xn) =n∏

i=1

λXie−λ

Xi!=

λPn

i=1 Xie−nλ

∏ni=1 Xi!

,

l(λ|X1, . . . , Xn) =n∑

i=1

Xi ln(λ)− nλ− ln

(n∏

i=1

Xi!

),

∂l

∂λ=

1

λ

n∑i=1

Xi − n = 0 ,

λ =1

n

n∑i=1

Xi .

Carlos Bustos-Lopez

Page 179: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 177

3. Considere una m.a., proveniente de una distribucion Rayleigh de parametro

σ2. Determine el EMV de σ2. Des.

L(σ2|X1, . . . , Xn) =n∏

i=1

Xi

σ2e−

X2i

2σ2 ,

=1

σ2n

n∏i=1

Xie− 1

2σ2

Pni=1 X2

i ,

l(σ2|X1, . . . , Xn) =n∑

i=1

ln Xi − n ln σ2 − 1

2σ2

n∑i=1

X2i ,

∂l

∂σ2= − n

σ2−

∑ni=1 X2

i

2

(−1)

(σ2)2= 0 ,

σ2 =

∑ni=1 X2

i

2n.

4. Considere una m.a., proveniente de una distribucion Exponencial de

parametro λ. Determine el EMV de λ. Des.

L(λ|X1, . . . , Xn) =n∏

i=1

λe−λXi = λne−λPn

i=1 Xi ,

l(λ|X1, . . . , Xn) = n ln λ− λ

n∑i=1

Xi ,

∂l

∂λ=

n

λ−

n∑i=1

Xi = 0 ,

λ =n∑n

i=1 Xi

.

Carlos Bustos-Lopez

Page 180: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 178

5. Considere una m.a., proveniente de una distribucion Gama de paramet-

ros α y β. Determine el EMV de β. Des.

L(α|β,X1, . . . , Xn) =n∏

i=1

βα

Γ(α)Xα−1

i e−βXi ,

=βnα

Γ(α)n

(n∏

i=1

Xi

)α−1

e−βPn

i=1 Xi ,

l(α|β, X1, . . . , Xn) = nα ln β − n ln Γ(α) + (α + 1)n∑

i=1

ln Xi − β

n∑i=1

Xi ,

∂l

∂β=

β−

n∑i=1

Xi = 0 ,

β =nα∑ni=1 Xi

.

6. Considere una m.a., proveniente de una distribucion Weibull de paramet-

ros α y θ. Determine el EMV de θ. Des.

L(θ|α,X1, . . . , Xn) =n∏

i=1

α

βαXα−1

i e−(Xiθ )

α

,

=αn

βnα

(n∏

i=1

Xi

)α−1

e−Pn

i=1(Xiθ )

α

,

l(α|β,X1, . . . , Xn) = n ln α− nα ln θ + (α− 1)n∑

i=1

ln Xi −n∑

i=1

Xαi

θα,

Carlos Bustos-Lopez

Page 181: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 179

∂l

∂θ= −nα

θ−

n∑i=1

Xαi

(−α)

θα+1= 0 ,

n∑i=1

Xαi

α

θα+1=

θ,

θα =

∑ni=1 Xα

i

n,

θ =

(∑ni=1 Xα

i

n

)1/α

.

7. Considere una m.a., proveniente de una distribucion Normal de paramet-

ros µ y σ. Determine los EMV de µ y σ. Des.

L(µ, σ2|X1, . . . , Xn) =n∏

i=1

1√2πσ2

e−1

2σ2 (Xi−µ)2 ,

=

(1

)n/21

(σ2)n/2e−

12σ2

Pni=1(Xi−µ)2 ,

l(µ, σ2|X1, . . . , Xn) = −n

2ln 2π − n

2ln σ2 − 1

2σ2

n∑i=1

(Xi − µ)2 ,

∂l

∂µ= − 1

2σ22

n∑i=1

(Xi − µ)(−1) = 0 ,

∂l

∂σ2= − n

2σ2− 1

2

n∑i=1

(Xi − µ)2 (−1)

(σ2)2= 0 ,

∑ni=1(Xi − µ)

σ2= 0 ⇒ µ =

1

n

n∑i=1

Xi ,

∑ni=1(Xi − µ)2

2(σ2)2=

n

2σ2⇒ σ2 =

1

n

n∑i=1

(Xi − µ)2 .

Carlos Bustos-Lopez

Page 182: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 180

8. Considere una m.a., proveniente de una distribucion fX(x|θ) = (β +

1)xβ de parametro β. Determine el EMV de β. Des.

L(β|X1, . . . , Xn) =n∏

i=1

(β + 1)Xβi ,

= (β + 1)n

n∏i=1

Xβi ,

l(β|X1, . . . , Xn) = n ln(β + 1) + β

n∑i=1

ln Xi ,

∂l

∂β=

n

β + 1+

n∑i=1

= ln Xi = 0 ,

β = −(

n∑ni=1 ln Xi

+ 1

).

5.2.2. Metodo de los Momentos

Consiste en sustituir los momentos poblacionales de la distribucion con

los respectivos momentos muestrales. Luego se construye un sistema de ecua-

ciones p-dimencional1.

Definicion 5.2.3 Sea x∼ = (x1, x2, . . . , xn) los datos asociados a una m.a.,

(X1, X2, . . . , Xn), se define el momento muestral de orden k (k ∈ IN),

como:

mk =1

n

n∑i=1

xki .

1El fundamento de esta tecnica es la convergencia de los momentos muestrales a los

momentos poblacionales a medida que el tamano de la muestra n aumenta.

Carlos Bustos-Lopez

Page 183: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 181

Definicion 5.2.4 Sea X una v.a., se define el momento poblacional de

orden k (k ∈ IN), como:

µk = IE(Xk) =

∑x∈B xkp

X(x) , si X es discreta.

∫∞−∞ xkf

X(x|θ) , si X es continua.

Si p es el numero de parametros a estimar, entonces el estimador de momentos

de θ se obtiene al resolver el sistema2:

µ1 = m1

µ2 = m2

...

µp = mp

Ejemplo 5.2.3 Suponga que (X1, X2, . . . , Xn) es una m.a., de una poblacion

Poisson, con parametro λ. En este caso hay un solo parametro y se necesita

solo una ecuacion:

µ1 = m1 =⇒ λ =1

n

n∑i=1

xi =⇒ λ = x .

Ejemplo 5.2.4 Sea una poblacion con funcion de densidad:

fX(x|θ) =

1− θx

3θ−11−θ , si 0 ≤ x ≤ 1 .

2Este sistema podrıa ser no lineal.

Carlos Bustos-Lopez

Page 184: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 182

El estimador por el metodo de los momentos de θ es:

IE(X) =2θ

1− θ

∫ 1

0

x · x 3θ−11−θ dx ,

=2θ

1− θ

∫ 1

0

x2θ

1−θ dx ,

=2θ

1− θ

x2θ

1−θ+1

2θ1−θ

+ 1

∣∣∣∣∣

1

0

,

=2θ

1− θ

1θ−11−θ

,

=2θ

1 + θ.

=⇒ 2θ

1 + θ= X ,

2θ = X(θ + 1) ,

2θ = Xθ + X ,

2θ − Xθ = X ,

θ(2− X) = X ,

θ =X

2− X.

5.2.3. Propiedades de los Estimadores Puntuales

1. Insesgamiento

Definicion 5.2.5 Un estimador es Insesgado, si el valor medio

de todas sus estimaciones obtenidas con una muestra de tamano n, es

igual al parametro que estima. Por lo tanto, si θ es el parametro y θ su

Carlos Bustos-Lopez

Page 185: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 183

estimador insesgado, se debe cumplir que:

IE(θ) = θ .

Teorema 5.2.1 Si X1, X2, . . . , Xn es una m.a., de n variables que

tienen la misma media µ y la misma varianza σ2, se cumple que X, la

media de la muestra, es un estimador insesgado de µ y su varianza es

σ2/n.

Proof: Sea X = 1n

∑ni=1 Xi, entonces,

IE(X) = IE

(∑ni=1 Xi

n

),

=1

n

n∑i=1

IE(Xi) ,

=1

n

n∑i=1

µ ,

=n

nµ ,

= µ .

Luego, X es un estimador insesgado del parametro µ.

Carlos Bustos-Lopez

Page 186: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 184

Por otra parte:

VVar(X) = VVar

(∑ni=1 Xi

n

),

=1

n2

n∑i=1

VVar(Xi) ,

=1

n2

n∑i=1

σ2 ,

=n

n2σ2 ,

=σ2

n.

Teorema 5.2.2 Si la varianza S2 de una m.a., de tamano n, de una

poblacion con media µ y varianza σ2, se define como:

S2 =1

n− 1

n∑i=1

(Xi − X)2 ,

se cumple que IE(S2) = σ2, es decir S2 es un estimador insesgado de

la varianza de la poblacion.

Proof:

IE(S2) = IE

(1

n− 1

n∑i=1

(Xi − X)2

),

=1

n− 1

n∑i=1

IE(Xi − X)2 ,

=1

n− 1

n∑i=1

IE(X2i − 2XiX + X2) ,

=1

n− 1

n∑i=1

(IE(X2

i )− 2IE(XiX) + IE(X2))

,

Carlos Bustos-Lopez

Page 187: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 185

Pero,

IE(X2i ) = σ2 + µ2 ,

IE(X2) =σ2

n+ µ2 ,

IE(XiX) = IE

(Xi

∑nj=1 Xj

n

),

=1

n

n∑j=1

IE(XiXj) ,

=1

n

(n∑

j=1,i6=j

IE(XiXj) + IE(X2i )

),

=1

n

((n− 1)µ2 + σ2 + µ2

),

=n

nµ2 +

σ2

n,

= µ2 +σ2

n,

IE(S2) =1

n− 1

n∑i=1

(σ2 + µ2 − 2

(µ2 +

σ2

n

)+

σ2

n+ µ2

),

= σ2 .

Teorema 5.2.3 Si el estimador p de la proporcion p de elementos de

una poblacion que tienen cierto atributo se define como:

p =

∑ni=1 Xi

n, Xi =

1 elemento i-esimo posee el atributo.

0 si no.

Se cumple que p es un estimador insesgado de p, y la varianza de p es

p(1− p)/n.

Carlos Bustos-Lopez

Page 188: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 186

Proof:

IE(p) = IE

(∑ni=1 Xi

n

)=

1

n

n∑i=1

Xi ,

pero

IE(Xi) = 1 · p + 0 · (1− p) = p ,

entonces,

IE(p) =1

n

n∑i=1

p =n

np = p .

VVar(p) = VVar

(1

n

n∑i=1

Xi

)=

1

n2

n∑i=1

VVar(Xi) ,

pero

VVar(Xi) = IE(X2i )− IE2(Xi) = p− p2 = p(1− p) ,

entonces,

VVar(p) =1

n2

n∑i=1

p(1− p) =n

n2p(1− p) =

p(1− p)

n.

Ejemplo 5.2.5 Consideremos la siguiente poblacion P1, 2, 3, 4. La

media y la varianza poblacionales son respectivamente 2.5 y 1.25. Sacare-

mos todas las muestras posibles con sustitucion de tamano 2 y evalua-

remos en cada una la media y su varianza y verificaremos que son

Carlos Bustos-Lopez

Page 189: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 187

estimadores insesgados.

Muestra Xi S2i Muestra Xi S2

i

(1, 1) 1 0 (3, 1) 2 2

(1, 2) 1, 5 0, 5 (3, 2) 2, 5 0, 5

(1, 3) 2 2 (3, 3) 3 0

(1, 4) 2, 5 4, 5 (3, 4) 3, 5 0, 5

(2, 1) 1, 5 0, 5 (4, 1) 2, 5 4, 5

(2, 2) 2 0 (4, 2) 3 2

(2, 3) 2, 5 0, 5 (4, 3) 3, 5 0, 5

(2, 4) 3 2 (4, 4) 4 0

Note que, ¯X =∑16

i=1 Xi/16 = 40/16 = 2,5, que corresponde a la media

poblacional. Ademas,∑16

i=1 S2i /16 = 20/16 = 1,25, que es la varianza

de la poblacion.

2. Consistencia

La consistencia de un estimador esta relacionada con su proximidad al

parametro que estima cuando el tamano de la muestra que se utiliza

tiende a ser infinita. Este es el concepto de convergencia en probabili-

dad.

Definicion 5.2.6 Un estimador θ de un parametro θ es consistente

si se cumple que:

lımn−→∞

IP(|θ − θ| ≤ ε) = 1 .

Carlos Bustos-Lopez

Page 190: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 188

Teorema 5.2.4 Si θ es un estimador del parametro θ que cumple:

a) lımn−→∞ IP(IE(θ)− θ) = 0.

b) lımn−→∞ VVar(θ) = 0.

entonces, θ es un estimador consistente.

Ejemplo 5.2.6 De una poblacion con media IE(X) = µ y varianza

VVar(X) = σ2, se extrae una m.a., (X1, X2, . . . , Xn). Determine que X

y S2 son consistente.

lımn−→∞

IP(IE(X)− µ) = lımn−→∞

IP(µ− µ) = 0 ,

lımn−→∞

VVar(θ) = lımn−→∞

σ2

n= 0 .

∴ X es consistente.

Carlos Bustos-Lopez

Page 191: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 189

lımn−→∞

IP(IE(S2)− σ2) = lımn−→∞

VVar

(∑ni=1(Xi − X)2

n− 1

),

= lımn−→∞

1

(n− 1)2VVar

(n∑

i=1

(Xi − X)2

),

= lımn−→∞

1

(n− 1)2VVar

(n∑

i=1

(X2i − 2XiX + X2)

),

= lımn−→∞

1

(n− 1)2VVar

(n∑

i=1

X2i − nX2

),

= lımn−→∞

1

(n− 1)2VVar

(n∑

i=1

X2i

),

= lımn−→∞

1

(n− 1)2

(n∑

i=1

VVar(X2i ) + 2

∑i<j

Cov(Xi, Xj)

),

= lımn−→∞

1

(n− 1)2

(n∑

i=1

(σ2 + µ2)

),

= lımn−→∞

n

(n− 1)2

(σ2 + µ2

)= 0 .

Teorema 5.2.5 Si θ1 es un estimador consistente del parametro θ1 y

θ2 es un estimador consistente del parametro θ2 se cumple que:

a) θ1 + θ2 es un estimador consistente de θ1 + θ2.

b) θ1θ2 es un estimador consistente de θ1θ2.

c) θ1/θ2 es un estimador consistente de θ1/θ2.

3. Varianza Mınima

Carlos Bustos-Lopez

Page 192: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 190

Definicion 5.2.7 Un estimador insesgado de un parametro es llamado

de varianza mınima, cuando tiene la menor varianza entre todos los

posibles estimadores insesgados del parametro3.

Ejemplo 5.2.7 Suponga que de una poblacion con IE(X) = θ y VVar(X) =

σ2 se saca una muestra de tamano 3. Decida cual de los siguientes es-

timadores es mejor:

θ1 =1

4X1 +

1

2X2 +

1

4X3 .

θ2 = X .

Des.

IE(θ1) = IE

(1

4X1 +

1

2X2 +

1

4X3

),

=1

4IE(X1) +

1

2IE(X2) +

1

4IE(X3) ,

=1

4θ +

1

2θ +

1

4θ ,

= θ .

3El estimador que tenga la menor varianza es tambien llamado el mejor de todos los

estimadores.

Carlos Bustos-Lopez

Page 193: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 191

Luego θ1 es insesgado.

IE(θ2) = IE(X

)= IE

(1

3

3∑i=1

Xi

),

=1

3

3∑i=1

IE(Xi) ,

=1

3

3∑i=1

θ ,

= θ .

Luego θ2 es insesgado.

VVar(θ1) = VVar

(1

4X1 +

1

2X2 +

1

4X3

),

=1

42VVar(X1) +

1

22VVar(X2) +

1

42VVar(X3) ,

=1

42σ2 +

1

22σ2 +

1

42σ2 ,

=3

8σ2 .

VVar(θ2) = VVar(X

)= VVar

(1

3

3∑i=1

Xi

),

=1

32

3∑i=1

VVar(Xi) ,

=1

32

3∑i=1

σ2 ,

=σ2

3.

Luego θ2 es mejor, puesto que tiene menor varianza.

4. Error Cuadratico Medio

Carlos Bustos-Lopez

Page 194: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 192

Definicion 5.2.8 El error cuadratico medio es el valor esperado

de la desviacion cuadratica entre el estimador y el parametro que esti-

ma.

MSE(θ) = IE(θ − θ)2 ,

= VVar(θ) + b2(θ) ,

= IE[(θ − IE(θ))2] + (IE(θ)− θ)2 .

De acuerdo a los valores que pueda tomar el parametro, es posible que

un estimador sesgado sea mejor que uno insesgado.

Ejemplo 5.2.8 Suponga que θ1 y θ2 son dos estimadores del parametro

θ. Sebemos que:

IE(θ1) = θ VVar(θ1) = 3 ,

IE(θ2) = 0,9θ VVar(θ1) = 2 .

Des.

MSE(θ1) = 3 + (θ − θ)2 = 3 ,

IE(θ2) = 2 + (0,9θ − θ)2 = 2 + 0,01θ2 .

Si |θ| > 10, θ1 es mejor que θ2.

Si |θ| < 10, θ2 es mejor que θ1.

5. Suficiencia

Carlos Bustos-Lopez

Page 195: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 193

Dada una poblacion distribuida fX(x|θ), que depende de un solo parametro

θ se saca una muestra aleatoria (X1, X2, . . . , Xn) y una estadıstica

θ = g(X1, X2, . . . , Xn) es utilizada para estimar θ.

Dado que θ es una sola variable aleatoria, y disponıamos de n variables

aleatorias, cabe preguntarse si se “perdio” alguna informacion al usar

θ.

Por ejemplo, si θ = X1, es evidente que no fue usada toda la informa-

cion.

Definicion 5.2.9 Una estadıstica θ que contenga toda la “informa-

cion” respecto al parametro que esta en la muestra, recibe el nombre

de Estadıstica Suficiente. Ningun otro estimador definido con la

misma muestra puede suministrar informacion adicional respecto a θ.

Teorema 5.2.6 Sea (X1, X2, . . . , Xn) una m.a., sacada de la poblacion

fX(x|θ). Si:

g(X1, X2, . . . , Xn|θ) =n∏

i=1

fX(xi|θ) ,

yn∏

i=1

fX(xi|θ) = h(θ, θ)g(x1, x2, . . . , xn) ,

en donde g(x1, x2, . . . , xn) no depende de θ, entonces θ es una estadısti-

ca suficiente para θ.

Carlos Bustos-Lopez

Page 196: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 194

Ejemplo 5.2.9 Sea (X1, X2, . . . , Xn) de X N(µ, 1).

n∏i=1

1√2π

e−12(xi−µ)2 = (2π)−

n2 e−

12

Pni=1(xi−µ)2 ,

= (2π)−n2 e−

12

Pni=1((xi−x)(x−µ))2 ,

= (2π)−n2 e−

12 [Pn

i=1(xi−x)2+n(x−µ)2] ,

= (2π)−n2 e−

12

Pni=1(xi−x)2e−

12n(x−µ)2 .

Luego x es estadıstica suficiente para µ.

6. Suficiente Minimal

Una estadıstica suficiente que resume los datos tanto como sea posible

es llamada Estadıstica Suficiente Minimal.

Para encontrar estadısticas suficientes minimales uasaremos metodos

de Lehmann y Scheffe.

Definicion 5.2.10 Sean x1, x2, . . . , xn e y1, y2, . . . , yn dos conjuntos de

valores que toman todas las variables (X1, X2, . . . , Xn) de la m. a. Si

se forma la razon:

f(x1|θ)f(x2|θ) · · · f(xn|θ)f(y1|θ)f(y2|θ) · · · f(yn|θ) ,

esta razon no incluira al parametro θ si existe una funcion g tal que:

g(x1, x2, . . . , xn) = g(y1, y2, . . . , yn) ,

en tal caso g(y1, y2, . . . , yn) es la estadıstica suficiente minimal para θ.

Carlos Bustos-Lopez

Page 197: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 195

Ejemplo 5.2.10 Sea X Ber(n, p), se forma la razon:

px1(1− p)1−x1 · · · pxn(1− p)1−xn

py1(1− p)1−y1 · · · pyn(1− p)1−yn=

pPn

i=1 xi(1− p)n−Pni=1 xi

pPn

i=1 yi(1− p)n−Pni=1 yi

,

=pPn

i=1 xi−Pn

i=1 yi

(1− p)n−Pni=1 yi−(n−Pn

i=1 xi),

=pPn

i=1 xi−Pn

i=1 yi

(1− p)Pn

i=1 xi−Pn

i=1 yi,

=

(p

1− p

)Pni=1 xi−

Pni=1 yi

,

si∑n

i=1 xi =∑n

i=1 yi la razon es independiente de p. Luego g =∑n

i=1 yi

es estadıstica minimal suficiente. Es decir, p =∑n

i=1 yi/n es estimador

que contiene toda la informacion de la muestra con un mınimo de

datos4.

7. Eficiencia

En el estudio de la consistencia de un estimador se percibe que mientras

menor es la varianza de un estimador incrementa la posibilidad de

obtener estimaciones mas proximas al verdadero valor del parametro

que se estima. Luego, mientras mas pequena es su varianza, mayor es

la eficiencia del estimador.

Definicion 5.2.11 Un estimador insesgado θ es el mas eficiente de

todos los estimadores insesgados si su varianza satisface la cota inferior

4Este es, por lo tanto, un estimador insesgado lineal de mınima varianza (MVUE).

Carlos Bustos-Lopez

Page 198: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 196

de la desigualdad de Rao-Cramer.

VVar(θ) ≥ 1

nIE

[(∂lnf

X(x|θ)

∂θ

)2] .

Ejemplo 5.2.11 Si X es evaluado con valores de una m. a., (X1, X2, . . . , Xn)

sacada de una distribucion normal con varianza σ20 conocida, demostrar

que X es el estimador mas eficiente para estimar la media µ.

fX(x|µ) =

1√2πσ2

0

e− 1

2σ20(x−µ)2

,

lnfX(x|µ) =

1

2ln(2πσ2

0)−1

2σ20

(x− µ)2 ,

∂lnfX(x|µ)

∂µ= −2(x− µ)

2σ20

(−1) ,

IE

[(∂lnf

X(x|µ)

∂µ

)2]

= IE

[(2(x− µ)

2σ20

)2]

=1

σ40

IE[(x− µ)2] ,

IE

[(∂lnf

X(x|µ)

∂µ

)2]

=σ2

0

σ40

,

nIE

[(∂lnf

X(x|µ)

∂µ

)2]

=n

σ20

,

1

nIE

[(∂lnf

X(x|µ)

∂µ

)2] =

σ20

n= VVar(X) .

Luego X es un estimador eficiente de la media poblacional µ, puesto

que alcanza la cota de Rao-Cramer.

8. Eficiencia Relativa

Carlos Bustos-Lopez

Page 199: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 197

Definicion 5.2.12 Si hay dos estimadores θ1 y θ2 insesgado, para el

mismo parametro θ el estimador θ2 es mas eficiente que θ1 si:

VVar(θ2) < VVar(θ1) ,

⇔ VVar(θ2)

VVar(θ1)< 1 .

Nos enfocaremos principalmente en el metodo de Maxima Verosimili-

tud

Propiedades de los estimadores de Maxima Verosimilitud (MV).

1. Insesgamiento: Los estimadores MV pueden ser sesgados, pero al incre-

mentar el tamano de la muestra n se hacen asintoticamente insesgados.

2. Consistencia: Bajo condiciones regulares los estimadors MV son con-

sistentes.

3. Invarianza: Si existe una funcion de un parametro, se obtiene un esti-

mador de la funcion sustituyendo el parametro por su estimador MV.

p.e. g(θ) es estimada por g(θ) = g(θ) . Distribucion Asintoticamente

Normal

θ ∼ N(θ, VVar(θ)) .

Carlos Bustos-Lopez

Page 200: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 198

Parametro Estimador Puntual

Media µ ⇒ X =Pn

i=1 Xi

n

Varianza σ2 ⇒ S2 =Pn

i=1(Xi−X)2

n−1

Proporcion π ⇒ p =Pn

i=1 Yi

n, donde Yi =

1 cumple condicion

0 si no

Correlacion ρ ⇒ rXY

=Pn

i=1 XiYi−nXYq(Pn

i=1 X2i −nX2)(

Pni=1 Y 2

i −nY 2)

5.2.4. Estimacion Intervalar

Otro procedimiento que permite tener una estimacion del verdadero va-

lor del parametro poblacional es, mediante intervalos de confianza, es decir,

construir rangos de valores posibles para el verdadero valor del parametro

mediante la distribucion asociada al estimador del parametro de interes.

Definicion 5.2.13 Un intervalo de confianza de un nivel de (1−α)×100 %,

para el parametro θ, esta dado por:

P (LIθ ≤ θ ≤ LSθ) = 1− α ,

donde LIθ corresponde al lımite inferior de la estimacion para el parametro

θ y LSθ corresponde al lımite superior de la estimacion para el parametro θ.

Carlos Bustos-Lopez

Page 201: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 199

De esa forma, si se desea construir un intervalo de confianza con un nivel de

(1−α)×100 % para θ, es necesario conocer la distribucion muestral de θ que

es el estimador puntual de θ.

En general, los estimadosres de maxima verosimilitud tienen las siguientes

distribuciones:

X ∼ N(µ, σ2

n

), si n es grande.

(X−µ)√

nS

∼ t(n−1), si n es pequeno.

p ∼ N(π, π(1−π)

n

).

S2 ∼ σ2

(n−1)χ2

(n−1).

Carlos Bustos-Lopez

Page 202: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 200

Intervalo de confianza para la media con varianza conocida:

IC(µ) =

(X − Z1−α

2

σ√n

; X + Z1−α2

σ√n

)

⇔ IP

(X − Z1−α

2

σ√n≤ µ ≤ X + Z1−α

2

σ√n

)= 1− α

Intervalo de confianza para la media con varianza desconocida y n lo

suficientemente grande5 (n →∞):

IC(µ) =

(X − Z1−α

2

S√n

; X + Z1−α2

S√n

)

5Tamanos muestrales de al menos 30 observaciones, han entregado buenos resultados

al ser considerados como grandes.

Carlos Bustos-Lopez

Page 203: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 201

⇔ IP

(X − Z1−α

2

S√n≤ µ ≤ X + Z1−α

2

S√n

)= 1− α

Intervalo de confianza para la media con varianza desconocida y n

pequeno:

IC(µ) =

(X − t(n−1 , 1−α

2 )S√n

; X + t(n−1 , 1−α2 )

S√n

)

⇔ IP

(X − t(n−1 , 1−α

2 )S√n≤ µ ≤ X + t(n−1 , 1−α

2 )S√n

)= 1− α

Intervalo de confianza para la varianza:

IC(σ2) =

(n− 1)S2

χ2

(n−1 , 1−α2 )

;(n− 1)S2

χ2

(n−1 , α2 )

⇔ IP

(n− 1)S2

χ2

(n−1 , 1−α2 )

≤ σ2 ≤ (n− 1)S2

χ2

(n−1 , α2 )

= 1− α

Intervalo de confianza para la proporcion:

IC(π) =

(p− Z1−α

2

√p(1− p)

n; p + Z1−α

2

√p(1− p)

n

)

⇔ IP

(p− Z1−α

2

√p(1− p)

n≤ π ≤ p + Z1−α

2

√p(1− p)

n

)= 1− α

Ejemplo 5.2.12 Las manadas de lobos son territoriales, con territorios de

130km2 o mas. Se piensa que los aullidos de los lobos, que comunican tanto

de la situacion como de la composicion de la manada, estan relacionados

con la territorialidad. Se obtuvieron los siguientes valores para la duracion

en minutos de una sesion de aullidos de una determinada manada sometida

a estudio.

Carlos Bustos-Lopez

Page 204: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 202

1.0 1.8 1.6 1.5 2.0 1.8

1.2 1.9 1.7 1.6 1.6

1.7 1.5 1.4 1.4 1.4

Una estimacion puntual para la duracion media de una sesion de aullidos

en esta manada es x = 1,57 minutos.

La varianza muestral para estos datos es s2 = 0,066(minutos)2.

Nos interesa determinar los rangos maximo y mınimo de la duracion

promedio de los aullidos.

Si consideramos un intervalo de confianza del 95 %, se tiene que:

IC(µ) = 1,57∓ 2,1310,26√

16,

= 1,57∓ 0,14 ,

= (1,43 minutos; 1,71 minutos) .

Si consideramos un intervalo de confianza del 99 %, se tiene que:

IC(µ) = 1,57∓ 2,9470,26√

16,

= 1,57∓ 0,19 ,

= (1,38 minutos; 1,76 minutos) .

Carlos Bustos-Lopez

Page 205: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 203

5.3. Docima de Hipotesis

5.3.1. Introduccion

Definicion 5.3.1 Una Docima de hipotesis estadıstica es, la comprobacion

de una afirmacion o conjetura sobre algun parametro de la poblacion. Basica-

mente se pueden distinguir dos tipos de hipotesis:

Hipotesis Nula (H0): Es el verdadero estado de la naturaleza (Sin

cambio).

Hipotesis Alternativa (H1): Es el posible estado de la naturaleza

(Despues del cambio).

Basicamente, existen dos formas de docimas de hipotesis, las docimas

unilaterales (una cola) y las bilaterales (dos colas).

H0 : θ ≥ θ0 v/s H1 : θ < θ0 H0 : θ ≤ θ0 v/s H1 : θ > θ0

H0 : θ = θ0 v/s H1 : θ 6= θ0

Carlos Bustos-Lopez

Page 206: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 204

5.3.2. Docimas

Para plantear una hipotesis estadıstica se pueden seguir los siguientes

pasos:

1. Establesca la hipotesis nula y alternativa en el contexto del problema.

2. Establesca la hipotesis nula y alternativa estadısticas.

3. Seleccione un nivel de significancia.

4. Describa la distribucion de la poblacion y del estadıgrafo.

5. Calcule el estadıstico de prueba.

6. Determine el o los valores crıticos.

7. Defina la region de rechazo de la hipotesis nula (regla de decision).

8. Tome la decision con respecto de la hipotesis nula.

9. Interprete sus resultados en el contexto del problema.

Al momento de realizar una docima de hipotesis, tambien hay que con-

siderar que se pueden cometer los siguientes errores:

Carlos Bustos-Lopez

Page 207: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 205

H0

Decision sobre H0 Verdadera Falsa

Aceptar H0 Decision Correcta Error Tipo II

1− α β

Rechazar H0 Error Tipo I Decision Correcta

α 1− β

Se prefiere siempre que α > β.

5.3.3. Docimas Univariadas

Ejemplo 5.3.1 La contaminacion de los rıos por metales pesados, constituye

una de las mayores preocupaciones de los gobiernos. Se sabe que el nivel

de metilmercurio tiene una distribucion normal con varianza conocida de

9(µg/g)2. Queremos saber si los resultados obtenidos en el ultimo estudio el

nivel medio de metilmercurio es superior a 21,0(µg/dl).

Podemos plantear las siguientes hipotesis:

H0 : µ ≤ 21,0(µg/g) El nivel medio de metilmercurio no es superior a

21,0(µg/g).

H1 : µ > 21,0(µg/g) El nivel medio de metilmercurio no es superior a

21,0(µg/g).

Supongamos que tomamos una muestra de 16 observaciones de agua,

dispuestas uniformemente a lo largo de la rivera, con lo que tendremos

Carlos Bustos-Lopez

Page 208: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 206

x1, . . . , x16.

x =

∑16i=1 xi

16.

Si x es muy grande, tenderemos a rechazar H0, pero ¿estaremos tomando

una buena decision? o estas diferencias se deben solo al azar o variabilidad

natural de la poblacion.

Entonces, debemos determinar un valor lımite que nos permita estable-

cer que, si el valor muestral es superior (menor) a este valor de tolerancia,

entonces diremos que la muestra tiene un valor estadısticamente superior

(menor) al de la poblacion, con una significacion de α× 100 %.

Estos valores lımites, se pueden establecer mediante las distribuciones

asociadas a los estimadores muestrales, de la siguiente forma, sean:

Zc =(X−µ0)

√n

σ∼ N(0, 1).

tc =(X−µ0 )

√n

S∼ t

(n−1).

Zc =(p−p0 )qp0 (1−p0 )

n

∼ N(0, 1).

χ2c = (n−1)S2

σ20

∼ χ2(n−1)

.

Docima de hipotesis para la media con varianza conocida. El estadıstico

adecuado es:

Zc =(X − µ0)

√n

σ∼ N(0, 1) .

Y las Hipotesis son:

Carlos Bustos-Lopez

Page 209: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 207

H0 H1 Existe evidencia en contra de H0 si:

µ = µ0 µ 6= µ0 |Zc| > Z1−α2

µ ≤ µ0 µ > µ0 Zc > Z1−α

µ ≥ µ0 µ < µ0 Zc < Zα

Docima de hipotesis para la media con varianza desconocida y n ≥ 30.

El estadıstico adecuado es:

Zc =(X − µ0)

√n

S∼ N(0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ = µ0 µ 6= µ0 |Zc| > Z1−α2

µ ≤ µ0 µ > µ0 Zc > Z1−α

µ ≥ µ0 µ < µ0 Zc < Zα

Docima de hipotesis para la media con varianza desconocida y n < 30.

El estadıstico adecuado es:

tc =(X − µ0)

√n

S∼ t(n−1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ = µ0 µ 6= µ0 |tc| > t(n−1,1−α2)

µ ≤ µ0 µ > µ0 tc > t(n−1,1−α)

µ ≥ µ0 µ < µ0 tc < t(n−1,α)

Carlos Bustos-Lopez

Page 210: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 208

Docima de hipotesis para la proporcion. El estadıstico adecuado es:

Zc =(p− p0)√

p0(1−p0)n

∼ N(0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

π = p0 π 6= p0 |Zc| > Z1−α2

π ≤ p0 π > p0 Zc > Z1−α

π ≥ p0 π < p0 Zc < Zα

Docima de hipotesis para la varianza. El estadıstico adecuado es:

χ2c =

(n− 1)S2

σ20

∼ χ2(n−1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

σ2 = σ20 σ2 6= σ2

0 χ2c > χ2

(n−1,1−α2) ∨ χ2

c < χ2(n−1, α

2)

σ2 ≤ σ20 σ2 > σ2

0 χ2c > χ2

(n−1,1−α)

σ2 ≥ σ20 σ2 < σ2

0 χ2c < χ2

(n−1,α)

Ejemplo 5.3.2 Retomando, del ejemplo anterior se tiene que la muestra

presenta los siguientes resultados:

16.2 23.3 35.4 15.3 25.2 16.1 27.4 12.5

34.6 45.7 24.2 10.0 9.3 14.2 35.2 12.3

Carlos Bustos-Lopez

Page 211: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 209

Lo cual nos entrega el siguiente promedio x = 22,31. Entonces,

Zc =(22,31− 21)

√16

3= 1,75 .

De esa forma, se se considera un nivel de confianza del 95 %, el estadıstico

con el cual debemos comparar es con Z0,975 = 1,96.

Y como 1,75 < 1,96, entonces no existe evidencia para rechazar H0 : µ ≤21,0(µg/g), el nivel medio de metilmercurio no es superior a 21,0(µg/g), con

5 % de significacion.

5.3.4. Docimas Bivariadas

Supongamos ahora que, no solo nos interesa saber que sucede con una

poblacion, si no que estamos interesados en comparar dos conjuntos de datos,

para determinar si corresponden a poblaciones diferentes.

Docima de hipotesis para la comparacion de medias con varianzas cono-

cidas. El estadıstico adecuado es:

Zc =(X1 − X2)− δ0√

σ21

n1+

σ22

n2

∼ N(0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ1 − µ2 = δ0 µ1 − µ2 6= δ0 |Zc| > Z1−α2

µ1 − µ2 ≤ δ0 µ1 − µ2 > δ0 Zc > Z1−α

µ1 − µ2 ≥ δ0 µ1 − µ2 < δ0 Zc < Zα

Carlos Bustos-Lopez

Page 212: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 210

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 ≥ 30 y n2 ≥ 30. El estadıstico adecuado es:

Zc =(X1 − X2)− δ0√

S21

n1+

S22

n2

∼ N(0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ1 − µ2 = δ0 µ1 − µ2 6= δ0 |Zc| > Z1−α2

µ1 − µ2 ≤ δ0 µ1 − µ2 > δ0 Zc > Z1−α

µ1 − µ2 ≥ δ0 µ1 − µ2 < δ0 Zc < Zα

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 < 30 y n2 < 30, pero σ21 y σ2

2 son estadısticamente

iguales.

El estadıstico adecuado es:

tc =(X1 − X2)− δ0

Sp

√1n1

+ 1n2

∼ t(n1+n2−2) ,

donde

S2p =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 + n2 − 2.

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ1 − µ2 = δ0 µ1 − µ2 6= δ0 |tc| > t(n1+n2−2,1−α2)

µ1 − µ2 ≤ δ0 µ1 − µ2 > δ0 tc > t(n1+n2−2,1−α)

µ1 − µ2 ≥ δ0 µ1 − µ2 < δ0 tc < t(n1+n2−2,α)

Carlos Bustos-Lopez

Page 213: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 211

Docima de hipotesis para la comparacion de medias con varianzas des-

conocidas y n1 < 30 y n2 < 30 pero σ21 y σ2

2 son estadısticamente

distintas.

El estadıstico adecuado es:

tc =(X1 − X2)− δ0√

S21

n1+

S22

n2

∼ t(ν) ,

donde

ν =

(S2

1

n1+

S22

n2

)2

„S21

n1

«2

n1−1+

„S22

n2

«2

n2−1

.

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µ1 − µ2 = δ0 µ1 − µ2 6= δ0 |tc| > t(ν,1−α2)

µ1 − µ2 ≤ δ0 µ1 − µ2 > δ0 tc > t(ν,1−α)

µ1 − µ2 ≥ δ0 µ1 − µ2 < δ0 tc < t(ν,α)

Docima de hipotesis para muestras pareadas.

El estadıstico adecuado es:

tc =d− δ0

Sd√n

∼ t(n−1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

µdδ0 µd 6= δ0 |tc| > t(n−1,1−α2)

µd ≤ δ0 µd > δ0 tc > t(n−1,1−α)

µd ≥ δ0 µd < δ0 tc < t(n−1,α)

Carlos Bustos-Lopez

Page 214: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 212

Donde d =∑n

i=1(xi − yi)/n y S2d =

∑ni=1(di − d)/(n − 1), con n el

numero de observaciones conjuntas para la variable X antes y despues

del tratamiento.

Docima de hipotesis para la comparacion de proporciones. El estadıstico

adecuado es:

Zc =(p1 − p2)− δ0√p1(1−p1)

n1+ p2(1−p2)

n2

∼ N(0, 1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

π1 − π2 = δ0 π1 − π2 6= δ0 |Zc| > Z1−α2

π1 − π2 ≤ δ0 π1 − π2 > δ0 Zc > Z1−α

π1 − π2 ≥ δ0 π1 − π2 < δ0 Zc < Zα

Docima de hipotesis para la comparacion de varianzas. El estadıstico

adecuado es:

Fc =S2

1

S22

∼ 1

λF(n1−1,n2−1) .

Y las Hipotesis son:

H0 H1 Existe evidencia en contra de H0 si:

σ21

σ22

= λσ21

σ226= λ Fc > 1

λF(n1−1,n2−1,1−α

2) ∨ Fc < 1

λF(n1−1,n2−1, α

2)

σ21

σ22≤ λ

σ21

σ22

> λ Fc > 1λF(n1−1,n2−1,1−α)

σ21

σ22≥ λ

σ21

σ22

< λ Fc < 1λF(n1−1,n2−1,α)

Carlos Bustos-Lopez

Page 215: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 213

Ejemplo 5.3.3 En un estudio sobre habitos de alimentacion en murcielagos,

se marcan 25 hembras y 11 machos y se les rastrea por radio. Una variable

de interes es la distancia que recorre volando en una pasada en busca de

alimento, se cree que las hembras hacen un recorrido mayor que los machos.

El experimento proporciono la siguiente informacion:

Hembras Machos

n1 = 25 n2 = 11

x1 = 205 metros x2 = 135 metros

s1 = 100 metros s2 = 95 metros

Como s21/s

22 = 1002/952 = 1,11, se puede considerar que las varianzas

son estadısticamente iguales.

De esa froma se tiene que al realizar la prueba con un 5 % de significacion:

La hipotesis intrınseca es, H0 : µ1 = µ2 versus H1 : µ1 6= µ2, ası:

tc =(205− 135)− 0

98,56√

125

+ 111

= 1,96 ,

y al ser comparado con el valor del estadıstico de tabla t(25+11−2,1− 0,05

2 )=

2,0322.

Se tiene que no hay evidencia para rechazar H0, es decir, no existen difer-

encias significativas entre las distancias recorridas por los distintos grupos.

Ademas, el valor−p > 0,0608, que es mayor que el nivel de significacion.

Carlos Bustos-Lopez

Page 216: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 214

5.4. Docimas de Hipotesis No Parametricas

5.4.1. Prueba de Suma de Rangos de Wilcoxon

Es una alternativa a la prueba t para comparar medias cuando no se

cumple el supuesto de normalidad y cuando las muestras son independientes.

Definicion 5.4.1 Sean X1, X2, . . . , Xn1 y Y1, Y2, . . . , Yn2 muestras aleato-

rias de dos poblaciones que difieren solo en su medida de tendencia central.

Ademas, las poblaciones tienen la misma forma y dispersion, pero no nece-

sariamente normales.

El procedimiento para la prueba es primero, determinar el rango o posicion

de cada dato en la muestra combinada. Luego se calcula la suma de rangos

para la estadıstica T de solo los datos de la primera muestra. Si n1 ≥ 10 y

n2 ≥ 10, la distribucion de T es aproximadamente normal. Y el estadıstico

de prueba es:

Zc =T − IE(T )√

VVar(T )∼ N(0,1) ,

donde IE(T ) = n1(n1 + n2 + 1)/2 y VVar(T ) = n1n2(n1 + n2 + 1)/12.

Y las hipotesis son:

H1 Existe evidencia en contra de H0 si:

f1(x) esta desplazada de f2(y) |Zc| > Z1−α2

f1(x) esta desplazada hacia la derecha de f2(y) Zc > Z1−α

f1(x) esta desplazada hacia la derecha de f2(y) Zc < Zα

Carlos Bustos-Lopez

Page 217: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 215

Ejemplo 5.4.1 Una companıa de taxis quiere probar dos programas para

mejorar el uso del combustible por partye de sus choferes. A los conductores

del programa A, se les asigna un rendimiento objetivo y se les da un bono

cuando lo superan. A los conductores del programa B se les otorga una cuota

mensual maxima de gasolina, si esta se agota, el chofer debera pagar de su

bolsillo la gasolina extra. Todos los taxis son del mismo modelo y se les da

el mismo mantenimiento. Despues de 3 meses, se calcula el rendimiento de

cada chofer en millas recorridas por galon de combustible. Los datos basados

en dos muestras independientes son los siguientes:

A 22, 17 24, 25 26, 33 23, 47 25, 29 23, 99

23, 6 22, 56 23, 34 23, 73

B 22, 43 22, 04 21, 39 22, 95 20, 87 21, 65

22, 82 22, 3 23, 21

¿Se puede inferir de estos datos que los conductores de taxis del programa A

consumjen mas combustible que los del programa B?

De esa froma se tiene que al realizar la prueba con un 5 % de significacion:

La hipotesis intrınseca es, H0 : fA(x) = fB(x) versus H1 : f1(x) est”a

desplazada a la derecha de f2(x). Luego determinamos los rangos de las ob-

servaciones:

Carlos Bustos-Lopez

Page 218: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 216

A Rango B Rango

22, 17 5 20, 87 1

22, 56 8 21, 39 2

23, 34 12 21, 65 3

23, 47 13 22, 04 4

23, 60 14 22, 3 6

23, 73 15 22, 43 7

23, 99 16 22, 82 9

24, 25 17 22, 95 10

25, 29 18 23, 21 11

26, 33 19

Ahora se determina la suma de los rangos de la primera muestra T = 137,

como ası tambien IE(T ) = 10(10 + 9 + 1)/2 = 100, VVar(T ) = 10 · 9(10 + 9 +

1)/12 = 150, de esa forma:

Zc =137− 100√

150= 3,02 ,

y al ser comparado con el valor del estadıstico de tabla Z0,975 = 1,96.

Se tiene que hay evidencia para rechazar H0, es decir, la distribucion del

grupo A esta desplazada hacia la derecha de de la del grupo B.

Carlos Bustos-Lopez

Page 219: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 217

5.4.2. Docima de Bondad de Ajuste Chi-cuadrado

La idea es poder determinar si una variable con distribucion desconoci-

da, al formular una hipotesis respecto a una posible distribucion de esta es

efectiva o no.

De las observaciones de una muestra se estiman los valores de los paramet-

ros de la funcion de probabdilidad, o de densidad, que se han postulado en

la hipotesis.

Sean:

1. ni, es el numero de observaciones en la i-esima clase.

2. n =∑k

i=1 ni, es el numero total de observaciones en las k celdas.

3. pi = IP(X = xi) o pi = IP(xi−1 ≤ X ≤ xi), es la probabilidad que

el valor de xi este en la i-esima celda, si la variable es discreta, o la

probabilidad que el valor de la variable este en el intervalo (xi−1, xi) si

la variable es continua.

4. IE(ni) = npi numerop esperado de observaciones en la i-esima celda.

Con estos elementos se define la estadıstica χ2c , como:

χ2c =

k∑i=1

(ni − IE(ni))2

IE(ni),

si χ2c > χ2

(k−s−1,1−α) se rechaza la hipotesis que la distribucion de la variable

es la especificada, porque la distancia entre el valor observado y el esperado

es demaciado grande. Donde s es el numero de parametros de la distribucion

Carlos Bustos-Lopez

Page 220: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 218

que se conjetura que se estiman con las observaciones recolectadas en la

muestra.

Ejemplo 5.4.2 En un experimento sobre la duracion de baterias, en anos,

se desea comprobar si la distribucion de frecuencias de esta variable sigue

una distribucion normal. Para ello se toma una muestra de 40 baterias y

se registra su duracion hasta que estas dejan de funcionar, los resultados se

resumen en la siguiente tabla6:

xi X ni pi npi (ni − npi)2 (ni−npi)

2

npi

2, 2 1, 45− 2, 95 7 0, 2641 10, 5640 12, 7021 1, 2024

3, 2 2, 95− 3, 45 15 0, 2603 10, 4120 21, 0497 2, 0217

3, 7 3, 45− 3, 95 10 0, 2485 9, 9400 0, 0036 0, 0004

4, 45 3, 95− 4, 95 8 0, 2074 8, 2960 0, 0876 0, 0106

40 3, 2350

Ası, χ2c = 3,2350 y al ser comparado con el valor de tabla χ(4−2−1,1−0,05) =

3,841, se tiene que no existe evidencia en contra de suponer que la duracion

de las baterıas tengan una distribucion norma.

5.4.3. Tablas de Contingencia

En este caso trabajaremos con variables nominales y ordinales (en general

variables categoricas). Este tipo de variables aparecen en todos los campos,

en particular en ciencias biologicas y ciencias sociales.

6Note que, los valores de pi en la tabla, corresponden al calculo de probabilidad de una

N(3,4; 0,7232)

Carlos Bustos-Lopez

Page 221: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 219

Cuando las observaciones en una muestra pueden ser clasificadas de acuer-

do a sus valores con respecto a dos variables categoricas, se puede formar una

tabla de contingencia como una de las formas de estudiarlas conjuntamente.

De esa forma una tabla de este estilo, tiene la siguiente forma:

Y

Y1 Y2 · · · YJ Total

X1 n11 n12 · · · n1J n1+

X X2 n21 n22 · · · n2J n2+

......

.... . .

......

XI nI1 nI2 · · · nIJ nI+

Total n+1 n+2 · · · n+J n++

donde, nij es el numero de elementos observados en la celda (i, j); ni+ es el

numero de elementos totales de la i-esima fila; n+j es el numero de elemen-

tos totales de la j-esima columna y n++ es el numero de elementos totales

observados, en una tabla de I × J . Ademas:

ni+ =J∑

j=1

nij , n+j =I∑

i=1

nij , n++ =I∑

i=1

J∑j=1

nij .

Carlos Bustos-Lopez

Page 222: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 220

Ademas, podemos definir las proporciones observadas en la tabla como:

Y

Y1 Y2 · · · YJ Total

X1 p11 p12 · · · p1J p1+

X X2 p21 p22 · · · p2J p2+

......

.... . .

......

XI pI1 pI2 · · · pIJ pI+

Total p+1 p+2 · · · p+J 1

donde, pij = nij/n++ es la proporcion de elementos observados en la celda

(i, j); pi+ = ni+/n++ es la proporcion de elementos totales de la i-esima fila;

p+j = n+j/n++ es la proporcion de elementos totales de la j-esima columna.

Ademas:

pi+ =J∑

j=1

pij , p+j =I∑

i=1

pij ,

I∑i=1

J∑j=1

pij = 1 .

5.4.4. Docima Chi-cuadrado de Independencia

La pregunta clave aca es si existe algun tipo de asociacion entre dos vari-

ables de una tabla de contingencia. el concepto contrario o complementario

de asociacion es el de “independencia estadıstica”.

Entonces, dos variables categoricas (nominales u ordinales) son estadısti-

camente independientes, si las distribuciones condicionales, en la poblacion,

de una de ellas son iguales para cada nivel de la otra.

Usualmente solo tenemos la informacion de la muestra y desconocemos,

en consecuencia, las distribuciones condicionales en la poblacion. Pero si las

Carlos Bustos-Lopez

Page 223: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 221

variables no son independientes, sus distribuciones condicionales muestrales

discreparan en forma importane.

Pero ¿hay suficiente evidencia en los datos para rechazar la independencia

de las variables?

La prueba Chi-cuadrado nos permite docimar la independencia de dos

variables categoricas.

H0 : Las variables son estadısticamente independientes.

H1 : Las variables son estadısticamente dependientes.

La estadıstica de prueba es:

χ2c =

I∑i=1

J∑j=1

(oij − eij)2

eij

,

donde oij es la frecuencia observada para la celda (i, j) y eij = ni+n+j/n++ es

la frecuencia esperada para la celda (i, j) bajo H0. Si χ2c > χ2

((I−1)(J−1),1−α) se

rechaza la hipotesis de que las variables son estadısticamente independientes.

Ejemplo 5.4.3 En un estudio sobre la posible influencia genetica de la mano

diestra de los padres (derecha o izquierda) sobre la mano diestra de sus hijos,

una muestra de 400 ninos fueron clasificados de acuerdo a su mano diestra

Carlos Bustos-Lopez

Page 224: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 222

y a la de sus padres, obteniendose:

Mano diestra Mano diestra hijo

Padre-Madre Derecha Izquierda Total

Derecha-Derecha 303 37 340

Derecha-Izquierda 29 9 38

Izquierda-Izquierda 16 6 22

Total 348 52 400

Nota:

Podemos usar el docima Chi-cuadrado cuando se cumple lo siguiente:

1. Para tablas 2×2, las frecuencias observadas deben ser al menos iguales

a cinco para cada celda.

2. Para tablas mas grandes, la frecuencia observada debe ser al menos

igual a cinco en el 75 % de las celdas y mayor a 1 en el resto.

Ejemplo 5.4.4 En una empresa se desea estudiar si existe una dependencia

entre el nivel de las remuneraciones y los anos de experiencia del person-

al de su planta de profesionales. Con este objetivo, se clasifican las remu-

neraciones, segun su monto, en tres categorıas (I,II y III) y los anos de

experiencia, de acuerdo a su numero en cuatro categorıas (A,B,C y D).

La informacion obtenida de acuerdo a una muestra aleatoria de 100 ob-

Carlos Bustos-Lopez

Page 225: Apuntes Inferencia Estadistica

CAPITULO 5. INFERENCIA ESTADISTICA 223

servaciones es la siguiente:

Experiencia

A B C D Total

I 4 11 9 14 38

Remuneracion II 12 9 8 4 33

III 10 6 7 6 39

Total 26 26 24 24 100

Carlos Bustos-Lopez

Page 226: Apuntes Inferencia Estadistica

Capıtulo 6

Muestreo

El interes de tomar una muestra esta basicamente centrado que, en muchas

ocaciones el tamano de la poblacion en estudio es muy grande o desconocido,

como para tomar los datos de cada elemento que la componen, ademas los

costos involucrados son muy altos y se requiere de mucho tiempo para llevar

a cabo este proceso. De esa forma es recomendable tomar una muestra de un

tamano menor a la poblacion, pero que es representativa de ella, desde donde

se extraeran, mediante un proceso de estimacion, los valores “estimados” de

los correspondientes parametros de interes.

Principalmente se distinguen dos tipos de muestreos, el probabilıstico y

el no probabilıstico, de ellos solo nos centraremos en el primero. Una muestra

probabilıstica tiene como caracterıstica basica que, cualquier elemento de la

poblacion tiene la misma probabilidad ( 6= 0) conocida de ser incluido en la

muestra.

Existen varios metodos de muestreos probabilısticos, siendo los mas famosos:

el Muestreo Aleatorio Simple (m.a.s.), el Muestreo Aleatorio Estratificado y

224

Page 227: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 225

el Muestreo Sistematico.

Para este estudio las variables de interes son las proporciones de algunas

caracterısticas presentes en la poblacion. De esa forma podemos considerar

que el numero x de elementos de la poblacion que presentan o no la carac-

terıstica sigue una distribucion Binomial de parametros n y px, es decir:

x|N = n, px ∼ Bin(n, px) n ≥ 2 , 0 ≤ px ≤ 1 ,

donde N corresponde al numero de elementos (tamano) de la poblacion y px

la proporcion de elementos que presentan la caracterıstica.

Entonces debemos determinar los valores de estos parametros en una

muestra de tamano n para realizar la inferencia sobre la poblacion. Es ası co-

mo los estimadores muestrales para la media y la varianza son:

px =

∑ni=1 xi

n, V ar(px) =

px(1− px)

n

(N − n

N − 1

).

Pero para poblaciones grandes (N À 40) los estimadores siguen asintotica-

mente una distribucion Normal.

Ası, si queremos asegurar que el valor de nuestra estimacion este con-

tenido en un intervalo de (1− α)100 % de confianza, realizamos la siguiente

construccion:

Carlos Bustos-Lopez

Page 228: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 226

Como se puede apreciar del grafico anterior, si quisieramos garantizar que en

aproximadamente 997 de 1000 muestras, el parametro poblacional estara den-

tro de 3 desviaciones estandar del estimador.

Si px es la proporcion estimada, Px es el parametro y SE(px) el error

estandar de px, podemos decir:

px − 3SE(px) ≤ Px ≤ px + 3SE(px) .

Entonces el problema de estimacion involucra que debemos escoger un

tamano muestral que mantenga esta condicion.

El diseno muestral considerado para este estudio contempla varias etapas.

6.1. Muestreo

¿Por que una Muestra?

Carlos Bustos-Lopez

Page 229: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 227

1. En muchas ocaciones el tamano de la Poblacion es muy grande o de-

sconocido como para tomar los datos de cada individuo que la compo-

nen. (A ⊆ Ω).

2. Tiene menor costo que un censo.

3. Se requiere menos tiempo.

4. Para no destruir o alterar la poblacion.

¿Como extraer una Muestra?

El procedimiento es a traves de las Tecnicas de Muestreo. Las mas

comunes son:

6.1.1. Muestreo Aleatorio Simple. (m.a.s.)

Se fundamenta en que todos los elementos de una poblacion tienen la

misma posibilidad de ser seleccionados para constituir la muestra para el

estudio, es decir, si se desea seleccionar una muestra de tamano n desde una

poblacion de tamano N , la probabilidad de que un elemento de la poblacion

sea seleccionado para la muestra (A) es:

IP(A) =1

N.

6.1.2. Muestreo Estratificado.

Se fundamenta en que en la poblacion existen elementos con diferencias

evidentes, que pueden ser agrupados en “Estratos”, que deben ser represen-

Carlos Bustos-Lopez

Page 230: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 228

tados proporcionalmente en la muestra. Ası, si se tiene una poblacion de

tamano N , en la cual se pueden distinguir k estratos, de tal forma que:

k∑i=1

Ni = N ,

donde Ni es la cantidad total de elementos del i-esimo estrato, tambien se

puede determinar la proporcion que representan cada estrato en la poblacion

como pi = Ni/N , que cumple:

k∑i=1

pi = 1 ,

de esa forma si se desea extraer una muestra de tamano n desde la poblacion,

los elementos en la muestra deben ser distribuidos como:

ni =Ni

Nn = pin , con

k∑i=1

ni = n ,

de esa forma la muestra debe contener ni elementos del i-esimo estrato.

6.1.3. Muestreo Sistematico.

Se fundamenta en que, el espacio muestral es listado en forma arbitrarıa,

lo cual produce bloques o grupos que son artificiales, por lo cual es necesario

quitar el efecto lista. La idea es seleccionar los n elementos de la muestra,

descartando cada k de ellos. El procedimiento consiste en:

1. Seleccionar un numero aleatorio m tal que 1 ≤ m ≤ N , como el punto

de partida para el muestreo, de tal forma que el elemento en la posicion

m, constituye el primer elemento de la muestra.

Carlos Bustos-Lopez

Page 231: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 229

2. Determinar el valor del salto sistematico k como el entero k = N/n.

3. Seleccionar los otros (n− 1) elementos de la muestra cada k de ellos.

De esa forma, la muestra queda constituida por los siguientes elementos:

m,m + k, m + 2k, . . . , m + (n− 1)k .

6.1.4. Tamano Muestral

Un punto interesante en todos los estudios es, ¿cuantas observaciones de-

bo tomar?, es decir, ¿de que tamano debe ser la muestra?

Consideremos lo siguiente:

IC(µ) =

X − Z1−α

2

σ√n︸ ︷︷ ︸

X + Z1−α2

σ√n︸ ︷︷ ︸

ε ε

Es decir, se puede considerar un error ε para la estimacion del verdadero

valor de la media poblacional, y de esa forma se puede despejar el valor de

n.

Ası, una forma rapida de determinar el tamano muestral para realizar

inferencia sobre la media de una poblacion, con un nivel de confianza de

(1 − α) × 100 %, donde la variacion poblacional es σ y se pretende cometer

un error de a lo mas un ε, se puede emplear la siguiente formula:

n =

(Z1−α

ε

)2

.

Carlos Bustos-Lopez

Page 232: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 230

Analogamente, se puede obtener la siguiente formula:

n =

(Z1−α

2

√p0(1− p0)

ε

)2

.

Que permite determinar el tamano muestral para realizar inferencia sobre la

proporcion de una poblacion, con un nivel de confianza de (1 − α)× 100 %,

y se pretende cometer un error de a lo mas un ε.

Ejemplo 6.1.1 ¿Cuantas observaciones son necesarias si la desviacion

estandar de la duracion de los aullidos es σ = 0,25 y se quiere realizar

una estimacion de la duracion media, con un 95 % de confianza y se

desea cometer un error de a lo mas 5 segundos?

n =

(1,96× 0,25

0,08

)2

= 37,5 ≈ 38 .

Si consideramos ahora un nivel de confianza del 99 %, se tiene que:

n =

(2,57× 0,25

0,08

)2

= 64,5 ≈ 65 .

6.1.5. Plan de Muestreo

1. Primera etapa: Bajo Muestreo Aleatorio Simple y normalidad asintotica,

se tiene que el intervalo de confianza a (1− α)100 % para px esta dado

por:

px ± Z1−α/2SE(px) , (6.1)

Carlos Bustos-Lopez

Page 233: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 231

donde Z1−α/2 corresponde al percentil (1 − α/2)100 de la distribicion

normal o tambien denominado coeficiente de confiabilidad y SE(px) es

la desviacion estandar del estimador (SE(px) =√

V ar(px)).

Ası el error muestral para la estimacion debe cumplir que:

Z1−α/2SE(px) ≤ εα , (6.2)

donde εα corresponde a la significacion de la estimacion (α100 %).

Reemplazando el valor de SE(px) por su valor estimado,

ˆSE(px) =

[px(1− px)

n

(N − n

N − 1

)]1/2

,

el cual incorpora el factor de correccion por finitud para tamanos de

poblacion conocidas, se tiene en (2) que:

Z1−α/2

[px(1− px)

n

(N − n

N − 1

)]1/2

≤ εα ,

luego,

n ≥Z2

1−α/2px(1− px)N

(N − 1)ε2α + Z2

1−α/2px(1− px), (6.3)

de esa forma se determina el mınimo n (tamano muestral) que garantiza

que el intervalo contenga al estimador con (1− α)100 % de confianza.

2. Segunda etapa: En general, y este caso no es la escepcion, los com-

ponentes de una poblacion tienen caracterısticas que ası como los difer-

encian entre ellos tambien otras los reunen en grupos homogeneos en

Carlos Bustos-Lopez

Page 234: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 232

si mismos, por ejemplo, si nos interesara conocer el porcentaje de per-

sonas de Europa que prefieren el color verde por sobre los otros colores,

es claro que nuestra poblacion correspondera a todos los miembros de

la comunidad europea, pero esta comunidad esta compuesta por varios

paises, de culturas diferentes y que las opiniones y gustos de ellos seran

distintas de paıs en paıs, aun mas dentro de cada paıs se distinguen

dos grupos, hombres y mujeres, que aunque tengan la misma cultura y

crianza tendran preferencias y comportamientos distintos.

Por lo anterior, siempre es importante distinguir estas caracterısticas

que “estratifican” la poblacion en estudio, ya que nos permite tener

una mejor representatividad de estos grupos, es decir, que la presencia

de ciertos grupos de la poblacion en la muestra, sea proporcional a su

presencia en la poblacion. Este procedimiento se denomina Muestreo

Estratificado.

Las principales ventajas de la estratificacion por sobre el m.a.s., son:

Dadas ciertas condiciones de regularidad, la precision puede ser

incrementada por sobre el m.a.s.

Es posible obtener estimaciones para cada estrato (grupo) con una

precision especıfica.

De la misma forma que en la primera etapa, se puede determinar el

tamano de la muestra por estratos, es decir, si hemos determinado que

la muestra total debe ser de tamano n, podemos ahora determinar

Carlos Bustos-Lopez

Page 235: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 233

cuantos de estos elementos seran seleccionados de un estrato u otro.

Sea entonces nh el tamano muestral del estrato h, con h = 1, . . . , L,

donde L es el total de estratos y Nh el numero de componentes total

del estrato h en la poblacion, entonces se tiene que n =∑L

h=1 nh y

N =∑L

h=1 Nh, luego:

nh =Nhph(1− ph)n∑Lh=1 Nhph(1− ph)

, (6.4)

donde ph corresponde a la proporcion de los elementos del estrato h en

la poblacion.

Ademas (4) es una muestra autoponderada obtenida a traves de un

muestreo estratificado, pero con el afan de lograr las mejores estima-

ciones posibles, se ha determinado (4) mediante una afijacion optima,

de tal forma que las varianzas de los estimadores sea la menor posi-

ble, es decir, hemos considerado el costo de tomar un elemento dentro

de un estrato, se incorpora el efecto que pueden tener las diferencias

significativas de las varianzas de los estratos.

3. Tercera etapa: Como se menciono anteriormente la poblacion puede

estar compuesta de estratos y estos a su vez por subestratos, de esa for-

ma si consideramos nuevamente un muestreo estratificado para obtener

una muestra autoponderada con afijacion optima dentro de cada estra-

to se puede proceder como:

Sean i = 1, . . . , I, con I numero de subestratos dentro del estrato h =

1, . . . , L, Nhi el numero de elementos de la poblacion que corresponden

Carlos Bustos-Lopez

Page 236: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 234

al subestrato i en el estrato h, phi la proporcion de elementos que

pertenecen al subestrato i del estrato h en la poblacion y nhi el numero

de elementos a muestrear del subestrato i en el estrato h de la poblacion,

entonces podemos definir:

nhi =Nhiphi(1− phi)nh∑Ii=1 Nhiphi(1− phi)

. (6.5)

4. Cuarta etapa: Luego de determinados los tamanos muestrales en los

subestratos, estratos y de la poblacion muestral, procedemos a selec-

cionar los elementos. Existen varias tecnicas de seleccion, por ejemplo

repeticion del m.a.s., o a traves de un muestreo sistematico de “salto

sitematico” k = N/n.

Carlos Bustos-Lopez

Page 237: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 235

Bibliografıa

1. Agresti, Alan. Statistical methods for the social sciences. 3a ed. Upper

Saddle River, N.J. Prentice Hall, 1997.

2. Azorın Poch, Francisco. Metodos y aplicaciones del muestreo. Madrid:

Alianza, 1986.

3. Azzalini, Adelchi. Statistical inference: based on the likelihood. London:

Chapman & Hall, 1996.

4. Box, George E. P. Statistics for experimenters: design, innovation, and

discovery. 2a ed. Hoboken, N.J. Wiley-Interscience, 2005.

5. Box, George E. P. Bayesian inference in statistical analysis. New York:

Wiley, 1992.

6. Camacho Rosales, Juan. Estadıstica con SPSS (version 9) para Win-

dows. Mexico: Alfaomega/Ra-Ma, 2001.

7. Casella, George. Statistical inference. 2a ed. Australia: Thomson Learn-

ing, 2002.

8. Cochran, William Gemmell, 1909- . Sampling techniques. 3rd ed. New

York: Wiley, 1977.

9. Cramer, Harald, 1893- . Metodos matematicos de estadıstica. Madrid:

Aguilar, 1960.

Carlos Bustos-Lopez

Page 238: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 236

10. David, H. A. (Herbert Aron), 1925- . Order statistics. 2nd ed. New

York: John Wiley, 1980.

11. Degroot, Morris H, 1931- . Probability and statistics. 3rd ed. Boston:

Addison-Wesley, 1988.

12. Del Pino M., Guido. Apuntes de inferencia estadıstica: version prelim-

inar. Santiago, Chile: Pontificia Universidad Catolica de Chile, 1982.

13. Del Pino M., Guido. Analisis estadıstico: interpretando problemas de

la vida cotidiana. Santiago, Chile: Ministerio de Educacion, 2003.

14. Fisher, Ronald Aylmer, 1890-1962. Statistical methods, experimental

design, and scientific inference. Oxford: Oxford University Press, 1990.

15. Freeman, Harold Adolph. Introduction to statistical inference. Read-

ings, Mass: Addison-Wesley, 1963.

16. Freund, John E., 1921- . Mathematical statistics. 2nd ed. Englewood

Cliffs, N. J.: Prentice-Hall, 1971.

17. Gibbons, Jean Dickinson, 1938- . Nonparametric statistical inference.

New York: McGraw-Hill, 1971.

18. Henkel, Ramon E., 1931- . Tests of significance. Beverly Hills, Calif.:

Sage, 1976.

19. Kendall, Maurice G., 1907- . Kendall’s advanced theory of statistics.

London: Edward Arnold, 1994-.

Carlos Bustos-Lopez

Page 239: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 237

20. Kendall, Maurice G., 1907- . The advanced theory of statistics. 3rd ed.

New York: Hafner Press, 1976.

21. Larson, Harold J., 1934- . Introduction to probability theory and sta-

tistical inference. 2nd ed. New York: Wiley, 1974.

22. Lehmann, Erich Leo, 1917- . Testing statistical hypotheses. 2nd ed.

New York: Wiley, 1986.

23. Lehmann, Erich Leo, 1917- . Elements of large sample theory. New

York: Springer, 1999.

24. McCollough, Celeste. Analisis estadıstico en las ciencias sociales y ed-

ucacion. Mexico: McGraw-Hill, 1976.

25. McCulloch, Charles E. Generalized, linear, and mixed models. New

York: John Wiley & Sons, 2001.

26. Mendenhall, William. Probabilidad y estadıstica para ingenierıa y cien-

cias. 4a ed. Mexico: Pearson Educacion, 1997.

27. Meyer, Paul L. Introductory probability and statistical applications.

2nd ed. Reading, Mass: Addison-Wesley, 1970.

28. Montgomery, Douglas C. Probabilidad y estadıstica aplicadas a la in-

genierıa. Mexico, D. F.: McGraw-Hill, 1996.

29. Montgomery, Douglas C. Diseo y analisis de experimentos. 2a ed. Mexi-

co: Limusa Wiley, 2003.

Carlos Bustos-Lopez

Page 240: Apuntes Inferencia Estadistica

CAPITULO 6. MUESTREO 238

30. Rao, C. Radhakrishna (Calyampudi Radhakrishna), 1920- . Linear mod-

els: least squares and alternatives. New York: Springer, 1995.

31. Ross, Sheldon M. Introduction to probability and statistics for engi-

neers and scientists. 2nd ed. Amsterdam: Harcourt Academic Press,

2000.

32. Spiegel, Murray R. Estadıstica. 3a ed. Mexico: McGraw-Hill, 2002.

33. Walpole, Ronald E. Probabilidad y estadıstica para ingenieros. 6a ed.

Mexico: Prentice Hall, 1999.

34. Walpole, Ronald E. Introduction to statistics. 2nd ed. New York: Macmil-

lan, 1974.

Carlos Bustos-Lopez