ESTADISTICA INFERENCIAL

download ESTADISTICA INFERENCIAL

of 160

Transcript of ESTADISTICA INFERENCIAL

CAPTULO I Estadstica DescriptivaMara Margarita Olivares M. Abril 2004

1

INTRODUCCIN:

Si estamos interesados en conocer alguna caracterstica de una poblacin ( conjunto de individuos u objetos) acerca de la que se quiere saber algn aspecto claramente denido, lo ms completo sera estudiar la poblacin entera. Pero este procedimiento requiere mucho tiempo y resulta muy costoso, as que normalmente nos conformamos con el conocimiento parcial de la poblacin muestra, que elegida adecuadamente sea representativa de sta. El objetivo de la estadstica es hacer inferencia ( tomar decisiones hacer predicciones) acerca de una poblacin, basndose en la informacin contenida en una muestra. Es decir, integrando el clculo de probabilidades (que nace en el siglo XVII como teora matemtica de los juegos de azar) y la Estadstica Descriptiva o ciencia del estado, del latn Status, que estudia la descripcin de datos y tiene races ms antiguas, se obtiene una ciencia (Estadstica Matemtica) que estudia cmo obtener conclusiones de la investigacin emprica mediante el uso de modelos matemticos. La estadstica acta como puente entre los modelos matemticos y los fenmenos reales. Un modelo matemtico es una abstraccin simplicada de una realidad ms compleja y siempre existir cierta discrepancia entre lo observado y lo previsto por el modelo. La Estadstica nos proporciona un mtodo para evaluar estas discrepancias entre la realidad y la teora. Su estudio es bsico para todos aquellos que quieran trabajar en ciencia aplicada (economa, sociolaga, etc.). En nuestra era cada aspecto de la actividad humana es medido e interpretado en trminos estadsticos. El conocimiento bsico de los mtodos 1

estadsticos nos permitir participar en los argumentos pblicos basados en cifras y datos por lo que es un buen antdoto ante posibles manipulaciones. Hay cinco elementos fundamentales en todo problema estadstico: 1. Denir claramente la pregunta que se desea responder acerca de la poblacin. 2. Procedimiento de muestreo diseo del experimento. 3. Recoleccin y anlisis de datos. 4. Hacer inferencia acerca de la poblacin mediante una probabilidad. 5. Conabilidad de la inferencia bondad del ajuste. Cuando planteamos con claridad la pregunta que queremos responder acerca de la poblacin, procedemos a la recoleccin de datos numricos relacionados con el estudio que queremos hacer.

2

Estadstica Descriptiva e Inferencia:

Una vez obtenido los datos debemos organizarlos, lo que se hace siguiendo ciertos mtodos que constituyen la Estadstica Descriptiva. Los mtodos comnmente usados son de tres tipos: Mtodos de Tabulacin, Mtodos Grcos y Mtodos Numricos. Los primeros de ellos se constituyen a partir de la elaboracin de tablas que incluyen los datos numricos. Los mtodos grcos exigen la elaboracin de grcos, entre los cuales los ms usados son los de barras, los circulares e histogramas. Los mtodos numricos consisten en obtener ciertas relaciones cuantitativas a partir de los datos. Una vez realizado el estudio de los datos mediante los mtodos de la Estadstica Descriptiva, se trata entonces de inferir o sacar conclusiones sobre algunos aspectos de la poblacin, que generalmente se reere a la conrmacin de alguna hiptesis, (prueba de hiptesis) o a la estimacin de algn promedio numrico u otras caractersticas de la poblacin (estimacin de parmetros). Esta parte constituye lo que se conoce con el nombre de Estadstica Inferencial o Inferencia Estadstica.

2

3

El siguiente diagrama resume lo expuesto anteriormente: Mtodos de Tabulacin Descriptiva Mtodos Grcos Estadstica Mtodos Numricos Inferencia Estimacin de parmetros Pruebas de Hiptesis.

CONCEPTOS BSICOS.

3.1

Estadstica Descriptiva: Una Variable

Supongamos que tenemos una fuente de material radioactivo que emite partculas Alfa () y que denimos la variable aleatoria X como el nmero de partculas observadas en una pantalla, en un intervalo de tiempo t. Bajo ciertas hiptesis que idealizan el experimento, X tiene una distribucin de Poisson de parmetro t. Si queremos calcular, por ejemplo, la probabilidad de que X sea mayor que 10 u otras caractersticas asociadas con la distribucin tales como la esperanza, la varianza, etc., la respuesta depender del parmetro y del intervalo de tiempo t. Para buscar un valor numrico de , dejamos el mundo de los modelos matemticos tericos y entramos en el mundo de las observaciones, es decir, observamos la emisin de partculas, obtenemos algunos valores numricos de X y luego los utilizamos de alguna manera, a n de obtener una informacin atinada del parmetro . En general, un material estadstico que consiste en cierto nmero de observaciones x1 , x2 , , xN de una variable aleatoria X, dado en la forma original, en la que los N resultados aparecen en el orden en que se han observado, es muy difcil de examinar y por lo tanto no es adecuado para darnos informacin acerca de la variable X investigada. El propsito de la Estadstica Descriptiva es reemplazar el material observado por cantidades relativamente pocas en nmero, que representen el material total en otras palabras, que contenga tanta informacin como sea posible respecto a la variable X. 3

Tipos de variables: Los tipos de variables que consideraremos, son: 1. Variables cualitativas o atributos: no toman valores numricos y describen cualidades. Por ejemplo, clasicar una pieza como aceptable o defectuosa. 2. Variables cuantitativas discretas: toman slo valores enteros, en muchos casos se limita a contar el nmero de veces que ocurre un suceso. Por ejemplo, nmero de compras de un producto en un mes. 3. Variables cuantitativas continuas: toman valores en un intervalo, corresponde a medir magnitudes continuas. Por ejemplo, tiempo entre la llegada de dos autobuses. 3.1.1 MUESTRA OBSERVADA:

Sea X una variable aleatoria asociada a cierto experimento. Si realizamos N veces el experimento, de manera independiente y bajo las mismas condiciones, obtendremos N valores numricos, en caso de variables cuantitativas: x1 , x2 , , xN correspondientes a la variable aleatoria X. A estos resultados obtenidos se les llama muestra observada. Cuando esta muestra no se somete a ninguna ordenacin especial, se le denomina muestra bruta. 3.1.2 RECOPILACIN DE DATOS: Tablas de Frecuencias.

Los valores observados se suelen registrar en una lista. Si el nmero de observaciones no excede 20 o 30, por ejemplo, es posible darse una idea aproximada de la distribucin, simplemente mediante la ordenacin de los valores observados, escribindolos en una tabla, en orden creciente de magnitud. Con estos datos podemos hacer representaciones grcas y calcular determinadas caractersticas numricas. Si el conjunto de datos es muy grande, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo algn tipo de agrupacin, como paso preliminar, antes de iniciar un nuevo tratamiento de los datos. 4

El procedimiento de agrupacin es diferente segn la variable aleatoria sea discreta o continua. La presentacin de los datos en forma agrupada implica alguna prdida de informacin, pero permite apreciar mejor sus caractersticas. Este agrupamiento se hace mediante las llamadas tablas de frecuencias. En la tablas de frecuencias, en lugar de mostrar individualmente todos los datos, se informa solamente cuntos de ellos estn comprendidos entre determinados valores, llamados lmites de clase. Las clases son intervalos cuyos extremos son los lmites de clase. Generalmente las clases se escogen de igual longitud. Una regla emprica que se suele aplicar consiste en escoger los intervalos de clase de tal forma que no haya menos de 10 ni ms de 20 clases diferentes. Veamos cmo se lleva a cabo la agrupacin en cada uno de los casos: 1. Caso Discreto: En este caso resulta conveniente hacer una tabla cuya primera columna contenga todos los valores observados y la segunda contenga la frecuencia con que han aparecido dichos valores o frecuencias absolutas. Tambin se suele aadir una tercera columna que contiene la frecuencia relativa de los datos observados, a saber, la razn entre la frecuencia absoluta y el nmero total de observaciones. Este tipo de agrupacin se utiliza cuando el nmero total de valores observados no es muy grande, en caso contrario, en lugar de asignar una clase a cada valor observado, podemos considerar clases que contengan varias observaciones. Ejemplo: se cuenta 169 compartimientos timientos representa en cada una de ellos el nmero de glbulos rojos en cada uno de los de un hemocitmetro. Cada uno de los comparuna observacin y el nmero de glbulos rojos es el valor observado correspondiente. De dicha

5

observacin se obtiene la siguiente tabla de frecuencias: No de Globulos rojos Frecuencia Absoluta Frecuencia Relativa 1 4 1 169 3 5 3 169 5 6 5 169 8 7 8 169 13 8 13 169 14 9 14 169 15 10 15 169 15 11 15 169 21 12 21 169 18 13 18 169 17 14 17 169 16 15 16 169 9 16 9 169 6 17 6 169 3 18 3 169 2 19 2 169 2 20 2 169 1 21 1 169 Total 169 1 Con esta informacin podemos hacer un grco por medio del llamado Histograma, que en este caso se elabora levantando una lnea o barra sobre cada clase, de altura proporcional a la frecuencia correspondiente o a la frecuencia relativa. 2. Caso Continuo: En el caso en que la variable aleatoria investigada es continua, la agrupacin es algo ms complicada, sin embargo, en general, se procede de la siguiente manera: se toma un intervalo adecuado de la recta real que contenga los N valores observados y se divide dicho intervalo en un cierto nmero de intervalos de clase. Todas las observaciones que caen en una misma clase se agrupan y se cuentan, el nmero resultante es la frecuencia de clase correspondiente a dicho intervalo y despus se procede a tabular. Para proceder a la eleccin de los lmites de clase debemos conocer la exactitud de los 6

datos originales. Cuando la tabla de frecuencia ya ha sido elaborada debe ir acompaada de la exactitud de los datos. Ilustraremos el procedimiento mediante algunos ejemplos: (a) Se preparan, con la misma mezcla setenta cilindros de concreto y se mide la resistencia a la compresin de cada uno de ellos. Los resultados originales o muestra bruta estn dados con cuatro cifras enteras. La siguiente tabla representa la muestra bruta: 2860 2950 3128 3300 2961 3045 3185 2857 3015 3073 3052 2911 2965 3193 2832 2944 3003 2903 3061 3169 2940 2883 3109 2865 2950 3038 3317 2910 3097 3133 3128 3027 2886 3298 3059 2968 2875 2957 3085 3152 2865 2872 3045 2932 3052 2953 2820 2891 2975 3102 3125 2942 3238 2782 3017 2998 2808 2899 3072 3251 2881 3042 2965 3201 3001 3275 2973 2884 3115 2702

Procedamos a tabular estos resultados en una tabla de frecuencias: La diferencia entre el mximo y el mnimo valor observado es 3317 2702 = 615 (esta diferencia se llama rango de la muestra). Vamos a construir una tabla de once clases (615/11 ' 60) , esta decisin es un tanto arbitraria, la longitud comn de cada clase ser de 60 unidades. Nuestro primer impulso sera tomar como clases los siguientes intervalos: (2700, 2760) (2760, 2820) (2820, 2880) , etc. pero tomando los lmites de esta manera, no sabramos en qu clase incluir los valores que coinciden con los lmites de dichos intervalos, como por ejemplo 2820. Para evitar este tipo de ambigedad podramos tomar los siguientes intervalos: (2700, 2759) (2760, 2819) (2820, 2879) , etc. 7

con esta eleccin, dejamos un hueco entre 2759 y 2760, etc., pero por la precisin de los datos sabemos que all no hay observaciones, sin embargo, es preferible elegir como lmites exactos de cada clase los puntos correspondientes a medias unidades de la ltima cifra signicativa de los lmites anteriores, es decir: (2699.5, 2759.5) (2759.5, 2819.5) (2819.5, 2879.5) , etc. en este caso estamos seguros de que ninguna observacin caer en un lmite de clase. Clase (2699.5, 2759.5) (2759.5, 2819.5) (2819.5, 2879.5) (2879.5, 29539.5) (2939.5, 2999.5) (2999.5, 3059.5) (3059.5, 3119.5) (3119.5, 3179.5) (3179.5, 3239.5) (3239.5, 3299.5) (3299.5, 3359.5) Total Frecuencia Absoluta Frecuencia relativa 1 1 ' 0, 0143 70 2 2 ' 0, 0286 70 7 7 ' 0, 1000 70 11 11 ' 0, 1571 70 14 14 ' 0, 2000 70 12 12 ' 0, 1714 70 8 8 ' 0, 1143 70 6 6 ' 0, 0857 70 4 4 ' 0, 0571 70 3 3 ' 0, 0429 70 2 2 ' 0, 0286 70 70 1,0000

Esta informacin puede ser representada grcamente mediante un histograma, levantando sobre cada clase un rectngulo de altura proporcional a la frecuencia correspondiente o alternativamente a la frecuencia relativa. Si se unen con segmentos las alturas de los rectngulos que constituyen el histograma, en las correspondientes marcas de clase, se obtiene una poligonal denominada polgono de frecuencias, el cual puede suavizarse mediante una curva suave. (b) Se determina el porcentaje de ceniza en una muestra de carbn, extrada de 250 vagones diferentes. Los datos originales son exactos hasta la segunda cifra decimal, representados en la siguiente 8

tabla de frecuencias: Clase(% de ceniza) Frecuencia Absoluta Frecuencia Relativa 1 (9, 9.99) 1 250 3 (10, 10.99) 3 250 3 (11, 11.99) 3 250 9 (12, 12.99) 9 250 13 (13, 13.99) 13 250 27 (14, 14.99) 27 250 28 (15, 15.99) 28 250 39 (16, 16.99) 39 250 42 (17, 17.99) 42 250 34 (18, 18.99) 34 250 19 (19, 19.99) 19 250 14 (20, 20.99) 14 250 10 (21, 21.99) 10 250 4 (22, 22.99) 4 250 3 (23, 23.99) 3 250 0 (24, 24.99) 0 =0 250 1 (25, 25.99) 1 250 Total 250 1 Los datos se agrupan tal como aparecen en la tabla de forma que, por ejemplo, el intervalo de clase (14, 14.99) contenga todas las observaciones registradas con valor de 14 a 14.99, ambos inclusive. Al agrupar los datos originales, si registramos una observacin, por ejemplo, 14.27 con dos cifras decimales exactas, el valor realmente observado se encuentra entre 14.265 y 14.275. Los lmites exactos de este intervalo de clase son 13.995 y 14.995. Si los datos hubiesen sido dados con una cifra decimal exacta, los intervalos de clase seran de la forma (14.0, 14.9) con lmites exactos 13.95 y 14.95. Cuando se utilizan los datos ya agrupados, para los clculos, se supone que todas las observaciones que pertenecen a una clase dada, estn situadas en el punto medio de dicha clase. Al hacer esta aproximacin, se introduce un error que evidentemente se puede hacer tan pequeo como queramos, tomando los intervalos de clase sucientemente pequeos y reduciendo as la prdida de informacin debida a la agrupacin. Sin embargo sto aumenta el 9

largo de la tabla y nos hace perder algo de simplicacin que es la razn de la agrupacin. Como regla prctica se acostumbra tener un nmero de clases entre 10 y 20. 3.1.3 FRECUENCIAS ACUMULADAS.

La frecuencia absoluta acumulada es el nmero de observaciones menores o iguales a una cierta cantidad dada. El cociente entre frecuencia absoluta acumulada y el nmero de observaciones, es la frecuencia relativa acumulada. 3.1.4 EJEMPLO:

Consideremos la siguiente tabla de frecuencias: Clases (100, 109.5) (110, 119.5) (120, 129.5) (130, 139.5) (140, 149.5) (150, 159.5) (160, 169.5) (170, 179.5) (180, 189.5) (190, 199.5) (200, 209.5) Total Frecuencias Absolutas Frecuencias Relativas 2 2 26 1 1 26 6 6 26 4 4 26 6 6 26 4 4 26 0 0 =0 26 1 1 26 1 1 26 0 0 1 1 26 26 1

10

A partir de ella construmos la tabla de frecuencias acumuladas: Observaciones x 100 110 120 130 140 150 160 170 180 190 200 210 Frec. Absol. Acumulada Frec. Rel. Acumulada 0 0 2 2 26 3 3 26 9 9 26 13 13 26 19 19 26 23 23 26 23 23 26 24 24 26 25 25 26 25 25 26 26 26 =1 26

El grco resulta ser escalonado y creciente. Esta informacin se suele representar mediante las ojivas que son curvas equivalentes a polgonos de frecuencias acumuladas, suavizado. 3.1.5 MTODOS GRFICOS.

Para representar grcamente los datos, existen, adems del histograma, otros tipos de grcos, tales como grcos de sectores circulares, grcos de barras, grcos de lneas, pictogramas, polgonos de frecuencia u ojiva.

3.2

DESCRIPCIN NUMRICA DE DATOS.

Corresponde a medidas de centralizacin o dispersin, estos nmeros ayudan a completar la informacin obtenida mediante las tabulaciones y grcos. Las medidas de centralizacin ms usuales son: la media o promedio, la moda y la mediana. Las medidas de dispersin ms usuales son el rango, la varianza y la desviacin estndar. 3.2.1 MEDIA OBSERVADA O PROMEDIO:

Se llama media observada de una muestra al promedio aritmtico de las observaciones, es decir, si x1 , x2 , , xn son las observaciones individuales, 11

la media observada ser:

Esta frmula slo es aplicable cuando se ha conservado la muestra bruta. Si hemos perdido los datos originales y disponemos solamente de una tabla de frecuencias, identicamos todos las observaciones correspondientes a una clase con un valor nico, denominado marca de clase,(en general se toma como marca de clase el punto medio del intervalo de clase); es decir, si yi fi es la marca de de la isima clase, fi la frecuencia de esta clase y i = N la frecuencia relativa de esta clase, podemos calcular la media observada mediante la frmula:M M X 1 X x= yi fi = yi i . N i=1 i=1 _

N 1 X x= xi N i=1 _

donde M es el nmero de clases. Para simplicar los clculos, puesto que de todas formas se trata de una aproximacin, es permisible, cuando se han adoptado intervalos disjuntos, hacer coincidir los lmites adyacentes. Por ejemplo, en los intervalos (2700, 2759) (2760, 2819) podemos tomar como maraca de clase 2700 + 2760 = 2730 2 en lugar de 2700 + 2759 = 2729.5 2

3.2.2

VARIANZA Y DESVIACIN ESTNDAR OBSERVADA.

Se llama varianza observada de una muestra x1 , x2 , , xn al valorN _ 2 1 X s = xi x N i=1 2

12

Algunas veces se preere trabajar con la varianza centrada, (como veremos ms adelante tiene buenas propiedades), denida como s2 1 Note que s2 = N 1 2 s1 NN _ 2 1 X = xi x N 1 i=1

as, si N , s2 = s2 . 1 La desviacin estndar observada es s y la centrada es s1. Cuando no disponemos de la muestra bruta y en su lugar contamos con la tabla de frecuencias, calculamos las varianzas de manera anloga al caso de la media, mediante las frmulas: s2 = s2 = 11 N M P M P _ 2 _ 2 fi yi x = i yi x

1 N1

donde M es el nmero de clases. La varianza y la desviacin estndar miden el grado de dispersin de los datos alrededor de la media. Para el clculo de la varianza y la desviacin estndar las siguientes frmulas son tiles, stas se obtienen fcilmente y se dejan como ejercicio: s2 = x2 x i i=1 N P 2 _2 1 2 s1 = N1 xi N xi=1 1 N N P _2

i=1 M P

i=1

_ 2 fi yi x =

i=1

N N1

i=1

M P

_ 2 i yi x

Propiedad de la Distribucin Normal Estndar: Si Z tiene distribucin N(0, 1), P (1 < Z < 1) = 0.6826 es decir, el 68, 26% de las observaciones caen en el intervalo (1, 1) , de manera anloga se tiene que el 95, 44% de las observaciones caen en el intervalo (2, 2) y el 99, 74% de las observaciones caen en el intervalo (3, 3) . Si la distribucin de X es N(, ), se obtiene que el 68, 26% de las observaciones caen en el intervalo ( , + ) ,el 95, 44% de las observaciones 13

caen en el intervalo ( 2, + 2) y el 99, 74% de las observaciones caen en el intervalo ( 3, + 3) . De esta propiedad se obtiene la llamada regla emprica que se verica en los casos en que el histograma correspondiente a las observaciones tiene forma de campana: La Regla Emprica: Dada una distribucin de observaciones que es aproximadamente acampanada, el intervalo 1. ( , + ) contiene aproximadamente el 68% de las observaciones 2. ( 2, + 2) contiene aproximadamente el 95% de las observaciones 3. ( 3, + 3) contiene casi todas las observaciones. EJEMPLOS: 1. Si obsevamos la tabla de datos correspondiente a la medida de la resistencia a la compresin de 70 cilindros de concreto, obtendremos:_

x = 3010, 8857 s = 133, 84112 s1 = 134, 80794 x es una buena medida de la media o centro de los datos ya que 37 _ observaciones son menores que x y 33 mayores. En el intervalo _ _ x s, x + s = (2887, 04458; 3144, 72682)_ _

se encuentran 44 observaciones de las 70 observadas. En este caso x y s describen los datos adecuadamente.

2. La siguiente tabla o muestra bruta , representa el ingreso anual en miles de dlares de 42 familias en un pueblo de E.E.U.U. (1977). 1,2 29,3 11,6 14,5 26,8 28,1 17,0 8,2 39,4 151,2 8,2 17,8 23,2 20,6 157,4 10,1 25,8 26,8 36,0 20,1 10,3 92,3 8,0 17,8 14 74,7 8,8 16,2 7,7 19,4 19,3 152,2 10,7 100,2 47,6 21,2 37,2 19,6 26,0 37,7 29,0 150,1 13,4

En la siguiente tabla de frecuencia correspondiente a esta muestra, se observa enseguida que el comportamiento de los datos es mucho ms errtico que en la tabla anterior: Clases($) (100, 10000) (10000, 20000) (20000, 30000) (30000, 50000) (50000, 160000) Frecuencia Absoluta Frecuencia Relativa 6 6 = 1/7 = 0, 1429 42 13 13/42 = 0, 3095 11 11/42 = 0, 2619 5 5/42 = 0, 1190 7 7/42 = 0, 1667

Si se representan estos datos en un histograma de frecuencias observarn que no es simtrico alrededor de ningn punto ya que tiene una cola larga hacia la derecha ( sesgado hacia la derecha). Para estos datos x = 37, 28$ s = 41, 35 este promedio no es un valor particularmente tpico, de hecho, 32 de _ _ los 42 datos son menores que x y slo 10 son mayores, es decir, x no es una buena medida de centramiento; el histograma tiene este gran sesgo a la derecha, ( empuje del promedio a la derecha) de tal manera que 75% de las observaciones quedan a la izquierda del promedio. La diferencia grande entre los datos ejerce una gran inuencia en el valor del promedio y lo hacen tener un valor no centrado, al igual que hace crecer la desviacin estndar. En resumen, para datos fuertemente sesgados (a la derecha o a la _ izquierda) x, s s1 pueden no ser los parmetros que describan el centro y dispersin de los datos, en este caso es conveniente denir otras medidas de centramiento. 3.2.3 Si una muestra observada, denimos el rango de esta muestra como la diferencia entre la mayor y la menor de las observaciones: R = max xi min xi1iN 1iN _

RANGO DE LA MUESTRA. x1 , x2 , x3 , , xN

15

3.2.4

Coeciente de Variacin o coeciente de dispersin de la muestra:

El coeciente de dispersin de la muestra observada expresa la magnitud de la dispersin con respecto a su media: s s1 o altenativamente _ x x_

3.2.5 Si

Momentos de orden n de una muestra observada: x1 , x2 , x3 , , xN

y is disponemos nicamentede la tabla de frecuencias:

una muestra observada, denimos el momento de orden n de esta muestra como: N _ n 1 X Mn = xi x N i=1M M X _ n _ n 1 X Mn = fi yi x = i yi x N i=1 i=1

donde M es el nmero de clases, fi es la frecuencia absoluta y i la frecuencia relativa de la clase i. 3.2.6 Si x1 , x2 , x3 , , xN una muestra observada, llamamos moda de la muestra al valor que se presenta con mayor frecuencia. Si disponemos solamente de una tabla de frecuencias, tomaremos como moda el punto medio del intervalo de clase de mayor frecuencia. 3.2.7 Si x1 , x2 , x3 , , xN 16 Mediana de la Muestra Observada. Moda de la Muestra Observada.

una muestra observada, representamos por x(1) , x(2) , x(3) , , x(N) el mismo conjunto de datos ordenados de mayor a menor, es decir: x(1) x(2) x(3) x(N ) Una nueva medida del centro del conjunto de datos est dada por la mediana m que es el valor central o promedio de los valores centrales de la muestra ordenada, es decir: ( x( N +1 ) si N es impar x( N 2 + x( N +1) m= 2 ) 2 si N es par 2 Si ordenamos la tabla de sueldos del ejemplo anterior, de menor a mayor, como n = 42, x(21) + x(22) 20, 6 + 21, 2 m= = = 20, 9 2 2 m es una mejor medida del centro de los datos cuando estos son sesgados hacia un lado, m tiene la propiedad de que prcticamente la mitad de los datos est por debajo de m y la mitad por encima, de modo que en este sentido es una buena representacin del centro. Geomtricamente, la mediana es el valor de la abcisa que corresponde a la vertical que divide el rea encerrada por un histograma en dos partes iguales. OBSERVACIN: La mediana de una variable aleatoria X es el punto x R tal que 1 P (X > x) = P (X x) = . 2 Cuando los datos estn agrupados en una tabla de frecuencias, podemos calcular aproximadamente la mediana de la muestra observada mediante un mtodo que describiremos a continuacin (ste no es el nico mtodo, distintos mtodos nos llevan a resultados diferentes, pero todos son valores aproximados de la mediana): Sea N el nmero de observaciones 1. Elegimos un intervalo de clase [ek , ek+1 ] tale quek1 X i=1

donde fi representa la frecuencia del intervalo [ek , ek+1 ] . 17

N X N fi , fi > 2 i=1 2k

2. Supondremos que las observaciones que caen en el intervalo [ek , ek+1 ] , estn uniformemente distribudas en dicho intervalo, es decir, si fk es el nmero de observaciones en dicho intervalo y lo subdividimos en fk subintervalos de igual longitud ek+1 ek Lk = fk supondremos que en cada subdivisin hay una sola observacin: (a) Si N es impar nos gustara aproximar la mediana por la observacin que ocupa el lugar N+1 , cuando la muestra bruta se ordena 2 k1 P fi la cantidad que de menor a mayor, entonces aadimos ai=1

falta para obtener

N+1 , es 2 k1 X i=1

decir, hallamos k0 tal que N +1 . 2

fi + k0 =

Por denicin de [ek , ek+1 ] , 1 k0 fk , entonces aproximamos la observacin N+1 por un nmero en el intervalo 2 ek+1 ek ek+1 ek ek + (k0 1) . , ek + k0 fk fk (b) Si N es par aproximamos la mediana por la observacin que ocupa el lugar N + 1, cuando la muestra bruta se ordena de menor a 2 mayor,para ello elegimos k0 tal quek1 X i=1

fi + k0 =

N +1 2

Por denicin de [ek , ek+1 ] , 1 k0 fk , entonces aproximamos la mediana por un nmero en el intervalo ek+1 ek ek+1 ek ek + (k0 1) , ek + k0 fk fk Podramos tambien aproximar la mediana por el valor x( N ) + x( N +1)2 2

2

ek + (k0 1) ek+1 ek = fk 18

Observe que

N +1 = 2

N + 1, si N es par 2 N+1 , si N es impar 2

donde [x] es parte entera de x. EJEMPLO: Calculemos la mediana correspondiente a la tabla de frecuencias que describe el porcentaje de ceniza en una muestra de carbn: N = 250, Para hallar k tal quek1 X i=1

N = 125 2

X N N fi fi > = 125, = 125 2 2 i=1k

acudimos a la tabla y sumamos las frecuencias de los intervalos de clase comenzando por el primero: 1 + 3 + 3 + 9 + 13 + 27 + 28 + 39 = 123 < N N , 123 + 42 = 165 > = 125 2 2

Luego, el intervalo donde se encuentra la mediana es (17, 17.99) , para simplicar los clculos podemos considerar los lmites exactos del intervalo, es decir, (16.99, 17.99) cuya longitud es 1 : ek+1 ek = 1, fk = 42, ek = 16.99, k = 9 k1 P fi + k0 = 123 + k0 = N + 1 = 126, k0 = 3 2i=1

La mediana se encuentra en el intervalo 2 3 16.99 + , 16.99 + , m 17.05 = 42 42 3.2.8 PERCENTILES:

Como extensin de la idea de mediana ( que divide los datos en dos partes iguales) podramos pensar en aquellos valores que dividen a los datos en cuatro partes iguales aproximadamente, representados por Qi , i = 1, 2, 3; los 19

cuales se llaman primero, segundo tercer cuartil, respectivamente, claramente Q2 es la mediana. Si denotamos por Q1 = x0.25 , Q2 = x0.50 , Q3 = x0.75 la notacin nos dice el signicado de cada uno de ellos, as, x0.25 es un valor tal que aproximadamente el 25% de las observaciones estn a su izquierda, similarmente para los otros casos. Anlogamente, los valores que dividen los datos en diez partes iguales se llaman deciles: D1 = x0.10 , D2 = x0.20 , , D9 = x0.90 . En algunas aplicaciones, especialmente cuando hay una gran cantidad de datos, es preferible usar percentiles (divisin de datos en cien partes iguales). El percentil Pp o percentil p esimo es el centil de p% y representa un nmero tomado entre las observaciones, ordenadas de menor a mayor tal que p% de la muestra est a la izquierda y el (100 p)% est a la derecha. Para hallar Pp procedemos de manera anloga al caso de la mediana: 1. Si disponemos de la muestra bruta ordenada en orden creciente, podemos calcular el centil de p% directamente: sea N el nmero de observaciones (en el caso de la mediana p = 50), el centil p es el dato tal que la cantidad de datos que estn debajo de l es pN 100 si esta cantidad es un entero, aproximamos Pp = x( pN +1) 100 o el punto medio de entre los valores x( pN ) y x( pN +1) (como lo hicimos 100 100 en el caso de la mediana). Si esa cantidad no es un entero tomamos pN parte entera de 100 + 1 y aproximamos Pp = x([ pN +1]) 100 2. Si no disponemos de la muestra bruta y contamos con la tabla de frecuencias, podemos proceder de la siguiente manera:

20

(a) Elegimos un intervalo de clase [ek , ek+1 ] tale quek1 X i=1

donde fi representa la frecuencia del intervalo [ek , ek+1 ] . (b) Supondremos que las observaciones que caen en el intervalo [ek , ek+1 ] , estn uniformemente distribudas en dicho intervalo, es decir, si fk es el nmero de observaciones en dicho intervalo y lo subdividimos en fk subintervalos de igual longitud ek+1 ek Lk = fk supondremos que en cada subdivisin hay una sola observacin. (c) Calculamos k0 tal quek1 X i=1

pN X pN , fi fi > 100 i=1 100k

pN fi + k0 = +1 100

entonces, elegimos Pp en el intervalo ek+1 ek ek+1 ek ek + (k0 1) , ek + k0 . fk fk EJEMPLO: Las notas obtenidas por 1350 estudiantes en los exmenes de ingreso a la Universidad (en base a 100 puntos), en cierto ao, aparece agrupado en la siguiente tabla de frecuencias: Clases (0, 10) (11, 20) (21, 30) (31, 40) (41, 50) (51, 60) (61, 70) (71, 80) (81, 90) (91, 100) Total Frecuencias 2 15 75 150 302 352 287 120 42 5 1350 21

Clculo de la Moda: el intervalo donde hay ms observaciones es (51, 60) , tomamos como moda el valor 60 + 51 = 55.5 2 Clculo de la mediana: N = 1350, N = 675, N + 1 = 676 : 2 2 2 + 15 + 75 + 150 + 302 = 544 < 544 + 352 = 896 > 675, k = 6N 2

= 675

Consideramos el intervalo de clase [51, 60] , para facilitar los clculos tomamos en su lugar el intervalo [50, 60] de longitud 10 ek+1 k1 Pi=1

ek = 10, f6 = 352,N 2

fi + k0 = 544 + k0 =

+ 1 = 676, k0 = 132

La mediana estar en el intervalo ek+1 ek ek+1 ek ek + (k0 1) , ek + k0 . = (53.72, 53.75) fk fk Si queremos aproximarla por un valor numrico, podemos tomar el punto medio del intervalo, a saber: m = 53.73 Clculo del centil 12% :Np = 162, 100 + 1 = 163 2 + 15 + 75 = 92 < 162 92 + 150 > 162, k = 4. Np 100

Tomamos el intervalo de clase: [ek , ek+1 ] = [30, 40] , k0 = 163 92 = 71. El centil de 12% se encuentra en el intervalo (34.66, 34.73) y podemos elegir P12 = 34.70 es decir, que el 12% de las observaciones se hallan a la izquierda de 34.70.

22

3.3

Estadstica Descriptiva (Dos Variables): Mnimos Cuadrados.

En muchos problemas obtenemos datos pareados (xi , yi ), no conocemos la distribucin conjunta de las variables aleatorias correspondientes y al gracar estos datos tenemos la impresin de que una recta podra ser un buen ajuste para ellos, aunque los puntos no estn exactamente sobre una recta. Los problemas de este tipo, suelen manejarse por medio del mtodo de los mnimos cuadrados que consiste en hallar la recta y = ax + b que mejor se ajusta a esos datos, para ello debemos calcular los parmetros a y b a partir de los datos, es decir: Si nos dan un conjunto de datos pareados {(xi , yi ); i = 1, 2, 3, , n} , las estimaciones de mnimos cuadrados de los coecientes a y b son los valores para los cuales la cantidad: q(a, b) =n X i=1

[yi (a + bxi )]2

es un mnimo. Al diferenciar parcialmente con respecto a a y a b y al igualar estas derivadas parciales a cero, se obtiene:q a q b

= (2) = (2)

i=1

que producen el siguiente sistema de ecuaciones:n P

i=1 n P

n P

[yi (a + bxi )] = 0 xi [yi (a + bxi )] = 0

yi = an + b xi yi = ai=1 n P _

Al resolver ese sistema de ecuaciones se obtiene: a = y bx Sxy b = Sxx 23_

i=1 n P i=1

i=1

xi + b

n P

xii=1 n P

x2 i

donde : Sxx = Sxy = 3.3.1n P

i=1

i=1 n P

(xi x) =_

_

2

(xi x)(yi y) =

i=1 _

n P

x2 i

1 n

i=1

n P

i=1

xi yi

n P

xi

1 n

2

i=1

n P

xi

i=1

n P

yi

EJERCICIO:

Consideremos los siguientes datos acerca del nmero de horas de estudio de 10 personas para presentar un examen de ingls y sus calicaciones obtenidas en base a 100 puntos: Horas de estudio (x) Calicacin en la prueba (y) 4 31 9 58 10 65 14 73 4 37 7 44 12 60 22 91 1 21 17 84 Graque los datos y halle la ecuacin de la recta que mejor se ajusta a estos datos, usando el Mtodo de Mnimos Cuadrados.

3.4

Correlacin:

Recuerde que si X e Y son dos variables aleatorias, el coeciente de correlacin de ellas se dene como: Cov(X, Y ) = p V ar(x)V ar(Y )

este valor est en el intervalo [1, 1] y mide en cierto sentido el grado de dependencia lineal entre las variables, si = 1, con porbabilidad uno, existe una dependencia lineal perfecta entre las variables. Si las variables son independientes = 0, el recproco es falso, salvo cuando la distribucin conjunta de las variables es normal. 24

El coeciente de correlacin observado correspondiente a dos muestras aleatorias de X e Y respectivamente es:n P

r=r

i=1 n P

(xi x)(yi y) i=1 n P

i=1

(xi x)2

(yi y)2

En la prctica para tener una idea estimada del grado de correlacin de dos variables, se utilizan los llamados diagramas de dispersin nubes de puntos, que son los puntos correspondientes a los pares (xi , yi ) , que representan las observaciones de ambas variables, representados en un plano cartesiano. Si r = 0 no existe relacin lineal entre las variables, si r < 0 y cercano a 1, existe cierta correlacin lineal entre las variables y la mejor recta que aproxima los datos tiene pendiente negativa ( es decreciente).

4

Funcin de Distribucin Emprica.

si consideramos sobre el conjunto {x1 , x2 , , xn } la distribucin uniforme es decir la probabilidad Pn denida como 1X card {i : xi B} Pn (B) = Ixi (B) = n i=1 nn

Sea (, F, P) un espacio de probabilidades. Cuando realizamos un experimento el conjunto de resultados de las observaciones sirve de material inicial para toda investigacin estadstica, en muchos casos corresponden a los valores experimentales {x1 , x2 , , xn } de cierta variable aleatoria X. La distribucin de esta variable PX (B) = P (X B) , B boreliano de R, en general se deconoce al menos parcialmente. Consideremos n repeticiones independientes de la variable aleatoria X, es decir, X1 , , Xn es una sucesin de variables aleatorias independientes con la misma dostribucin que X. Denamos 1 si x B Ix (B) = 0 si x B /

si en esta denicin escribimos Xi en lugar de los resultados de la muestra, esa expresin ser una variable aleatoria. 25

DEFINICIN: Sea X una variable aleatoria de funcin de distribucin F (x), X1 , , Xn es una sucesin de variables aleatorias independientes con la misma dostribucin que X, denamos 1X card {i : Xi x} Fn (x) = IXi ((, x]) = n i=1 nn

esta expresin es una variable aleatoria que denominamos funcin de distribucin emprica. Tambin se puede expresar como Fn (x) = donde I(,x] (Xi ) = 1X card {i : Xi x} I(,x] (Xi ) = n i=1 nn

1 si Xi x 0 si Xi > x

Teorema 1: Sea X una variable aleatoria de funcin de distribucin F (x), X1 , , Xn es una sucesin de variables aleatorias independientes con la misma distribucin que X, c.s Fn (x) F (x), x, n donde c.s signica, casi siempre y explcitamente expresa que la probabilidad P del conjunto donde esto no ocurre es cero. Demostracin La Ley fuerte de grandes nmeros (Wiebe R. Pestman, Mathematical Statistics, Walter de Gruyter, Berlin, New York,1998, Teorema VII.2.14) nos asegura este resultado pues Fn (x) es el promedio de n variables aleatorias independientes de esperanza " n # n 1X 1X IX ((, x]) = E (IXi ((, x])) = E (Fn (x)) = E n i=1 i n i=1 1X 1X P (Xi x) = F (x) = F (x) n i=1 n i=1n n

Podemos estimar la funcin de distribucin F (x) por medio de la funcin de distribucin emprica, la mayor distancia vertical entre las grcas de 26

las funciones Fn y F est representada por la expresin sup |Fn (x) F (x)| ,xR

el teorema de Glivenco-Cantelli nos dice que esta expresin tiende a cero cuando n , para casi todo , es decir, el conjunto donde no hay convergencia tiene probabilidad cero. Teorema 2: Si n xR

sup |Fn (x) F (x)| 0, n

c.s

este resultado se conoce como el Teorema de Glivenko-Cantelli. Demostracin: Daremos una demostracin para el caso F continua. Sea > 0 arbitrariamente pequeo de forma tal que el nmero N = sea un entero. La continuidad de F nos permite hallar nmeros tales que F (z1 ) = denimos z0 1 k = , F (zk ) = = k, k = 1, 2, , N 1; N N = , zN = , as F (z0 ) = 0, F (zN ) = 1

1

Si z (zk , zk+1 ] las relaciones siguientes son ciertas Fn (z) F (z) Fn (zk+1 ) F (zk ) = Fn (zk+1 ) F (zk+1 ) + Fn (z) F (z) Fn (zk ) F (zk+1 ) Fn (zk ) F (zk ) Consideremos los siguiente eventos Ak = { : Fn (zk ) F (zk ), n } por el teorema 1, P(Ak ) = 1. Sea A = existir n() : si n n()k=0 N T

Ak , tambin P(A) = 1. Si A,

|Fn (zk ) F (zk )| < , k = 0, 1, 2, , N este resultado junto a las desigualdades anteriores nos asegura que 2 Fn (zk ) F (zk ) Fn (z) F (z) Fn (zk+1 ) F (zk+1 ) + 2 de donde sup |Fn (z) F (z)| 2, si n n()z

27

con probabilidad uno. Para una demostracin general se puede consultar Kai Lai Chung, A cours in Probability Theory, Academic Press, captulo 5, Teorema 5.5.1 o Wiebe R. Pestman, Mathematical Statistics, Walter de Gruyter, Berlin, New York,1998, captulo VII, Teorema VII.3.4.

28

Estadstica Descriptiva. Estadstica Prctica No 1

1. Los siguientes datos indican el nmero de trabajadores que faltan a una fbrica en 50 das de trabajo: 13 8 3 11 29 5 19 11 3 12 13 21 19 6 9 37 12 6 10 10 10 11 15 4 8 16 7 10 6 20 2 7 14 32 15 11 9 10 9 5 6 16 7 12 17 12 18 24 7 10

Utilice las seis clases: 0-4, 5-9, 10-14, 15-19, 20-24, 25 mayor para construir una tabla de frecuencias absolutas y relativas. Dibujar el histograma. Construir la tabla de frecuencias acumuladas. Encontrar media muestral, desviacin estandard, moda, mediana y cuartiles. Se cumple la regla emprica? 2. Los siguientes datos son lo nmeros de torsiones requeridas para doce barras cierta aleacin: 33, 24, 39, 48, 26, 35, 38, 54, 23, 34, 29 y 37. Calcule: (a) media (b) s2 (c) la mediana (d) la moda (e) los cuartiles. (f) Se cumple la regla emprica? 3. Demuestre quen X _ (xi x) = 0 i=1

para una muestra x1 , x2 , , xn .

1

4. Si los datos se codican de tal manera que xi = cui + a, demuestre que_

x = cu + a, sx = csu para una muestra pareada x1 , x2 , , xn ; u1 , u2 , , un . 5. La efectividad de una nueva tcnica para controlar un insecto que afecta un tipo de cultivo se puede medir contando el nmero de larvas del insecto halladas en cierta supercie de cultivo. Despus de aplicar la tcnica, se contaron las larvas en 40 reas, obteniendo los datos siguientes: 5 0 2 40 27 3 0 22 14 0 4 19 38 2 5 16 0 7 42 15 39 0 2 0 29 26 14 0 3 27 32 20 3 0 17 35 29 12 16 6 (a) Elabore una tabla de frecuencias absolutas y relativas y haga los histogramas correspondientes. (b) Calcule las acumuladas absolutas y relativas y haga los histogramas correspondientes. (c) Se cumple la regla emprica? (d) En lugar de histogramas haga ahora grcos de lnea. (e) Encontrar media muestral, varianza, desviacin estandard, moda, mediana y cuartiles de los datos. 6. Despus de observar el tiempo de vida de 70 motores, se obtuvieron los siguientes datos: Intervalos de aos de funcionamiento Nmero de motores [0, 1) 30 [1, 2) 23 [2, 31) 6 [3, 4) 5 4 aos o ms 6 (a) Haga un histograma de frecuencias relativas. (b) Se cumple la regla emprica? 2

_

(c) En base al histograma de la parte a), qu distribucin sospecha Ud. que podra tener la variable aleatoria T = tiempo de vida de un motor del tipo considerado? (d) Calcule aproximadamente, la media, desviacin y mediana de estos datos. 7. La evidencia directa de la ley de gravitacin universal de Newton la obtuvo Henry Cavendish (1731-1810). En el experimento se obtuvo la densidad ( en el tiempo) de la tierra y se construy la siguiente tabla: 5.36 5.29 5.58 5.65 5.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39 5.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85 (a) Calcular la media y la desviacin estndar. (b) Calcular los cuartiles, gracar densidad contra tiempo. (c) Hay alguna tendencia obvia? 8. Las materias primas que se utilizan en la produccin de una bra sinttica se almacenan en un sitio sin control de humedad. En 12 das, las mediciones de la humedad relativa del lugar del almacenamiento y el contenido de humedad de una muestra de la materia prima (en porcentajes ambas) producen los siguientes resultados: Humedad Ambiente Humedad en la materia prima 46 53 37 42 43 29 60 44 41 48 33 40 12 14 11 13 10 8 17 12 10 15 9 13

(a) Ajuste una recta de mnimos cuadrados a partir de la cual podamos predecir el contenido de humedad de la materia prima en funcin de la humedad del lugar. (b) Utilice el resultado anterior para calcular el contenido de humedad de la materia prima cuando la humedad relativa es del 38%. 9. La siguiente tabla muestra las ventas (en miles de unidades) de una pequea empresa de componentes electrnicos durante los ltimos 10 aos. Ao 1 2 3 4 5 6 7 8 9 10 Ventas 2, 6 2, 85 3, 02 3, 45 3, 69 4, 26 4, 73 5, 16 5, 91 6, 5 3

(a) Sea X = ao y Y = ventas. Graque la nube de puntos (xi , yi ) . (b) Sea X = ao y Y = ln(ventas). Graque la nube de puntos (xi , yi ) . (c) A cul de las dos nubes anteriores cree Ud. que se ajusta mejor una recta? (d) Calcule las dos rectas de regresin y grafquelas. Semestre Abril-Julio2004/MMOM.

4

REPASO DE DISTRIBUCIONES DE PROBABILIDADES Estadstica Prctica No 2 1. El nmero de accidentes de trabajo en una fbrica sigue una distribucin de Poisson. Se sabe que el promedio de accidentes en dicha fbrica mensualmente es de 3. Durante el mes pasado ocurrieron 6 accidentes. Se puede considerar que este nmero es excesivamente alto? (es decir, poco probable). 2. La experiencia ha demostrado que el 30% de las personas que contraen cierta enfermedad se logra curar. Una compaa farmacutica ha desarrollado un medicamento para dicha enfermedad. Se eligen al azar 10 personas enfermas y se les administra el medicamento, 5 logran curarse, cul es la probabilidad de este evento si se supone que la medicina no tuvo ningn efecto?. Qu opina Ud. del medicamento? 3. Un examen de seleccin mltiple tiene 15 preguntas, cada una de las cuales posee 5 respuestas posibles y de stas slo una es correcta. Si un estudiante contesta todas las preguntas al azar, cul es la probabilidad de contestar correctamente al menos 10 preguntas? 4. El fabricante de una marca de pasta de dientes arma que el 60% de los consumidores preeren esa marca. Si entrevistamos a un grupo de personas escogidas al azar del grupo de consumidores de pasta de dientes, cul es la probabilidad de tener que entrevistar al menos 5 personas para encontrar al primer consumidor que preere esa marca? 5. El nmero de errores que hace una mecangrafa tiene una distribucin de Poisson con una media de 4 errores por pgina. Cul es la probabilidad de que una pgina escogida al azar tenga a lo sumo 4 errores? 6. Una fbrica utiliza un producto cuyo uso diario puede modelarse por medio de una distribucin exponencial de parmetro 4 (esto es, la cantidad de producto utilizada en un da es una variable aleatoria exponencial de parmetro = 4, medida en toneladas). Cuntas toneladas de producto debe almacenar la fbrica para que la probabilidad de quedarse sin producto en un da dado sea slo 0, 05?.

1

7. Un defecto metablico ocurre en aproximadamente 1 de cada 100 nacimientos. Si en un hospital nacen 4 nios en un da dado, calcule: (a) la probabilidad de que ninguno tenga el defecto (b) la probabilidad de que a lo sumo uno de ellos tenga el defecto (c) la probabilidad de que al menos uno de ellos tenga el defecto. 8. En un examen se plantean 10 preguntas a las que debe responderse con verdadero o falso. Un alumno aprobar el examen si al menos 7 de sus respuestas son acertadas. (a) Qu probabilidad de aprobar tiene un estudiante que responde todo al azar? (b) Qu probabilidad de aprobar tiene un estudiante que sabe el 30%? Semestre Abril-Julio 2004/MMOM

2

Repaso de Desigualdad de Tchebyshe, Distribucin Normal, Teorema Central del Lmite. Estadstica Prctica No 3 1. Sea X una variable aleatoria con distribucin normal de parmetros R, > 0 Demuestre que (a) E (X) = , V ar(X) = 2 . X (b) Z = tiene distribucin normal estndar. 2. Una lnea area sabe que el 5% de las personas que hacen reservaciones en un cierto vuelo, al nal no se presentan. Si la aerolnea vende 160 boletos para este vuelo, y slo hay 155 asientos en el avin, cul es la probabilidad de que todo pasajero con reservacin que se presente al aeropuerto tenga un puesto en el vuelo?. 3. En una empresa se ha observado que el gasto semanal en mantenimiento y reparaciones es una variable aleatoria con distribucin aproximadamente normal de media = Bs. 24000 y desviacin = Bs.1200. Cunto debe presupuestarse semanalmente para mantenimiento y reparaciones para que el monto presupuestado sea excedido con una probabilidad de a lo sumo 0, 1? 4. Un encuestador cree que el 20% de los votantes de una zona est a favor del candidato A. Si se escogen 24 votantes de la zona, aproxime la probabilidad de que la fraccin de votantes de la muestra que favorece al candidato A, no diera de la verdadera fraccin (en toda la zona) en ms de 0, 06. 5. Una mquina se manda a reparar si una muestra de 100 artculos escogidos al azar de su gran produccin diaria, revela un 15% mas de defectuosos. Si la mquina en realidad slo produce un 10% de defectuosos, calcule aproximadamente la probabilidad de que la manden a reparar. 1

6. La vida activa de un cierto frmaco sigue una distribucin N(1200, 40) das. Se desea enviar un lote de medicamentos, de modo tal que la vida media del lote no sea inferior a 1180 das con probabilidad 0, 95. Qu tamao debe tener la muestra? 7. Encuentre una aproximacin de la probabilidad, de que el nmero de veces que salga 1, est comprendido entre 1900 y 2150 veces, al lanzar un dado perfecto 12000 veces. 8. Se toma una muestra al azar con reposicin, a efectos de estimar la fraccin p de hembras en una poblacin. Encontrar un tamao de muestra que asegure que la estimacin se har con un error de menos de 0, 005 , al menos con una probabilidad de 0, 99. 9. Se desea estimar la probabilidad de falla p, en un proceso de produccin, mediante la observacin de n objetos producidos, elegidos independientemente. Se sabe que p est entre 0, 1 y 0, 3 por informacin previa. Halle el tamao n de la muestra para que la probabilidad de que la frecuencia relativa de objetos fallados en la muestra, diera del verdadero valor p en ms de 0, 01 sea menor que 0, 05. 10. El porcentaje de individuos daltnicos de una poblacin es P desconocido. Se desea estimar este procentaje P a partir del porcentaje observado en una muestra de tamao n. Calcular el tamao que debe tener la muestra a n de que el error cometido sea inferior al 1% con probabilidad 0, 90 en los casos: (a) No se sabe nada acerca de P. (b) Se sabe que P es inferior al 16%. 11. Se ha observado que las notas de un examen de admisin siguen una distribucin aproximadamente normal, de media 78 y varianza 36.( Las notas estn entre 1 y 100). (a) Si un grupo de estudiantes va apresentar dicho examen, qu porcentaje de ellos espera Ud. que obtenga notas entre 70 y 90? (b) Cul es la probabilidad de que una persona que tome el examen obtenga ms de 72?

2

(c) Suponga que los estudiantes cuyas notas se encuentran en el 10% superior de la distribucin sern admitidos inmediatamente. Cul debe ser la nota mnima que debe tener un estudiante para ser admitido inmediatamente? 12. La duracin de un tipo de bombillos sigue una distribucin Normal de media = 1000 horas y desviacin = 100 horas. Se desea enviar una muestra de bombillos de manera que la duracin media de la muestra no diera de en ms de 50 horas con una probabilidad de 0, 95. (a) Hallar el tamao que debe tener la muestra. (b) Resuelva el problema, si se desconoce la distribucin : i. Usando Tchebichev. ii. Usando el Teorema Central del Lmite. 13. Una compaa tiene 90 ejecutivos. Supongamos que la probabilidad de que un ejecutivo necesite una secretaria al comenzar su da de trabajo 1 es 10 . Si queremos que con un 95% de certeza haya una secretaria disponible para cada ejecutivo que la solicite, cuntas secretarias deberan contratarse para un centro secretarial que sirva al grupo de 90 ejecutivos? 14. Un fabricante de cereales arma que el peso medio de una caja del cereal que vende es de 330, 4 grs. con una desviacin de 21 grs. Se desea vericar si su armacin es cierta. Para esto se va a elegir una muestra aleatoria de cajas del cereal y calcular el peso promedio de la muestra. Cuntas cajas debemos tener en la muestra para que el peso promedio se encuentre a menos de 7 grs. de la verdadera media con una probabilidad de 0, 99? (Suponga que la distribucin del peso de cada caja es normal ). 15. Si la probabilidad de que un individuo sufra una reaccin alrgica por la inyeccin de cierto medicamento es de 0,001; calcule la probabilidad de que, de un total de 2000 individuos a quienes se inyect el medicamento, ms de 2 tengan una reaccin alrgica. Semestre Abril-Julio 2004/MMOM 3

Captulo II Inferencia Estadstica: Estimacin Puntual de Parmetros.Mara Margarita Olivares M. Abril 2004

1

INTRODUCCIN:

Cuando se realiza un experimento aleatorio, los posibles resultados de dicho experimento se pueden pensar como una variable aleatoria. En general, un material estadstico consiste en un nmero de observaciones x1 , x2 , , xN , obtenido a partir de N repeticiones independientes del experimento aleatorio relacionado con X. La estadstica descriptiva reduce el material observado o muestra bruta, reemplazndolo por cantidades relativamente pocas en nmero que representen el material total y que contengan toda la informacin posible de la variable aleatoria X. En el material estadstico raramente podemos incluir todas las observaciones que podramos realizar tericamente, por lo que este material se puede considerar como una muestra aleatoria simple o como una sucesin de variables aleatorias independientes, todas con la misma distribucin, la cual est sujeta a uctuaciones estadsticas ya que se obtendran valores distintos x01 , x02 , , x0N , si realizramos N nuevas observaciones. Es decir, antes de realizar el experimento, los valores de X que se van a observar deben concebirse como N variables aleatorias X1 , X2 , , XN , independientes, idnticamente distribuidas, con la misma distribucin de la variable aleatoria X. 1

El objetivo de la estadstica es hacer inferencia acerca de una poblacin basndose en la informacin contenida en una muestra, por ejemplo, tomar decisiones sobre la distribucin de probabilidad de la variable aleatoria X y describir esa distribucin basndose en la observacin de esta variable aleatoria. Puesto que las distribuciones se caracterizan por medidas descriptivas numricas, llamadas parmetros, la estadstica se interesa en hacer inferencia acerca de los parmetros de las distribuciones de probabilidad. Algunos parmetros tpicos son la media, la desviacin estndar, el rea bajo la distribucin de probabilidad a partir de un valor de la variable aleatoria o el rea entre dos valores de la variable. Algunos ejemplos pueden aclarar esta idea: 1. El lavaplatos de un restaurante posee un certicado de garanta que expresa que de cada 100 platos que lava, slo rompe 3. El primer da lava 500 platos y se le rompen 23, resulta creble lo que expresa la garanta? 2. Se repite independientemente un experimento que puede dar lugar en cada repeticin al resultado A con probabilidad p. Al cabo de 200 repeticiones, A ocurri 22 veces. Se desea saber al menos aproximadamente el valor de p. 3. Una calculadora bolsillo tiene una rutina generadora de nmeros aleatorios, que de acuerdo a lo que indica el fabricante, proporciona una sucesin de variables aleatorias independientes de distribucin uniforme en [0, 1] . Se genera una sucesin x1 , x2 , , xN , . A partir del conocimiento de ella, resulta aceptable la armacin del fabricante? En los ejemplos anteriores, planteamos problemas de estimacin de parmetros y tambin de pruebas de hiptesis, los cuales analizaremos ms adelante. Supongamos que F es la funcin de distribucin terica de la variable aleatoria X , en observacin; F en general contendr uno o ms parmetros tales como y en el caso de la distribucin normal. Una vez conocidos los valores numricos de estos parmetros, la variable aleatoria que estamos investigando queda completamente caracterizada. Basndonos en las observaciones x1 , x2 , , xN , 2

estimamos los valores numricos de los parmetros de F, estos estimadores empricos de los parmetros tericos son a su vez variables aleatorias y como tales estn sujetos a uctuaciones estadsticas. Para tener una medida de la magnitud esperada de estas uctuaciones y por lo tanto de la conanza que podemos depositar en los valores encontrados para los parmetros a partir de las observaciones, debemos deducir a partir de F , las distribuciones de nuestros estimadores. As pues, antes de que podamos resolver un problema estadstico dado, debemos, en primer lugar, establecer una hiptesis sobre la forma matemtica de la funcin de distribucin F. A veces, por experiencias anteriores, se sabe que podemos suponer una determinada distribucin, por ejemplo, la distribucin normal. O bien, a partir de ciertas hiptesis que idealizan el experimento considerado podemos deducir su distribucin, basndonos en las reglas conocidas de la teora de probabilidad. Por ejemplo, cuando se cuenta el nmero de partculas que se observan en una pantalla, emitidas por una sutancia radioactiva durante un tiempo t, bajo ciertas hiptesis simplicativas, podemos suponer que la distribucin es de Poisson de parmetro t y justamente es el parmetro el valor que debenos estimar a partir de las observaciones.

1.11.1.1

DEFINICIONES:MUESTRA ALEATORIA SIMPLE: X = (X1 , X2 , , XN )

Es un vector aleatorio

cuyas componentes son variables aleatorias independientes, idnticamente distribuidas, siendo N el tamao de la muestra. 1.1.2 ESTADSTICO (o ESTADGRAFO)

Es toda funcin T de una muestra aleatoria X = (X1 , X2 , , XN ) que a su vez resulte ser una variable aleatoria: TN = T (X) = T (X1 , X2 , , XN ) (La funcin T debe ser lo sucientemente regula como para que T (X) sea una variable aleatoria) 3

EJEMPLOS DE ESTADSTICOS: 1. Media Muestral Aleatoria:N 1 1 X (X1 + X2 + + XN ) = X= Xi N N i=1 _

2. Varianza Muestral Aleatoria:N _ 1 X (Xi X)2 S = N i=1 2

3. Varianza Muestral Centrada Aleatoria:2 S1 _ 1 X = (Xi X)2 N 1 i=1 N

1.1.3

OBSERVACIN:

La distribucin de estos estadsticos est determinada por la distribucin terica F de la variable aleatoria X.

1.2

ESTIMADOR:

Un estimador paramtrico o para simplicar, diremos simplemente, un estimador, es un estadstico cuyo valor observado intentamos usar para estimar el valor de un parmetro desconocido de la distribucin terica. (El enfoque paramtrico supone que la forma del modelo es conocida). La media muestral y la varianza muestral aleatorias, como lo indica sus nombres, son estimadores de la media y la varianza de la distribucin terica. Supongamos que TN = T (X1 , X2 , , XN ) sea un estimador de un cierto parmetro de una distribucin terica. La diferencia: TN = T (X1 , X2 , , XN ) se denomina Error de Estimacin. Una buena forma de conseguir que TN sea un buen estimador, es pedir que el error de estimacin sea pequeo y 4

esto puede hacerse, por ejemplo, exigiendo que se cumplan condiciones tales como: P (|T (X1 , X2 , , XN ) | > ) < para valores pequeos de > 0, > 0; o bien que E |T (X1 , X2 , , XN ) |k < c

para valores apropiados de las constantes k > 0,y c > 0 pequeo. En particular, llamamos error cuadrtico medio a la expresin: E |T (X1 , X2 , , XN ) |2 , 1. T es un Estimador Insesgado o Centrado de cuando E (T (X1 , X2 , , XN )) =

es deseable que un estimador tenga un error cuadrtico medio pequeo. A menudo, tienen inters, sobre todo tcnico, las siguientes propiedades:

para todo N 1. En este caso el error cuadrtico medio coincide con la varianza. A la diferencia se le llama sesgo de T. E (T (X1 , X2 , , XN ))

2. EFICIENCIA RELATIVA: dos estimadores insesgados T1 y T2 , del mismo parmetro , basados en las mismas observaciones, se suelen comparar utilizando la eciencia relativa de T2 con respecto a T1 , la cual se dene como el cociente V ar(T1 ) . V ar(T2 ) Si este cociente es menor que 1, es decir, V ar(T1 ) < V ar(T2 ) diremos que el estimador T1 es ms eciente que T2 . 3. ESTIMADOR CONSISTENTE: Sea T un estimador del parmetro y sea Tn = T (X1 , X2 , , Xn ) 5

una sucesin de estimadores de , que representan a T con base en la muestra de tamao n. Se dice que T es un estimador consistente si:N

lim P (|T (X1 , X2 , , XN ) | ) = 0

(Este tipo de convergencia se llama convergencia en probabilidad del estimador al verdadero valor del parmetro). EJERCICIOS: 1. Demostrar que si T es un estimador de cuyo error cuadrtico medio tiende a cero cuando n , es consistente. 2. Si T es insesgado y Var(Tn ) tiende cero cuando n , entonces T es consistente. 3. Si lim E(TN (X1 , X2 , , XN )) = y lim V ar (TN (X1 , X2 , , XN )) = N N 0, entonces T es consistente.

1.3

Propiedades de la media y la varianza aleatorias:

(Como estimadores de la media y la varianza). Sea X = (X1 , X2 , , XN ) una muestra aleatoria de la variable X, con = E (Xi ) , 2 = V ar(Xi ).i = 1, 2, , N_

1. X =

1 N

i=1

N P

Xi es un estimador insesgado y consistente de : _ E X =_ 1 N N P 1 N N

V ar(X) =

i=1 N P 1 V N2 i=1

E (Xi ) =

= =2 N

ar (Xi ) =

1 N 2 N2

2 2. S1 es un estimador insesgado de 2 :

6

N 2 Puesto que S1 = N1 S 2 , podemos calcular E (S 2 ) y deducir de all la N 2 E (S1 ) = N1 E (S 2 ) . Para calcular E (S 2 ) , supongamos que:

E (Xi ) = , E ((Xi )2 ) = V ar(Xi ) = 2 , 1 i N. _ _ N N P P (Xi X)2 = (Xi X + )2 =i=1 N P i=1 i=1 N P i=1

(Xi )2 + N( X)2 + 2( X)_

_

_

(Xi )2 + N( X)2 2N( X) =

i=1 _ 2

N P

(Xi ) =i=1 N P

(Xi )2 N( X)2

_

o equivalentemente

N N _ _ X X 2 (Xi ) = (Xi X)2 + N(X )2 i=1 i=1

Este resultado tiene una interpretacin importante pues descompone la variabilidad de los datos respecto a su media verdadera como suma de la variabilidad respecto a la media muestral y la variabilidad entre la media muestral y la verdadera. Tomando esperanza: N 2 = E (NS 2 ) + NV ar(X) 2 E (S 2 ) = 2 = N1 2 . N N De aqu se obtiene que: 2 E S1 = N E S 2 = 2. N 1_

2 Note que S1 es un estimador insesgado o centrado de la varianza, mien2 tras que S no lo es. Esta es la razn por la que se preere trabajar con 2 2 S1 en lugar de S 2 y por sto S1 recibe el nombre de varianza centrada o varianza muestral corregida, el divisor n 1 se denomina nmero de grados de libertad.

Si llamamos residuo a

ei = xi x 7

_

entonces la varianza muestral centrada o corregida ser2 S1 = _

1 X 2 e N 1 i=1 iN

cuando N = 1, x = x1 y antes de tomar la muestra podemos armar que e1 = 0. No hay ningn grado de libertad. Si N = 2, tendremos _ que e1 = x1 x = x1 x1 +x2 = x1 x2 = e2 . Hay solamente un grado 2 2 de libertad e1 (o e2 ). Dado un residuo el otro queda automticamente jado. En general, para cualquier tamao muestralN N X X _ ei = 0 xi x = i=1 i=1

antes de tomar la muestra solo hay n1 residuos desconocidos porque el ltimo siempre puede calcularse usando la expresin anterior. Diremos que disponemos de n 1 grados de libertad para calcular los residuos y por tanto la desviacin tpica de los datos.2 3. S1 y S 2 son consistentes, si E(X 4 ) < ; se puede demostrar que:

V ar(S 2 ) = donde

4 2 2(4 22 ) 4 32 2 2 2 + N N2 N3 k = E (X )k

es el k-simo momento centrado de la variable aleatoria X. Este clculo es bastante complicado, para una demostracin se puede consultar Mtodos Matemticos de estadstica de Harald Cramer, editorial Aguilar, Madrid. Puesto queN

lim E(S 2 ) = lim

N 1 2 = 2 y lim V ar(S 2 ) = 0 N N N

2 se deduce que S 2 es consistente y puesto que E(S1 ) = 2 , se obtiene que: N2 2 lim V ar(S1 ) = lim V ar(S 2 ) = 0 N N (N 1)2 2 tambin obtenemos que S1 es consistente.

8

1.4

Mtodo de Mxima Verosimilitud.

El mtodo general ms importante para hallar estimadores de los parmetros desconocidos de una distribucin terica se conoce con el nombre de mtodo de mxima verosimilitud introducido por R. A. Fisher. Es un mtodo sistemtico que permite hallar estimadores puntuales de cualquier nmero de parmetros desconocidos de una distribucin. 1.4.1 Funcin de Verosimilitud:

Se llama Funcin de Verosimilitud de una muestra observada a la densidad conjunta ( o funcin de probabilidad conjunta en el caso discreto) de la muestra aleatoria X1 , X2 , , XN , considerada como funcin del parmetro o de los parmetros desconocidos. Es decir, L( 1 , 2 , , N ) = fX1 ,X2 , ,XN (x1 , x2 , , xN ; 1 , 2 , , N ) en el caso de densidad y en el caso discreto: L( 1 , 2 , , N ) = pX1 ,X2 , ,XN (x1 , x2 , , xN ; 1 , 2 , , N ) con pX1 ,X2 , ,XN (x1 , x2 , , xN ; 1 , 2 , , k ) = P (Xi = xi ; i = 1, 2, , N) donde j , j = 1, 2, , k, son los parmetros desconocidos de la distribucin. OBSERVACIN: La funcin de verosimilitud representa, en cierto sentido, la probabilidad de observar lo que realmente se observ. El mtodo consiste en elegir los parmetros j de manera que la probabilidad de observar lo que se observ sea mxima, es decir, se desea elegir los parmetros j de tal forma que maximicen la funcin de verosimilitud. Si X es la variable aleatoria asociada al experimento y j , j = 1, 2, , k, son los parmetros desconocidos de su distribucin, denotando por

= ( 1 , 2 , , k ),

si X1 , X2 , , XN es una muestra aleatoria de la variable aleatoria X entonces: 9

1. En el caso de densidad, si f (x; ) es la densidad de X, y x1 , x2 , , xN representa la muestra observada, se tendr que L(x1 , x2 , , xN ; ) = f (x1 ; ) f (x2 ; ) f (xN ; ) 2. En el caso discreto, si g(x; ) = P (X = x) es la funcin de probabilidad de X, si x1 , x2 , , xN representa la muestra observada, 1 , 2 , , r con 1 r N son los valores distintos observados y f1 , f2 , , fr , son r P fi = N, se tendr que las frecuencias respectivas, coni=1

f1 f2 fr L(x1 , x2 , , xN ; ) = g( 1 ; ) g( 2 ; ) g( r ; )

OBSERVACIN: Se quiere elegir = ( 1 , 2 , , k )

de modo que L(x1 , x2 , , xN ; ) sea mximo. L ln ln 1 L Note que = 0 si y solo si L = 0 ya que L = L . Luego, si L es i i i i derivable con respecto a los parmetros, los extremos se calculan trabajando con la funcin ln L ya que los clculos son ms simples. EJEMPLOS: 1. Estimadores de mxima verosimilitud de la media y de la varianza 2 de una distribucin normal: sea x1 , x2 , , xN una muestra observada de la distribucin normal, queremos estimar los parmetros basndonos en esta muestra, por el mtodo de mxima verosimilitud: 1 1 f (xi ; , ) = 2 exp 22 (xi )2 , x = (x1 , x2 , , xN ) N 1 Q 1 L( x; , ) = exp 22 (xi )2 = 2 i=1 N P 1 1 2 exp 22 (xi ) (2 2 )N/2i=1

10

tomando logaritmo neperiano: l(, ) = ln L( x; , ) = N ln l(,) l(,) N 2

=

1 2

i=1

= N +

N P

(xi ) = 0 =1 23 i=1 N P

1 N

i=1 1 N

(xi )2 = 0 2 =

N P

ln(2) xi = x_

1 2 2

i=1

N P

(xi )2

i=1

en el punto (, ) encontrado. (Mtodo del Hessiano). Si > 0 y 2 l(,) < 0 evaluados ambos en los puntos 2 =N N _ _ 1 X 1 X xi = x, 2 = (xi x)2 = s2 N i=1 N i=1 _

Para vericar que estos valores maximizan la funcin l(, ) se debe evaluar 2 l(,) 2 l(,) 2 = 2 2 l(,) l(,) 2

N P

(xi x)2 = s2

_

encontrados, entonces concluimos que x y s2 realizan un mximo de l(, ). 2. Sea X una variable con distribucin uniforme en el intervalo [0, b] con b > 0. Calculemos el estimador de mxima verosimilitud del parmetro b basndonos en una muestra x1 , x2 , , xN . La densidad de X es 1 f (x; b) = , x [0, b] b La funcin de verosimilitud es: L(x1 , x2 , , xN ; b) = f (x1 ; b) f (x2 ; b) f (xN ; b) = 1 , 0 xi b, para todo i = 1, 2, , N. bN o expresado de otra forma: L(x1 , x2 , , xN ; b) = 1 , max xi [0, b] , 0 min xi . bN 11

Al gracar la funcin L como funcin del parmetro b, se observa que el valor mximo se realiza en el valor b = max xi en este punto L no es derivable. 3. Estimador de mxima verosimilitud del parmetro > 0 de la distribucin de Poisson, basado en una muestra x1 , x2 , , xN : Si X tiene distribucin de Poisson, su rango es {0, 1, 2, , k, (k + 1), } , de estos valores solo un nmero nito estar representado en la muestra x1 , x2 , , xN . Sea r = max xi , entonces los valores 0, 1, 2, , r, estarn representados en la muestra con frecuencias , fi , 1 i r, respectivamente, donde fi puede ser eventualmente cero para algn 1 i r, verican: r X fi = N.i=1

Derivando el logaritmo neperiano de la funcin de verosimilitud e igualando a cero, se obtiene: i r r Q i e fi P , l() = ln L( x; ) = fi ln e L(x1 , x2 , , xN ; ) = i! i! i=0 i=0 r r r P i P P l() 1 = fi 1 = 0 ifi = fi = N i=0

de donde: =

1 N

i=0

4. Supongamos que en cierto experimento se observa un suceso A cuya probabilidad p es desconocida. Hacemos N observaciones y observamos f veces A . La variable observada X tiene distribucin de Bernoulli de parmetro p, siendo P (A) = P (X = 1) = p. La funcin de verosimilitud y la derivada de su logaritmo se obtiene fcilmente: L(x1 , x2 , , xN ; p) = pf (1 p)Nf l(p) = ln L( x; p) = f ln p + (N f ) ln(1 p) l(p) f = f + Nf = 0 p = N . p p 1p 12

r P

ifi =

1 N

i=0

r P

i=0

i=0

xi = x.

_

Es decir, la frecuencia relativa observada es el estimador de mxima verosimilitud de la probabilidad de que ocurra el suceso A. EJERCICIOS: Halle los estimadores de mxima verosimilitud, basados en una muestra x1 , x2 , , xN , si la variable observada tienen distribucin: 1. Exponencial de parmetro > 0. 2. Densidad f (x; p) = pxp1 , 0 x 1, p > 0.

1.5

Estimacin Puntual: Mtodo de los Momentos.

Sea X1 , X2 , , XN una muestra aleatoria de una variable aleatoria X cuya distribucin terica depende de uno o varios parmetros desconocidos. El mtodo de los momentos para estimar los parmetros basndose en una observacin x1 , x2 , , xN , es el ms antiguo que se haya propuesto con este objeto, fue introducido por K. Pearson. Consiste en igualar un nmero conveniente de momentos muestrales a los correspondientes momentos de la distribucin, que son funciones de los parmetros desconocidos. Considerando tantos momentos como parmetros haya que estimar y resolviendo las ecuaciones resultantes respecto a dichos parmetros, se obtienen estimaciones de stos. Este mtodo da muchas veces lugar, en la prctica, a clculos relativamente simples. As, por ejemplo, si X tiene densidad f (x; ) dependiendo de un solo parmetro desconocido, se utiliza como estimador de la solucin de la ecuacin N _ 1 X E (X) = Xi = X N i=1 donde E (X) = Z f (x; )dx

en el caso que esta ecuacin tenga solucin nica. Si tiene innitas soluciones, como suele suceder cuando la distribucin terica depende de k parmetros desconocidos, con k 2, se agrega la ecuacin Z N 2 1 X 2 2 E X = x f (x; )dx = X . N i=1 i

13

Si sta no es suciente, se agrega la que corresponde al momento de tercer orden, y as sucesivamente, hasta determinar una solucin nica, si sto es posible. 1.5.1 EJEMPLOS:

1. Distribucin uniforme en [0, b] , con b > 0 desconocido: como por ejemplo (a) Se escogen al azar nmeros entre 0 y algn nmero desconocido. (b) Tiempos de espera del autobs de las 8 A.M. La densidad es f (x; ) = x [0, b] 0, si no.1 , b

Tenemos que resolver la ecuacin: E (X) =N _ 1 X Xi = X N i=1

pero la esperanza de una variable aleatoria de densidad uniforme de parmetros (0, b) es: Z 1 xf (x; )dx = b Zb0

E (X) = Igualando obtenemos:

b xdx = . 2

_ _ b = X, tomamos b = 2X 2

El estimador b de b, es insesgado, pues N _ b 2 X 2 E b = 2E X = E (Xi ) = NE (X) = 2 = b. N i=1 N 2

14

El error medio cuadrtico del estimador b, por ser en este caso insesgado, coincide con su varianza: N _ 4 X 2 E (b b) = V ar(b) = V ar(2X) = 2 V ar (Xi ) = N i=1 4 b2 4 V ar(X) = N N 12

por ser X uniforme en [0, b] . Por lo tanto V ar(b) =

b2 0 si N , 3N_

es decir, nuestro estimador b = 2X del parmetro desconocido b es consistente. Por el mtodo de mxima verosimilitud, obtuvimos como estimador del parmetro b a b = max(X1 , X2 , , XN ). Veamos que este estimador no es insesgado; como tenemos que hallar su esperanza, debemos calcular antes su distribucin: P b x = P (max(X1 , X2 , , XN ) x) = P (X1 x, X2 x, , XN x) = N Q P (Xi x) = (P (X x))N = (F (x; b))Ni=1

As, la funcin de distribucin del estimador, es: 0 si x < 0 xN P bx = si x [0, b] bN 1 si x > b. 15

donde F es la funcin de distribucin de X que es uniforme en el intervalo [0, b] . Es fcil calcular esta funcin de distribucin para obtener: 0 si x < 0 x si x [0, b] F (x; b) = b 1 si x > b.

y derivando, obtenemos la densidad de b : N N1 x si x [0, b] bN f (x) = 0 si no. b La esperanza de esta distribucin es: N b, E b = N +1 es decir, este estimador del parmetro b no es insesgado, pero s lo es asintticamente ya que N b = b. lim E b = lim E (max(X1 , X2 , , XN )) = lim N N N N + 1 Este estimador es consistente, en efecto: 2 N N 2 E b = N+2 b , E b = N+1 b N N2 V ar b = N+2 (N+1)2 b2 =

Nb2 (N+2)(N+1)2

por lo tanto su varianza tiende a cero cuando N tiende a innito. 2. Dada una muestra aleatoria de distribucin de Bernoulli de parmetro p, estimemos p por el mtodo de los momentos y por el mtodo de mxima verosimilitud: (a) Mtodo de Mxima Verosimilitud: si X tiene distribucin de Bernoulli de parmetro p, x1 , x2 , , xN es una muestra de la variable aleatoria X y f es la frecuencia correspondiente al nmero de unos presentes en la muestra, se tendr: L(x1 , x2 , , xN ; p) = pf (1 p)N f l(p) = ln L( x; p) = f ln p + (N f ) ln(1 p) l(p) f = f + Nf = 0 p = N . p p 1p De aqu se deduce que el estimador de mxima verosimilitud de p es: N _ 1 X p= Xi = X. N i=1 16

(b) Mtodo de lo Momentos: debemos resolver la siguiente ecuacin:N 1 X Xi E (X) = N i=1

pero la esperanza de la distribucin de Bernoulli de parmetro p, _ es p. As, el estimador del parmetro p, en ambos casos es X. Este estimador es insesgado ya queN _ 1 X E X = E(Xi ) = p N i=1

y tambin es consistente pues: N _ P 1 V ar(X) = V ar N Xi =i=1

1 N2

i=1

por lo tanto la varianza del estimador tiende a cero cuando N tiende a innito.

N P

V ar(Xi ) =

p(p1) N

EJERCICIO: Hallar el estimador del parmetro > 0, por el mtodo de los momentos correspondiente a: a) La distribucin exponencial. b) La distribucin de Poisson.

1.6

Una cota inferior para el error cuadrtico medio de un estimador: Desigualdad de Crmer-Rao.

Supongamos que X1 , X2 , , XN es una muestra aleatoria de distribucin F = F (x; ) y que dicha distribucin tiene una densidad f (x, ) derivable respecto al parmetro R. Denotemos por: f ( x; ) = fX1 ,X2 , ,XN (x1 , x2 , , xN ; ) 17

la densidad conjunta de la muestra aleatoria evaluada en el punto

x = (x1 , x2 , , xN ).

Supongamos tambin que la identidad Z fX1 ,X2 , ,XN (x1 , x2 , , xN ; )dx1 dx2 dxN = 1RN

puede derivarse respecto al parmetro , bajo el signo de integral. Bajo esta hiptesis, podemos obtener la siguiente identidad: R R 1 0 = RN f ( x ,) dx1 dx2 dxN = RN f ( x ,) f ( x; )dx1 dx2 dxN = f ( x ;) ln f (X,) ln L() =E , X = (X1 , X2 , , XN ). E

Si b() = E (T (X1 , X2 , , XN ) ) es el sesgo del estimador T del parmetro y calculamos su derivada, se tendr Z 0 1 + b () = E (T (X1 , X2 , , XN )) = T ( x)f ( x; )dx1 dx2 dxN RN Si admitimos que esta ltima integral se puede derivar bajo el signo de integral respecto al parmetro , obtenemos las siguientes igualdades: R 1 + b0 () = RN T ( x) f ( x; )dx1 dx2 dxN = R f ( x ,) 1 f ( x; )dx1 dx2 dxN = N T ( x) R f ( x ;) R ln f (X,) f ( x; )dx1 dx2 dxN = N T ( x) R ln L() ln L() L() = E T (X) E ln = E T (X) L() E T (X) ln ln L() = 0. puesto que E

18

1.6.1

Desigualdad de Crmer-Rao:

Si todas las derivaciones bajo el signo de integral son vlidas ( es cierto bajo la hiptesis de suciente regularidad de la densidad f ), se cumple la desigualdad: " 2 # " 2 # ln L() 2 (1 + b0 ()) E T (X) E , por la desigualdad de Cauchy-Schwarz, en particular, si T es insesgado " 2 # b() = 0, b0 () = 0, E T (X) = V ar(T (X)) 2 ln L() 1 V ar(T (X))E . Adems, bajo condiciones de suciente regularidad de la densidad f, se cumple " 2 2 # ln L() ln L() = E E 2 ya que: 2 ln L() 2

=

1 2 L() L() 2

E

puesto que i R h 2 1 2 L() 1 E L() 2 = RN f (2x ,) f ( x, )dx1 dx2 dxN = f ( x ,) R 2 f (,) R x dx1 dx2 dxN = RN f ( x ,) dx1 dx2 dxN = 0 RN 2

h

2 ln L() 2

i

= E

ln L()

1 L() L()

ln L()

= 2

=

1 2 L() L() 2 2

1 L() L()

si 0 =

R

=

ln L()

RN

f ( x ,) dx1 dx2

2

dxN

si las derivaciones bajo el signo de integral son posibles. En conclusin, la desigualdad obtenida se denomina desigualdad de CrmerRao: " " 2 !#1 2 # ln L() E T (X) E 19

OBSERVACIONES: 1. La desigualdad de Crmer-Rao proporciona una cota inferior del error cuadrtico medio de un estimador. En particular, para los estimadores insesgados, proporciona una cota inferior para la varianza del estimador. Esta cota inferior no tiene por qu ser alcanzada, pero si se encuentra un estimador insesgado cuya varianza es: " 2 !#1 ln L() E entonces la desigualdad expresa que se trata de un estimador de mnima varianza. 2. Valen resultados anlogos a los anteriores cuando la distribucin es discreta, reemplazando la densidad f ( x, ) por la funcin P X = x; que representa la funcin de probabilidad de la variable aleatoria X. 3. Se llama eciencia de un estimador insesgado al cociente de varianzas que dene su eciencia relativa respecto a un eventual estimador de varianza mnima, es decir: 2 1 ln L() E Eciencia de T = V ar(T ) 4. Un estimador insesgado de varianza mnima tiene eciencia igual a 1; tal estimador suele llamarse Estimador Eciente. Si la sucesin de eciencias de una sucesin de estimadores insesgados tiende a 1, la sucesin se dice que es asintticamente eciente. EJEMPLO: El estimador de mxima verosimilitud del parmetro de la distribucin de Poisson tiene varianza mnima, es decir, es un estimador eciente; en efecto: i r X e ln L() = fi ln i! i=0 20

donde fi, 0 i r son las frecuencias de los valores 0, 1, 2, , r representados en la muestra x1 , x2 , , xN con max(x1 , x2 , , xN ) = r. Derivando con respecto al parmetro e igualando a cero, obtenemos que el estimador de mxima verosimilitud del parmetro esN 1 X =X= Xi , N i=1 _

que es un estimador insesgado de puesN 1 X E(X) = E(Xi ) = , N i=1 _

adems la cota de Crmer-Rao coincide con la varianza del estimador que es:_

V ar(X) = pues: E ln L() 2 !

N

_ 2 N 2 _ N2 N = 2 E X = 2 V ar(X) =

por lo tanto:

" 2 !#1 _ ln L() E = = V ar(X), N_

puesto que, = X tiene eciencia 1 es un estimador de varianza mnima.

1.7

Estadsticos Sucientes.

Sea X1 , X2 , , XN una muestra aleatoria cuya distribucin es conocida y queremos estimar un parmetro de su distribucin. Un estadstico Tn = T (X1 , X2 , , XN ) es suciente para el parmetro desconocido si para todos los resultados posibles T = t la distribucin condicional de (X1 , X2 , , XN ) dado T = t no es funcin del parmetro . Es decir, toda la informacin acerca del parmetro que puede ser extraida de la muestra X1 , X2 , , XN est contenida en T. Ejemplo: 21

Sean X1 , X2 una muestra aleatoria con distribucin de Poisson de parmetro . Consideremos el estadstico T = 2X1 + X2 Este estadstico no es suciente para : P((X1 , X2 ) = (1, 1) | T = 3) =P((X1 ,X2 )=(1,1),T =3) P(T =3)

=

P((X1 ,X2 )=(1,1)) = P(T =3) P(X1 =1)P(X2 =1) P(X1 =0)P(X2 =3)+P(X1 =1)P(X2 =1) e2 2 6 = +6 e2 3 /6+e2 2

=

Es muy til conectar la idea de suciencia con la de factorizacin de la funcin de verosimilitud asociada a una muestra, el siguiente teorema que solo enunciaremos nos da un criterio para la suciencia relacionado con la funcin de verosimilitud: Teorema de factorizacin: Sea X1 , X2 , , XN una muestra aleatoria, TN = T ( X1 , X2 , , XN ) un estimador de un parmetro deconocido de la distribucin. T es suciente si y solo si existe h : Rn [0, ) que no depende de : R [0, ) tal que L = h(x1 , , xN )(, T (x1 , , xN ) donde L es la funcin de verosimilitud de la muestra. Ejemplo: Sea X1 , X2 , , XN una muestra aleatoria de distribucin exponencial de parmetro . Sea X1 + X2 + + XN TN = N donde la densidad de Xi viene dada por 1 x f (x) = e ; x > 0 As la funcin de verosimilitud del parmetro desconocido es L =x 1 x1 ++xN = 1 N _ e e ; x1 , x2 , , xN > 0 N N

22

_

el estadstico T = X es suciente para , dena (, t) = 1 N t e ,t 0 N h = 1

as L = h(x1 , , xN )(, T (x1 , , xN )) Observacin: Los estadsticos sucientes no son nicos en el sentido que n n P P 1 si xi es suciente para en un modelo de Poisson, tambin lo ser n xi1 8 i=1 n P i=1

o

xi . Algunas de estas funciones tendrn buenas propiedades como esti-

i=1

madores del parmetro entonces las llamaremos estimadores sucientes.

23

DISTRIBUCIONES DE PROBABILIDAD. ESTADSTICA PRCTICA N0 4 1. Determine la varianza de la distribucin de Poisson basndose en su funcin generatriz de momentos ( o transformada geomtrica). 2. Sea X una variable aleatoria de densidad expenencial, de parmetro = 1. Determine la funcin de densidad de Y = X3 3. Sean X e Y dos variables aleatorias independientes, f y g las densidades de X e Y respectivamente, con X > 0. Calcule la densidad de la variable aleatoria Y Z= X Y (Sugerencia: Exprese FZ (z) = P X z como una integral doble y luego derive respecto a z. 4. DISTRIBUCIN NORMAL BIDIMENSIONAL: Diremos que dos variables aleatorias X e Y tienen distribucin normal conjunta, si su funcin de densidad conjunta viene dada por: f (x, y) =1 2 1 2 1

donde es el coeciente de correlacin entre X e Y, 2 es la varianza de 1 X, 2 es la varianza de Y, 1 es la esperanza de X y 2 es la esperanza 2 de Y . (a) Sea C= 2 12 1 12 2 2

h 2 1 exp 2(12 ) (x1 ) 21

2(x1 )(y1 ) 1 2

+

(y2 )2 2 2

i

la matriz de covarianza de X e Y, donde 12 = Cov(X, Y ). Calcule la inversa de C. 1

(b) Verique que 1 1 1 t f (x, y) = exp zC z 2 2 1 2 1

donde z = ((x 1 ), (y 1 )) y z t es la traspuesta de z y C 1 es la inversa de C. (c) Calcule las densidades marginales de X e Y. (d) Si X e Y son independientes, el coeciente de correlacin es cero. El recproco no es cierto, en general. Demuestre que si X e Y tienen distribucin conjunta normal y = 0, entonces X e Y son independientes. 5. DISTRIBUCIN NORMAL MULTIDIMENSIONAL: Sea X = (X1 , X2 , X3 , , Xn ) un vector aleatorio. Si la matriz de

donde es el determinante de la matriz de covarinazas C,

covaianzas C de X tiene determinante distinto de cero, diremos que la distribucin de X es normal de dimensin n, cuando la densidad conjunta de X1 , X2 , X3 , , Xn viene dada por: 1 1 1 t f (x1 , x2 , x3 , , xn ) = exp zC z n 2 (2) 2 z = ((x1 1 ), (x2 2 ), , (xn n )) , i = E (Xi ) , i = 1, 2, , n

y C 1 es la inversa de C. (a) Si ij = Cov(Xi Xj ) = 0, para i distinto de j, entonces C es una matriz diagonal tal que Diag(C) = 2 , 2 , 2 1 2 n Calcule C 1 . (b) Demuestre que si ij = Cov(Xi Xj ) = 0, para i distinto de j, entonces X1 , X2 , X3 , , Xn son mutuamente independientes. Observacin: la parte b) establece que un vector normal aleatorio tiene componentes mutuamente independientes s y slo si Cov(Xi Xj ) = 0 para i distinto de j. Es decir, si y slo si la matriz de covarianzas es diagonal. 2

6. Sea X una variable aleatoria con distribucin normal N(, 2 ). (a) Demuestre que su transformada de Laplace viene dada por: L(s; , ) = es e 2 s2 2

,

deduzca de aqu su Transformada de Fourier ( o Funcin Caracterstica). (b) Sea Z = X 2 , donde X es normal N(0, 1). Calcule la transformada de Laplace de Z y deduzca que su distribucin es gamma de parmetros p = 1 , = 1 ; es decir, que su funcin de densidad 2 2 viene dada por: p z 1/2z 1/2 e 2 fZ (z) = (1/2) donde (1/2) = . Puede calcular la densidad de Z sin calcular su transformada de Laplace? (c) Sean X1 , X2 , X3 , , Xn variables aleatorias independientes e idnticamente distribudas, normales N (0, 1). Sea2 2 2 2 Y = X1 + X2 + X3 + + Xn .

Calcule la transformada de Laplace de Y. Deduzca que Y tiene distribucin gamma de parmetros p = n , = 1 , es decir, que la 2 2 densidad de Y viene dada por: (1/2) 2 y (n2)/2 e 2 fY (y) = (n/2) Esta distribucin recibe el nombre de chi-cuadrado (X 2 ) con n grados de libertad. 7. Sea X una variable aleatoria N(0, 1). Y una variable aleatoria chicuadrado (X 2 ) con n grados de libertad. Si X e Y son independientes, denimos T como: X T = n . Y Demuestre que la densidad de T viene dada por: ( n+1 ) 1 2 , t (, ) fT (t) = n(n/2) (1 + t2 ) n+1 2nn y

3

La distribucin de T recibe el nombre de distribucin tStudent con n grados de libertad ( o de parmetro n). Note que fT es simtrica alrededor del origen (E (T ) = 0). t Sugerencia: calcule Ft (t) = P (T t) = P X n Y , utilizando la densidad conjunta de X e Y, luego derive respecto a t. 8. Sean X1 , X2 , X3 , , Xn variables aleatorias independientes, normales N(i , 2 ), i = 1, 2, , n. Demuestre que la variable aleatoria: i X = a1 X1 + a2 X2 + a3 X3 + + an Xn tiene distribucin N(, 2 ), donde = a1 1 + a2 2 + a3 3 + + an n , =2 n X i=1

a2 2 i i

9. Sean X1 , X2 , X3 , , Xn variables aleatorias independientes e idnticamente distribuidas, normales N(, 2 )._

(a) Sea X =

1 n

i=1

Sugerencia: Calcule la transformada de Fourier de X. n P (b) Sea Z = 12 (Xi )2 . Demuestre que Z tiene distribucin X 2 coni=1

n P

Xi . Demuestre que X tiene distribucin normal N(, 2 /n)._

_

n grados de libertad. _ n P 1 (c) Sea S 2 = n (Xi X)2 . Verique que:i=1

n _ nS 2 1 X (Xi X)2 = 2 . 2 i=1

El objetivo de este ejercicio es demostrar que la variable aleatoria nS 2 , tiene distribucin X 2 con n 1 grados de libertad. Observe 2 que en la denicin de S 2 si sutituimos las variables aleatorias Xi por Zi = Xi , el valor de S 2 no vara.

4

Denamos las siguientes variables aleatorias: Y1 = 1 (Z1 Z2 ) 12 Y2 = 1 (Z1 + Z2 2Z3 ) 23 (Z1 + Z2 + Z3 + + Zn1 (n 1)Zn ) Yn1 = 1 (n1)n n P 1 Zi . Yn = ni=1

i. Demuestre que las variables aleatoriasY1 , Y2 , Y3 , , Yn tienen distribucin N(0, 2 ). ii. Verique, calculando las correlaciones entre ellas, que son independientes. iii. Establezca por induccin quen X i=1

Yi 2 =

n X i=1

Zi 2

(La transformacin denida en c, deja invariante el origen). n1 P 2 Yi . iv. Demuestre que nS 2 =i=1

v. Deduzca que libertad._

nS 2 2

tiene distribucin X 2 con n 1 grados de que S 2 y X son independientes._

(d) Note que X =2 (e) Sea S1 =

i. Verique que:

1 Yn + . Deduzca n _ n P 1 (Xi X)2 n1 i=1

2 nS 2 (n 1)S1 = 2 2

ii. Sean

2 (X ) (n 1)S1 X= n . ;Y = 2 Verique que X es normal estndar e Y es X 2 con n1 grados de libertad. Adems X e Y son independientes. iii. Verique que: _ X n 1X n= S1 Y

_

5

y deduzca de esta igualdad que la distribucin de_

X n S1 es t student con (n 1) grados de libertad. Abril-Julio 2004/MMOM

6

ESTIMADORES PUNTUALES ESTADSTICA -PRCTICA No 5 1. Sea un estimador de un parmetro . Sea b el sesgo de , es decir, b = E . Demuestre que el error cuadrtico medio de es igual a: V ar() + b2 . 2. Sean 1 y 2 dos estimadores insesgados de un parmetro tales que V ar(1 ) = 2 , V ar(2 ) = 2 1 2 Demuestre que si a es un nmero real, entonces: 3 = a1 + (1 a)2 es un estimador insesgado de . Si 1 y 2 son independientes, cmo se debe escoger a para minimizar la varianza de 3 ? 3. Sea Y1 , Y2 , Y3 una muestra aleatoria simple de una distribucin exponencial de densidad: 1 y e ,y > 0 f (y) = 0 si no Considere los 5 siguientes estimadores de : 1 = Y1 , 2 = _ Y1 + Y2 Y1 + 2Y2 , 3 = , 4 = min(Y1 , Y2 , Y3 ), 5 = Y 2 3

(a) Cules estimadores son sesgados? (b) Entre estos estimadores, cul es el que tiene la varianza ms pequea? 1

(c) Hallar la eciencia relativa de 1 respecto a 5 , la de 2 y 3 respecto a 5 . 4. El nmero de fallas por semanas de un cierto tipo de mini- computadoras es una variable aleatoria Y con distribucin de Poisson de parmetro . Se dispone de una muestra aleatoria simple Y1 , Y2 , Y3 , , Yn de Y. (a) Sugiera dos estimadores insesgados para . (b) El costo semanal de reparacin de estas fallas es la v.a. C = 3Y + Y 2 Demuestre que E (C) = 4 + 2 (c) Obtenga una funcin de Y1 , Y2 , Y3 , , Yn , que sea un estimador insesgado de E (C) . 5. Sea X1 , X2 , X3 , , Xn una muestra aleatoria simple de una distribucin de Bernoulli de parmetro p._

(a) Demuestre que X es un estimador insesgado de p. (b) Considere el estimador_ _

nX(1 X) ?Es ste un estimador insesgado de la varianza de la distribucin? (c) Modique adecuadamente el estimador anterior para obtener un estimador insesgado de la varianza. 6. Sea X1 , X2 , X3 , , Xn una muestra aleatoria simple de una distribucin normal N(1 , 2 ) y Y1 , Y2 , Y3 , , Ym una muestra aleatoria simple 1 de una distribucin normal N(2 , 2 ), supongamos que las Xi, Yj , son 2 independientes entre s._ _

(a) Considere el estadstico X Y y encuentre su distribucin, su media y su varianza. Es ste un estimador insesgado de 1 2 ? 2

(b) Sean:2 S1 = 1 n1 n P 2 (Xi X)2 , S2 = _ 1 m1 n P

Sp =

i=1 2 2 (n1)S1 +(m1)S2 n+m2

i=1

(Yi Y )2

_

2 2 Sp se puede interpretar como una ponderacin de S1 y S2 . En el 2 +S 2 S caso n = m, Sp = 1 2 2 . Demuestre que si 1 = 2 = , entonces Sp es un estimador insesgado de 2 .

7. Se utiliza el siguiente procedimiento para evitar respuestas falsas a preguntas delicadas en una encuesta. Sea A una pregunta delicada (por ejemplo, evade Ud. el pago de impuestos?). Sea B una prgunta inocua (por ejemplo, su cdula de identidad termina en un nmero par?). Se le pide al sujeto que lance una moneda en secreto; si sale cara, contesta la pregunta A, si sale sello contesta la pregunta B. El encuestador recibe una sola respuesta (si o no) y no sabe a qu pregunta corresponde. Si esta encuesta se realiza a 1000 sujetos y 600 de ellos contestaron si , qu porcentaje de individuos se estima que evade impuesto? 8. Sea X1 , X2 , X3 , , Xn una muestra aleatoria simple de una distribucin N(, ). Consideremos los estimadores de del tipo siguiente: U = a1 X1 + a2 X2 + a3 X3 + + an Xn donde a1 , a2 , a3 , , an son nmeros reales. Determine los ai para que U sea un estimador insesgado y tenga varianza mnima. 9. Demuestre que si es un estimador insesgado de y si V ar() no es igual a cero, entonces 2 no es un estimador insesgado de 2 ._ f f f

10. Demuestre que la media muestral X es un estimador insesgado de varianza mnima del parmetro de una poblasin de Poisson. M.M.O.M./Abril 2004

3

Mtodos de Estimacin. Estadstica Prctica No 6 1. Dada una muestra aleatoria simple de tamao n de una variable aleatoria X, calcular el estimador de mxima verosimilitud y de los momentos cuando X tiene las siguientes distribuciones: (a) Bernoulli de parmetro p. (b) Poisson de parmetro . (c) Exponencial de parmetro . (d) N(, 2 ) con y desconocido. (e) N(, 2 ) con conocido y desconocido. (f) N(, 2 ) con desconocido y conocido. Hallar en cada caso las propiedades del estimador obtenido: sesgo, consistencia, eciencia. 2. Hallar por el mtodo de los momentos los estimadores de y para la funcin Gamma (, ). 3. La muestra 1.3, 0.6, 1.7, 2.2, 0.3, 1.1 proviene de una distribuc