Download - Estad´ıstica Miguel Angel Chong R.´ …€¦ · Estimador consistente Hasta ahora hemos considerado las propiedades de los estimadores puntuales usando una muestras aleatorias

Curso Inferencia

EstadısticaMiguel

´

Angel Chong R.

[email protected]

17 de septiembre del 2013

Miguel Chong Inferencia

Estimador insesgado de minima varianza

Definicion Estimador insesgado uniformemente de mınima varianza.

Diremos que el estimador insesgado

ˆ✓0

, es insesgado y

uniformemente de mınima varianza (UMVUE) para el parametro ✓,si dado cualquier otro estimador insesgado

ˆ✓ de el, se verifica que

Var(

ˆ✓0

) Var(

ˆ✓)

para todos los valores posibles de ✓.

Para llegar a obtener el UMVUE, si es que este existe, tendrıamos

calcular las varianzas de todos los estimadores insesgados para ✓ y

quedarnos con el estimador que tenga la varianza mas chica.

Afortunadamente existe un resultado que nos garantiza que existe

una cota inferior para la varianza de un estimador. Si bien no nos

da este resultado el estimador de mınima varianza, sı nos dice si

hemos alcanzado la cota o no.


Las condiciones de regularidad sobre f (x ; ✓) son:

i) El modelo f (x ; ✓) para la distribucion de la poblacion

es tal que el soporte de f no depende de ✓, es decirque los puntos tales que f (x) > 0 no es un intervalo

que depende de ✓.

ii) La funcion ln(f (x ; ✓)) es dos veces diferenciable y

continua, es decir, de clase C

2

.

iii) Las operaciones de derivacion e integracion (o suma

en caso discreto) son intercambiables


Cota inferior de Cramer y Rao

Sea (X

1

, . . . ,Xn

) una muestra aleatoria de tamafio n, de una poblacion con funcion de

densidad f (x ; ✓) . Entonces la funcion de densidad conjunta de la muestra

L (x

1

, . . . , xn

; ✓) = f (x

1

, . . . , xn

; ✓)

cumple con que

Z

R· · ·

Z

Rf (x

1

, . . . , xn

; ✓) dx1

. . . dxn

= 1.

Por otro lado, sea

ˆ✓ = g (X

1

, . . . ,Xn

) un estimador insesgado para el parametro ✓.

Y si se cumplen las condiciones de regularidad, entonces la varianza del estimador esta

acotada inferiormente de la siguiente manera

Var

⇣ˆ✓⌘

�1

nE⇣

@ ln f (x ;✓)@✓

⌘2

�

=

1

�nEh@2

ln f (x ;✓)@✓2

i .

A E⇣

@ ln f (x ;✓)@✓

⌘2

�se le conoce como la informacion de Fisher .


Si el estimador

ˆ✓ hubiera sido sesgado, es decir

Eh

ˆ✓i

= ✓ + B(

ˆ✓),

en donde B(

ˆ✓) es el sesgo del estimador, entonces la Cota Inferior

de Cramer y Rao tiene la forma

Var(

ˆ✓) �

⇣

1 + B

0⇣

ˆ✓⌘⌘

2

nE

⇣

@ ln f (x ;✓)@✓

⌘

2

� ,

siendo B

0(

ˆ✓) la derivada respecto de ✓ del sesgo del estimador.


Observaciones

Si el modelo de poblacion, X es una variable aleatoria

discreta, en vez de usar la funcion de densidad f (x ; ✓) usamos

la funcion de masa de probabilidad P (X = x).

La Cota Inferior de Cramer Rao (CICR) nos da un lımite

inferior para la varianza del estimador

ˆ✓.


Estimador eficiente

La propiedad de eficiencia de un estimador la definiremos

comparando su varianza con la varianza de los demas estimadores

insesgados. Ası pues, el estimador mas eficiente entre un grupo de

estimadores insesgados sera el que tenga menor varianza.

Definicion Estimador eficiente.

Un estimador

ˆ✓ del parametro poblacional ✓, es eficiente si es

insesgado y ademas su varianza alcanza la CICR, es decir

Var(

ˆ✓) =

1

nE

⇣

@ ln f (x ;✓)@✓

⌘

2

�


Definicion Eficiencia de un estimador.

La eficiencia de un estimador insesgado,

ˆ✓ del parametro ✓ como

e↵ (

ˆ✓) =

CICR

Var

⇣

ˆ✓⌘ ,

donde e↵ (

ˆ✓)1.

Por otro lado, si tenemos dos estimadores insesgados

ˆ✓1

y

ˆ✓2

con

respecto a el parametro ✓, diremos que el estimador

ˆ✓1

, es mas

eficiente que el estimador

ˆ✓2

, si se verifica

e↵ (

ˆ✓1

) � e↵ (

ˆ✓2

),

o equivalentemente

Var(

ˆ✓1

) Var(

ˆ✓2

).


Eficiencia relativa.

Dados dos estimadores insesgados

ˆ✓1

y

ˆ✓2

del parametro ✓,definimos la eficiencia relativa de

ˆ✓1

a

ˆ✓2

como

e↵. relat

⇣

ˆ✓1

, ˆ✓2

⌘

=

Var

⇣

ˆ✓2

⌘

Var

⇣

ˆ✓1

⌘

=

e↵

⇣

ˆ✓2

⌘

e↵

⇣

ˆ✓1

⌘ .

Y por lo tanto si

e↵. relat

⇣

ˆ✓1

, ˆ✓2

⌘

8

>

<

>

:

< 1

ˆ✓2

es mas eficiente que

ˆ✓1

= 1

ˆ✓1

y

ˆ✓2

son igual de eficientes

> 1

ˆ✓1

es mas eficiente que

ˆ✓2


Definicion Estimador asintoticamente eficiente.

Diremos que un estimador

ˆ✓ es asintoticamente eficiente si se

verifica

lım

n!1

CICR

Var

⇣

ˆ✓⌘

= 1.


Estimador consistente

Hasta ahora hemos considerado las propiedades de los estimadores puntualesusando una muestras aleatorias de tamano n, con n fijo. Parece logico suponerque un estimador sera “mejor” en la medida que el tamano de muestra n

aumente.

Ademas usando el teorema de Glivenko-Cantelli que nos dice que para unamuestra aleatoria X

1

,X2

, . . . ,Xn

proveniente de una poblacion con funcion dedistibucion F (x). Si a partir de la muestra calculamos la funcion dedistribucion empirica

F

n

(x) =

8>>>>>><

>>>>>>:

0 x 2��1,X

(1)

�

u

n

x 2⇥X

(u)

,X(u+1)

�y u 2 {1, . . . , n � 1}

1 x 2⇥X

(n)

,1�.

Entonces dn

= supx

|F (x)� F

n

(x)| entonces P⇣lım

n!1d

n

= 0⌘= 1.

Es decir, que cuando el tamano de la muestra es suficientemente grandeentonces la distribucion de la muestra se parece mucho la de la poblacion y porel valor del estimador tiende a coincidir con el valor del parametro.


Sean

ˆ✓1

, ˆ✓2

, . . . , ˆ✓n

una sucesion de estimadores del parametro ✓,obtenidos a partir de muestras de tamano 1, 2, . . . , n,respectivamente, es decir:

ˆ✓1

= g (X

1

)

ˆ✓2

= g (X

1

,X2

)

.

.

.

ˆ✓n

= g (X

1

,X2

, . . . ,Xn

) ,

de manera que el estimador basado en la muestra de tamano n lo

notaremos por

ˆ✓n

, en donde el subındice n lo empleamos para

hacer mas evidente la dependencia del tamano muestral. En

general esta sucesion de estimadores se representa por

n

ˆ✓n

o

.


Definicion Estimador consistente.

Diremos que una sucesion de estimadores

n

ˆ✓n

o

es consistente, si la

sucesion converge en probabilidad hacia el parametro ✓. Es decir, si

lım

n!1P⇣

|ˆ✓n

� ✓| < ✏⌘

= 1

y cada elemento de la sucesion se dira que es un estimador

consistente.


Ejemplo

Si se lanzara una moneda n veces que tiene probabilidad p de ser aguila,

entonces Y , el numero de aguilas en los n lanzamientos, tiene una

distribucion binomial. Si p es desconocido se puede estimar con Y /n.¿Que pasa con esta proporcion muestral si aumenta el numero de

lanzamientos n? Intuitivamente se pensarıa que Y /n deberıa estar mas

cerca de p. Esto en terminos de probabilidad se escribe ası

P✓

|Yn

� p| ✏

◆

.

Esta probabilidad deberıa ser cercana a la unidad para valores grandes de

n. Si la probabilidad de arriba tiende a uno cuando n ! 1 entonces Y /nes un estimador consistente de p. En general un estimador

ˆ✓ de ✓ es

consistente si para cualquier numero positivo ✏,

lim

n!1P⇣

|ˆ✓n

� ✓| ✏⌘

= 1.


Suficiencia

Cuando hacemos inferencia sobre un parametro ✓, usando una

muestra aleatoria (X

1

, . . . ,Xn

) y un estadıstico

ˆ✓ (X1

, . . . ,Xn

) que

resume la informacion proporcionada por la muestra. Podrıamos

preguntarnos lo siguiente:

¿El resumen que realiza

ˆ✓ (X1

, . . . ,Xn

) con respecto a (X

1

, . . . ,Xn

)

es tal que no se pierde informacion que pudiera contener la

muestra acerca del (los) parametro(s) poblacional(es)?

Segun Fisher, un estadıstico es suficiente para hacer inferencia

sobre un parametro ✓, si resume el conjunto de informacion

relevante suministrada por la muestra y ningun otro estadıstico

(otra funcion de la muestra) puede proporcionar informacion

adicional a cerca del parametro desconocido ✓.


Definicion Estadıstico suficiente

Un estadıstico es suficiente respecto al parametro ✓ si la

distribucion de probabilidad de la muestra (X

1

, . . . ,Xn

)

condicionada al estadıstico no depende del parametro ✓.

Es decir

F

⇣

(X

1

, . . . ,Xn

) |ˆ✓ (X1

, . . . ,Xn

)

⌘

= t) no depende de ✓


Existe otra manera que nos permitira de manera mas facil decir si

un estadıstico es suficiente.

Teorema de Factorizacion

Una condicion necesaria y suficiente para que el estadıstico

ˆ✓ (X )

sea suficiente, es que la funcion de verosimilitud de la muestra la

podamos escribir de la siguiente forma

L(✓;X ) =

n

Y

i=1

f (x

i

; ✓)

= g

⇣

ˆ✓ (X ) ; ✓⌘

· h(X )

donde g(

ˆ✓ (X ) ; ✓) depende del parametro y de la muestra, a traves

del estadıstico

ˆ✓ (X ), y h(X ) no depende de ✓.


Teorema Si el estadıstico ✓1

(X ) es suficiente y existe una funcion inyectiva tal

que ✓2

(X ) = f

⇣✓1

(X )⌘entonces el estadıstico ✓

2

(X ) es tambien suficiente.

Demostracion Por ser f inyectiva tenemos que si ✓2

(X ) = f

⇣✓1

(X )⌘

entonces esta bien definida ✓1

(X ) = f

�1

⇣✓2

(X )⌘.

Por otro lado como ✓1

(X ) es suficiente tenemos que

L(✓;X) = g

⇣✓1

(X ) ; ✓⌘· h(X )

= g

⇣f

�1

⇣✓2

(X )⌘; ✓⌘· h(X )

= g

1

⇣✓2

(X ) ; ✓⌘· h(X ),

donde g

1

⇣✓2

(X ) ; ✓⌘= g � f �1

⇣✓2

(X ) ; ✓⌘. Entonces ✓

2

(X ) es suficiente para

✓.

⇤

De manera intuitiva podrıamos entender este resultado como, si ✓1

(X ) sepuede calcularse a partir de ✓

2

(X ), entonces el conocimiento de ✓2

(X ), debeser al menos tan bueno como el de ✓

1

(X ).


Notemos que un recıproco al ultimo teorema serıa el siguiente:

Si los estadısticos estadisticos

ˆ✓1

(X ) y

ˆ✓2

(X ) son suficientes para

el parametro ✓ entonces estan relacionados funcionalmente, es

decir uno se puede ver como una funcion del otro.


Ahora si una distribucion depende de dos parametros ✓1

y ✓2

, tambien podemos

encontrar vıa el criterio de factorizacion estimadores suficientes

ˆ✓1

(X ) y

ˆ✓2

(X ) para

✓1

y ✓2

respectivamente, esto es lo que nos dice el siguiente resultado.

Teorema

Los estadısticos

ˆ✓1

(X ) y

ˆ✓2

(X ) son conjuntamente suficientes para ✓1

y ✓2

respectivamente si solo si

L(✓1

, ✓2

;X ) = g

1

⇣ˆ✓1

(X ) ; ✓1

⌘· g

2

⇣ˆ✓2

(X ) ; ✓2

⌘· h(X)

donde

g

1

⇣ˆ✓1

(X ) ; ✓1

⌘depende del parametro ✓

1

y de la muestra, a traves del estadıstico

ˆ✓1

(X ),

g

2

⇣ˆ✓2

(X ) ; ✓2

⌘depende del parametro ✓

2

y de la muestra, a traves del estadıstico

ˆ✓2

(X ) y

h(X ) no depende de ✓.


Suficiencia Minimal

A continuacion veremos un metodo general para encontrar un

estadıstico que resuma la informacion de la muestra lo mas posible

y sin perdida de informacion sobre el paramentro ✓, y a este

estadıstico lo llamaremos suficiente minimal.Definicion Estadıstico suficiente y minimal

Un estimador es suficiente minimal, si es suficiente y cualquier

reduccion de la informacion definida por el ya no es suficiente, es

decir desprecia informacion que esta contenida en la muestra,

acerca del parametro ✓.


Existe un metodo general

1

para encontrar estadıstico(s)

suficiente(s) minimal(es), este metodo supone la existencia de dos

muestras aleatorias de tamano n, X = (X

1

= x

1

, . . . ,Xn

= x

n

) y

Y = (Y

1

= y

1

, . . . ,Yn

= y

n

), y se calcula el cociente de sus

verosimilitudes, es decir

Q

n

i=1

f (x

i

; ✓)Q

n

i=1

f (y

i

; ✓)=

L(✓;X )

L(✓;X )

=

g

⇣

ˆ✓ (X ) ; ✓⌘

· h (X )

g

⇣

ˆ✓ (Y ) ; ✓⌘

· h (Y )

.

Para que esta ultima igualdad no dependa del parametro ✓necesitamos que

g

⇣

ˆ✓ (X ) ; ✓⌘

= g

⇣

ˆ✓ (Y ) ; ✓⌘

,

y entonces diremos que

ˆ✓ (X ) es suficiente y minimal para ✓.

1Debido a Lehmann y She↵eMiguel Chong Inferencia