Análisis estadístico
Modelización estadística:I Elegir una distribución en base a los datos observados.I Estimar los parámetros de la distribución (EMV).I Pruebas de bondad de ajuste.
Estimación de parámetrosI Estimador puntual.I Varianza del estimador. Var(θ).I Error cuadrático medio del estimador. E [(θ − θ)2].I Estimadores por intervalo e intervalos de confianza.
Estimación de parámetros
Dada una muestra de n datos observados, se llama estimador θ delparámetro θ a cualquier función de los datos observados.Propiedades de un buen estimador puntual
I Insesgabilidad: se dice que el estimador es insesgado siE [θ] = θ.
I Consistencia: si al aumentar la muestra, el estimador seaproxima al parámetro.
I Eficiencia: se calcula comparando su varianza con la de otroestimador.
I Suficiencia: utiliza toda la información obtenida de la muestra.
Media muestral
Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribución,la media muestral se define por
X (n) =X1 + X2 + · · ·+ Xn
n.
La media muestral se utiliza como un estimador de la media θ, esdecir, de θ = E [Xi ], si la media es finita.Estimador insesgado.
E [X (n)] = E
[n∑
i=1
Xi
n
]=
n∑i=1
E [Xi ]
n=
nθn
= θ.
Media muestral
Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribucióncon media finita θ,
X (n) =X1 + X2 + · · ·+ Xn
n.
Estimador consistente.
limn→∞
[X (n)] = θ.
por la ley de los grandes números.
Media muestral
Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribucióncon media finita y varianza finita
X (n) =X1 + X2 + · · ·+ Xn
n.
Z =√
n(X (n)− θ)/σ.
Estimador asintóticamente normal.
limn→∞
[FZ (n)(x)] = Φ(x).
por el teorema central del límite.
Estimador de máxima verosimilitud
Si la distribución supuesta es discreta para los datos observados, yse desconoce un parámetro θ.Sea pθ(x) la probabilidad de masa para dicha distribución.
Dado que se han observado datos X1,X2, . . . ,Xn, se define la funciónde máxima verosimilitud L(θ) como sigue:
L(θ) = pθ(X1) · pθ(X2) · · · pθ(Xn).
El estimador de máxima verosimilitud es el valor θ que maximiza L(θ):
L(θ) ≥ L(θ), θ valor posible.
Estimador de máxima verosimilitud
Si la distribución supuesta es continua, y fθ(x) es la densidad paradicha distribución.
Dado que se han observado datos X1,X2, . . . ,Xn, se define la funciónde máxima verosimilitud L(θ) como sigue:
L(θ) = fθ(X1) · fθ(X2) · · · fθ(Xn).
El estimador de máxima verosimilitud es el valor θ que maximiza L(θ):
L(θ) ≥ L(θ), θ valor posible.
Estimador de máxima verosimilitud
El estimador de máxima verosimilitud tiene, en general, lassiguientes propiedades:
1. Es único: L(θ) > L(θ) para cualquier otro valor de θ.2. La distribución asintótica de θ tiene media θ.3. Es invariante: φ = h(θ), entonces φ = h(θ).4. La distribución asintótica es la normal.5. Es fuertemente consistente: limn→∞ θ = θ.
Distribución exponencial
EjemploPara la distribución exponencial, θ = 1/λ (λ > 0) y fλ(x) = λe−xλ
para x ≥ 0.
L(λ) =(λe−X1λ
) (λe−X2λ
)· · ·(λe−Xnλ
)= λn exp
(−λ
n∑i=1
Xi
)
Distribución exponencial
ln(L(λ)) = ln(λn exp
(−λ
n∑i=1
Xi
))
= n ln(λ)− λn∑
i=1
Xi
ddλ
ln(L(λ)) =nλ−
n∑i=1
Xi
= 0
λ =1
1n
∑ni=1 Xi
=1
X (n)=
1Media muestral.
θ =1λ
=1n
n∑i=1
Xi = X (n) = Media muestral.
Distribución geométricaEjemploPara la distribución geométrica, θ = p y pp(x) = p(1− p)x−1 parax = 1,2, . . . .
L(p) = p(1− p)X1−1 . . . p(1− p)Xn−1
= pn(1− p)∑n
i=1(Xi−1)
= pn(1− p)∑n
i=1 Xi (1− p)−n
=
(p
1− p
)n
(1− p)∑n
i=1 Xi
ln(L(p)) = n ln(p
1− p) + ln(1− p)
n∑i=1
Xi
= n ln(p)− n ln(1− p) + ln(1− p)n∑
i=1
Xi
Distribución geométrica
ddp
ln(L(p)) =ddp
[n ln(p) + ln(1− p)[n∑
i=1
Xi − n]]
=np− 1
1− p(
n∑i=1
Xi − n) = 0
np
=1
1− p(
n∑i=1
Xi )− n
1− p = p(1n
∑Xi − 1)
1 = p + p(1n
∑Xi )− p
p =
(1n
∑Xi
)−1
Estimadores de máxima verosimilitud:
Distribuciones continuas:I Uniforme: a = min{Xi}, b = max{Xi}.I Exponencial: θ = X (n).I Gamma, Weibull: α y β se resuelven numéricamente.I Normal:
µ = X (n), σ =
[n − 1
nS2(n)
]1/2
=
[1n
n∑i=1
(Xi − X )2
]1/2
.
I Lognormal:
µ =
∑ni=1 log(Xi )
n, σ =
[∑ni=1(log(Xi )− µ)2
n
]1/2
.
Estimadores de máxima verosimilitud
Distribuciones discretas:I Binomial (t ,p): si t es conocido, p = X (n)/t .I Bernoulli: Caso binomial con t = 1 e igual p.I Geométrica: p = 1
X(n).
I Binomial negativa (s,p): número de ensayos hasta el s-ésimoéxito. Si s es conocido: p = s
X(n).
I Poisson: λ = X (n).
Error cuadrático medio
I θ: estimador del parámetro θ de una distribución FI Se define el error cuadrático medio (ECM) de θ con respecto al
parámetro θ como
ECM(θ, θ) = E [(θ − θ)2].
E [(θ − θ)2] = E [(θ − E [θ] + E [θ]− θ)2]
= E [(θ − E [θ])2] + (E [θ]− θ)2
= Var(θ) + (E(θ)− θ)2
I El error cuadrático medio de un estimador es igual a su varianzamás el sesgo al cuadrado.
I Si el estimador es insesgado, su ECM es igual a la varianza.
ECM de la media muestral respecto de la mediaMuestra de X : X1,X2, . . . ,Xn, E [Xi ] = θ
ECM(X (n), θ) = E [(X (n)− θ)2]
= Var(X (n)) =1n2
n∑i=1
Var(Xi ) =σ2
n
La media muestral es un buen estimador de E [X ] si σ/√
n espequeño.
I El ECM depende de la distribución de Xi y del tamaño de lamuestra.
I Teorema central del límite. Si Z ∼ N(0,1) y n es grande:
P
(|X (n)− θ|σ/√
n> c
)≈ P{|Z | > c}.
Varianza muestral
El indicadorσ2
ncomo estimación del error en la media muestral, tiene
el inconveniente que σ es en general desconocida.
Para estimar la varianza se utiliza el estimador
S2(n) =
∑ni=1(Xi − X (n))2
n − 1.
I Estimador insesgado de la varianzaI Fórmula a utilizar:
E[S2(n)
]= Var(X )
n∑i=1
(Xi − X (n))2 =n∑
i=1
X 2i − nX
2(n)
Varianza muestral
E [X 2i ] = Var(Xi ) + (E [Xi ])
2 = σ2 + θ2.
E [X2(n)] =
σ2
n+ θ2.
(n − 1)E [S2(n)] = nE [X 21 ]− nE [X
2(n)] = n(σ2 + θ2)− n(
σ2
n+ θ2)
E [S2(n)] = σ2
Utilizaremos S(n) =√
S2(n) como estimador de la desviaciónestándar.
I Error del estimador X (n): σ2/n.I Simulación de datos: Si el objetivo es estimar la media, para
disminuir el error deben generarse muestras de tamaño n, ngrande.
Media muestral
I Elegir un valor aceptable d para la desviación estándar delestimador.
I Generar (n) datos hasta que σ/√
n < d . (S/√
n < d)I Conviene generar al menos 100 datos para:
I asegurar normalidad de la distribución de X (n).I para disminuir la varianza de S.
I La estimación de θ estará dada por el último valor de X (n).I El algoritmo implica calcular en cada paso X (n) y S(n).I Es posible calcularlo recursivamente.
Media muestral
Cálculo recursivo de X (n) y S2(n)
I X (1) = X1,I S2(1) = 0.
X (j + 1) = X (j) +Xj+1 − X (j)
j + 1
S2(j + 1) =
(1− 1
j
)S2(j) + (j + 1)(X (j + 1)− X (j))2
Estimación de una proporción
El estimador X (n) puede utilizarse también para estimar laproporción de casos en una población.
Xi =
{1 probabilidad p0 probabilidad 1− p.
I X (n) es un estimador insesgado de p.
I E [(X (n)− p)2] = Var(X (n)) =p(1− p)
nI En este caso, se estima la varianza del estimador X (n) por:
X (n)(1− X (n))
n.
Algoritmo: Cálculo de E [X ]
Algorithm 1: Estimación de la media M de X con error d
Generar X , M ← X M = X (1) = X1;S2 ← 0 S2 = S2(1) = 0;for 1 < j ≤ 100 do
Generar X ; A← M;M ← M + (X −M)/j ;S2 ← (1− 1/(j − 1))S2 + j(M − A)2
endj ← 100;while
√S2/j > d do
j ← j + 1;Generar X ;A← M;M ← M + (X −M)/j ;S2 ← (1− 1/(j − 1))S2 + j(M − A)2
endreturn M
Top Related