206
ESTIMAÇÃO POR INTERVALO (INTERVALOS DE CONFIANÇA) Cada um dos métodos de estimação pontual permite associar a cada parâmetro populacional um estimador. Ora a cada estimador estão associadas tantas estimativas diferentes quantas as amostras utilizadas para o seu cálculo. De um modo geral nenhuma destas estimativas irá coincidir com o valor do parâmetro da população e não é possível obter qualquer informação relativa ao seu rigor. Esta impossibilidade de associar a uma dada estimativa o respectivo grau de confiança, constitui a grande limitação dos métodos de estimação pontual. Este problema é ultrapassado recorrendo à estimação por intervalo.
Admita-se então que temos uma população ( )2,N~X σµ e que é seleccionada uma amostra aleatória de dimensão n. Para essa amostra é calculada a respectiva média amostral cujo valor é x . O objectivo é definir um intervalo que com uma dada probabilidade 1 - αααα (p.ex: 95%, 99%), inclua o verdadeiro valor do parâmetro µµµµ da população. Sabemos que:
( )1,0N~n/
XZ
n,N~X
2
σµ−=⇒
σµ
defina-se agora ( )2/z α como o valor da v.a. Z que verifica ( )[ ] 2/2/zZP α=α> . Então ( )[ ] 2/2/zZP α=α−< e
portanto ( ) ( )[ ] α−=α<<α− 12/zZ2/zP .
207
Então:
( ) ( ) α−=
α<
σµ−<α− 12/zn/
X2/zP
que se pode escrever como:
( ) ( ) α−=
σ⋅α+µ<<σ⋅α−µ 1n
2/zXn
2/zP
ou como:
( ) ( ) α−=
σ⋅α+<µ<σ⋅α− 1n
2/zXn
2/zXP
De acordo com a expressão anterior o intervalo:
( ) ( )
σ⋅α+σ⋅α−n
2/zX,n
2/zX
incluirá o valor de µ com probabilidade 1 - α .
208
Este intervalo designa-se por intervalo de confiança para o valor esperado a (1 - αααα).100%. Os extremos deste intervalo são os limites de confiança a (1 - αααα).100%. O valor de
( )n
2/zσ⋅α , que representa a semiamplitude do intervalo
de confiança, corresponde ao erro máximo que, com a confiança especificada, se pode cometer na estimativa de µ. NOTA:
• O valor de α representa, em média, a proporção de vezes em que o intervalo de confiança não contém o parâmetro que se pretende estimar.
• Outro aspecto a salientar prende-se com a simetria do intervalo de confiança relativamente ao valor do estimador pontual X .
209
Para quaisquer valores 1α e 2α não simétricos que satisfaçam:
α=α+α 21
os intervalos
( ) ( )
σ⋅α+σ⋅α−n
zX,n
zX 21
são todos eles intervalos de confiança de µ a (1-α).100% , porém com amplitudes diferentes. Sempre que a estatística a partir da qual se definem os intervalos de confiança, apresentar uma distribuição unimodal simétrica, o intervalo simétrico em relação à estatística ( 2/21 α=α=α ) é o de menor amplitude e portanto aquele que deve ser calculado. As excepções a esta regra são situações em que o objectivo é definir intervalos de confiança unilaterais (ilimitados superiormente ou ilimitados inferiormente).
210
ESPECIFICAÇÃO DE INTERVALOS DE CONFIANÇA
A especificação de um intervalo de confiança para um parâmetro implica conhecer:
• Um estimador do parâmetro em causa
• A distribuição desse estimador
• Uma estimativa pontual do parâmetro INTERVALOS DE CONFIANÇA PARA O VALOR ESPERADO (µµµµ) I ) Amostra de grande dimensão. População qualquer. De acordo com o teorema do limite central temos que, neste caso:
( )1,0N~n/
XZ
n,N~X
2
σµ−=⇒
σµ
Em geral o desvio padrão da população, σ, é desconhecido, sendo estimado através do desvio padrão amostral, S:
( )∑ −⋅−
==
n
1i
2i XX
1n1
S
( S: estimador desvio padrão amostral; s: estimativas)
211
Uma vez que se admitiu que a amostra é de elevada dimensão, o erro de estimação é desprezável e podemos admitir que:
σ≈S (constante) e portanto:
( )1,0N~n/
Xn/S
XZ
σµ−≈µ−=
Então o intervalo de confiança para o valor esperado µ a (1-α).100% é dado por:
( ) ( )
⋅α+⋅α−
nS
2/zX,nS
2/zX
II ) Amostra de pequena dimensão. População Normal. Neste caso já não é válido considerar que:
σ≈S (constante) e portanto também já não é válido admitir que:
n/X
n/SX
σµ−≈µ−
212
Então, para definir o intervalo de confiança é necessário determinar a distribuição da v.a. :
n/SX µ−
Notemos que:
( )
1n
1,0N~
/Sn/
X
n/SX
21n
−χσ
σµ−
=µ−
−
e como n/
Xσ
µ− e σ/S são v.a. independentes, resulta da
definição da distribuição t de Student que:
1nt~n/S
X−
µ−
sendo portanto o intervalo de confiança para o valor esperado µ a (1-α).100% dado por:
( ) ( )
⋅α+⋅α− −− n
S2/tX,
nS
2/tX 1n1n
213
INTERVALOS DE CONFIANÇA PARA A
PROPORÇÃO BINOMIAL ( nYP = )
Vimos já anteriormente que nYP = era um estimador para a
proporção binomial p e que, sob determinadas condições, a
distribuição de nYP = é dada por:
( )
−⋅=n
p1p,pN~
nYP
e portanto os limites do intervalo de confiança para nYP =
são dados por:
( ) ( ) ( ) σ⋅α±=−⋅⋅α± 2/znY
np1p
2/znY
Uma vez que o valor de σ depende do parâmetro desconhecido p, poderá para amostras de elevada dimensão, ser substituído por um qualquer valor do seu estimador
nYP = resultando em:
( ) ( )
3n
YnYn
n/Y1n/Y −⋅=−⋅=σ
e portanto:
214
( ) ( )1,0N~
n
YnY
pnY
3−⋅
−
sendo o intervalo de confiança para a proporção binomial p a (1-α).100% dado por:
( ) ( ) ( ) ( )
−⋅⋅α+−⋅⋅α−33 n
YnY2/z
nY,
n
YnY2/z
nY
INTERVALOS DE CONFIANÇA PARA A VARIÂNCIA DE UMA POPULAÇÃO NORMAL ( 2σ ) Vimos já que se de uma população Normal, ( )2,N σµ , forem seleccionadas amostras aleatórias de dimensão n com variância amostral 2S , então a v.a. :
( ) 21n2
2~
S1n −χ
σ⋅−
Consideremos agora dois valores ( )A
21n−χ e ( )
B2
1n−χ tais
que:
( ) ( )[ ] α−=χ<χ<χ −−− 1PB
21n
21nA
21n
215
Substituindo na equação anterior ( )21n−χ por ( )
2
2S1n
σ⋅−
obtém-se:
( ) ( ) ( ) α−=
χ<
σ⋅−<χ −− 1
S1nP
B2
1n2
2
A2
1n
ou:
( ) ( ) ( ) α−=
χ>
⋅−
σ>χ −−
11
S1n
1P
B2
1n2
2
A2
1n
a que podemos ainda dar outro aspecto:
( )( )
( )( ) α−=
χ
⋅−>σ>χ
⋅−
−−
1S1nS1n
P
B2
1n
22
A2
1n
2
ou finalmente:
( )( )
( )( ) α−=
χ
⋅−<σ<χ
⋅−
−−
1S1nS1n
P
A2
1n
22
B2
1n
2
216
O intervalo de confiança para a variância 2σ a (1-α).100% é dado por:
( )( )
( )( )
χ
⋅−
χ
⋅−
−− A2
1n
2
B2
1n
2 S1n,
S1n
Neste caso a distribuição não é simétrica existindo portanto a
dificuldade de definir os valores ( )A
21n−χ e ( )
B2
1n−χ que
conduzem ao intervalo de confiança de menor amplitude. Por razões de simplicidade é habitual escolher:
( ) ( )2/21nB
21n αχ=χ −−
( ) ( )2/121nA
21n α−χ=χ −−
e assim a expressão final para o intervalo de confiança é:
( )( )
( )( )
α−χ
⋅−
αχ
⋅−
−− 2/1
S1n,
2/
S1n
21n
2
21n
2
217
INTERVALOS DE CONFIANÇA PARA A RAZÃO ENTRE VARIÂNCIAS DE POPULAÇÕES NORMAIS Admita-se que 2
Aσ e 2Bσ correspondem às variâncias de duas
populações Normais A e B. Considere-se também que, com base em amostras independentes de dimensão An e Bn respectivamente, se obtêm os estimadores para aquelas
variâncias, isto é 2AS e 2BS . Então:
( ) 21An
2A
2A
A ~S
1n −χσ
⋅−
e
( ) 21Bn
2B
2B
B ~S
1n −χσ
⋅−
resultando que:
( )( )1n/
1n/~
/S
/S
B2
1Bn
A2
1An
2B
2B
2A
2A
−χ
−χ
σσ
−
−
Atendendo à definição da distribuição F temos então que:
1Bn,1An2B
2B
2A
2A F~
/S
/S−−σ
σ
uma vez que se admite que as variáveis 2AS e 2
BS são independentes (pois são obtidas a partir de amostras independentes).
218
Considerem-se agora dois valores desta distribuição ( )2/F
1Bn,1An α−− e ( )2/1F1Bn,1An α−−− tais que:
( ) ( )[ ] α−=α<<α− −−−−−− 12/FF2/1FP1Bn,1An1Bn,1An1Bn,1An
e portanto:
( ) ( ) α−=
α<
σσ<α− −−−− 12/F
/S
/S2/1FP
1Bn,1An2B
2B
2A
2A
1Bn,1An
ou ainda:
( ) ( ) α−=
α>σσ>
α− −−−−1
2/F1
S/S
/2/1F
1P1Bn,1An
2B
2A
2B
2A
1Bn,1An
ou de outro modo:
( ) ( ) α−=
⋅
α>
σσ>⋅
α− −−−−1
S
S2/F
1S
S2/1F
1P2B
2A
1Bn,1An2B
2A
2B
2A
1Bn,1An
e finalmente:
( ) ( ) α−=
⋅
α−<
σσ<⋅
α −−−−1
S
S2/1F
1S
S2/F
1P2B
2A
1Bn,1An2B
2A
2B
2A
1Bn,1An
219
O intervalo de confiança a (1-α).100% para a razão entre as
variâncias das duas populações normais 2B
2A / σσ é então:
( ) ( )
⋅
α−⋅
α −−−−2B
2A
1Bn,1An2B
2A
1Bn,1An S
S2/1F
1,S
S2/F
1
INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE OS VALORES ESPERADOS DE DUAS POPULAÇÕES ( BA µ−µ ) I) Amostras independentes de grandes dimensões, populações
quaisquer Sejam Aµ e Bµ os valores esperados das populações A e B e
2Aσ e 2
Bσ as suas variâncias. Considere que a partir destas populações se obtêm amostras independentes de dimensão
AN e BN com base nas quais se determinam os estimadores
dos valores esperados, AX e BX , e das variâncias, 2AS e 2BS .
Uma vez que estamos a tratar com amostras de elevada dimensão, podemos considerar que:
2A
2AS σ≈ e 2
B2BS σ≈
220
por outro lado, o teorema do limite central permite-nos afirmar que, quaisquer que sejam as formas das distribuições de A e B teremos:
µ≈
σµA
2A
AA
2A
AA nS
,Nn
,N~X
e
µ≈
σµB
2B
BB
2B
BB nS
,Nn
,N~X
Uma vez que se admitiu que as amostras são independentes, a diferença BA XX − é a também uma v.a. com distribuição Normal e portanto:
+µ−µ≈
σ+σµ−µ−B
2B
A
2A
BAB
2B
A
2A
BABA nS
nS
,Nnn
,N~XX
isto é:
( ) ( ) ( )1,0N~
nS
nS
XXZ
B
2B
A
2A
BABA
+
µ−µ−−=
Então o intervalo de confiança a (1-α).100% para a diferença dos valores esperados BA µ−µ é dado por:
221
( ) ( ) ( ) ( )
+⋅α+−+⋅α−−
B
2B
A
2A
BAB
2B
A
2A
BA nS
nS
2/zXX,nS
nS
2/zXX
Se se admitir que as variâncias das duas populações são iguais:
22B
2A σ=σ=σ
então:
+σµ−µ=
σ+σµ−µ−BA
2BA
B
2
A
2
BABA n1
n1,N
nn,N~XX
neste caso é possível refinar a expressão obtida para o intervalo de confiança, estimando a variância comum 2σ , das duas populações A e B, a partir de:
( ) ( )2nn
S1nS1nS
BA
2BB
2AA2
−+⋅−+⋅−=
e substituindo nessa expressão 2AS e 2
BS por 2S . Então se as variâncias das populações forem iguais a expressão para o intervalo de confiança é:
( ) ( ) ( ) ( )
+⋅⋅α+−+⋅⋅α−−
BABA
BABA n
1n1S2/zXX,
n1
n1S2/zXX
222
I) Amostras independentes de pequenas dimensões, populações quaisquer
Uma vez que agora já não é válido considerar:
2A
2AS σ≈ e 2
B2BS σ≈
também deixa de ser válido admitir que tem distribuição N(0,1) a v.a.:
( ) ( )
B
2B
A
2A
BABA
nS
nS
XX
+
µ−µ−−
Seguindo um procedimento análogo ao já utilizado no caso de se trabalhar apenas com uma amostra, temos que:
( ) ( )( ) ( )
B2BA
2A
B2BA
2A
B2BA
2A
BABA
B
2B
A
2A
BABA
n/n/
n/Sn/S
n/n/
XX
nS
nS
XX
σ+σ
+
σ+σ
µ−µ−−
=
+
µ−µ−−
( )
gl2gl
t~gl/
1,0N
χ=
isto é, aquela variável segue uma distribuição t de Student com gl graus de liberdade.
223
Para definir o valor de gl temos duas situações possíveis, que correspondem a podermos ou não admitir como válido que as variâncias das duas populações são iguais:
2nngl BA −+= se 22B
2A σ=σ=σ
( ) ( )1n
n/S1n
n/S
nS
nS
gl
B
2B
2B
A
2A
2A
2
B
2B
A
2A
−+
−
+
= se 2B
2A σ≠σ
No primeiro caso o número de graus de liberdade corresponde ao número de graus de liberdade com que a variância comum das duas populações é estimada. No segundo caso se o valor de gl não der um inteiro, deve-se utilizar o inteiro imediatamente inferior já que conduz à definição de um intervalo com uma confiança maior do que a especificada inicialmente. Se as variâncias das populações forem iguais podemos também aqui estimar a variância comum pela fórmula usada anteriormente, isto é:
( ) ( )2nn
S1nS1nS
BA
2BB
2AA2
−+⋅−+⋅−=
224
Então o intervalo de confiança a (1-α).100% para a diferença dos valores esperados das duas populações, BA µ−µ , é dado por:
22B
2A σ=σ=σ
( BA µ−µ ) ∈ ( ) ( )
+⋅⋅α±−
BABA n
1n1S2/tXX
2B
2A σ≠σ
( BA µ−µ ) ∈ ( ) ( )
+⋅α±−
B
2B
A
2A
BA nS
nS
2/tXX
INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE PROPORÇÕES BINOMIAIS BA pp − (AMOSTRAS INDEPENDENTES DE GRANDES DIMENSÕES) Sejam duas populações A e B constituídas por elementos de dois tipos. Seja Ap a proporção de elementos de um dos dois tipos na população A e Bp o valor correspondente para a população B. Seleccionadas independentemente duas
225
amostras, seja A
A
nY
um estimador de Ap baseado numa
amostra de dimensão An e B
B
nY
o estimador de Bp baseado
numa amostra de dimensão Bn . Estando satisfeitas as condições para aproximarmos as
distribuições de A
A
nY
e B
B
nY
por distribuições Normais
(populações infinitas ou amostragem com reposição verificando-se ainda que n ≥ 20 e n.p > 7 ; no caso de amostragem sem reposição é também necessário garantir que a dimensão da população é grande face à dimensão da amostra) e uma vez que as amostras são independentes temos que:
( ) ( )
−⋅+−⋅µ−µ−B
BB
A
AABA
B
B
A
A
np1p
np1p
,N~nY
nY
Então seguindo um procedimento idêntico ao utilizado anteriormente temos que o intervalo de confiança a (1-α).100% para a diferença entre as proporções binomiais,
BA pp − , é dado por: ( BA pp − ) ∈
∈ ( ) ( ) ( )3B
BBB3A
AAA
B
B
A
A
n
YnY
n
YnY2/z
nY
nY −⋅+−⋅⋅α±
−
226
DIMENSIONAMENTO DE AMOSTRAS Até agora admitimos que a dimensão das amostras utilizadas para o cálculo das estimativas pontuais estava já especificada previamente. Contudo o problema de dimensionamento das amostras é muito importante já que:
• Se a amostra for excessivamente grande face aos objectivos que se pretendem atingir, estaremos a desperdiçar recursos na recolha e tratamento da informação.
• Se a dimensão da amostra não for suficiente para a
partir dela se extraírem conclusões válidas, estaremos a cometer um erro.
A dimensão das amostras a considerar aumentará à medida que aumentem os seguintes “parâmetros” (isoladamente ou em simultâneo):
i) a precisão do intervalo de confiança (que varia na razão inversa da respectiva amplitude).
ii) o grau de confiança do intervalo, isto é, a
probabilidade de este vir a incluir o verdadeiro valor do parâmetro populacional.
Top Related