Download - Estimação de Intervalos de Confiança

206

ESTIMAÇÃO POR INTERVALO (INTERVALOS DE CONFIANÇA) Cada um dos métodos de estimação pontual permite associar a cada parâmetro populacional um estimador. Ora a cada estimador estão associadas tantas estimativas diferentes quantas as amostras utilizadas para o seu cálculo. De um modo geral nenhuma destas estimativas irá coincidir com o valor do parâmetro da população e não é possível obter qualquer informação relativa ao seu rigor. Esta impossibilidade de associar a uma dada estimativa o respectivo grau de confiança, constitui a grande limitação dos métodos de estimação pontual. Este problema é ultrapassado recorrendo à estimação por intervalo.

Admita-se então que temos uma população ( )2,N~X σµ e que é seleccionada uma amostra aleatória de dimensão n. Para essa amostra é calculada a respectiva média amostral cujo valor é x . O objectivo é definir um intervalo que com uma dada probabilidade 1 - αααα (p.ex: 95%, 99%), inclua o verdadeiro valor do parâmetro µµµµ da população. Sabemos que:

( )1,0N~n/

XZ

n,N~X

2

σµ−=⇒

σµ

defina-se agora ( )2/z α como o valor da v.a. Z que verifica ( )[ ] 2/2/zZP α=α> . Então ( )[ ] 2/2/zZP α=α−< e

portanto ( ) ( )[ ] α−=α<<α− 12/zZ2/zP .

207

Então:

( ) ( ) α−=

α<

σµ−<α− 12/zn/

X2/zP

que se pode escrever como:

( ) ( ) α−=

σ⋅α+µ<<σ⋅α−µ 1n

2/zXn

2/zP

ou como:

( ) ( ) α−=

σ⋅α+<µ<σ⋅α− 1n

2/zXn

2/zXP

De acordo com a expressão anterior o intervalo:

( ) ( )

σ⋅α+σ⋅α−n

2/zX,n

2/zX

incluirá o valor de µ com probabilidade 1 - α .

208

Este intervalo designa-se por intervalo de confiança para o valor esperado a (1 - αααα).100%. Os extremos deste intervalo são os limites de confiança a (1 - αααα).100%. O valor de

( )n

2/zσ⋅α , que representa a semiamplitude do intervalo

de confiança, corresponde ao erro máximo que, com a confiança especificada, se pode cometer na estimativa de µ. NOTA:

• O valor de α representa, em média, a proporção de vezes em que o intervalo de confiança não contém o parâmetro que se pretende estimar.

• Outro aspecto a salientar prende-se com a simetria do intervalo de confiança relativamente ao valor do estimador pontual X .

209

Para quaisquer valores 1α e 2α não simétricos que satisfaçam:

α=α+α 21

os intervalos

( ) ( )

σ⋅α+σ⋅α−n

zX,n

zX 21

são todos eles intervalos de confiança de µ a (1-α).100% , porém com amplitudes diferentes. Sempre que a estatística a partir da qual se definem os intervalos de confiança, apresentar uma distribuição unimodal simétrica, o intervalo simétrico em relação à estatística ( 2/21 α=α=α ) é o de menor amplitude e portanto aquele que deve ser calculado. As excepções a esta regra são situações em que o objectivo é definir intervalos de confiança unilaterais (ilimitados superiormente ou ilimitados inferiormente).

210

ESPECIFICAÇÃO DE INTERVALOS DE CONFIANÇA

A especificação de um intervalo de confiança para um parâmetro implica conhecer:

• Um estimador do parâmetro em causa

• A distribuição desse estimador

• Uma estimativa pontual do parâmetro INTERVALOS DE CONFIANÇA PARA O VALOR ESPERADO (µµµµ) I ) Amostra de grande dimensão. População qualquer. De acordo com o teorema do limite central temos que, neste caso:

( )1,0N~n/

XZ

n,N~X

2

σµ−=⇒

σµ

Em geral o desvio padrão da população, σ, é desconhecido, sendo estimado através do desvio padrão amostral, S:

( )∑ −⋅−

==

n

1i

2i XX

1n1

S

( S: estimador desvio padrão amostral; s: estimativas)

211

Uma vez que se admitiu que a amostra é de elevada dimensão, o erro de estimação é desprezável e podemos admitir que:

σ≈S (constante) e portanto:

( )1,0N~n/

Xn/S

XZ

σµ−≈µ−=

Então o intervalo de confiança para o valor esperado µ a (1-α).100% é dado por:

( ) ( )

⋅α+⋅α−

nS

2/zX,nS

2/zX

II ) Amostra de pequena dimensão. População Normal. Neste caso já não é válido considerar que:

σ≈S (constante) e portanto também já não é válido admitir que:

n/X

n/SX

σµ−≈µ−

212

Então, para definir o intervalo de confiança é necessário determinar a distribuição da v.a. :

n/SX µ−

Notemos que:

( )

1n

1,0N~

/Sn/

X

n/SX

21n

−χσ

σµ−

=µ−

−

e como n/

Xσ

µ− e σ/S são v.a. independentes, resulta da

definição da distribuição t de Student que:

1nt~n/S

X−

µ−

sendo portanto o intervalo de confiança para o valor esperado µ a (1-α).100% dado por:

( ) ( )

⋅α+⋅α− −− n

S2/tX,

nS

2/tX 1n1n

213

INTERVALOS DE CONFIANÇA PARA A

PROPORÇÃO BINOMIAL ( nYP = )

Vimos já anteriormente que nYP = era um estimador para a

proporção binomial p e que, sob determinadas condições, a

distribuição de nYP = é dada por:

( )

−⋅=n

p1p,pN~

nYP

e portanto os limites do intervalo de confiança para nYP =

são dados por:

( ) ( ) ( ) σ⋅α±=−⋅⋅α± 2/znY

np1p

2/znY

Uma vez que o valor de σ depende do parâmetro desconhecido p, poderá para amostras de elevada dimensão, ser substituído por um qualquer valor do seu estimador

nYP = resultando em:

( ) ( )

3n

YnYn

n/Y1n/Y −⋅=−⋅=σ

e portanto:

214

( ) ( )1,0N~

n

YnY

pnY

3−⋅

−

sendo o intervalo de confiança para a proporção binomial p a (1-α).100% dado por:

( ) ( ) ( ) ( )

−⋅⋅α+−⋅⋅α−33 n

YnY2/z

nY,

n

YnY2/z

nY

INTERVALOS DE CONFIANÇA PARA A VARIÂNCIA DE UMA POPULAÇÃO NORMAL ( 2σ ) Vimos já que se de uma população Normal, ( )2,N σµ , forem seleccionadas amostras aleatórias de dimensão n com variância amostral 2S , então a v.a. :

( ) 21n2

2~

S1n −χ

σ⋅−

Consideremos agora dois valores ( )A

21n−χ e ( )

B2

1n−χ tais

que:

( ) ( )[ ] α−=χ<χ<χ −−− 1PB

21n

21nA

21n

215

Substituindo na equação anterior ( )21n−χ por ( )

2

2S1n

σ⋅−

obtém-se:

( ) ( ) ( ) α−=

χ<

σ⋅−<χ −− 1

S1nP

B2

1n2

2

A2

1n

ou:

( ) ( ) ( ) α−=

χ>

⋅−

σ>χ −−

11

S1n

1P

B2

1n2

2

A2

1n

a que podemos ainda dar outro aspecto:

( )( )

( )( ) α−=

χ

⋅−>σ>χ

⋅−

−−

1S1nS1n

P

B2

1n

22

A2

1n

2

ou finalmente:

( )( )

( )( ) α−=

χ

⋅−<σ<χ

⋅−

−−

1S1nS1n

P

A2

1n

22

B2

1n

2

216

O intervalo de confiança para a variância 2σ a (1-α).100% é dado por:

( )( )

( )( )

χ

⋅−

χ

⋅−

−− A2

1n

2

B2

1n

2 S1n,

S1n

Neste caso a distribuição não é simétrica existindo portanto a

dificuldade de definir os valores ( )A

21n−χ e ( )

B2

1n−χ que

conduzem ao intervalo de confiança de menor amplitude. Por razões de simplicidade é habitual escolher:

( ) ( )2/21nB

21n αχ=χ −−

( ) ( )2/121nA

21n α−χ=χ −−

e assim a expressão final para o intervalo de confiança é:

( )( )

( )( )

α−χ

⋅−

αχ

⋅−

−− 2/1

S1n,

2/

S1n

21n

2

21n

2

217

INTERVALOS DE CONFIANÇA PARA A RAZÃO ENTRE VARIÂNCIAS DE POPULAÇÕES NORMAIS Admita-se que 2

Aσ e 2Bσ correspondem às variâncias de duas

populações Normais A e B. Considere-se também que, com base em amostras independentes de dimensão An e Bn respectivamente, se obtêm os estimadores para aquelas

variâncias, isto é 2AS e 2BS . Então:

( ) 21An

2A

2A

A ~S

1n −χσ

⋅−

e

( ) 21Bn

2B

2B

B ~S

1n −χσ

⋅−

resultando que:

( )( )1n/

1n/~

/S

/S

B2

1Bn

A2

1An

2B

2B

2A

2A

−χ

−χ

σσ

−

−

Atendendo à definição da distribuição F temos então que:

1Bn,1An2B

2B

2A

2A F~

/S

/S−−σ

σ

uma vez que se admite que as variáveis 2AS e 2

BS são independentes (pois são obtidas a partir de amostras independentes).

218

Considerem-se agora dois valores desta distribuição ( )2/F

1Bn,1An α−− e ( )2/1F1Bn,1An α−−− tais que:

( ) ( )[ ] α−=α<<α− −−−−−− 12/FF2/1FP1Bn,1An1Bn,1An1Bn,1An

e portanto:

( ) ( ) α−=

α<

σσ<α− −−−− 12/F

/S

/S2/1FP

1Bn,1An2B

2B

2A

2A

1Bn,1An

ou ainda:

( ) ( ) α−=

α>σσ>

α− −−−−1

2/F1

S/S

/2/1F

1P1Bn,1An

2B

2A

2B

2A

1Bn,1An

ou de outro modo:

( ) ( ) α−=

⋅

α>

σσ>⋅

α− −−−−1

S

S2/F

1S

S2/1F

1P2B

2A

1Bn,1An2B

2A

2B

2A

1Bn,1An

e finalmente:

( ) ( ) α−=

⋅

α−<

σσ<⋅

α −−−−1

S

S2/1F

1S

S2/F

1P2B

2A

1Bn,1An2B

2A

2B

2A

1Bn,1An

219

O intervalo de confiança a (1-α).100% para a razão entre as

variâncias das duas populações normais 2B

2A / σσ é então:

( ) ( )

⋅

α−⋅

α −−−−2B

2A

1Bn,1An2B

2A

1Bn,1An S

S2/1F

1,S

S2/F

1

INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE OS VALORES ESPERADOS DE DUAS POPULAÇÕES ( BA µ−µ ) I) Amostras independentes de grandes dimensões, populações

quaisquer Sejam Aµ e Bµ os valores esperados das populações A e B e

2Aσ e 2

Bσ as suas variâncias. Considere que a partir destas populações se obtêm amostras independentes de dimensão

AN e BN com base nas quais se determinam os estimadores

dos valores esperados, AX e BX , e das variâncias, 2AS e 2BS .

Uma vez que estamos a tratar com amostras de elevada dimensão, podemos considerar que:

2A

2AS σ≈ e 2

B2BS σ≈

220

por outro lado, o teorema do limite central permite-nos afirmar que, quaisquer que sejam as formas das distribuições de A e B teremos:

µ≈

σµA

2A

AA

2A

AA nS

,Nn

,N~X

e

µ≈

σµB

2B

BB

2B

BB nS

,Nn

,N~X

Uma vez que se admitiu que as amostras são independentes, a diferença BA XX − é a também uma v.a. com distribuição Normal e portanto:

+µ−µ≈

σ+σµ−µ−B

2B

A

2A

BAB

2B

A

2A

BABA nS

nS

,Nnn

,N~XX

isto é:

( ) ( ) ( )1,0N~

nS

nS

XXZ

B

2B

A

2A

BABA

+

µ−µ−−=

Então o intervalo de confiança a (1-α).100% para a diferença dos valores esperados BA µ−µ é dado por:

221

( ) ( ) ( ) ( )

+⋅α+−+⋅α−−

B

2B

A

2A

BAB

2B

A

2A

BA nS

nS

2/zXX,nS

nS

2/zXX

Se se admitir que as variâncias das duas populações são iguais:

22B

2A σ=σ=σ

então:

+σµ−µ=

σ+σµ−µ−BA

2BA

B

2

A

2

BABA n1

n1,N

nn,N~XX

neste caso é possível refinar a expressão obtida para o intervalo de confiança, estimando a variância comum 2σ , das duas populações A e B, a partir de:

( ) ( )2nn

S1nS1nS

BA

2BB

2AA2

−+⋅−+⋅−=

e substituindo nessa expressão 2AS e 2

BS por 2S . Então se as variâncias das populações forem iguais a expressão para o intervalo de confiança é:

( ) ( ) ( ) ( )

+⋅⋅α+−+⋅⋅α−−

BABA

BABA n

1n1S2/zXX,

n1

n1S2/zXX

222

I) Amostras independentes de pequenas dimensões, populações quaisquer

Uma vez que agora já não é válido considerar:

2A

2AS σ≈ e 2

B2BS σ≈

também deixa de ser válido admitir que tem distribuição N(0,1) a v.a.:

( ) ( )

B

2B

A

2A

BABA

nS

nS

XX

+

µ−µ−−

Seguindo um procedimento análogo ao já utilizado no caso de se trabalhar apenas com uma amostra, temos que:

( ) ( )( ) ( )

B2BA

2A

B2BA

2A

B2BA

2A

BABA

B

2B

A

2A

BABA

n/n/

n/Sn/S

n/n/

XX

nS

nS

XX

σ+σ

+

σ+σ

µ−µ−−

=

+

µ−µ−−

( )

gl2gl

t~gl/

1,0N

χ=

isto é, aquela variável segue uma distribuição t de Student com gl graus de liberdade.

223

Para definir o valor de gl temos duas situações possíveis, que correspondem a podermos ou não admitir como válido que as variâncias das duas populações são iguais:

2nngl BA −+= se 22B

2A σ=σ=σ

( ) ( )1n

n/S1n

n/S

nS

nS

gl

B

2B

2B

A

2A

2A

2

B

2B

A

2A

−+

−

+

= se 2B

2A σ≠σ

No primeiro caso o número de graus de liberdade corresponde ao número de graus de liberdade com que a variância comum das duas populações é estimada. No segundo caso se o valor de gl não der um inteiro, deve-se utilizar o inteiro imediatamente inferior já que conduz à definição de um intervalo com uma confiança maior do que a especificada inicialmente. Se as variâncias das populações forem iguais podemos também aqui estimar a variância comum pela fórmula usada anteriormente, isto é:

( ) ( )2nn

S1nS1nS

BA

2BB

2AA2

−+⋅−+⋅−=

224

Então o intervalo de confiança a (1-α).100% para a diferença dos valores esperados das duas populações, BA µ−µ , é dado por:

22B

2A σ=σ=σ

( BA µ−µ ) ∈ ( ) ( )

+⋅⋅α±−

BABA n

1n1S2/tXX

2B

2A σ≠σ

( BA µ−µ ) ∈ ( ) ( )

+⋅α±−

B

2B

A

2A

BA nS

nS

2/tXX

INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE PROPORÇÕES BINOMIAIS BA pp − (AMOSTRAS INDEPENDENTES DE GRANDES DIMENSÕES) Sejam duas populações A e B constituídas por elementos de dois tipos. Seja Ap a proporção de elementos de um dos dois tipos na população A e Bp o valor correspondente para a população B. Seleccionadas independentemente duas

225

amostras, seja A

A

nY

um estimador de Ap baseado numa

amostra de dimensão An e B

B

nY

o estimador de Bp baseado

numa amostra de dimensão Bn . Estando satisfeitas as condições para aproximarmos as

distribuições de A

A

nY

e B

B

nY

por distribuições Normais

(populações infinitas ou amostragem com reposição verificando-se ainda que n ≥ 20 e n.p > 7 ; no caso de amostragem sem reposição é também necessário garantir que a dimensão da população é grande face à dimensão da amostra) e uma vez que as amostras são independentes temos que:

( ) ( )

−⋅+−⋅µ−µ−B

BB

A

AABA

B

B

A

A

np1p

np1p

,N~nY

nY

Então seguindo um procedimento idêntico ao utilizado anteriormente temos que o intervalo de confiança a (1-α).100% para a diferença entre as proporções binomiais,

BA pp − , é dado por: ( BA pp − ) ∈

∈ ( ) ( ) ( )3B

BBB3A

AAA

B

B

A

A

n

YnY

n

YnY2/z

nY

nY −⋅+−⋅⋅α±

−

226

DIMENSIONAMENTO DE AMOSTRAS Até agora admitimos que a dimensão das amostras utilizadas para o cálculo das estimativas pontuais estava já especificada previamente. Contudo o problema de dimensionamento das amostras é muito importante já que:

• Se a amostra for excessivamente grande face aos objectivos que se pretendem atingir, estaremos a desperdiçar recursos na recolha e tratamento da informação.

• Se a dimensão da amostra não for suficiente para a

partir dela se extraírem conclusões válidas, estaremos a cometer um erro.

A dimensão das amostras a considerar aumentará à medida que aumentem os seguintes “parâmetros” (isoladamente ou em simultâneo):

i) a precisão do intervalo de confiança (que varia na razão inversa da respectiva amplitude).

ii) o grau de confiança do intervalo, isto é, a

probabilidade de este vir a incluir o verdadeiro valor do parâmetro populacional.