Download - Estimação de Variância Casos Práticos - cim.pt · 5 « Bases de Amostragem « A actualização da Amostra-Mãe processa-se a partir de um Inquérito próprio de actualização

(Co

m a

co

lab

ora

çã

o d

o D

MS

I/M

E)

(17-1

1-2

007) «

« Esti

mação

de V

ari

ân

cia «

Ca

so

s P

ráti

co

s

Rit

a S

ou

sa

Me

eti

ng

SP

E/C

IMM

eth

od

olo

gic

alIs

su

es

inO

ffic

ialS

tati

sti

cs

2

«�C

onte

xtua

lizaç

ão

�P

rinci

pais

Est

imad

ores

�C

alib

raçã

o

�P

lano

Com

plex

o de

Am

ostr

agem

�M

étod

o de

Lin

eariz

ação

�M

étod

o do

s G

rupo

s A

leat

ório

s

�M

étod

os d

e R

eam

ostr

agem

�C

asos

Prá

ticos

«

Est

imaç

ão d

e V

ariâ

ncia

«

3

«In

quér

itos

por

Am

ostr

agem

«

Nos inquéritos por amostragem

pretende-se analisar as características

de uma dada populaçãode dim

ensão

N, com base numa a

mostra

de

nunidadesextraídas dessa m

esma população.

No INE,

IP,

os

méto

dos

de

amostragem

são,

em geral,

pro

babilísticos

(aleatórios),

pelo que

équase

sempre possível

associar a cada elem

ento da população a respectiva p

robabilidade

de inclusãona am

ostra.

4

«

Bas

es d

e A

mos

trag

em

«

A Amostra-M

ãe

éuma

base de amostragem de alojamento

s

familiare

s, a partir da qual são seleccionad

as as amostras para os

inquéritos a realizar pelo INE, IP, junto das famílias.

Foi criada em 2

001através dos Censos d

a p

opulaçãoe, passad

os

estes

anos, é

necessário proceder à

actualização da

inform

ação,

atribuindo-lhe

melhor

qualidade, que

se reflecte também

nos

inquéritos efectuad

os pelo INE, IP.

Am

ostr

a-M

ãe

5

«

Bas

es d

e A

mos

trag

em

«

A a

ctu

alização

da A

mostra-M

ãeprocessa-se a partir de um Inquérito

pró

prio

de actualização e de

Inquérito

s às Famílias(IE, IDEF, ICOR,

INS, IPTR, IUTICF)*;

Am

ostr

a-M

ãe

* IE –

Inquérito ao Emprego;

IDEF –Inquérito às Despesas das Fam

ílias;

ICOR –

Inquérito às Condições de Vida e Ren

dim

ento;

INS –

Inquérito Nacional de Saúde;

IPTR –

Inquérito à

Procura Turística de Residen

tes;

IUTICF –Inquérito à

Utilização das Tecnologias de Inform

ação e Comunicação nas Fam

ílias.

Em 2006 foi feito um inquérito piloto a 14 áreas m

as no 1

ºtrim

estre d

e

2007

teve início

oefectivo p

rocesso de actu

alização. Prevê-se que

tenha a

dura

ção de 3 anos, já

que se selecciona cerca de 1/12 do nº

total de

áreas, dan

do-se

prioridad

e às áre

as com maior

índice de

esgota

mento

(com m

enor nºde alojamen

tos de residên

cia principal).

6

«

Bas

es d

e A

mos

trag

em

«

O F

UE

éuma base de amostragem

das E

mpre

sas(Socied

ades ou

Empresários

em

Nome

Individual),

Institu

ições

sem

Fins

Lucra

tivos

e Administração Pública,

a partir

da

qual são

seleccionadas as amostras para os inquéritos a realizar pelo INE, IP,

junto das empre

sas.

A a

ctu

alizaçãodo FUE é

feita com base em inquéritos do INE, IP,

(fonte

s inte

rnas) e com base em

ficheiros ad

ministrativos (fonte

s

exte

rnas), como é

o caso da

IES*,

que

permite

melhorar

a

consistên

cia e actualização da inform

ação de periodicidad

e an

ual.

Fic

heiro

de

Uni

dade

s E

stat

ístic

as (

FU

E)

* IES –

Inform

ação Empresarial Sim

plificad

a

7

«

Est

imaç

ão d

a V

ariâ

ncia

«

De

um modo geral, nos

inquéritos

por am

ostragem

, pretende-se

estimar características

da população como to

tais,

médias

ou

pro

porções(de indivíduos com uma determinada restrição).

No cálculo das estimativas populacionais

éconveniente

avaliara

pre

cisão

dessas

mesmas

estimativas, através

das

variâncias

e

respectivos coeficientes de variação.

8

«

Tot

al P

opul

acio

nal

«

Seja

Ya variável aleatória em

estudo e {

Y1,

Y2, …,

Yn} a respectiva

amostra aleatória

de

dim

ensão

n,

para uma

população de

N

indivíduos.

∑=

=N i

iT

YY

1

�Seja σ

2 a

variân

cia

da

população e

S2 o respectivo

estimad

or

centrad

o da variân

cia:

()2

11

12

∑=

−−

=n i

in

YY

S, com

n

Yn i

i

Y∑

==1

9

«

Tot

al/M

édia

Pop

ulac

iona

is

«

�Para uma amostra a

leató

ria sim

ples(sem

rep

osição) o e

stimadordo

tota

lpopulacional é:

Nnf

=

n

Y

T

n ii

NY

NY

∑=

==1

ˆ

Em que

()

[]

nS

YT

Tf

NN

S2

1ˆ

ˆ2

22

22

−=

==

σσ

Estimador da variância:

Am

ostr

agem

Ale

atór

ia S

impl

es

corresponde àfracção de amostragem

.

10«

Tot

al/M

édia

Pop

ulac

iona

is

«

Am

ostr

agem

Ale

atór

ia E

stra

tific

ada

Na amostragem a

leató

ria estratificada a população é

dividida em

gru

pos

(estratos) considerados

mais

homogéneos

em relação a

determinadas características (variáveis de estratificação).

�Neste caso, para kestratos, tem

os:

∑=

=k h

hN

N1

, que representa a dim

ensãototal da população;

∑=

=k h

hn

n1

, que representa a dim

ensãototal da amostra;

Em que

Nhe

nhcorrespondem

ao número de unidad

es no estrato h

para a população e para a amostra, respectivamen

te.

11«

Tot

al/M

édia

Pop

ulac

iona

is

«

�Para u

ma

amostra aleató

ria estratificada, considerando a p

opulação

dividida em

kestratos, o estimadordo tota

lpopulacional é:

∑=

∑=

==

=k h

hh

k hh

NN

TY

NY

NY

NY

h

11

ˆ

Am

ostr

agem

Ale

atór

ia E

stra

tific

ada

()

hh

nS

h

k hh

YT

Tf

WN

NS

2

1ˆ

ˆ1

22

22

22

−=

==

∑=

σσ


hh

Nn

hf=

Em que

corresponde àfracção de am

ostragem

no estrato h.

NN

hh

W=

corresponde ao peso do estrato hna população e

12«

Pro

porç

ão P

opul

acio

nal

«

Para uma dada população de dim

ensão N, a proporção de indivíduos

que verifica uma dad

a característica é

dad

a por:

NRp

T=

�Sen

do

Ra

soma

de

Nvariáveis

com distribuição binomial, de

parâmetros

Ne

p, a variân

cia da proporção populacional é

dad

a por:

N

pp

p

)1(

2−

=σ

13«

Pro

porç

ão P

opul

acio

nal

«

�Para uma amostra a

leató

ria sim

ples(sem

rep

osição) o e

stimadorda

pro

porçãopopulacional é:

Nnf

=

nrp

T=

ˆ

Em que

()

1

)ˆ

1(ˆ

22

1ˆ

−−−

==

n

pp

pp

fS

σEstimador da variância:

Am

ostr

agem

Ale

atór

ia S

impl

es


.

14«

Pro

porç

ão P

opul

acio

nal

«

�Para u

ma

amostra aleató

ria estratificada, considerando a p

opulação

dividida em

kestratos, o estimadorda pro

porção populacional é:

∑=

∑=

==

k hnr

NNk h

hNN

Thh

hh

pp

11

ˆˆ

Am

ostr

agem

Ale

atór

ia E

stra

tific

ada

()

∑∑

=−−

=−

==

=k h

n

pp

hh

p

k hh

pp

h

hh

hf

WS

WS

11

)ˆ

1(ˆ

22

1

22

21

σ̂


hh

Nn

hf=

Em que

corresponde àfracção de am

ostragem

no estrato h.

NN

hh

W=

corresponde ao peso do estrato hna população e

15«

Est

imaç

ão d

a V

ariâ

ncia

«

O cálculo da variância éuma tare

fa m

ais complexaquando:

�Tem

os

estimadore

spopulacionais não lineare

sou que

não

correspondem

a nen

huma combinação linear de méd

ias ou totais;

�Se recorre a planos de amostragem complexos;

�Se faz im

puta

ção(de não respostas);

�Se recorre àcalibra

çãoda am

ostra.

16«

Cal

ibra

ção

«

A calibra

çãodo desen

ho amostralconsiste em

recorrer a inform

ação

auxiliar

para fazer

o aju

sta

mento

dos pondera

dore

s iniciais,

obtendo-se totais m

arginais idên

ticos aos conhecidos da população.

A calibração de ponderad

ores iniciais pode ser feita, por exem

plo, por

um pro

cesso de aju

sta

mento

por

marg

ens,

que

cria novos

ponderad

ores

tão

próximo quan

to possível dos

iniciais,

por

minim

ização de uma dada função distâ

ncia.

Este processo pretende

corrigir a

lgumas d

isto

rções d

a a

mostra,

em relação à

população de

referência, que

se podem

dever por

exem

plo ao cará

cte

r aleató

rio ou a não resposta

s.

17«M

étod

o de

Aju

stam

ento

por

Mar

gens

«

∑ ∈s

i

ii

id

wG

dni

M)

(

O problema consiste em

encontrar os pesos

wkque são soluçãode:

�Sejam:

di–Pesos iniciais, de am

ostragem

;

wi–Pesos finais ajustad

os, ou seja, as ponderações procuradas;

G–

Função distância, de argumen

to w

i/d

i, que med

e a distância en

tre os ponderad

ores;

s–

Amostra seleccionad

a;

, sob a restrição

X∑ ∈

=s

i

ii

Xw

Xi–

vector linha com os valores da observação ipara as variáveis auxiliares;

X–

vector linha das m

argen

s de ajustam

ento.

18«

Cal

ibra

ção

«

Um exemplo

do recurso às metodologias de calibração, no INE, IP, é

o Inquérito

ao Empre

go(IE):

Exe

mpl

o

�O p

ondera

dor

inicialécalculado por estrato de acordo com o desen

ho

amostral;

* Projecções men

sais da população.

i

ip

rob

sel

d1

=

∑ =

⋅=

rn i

i

r

i

i

pro

bse

l

Po

pN

UT

SII

I

pro

bse

lw

1

1

1

�Aplica-se um factor de correcção para as não-respostas;

�Calibram-se os ponderad

ores iniciais para que os totais m

arginais coincidam

com os da população, recorren

do-se a inform

ação externa*

ao inquérito.

19

Cal

ibra

ção

«

Exe

mpl

o

�Por região NUTS II, para

oescalão etá

rio quinquenal(sen

do o

últim

o de 75 e +

anos) e sexoe para o escalão etá

rio 1

8-2

4 anose

sexo;

�Por região N

UTS III, para

seis escalões etá

rios(0-14; 15-24; 25-

34; 35-44; 45-64; 65 e + anos) e sexo.

As

marg

ens utilizad

as no IE baseiam-se nas e

stimativas mensais

independente

s da população,

para as seguintes

variáveis de

desagregação:

Função de distâ

ncia

utilizad

a é

a do “m

éto

do logit

(método

ranking ratiocom lim

ites)”

20

Cal

ibra

ção

«

Exe

mpl

o

»E

feit

os

da

Ca

lib

raç

ão

21«

Pla

no A

mos

tral

Com

plex

o

«

Um plano amostralcomplexo

éaq

uele

cujo desen

ho incorpora

alguns

níveis

de

complexidade,

tais como

estratificação,

conglomera

çãoe pro

babilidades desiguais de selecção.

As

estimativas pontu

ais

dos parâmetros são influenciadas pela

pondera

ção da amostra,

enquan

to que

as estimativas da

variância

dos

estimad

ores

dos

parâmetros

do

modelo

são

influenciadas pelos efe

itos de estratificação e conglomera

ção.

22«

Con

glom

eraç

ão

«

Um exemplo

do recurso à

amostragem

por conglomerad

os

éa

amostragem m

ulti-etá

picaem

que numa primeira fase se agrupam

as unidad

es em

subpopulações,

facilm

ente iden

tificáveis (por

exem

plo: escolas, hospitais, áreas geográficas, etc.).

Estes subgrupos são considerad

os heterogén

eos e a amostragem é

feita sobre

os conglomera

dos

e não

sobre os

indivíduos

da

população.

23«

Am

ostr

agem

Mul

ti-et

ápic

a

«

Quan

do existe ap

enas uma

única eta

pa, o

bserv

am-se to

dos os

elemento

s dos conglomera

dos seleccionados.

Na amostragem

multi-etá

picaa amostra é

seleccionada em

duas ou

mais eta

pasconsecutivas:

�PSU –

“primary sampling unit”(unidad

e de amostragem

primária);

�SSU–“secondary sampling unit”(unidade de am

ostragem

secundária);

�TSU–“tertiary sampling unit”(unidad

e de am

ostragem

terciária);

�…

24«

Am

ostr

agem

Mul

ti-et

ápic

a

«

Exe

mpl

o

�As unidades primáriascorrespondem

às áre

as da AM;

�As

unidades secundárias

correspondem

ao

s alojamento

s

familiare

s de residência p

rincipal, existen

tes em

cada uma das

áreas. Nestas unidad

es não se realiza qualquer amostragem

, dad

o

que se recolhe inform

ação de todos os indivíduos que aí

residem

.

No Inquérito

Nacional

de Saúde (INS)

pretende-se obter

estimativas

sobre

o

estado

de

saúde/doen

ça

da

população

portuguesa, os principais factores e a utilização de cuidad

os de saúde.

Recorre-se a uma

amostra pro

babilística multi-etá

pica,

com

estratificação a nível geográ

fico. A selecção é

feita em

duas

eta

pas, a partir da Amostra-M

ãe(AM):

25«

Est

imaç

ão d

a V

ariâ

ncia

«

Para estimação da variância

dos

estimad

ores, em

inquéritos

complexos, existem

vários méto

dos:

�Método da Linearização;

�Método dos Gru

pos A

leató

rios;

�Métodos de Reamostragem.

Mét

odos

26«

Line

ariz

ação

«

Quan

do o estimad

or

não

é

linear

pode

recorrer-se

a uma

apro

xim

açãopor um linear, com o propósito de estimar a variância,

por exem

plo pelo M

éto

do das Séries de Taylor.

Apesar deste m

étodo jáestar teoricamen

te bem

desen

volvido, pode

tornar-se complexo na dedução das derivadas parciais.

Geralmen

te este método é

aplicado quan

do dispomos de uma fu

nção

(designad

a por

“smooth”) expressa

pelas médias

e/ou to

tais

populacionais.

27«

Line

ariz

ação

«

()⇒

=k

YY

Yh

...,

,,

21

θ(

)k

YY

Yh

ˆ..

.,,

ˆ,

ˆˆ

21

=θ

()

()

() (

)i

i

k ii

kk

kY

YY

YY

Yh

YY

Yh

YY

Yh

−∂

∂+

=∑

=

ˆ..

.,,

,..

.,,

,ˆ

...,

,ˆ

,ˆ

1

21

21

21

()

∂∂=

∑=k i

i

i

YYh

Va

rV

ar

1

ˆθ̂

�Por exem

plo, para

um dad

o parâ

metro populacional θ, função não

linear de

kméd

ias populacionais :

Linearizandoa função Smooth, pelo m

éto

do de Taylor, temos:

Variância do Estimador:

()

kY

YY

...,

,,

21

28«

Mét

odo

de T

aylo

r

«

�Para uma amostra aleató

ria sim

ples

{(X

1,

Y1),

(X

2,

Y2),

…,

(Xn,

Yn)}do par de

variáveis

(X, Y

)o estim

ador da razão populacionalé:

()

XYY

Xh

Rˆˆ

ˆ,

ˆˆ

==

Exe

mpl

o

Linearizando, pelo m

éto

do de Taylor, temos:

()

()

() (

)(

) ()

()

()

XX

XYY

YX

XY

XX

X

YX

hY

YY

YX

hY

Xh

YX

hR

−−

−+

=

−∂

∂+

−∂

∂+

==

ˆˆ

1

ˆ,

ˆ,

,ˆ

,ˆ

ˆ

2

29«

Mét

odo

de T

aylo

r

«

�Para o estimador dara

zão populacional:

Exe

mpl

o

()

()

XX

XYY

YX

XYR

−−

−+

=ˆ

ˆ1

ˆ2

()

()(

)(

)Y

XC

ov

XY

XX

Va

rXY

YV

ar

XR

Va

rˆ

,ˆ

12

ˆˆ

1ˆ

2

2

2

2

−

+

=

Tem

os


()

−

+

−

=n

S

XY

XnS

XY

nS

Xf

Rr

aV

XY

XY

2

22

2

22

12

1)

1(ˆ

ˆ

Nnf

=Em que


.

30«

Est

imaç

ão d

a V

ariâ

ncia

«

Esti

mad

or

Não

Lin

ear

Esti

mad

or

Lin

ear

Não

Dif

ere

nciá

vel

Dif

ere

nciá

vel

»C

rité

rio

s d

e S

ele

cç

ão

do

s M

éto

do

s

* M

acros em

SAS ced

idas pelo EUROSTAT, que são usadas por exem

plo nos principais indicad

ores

do Inquérito às Condições de Vida e Ren

dim

ento (ICOR).

Esti

mad

ore

s “

plu

g-i

n”

qu

e

são

um

a e

xte

nsão

do

méto

do

d

e T

aylo

r, d

esen

vo

lvid

a p

or

Deville

*

Méto

do

s d

e L

ineari

zação

do

E

sti

mad

or

pelo

Méto

do

de T

aylo

r

Ded

ução

alg

éb

rica d

a v

ari

ân

cia

do

esti

mad

or

ou

Méto

do

s d

e R

eam

ostr

ag

em

, n

o c

aso

de s

e r

eco

rrer

a im

pu

tação

, cali

bra

ção

ou

do

pla

no

de a

mo

str

ag

em

ser

co

mp

lexo

31«M

étod

o do

sG

rupo

s A

leat

ório

s

«

Baseia-se

no conceito de

replicação do desenho amostral,

dividindo a amostra em G

gru

pos d

isju

nto

s, de tal form

a que cada

gru

poconstitua uma vers

ão m

ais reduzida da amostra inicial.

Este

método é

simples

de

ser

aplicad

o mas

o pressuposto da

indep

endên

cia dos grupos

nem sempre

gara

nte

a consistê

ncia

das estimativas:

�Quan

do a amostra sópode ser dividida num n

úmero

re

duzido de

gru

pos, por exem

plo se a

amostragem

for estratificad

a e

alguns

estratos dispuserem de poucas observações.

Énecessário replicar o p

lano a

mostralem cada u

m d

os g

rupos

aleatórios.

32«

Mét

odos

de

Rea

mos

trag

em

«

Os métodos de reamostragem

utilizam a a

mostraaleatória original

como

se se tratasse de uma

população, extraindo

dessa v

árias

amostras aleató

rias.

A variância

de um estim

ador populacional éestimadacom base na

variabilidade das várias subamostras.

Nos métodos de reamostragem

podem

os optar por uma das técnicas:

�Bootstrap;

�Jackknife.

33«

Mét

odo

Bo

ots

tra

p

«

O m

étodo de ream

ostragemBootstrapfoi introduzido por Efronem

1979

e foi considerad

o uma das primeiras técnicas estatísticas m

ais complexas

em term

os

computacionais. Esta

técnica

veio substitu

ir as hab

ituais

deduções algébricaspelas sim

ulações em computa

dor.

O recurso ao Bootstraping

na

estimação da

variân

cia, no contexto da

amostragem, foi estudad

o nos

anos 80

e começou a

ser ap

licad

a

também

na estratificad

a mas apresentou algumas lim

itações em estratos

com restrições de dim

ensão.

His

toria

l

Em S

hao& T

u(1996) podem

ser consultad

os alguns desen

volvim

entos e

sugestões ao m

étodo inicial, como foi o caso do m

étodo bootstrap

com

reposiçãoem 1985(M

cCarthyan

dSnowden).

34«

Mét

odo

Bo

ots

tra

p

«

Método estatístico desen

volvido para

estimar

a distribuição

amostralde um estimadorpor amostragem

da

própria

amostra

original.

A v

ariabilidadeda estimativa populacional é

estimada

com base

na variabilidade das estimativascalculadas a partir das amostras

bootstrap.

Método de reamostragem

que se baseia na extracção de

Bamostras

bootstrap: amostras aleatórias com rep

osição, de dim

ensão igual à

amostra inicial, ou seja, com possibilidad

e de repetição de elem

entos.

35«

Mét

odo

Bo

ots

tra

p

«

Seja

Ya variável aleatória em

estudo e {

Y1,

Y2, …,

Yn} a respectiva

amostra aleatória de dim

ensão n.

Amostras Bootstrap:

()

b n

bb

YY

Y..

.,,

,2

1

()

()2

1

ˆˆ

1

1ˆ

ˆ∑

=−

−=

B bb

BB

ra

Vθ

θθ

, com

...

.,,

1B

b=

�O estimador Bootstrap

da variância um dado estimador

éa

variâ

ncia

am

ostr

aldo

s B

pseu

do-e

stim

ador

es:

θ̂

36«

Mét

odo

Bo

ots

tra

p

«

Exe

mpl

o

Para uma

amostra

de

815 empre

sas

da

secção de CAE 55

(Alojamen

to e

Restauração)

foi feita

uma

simulação da

técnica

Bootstrap

para

avaliar

a convergên

cia dos resultad

os em

10, 100e 1000 réplicas. A tab

ela que se seg

ue

mostra-nos os resultad

os para a am

ostra original.

EC

AE

EP

SE

ST

RA

TO

SE

CÇ

ÃO

UN

IVE

RS

OA

MO

ST

RA

k=N

/nT

OT

_V

VN

VA

R_E

ST

RA

TO

CV

_ES

TR

AT

O55

11

551

/1H

115

668

1710

122

8918

8120

382

9823

9662

.00

28.1

5%55

12

551

/2H

494

3813

337

1479

6019

2339

9132

4771

50.0

013

.01%

551

355

1/3

H13

065

275

391

9150

6204

2329

8931

1930

.00

10.4

5%55

21

552

/1H

258

436

1749

1319

3022

5666

7728

58.5

031

.43%

552

255

2/2

H36

182

1821

1796

368

6517

5471

38.2

210

.54%

552

355

2/3

H6

61

2646

9610

0.00

0.00

%55

31

553

/1H

975

019

550

883

1523

7232

7756

5088

6156

50.0

06.

48%

553

255

3/2

H1

264

7916

636

5338

1660

8138

1979

8659

40.0

012

.25%

553

355

3/3

H56

282

322

9030

1897

0298

6631

6675

80.0

030

.51%

554

155

4/1

H8

960

140

6468

295

8035

2841

7359

6461

5300

.00

7.81

%55

42

554

/2H

672

4216

267

6850

6983

951

7129

9717

71.0

010

.82%

554

355

4/3

H18

181

4760

5255

0.00

0.00

%55

51

555

/1H

192

484

2235

1993

1577

1095

4445

70.2

017

.77%

555

255

5/2

H36

94

3422

0090

1164

846

1308

3822

.00

31.5

4%55

53

555

/3H

1818

131

640

2197

0.00

0.00

%T

OT

AL

23

04

68

15

44

68

28

05

98

31

84

90

25

10

76

13

40

0.0

03

.99

%

37«

Mét

odo

Bo

ots

tra

p

«

Exe

mpl

o

EC

AE

EP

SE

STR

ATO

SE

CÇ

ÃO

UN

IVE

RS

OA

MO

STR

Ak=

N/n

TETA

_BS

VA

R_B

SC

V_E

STR

ATO

551

155

1/1

H11

5668

1786

3338

86.3

2229

0997

9421

797.

0017

.29%

551

255

1/2

H49

438

1338

1253

028

7784

8311

9946

529.

007.

32%

551

355

1/3

H13

065

287

3656

405.

819

2002

4159

7557

40.0

05.

02%

552

155

2/1

H25

843

622

4050

68.6

8210

9681

3388

35.6

040

.44%

552

255

2/2

H36

182

1959

9120

5220

7378

7603

3.78

11.6

6%55

23

552/

3H

66

126

4696

100.

000.

00%

553

155

3/1

H97

5019

550

9411

2605

018

6660

8116

6594

40.0

04.

59%

553

255

3/2

H12

6479

1610

1708

1387

7721

6858

6098

6440

0.00

27.3

2%55

33

553/

3H

5628

228

9707

752.

898

7856

0114

9735

40.0

034

.31%

554

155

4/1

H89

6014

064

7507

1887

3.6

2300

5888

7545

2140

.00

6.39

%55

42

554/

2H

672

4216

2628

8186

7.2

7738

9729

5460

184.

0010

.58%

554

355

4/3

H18

181

4760

5255

0.00

0.00

%55

51

555/

1H

192

484

2012

8135

.677

7659

1076

254.

0413

.85%

555

255

5/2

H36

94

2638

0674

.813

2017

7119

9321

.10

13.7

7%55

53

555/

3H

1818

131

6402

197

0.00

0.00

%TO

TA

L23

046

815

508

1749

312

950662

3905

3024

200.

006.0

7%

»1

0 R

ép

lic

as

38«

Mét

odo

Bo

ots

tra

p

«

Exe

mpl

o

»1

00

Ré

pli

ca

s

EC

AE

EP

SE

STR

ATO

SE

CÇ

ÃO

UN

IVE

RS

OA

MO

STR

Ak=

N/n

TETA

_BS

VA

R_B

SC

V_E

STR

ATO

551

155

1/1

H11

5668

1786

2477

66.8

523

5121

9911

9049

0.00

17.7

8%55

12

551/

2H

494

3813

3525

5037

0.1

1707

1570

5679

6020

.00

11.7

2%55

13

551/

3H

130

652

8704

0805

2.7

7678

4841

4046

9740

.00

10.0

7%55

21

552/

1H

258

436

2244

6676

.32

5898

3591

9300

00.8

034

.21%

552

255

2/2

H36

182

1978

1531

.02

4320

2426

2489

8.06

10.5

1%55

23

552/

3H

66

126

4696

100.

000.

00%

553

155

3/1

H97

5019

550

9642

0013

5.5

2431

2970

6373

0670

.00

5.11

%55

32

553/

2H

1264

7916

9103

0816

3.5

5483

8916

5352

5270

0.00

25.7

3%55

33

553/

3H

5628

228

0779

794.

248

7001

6209

4886

30.0

024

.85%

554

155

4/1

H89

6014

064

7490

3595

252

9052

9015

0048

00.0

09.

71%

554

255

4/2

H67

242

1627

0778

168.

596

3117

0197

3218

7.00

11.4

6%55

43

554/

3H

1818

147

6052

550.

000.

00%

555

155

5/1

H19

248

420

1808

17.5

241

1541

7776

624.

0910

.05%

555

255

5/2

H36

94

2569

0963

.96

2303

0604

7335

58.8

018

.68%

555

355

5/3

H18

181

3164

0219

70.

000.

00%

TO

TA

L2304

6815

4962

8854

54

781

0508

8888

7303

00.

00

5.6

3%

39«

Mét

odo

Bo

ots

tra

p

«

Exe

mpl

o

»1

00

0 R

ép

lic

as

EC

AE

EP

SE

STR

ATO

SE

CÇ

ÃO

UN

IVE

RS

OA

MO

STR

Ak=

N/n

TETA

_BS

VA

R_B

SC

V_E

STR

ATO

551

155

1/1

H11

5668

1785

7950

91.7

322

0285

0782

0160

9.00

17.3

0%55

12

551/

2H

494

3813

3567

8239

0.1

1436

1741

2149

7780

.00

10.6

2%55

13

551/

3H

130

652

8676

1335

6.6

7918

5419

4944

2880

.00

10.2

6%55

21

552/

1H

258

436

2115

1366

.09

4546

9449

8310

07.8

031

.88%

552

255

2/2

H36

182

2005

3726

.23

4340

8765

0658

5.03

10.3

9%55

23

552/

3H

66

126

4696

100.

000.

00%

553

155

3/1

H97

5019

550

9655

8247

4.4

2816

4505

7592

7030

.00

5.50

%55

32

553/

2H

1264

7916

9142

9723

7.5

5434

2960

8390

1970

0.00

25.5

0%55

33

553/

3H

5628

227

9204

147.

859

6963

9937

1282

60.0

027

.67%

554

155

4/1

H89

6014

064

7519

7446

1.4

4424

8046

6049

5200

.00

8.85

%55

42

554/

2H

672

4216

2737

9775

0.5

1000

6083

5874

0050

.00

11.5

5%55

43

554/

3H

1818

147

6052

550.

000.

00%

555

155

5/1

H19

248

420

1579

09.3

156

8693

4014

987.

8811

.83%

555

255

5/2

H36

94

2520

9734

.62

2719

7456

9730

75.6

020

.69%

555

355

5/3

H18

181

3164

0219

70.

000.

00%

TO

TA

L23

046

815

497

2096

708

782121

6023

7778

100.

005.6

2%

40«

Mét

odo

Ja

ckkn

ife

«

Esta técnica foi inicialm

ente desen

volvida por Quenouille, em

1949,

como o objectivo de

reduzir

e estimar

o enviesamento

de

estimadore

s, num contexto de populações infinitas.

Mais tarde, em 1

958, Turkeysugeriu a implemen

tação do m

étodo

Jackknifena estimação de variâncias.

His

toria

l

Para populações finitas

a técnica Ja

ckknife

foi introduzida

por

Durbin, em

1959, sendo posteriorm

ente d

esenvolvida p

or Wolter

(1985).

41«

Mét

odo

Ja

ckkn

ife

«

Este método pressupõe a

criação de várias subamostrasque se

obtêm retira

ndo uma ou m

ais observ

ações da amostra inicial.

A variância é

estimada

com base na variabilidade entre as

estimativas obtidas

(a partir das subamostrasconstituídas) e a

calculada pela tota

lidade da amostra.

42«

Mét

odo

Ja

ckkn

ife

«

Retiran

do, àamostra inicial, uma observação de cada vez, obtemos

n

subamostrasde dim

ensão n

-1.

()

()2

1

ˆˆ

1ˆ

ˆ∑

=−

−=

n ii

JK

n

nr

aV

θθ

θ

�O e

stimador Jackknife

da variância u

m d

ado e

stimador

éda

do

por:

θ̂

43«

Mét

odo

Ja

ckkn

ife

«

Apl

icaç

ões

em R

Na metodologia dos apuramen

tos de diversos inquéritos*, no INE, IP,

épossível recorrer ao packagesurvey, em

linguagem R

, que está

em constante actualização e

que

foi desen

volvido por Thomas

Lumley(Universidade de Washington).

Conta

cto

s

frequente

s

com

o

auto

r perm

itiram

adicionar

dete

rminadas especificidades dos inquérito

s do INE, IP, às

funcionalidad

es jáexistentes.

* Por exem

plo, o Inquérito ao Emprego (IE) e o Inquérito Nacional de Saú

de (INS).

44

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

1.Definição do desenho amostral;

desen

ho <-svydesign(~

area, pond_iniciais, dad

os_norte)

No Inquérito

Nacional de Saúde (INS)

«

�are

a—

PSU´S do desen

ho amostral

(no caso da região Norte são 372 áreas

geográficas).

�pond_iniciais

—Ponderad

ores (inverso da probab

ilidad

e de selecção ao

qual é

aplicad

o um factor de correcção de não respostas).

�dados_norte—

Ficheiro de dad

os.

45

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

2.Criação de réplicas Jackknifedo desenho amostral;

desen

ho_replicas<-as.svrepdesign(desen

ho, type=

"JK1")

«

�desenho—

desen

hoam

ostraldefinido no ponto 1.

�ty

pe=“JK1”

—Tipo das réplicas a

criar, neste caso Ja

ckknife. Neste

exem

plo são criad

as 3

72 réplicas, cada uma delas obtida retirando u

ma

unidad

e primária (área) da am

ostra inicial.

46

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

3.Aju

sta

mento

por Marg

ens;

Calibra<-calibrate(desen

ho_replicas, ~sexoe, pop, bounds=

c(0.25,4),

calfun=“logit”)

«

�desenho_re

plicas—

réplicas criad

as no ponto 2.

�sexoe—

variável de ajustam

ento, de 38 categorias, construída a partir dos

19 escalões etários e dos 2 gén

eros, para as quais são conhecidos os totais

populacionais.

�pop—

Total populacional da região norte.

�calfun=“logit”—

Define a função de distância utilizad

a, que neste caso é

a logit;

�bounds=c(0.25,4) —

Limite inferior e superior para a distância en

tre os

pesos ajustad

os e pesos iniciais.

47

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

«

»E

xe

mp

lo d

a b

as

e d

e d

ad

os

(2

00

5/2

00

6)

–R

eg

ião

No

rte

reg

iao

are

an

alo

jn

fam

nin

did

ad

ese

xo

sex

oe

asm

ad

iab

ete

ste

nsa

op

on

d_in

icia

lp

on

d_fi

na

lq

uo

pe

11

447

11

491

110

11

621.

2813

16.6

02.

121

144

81

267

234

00

161

2.75

1016

.98

1.66

117

353

12

142

231

00

619.

1414

77.6

62.

391

6513

11

388

119

01

060

8.77

1168

.65

1.92

185

881

134

18

00

162

5.92

1793

.89

2.87

111

111

31

318

15

00

159

7.52

1337

.90

2.24

112

954

41

37

13

10

063

3.72

1656

.88

2.61

115

335

11

752

360

11

625.

9212

16.6

11.

941

255

327

12

482

301

10

602.

8212

43.7

02.

061

255

328

15

02

201

00

600.

5212

68.1

42.

111

305

383

22

202

251

00

602.

6321

85.5

23.

631

311

273

11

551

131

01

604.

0312

02.1

71.

991

332

381

166

234

11

151

9.58

862.

331.

661

339

272

14

332

271

11

512.

7613

29.5

92.

591

350

508

11

391

90

01

630.

4218

52.8

72.

941

394

151

11

501

120

11

615.

3312

60.5

72.

051

394

152

12

652

341

10

615.

3310

21.2

41.

661

409

229

11

701

161

10

610.

7013

01.3

42.

13

48

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

4.Apura

mento

das

variáveis

em

análise

e

cálculo

das

respectivas variâncias.

Apura <-svyby(~

popT, ~sexo +asma, calibra, vartype=

c(“var,cvpct”))

«

�popT

—variável de

breakdown

para

a an

álise

em questão (população

total).

�sexo+asma—

variáveis para as quais se deseja efectuar o apuramen

to.

�calibra

—réplicas do desen

ho amostraldevidam

ente calibradas, calculadas

no ponto 3.

�vartype=c(“var”,”cvpct”)

—estatísticas a

serem dispon

ibilizados

adicionalmen

te além da estimativa (neste caso, variân

cia e coeficiente de

variação).

49

Mét

odo

Ja

ckkn

ife

«

INS

-A

plic

açõe

s em

R

do

en

ca

sex

oe

stim

ati

va

va

rcvp

ct

182

241

1184

2758

113

.23

213

1490

1684

5164

99.

871

1168

1810

7973

632

8.90

215

7714

1087

5768

66.

611

2587

1619

7773

515

5.44

241

8317

2565

6203

83.

83

asm

a

diab

etes

tens

ao

«

»Q

ua

dro

de

Ap

ura

me

nto

População residen

te que tem ou játeve asm

a, diabetes ou ten

são alta, por

sexo, na região Norte (NUTS II), segundo dad

os de 2005/2006 (4ºINS).

50«Im

port

ânci

a da

Est

imaç

ão d

e V

ariâ

ncia

«

O d

esvio padrã

o, o c

oeficiente

de variação

e os inte

rvalos de

confiança

são as

principais medidas

utilizadas

para avaliar

a

pre

cisãode um dad

o estim

ador, m

edindo o seu

erro a

mostralque

resulta da aleatoried

adedas estim

ativas.

Toda a

meto

dologia

associada a qualquer o

pera

ção esta

tísticaé

definida

com base em indicadore

s de qualidade e

crité

rios de

pre

cisão,

para os

quais

o cálculo da variância

se torna

impre

scindível.

A variância de um estimadoréo indicad

or essencial para podermos

avaliar a qualidadee fiabilidadedas estimativas.

51«

Con

clus

ões

«

Nos

inquéritos

por

amostragem

é

possível ded

uzir, de

form

a

relativamen

te sim

ples, a variância dos estimadores mais usuais, no

contexto da amostragem

aleatória, simples ou estratificada.

Éaconselhável ap

licar métodos de

reamostragem

quan

do

o plano

amostralécomplexo

, como em diversos inquéritos do INE, IP.

Torna-se

necessário recorrer a

métodos de linearização

quando os

estimad

ores não são combinações lineares de totais ou m

édias.

Quan

do se procede

àim

putação de

não

respostas ou quan

do se

recorre

àcalibração dos

dad

os

os

métodos

usuais, de

ded

ução

algéb

rica, não nos permitem

obter resultados fided

ignos.

52«

Ref

erên

cias

Bib

liogr

áfic

as

«

�Deville, J.C. (1999). Variance

estimation

for

complex

statistics

and

estimators:

linearizationandresidual techniques. Survey

Methodology, vol. 25 no. 02.

�Särdnal, C.E., Swen

sson, B. an

dWretm

an, J. (1992). M

odelAssistedSurveySampling.

New

York, Springer.

�Lumley, T. (2004). A

nalysis of complex survey samples. Journal of Statistical Software

9(1): 1-19.

�Lumley, T. (2006). S

urvey: analysis of complex survey samples. R package version

3.6-5.

�Effron, B. (1979). Bootstrap methods:

Another

look at

the jaccknife. Annals

of

Statistics 7, 1-26.

�Turkey, J.W. (1958). Bias

and

Confidence

innot-quite

larg

esamples. Annals

of

Mathem

atical

Statistics, 29-614.

�Wolter, K.M. (1985). Introductionto variandeestimation. New

York: Springer-Verlag.

�Shao, J. andTu (1995). Thejackknifeandbootstrap. New

York: Springer-Verlag.

�Cochran, W. G. (1977). Sampling techniques. 3rd Edition, New

York: Springer.