(Co
m a
co
lab
ora
çã
o d
o D
MS
I/M
E)
(17-1
1-2
007) «
« Esti
mação
de V
ari
ân
cia «
Ca
so
s P
ráti
co
s
Rit
a S
ou
sa
Me
eti
ng
SP
E/C
IMM
eth
od
olo
gic
alIs
su
es
inO
ffic
ialS
tati
sti
cs
2
«�C
onte
xtua
lizaç
ão
�P
rinci
pais
Est
imad
ores
�C
alib
raçã
o
�P
lano
Com
plex
o de
Am
ostr
agem
�M
étod
o de
Lin
eariz
ação
�M
étod
o do
s G
rupo
s A
leat
ório
s
�M
étod
os d
e R
eam
ostr
agem
�C
asos
Prá
ticos
«
Est
imaç
ão d
e V
ariâ
ncia
«
3
«In
quér
itos
por
Am
ostr
agem
«
Nos inquéritos por amostragem
pretende-se analisar as características
de uma dada populaçãode dim
ensão
N, com base numa a
mostra
de
nunidadesextraídas dessa m
esma população.
No INE,
IP,
os
méto
dos
de
amostragem
são,
em geral,
pro
babilísticos
(aleatórios),
pelo que
équase
sempre possível
associar a cada elem
ento da população a respectiva p
robabilidade
de inclusãona am
ostra.
4
«
Bas
es d
e A
mos
trag
em
«
A Amostra-M
ãe
éuma
base de amostragem de alojamento
s
familiare
s, a partir da qual são seleccionad
as as amostras para os
inquéritos a realizar pelo INE, IP, junto das famílias.
Foi criada em 2
001através dos Censos d
a p
opulaçãoe, passad
os
estes
anos, é
necessário proceder à
actualização da
inform
ação,
atribuindo-lhe
melhor
qualidade, que
se reflecte também
nos
inquéritos efectuad
os pelo INE, IP.
Am
ostr
a-M
ãe
5
«
Bas
es d
e A
mos
trag
em
«
A a
ctu
alização
da A
mostra-M
ãeprocessa-se a partir de um Inquérito
pró
prio
de actualização e de
Inquérito
s às Famílias(IE, IDEF, ICOR,
INS, IPTR, IUTICF)*;
Am
ostr
a-M
ãe
* IE –
Inquérito ao Emprego;
IDEF –Inquérito às Despesas das Fam
ílias;
ICOR –
Inquérito às Condições de Vida e Ren
dim
ento;
INS –
Inquérito Nacional de Saúde;
IPTR –
Inquérito à
Procura Turística de Residen
tes;
IUTICF –Inquérito à
Utilização das Tecnologias de Inform
ação e Comunicação nas Fam
ílias.
Em 2006 foi feito um inquérito piloto a 14 áreas m
as no 1
ºtrim
estre d
e
2007
teve início
oefectivo p
rocesso de actu
alização. Prevê-se que
tenha a
dura
ção de 3 anos, já
que se selecciona cerca de 1/12 do nº
total de
áreas, dan
do-se
prioridad
e às áre
as com maior
índice de
esgota
mento
(com m
enor nºde alojamen
tos de residên
cia principal).
6
«
Bas
es d
e A
mos
trag
em
«
O F
UE
éuma base de amostragem
das E
mpre
sas(Socied
ades ou
Empresários
em
Nome
Individual),
Institu
ições
sem
Fins
Lucra
tivos
e Administração Pública,
a partir
da
qual são
seleccionadas as amostras para os inquéritos a realizar pelo INE, IP,
junto das empre
sas.
A a
ctu
alizaçãodo FUE é
feita com base em inquéritos do INE, IP,
(fonte
s inte
rnas) e com base em
ficheiros ad
ministrativos (fonte
s
exte
rnas), como é
o caso da
IES*,
que
permite
melhorar
a
consistên
cia e actualização da inform
ação de periodicidad
e an
ual.
Fic
heiro
de
Uni
dade
s E
stat
ístic
as (
FU
E)
* IES –
Inform
ação Empresarial Sim
plificad
a
7
«
Est
imaç
ão d
a V
ariâ
ncia
«
De
um modo geral, nos
inquéritos
por am
ostragem
, pretende-se
estimar características
da população como to
tais,
médias
ou
pro
porções(de indivíduos com uma determinada restrição).
No cálculo das estimativas populacionais
éconveniente
avaliara
pre
cisão
dessas
mesmas
estimativas, através
das
variâncias
e
respectivos coeficientes de variação.
8
«
Tot
al P
opul
acio
nal
«
Seja
Ya variável aleatória em
estudo e {
Y1,
Y2, …,
Yn} a respectiva
amostra aleatória
de
dim
ensão
n,
para uma
população de
N
indivíduos.
∑=
=N i
iT
YY
1
�Seja σ
2 a
variân
cia
da
população e
S2 o respectivo
estimad
or
centrad
o da variân
cia:
()2
11
12
∑=
−−
=n i
in
YY
S, com
n
Yn i
i
Y∑
==1
9
«
Tot
al/M
édia
Pop
ulac
iona
is
«
�Para uma amostra a
leató
ria sim
ples(sem
rep
osição) o e
stimadordo
tota
lpopulacional é:
Nnf
=
n
Y
T
n ii
NY
NY
∑=
==1
ˆ
Em que
()
[]
nS
YT
Tf
NN
S2
1ˆ
ˆ2
22
22
−=
==
σσ
Estimador da variância:
Am
ostr
agem
Ale
atór
ia S
impl
es
corresponde àfracção de amostragem
.
10«
Tot
al/M
édia
Pop
ulac
iona
is
«
Am
ostr
agem
Ale
atór
ia E
stra
tific
ada
Na amostragem a
leató
ria estratificada a população é
dividida em
gru
pos
(estratos) considerados
mais
homogéneos
em relação a
determinadas características (variáveis de estratificação).
�Neste caso, para kestratos, tem
os:
∑=
=k h
hN
N1
, que representa a dim
ensãototal da população;
∑=
=k h
hn
n1
, que representa a dim
ensãototal da amostra;
Em que
Nhe
nhcorrespondem
ao número de unidad
es no estrato h
para a população e para a amostra, respectivamen
te.
11«
Tot
al/M
édia
Pop
ulac
iona
is
«
�Para u
ma
amostra aleató
ria estratificada, considerando a p
opulação
dividida em
kestratos, o estimadordo tota
lpopulacional é:
∑=
∑=
==
=k h
hh
k hh
NN
TY
NY
NY
NY
h
11
ˆ
Am
ostr
agem
Ale
atór
ia E
stra
tific
ada
()
hh
nS
h
k hh
YT
Tf
WN
NS
2
1ˆ
ˆ1
22
22
22
−=
==
∑=
σσ
Estimador da variância:
hh
Nn
hf=
Em que
corresponde àfracção de am
ostragem
no estrato h.
NN
hh
W=
corresponde ao peso do estrato hna população e
12«
Pro
porç
ão P
opul
acio
nal
«
Para uma dada população de dim
ensão N, a proporção de indivíduos
que verifica uma dad
a característica é
dad
a por:
NRp
T=
�Sen
do
Ra
soma
de
Nvariáveis
com distribuição binomial, de
parâmetros
Ne
p, a variân
cia da proporção populacional é
dad
a por:
N
pp
p
)1(
2−
=σ
13«
Pro
porç
ão P
opul
acio
nal
«
�Para uma amostra a
leató
ria sim
ples(sem
rep
osição) o e
stimadorda
pro
porçãopopulacional é:
Nnf
=
nrp
T=
ˆ
Em que
()
1
)ˆ
1(ˆ
22
1ˆ
−−−
==
n
pp
pp
fS
σEstimador da variância:
Am
ostr
agem
Ale
atór
ia S
impl
es
corresponde àfracção de amostragem
.
14«
Pro
porç
ão P
opul
acio
nal
«
�Para u
ma
amostra aleató
ria estratificada, considerando a p
opulação
dividida em
kestratos, o estimadorda pro
porção populacional é:
∑=
∑=
==
k hnr
NNk h
hNN
Thh
hh
pp
11
ˆˆ
Am
ostr
agem
Ale
atór
ia E
stra
tific
ada
()
∑∑
=−−
=−
==
=k h
n
pp
hh
p
k hh
pp
h
hh
hf
WS
WS
11
)ˆ
1(ˆ
22
1
22
21
σ̂
Estimador da variância:
hh
Nn
hf=
Em que
corresponde àfracção de am
ostragem
no estrato h.
NN
hh
W=
corresponde ao peso do estrato hna população e
15«
Est
imaç
ão d
a V
ariâ
ncia
«
O cálculo da variância éuma tare
fa m
ais complexaquando:
�Tem
os
estimadore
spopulacionais não lineare
sou que
não
correspondem
a nen
huma combinação linear de méd
ias ou totais;
�Se recorre a planos de amostragem complexos;
�Se faz im
puta
ção(de não respostas);
�Se recorre àcalibra
çãoda am
ostra.
16«
Cal
ibra
ção
«
A calibra
çãodo desen
ho amostralconsiste em
recorrer a inform
ação
auxiliar
para fazer
o aju
sta
mento
dos pondera
dore
s iniciais,
obtendo-se totais m
arginais idên
ticos aos conhecidos da população.
A calibração de ponderad
ores iniciais pode ser feita, por exem
plo, por
um pro
cesso de aju
sta
mento
por
marg
ens,
que
cria novos
ponderad
ores
tão
próximo quan
to possível dos
iniciais,
por
minim
ização de uma dada função distâ
ncia.
Este processo pretende
corrigir a
lgumas d
isto
rções d
a a
mostra,
em relação à
população de
referência, que
se podem
dever por
exem
plo ao cará
cte
r aleató
rio ou a não resposta
s.
17«M
étod
o de
Aju
stam
ento
por
Mar
gens
«
∑ ∈s
i
ii
id
wG
dni
M)
(
O problema consiste em
encontrar os pesos
wkque são soluçãode:
�Sejam:
di–Pesos iniciais, de am
ostragem
;
wi–Pesos finais ajustad
os, ou seja, as ponderações procuradas;
G–
Função distância, de argumen
to w
i/d
i, que med
e a distância en
tre os ponderad
ores;
s–
Amostra seleccionad
a;
, sob a restrição
X∑ ∈
=s
i
ii
Xw
Xi–
vector linha com os valores da observação ipara as variáveis auxiliares;
X–
vector linha das m
argen
s de ajustam
ento.
18«
Cal
ibra
ção
«
Um exemplo
do recurso às metodologias de calibração, no INE, IP, é
o Inquérito
ao Empre
go(IE):
Exe
mpl
o
�O p
ondera
dor
inicialécalculado por estrato de acordo com o desen
ho
amostral;
* Projecções men
sais da população.
i
ip
rob
sel
d1
=
∑ =
⋅=
rn i
i
r
i
i
pro
bse
l
Po
pN
UT
SII
I
pro
bse
lw
1
1
1
�Aplica-se um factor de correcção para as não-respostas;
�Calibram-se os ponderad
ores iniciais para que os totais m
arginais coincidam
com os da população, recorren
do-se a inform
ação externa*
ao inquérito.
19
Cal
ibra
ção
«
Exe
mpl
o
�Por região NUTS II, para
oescalão etá
rio quinquenal(sen
do o
últim
o de 75 e +
anos) e sexoe para o escalão etá
rio 1
8-2
4 anose
sexo;
�Por região N
UTS III, para
seis escalões etá
rios(0-14; 15-24; 25-
34; 35-44; 45-64; 65 e + anos) e sexo.
As
marg
ens utilizad
as no IE baseiam-se nas e
stimativas mensais
independente
s da população,
para as seguintes
variáveis de
desagregação:
Função de distâ
ncia
utilizad
a é
a do “m
éto
do logit
(método
ranking ratiocom lim
ites)”
21«
Pla
no A
mos
tral
Com
plex
o
«
Um plano amostralcomplexo
éaq
uele
cujo desen
ho incorpora
alguns
níveis
de
complexidade,
tais como
estratificação,
conglomera
çãoe pro
babilidades desiguais de selecção.
As
estimativas pontu
ais
dos parâmetros são influenciadas pela
pondera
ção da amostra,
enquan
to que
as estimativas da
variância
dos
estimad
ores
dos
parâmetros
do
modelo
são
influenciadas pelos efe
itos de estratificação e conglomera
ção.
22«
Con
glom
eraç
ão
«
Um exemplo
do recurso à
amostragem
por conglomerad
os
éa
amostragem m
ulti-etá
picaem
que numa primeira fase se agrupam
as unidad
es em
subpopulações,
facilm
ente iden
tificáveis (por
exem
plo: escolas, hospitais, áreas geográficas, etc.).
Estes subgrupos são considerad
os heterogén
eos e a amostragem é
feita sobre
os conglomera
dos
e não
sobre os
indivíduos
da
população.
23«
Am
ostr
agem
Mul
ti-et
ápic
a
«
Quan
do existe ap
enas uma
única eta
pa, o
bserv
am-se to
dos os
elemento
s dos conglomera
dos seleccionados.
Na amostragem
multi-etá
picaa amostra é
seleccionada em
duas ou
mais eta
pasconsecutivas:
�PSU –
“primary sampling unit”(unidad
e de amostragem
primária);
�SSU–“secondary sampling unit”(unidade de am
ostragem
secundária);
�TSU–“tertiary sampling unit”(unidad
e de am
ostragem
terciária);
�…
24«
Am
ostr
agem
Mul
ti-et
ápic
a
«
Exe
mpl
o
�As unidades primáriascorrespondem
às áre
as da AM;
�As
unidades secundárias
correspondem
ao
s alojamento
s
familiare
s de residência p
rincipal, existen
tes em
cada uma das
áreas. Nestas unidad
es não se realiza qualquer amostragem
, dad
o
que se recolhe inform
ação de todos os indivíduos que aí
residem
.
No Inquérito
Nacional
de Saúde (INS)
pretende-se obter
estimativas
sobre
o
estado
de
saúde/doen
ça
da
população
portuguesa, os principais factores e a utilização de cuidad
os de saúde.
Recorre-se a uma
amostra pro
babilística multi-etá
pica,
com
estratificação a nível geográ
fico. A selecção é
feita em
duas
eta
pas, a partir da Amostra-M
ãe(AM):
25«
Est
imaç
ão d
a V
ariâ
ncia
«
Para estimação da variância
dos
estimad
ores, em
inquéritos
complexos, existem
vários méto
dos:
�Método da Linearização;
�Método dos Gru
pos A
leató
rios;
�Métodos de Reamostragem.
Mét
odos
26«
Line
ariz
ação
«
Quan
do o estimad
or
não
é
linear
pode
recorrer-se
a uma
apro
xim
açãopor um linear, com o propósito de estimar a variância,
por exem
plo pelo M
éto
do das Séries de Taylor.
Apesar deste m
étodo jáestar teoricamen
te bem
desen
volvido, pode
tornar-se complexo na dedução das derivadas parciais.
Geralmen
te este método é
aplicado quan
do dispomos de uma fu
nção
(designad
a por
“smooth”) expressa
pelas médias
e/ou to
tais
populacionais.
27«
Line
ariz
ação
«
()⇒
=k
YY
Yh
...,
,,
21
θ(
)k
YY
Yh
ˆ..
.,,
ˆ,
ˆˆ
21
=θ
()
()
() (
)i
i
k ii
kk
kY
YY
YY
Yh
YY
Yh
YY
Yh
−∂
∂+
=∑
=
ˆ..
.,,
,..
.,,
,ˆ
...,
,ˆ
,ˆ
1
21
21
21
()
∂∂=
∑=k i
i
i
YYh
Va
rV
ar
1
ˆθ̂
�Por exem
plo, para
um dad
o parâ
metro populacional θ, função não
linear de
kméd
ias populacionais :
Linearizandoa função Smooth, pelo m
éto
do de Taylor, temos:
Variância do Estimador:
()
kY
YY
...,
,,
21
28«
Mét
odo
de T
aylo
r
«
�Para uma amostra aleató
ria sim
ples
{(X
1,
Y1),
(X
2,
Y2),
…,
(Xn,
Yn)}do par de
variáveis
(X, Y
)o estim
ador da razão populacionalé:
()
XYY
Xh
Rˆˆ
ˆ,
ˆˆ
==
Exe
mpl
o
Linearizando, pelo m
éto
do de Taylor, temos:
()
()
() (
)(
) ()
()
()
XX
XYY
YX
XY
XX
X
YX
hY
YY
YX
hY
Xh
YX
hR
−−
−+
=
−∂
∂+
−∂
∂+
==
ˆˆ
1
ˆ,
ˆ,
,ˆ
,ˆ
ˆ
2
29«
Mét
odo
de T
aylo
r
«
�Para o estimador dara
zão populacional:
Exe
mpl
o
()
()
XX
XYY
YX
XYR
−−
−+
=ˆ
ˆ1
ˆ2
()
()(
)(
)Y
XC
ov
XY
XX
Va
rXY
YV
ar
XR
Va
rˆ
,ˆ
12
ˆˆ
1ˆ
2
2
2
2
−
+
=
Tem
os
Estimador da variância:
()
−
+
−
=n
S
XY
XnS
XY
nS
Xf
Rr
aV
XY
XY
2
22
2
22
12
1)
1(ˆ
ˆ
Nnf
=Em que
corresponde àfracção de amostragem
.
30«
Est
imaç
ão d
a V
ariâ
ncia
«
Esti
mad
or
Não
Lin
ear
Esti
mad
or
Lin
ear
Não
Dif
ere
nciá
vel
Dif
ere
nciá
vel
»C
rité
rio
s d
e S
ele
cç
ão
do
s M
éto
do
s
* M
acros em
SAS ced
idas pelo EUROSTAT, que são usadas por exem
plo nos principais indicad
ores
do Inquérito às Condições de Vida e Ren
dim
ento (ICOR).
Esti
mad
ore
s “
plu
g-i
n”
qu
e
são
um
a e
xte
nsão
do
méto
do
d
e T
aylo
r, d
esen
vo
lvid
a p
or
Deville
*
Méto
do
s d
e L
ineari
zação
do
E
sti
mad
or
pelo
Méto
do
de T
aylo
r
Ded
ução
alg
éb
rica d
a v
ari
ân
cia
do
esti
mad
or
ou
Méto
do
s d
e R
eam
ostr
ag
em
, n
o c
aso
de s
e r
eco
rrer
a im
pu
tação
, cali
bra
ção
ou
do
pla
no
de a
mo
str
ag
em
ser
co
mp
lexo
31«M
étod
o do
sG
rupo
s A
leat
ório
s
«
Baseia-se
no conceito de
replicação do desenho amostral,
dividindo a amostra em G
gru
pos d
isju
nto
s, de tal form
a que cada
gru
poconstitua uma vers
ão m
ais reduzida da amostra inicial.
Este
método é
simples
de
ser
aplicad
o mas
o pressuposto da
indep
endên
cia dos grupos
nem sempre
gara
nte
a consistê
ncia
das estimativas:
�Quan
do a amostra sópode ser dividida num n
úmero
re
duzido de
gru
pos, por exem
plo se a
amostragem
for estratificad
a e
alguns
estratos dispuserem de poucas observações.
Énecessário replicar o p
lano a
mostralem cada u
m d
os g
rupos
aleatórios.
32«
Mét
odos
de
Rea
mos
trag
em
«
Os métodos de reamostragem
utilizam a a
mostraaleatória original
como
se se tratasse de uma
população, extraindo
dessa v
árias
amostras aleató
rias.
A variância
de um estim
ador populacional éestimadacom base na
variabilidade das várias subamostras.
Nos métodos de reamostragem
podem
os optar por uma das técnicas:
�Bootstrap;
�Jackknife.
33«
Mét
odo
Bo
ots
tra
p
«
O m
étodo de ream
ostragemBootstrapfoi introduzido por Efronem
1979
e foi considerad
o uma das primeiras técnicas estatísticas m
ais complexas
em term
os
computacionais. Esta
técnica
veio substitu
ir as hab
ituais
deduções algébricaspelas sim
ulações em computa
dor.
O recurso ao Bootstraping
na
estimação da
variân
cia, no contexto da
amostragem, foi estudad
o nos
anos 80
e começou a
ser ap
licad
a
também
na estratificad
a mas apresentou algumas lim
itações em estratos
com restrições de dim
ensão.
His
toria
l
Em S
hao& T
u(1996) podem
ser consultad
os alguns desen
volvim
entos e
sugestões ao m
étodo inicial, como foi o caso do m
étodo bootstrap
com
reposiçãoem 1985(M
cCarthyan
dSnowden).
34«
Mét
odo
Bo
ots
tra
p
«
Método estatístico desen
volvido para
estimar
a distribuição
amostralde um estimadorpor amostragem
da
própria
amostra
original.
A v
ariabilidadeda estimativa populacional é
estimada
com base
na variabilidade das estimativascalculadas a partir das amostras
bootstrap.
Método de reamostragem
que se baseia na extracção de
Bamostras
bootstrap: amostras aleatórias com rep
osição, de dim
ensão igual à
amostra inicial, ou seja, com possibilidad
e de repetição de elem
entos.
35«
Mét
odo
Bo
ots
tra
p
«
Seja
Ya variável aleatória em
estudo e {
Y1,
Y2, …,
Yn} a respectiva
amostra aleatória de dim
ensão n.
Amostras Bootstrap:
()
b n
bb
YY
Y..
.,,
,2
1
()
()2
1
ˆˆ
1
1ˆ
ˆ∑
=−
−=
B bb
BB
ra
Vθ
θθ
, com
...
.,,
1B
b=
�O estimador Bootstrap
da variância um dado estimador
éa
variâ
ncia
am
ostr
aldo
s B
pseu
do-e
stim
ador
es:
θ̂
36«
Mét
odo
Bo
ots
tra
p
«
Exe
mpl
o
Para uma
amostra
de
815 empre
sas
da
secção de CAE 55
(Alojamen
to e
Restauração)
foi feita
uma
simulação da
técnica
Bootstrap
para
avaliar
a convergên
cia dos resultad
os em
10, 100e 1000 réplicas. A tab
ela que se seg
ue
mostra-nos os resultad
os para a am
ostra original.
EC
AE
EP
SE
ST
RA
TO
SE
CÇ
ÃO
UN
IVE
RS
OA
MO
ST
RA
k=N
/nT
OT
_V
VN
VA
R_E
ST
RA
TO
CV
_ES
TR
AT
O55
11
551
/1H
115
668
1710
122
8918
8120
382
9823
9662
.00
28.1
5%55
12
551
/2H
494
3813
337
1479
6019
2339
9132
4771
50.0
013
.01%
551
355
1/3
H13
065
275
391
9150
6204
2329
8931
1930
.00
10.4
5%55
21
552
/1H
258
436
1749
1319
3022
5666
7728
58.5
031
.43%
552
255
2/2
H36
182
1821
1796
368
6517
5471
38.2
210
.54%
552
355
2/3
H6
61
2646
9610
0.00
0.00
%55
31
553
/1H
975
019
550
883
1523
7232
7756
5088
6156
50.0
06.
48%
553
255
3/2
H1
264
7916
636
5338
1660
8138
1979
8659
40.0
012
.25%
553
355
3/3
H56
282
322
9030
1897
0298
6631
6675
80.0
030
.51%
554
155
4/1
H8
960
140
6468
295
8035
2841
7359
6461
5300
.00
7.81
%55
42
554
/2H
672
4216
267
6850
6983
951
7129
9717
71.0
010
.82%
554
355
4/3
H18
181
4760
5255
0.00
0.00
%55
51
555
/1H
192
484
2235
1993
1577
1095
4445
70.2
017
.77%
555
255
5/2
H36
94
3422
0090
1164
846
1308
3822
.00
31.5
4%55
53
555
/3H
1818
131
640
2197
0.00
0.00
%T
OT
AL
23
04
68
15
44
68
28
05
98
31
84
90
25
10
76
13
40
0.0
03
.99
%
37«
Mét
odo
Bo
ots
tra
p
«
Exe
mpl
o
EC
AE
EP
SE
STR
ATO
SE
CÇ
ÃO
UN
IVE
RS
OA
MO
STR
Ak=
N/n
TETA
_BS
VA
R_B
SC
V_E
STR
ATO
551
155
1/1
H11
5668
1786
3338
86.3
2229
0997
9421
797.
0017
.29%
551
255
1/2
H49
438
1338
1253
028
7784
8311
9946
529.
007.
32%
551
355
1/3
H13
065
287
3656
405.
819
2002
4159
7557
40.0
05.
02%
552
155
2/1
H25
843
622
4050
68.6
8210
9681
3388
35.6
040
.44%
552
255
2/2
H36
182
1959
9120
5220
7378
7603
3.78
11.6
6%55
23
552/
3H
66
126
4696
100.
000.
00%
553
155
3/1
H97
5019
550
9411
2605
018
6660
8116
6594
40.0
04.
59%
553
255
3/2
H12
6479
1610
1708
1387
7721
6858
6098
6440
0.00
27.3
2%55
33
553/
3H
5628
228
9707
752.
898
7856
0114
9735
40.0
034
.31%
554
155
4/1
H89
6014
064
7507
1887
3.6
2300
5888
7545
2140
.00
6.39
%55
42
554/
2H
672
4216
2628
8186
7.2
7738
9729
5460
184.
0010
.58%
554
355
4/3
H18
181
4760
5255
0.00
0.00
%55
51
555/
1H
192
484
2012
8135
.677
7659
1076
254.
0413
.85%
555
255
5/2
H36
94
2638
0674
.813
2017
7119
9321
.10
13.7
7%55
53
555/
3H
1818
131
6402
197
0.00
0.00
%TO
TA
L23
046
815
508
1749
312
950662
3905
3024
200.
006.0
7%
»1
0 R
ép
lic
as
38«
Mét
odo
Bo
ots
tra
p
«
Exe
mpl
o
»1
00
Ré
pli
ca
s
EC
AE
EP
SE
STR
ATO
SE
CÇ
ÃO
UN
IVE
RS
OA
MO
STR
Ak=
N/n
TETA
_BS
VA
R_B
SC
V_E
STR
ATO
551
155
1/1
H11
5668
1786
2477
66.8
523
5121
9911
9049
0.00
17.7
8%55
12
551/
2H
494
3813
3525
5037
0.1
1707
1570
5679
6020
.00
11.7
2%55
13
551/
3H
130
652
8704
0805
2.7
7678
4841
4046
9740
.00
10.0
7%55
21
552/
1H
258
436
2244
6676
.32
5898
3591
9300
00.8
034
.21%
552
255
2/2
H36
182
1978
1531
.02
4320
2426
2489
8.06
10.5
1%55
23
552/
3H
66
126
4696
100.
000.
00%
553
155
3/1
H97
5019
550
9642
0013
5.5
2431
2970
6373
0670
.00
5.11
%55
32
553/
2H
1264
7916
9103
0816
3.5
5483
8916
5352
5270
0.00
25.7
3%55
33
553/
3H
5628
228
0779
794.
248
7001
6209
4886
30.0
024
.85%
554
155
4/1
H89
6014
064
7490
3595
252
9052
9015
0048
00.0
09.
71%
554
255
4/2
H67
242
1627
0778
168.
596
3117
0197
3218
7.00
11.4
6%55
43
554/
3H
1818
147
6052
550.
000.
00%
555
155
5/1
H19
248
420
1808
17.5
241
1541
7776
624.
0910
.05%
555
255
5/2
H36
94
2569
0963
.96
2303
0604
7335
58.8
018
.68%
555
355
5/3
H18
181
3164
0219
70.
000.
00%
TO
TA
L2304
6815
4962
8854
54
781
0508
8888
7303
00.
00
5.6
3%
39«
Mét
odo
Bo
ots
tra
p
«
Exe
mpl
o
»1
00
0 R
ép
lic
as
EC
AE
EP
SE
STR
ATO
SE
CÇ
ÃO
UN
IVE
RS
OA
MO
STR
Ak=
N/n
TETA
_BS
VA
R_B
SC
V_E
STR
ATO
551
155
1/1
H11
5668
1785
7950
91.7
322
0285
0782
0160
9.00
17.3
0%55
12
551/
2H
494
3813
3567
8239
0.1
1436
1741
2149
7780
.00
10.6
2%55
13
551/
3H
130
652
8676
1335
6.6
7918
5419
4944
2880
.00
10.2
6%55
21
552/
1H
258
436
2115
1366
.09
4546
9449
8310
07.8
031
.88%
552
255
2/2
H36
182
2005
3726
.23
4340
8765
0658
5.03
10.3
9%55
23
552/
3H
66
126
4696
100.
000.
00%
553
155
3/1
H97
5019
550
9655
8247
4.4
2816
4505
7592
7030
.00
5.50
%55
32
553/
2H
1264
7916
9142
9723
7.5
5434
2960
8390
1970
0.00
25.5
0%55
33
553/
3H
5628
227
9204
147.
859
6963
9937
1282
60.0
027
.67%
554
155
4/1
H89
6014
064
7519
7446
1.4
4424
8046
6049
5200
.00
8.85
%55
42
554/
2H
672
4216
2737
9775
0.5
1000
6083
5874
0050
.00
11.5
5%55
43
554/
3H
1818
147
6052
550.
000.
00%
555
155
5/1
H19
248
420
1579
09.3
156
8693
4014
987.
8811
.83%
555
255
5/2
H36
94
2520
9734
.62
2719
7456
9730
75.6
020
.69%
555
355
5/3
H18
181
3164
0219
70.
000.
00%
TO
TA
L23
046
815
497
2096
708
782121
6023
7778
100.
005.6
2%
40«
Mét
odo
Ja
ckkn
ife
«
Esta técnica foi inicialm
ente desen
volvida por Quenouille, em
1949,
como o objectivo de
reduzir
e estimar
o enviesamento
de
estimadore
s, num contexto de populações infinitas.
Mais tarde, em 1
958, Turkeysugeriu a implemen
tação do m
étodo
Jackknifena estimação de variâncias.
His
toria
l
Para populações finitas
a técnica Ja
ckknife
foi introduzida
por
Durbin, em
1959, sendo posteriorm
ente d
esenvolvida p
or Wolter
(1985).
41«
Mét
odo
Ja
ckkn
ife
«
Este método pressupõe a
criação de várias subamostrasque se
obtêm retira
ndo uma ou m
ais observ
ações da amostra inicial.
A variância é
estimada
com base na variabilidade entre as
estimativas obtidas
(a partir das subamostrasconstituídas) e a
calculada pela tota
lidade da amostra.
42«
Mét
odo
Ja
ckkn
ife
«
Retiran
do, àamostra inicial, uma observação de cada vez, obtemos
n
subamostrasde dim
ensão n
-1.
()
()2
1
ˆˆ
1ˆ
ˆ∑
=−
−=
n ii
JK
n
nr
aV
θθ
θ
�O e
stimador Jackknife
da variância u
m d
ado e
stimador
éda
do
por:
θ̂
43«
Mét
odo
Ja
ckkn
ife
«
Apl
icaç
ões
em R
Na metodologia dos apuramen
tos de diversos inquéritos*, no INE, IP,
épossível recorrer ao packagesurvey, em
linguagem R
, que está
em constante actualização e
que
foi desen
volvido por Thomas
Lumley(Universidade de Washington).
Conta
cto
s
frequente
s
com
o
auto
r perm
itiram
adicionar
dete
rminadas especificidades dos inquérito
s do INE, IP, às
funcionalidad
es jáexistentes.
* Por exem
plo, o Inquérito ao Emprego (IE) e o Inquérito Nacional de Saú
de (INS).
44
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
1.Definição do desenho amostral;
desen
ho <-svydesign(~
area, pond_iniciais, dad
os_norte)
No Inquérito
Nacional de Saúde (INS)
«
�are
a—
PSU´S do desen
ho amostral
(no caso da região Norte são 372 áreas
geográficas).
�pond_iniciais
—Ponderad
ores (inverso da probab
ilidad
e de selecção ao
qual é
aplicad
o um factor de correcção de não respostas).
�dados_norte—
Ficheiro de dad
os.
45
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
2.Criação de réplicas Jackknifedo desenho amostral;
desen
ho_replicas<-as.svrepdesign(desen
ho, type=
"JK1")
«
�desenho—
desen
hoam
ostraldefinido no ponto 1.
�ty
pe=“JK1”
—Tipo das réplicas a
criar, neste caso Ja
ckknife. Neste
exem
plo são criad
as 3
72 réplicas, cada uma delas obtida retirando u
ma
unidad
e primária (área) da am
ostra inicial.
46
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
3.Aju
sta
mento
por Marg
ens;
Calibra<-calibrate(desen
ho_replicas, ~sexoe, pop, bounds=
c(0.25,4),
calfun=“logit”)
«
�desenho_re
plicas—
réplicas criad
as no ponto 2.
�sexoe—
variável de ajustam
ento, de 38 categorias, construída a partir dos
19 escalões etários e dos 2 gén
eros, para as quais são conhecidos os totais
populacionais.
�pop—
Total populacional da região norte.
�calfun=“logit”—
Define a função de distância utilizad
a, que neste caso é
a logit;
�bounds=c(0.25,4) —
Limite inferior e superior para a distância en
tre os
pesos ajustad
os e pesos iniciais.
47
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
«
»E
xe
mp
lo d
a b
as
e d
e d
ad
os
(2
00
5/2
00
6)
–R
eg
ião
No
rte
reg
iao
are
an
alo
jn
fam
nin
did
ad
ese
xo
sex
oe
asm
ad
iab
ete
ste
nsa
op
on
d_in
icia
lp
on
d_fi
na
lq
uo
pe
11
447
11
491
110
11
621.
2813
16.6
02.
121
144
81
267
234
00
161
2.75
1016
.98
1.66
117
353
12
142
231
00
619.
1414
77.6
62.
391
6513
11
388
119
01
060
8.77
1168
.65
1.92
185
881
134
18
00
162
5.92
1793
.89
2.87
111
111
31
318
15
00
159
7.52
1337
.90
2.24
112
954
41
37
13
10
063
3.72
1656
.88
2.61
115
335
11
752
360
11
625.
9212
16.6
11.
941
255
327
12
482
301
10
602.
8212
43.7
02.
061
255
328
15
02
201
00
600.
5212
68.1
42.
111
305
383
22
202
251
00
602.
6321
85.5
23.
631
311
273
11
551
131
01
604.
0312
02.1
71.
991
332
381
166
234
11
151
9.58
862.
331.
661
339
272
14
332
271
11
512.
7613
29.5
92.
591
350
508
11
391
90
01
630.
4218
52.8
72.
941
394
151
11
501
120
11
615.
3312
60.5
72.
051
394
152
12
652
341
10
615.
3310
21.2
41.
661
409
229
11
701
161
10
610.
7013
01.3
42.
13
48
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
4.Apura
mento
das
variáveis
em
análise
e
cálculo
das
respectivas variâncias.
Apura <-svyby(~
popT, ~sexo +asma, calibra, vartype=
c(“var,cvpct”))
«
�popT
—variável de
breakdown
para
a an
álise
em questão (população
total).
�sexo+asma—
variáveis para as quais se deseja efectuar o apuramen
to.
�calibra
—réplicas do desen
ho amostraldevidam
ente calibradas, calculadas
no ponto 3.
�vartype=c(“var”,”cvpct”)
—estatísticas a
serem dispon
ibilizados
adicionalmen
te além da estimativa (neste caso, variân
cia e coeficiente de
variação).
49
Mét
odo
Ja
ckkn
ife
«
INS
-A
plic
açõe
s em
R
do
en
ca
sex
oe
stim
ati
va
va
rcvp
ct
182
241
1184
2758
113
.23
213
1490
1684
5164
99.
871
1168
1810
7973
632
8.90
215
7714
1087
5768
66.
611
2587
1619
7773
515
5.44
241
8317
2565
6203
83.
83
asm
a
diab
etes
tens
ao
«
»Q
ua
dro
de
Ap
ura
me
nto
População residen
te que tem ou játeve asm
a, diabetes ou ten
são alta, por
sexo, na região Norte (NUTS II), segundo dad
os de 2005/2006 (4ºINS).
50«Im
port
ânci
a da
Est
imaç
ão d
e V
ariâ
ncia
«
O d
esvio padrã
o, o c
oeficiente
de variação
e os inte
rvalos de
confiança
são as
principais medidas
utilizadas
para avaliar
a
pre
cisãode um dad
o estim
ador, m
edindo o seu
erro a
mostralque
resulta da aleatoried
adedas estim
ativas.
Toda a
meto
dologia
associada a qualquer o
pera
ção esta
tísticaé
definida
com base em indicadore
s de qualidade e
crité
rios de
pre
cisão,
para os
quais
o cálculo da variância
se torna
impre
scindível.
A variância de um estimadoréo indicad
or essencial para podermos
avaliar a qualidadee fiabilidadedas estimativas.
51«
Con
clus
ões
«
Nos
inquéritos
por
amostragem
é
possível ded
uzir, de
form
a
relativamen
te sim
ples, a variância dos estimadores mais usuais, no
contexto da amostragem
aleatória, simples ou estratificada.
Éaconselhável ap
licar métodos de
reamostragem
quan
do
o plano
amostralécomplexo
, como em diversos inquéritos do INE, IP.
Torna-se
necessário recorrer a
métodos de linearização
quando os
estimad
ores não são combinações lineares de totais ou m
édias.
Quan
do se procede
àim
putação de
não
respostas ou quan
do se
recorre
àcalibração dos
dad
os
os
métodos
usuais, de
ded
ução
algéb
rica, não nos permitem
obter resultados fided
ignos.
52«
Ref
erên
cias
Bib
liogr
áfic
as
«
�Deville, J.C. (1999). Variance
estimation
for
complex
statistics
and
estimators:
linearizationandresidual techniques. Survey
Methodology, vol. 25 no. 02.
�Särdnal, C.E., Swen
sson, B. an
dWretm
an, J. (1992). M
odelAssistedSurveySampling.
New
York, Springer.
�Lumley, T. (2004). A
nalysis of complex survey samples. Journal of Statistical Software
9(1): 1-19.
�Lumley, T. (2006). S
urvey: analysis of complex survey samples. R package version
3.6-5.
�Effron, B. (1979). Bootstrap methods:
Another
look at
the jaccknife. Annals
of
Statistics 7, 1-26.
�Turkey, J.W. (1958). Bias
and
Confidence
innot-quite
larg
esamples. Annals
of
Mathem
atical
Statistics, 29-614.
�Wolter, K.M. (1985). Introductionto variandeestimation. New
York: Springer-Verlag.
�Shao, J. andTu (1995). Thejackknifeandbootstrap. New
York: Springer-Verlag.
�Cochran, W. G. (1977). Sampling techniques. 3rd Edition, New
York: Springer.
Top Related