Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista...
Transcript of Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista...
Revista Informatica Economica, nr. 3 (15)/2000 95
Tehnici de esantionare cu probabilitati neegale
Prof.dr. Vergil VOINEAGU, conf.dr. Tudorel ANDREI Catedra de Statistica si Previziune Economica, A.S.E. Bucuresti
În cadrul acestui articol sunt prezentate principalele aspecte teoretice ale esantionarii cu probabilitati neegale. Sunt descrise avantajele acestei tehnici, comparativ cu tehnicile de esantionare cu probabilitati egale. Sunt descrise câteva tehnici de implementare a unei tehnici de esantionare cu probabilitati neegale. Cuvinte cheie: esantionare, volum, variabila, estimare, probabilitati, estimatori.
santionarea cu probabilitati neegale fara revenire
Se considera cazul în care esantionul este de volum 1>n , iar alocarea unitatilor în esantion se realizeaza cu tehnica esanti-onarii cu revenire. Probabilitatea ca o unitate sa fie inclusa în esantion este calculata pe baza relatiei:
,)alocataesteunitatea(
1∑=
==N
ii
ii
X
XiPp [1]
unde X este variabila pentru care estimam o serie de parametri pentru caracterizarea tendintei centrale sau gradului de disper-sare. Cum valorile acestei variabile nu sunt cunoscute, atunci pentru definirea acestor probabilitati se considera realizarile altei variabile, corelata cu aceasta. Probabilitatea ca o unitate sa fie inclusa într-un esantion de volum n este notata prin .iπ Aceasta este determinata prin relatia:
.)1(1
),1,(1)(
ni
iinii
p
njuuPEuPj
−−=
=≠−=∈=π [2]
Pentru cazul în care 1=n se obtine egali-tatea .ii p=π În cazul acestei tehnici de esantionare fiecare extragere este indepen-denta de cele precedente, întrucât structura populatiei nu se schimba de la o alocare la alta. Se noteaza prin iq numarul de aparitii ale unitatii iu în cadrul unui esantion de volum .n Variabila iq are urmatoarele caracteristici: )1()var(,)( iiiii pnpqnpqE −== , iar
.,),cov( jipnpqq jiji ≠−= Aceste trei caracte-ristici sunt evidente, întrucât
)2121 ,...,,;(),...,,( NN pppnBqqq → .
Un estimator natural pentru volumul total
al caracteristicii X este: .1ˆ ∑
∈=
nEii
i
i qpX
nT [3]
Proprietatea 1. Estimatorul mai sus defi-nit este nedeplasat. Pentru a demonstra aceasta proprietate se aplica operatorul de medie termenilor egalitatii [3]:
.)()(1)ˆ(1
TpppXnp
pXE
nTE
Ei Ei
N
kik
k
ki
i
i === ∑ ∑ ∑∈ ∈ =
[4]
Proprietatea 2. Varianta estimatorului în cazul esantionarii cu probabilitati neegale este mai mica decât în cazul esantionarii cu probabilitati egale. Pentru a demonstra aceasta proprietate se tine seama de expre-siile celor doua variante. Astfel, • pentru cazul esantionarii simple cu probabilitati egale, cu revenire s-a obtinut:
]/1
[1)()ˆvar( 2
1
2
1
22
TN
Xn
TNXn
NTN
i
iN
ii −=⋅−= ∑∑
== [5]
• pentru cazul esantionarii cu probabi-litati neegale:
∑∑==
−=−=N
i i
iN
ii
i
i TpX
npT
pX
nT
1
22
1
2 ][1
)(1
)ˆvar( [6]
Verificarea relatiei de ordine dintre cele doua variante revine la a compara termenii
∑=
N
i i
i
pX
1
2 si ∑
=
N
i
i
NX
1
2
/1. Se obtine apoi forma
echivalenta a inegalitatii variantelor:
∑=
<−N
i ii Np
X1
2 .0)/111(
Ultima inegalitate este îndeplinita, daca pentru valori mari ale variabilei X sunt va-
labile inegalitatile ,1
ipN
< iar pentru valori
mici, inegalitatile sunt de sens contrar. În acest caz regasim fundamentul sondajului cu probabilitati neegale, ca valorile carac-
E
Revista Informatica Economica, nr. 3 (15)/2000 96
teristicii sa fie corelate pozitiv cu probabi-litatile de alocare în esantion. Varianta estimatorului definita prin relatia [6] se scrie sub forma echivalenta:
.)(1
)ˆvar(1 1
2∑ ∑= =
<
−=N
i
N
jji
j
j
i
i
ji
ppp
X
pX
nT [7]
Un estimator al variantei volumului total al caracteristicii este:
.)ˆ()1(
1)ˆar(v̂ 2∑
∈−
−=
nEi i
i Tpx
nnT [8]
Proprietatea 3. Estimatorul variantei vo-lumului total al caracteristicii este un esti-mator nedeplasat. Pentru a demonstra pro-prietatea se tine seama ca [8] se scrie sub forma echivalenta:
∑∈
−−
−−−
=nEi i
i TTn
Tpx
nnT 22 )ˆ(
11
)()1(
1)ˆar(v̂ [9]
Aplicând operatorul de medie egalitatii [9] se obtin succesiv rezultatele urmatoare:
).ˆvar()ˆvar(1
1)ˆvar(
)1(1
))ˆ((1
1))((
)1(1
))ˆar(v̂( 22 TTn
Tnn
TTEn
Tpx
Enn
TEn nEi Eii
i =−
−−
=−−
−−−
= ∑ ∑∈ ∈
Se prezinta, în cele ce urmeaza, metoda frecventelor cumulate pentru definirea unui esantion, ce are la baza tehnica esantionarii simple cu probabilitati neegale, cu reveni-re. Pentru aplicarea acestei tehnici se parcurg urmatoarele etape: • Se genereaza un sir de numere alea-toare folosind un generator al repartitiei uniforme pe intervalul [0, 1]. Consideram sirul de numere );,...,,( 21 nuuu • Folosind realizarile unei variabile alea-toare, pentru care dispunem de seria de da-te, se calculeaza probabilitatile );,..,,( 21 Nppp • Este inclusa în esantion unitatea statistica pentru care este satisfacuta relatia de ordine: .,1),()( 1 nkpCupC iki =≤<− , unde
∑=
=i
jji ppC
1)( reprezinta seria probabilitatilor
cumulate crescator. Exemplul 1. Pentru 5 magazine de vânzare a produselor alimentare se cunosc datele din tabelul 1. Se considera cazul în care, pentru estimarea volumului total al vânzarilor, în situatia în care nu se cunosc vânzarile pentru fiecare magazin, se organizeaza un sondaj statistic cu dimensiunea esantionului n=1.
Tabelul 1. Magazin Nr. de
angajati Vânzari (mld. lei)
A 2 100 B 5 240 C 3 159 D 10 461 E 20 1 040
Total 40 2 000 Pentru fiecare magazin se cunoaste numarul de angajati. Se va estima volumul total al vânzarilor folosind tehnica simpla de esantionare si esantionarea cu proba-bilitati inegale. Pentru cazul din urma se considera ca volumul vânzarilor este dete-rminat în mod direct de numarul de angajati. Pentru a caracteriza performan-tele estimatorilor în conditiile folosirii uneia din cele doua tehnici de esantionare se calculeaza indicatorii: ).ˆ(),ˆvar(),ˆ( TEMPTTB • Esantionarea simpla. Estimatiile pen-tru volumul total al vânzarilor sunt trecute în tabelul 1. Se observa ca, în situatia folosirii acestei metode de esantionare, estimatorul folosit este nedeplasat, deci
,2000)ˆ( =TE iar varianta este:
.2935010
])20005200()20002305()2000795()20001200()2000500[(51
)ˆvar( 22222
=
−+−+−+−+−=T
Rezultatele obtinute sunt putin performan-te, chiar daca estimatorul este nedeplasat.
Dealtfel, pentru datele de mai sus, se obtine o valoare foarte mare a coeficien-
Revista Informatica Economica, nr. 3 (15)/2000 97
tului de variatie a estimatorului, egal cu 85.66%. Pentru a diminua varianta estima-torului se recurge la o alta metoda de esantionare, care tine seama de importanta fiecarei unitati în cadrul populatiei. Pentru a caracteriza dimensiunea fiecarei unitati se considera realizarile pentru variabila numar de angajati. • Esantionarea cu probabilitati neega-le. Se calculeaza pentru fiecare unitate pro-
babilitatea de a accede în esantion, prin relatia: .
∑=
jj
ii n
np
Rezultatele sunt prezentate în tabelul 2. În cazul acestei metode de esantionare cele 5 estimatii, precum si deplasarea acestora, sunt trecute în tabelul 2. Urmarind rezul-tatele de mai sus se obtine, pentru fiecare esantion, marimea deplasarii, iar pe ansam-blu se evalueaza deplasarea estimatorului, aceasta fiind zero. Astfel,
.02000]21
208041
1844403
212081
1920201
2000[)ˆ( =−⋅+⋅+⋅+⋅+⋅=TB
Se calculeaza varianta estimatorului
.928021
)20002080(
41)20001844(
403)20002120(
81)20001920(
201)20002000()ˆvar(
2
2222
=⋅−+
⋅−+⋅−+⋅−+⋅−=T
Tabelul 2. in ∑=
iiii nnp / Esan-
tionul ∑∈
=Ei i
i
px
T̂ TTTB −= ˆ)ˆ(
A 2 2/40 100 2000)2/40(100 =⋅ 0 B 5 5/40 240 1920)5/40(240 =⋅ -80 C 3 3/40 159 2120)3/40(159 =⋅ 120 D 10 10/40 461 1844)10/40(461 =⋅ -156 E 20 20/40 1 040 2080)20/40(1040 =⋅ 80
Total 40 1 2 000 - - În acest caz varianta estimatorului este cu mult mai mica decât cel al esantionarii simple. Deplasarile estimatorilor în condi-tiile aplicarii celor doua tehnici de esan-tionare sunt reprezentate grafic în figura 1.
-2000-1000
01000200030004000
1 2 3 4 5Esantionul
B(to
tal)
PEPIN
Fig. 1. Deplasarea estimatorilor cele doua
tipuri de esantionari Se observa o mai mare stabilitate a esti-matiilor în jurul valorii reale, în cazul tehnicilor de esantionare cu probabilitati neegale.
Esantionarea cu probabilitati neegale, cu revenire Tehnica de esantionare cu revenire, mai sus prezentata, ofera o serie de avantaje în privinta definirii estimatorilor si proprieta-tilor acestora, dar rezultatele obtinute sunt mai putin eficiente comparativ cu tehnica de esantionare fara revenire. În cazul acestei tehnici, probabilitatile de alegere a unitatilor simple în cadrul esantionului se modifica de la o etapa la alta în functie de unitatile care au fost deja incluse în cadrul esantionului pâna la o anumita etapa. Se noteaza si în acest caz prin ip pro-babilitatea ca unitatea i sa fie inclusa în cadrul esantionului. Definim prin )( jip pro-babilitatea de a selectiona la a doua extragere unitatea i , stiind ca la prima s-a extras unitatea j. Aceasta se calculeaza pe baza relatiei: .
1)(j
iji p
pp
−=
Revista Informatica Economica, nr. 3 (15)/2000 98
Se calculeaza probabilitatea de a alege la prima extragere unitatea i, iar la a doua
unitatea j pe baza relatiei: .1)2,1(
j
jiji p
ppp
−=−−
Se determina atunci probabilitatea, ca dupa doua extrageri, unitatile incluse în cadrul esantionului sa fie i si j:
.11)2,1()2,1(),(
i
ij
j
jiijjiji p
pp
p
ppppp
−+
−=+= −−−− [10]
Pentru un esantion de volum 2 se calcu-leaza probabilitatea ca o unitate sa fie inclusa în cadrul esantionului pe baza
relatiei: .1
∑≠=
=N
jiji
ij
ππ [11]
Pentru un esantion de volum n sunt valabile urmatoarele doua egalitati:
nN
ii =∑
=1π si .)1(
,∑≠
−=
jiji
ij nnπ [12]
Ultimele doua relatii sunt evidente, tinând seama de formula de calcul a probabilita-tilor ce intervin în aceste relatii. Se defi-neste variabila binara ,iZ astfel:
.,0,1
∉∈
=ni
nii Eu
EuZ
Cele doua probabilitati care intervin în cadrul relatiilor [12] sunt determinate pe baza formulelor: ).(si),( jiijii ZZEZE == ππ În aceste conditii se demonstreaza egalitatile din [12]: • Pentru prima relatie se obtine succe-
siv: .)()(111
nZEZEN
ii
N
ii
N
ii === ∑∑∑
===π
• Pentru a doua relatie se stabilesc urmatoarele rezultate:
== ∑∑≠=≠=
N
jiijji
N
jiijij ZZE
,1,1)(π
∑∑∑≠≠
−==ij
ji
iN
jijiji nnZZEZZE ).1()()(
,,
În general, pentru un esantion de volum n se defineste probabilitatea:
.)...(1
...)(11
),...,2,1(12121
3
1
2121
−++−+−−=−−−
n
nn ppp
ppp
pp
ppnuuuP [13]
Exemplul 2. Pentru datele din exemplul 1 se calculeaza iji ππ , . Rezultatele sunt pre-
zentate în cadrul tabelului 3. Urmarind
datele din acest tabel, se observa ca .25
1∑=
=i
iπ
Tabelul 3. Calcularea probabilitatilor ijπ si iπ . A B C D E iπ
A - 0.013722 0.008001 0.029825 0.076316 0.127864 B 0.013722 - 0.020849 0.077381 0.196429 0.308381 C 0.008001 0.020849 - 0.04527 0.115541 0.189662 D 0.029825 0.077381 0.04527 - 0.416667 0.569142 E 0.076316 0.196429 0.115541 0.416667 - 0.804952
iπ 0.127864 0.308381 0.189662 0.569142 0.804952 2 Se defineste pentru volumul total al ca-racteristicii urmatorul estimator:
.ˆ1
∑∑=∈
==N
ii
i
i
Ei i
iHT Z
XXT
nππ
[14]
Proprietatea 1. Estimatorul Horvitz-Thompson este un estimator nedeplasat. Daca se aplica operatorul de medie esti-matorului H-T se obtine:
.)()()()()ˆ(1 1
TXENXEZEX
ETE iN
i
N
iii
i
iHT =⋅=== ∑ ∑
= =π [15]
Proprietatea 2. Varianta estimatorulului [14] este reprezentata prin expresia:
∑<
−−=jiji
ijjij
j
i
i XXT
,,
2 ).()()ˆvar( πππππ
[16]
Pentru a demonstra aceasta relatie se aplica operatorul de varianta celor doi termeni ai egalitatii [16]. Se obtine rezultatul urmator:
Revista Informatica Economica, nr. 3 (15)/2000 99
∑
∑∑∑
∑∑∑
∑∑∑∑
<
= >=
= >=
= >==
−−=
−+−=
+=
+==
N
jijiijji
j
j
i
i
jiijN
i
N
ij j
j
i
iii
N
i i
i
jiN
i
N
ij j
j
i
ii
N
i i
i
jj
ji
i
iN
i
N
ij
N
ii
i
iN
ii
i
iHT
XX
XXX
ZZXX
ZX
ZX
ZX
ZX
ZX
T
,,
2
1
2
12
2
112
2
111
)()(
)(2)(
),cov()var(
),cov()var()var()ˆvar(
πππππ
πππππ
πππ
πππ
ππππ
Un estimator natural al variantei volumului total al caracteristicii este:
∑<=
−−=
n
jiji ij
ijji
j
j
i
i XXT
,1,
2 .)()ˆar(v̂π
πππ
ππ [17]
Cazul în care probabilitatile sunt egale nu este decât un caz particular al tehnicii de esantionare cu probabilitati neegale, fapt care se demonstreaza. Dealtfel, în acest caz sunt valabile urmatoarele:
.)1()1(
)1,1(,/1−
−=====
NNnn
ZZPN jiiji ππ
Particularizând [14] pentru acest caz se obtine: ∑
∈==
nEi
iHT XN
NnX
T ./
ˆ [18]
În mod asemanator se procedeaza în cazul variantei. Pentru cazul în care probabili-tatile sunt calculate în raport cu repar-
tizarea pe unitati a valorilor unei variabile corelata cu prima, atunci ./∑= iii YYp Se ob-tin în aceasta situatie urmatoarele rezultate: • volumul total al caracteristicii X este estimat prin ∑
∑∈∈
=n
n
EiEk
ki
iHT YY
XT
/ˆ ;
• varianta acestui estimator este estimata
prin ∑<∈
−=jiEji
jij
j
i
i
n
YYY
X
YX
nT
,,
2)(1
)ˆar(v̂ .
Prezentam în cele ce urmeaza esantionarea sistematica în conditiile folosirii metodei de esantionare cu probabilitati neegale fara revenire. Reamintim ca, ii pn⋅=π , iar pen-tru calcularea probabilitatilor ip se recurge
la urmatoarea formula de calcul:∑
=
i
ii
Y
Yp .
Pentru generarea unui esantion de volum stabilit se parcurg urmatoarele etape: • se genereaza un numar aleator ];1,0[Uu ∈ • se calculeaza frecventele cumulate
crescator ;,1,)(1
NiCi
hhi == ∑
=ππ
• unitatea iu este inclusa în esantion, daca este satisfacuta relatia:
.,2),()1()( 1 NiCiuC ii =≤−+<− ππ [19] Se verifica aceasta relatie, pâna la alocarea tuturor unitatilor esantionului. Exemplul 3. Consideram o populatie con-stituita din 7 unitati elementare. Proba-bilitatile de introducere a fiecarei unitati în esantion si seria cumulata a probabilitatilor sunt trecute în tabelul 4.
Tabelul 4. Unitatea
ip iπ )( iC π
1 0.050 0.100 0.100 2 0.075 0.150 0.250 3 0.155 0.310 0.560 4 0.265 0.530 1.090 5 0.275 0.550 1.640 6 0.150 0.300 1.940 7 0.030 0.060 2.000
Folosind un generator de numere aleatoare se obtine numarul 382.0=u . Pentru a con-stitui un esantion de volum 2 se parcurg mai multe iteratii. Se obtin succesiv rezultatele urmatoare:i) ]250.0100.0(382.0 ∈ , deci a doua unitate este inclusa în esantion; ii) ]640.1090.1(382.1 ∈ , deci a patra unitate este inclusa în esantion. Bibliografie 1. Andrei, T., Stancu, S. Statistica-teorie si aplicatii-editia a II-a. Editura All, Bucuresti, 2000. 2. Mihoc, Gh., Urseanu, V. Sondaje si estimatii statistice-teorie si aplicatii. Editura Tehnica, Bucuresti, 1977 3. Sharon, L.,L. Sampling: Design and Analysis. Brooks/Cole Publishing Company. London. 1999.