3_SONDAJ

- 1 –

SSOONNDDAAJJUULL SSTTAATTIISSTTIICC ŞŞII UUTTIILLIIZZAARREEAA LLUUII ÎÎNN EECCOONNOOMMIIEE

Definiţia şi erorile sondajului statistic

Între sursele de obţinere a datelor statistice, alături de procedee ca recensămintele, rapoartele statistice, anchetele, monografiile, se află şi sondajele statistice. Sondajul este o procedură prin care se caracterizează o colectivitate statistică, pe baza cercetării unei părţi a acesteia, a unui eşantion extras din acesta. Rezultatele obţinute pe baza datelor extrase prin sondaj se extrapolează la dimensiunea întregii colectivităţi. Extinderea rezultatelor de la parte la întreg are caracter probabilist, deci aprecierile sunt supuse unui risc, unor erori. Erorile de sondaj cele mai importante sunt erorile de reprezentativitate (mai pot fi erori de înregistrare, comune şi pentru alte forme de culegere a datelor). Erorile de reprezentativitate apar în faza de prelucrare a informaţiilor, sub forma diferenţei sau abaterii între indicatorii derivaţi care caracterizează colectivitatea de selecţie, şi indicatorii corespunzători calculaţi pentru întreaga colectivitate. În funcţie de cauza care a dus la apariţia lor, erorile de reprezentativitate sunt de două feluri: - erori sistematice - erori întâmplătoare Erorile sistematice apar ca urmare a nerespectării principiului de bază al selecţiei (principiul hazardului) care cere ca fiecărei unităţi a colectivităţii generale să-I fie asigurată o anumită şansă de a fi inclusă în eşantion. Întrucât erorile sistematice denaturează precizia rezultatelor obţinute, ele trebuie evitate prin respectarea regulilor ştiinţifice de selecţie. Erorile întâmplătoare îşi au sursa în natura sondajului; rezultă din esenţa metodei de selecţie. Ele se produc chiar dacă sondajul s-a organizat după principii ştiinţifice. Apariţia lor se explică prin faptul că, într-un număr mic de unităţi din care este format eşantionul, nu se reproduce influenţa întregului complex de factori ce acţionează în colectivitatea generală.În aceste condiţii, distribuţia de selecţie se abate de la distribuţia colectivităţii generale; media sau oricare alt indicator derivat obţinut prin selecţie prezintă anumite diferenţe în raport cu aceiaşi indicatori ai întregii colectivităţi. Statistica a elaborat metode prin care determină cu anticipaţie mărimea erorii întâmplătoare de reprezentativitate. Erorile care însoţesc indicatorii prin care se estimează parametrii colectivităţii generale se încadrează într-un interval garantat cu o probabilitate stabilită aprioric. Măsurarea erorii de reprezentativitate se poate efectua în mărimi absolute şi relative. Eroarea de reprezentativitate absolută se obţine ca diferenţă între indicatorul de sondaj (x) şi mărimea adevărată a indicatorului în colectivitatea generală (m). x - m Eroarea de reprezentativitate relativă:

100m

mx⋅

−

Dacă procentul privind eroarea de reprezentativitate este sub 5%, se poate aprecia că sondajul este reprezentativ şi oferă o imagine fidelă a realităţii. Teoretic, eroarea poate fi redusă oricât de mult; aceasta implică însă o creştere a dimensiunii eşantionului, până la limita întregii colectivităţi, dar în acest caz dispar avantajele verificării prin sondaj, adică economie de timp şi bani. Deci pentru dimensionarea eşantionului trebuie să se găsească un raport convenabil între nivelul erorii de reprezentativitate şi costul măririi eşantionului.

3_SONDAJ.doc 1

- 2 –

Felurile sondajelor statistice

Statistica oferă variate procedee de extragere a unităţilor şi alcătuire a eşantioanelor astfel încât să se asigure un grad mai ridicat de reprezentativitate. Principalele tipuri de sondaj sunt: 1. Sondaje aleatoare: - sondaj simplu;

- sondaj tipic; - sondaj de serii; - sondaj secvenţial; - sondaj în trepte.

2. Sondaje dirijate; 3. Sondaje sistematice. Din punct de vedere al modului de extragere a unităţilor, sondajele pot fi grupate în: - sondaje repetate, atunci când o unitate extrasă este reintrodusă în colectivitatea generală, şi deci are şansa de a reintra în eşantion - sondaje nerepetate, atunci când unităţile nu sunt reintroduse în colectivitatea generală. Extragerea unităţilor se efectuează după diverse metode, dintre care cele mai des utilizate sunt: 1. Procedeul LOTO, în care unităţile sunt perfect identificabile, iar extragerea se face după corespondentul înregistrat pe bileţele amestecate şi extrase aleator dintr-o urnă. 2. Procedeul tabelelor cu numere aleatoare este aproximativ similar celui anterior, dar se aplică la colectivităţi de dimensiuni mari, la care metoda LOTO este neoperantă. Numerele sunt înregistrate într-un tabel cu N unităţi, din care se aleg serii de numere întâmplătoare ce vor alcătui un eşantion de n unităţi. 3. Procedeul mecanic constă în alegerea unităţilor la intervale (de timp sau numerice) bine precizate, deci la un anumit pas de numărare, aplicat bazei de sondaj. Exemplu: dacă eşantionul n reprezintă 10% din volumul colectivităţii N, atunci se va extrage fiecare a 10-a unitate a colectivităţii. Pentru a îmbunătăţi caracterul aleator, nu se va începe extragerea cu unitatea 1, ci se alege o unitate din primele 10, apoi se vor extrage şi celelalte, cu pasul egal cu 10. 4; 4 + 10 = 14; 14 + 10 = 24; 24 + 10 = 34; …

Sondajul aleator simplu Este varianta elementară de sondaj, celelalte tipuri reprezintă soluţii obţinute prin particularizarea unor elemente ale acestui tip de sondaj. Sondajul aleator simplu se poate realiza în una din cele două variante (repetat şi nerepetat), din punct de vedere al modului de extragere a unităţilor. Indicatorii de bază utilizaţi sunt numărul de unităţi din întreaga colectivitate şi din eşantion, media aritmetică a unei caracteristici pentru întreaga colectivitate şi pentru eşantion, dispersia pentru întreaga colectivitate şi pentru eşantion, abaterea pătratică medie. Indicatorii statistici calculaţi pe baza datelor de sondaj diferă de la un eşantion la altul, ei pot fi interpretaţi ca variabile aleatoare. Indicatorii estimaţi pe baza sondajului, fiind variabile aleatoare, pentru a putea fi extinşi la întreaga colectivitate, trebuie să fie estimări:

- nedeplasate (adică valoarea medie a indicatorului de sondaj să fie egală cu parametrul din colectivitatea generală);

- consistente (indicatorul de sondaj să tindă în probabilitate, pentru valori mari ale lui “n”, către parametrul teoretic din colectivitatea generală);

- eficiente (să aibă dispersie minimă). Estimaţiile obţinute pe baza datelor de sondaj constituie evaluări aproximative ale adevăratelor valori ale parametrilor necunoscuţi din colectivitatea generală. Rezultă că datele obţinute prin sondaj sunt afectate de erori. Prin sondaj nu se obţine valoarea adevărată a parametrului căutat, ci un interval de încredere care acoperă valoarea necunoscută a parametrului din colectivitatea generală, cu o probabilitate fixată de cercetător. Acest interval poartă numele de interval de estimaţie sau interval de încredere.

3_SONDAJ.doc 2

- 3 – Cele două limite ale intervalului de încredere, Θinf şi Θsup se calculează pe baza datelor sondajului: P(Θinf < Θ < Θsup) = 1 – α Intervalul (Θinf; Θsup) reprezintă intervalul de încredere şi defineşte precizia estimaţiei. Probabilitatea P = 1 – α caracterizează siguranţa afirmaţiilor şi se numeşte nivel de încredere. Parametrul α este valoarea complementară a nivelului de încredere şi se numeşte nivel sau prag de semnificaţie şi se fixează prin programul de cercetare. Cele mai utilizate valori ale probabilităţii de încredere sunt 90%, 95%, 99% şi 99,9%, cărora le corespund niveluri de semnificaţie de 10%, 5%, 1% şi 0,1%.

Indicatorii sondajului aleator simplu 1. Eroarea mediei de selecţie

1.1. Pentru selecţia repetată Media de sondaj este :

∑=

⋅=+++

=n

1ii

n21 xn1

nxxx

xL

si poate fi un estimator nedeplasat al mediei “m” a colectivităţii generale dacă se îndeplineşte condiţia ca media mediilor de selecţie să fie egală cu media generală: M( x ) = m Relaţia exprimă că media de sondaj, x , într-un sondaj este un estimator nedeplasat al mediei “m” a colectivităţii generale.

Dispersia mediei de sondaj se calculează după relaţia: ( )n

xD2σ

=

Deci disperisa mediei de sondaj într-un eşantion este de n ori mai mică decât dispersia σ2 a colectivităţii

generale. De aici rezultă relaţia pentru abaterea medie pătratică:nxσ

=σ

1.2. Pentru selecţia nerepetată Relaţiile dintre dispersia generală (σθ

2), dispersia erorilor de reprezentativitate (σx2) şi volumul eşantionului

(n) nu se verifică în selecţia nerepetată. Volumul ce rămâne după extragerea esantionului de mărime n este N + 1 la extragerea repetată si N – n la extragerea nerepetată. Din această cauză, dispersia mediilor eşantioanelor faţă de media colectivităţii generale în selecţia nerepetată este de (N – 1)/(N – n) ori mai mică decât în selecţia repetată. În consecinţă, eroarea medie de reprezentativitate în selecţia nerepetată pentru caracteristica nealternativă se corectează cu coeficientul de corecţie :

1NnN

−−

adică abaterea medie pătratică, va fi :

1NnN

n

2x

x −−

⋅σ

=σNn1

1NnN

nx −⋅

−−

⋅σ

≈

Dacă volumul N al colectivităţii este ridicat, iar al eşantionului este redus, atunci (N – n)/(N – 1)→1, deci rezultatul indicatorului (σx) practic coincide în ambele variante de sondaj.

Dacă N = n, atunci factorul Nn1−

devine nul şi deci dispare şi eroarea medie de sondaj deoarece cercetarea parţială s-a transformat în cercetare integrală.

3_SONDAJ.doc 3

- 4 – 2. Calculul erorii limită (erorii maxime admise sau probabile), ∆x Eroarea limită maxim admisă defineşte siguranţa estimării mediei m prin variabila de sondaj x şi se măsoară cu ajutorul relaţiei: Mărimea ∆x caracterizează precizia estimaţiei, xmx ∆<− Aprecierea satisfacerii inegalităţii nu se poate face decât ca o probabilitate de realizare:

( ) α−=∆<− 1xmxP

n

mxtσ−

=α

Eroarea limită se determină pornind de la variabila:

n

tx σ⋅=∆ α , pentru selectia repetata.

Rezultă că eroarea mx − este egală cu: x∆ şi

Nn1

ntx −⋅

σ⋅=∆ α , pentru selectia nerepetata.

Pentru valorile uzuale: α = 0,05; 0,01; 0,001 valorile variabilei t corespunzătoare în tabele sunt: t = 1,96; 2,33; 3,09

Calculul intervalului de încredere

Intervalul de încredere desemnează zona probabilă în interiorul căreia se va plasa media colectivităţii generale. Se determină pornind de la media de sondaj corectată cu nivelul erorii limită maxim admisă. xmx ∆<− , din care rezultă dubla inegalitate: xxmx ∆+x <<∆− Deci intervalul de încredere delimitează zona probabilă în care se va plasa valoarea adevărtaă, dar necunoscută a mediei din colectivitatea generală. Lungimea intervalului de încredere este direct proporţională cu mărimea împrăştierii valorilor (măsurată prin abaterea medie pătratică) şi invers proporţională cu nivelul pragului de semnificaţie (la valori mici ale lui α, valorile lui tα cresc) şi mărimea eşantionului (la creşterea lui n, intervalul de încredere devine mai mic, deci precizia estimaţiei sporeşte). În unele situaţii prezintă interes şi poate avea sens logic calculul intervalului probabil de plasare a nivelului totalizat al caracteristicii în colectivitatea generală. Intervalul de încredere pentru valoarea agregată Nx este:

≤≤

σ⋅− α mN

ntxN

σ⋅+ α n

txN

Pentru sondajul nerepetat, relaţia se adaptează cu formula adecvată acestui tip de sondaj.

Determinarea volumului n al sondajului

La organizarea unei cercetări prin sondaj, una din problemele de rezolvat este dimensionarea lor raţională. Este adevărat că mărimea n a sondajului sporeşte precizia rezultatelor, reduce eroarea medie probabilă. Ţinând seama de criteriile economice este necesar ca acest volum să fie cât mai mic. Luând în considerare ambele aspecte, se determină numărul minim de unităţi de observat care să satisfacă exigenţele de precizie şi siguranţă formulate în raport cu cercetarea respectivă. Calculul volumului eşantionului se realizează pornind de la eroarea limită maxim admisă. pentru sondajul repetat

ntx σα=∆

ntx

222 σα=∆

3_SONDAJ.doc 4

- 5 – astfel încât se stabileşte volumul lui n:

xtn 2

22

∆⋅

=σα

- pentru sondajul nerepetat

Ntx

tn 222

22

σσ

α

α

⋅+∆

⋅=

Selecţia simplă nerepetată este mai economicoasă decât cea repetată, deoarece în aceleaşi condiţii volumul necesar al eşantionul este mai mic.

Metodele de sondaj statistic pentru recepţia loturilor de produse

Intrarea produselor în circuitul economic este însoţită de un control calitativ, numit control de recepţie. Controlul de recepţie reprezintă controlul calităţii loturilor de produse (materii prime, piese, subansamble, produse finite), precum şi a produselor mai greu individualizate (tesături, fire, hârtie, etc.), asupra cărora operaţiile de producţie sunt terminate. Controlul calităţii loturilor poate fi efectuat printr-o gamă variată de metode adaptate specificului producţiei controlate, tipului caracteristicilor de calitate, importanţei şi implicaţiilor erorilor de decizie. După volumul produselor controlate, se deosebesc: controlul 100%, în care se controlează volumul întregii producţii obiect cu obiect. Acest tip de control se poate aplica unei producţii de serie mică sau unicate, la care condiţiile tehnice impuse sunt deosebit de severe; controlul prin sondaj este o variantă în care se controlează numai o parte a producţiei. Acest tip de control se impune ca unică alternativă raţională şi eficientă, care răspunde tehnic şi economic necesităţilor producţiei de masă. Sinteza elementelor necesare efectuării controlului loturilor o regăsim într-un plan de control, care conţine: volumul eşantionului, riscurile asumate de partenerii controlului (furnizor-beneficiar), nivelul calităţii producţiei şi criteriile de decizie. Se va porni de la presupunerea logică, conform căreia orice lot conţine o anumită proporţie de produse necorespunzătoare, denumită fracţiunea defectivă – P. Aceasta se stabileşte ca raport între numărul de rebuturi din lot (D) şi mărimea lotului (N). Pe baza mărimii fracţiunii defective, care teoretic poate lua orice valoare între zero şi unu, se apreciază calitatea lotului. Scopul controlului de recepţie este de a decide dacă această fracţiune defectivă nu depăşeşte un anumit nivel critic Po, stabilit în funcţie de considerente de ordin economic. lotul se acceptă dacă P ≤ Po, sau lotul se respinge dacă P > Po. Pe măsura îndepărtării de P = 0 (calitatea perfectă) şi a înaintării pe axa fracţiunii defective P spre 1 (calitatea nulă), are loc o înrăutăţire a calităţii lotului. Probabilitatea de acceptare a lotului este o funcţie descrescătoare, având valoarea 1 în punctul zero şi fiind nulă în punctul 1. Modul de operare în cazul aplicării unui plan de control simplu prin măsurare este următorul: se extrage întâmplător din lotul prezentat la recepţie un eşantion de mărime n; se măsoară valorile caracteristicii cercetate pentru n unităţi şi se înregistrează valorile acestora: x1, x2, …, xn; se calculează la luarea deciziei în funcţie de modul cum este limitată caracteristica de calitate.

3_SONDAJ.doc 5

- 6 –

3_SONDAJ.doc 6

Particularităţile privind calculul indicatorilor în cazul altor tipuri de sondaje

Sondajul tipic

Este o variantă recomandată în situaţia în care colectivitatea este grupată sau se poate separa în grupe distincte bine determinate; din fiecare grupă se extrage un număr fixat de unităţi după schema sondajului aleator repetat sau nerepetat. Cel mai frecvent se foloseşte în studiul populaţiei, când aceasta se separă în grupe folosind clasificările oficiale sau personale în funcţie de scopul cercetării. Dacă stratificarea a fost bine făcută, atunci erorile sunt mai mici decât dacă aceeaşi colectivitate ar fi fost studiată pe baza unui sondaj simplu. Principalele variante ale acestui sondaj sunt: sondajul proporţional şi sondajul repetat. Sondajul tipic proporţional se caracterizează prin faptul că din fiecare grupă tipică se extrag atâtea unităţi astfel ca raportul dintre numărul lor şi volumul grupei din care s-a extras să fie egal cu raportul dintre volumul general al eşantionului şi volumul populaţiei generale. Sondajul tipic optim se caracterizează prin faptul că volumul sondajului de grupă este astfel dimensionat încât eficienţa să fie maximă. Pentru sondajul tipic optim, numărul unităţilor dintr-o grupă oarecare este proporţional cu numărul unităţilor din această grupă şi cu abaterea medie pătratică a grupei respective.

Sondajul în serii

În cercetarea statistică a fenomenelor şi proceselor economice se întâlnesc situaţii în care unităţile colectivităţii generale alcătuiesc unităţi complexe. Exemplu: muncitorii care lucrează în cadrul anumitor formaţii de lucru; populaţia ţării este constituită din familii, etc. În asemenea cazuri, sondajul poate fi organizat în aşa fel încât să se extragă spre studiu asemenea unităţi complexe, urmând ca toate unitătile simple componente ale unităţilor complexe extrase să se cerceteze fără nici o excepţie. În mod curent, în practica metodei sondajului, unităţile complexe se numesc serii. Evaluarea rezultatelor sondajului de serii se face cu ajutorul metodelor descrise la sondajul aleator simplu, înlocuind însă numărul unităţilor simple din colectivitate N şi din sondaj n, cu numărul seriilor (unitătilor complexe) R şi r. în locul dispersiei dintre valorile individuale (S) se utilizează dispersia dintre serii 9unităţi complexe), δ, determinată la fel ca dispersia dintre grupe. În statistica economică şi socială, unitătile complexe ce se pot asimila seriilor, se formează nu la întâmplare, ci în procesul dezvoltării economice şi sociale. De aceea, unitătile elementare din cadrul unei unităţi complexe sunt mai asemănătoare între ele; cu cât diferă de la o unitate complexă la alta, cu atât ele diferă în ansamblul colectivităţii. O serie care semnifică o unitate complexă nu este reprezentativă faţă de colectivitate. Dar un număr suficient de mare de serii poate forma un eşantion reprezentativ. Datorită avantajelor organizatorice pe care le prezintă, sondajul de serii se justifică în numeroase domenii ale statisticii economice şi sociale, de exemplu: în statistica preţurilor pe piaţa neorganizată, statistica bugetelor de familie, etc.

3_SONDAJ

Documents

Transcript of 3_SONDAJ