Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi Univariata.
Suport Curs Statistica Univariata 2015
-
Upload
andrei-husar -
Category
Documents
-
view
229 -
download
0
Transcript of Suport Curs Statistica Univariata 2015
-
8/16/2019 Suport Curs Statistica Univariata 2015
1/49
1
Cursul nr 1.Introducere în statistică socială
Ce este statistica socială?
Sociologia= știință care studiază societatea omenească și legile ei. Știință care seocupă cu studiul descrierii structurii și fiziologiei societății, al relațiilor interumane în
cadrul grupurilor sociale, precum și al instituțiilor din societatea dată Ştiinţele sociale îşi propun în general să descrie realitatea socială şi să o explice,
realizând predicţii asupra posibilelor evoluţii ulterioare ale fenomenelor, structuriisociale etc.
Cum stabilim legități (construim teorii)? -experimente
-ancheta sociologică pe bază de chestionar (cvasiexperiment)
Pentru a prelucra datele din ancheta pe bază de chestionar este nevoie de metode statistice.Statistica socială oferă instrumente de investigaţie şi de analiză care servesc celor trei
mari obiective: descrierea, explicaţia şi predicţia.
1. Descrierea datelor: care este starea de sănătate a populației din România; care estesituația în România d.p.d.v. al divorțialității/natalității?2. Explicarea datelor: care sunt factorii la nivel macro cu impact asupra stării desănătate a populațieie din România?(sistemul de sănătate, nivelul de dezvoltare a societății);care sunt factorii la nivel macro care determină creșterea/scăderea divorțialității/natalității?
Exemple implicații practice: construirea de teorii, realizarea unor măsuri pentru ainterveni (politici publice)
3. R ealizarea de predicţii asupra populaţiei, generalizarea datelor la nivel de
populaţie; (acest lucru se realizează doar atunci când se lucrează cu anchetă sociologică pe bază de eșantion și se dorește estimarea datelor la nivelul întregii populații de referințe);Exemple implicații practice: identificarea exactă a potențialilor alegători, identificarea
exactă a numărului de apartamente care ar trebui construite etc. Prin urmare, statistica socială este preocupată de culegerea datelor și de analiza și
interpretarea datelor. Trebuie însă subliniat faptul că statistica socială reprezintă un simpluinstrument care deserveşte aceste scopuri. Nu este o ramură a matematicii (nu avem axiome,nu se fac demonstrații, de aceeea pentru scopuri similare vom avea mai multe tipuri deindicatori)
În concluzie, Statistica socială este o știință care are drept obiect stabilirea regulilor de
culegere, prelucrarea și interpretare a datelor. Cu alte cuvinte, cu ajutorul statisticii sociale, pe de o parte vom învăța cum să proiectăm și să realizăm o cercetare la standarde cât mai aproape de rigorile științifice, iar pede altă parte cum să analizăm datele (să descriem, să găsim explicații sau cum să facem
predicții la nivelul populației. Metodele statistice necesare analizei datelor, pot fi utilizate atât pe date rezultate în urma unor anchete sociologice pe bază de chestionar, analiză de conținutcantitativă, fie pe date la nivel macro (indicatori baze de date oficiale). Chiar și atunci când nusuntem în ipostaza de a realiza cercetări științifice, cunoștințele dobândite în cadrul acestuicurs ne vor fi utile pentru a avea abilitatea de citi și înțelege rezultatele cercetărilor întreprinsede alte persoane.
Exemple de programe pentru prelucrarea datelor în științe sociale: SPSS, Excel, SAS,
AMOS, RData. Programul cel mai utilizat în România este SPSS (Software Package forSocial Sciense). Nu e nevoie să avem cunoştinţe avansate pentru a înţelege acest program.
-
8/16/2019 Suport Curs Statistica Univariata 2015
2/49
2
Concepte de bază în statistica socială
Subiect, repondent, individ Orice persoană care răspunde la chestionar Populație Toate persoanele din care a fost extras eșantionul Item Orice întrebare din chestionar.Variabilă Seria de numere reprezentată de răspunsurile o întrebare din
chestionar.statistică descriptivă -un set de metode pentru descrierea datelor: tabele, grafice
exprimate în procente sau frecvenţe (număr de cazuri), indicatoristatistici precum media, mediana, modul, indicatori de dispersie etc
statistică deductivă sauinferenţială
Forme:
1.estimarea parametrilor populației pornind de la observaţiile făcute pe un eşantion, dacă sunt îndeplinite condiţiile de reprezentativitatecare să permită o astfel de operaţie;Ex1: estimăm procentul celor care votează la nivelul unui județ,estimăm procentul vârstnicilor care sunt implicați în voluntariat
Atunci când extragem un eşantion lucrăm cu diferite erori şi trebuiesă fie reprezentativ; ce înseamnă reprezentativ?Exemplu de eşantion nereprezentativ şi sondajele politice
2. testarea unor ipoteze
-
Ex2:identificăm o serie de factori cu impact asupra stării de sănătatea populației, deci atunci când testăm o serie de ipoteze științifice Ex3: r ealizăm comparații între datele obținute pe diferite populații -dorim să vedem dacă există diferenţe privind mulţumirea faţă de
sănătate între persoanele din diferite judeţe sau medii de rezidenţă -dacă există diferenţe dintre romii din Garcini şi romii din altecomunităţi -dacă există diferenţă între persoanele cu boli mentale care suntinstituţionalizaţi şi care nu sunt
-
8/16/2019 Suport Curs Statistica Univariata 2015
3/49
3
Cursul nr 2. Etapele unui proiect de cercetare
Care sunt pașii unei cercetări până ajungem la analiza datelor cu ajutorul metodelorstatistice? (ancheta pe bază de chestionar)
EXEMPLU1. Definirea temei de cercetare: voluntariatul în rândul persoanelor vârstnice 2. Definire obiectivelor de cercetare
2.1. Identificarea atitudinii persoanelor vârstnice față de voluntariat
2.1.1. Identificarea gradului de implicare a vârtsnicilor în voluntariat
2.1.2. Identificarea factorilor care diminuează implicarea vârstnicilor față devoluntariat
2.1.3. Identificarea atitudinii persooanelor față de comportamentele deîntrajutorare 3. Documentarea
3.1.De unde mă informez? 3.1.1 De la specialiști
Din cărți de specialitate Articole din reviste de specialitate (ilustrare)
Studii /rapoarte de cercetare realizate de alte persoane (surse credibile)
Ce urmăresc?
Cum au studiat alții această tematică Indicii pentru alegerea metodei de cercetare
Indicii pentru dimensiuni/indicatori din instrument (chestionar)
Teorii utilizate care explică termenul nostru cheie (comportamentul de întrajutorare)
Limite/obstacole/probleme întâmpinate Exemplu: bazele de date internaționale-de pe portalExemplu-Rapoarte Fundația Soros
3.1.2 De la publicul țintă (ex.persoanele vârstnice-cercetare exploratorie)3.1.3.. De la clientul nostru
3.1.3 De la alte publicuri co-interesați de tematică (ex.instituțiile publice/private deasistență socială din Brașov) 4. Tipul de cercetare
4.1 descriptivă 4.2 explicativă
4.3. predictivă Nu sunt disjuncte5. Ipoteze doar pt 4.2Ex1: Realizăm o cercetare legată de starea de sănătate a populației.Din alte studii
reiese faptul că emoțiile pozitive sau rețeaua social sunt factori, Nu știm dacă e adevărat și pe publicul nostru țintă (persoane vârstnice). Testăm aceste bănuieli (ipoteze științific) 6*. Definirea termenilor (definiție terminologică sau operaționalizarea conceptelor) 7. Definim universul cercetării și stabilim caracteristicilor eșantionului
cercetare exhaustivă/cercetări selective
De ce sunt selective?
1. fie populaţia este prea mare şi nu o putem acoperi
-
8/16/2019 Suport Curs Statistica Univariata 2015
4/49
4
2. fie sunt cercetări pe o temă delicată unde nu poţi aplica chestionare decât pe eşantion devoluntari
Exemple cercetări exhaustive: angajaţii unei companii/instituții Exemple cercetări selective: profesorii din licee, cercetări pe persoane cu dizabilităţi,cercetări pe persoane dependente de droguri/bolnavi de cancer
Exemplu-Rapoarte Fundația Soros
8*.Realizarea instrumentului de cercetare (chestionar)
Exemplu-Rapoarte Fundația Soros
9.Culegerea datelor
10.Prelucrarea datelor
Se introduce datele în SPSS (este doar unul din programele de prelucrare) Se analizează datele cu ajutorul metodelor statistice
11. Redactarea raportului de cerceare
Se descrie tema, se stabilește dacă ipotezele se confirmă sau nu și soluțiile practice pentru problemele studiate (acolo unde este cercetare aplicativă) Exemplu-Rapoarte Fundația Soros
CURS 3. Măsurarea în sociologie (științele socio-umane)
Pentru a putea realiza punctul 6* și 8* din schema etapelor unei cercetări, trebuie să
înțelegem ce înseamnă a măsura. Punctele 6, 8, 9 și 10 sunt etape ce fac parte din procesul
de măsurare a variabilelor. Etapele 7, 9, 10, 11 țin de obiectul statisticii sociale
1. Ce reprezintă măsurarea în sociologie (științe socio-umane)?
A măsura înseamnă a descrie și este legat deci de cercetările descriptive Există două tipuri de măsurare
a. Măsurare din ochi b. Măsurare instrumentală (științifică)
a. Măsurarea din ochi
în primul rând a măsura este a DENUMI un obiect/o stare/un comportament/uneveniment, dacă nu denumim nu putem măsura, dacă denumim prost măsurăm prost
..ex. asta e pisică, ăsta e câine… ..vrem să vedem care este situația persoanelor vârstnice din punct de
vedere al singurătății..Cum denumim acest lucru? Starea civilă?
Statusul marital al persoanei? Rețea socială )
Vrem să vedem care este situația persoanelor vârstnice d.p.d.v. al
educației..Cum denumim? Nivel de educație? Nivel de studii?(anii de
școală finalizați)
Vrem să vedem cât de bine trăiesc persoanele vârstnice..Cum
denumesc asta? Bunăstarea? Venituri? Bogăție?
denumim variațiile de principiu a ceea ce am denumit..ex câinele ăsta e mai mare, ăsta
mediu, ăsta mai mic, sau e mai puterninc, asa si asa, deloc etc care sunt ipostazele posibile pentru ceea ce am denumit?
-
8/16/2019 Suport Curs Statistica Univariata 2015
5/49
5
Atribuim cifre variațiilor de principiu/ipostazelor o Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurareo Aceast lucru se face de regulă atunci când transpunem variabilele în
instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acestinstrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice.
Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente seaflă în fiecare variantă/ipostază
Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază
C ând vorbim despre măsurare din ochi? Vorbim despre măsurare din ochi atunci când suntem în una din situațiile următoare: a1.Propria noastră minte ne spune ceva despre denumirea și variația de principiu a
unei variabile
a2.Clientul cercetării noastre ne spune ceva despre o variabilă
a3.Subiecții cercetării noastre ne spun ceva despre o variabilă a4.Persoanele care formează publicurile interesate de cercetarea noastră ne spun ceva
despre o variabilă
Măsurări simple
implicarea în activități de voluntariat (formal) motivele neimplicării în activități de voluntariat (bani, timp, sănătate, nu știu unde etc) satisfacția față de activitățile de voluntariat întreprinse timpul alocat activităților de voluntariat
Exemple chestionar_viata_de_familie
Exemplu vârsta măsurată ordinal/interval/raport
Măsurări complexe (avem nevoie de un număr mai mare de indicatori) -operaționlizareaconceptului
satisfacția față de FSC –o putem măsura simplu-ordina/interval
satisfacția față de FSC (-o putem măsura complex-se dau note dar nu se știe ce aevaluat fiecare student/studentă, ecercițiu cu studenții..la ce s-a gândit fiecare când aevaluat, putem stabili variațiile de principiu și atribui numere sau mergem și mai fin laindicatori)
o Aspecte materiale (spații, tehnologie etc)
o
Procesul de învățământ (planuri de invățământ, discipline opționale/facultative,conținutul disciplinelor, practică, activități științifice, oportunități de afirmare profesională- burse, erasmus,manifestari științifice, sprijin financiar etc)
o Profesori (prezența la curs/seminar, stilul de predare, pregătirea profesionalăetc)
o Colegi (stilul de relaționare, de învățare)
atitudinea față de voluntariato Componenta cognitivă? o
Componenta afectivă? o Componenta comportamentală?
-
8/16/2019 Suport Curs Statistica Univariata 2015
6/49
6
Stabiliți denumirea, variațiile de principiu și atribuiți numere
Exemple chestionar viata_de_familie
b. Măsurarea instrumentală Ii dăm o denumire terminologică, identificăm un termen dintr -o teorie (punctul 6 din
etape) Ex..știm la nivelul simțului comun că bogăția nu se suprapune neapărat
peste gradul de cultură a unei persoane..cum denumesc combinațiaasta?...status social? ..clasă socială?....
Determinăm variantele în care variabila respectivă se poate manifesta (variația de principiu) (punctul 6 din etape)
Atribuim cifre variațiilor de principiu/ipostazelor Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurare Aceast lucru se face de regulă atunci când transpunem variabilele în
instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acest
instrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice. Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente se
află în fiecare variantă/ipostază Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază
c. Măsurarea din ochi versus măsurarea științifică (instrumentală) Măsurarea din ochi nu este un substitute al măsurării instrumentale, ci doar o etapă
premergătoare măsurării instrumentale o Pe baza iformațiilor obținute reușim să dăm un nume variabilei respective
Ex. Sunt situații (cele mai multe) când nu este o operație ușoarădenumirea și avem nevoie de această etapă premergătoare..performanțeșcolare, comportamente de întrajutorare, voluntariat formal/informal
Identificăm variațiile de principiu, setul de ipostaze Atribuim cifre ipostazelor conform unor reguli de atribuire
Atenție! În anul I facem doar măsurare din ochi
-
8/16/2019 Suport Curs Statistica Univariata 2015
7/49
7
CURS 4. Definirea universului cercetării și stabilirea caracteristiciloreșantionului
1. Definirea universului cercetării și stabilirea caracteristicilor eșantionului (punctul 7
din schema privind etapele de cercetare)1.1. Universul cercetării
Ex.persoanele vârstnice din municipiul Brașov/județul Brașov/zonele urbane din județul Brașov 1.2. Caracteristicile eșantionului 1.2.1. Cercetarea exhaustivă
Pornind de la obiectivul menționat în schema privind etapele de cercetare – ce tip decercetare este potrivită (atitudinea persoanelor vârstnice față de voluntariat)?
1.2.2. Cercetare selectivă
Princi piul de bază ale eșantionării
Presupoziţia care stă la baza eşantionării este că analiza unui eşantion din populaţia cadru conduce la rezultate similare cu acelea obţinute prin investigarea întregii populaţii, cucondiţia respectării unor condiţii statistice şi teoretice de asigurare a reprezentativităţii.
Cum definim reprezentativitatea unui eșantion?
Reprezentativitatea este o noţiune relativă. Nu se poate vorbi dereprezentativitate/nereprezentativitate, ci de mai mult/mai puţin reprezentativ.
Reprezentativitatea nu poate fi stabilită în general ci doar prin raportare la o serie devariabile. Aceste variabile ar putea fi: sex, vârstă, educaţie, ocupaţie, naţionalitate etc. Cu cât
luăm în calcul mai multe variabile cu atât eşantionul are un grad mai ridicat dereprezentativitate.
Un eşantion are o reprezentativitate în raport cu vârsta, altă reprezentativitate în raportcu sexul ş.a.m.d. Se poate afirma că un eșantion este reprezentativ în raport cu variabila sex,dacă el respectă structura pe sex a populației cadru1.
Folosirea expresiei de “eșantion reprezentativ” este corectă doar dacă el estereprezentativ pe toate caracteristicile studiate.
Ex. Dorim să proiectăm un eșantion pentru studiul mai sus menționat (persoanele vârstnicedin municipiul Brașov). Acest eșantion va trebui să respecte structura populației vârstnice dinmunicipiul Brașov după sex (cel puțin). Tabelul 4.1: Structura eșantionului în funcție de structura populației în funcție de sex
Structura populației cadru înfuncție de variabila sex
Structura teoretică aeșantionului în funcție devariabila sex
Masculin 40% Identică cu cea la nivelul
populației Feminin 60%
Total 100%
1 Datele referitoare la populația cadru (universul cercetării) pot fi iobținute de la INSSE (tempo on-line) sau de
la Direcțiile Județene de Statistică
-
8/16/2019 Suport Curs Statistica Univariata 2015
8/49
8
Condiții pentru respectarea reprezentativității
Asigurarea reprezentativităţii eşantionului presupune respectarea următoarelor treicondiţii în ceea ce priveşte selecţia subiecţilor:
1. Includerea în eşantion a subiecţilor fără a acorda vreo preferinţă unora dintre ei,
fiecare fiind selectat după criterii aleatoare, după principiul hazardului combinaţional,având o probabilitate cunoscută şi diferită de zero (echireprezentarea). 2.
Eşantionul trebuie să fie suficient de mare (de ordinul sutelor) pentru a permiteredarea caracteristicilor principale ale populaţiei originare şi, pe această bază,obţinerea unor indicatori cu un grad mare de fidelitate.
3. Unităţile incluse în eşantion trebuie să fie independente una de alta.
Pentru a realiza cercetări selective se utilizează instrumente specifice. Apar într -unasemenea context mai multe probleme:
estimarea erorii produse prin colectarea unei valori pe eşantion în loc să o
calculăm pe întreaga populaţie; E evaluarea încrederii pe care putem să o acordăm valorilor pe eşantion ca
reprezentând valori similare pentru populaţia întreagă (prin aplicarea testelorde semnificaţie). P
“Reprezentativitatea unui eşantion este cuplul [E, P].” Nu putem ameliora simultan şi
precizia estimării şi siguranţa acesteia.
Ce informații trebuie să precizez la această etapă din cadrul proiectului?
a.Volumul eșantionului (câte persoane voi intervieva?)
p= procentul din populaţia cadru care posedă o caracteristică q = 100-p
P=99% t=2,58
P=95% t=1,96
P=90% t=1,68
2
2
E
xpxqt n
-
8/16/2019 Suport Curs Statistica Univariata 2015
9/49
9
Tabelul 4.2: Relația dintre n, E și P p=procentul persoanelor
vârstnice care au oatitudine favorabilăvoluntariatului formal
Eroarea de
eșantionare Volumul
eșantionului P=probabilitatea
de garantare a
rezultatelor
(datelor ce
rezultă în urmaanalizelor)
Ex.1 p=10%, q=90% E=3% n=384 persoane
P=95%Ex2. p=10%, q=90% E=2%, n=864 persoane
Ex3. p=q=50%, E=3%, n=1067
persoane
Ex4. p=q=50%, E=2%, n=2401
persoane
p=procentul persoanelor
vârstnice care au oatitudine favorabilăvoluntariatului formal
Eroarea de
eșantionare Volumul
eșantionului P=probabilitatea
de garantare a
rezultatelor
(datelor cerezultă în urmaanalizelor)
Ex.1p=10%, q=90% E=3% n=665persoane
P=99%Ex2. p=10%, q=90% E=2%, n=1498persoane
Ex3. p=q=50%, E=3%, n=1849persoane
Ex4. p=q=50%, E=2%, n=4160persoane
Cum decidem volumul eșantionului?
Din punct de vedere formal, pentru determinarea mărimii eşantionului se face un
arbitraj între diverşi factori. Factori de ordin statistic P, probabilitatea de garantare a rezultatelor
E, eroare de eșantionare R, reprezentativitatea eșantionului
o Cu toate că o creştere a eşantionului va mări precizia rezultatelor, ea nu vaelimina şi nici nu va reduce influenţa distorsiunii din procedura de selecţie. Deaceea, măsurarea eşantionului în sine nu este suficientă pentru a asigurasuccesul cercetării.
o Reprezentativitatea atinge destul de repede un nivel suficient de ridicat, aşaîncât o creştere suplimentară a numărului de indivizi în eşantion nu mai aduce
un spor notabil de reprezentativitate
-
8/16/2019 Suport Curs Statistica Univariata 2015
10/49
10
Figura 4.1:Relația dintre reprezentativitatea eșantionului și volumul eșantionului
Factori de ordin administrativ (de organizare a culegerii datelor)
Modalitatea de analiză a datelor (subeșantioane reprezentative) ex. Analiza atitudinii p.v. pe gen
Non-răspunsurile (profilul celor care fac voluntariat) Se vor lua în calcul resurse de bani, timp, oameni
b.Metoda de eșantionare (cum vor fi aleși subiecții la nivel teoretic) și caracteristicileeșantionului
b.1. Eșantionarea teoretică de principiu
Se descrie metoda de eșantionare și se specifică caracteristicile eșantionului astfelîncât să fie reprezentativ după cel puțin o variabilă-Există două categorii de metode de eșantionare 1. metode de eșantionare aleatorii (probabiliste) 2. metode de eșantionare nealeatorii (neprobabiliste)
Comparații 1. metode de eșantionare aleatorii(probabiliste)
2. metode de eșantionare nealeatorii(neprobabiliste)
Se pot face inferențe statistice lanivelul populației din care a fostextras
Datele caracterizează doar eșantionulde persoane intervievate
Se pot generaliza datele. Concluziilesunt legități pentru populația din carea fost extras
Nu se pot generaliza datele.Concluziile sunt posibile tendințe
b.2. Eșantionarea practică (efectivă) Eșantionul scos din teren nu se pliază exact pe cel proiectat. Trebuie testată
reprezentativitatea lui în funcție de variabilele luate în calcul pentru proiectarea eșantionului.Uneori este nevoie de ponderări ale eșantionului.
-
8/16/2019 Suport Curs Statistica Univariata 2015
11/49
11
CURS 5. Metode de eșantionare probabiliste 5. Metode de eșantionare probabiliste 5.1.Eșantionarea aleatorie5.2.Eșantioanarea sistematica 5.3.Eșantionarea stratificată
5.4.Eșantionarea multistadială 5.5.Eșantionarea multifazică 5.6.Eșantioanarea cluster 5.7.Eșantioane fixe panel
5.1. Eșantionarea aleatorie Informații de care avem nevoie pentru a aplica acest tip de eșantionare
O listă cu populația de referință (cadru) Procedee:
Procedeul bilei revenite
Procedeul bilei nerevenite
5.2.Eșantioanarea sistematică Informații de care avem nevoie pentru a aplica acest tip de eșantionare
O listă cu populația de referință (cadru) Se stabilește un pas mecanic K 5.3.Eșantionarea stratificată Procedee:
a) Eșantionarea stratificată proportional b) Eșantionarea stratificată neproporțional c) Eșantionarea stratificată optimă
a.Eșantionarea stratificată proportional Etape:
1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,
județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului
populației din acel strat raportat la volumul întregii populații de referință 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu. Dorim să realizăm o cercetare pe tema fertilității la nivelul județului Brașov.Scopul este de a întreprinde politici demografice de creștere a natalității. Presupunem n
(volumul eșantionului)=2000 persoane2
1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din
județul Brașov, Tab 3, coloana 3)2. se stabilesc straturile populației (I categorie de straturi-vârsta (Tab 3, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 3, coloana 3, 4))3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului
populației din acel strat raportat la volumul întregii populații de referință, pentru fiecarecategorie de strat în parte (Tab 3, coloana 5, Tab 4 coloana 5, 6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)
2 aceast a cifră a fost rotunjită pentru ușurința în calcule
-
8/16/2019 Suport Curs Statistica Univariata 2015
12/49
12
Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)
Tabelul 5.1: Eșantionarea stratificată proporțional-după volumul populației de sex
feminin din județul Brașov-prima categorie de straturi (categoriile de vârstă) Eșantionare stratificată proproțional
Straturile
(categorii de
vârstă-femei)Rate fertilitate
20123
Ni (volumul populației desex feminin pe prima
categorie de straturi-
vârsta)4
pi(repartizarea
volumului
populației pe prima
categorie de
straturi)
ni (repartizarea
volumului
eșantionului pefiecare strat în
parte-din
prima
categorie)
1 2 3 4 5
15-19 ani 35 13341 9,9% 199
20-24 ani 64 17292 12,9% 258
25-29 ani 83 25430 19% 379
30-34 ani 59 26707 19,9% 398
35-39 ani 25 27777 20,7% 414
40-44 ani 4 23619 17,6% 352
45-49 ani 0,2
TOTAL 134166 100% 2000
Tabelul 5.2: Eșantionarea stratificată proporțional-după volumul populației din județul
Brașov-a doua categorie de straturi (mediul de rezidență) Eșantionare stratificată proporțional
I categoriede straturi-
vârsta
ni (repartizare
avolumuluieșantionului pe fiecare
strat în parte-prima
categorie
de straturi)
p j (repartizarea volumului populației de sex feminin pe adoua categorie de straturi-mediul de rezidență)5
ni (repartizarea volumului eșantionului pefiecare strat în parte-din a doua categorie)
urban rural urban rural
1 2 3 4 5 6
15-19 ani 199 63,8% 36,2% 127 72
20-24 ani 258 68,7% 31,3% 177 81
25-29 ani 379 74,3% 25,7% 282 97
30-34 ani 398 77,1% 22,9% 307 91
35-39 ani 414 76,4% 23,6% 316 98
40-44 ani 352 73,7% 26,3% 260 92
TOTAL 2000 73,7% 26,3%- 1469 531
3 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)4 idem 5 ibidem
-
8/16/2019 Suport Curs Statistica Univariata 2015
13/49
13
b.Eșantionarea stratificată neproporțional -nu ține cont de structura populației în funcțe de volum ci de alte criterii mai relevante pentrucercetare
Etape:
1. se stabilește populația de referință
2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați, județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu. Pentru cercetarea mai sus menționată despre fertilitatea în județul Brașov, mai util
pentru cercetare este eșantionarea stratificată neproporțional. Este mai util să ținem cont demărimea ratei de fertilitate pe fiecare categorie de vârstă. Presupunem n (volumuleșantionului)=2000 persoane6 1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din
județul Brașov, Tab 5, coloana 1)2. se stabilesc straturile populației (I categorie de straturi-vârsta (Tab 5, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 5, coloana 1)) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul (ratele de fertilitate,Tab 5, coloana 3,4, Tab 6 coloana 5,6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)
Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)
Tabelul 5.3: Eșantionare stratificată neproporțională- județul Brasov-prima categorie destraturi
esantionare stratificata neproproțională
Categorii de
vârstă Rate fertilitate
2012
pi (ponderea ratei de fertilitate
în suma ratelor de fertilitate)
ni(volumul eșantionuluiîn funcție de pi,coloana 3)
1 2 3 4
15-19 ani 35 0,130 259
20-24 ani 64 0,237 47425-29 ani 83 0,307 615
30-34 ani 59 0,219 437
35-39 ani 25 0,093 185
40-44 ani 4 0,015 30
45-49 ani 0,2
TOTAL 270 1 2000
6 Aceasta cifră a fost rotunjită pentru ușurința în calcule
-
8/16/2019 Suport Curs Statistica Univariata 2015
14/49
14
Tabelul 5.4: Eșantionare stratificată neproporțională- județul Brasov-a doua categoriede straturi
esantionare stratificata neproproțională
Categorii de
vârstă
ni(volumul
eșantionului în
funcție deratele de
fertilitate pe
categorii de
vârstă)
p j (repartizarea ponderei ratelor de fertilitate pe a doua categorie de straturi-mediul de
rezidență)7
ni(volumul
eșantionului înfuncție de pi, coloana3,4)
urban8 rural urban rural
1 2 3 4 5 6
15-19 ani 259 0,258 0,742 67 192
20-24 ani 474 0,307 0,693 146 328
25-29 ani 615 0,437 0,563 269 346
30-34 ani 437 0,508 0,492 222 21535-39 ani 185 0,556 0,444 103 82
40-44 ani 30 0,466 0,534 14 16
TOTAL 2000 - - 2000
Cum diferă volumul eșantionului în funcție de cele două tipuri de eșantionare? 1. La eșantionarea stratificată proporțională ar trebui să se intervieveze un număr mare defemei cu vârsta peste 35 de ani și în număr mult mai mare din urban 2. la eșantionarea stratificată neproporțională ar trebui să se intervieveze mai puține femei cuvârsta peste 35 de ani și mai multe cu vârsta 20 -35 ani, DAR mai multe din mediul rural
(pentru că acolo este rata de fertilitate mai mare) Dacă dorim să vedem care sunt motivele pentru care cele care dau naștere la copii facacest lucru, atunci acest tip de eșantionare (al doilea) este mai potrivit. Dacă dor im să
văd em de ce femeile din urban nu doresc să dea naștere la copii, probabil primul tip
de eșantionare este mai potrivit (pentru ca ține cont de ponderea populației din urban)
Prin urmare ce metodă de eșantionare folosim? Cea care corespunde cel mai bineobiectivului cercetării noastre, dar și costurilor de timp și bani.
c.Eșantionarea stratificată optimă
-ține cont atât de volumul populației de referință pe fiecare strat în parte dar și de variația uneivariabile pe fiecare strat în parte Etape:
1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,
județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)
7 ibidem
8 ratele de fertilitate au fost luat separat urban/rural pe fiecare categorie de vârstă a populației de sex feminin. Datele sunt reale, preluate de pe
http://statistici.insse.ro/(Tempo-Online)
-
8/16/2019 Suport Curs Statistica Univariata 2015
15/49
15
Exemplu. Dorim să realizăm o cercetare privind bunăstarea populației României. Vom utilizaaceastă metodă de eșantionare deoarece ține cont atât de volumul populației pe fiecare strat în
parte dar și de gradul de eterogenitate în ce privește veniturile (Tab 7, coloana 4). Se știefaptul că cu cât o populație este mai eterogenă d.p.d.v.d a unei variabile de interes pentrucercetare cu atât volumul eșantionului ar trebui să fie mai mare, pentru a surprinde diferitele
categorii de persoane.
Tabelul 5.5: Eșantionarea stratificată optimă-macroregiuni România
esantionare stratificată optimă
Straturi
Ni
(volumul
populației pe fiecare
macroregi
une)9
pi%
(ponde
rea
volum
ului
popula
ției pefiecare
strat în parte)
Deviatiastandard a
veniturilor
σi10
Ni* σi(deviatia
standard)
pi% din
Ni*σi ni=n* Ni*σi /suma Ni*σi
1 2 3 4 5 6 7
Macroregi
unea unu 4950475 25% 705 3490084875 43% 880
Macroregi
unea doi 5792920 29% 405 2346132600 29% 591
Macroregiunea trei 5379697 27% 300 1613909100 20% 407
Macroregi
unea patru 3862722 19% 125 482840250 6% 122
Total19985814 100% 7932966825 100%
5.4.Eșantionarea multistadială -nu e de sine stătătoare -se combină cu stratificată -diferite tipuri de unități de eșantionare sunt analizate în diferite etape
Ex. Eșantionarea bistadială stratificată, unde în primul stadiu au fost selectate facultățile care participă la studiu, iar în al doilea stadiu au fost selectate programele de studiu.5.5.Eșantionarea multifazică -același tip de unități de eșantionare sunt analizate în etape diferite cu instrumente diferite 5.6.Eșantioanarea cluster - presupune existența unor grupări naturale (regiuni istorice, macroregiuni, județe ect) 1. grupările naturale sunt diferite între ele și trebuie să luăm în eșantion din toate grupărilenaturale
9 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)
10 Date fictive
-
8/16/2019 Suport Curs Statistica Univariata 2015
16/49
16
2. se consideră că unitățile de eșantionare din cadrul grupărilor naturale sunt omogene d.p.d.val unei variabile importante pentru studiu, astfel încât nu contează prea mult modul deselectare a unităților5.7.Eșantioane fixe panel -cercetarea se realizează pe aceleași persoane la un interval de timp
Curs 6. Metode de eșantionare neprobabiliste6.1. Eșantionare la întâmplare 6.2. Eșantioane de voluntari6.3. Eșantionarea dirijată 6.4. Eșantionare pe cote
a. cote simpleEtape:
1. se stabilește populația de referință
2. se stabilesc cotele populației (care de regulă sunt raportate la variabila sex și vârstă, dar poate fi orice altă variabilă socio-demografică; poate fi o singură cotă sau mai multe) 3. se stabilește volumul eșantionului pe fiecare cotă în parte în funcție de ponderea volumului
populației pe fiecare cotă în parte 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectateîntâmplător, dar pentru a se asigura condiții apropiate de reprezentativitatea unui eșantion suntstabilite niște criterii obiective (aceasta este diferența majoră față de eșantionareastratificată)
Notă. Dacă sunt respectate condiții stricte pentru selectarea indivizilor aceasta metodă de
eșantionare se apropie cel mai mult de metodele de eșantionare probabiliste.
Exemplu. Tema cercetării: Atitudinea față de persoanele cu disabilități. Populația dereferință: persoanele din municipiul Brașov cu vârsta 15-64 ani (date reale). Volumuleșantionului n=2000 persoane
Tabelul 6.1: Eșantionarea pe cote simple în funcție de sex-municipiul Brașov Sex Ni (volumul
populației municipiului
Brașov)
pi (ponderea
populației pecele două ccote)
ni
(repartizarea
volumului
eșantionului pe fiecare
cotă în parte)1 2 3 4
Masculin 103155 48% 960
Feminin 111023 52% 1040
Total 214178 100% 2000
11 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)
-
8/16/2019 Suport Curs Statistica Univariata 2015
17/49
17
Tabelul 6.2: Eșantionarea pe cote simple în funcție de vârstă-municipiul Brașov
Vârsta
Ni (volumul
populației municipiului
Brașov)
pi (ponderea
populației pecele două ccote)
ni
(repartizarea
volumului
eșantionului
pe fiecarecotă în parte)
1 2 3 4
15-19 ani 9158 4,3% 86
20-29 ani 37641 17,6% 351
30-39 ani 54916 25,6% 513
40-49 ani 43773 20,4% 409
50-59 ani 46292 21,6% 432
60-64 ani 22398 10,5% 209
TOTAL 214178 100% 2000
b. cote combinate
Tabelul 6.3: Eșantionarea pe cote combinate în funcție de sex și vârstă-date la nivelulpopulației din municipiul Brașov
Gen
Vârsta masculin feminin Total15-19 ani 4616 4542 9158
20-29 ani 18795 18846 37641
30-39 ani 27415 27501 54916
40-49 ani 20900 22873 4377350-59 ani 20667 25625 46292
60-64 ani 10762 11636 22398
Total 103155 111023 214178
Tabelul 6.4: Eșantionarea pe cote combinate în funcție de sex și vârstă-date la niveluleșantionului pentru populația din municipiul Brașov
Date reale-
municipiul
Brașov
Gen Ni *volumul
eșantionului)
Vârsta masculin feminin masculin feminin TOTAL15-19 ani 4,5% 4,1% 43 43 86
20-29 ani 18,2% 17% 175 177 351
30-39 ani 26,6% 24,8% 255 258 513
40-49 ani 20,3% 20,6% 195 214 409
50-59 ani 20% 23,1% 192 240 432
60-64 ani 10,4% 10,5% 100 109 209
TOTAL 100% 100% 960 1040 2000
Care este diferența dintre eșantionarea stratificată proproțională și cea pe cote?
12 idem
-
8/16/2019 Suport Curs Statistica Univariata 2015
18/49
18
Figura 6.1: Diferențe dintre metoda de eșantionare stratificată și cea pecote
Cum stabilim ce metode de eșantionare folosim? 1. Dacă avem tim p și bani și avem acces la date referitoare la populația de referință (listă cutoate unitățile de eșantionare) atunci vom apela la metodele de eșantionare probabiliste(aleatorie/sistematică/stratificată) 2. Dacă avem timp și bani și avem acces la date referitoare la populația de referință (doar dategenerale legate de structura pe sex, vârstă etc) atunci vom apela la metodele de eșantionareneprobabiliste (pe cote)
3. Dacă nu sunt suficiente resurse de timp și bani dar avem ceva date referitoare la populațiade referință putem apela la eșantionar ea cluster.4. Dacă nu putem avea acces la populația de referință (tema cercetării este delicate) sau nusunt resurse de bani, vom apela la eșantionarea neprobabilista (dirijată, la întâmplare, devoluntari)
Exerciții1. Dorim să realiz ăm o cercetare pe tema divorțialității
a.
Ce metodă de eșantionare ați folosit? b. De ce ați ales această metodă de eșantionare ?c. De ce informații aveți nevoie pentru a putea realiza această metodă de
eșantionare? Aveți acces la aceste informații?2.
Dorim să realizăm o cercetare privind relaț ii le de cuplu, doar pe cuplur il e caretr ăiesc î n uniune consensuală?
a. Ce metodă de eșantionare ați folosit? b. De ce ați ales această metodă de eșantionare ?c. De ce informații aveți nevoie pentru a putea realiza această metodă de
eșantionare? Aveți acces la aceste informații?
esantionare stratificata
versus eșantionare pecote
eșantionare stratificatăproporțională
PRIMULSTRAT
AL DOILEA STRAT (face
parte din primul strat)
unitatea de
eșantionarea este selectată aleator
eșantionarepe cote
cote simple
gencategorii
vârstă
cotecombinate
gen vârstă
unitatea de eșantionare nu este selectată aleator
-
8/16/2019 Suport Curs Statistica Univariata 2015
19/49
19
CURS 7.METODE DE ESANTIONARE NEPROBABILISTE-EXERCIȚII
Esantionare pe cote
a. simple
Tema cercetării: Atitudinea față de persoanele cu disabilități Populația de referință: persoanele din municipiul Brașov (date reale)
n=2000 persoaneSex Persoane
15-64 ani
Ni volumul
populației Pi-procente ni
Masculin 103155 48% 960
Feminin 111023 52% 1040
Total 214178 100% 2000
Vârsta Ni volumul
populației Pi-procente ni
15-19 ani 9158 4,3% 86
20-29 ani37641 17,6% 351
30-39 ani 54916 25,6% 513
40-49 ani 43773 20,4% 409
50-59 ani 46292 21,6% 432
60-64 ani 22398 10,5% 209
TOTAL 214178 100% 2000
b. combinate
Date reale-municipiul
Brașov Gen
Vârsta masculin feminin TOTAL
15-19 ani 4616 4542 9158
20-29 ani 18795 18846 37641
30-39 ani 27415 27501 54916
40-49 ani 20900 22873 43773
50-59 ani 20667 25625 46292
60-64 ani 10762 11636 22398
TOTAL 103155 111023 214178
Date privind numărulde chestionare ce
trebuie realizate
Gen
Vârsta masculin feminin TOTAL
15-19 ani 86
20-29 ani 351
30-39 ani 513
40-49 ani 409
50-59 ani 432
60-64 ani 209
TOTAL 960 1040 2000
-
8/16/2019 Suport Curs Statistica Univariata 2015
20/49
20
Date reale-
municipiul
Brașov
Gen ni *volumul eșantionului)
Vârsta masculin feminin masculin feminin TOTAL
15-19 ani4,5% 4,1% 43 43 86
20-29 ani18,2% 17% 175 177 351
30-39 ani26,6% 24,8% 255 258 513
40-49 ani20,3% 20,6% 195 214 409
50-59 ani20% 23,1% 192 240 432
60-64 ani10,4% 10,5% 100 109 209
TOTAL 100% 100% 960 1040 2000
Care este diferența dintre eșantionarea proproțională și cea pe cote simple?
Figura 7.1. Diferențe dintre eșantionarea proporțională și cea pe cote
Exercitii3. Dorim sa realizam o cercetare pe tema divortialitatii
a. Ce metoda de esantionare ati folosi?
b. De ce ati ales aceasta metoda ?
c.
De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem acces
la aceste informatii?
4. Dorim sa realizam o cercetare privind relatiile de cuplu, doar pe cuplurile care traiesc in
uniune consensuala?
a. Ce metoda de esantionare ati folosi?
b. De ce ati ales aceasta metoda ?
c.
De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem accesla aceste informatii?
esantionarestratificata versus
eșantionare pecote
eșantionarestratificată
proporțională
PRIMUL STRAT
AL DOILEA STRAT(face parte dinprimul strat)
eșantionare pecote
cote simple
gen categorii vârstă
cote combinate
gen vârstă
-
8/16/2019 Suport Curs Statistica Univariata 2015
21/49
21
Curs 8. Culegerea datelor
1. Aspectice practice ale eșantionării După ce am proiectat teoretic un eșantion, cum facem în mod practic pe teren să
selectăm persoanele care urmează să fie intervievate? Atunci când aplicăm o metodă de eșantionare care necesită o listă cu populația cadru,
lucruri sunt simple. Vor fi intervievate acele persoane care au fost selectate din listă. Cum se procedează însă atunci când nu există o listă cu populația cadru?
Pasul 1. Alegerea zonelor/localităților/cartierelor Metoda areolară/pe zone
Se va lua zona vizată pentru cercetare și va fi împărțită în zone care vor deveniobiecte de selecție aleatorie simplă sau stratificată. În cazul zonelor alese se poate proceda laun nou stadiu de selecție sau dacă unitățile sunt mici pot fi intervievate toate persoaneleincluse aici.
Ex1. Municipiul Brașov (se va lua harta și se va împărți orașul pe cartiere/puncte devotare)
Ex2. Județul Brașov (se va lua harta și se va împărți județul pe zone (urban/rural)/localități/cartiere/străzi
Pasul 2. Alegerea punctelor de sondaj (gospodăriilor) Metoda itinerarelor (random route)
Ex. Se pot trage la sorț un număr de străzi/a unei adrese de pe fiecare stradă. O datăaleasă prima adresă, operatorul de interviu va primi instrucțiuni de selectarea a următoareloradrese de pe stradă Pasul 3. Alegerea persoanei de intervievatEste indicat de a lăsa cât mai puțin la latitudinea opratorului modul de selectare a persoanelor.Se pot da fie doar cote și atunci el are o marjă destul de mare de a selecta indivizii, fie se potda scheme complexe se selectare a persaonelor. (vezi Rotariu Traian și Iluț Petru, Ancheta
sociologică și sondajul de opinie, Ed Polirom, Iași, 2006, 185-187)Ex.primul care și-a sărbătorit cel mai recent ziua de naștere, scheme mai complexe
2.Managementul cercetării Plan de acțiune-Diagrama GanttPreîntâmpinarea și diminuarea diferitelor tipuri de erori
-
8/16/2019 Suport Curs Statistica Univariata 2015
22/49
22
Exemplu. Planificarea activităților pentru o cercetare cantitativă (anchetă pe bază de chestionar) ACTIVITATEA LUNA
I 2 3 4
săptămâna săptămâna săptămâna săptămâna
1 2 3 4 1 2 3 4 1 2 3 4 1 2
1. ntâlnire cu beneficiarii prestației sociologice(pentru clarificarea obiectivelor cercetării șiaspectelor financiare)
2. Documentarea3. Stabilirea metodologiei de lucru (metoda, tehnica,
procedeul, volumul eșantionului/metoda deeșantionare) 3. Realizarea instrumentului/instrumentelor
cercetării 4. Selectarea operatorilor de teren
5. Pretestarea instrumentului/instrumentelor
cercetării 6. Culegerea datelor din teren
7. Realizarea bazei de date/bazelor de date
8. Realizarea raportului de cercetare
9. Prezentarea raportului de cercetare
-
8/16/2019 Suport Curs Statistica Univariata 2015
23/49
23
3. Tipuri de erori (ce se referă la managementul eșantionării) a. Erori întâmplătoare (ex. Operatorul a notat greșit vârsta)
Eroarea finală (la nivel de grup) se numește eroare netă. Dacă numărul persoanelorintervievate este mare atunci această eroare netă tinde către zero. b. Erori sistematice
o
La nivelul respondentuluio La nivelul operatorului
o La nivelul celui care realizează instrumentul cercetării (chestionarul)b.1. Erori intenționate Modalități de a preveni erorile intenționate
La nivelul respondentului Întrebări de control Instruire, experiență La nivelul operatorului Verificarea muncii de teren
La nivelul celui care
realizează instrumentul
cercetării (chestionarul)
Controlul și sancționarea firmeide cercetare de către clientul
cercetării b.2. Erori neintenționate
b.2.1.Erori legate de construirea chestionarului
Erori datorate formulării întrebărilor
o Limbajul
o Conținutul
Ex1. Două întrebări în aceeaiași propoziție (În ce măsură sunteți mulțumit
de conținutul procesului de învățământ și de dotările tehnice din
Facultatea de Sociologie și Comunicare?)
Ex2.răspunsuri dezirabile (Sunteți de acord ca statul să intervină în
protejarea mediului înconjurător? control Cât la sută din venitul dvs ați fidispus se mearga la taxe pentru mediu?)(nr7)
Erori generate de numărul și ordinea întrebărilor
o Numărul întrebărilor (durata interviului este prea mare, un număr mare de
întrebări măsurate pe aceeași scală)
o Ordinea
Întrebări dificile
Contaminarea răspunsurilor
Erori generate de forma de răspuns
o Se sugerează variante de răspuns când de fapt el nu are o opinie
o
Întrebările deschise (Ce părere aveți despre construirea Aeroportului din
Ghimbav? sau Sunteti de acord cu construirea Aeroportului din Ghimbav?)
o Ordinea variantelor de răspuns (efectul cap de listă)
Erori produse de construcția grafică a chestionarului (greu de completat)
b.2.2.Erori datorate operatorilor de interviu
Trăsături de personalitate (calitatea rețelei de operatori)
Corelația dintre tema cercetării și atitudinea respondentului față de tema
Anticipațiile operatorului
o Anticipațiile de structură-atitudine
o
Anticipații de rol o Anticipații de probabilitate
-
8/16/2019 Suport Curs Statistica Univariata 2015
24/49
24
b.2.3.Erori datorate respondenților
Dezirabilitatea socială
Limitele memoriei umane
Procesarea și interpretarea informației (nu înțeleg, nu sunt atenți etc)
Curs 9_10. Analiza datelor
Etape premergătoare analizei datelor. Cu alte cuvinte ce avem de făcut după am adunatdatele din teren?
9.1. Realizarea unei baze de date-selectarea chestionarelor valide-numerotarea chestionarelor-realizarea unui cap de tabel (care să conțină și numărul chestionarelor)-completarea bazei de date
9.2. Verificarea și corectarea bazelor de date -Frecvențe simple-Find_Replace (vezi laborator)9.3. Verificarea reprezentativității eșantionului (dacă am utilizat metode de eșantionare
probabiliste sau neprobabiliste pe cote) Avem următoarele situații? Putem considera că este respectată structura populației în funcție de sex,vârstă sau naționalitate dacă am lucrat cu o eroare de +/-2%?
Tabelul nr.9.1: Structura populaţie şi a eşantionului în funcţie de sex
Structura populaţiei municipiuluiBraşov după sex
Structura eşantionului dupa sex
masculin 47.2% 44%
feminin 52.8% 56%
Total 100% 100%
Tabelul nr.9.2: Structura populaţie şi a eşantionului în funcţie de vârstă
Structura populaţiei municipiului Braşovdupă vârsta
Structura eşantionului după vârstă
18-24 ani 14.1% 14.4%
25-29 ani 11.2% 12.2%
30-34 ani 9.4% 11.6%
35-39 ani 9.0% 8.7%
40-44 ani 7.6% 7.3%
45-49 ani 8.9% 7.5%
50-54 ani 11.2% 10.9%
55-59 ani 8.6% 7.4% peste 60 ani 19.9% 20%
Total 100% 100%
Tabelul nr.9.3: Structura populaţie şi a eşantionului în funcţie de naţionalitate
Structura populaţiei municipiului Braşovdupă naţionalitate
Structura eşantionului după naţionalitate
roman 90.7% 92.5%
maghiari 8.1% 6.9%
rromi 0.3% 0%
germani 0.6% 0.3%
alta 0.3% 0.3%
Total 100% 100%
-
8/16/2019 Suport Curs Statistica Univariata 2015
25/49
25
9.4. Ce facem dacă eșantionul nu respectă structura populației? -ponderarea eșantionului
Tabelul nr.9.2: Ponderarea eșantionului în funcție de sex
Structura populaţiei municipiuluiBraşov după sex
Structura eşantionului dupasex
Variabila de ponderare
masculin 47.2% 44% 1.07 (47,2%/44%)
feminin 52.8% 56% 0,94 (52,8%/56%)
Total 100% 100%
-toate analizele in SPPSS se fac în funcție de variabila ponderată (această variabilă se introduce laDATA/ WEIGHT CASES)
9.5. analiză univariată a datelor 9.6. analiză bivariată 9.7. analiză multivariată 9.8 raportul de cercetare
9.5.Analiza univariată a datelor-descrierea datelor Fiecare variabilă este analizată separat.
a. Tabele de frecvențe ți grafice cu o singură variabilă (pentru varibile măsurate pe scală nominalsau ordinal )
Tabele de frecvențe
-
8/16/2019 Suport Curs Statistica Univariata 2015
26/49
26
Grafice
De unde se fac și tabelele de frecvențe
SAU DIN
b. Indicatori de poziţie (media, mediana, modul)(pentru variaile măsurate pe scală deinterval sau raport)
Redau printr-o singură valoare numerică nivelul general al seriei.b1. Media- Se adună scorurile și se împart la numărul total de scoruri sau la numărul total de
frecvențe relative (formula 2)-valoarea medie
Notație:
-
8/16/2019 Suport Curs Statistica Univariata 2015
27/49
27
Notă: Media, modul se poat utiliza și pentru variabile ordinale
Medie aritmetică simplă
n
x
x
n
i
i 1
Dacă utilizăm frecvenţe formula devine:
Medie ponderata
n
xk
x
s
i
ii 1 unde s = numărul de categorii/clase; ki = frecvenţa
Cele două formule prezentate sunt echivalente.În practică, însă, unii utilizatori comit eroarea de a considera că formula 2 este o medie
ponderată. Însă, media ponderată apare atunci când se încalcă principiul democraţiei statistice carespune în esenţă că fiecare individ statistic contează cât oricare alt individ. Eroarea apare atunci cândfrecvenţele sunt considerate ponderi.
Trebuie să reţinem încă un aspect deosebit de important: media nu este o valoare mijlocie;media poate fi foarte departe de mijlocul intervalului de valori.
Exemplu 1.Media-(formula 1). Care este nivelul mediu de pregătire al studenților din grupa
1 de la programul de studiu Sociologie la disciplina Statistică socială univariată? Presupunem că avem 10 studenţi în grupă care au următoarele note la Statitică socialăunivariată:xi :4,8,5,7,6,9,5,4,10,9
̅=6,7Interpretare: Studenții din grupa 1 au în medie nota 6,7. Deci, gradul lor de cunoștințe este
unul de nivel mediu la această disciplină.
Exemplu 2.Media-(formula 2). Aceeași serie de date – formula 1
Aceleași note ale studenţilor le punem în tabele cu frecvențe xi:4,8,5,7,6,9,5,4,10,9Nota-xi Frecevenţa k i
4 2
5 2
6 1
7 1
8 1
9 2
10 1
n=10-numărul de note (numărul de k i)̅ =6,7Interpretare: idem exemplu 1
Media: Formula 1
Media: Formula 2-
-
8/16/2019 Suport Curs Statistica Univariata 2015
28/49
28
Exemplu 3.Media-(formula 2). Presupunem că avem un student care a luat următoarele notela cele 7 discipline dintr-un semestru. Fiecare disciplină are un număr de credite. Care este mediastudentului pe semestru?
Nota-xi Creditele k i
4 5
5 3
6 4
7 5
8 5
9 4
10 4
Total n=30
n=30-numărul de credite (numărul de k i)̅=7
Interpretare: Studentul are media 7 pe primul semestru.b2. Modul -valo area cea mai des întâlnită
Notație: MoExemplu 4.Modul. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1de la
programul de studii Sociologie. Presupunem că avem n=10 studenți în grupă care au mers astfel la bibliotecă...
Nr zile xi:1, 0, 5, 7, 5, 4, 5, 2,3, 4,Mo=5Interpretare: Cei mai mulți studenți au mers 5 zile pe săptămână.
Exemplu 5.Modul. Luăm același exemplu cu notele studentilor din grupa 1 la Statistica
sociala: xi: 4,8,5,7,6,9,5,4,10,9Mo=4, 5, 9Interpretare: în acest caz nu avem o singură valoare modală, și atunci vom spune că cei mai
mulți studenți au luat nota 4, 5 sau 9. b3. Mediana- valoarea care împarte seria în două părți egale
Notație: Me
Exemplu 6.Mediana. Notele studentilor din grupa 1 la Statistica sociala
Presu punem că avem 10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9
Seria ordonată.xi: 4,4, 5, 5, 6, 7, 8, 9, 9, 10Me=(6+7)/2=6,5 (suma celor două valori de la mijloc) Interpretare : 50% dintre studenți au luat note până în 6,5 iar 50% peste 6,5.
Exemplu 7.Mediana. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1 xi: 1, 0, 5, 7, 5, 4, 5, 2,3,
Seria ordonată: xi 0, 1, 2, 3, 4, 5, 5, 5, 7Me=4 (valoarea de la mijloc)Interpretare : 50% dintre studenți au mers la bibliotecă până în 4 zile pe lună, iar 50% peste 4
zile pe lună
-
8/16/2019 Suport Curs Statistica Univariata 2015
29/49
29
Exemplu 8.Modul. Presupunem că avem 80 de studenți de la programul de Asistență socială care au luat
următorele note la disciplina Statistică socială univariată. Nota-xi –nota studenților din anul I
AS
Frecevenţa k i
4 10
5 25
6 8
7 15
8 10
9 7
10 5
Total 80
Mo= 5
̅= 6,38Me=6.03
Formula 3. Relația dintre cei trei indicatori. Mo = Me – 3 ( x -Me)
Cum decidem când folosim unul din indicatori? Dacă seria este omogenă, putem utiliza media, dacă seria este eterogenă folosim mediana sau
modulul.Cum vedem dacă o serie este omogenă sau nu?
Abaterea standard, coeficientul de variație.
c. Indicatori de dispersieIndicatorii de dispersie reflectă gradul de inegalitate între indivizi (omogenitate/eterogenitate).Indicatorii de dispersie reprezintă măsura în care indivizii se dispersează pe scala de valori; măsoarăinegalităţile dintre indivizi (ex. veniturile – indicatorul de dispersie relevă imediat inegalităţileexistente)
c1.Amplitudinea – distanța dintre cea mai mare valoare și cea mai mică, arată cât de mare e variațiascorurilor
Notație: A Formula 4. Amplitudinea. A = xmax – xmin
Exemplu 9. Amplitudinea
Presupunem că avem 80 de studenți de la programul de Asistență socială car e au luat
următorele note la disciplina Statistică socială univariată. Nota-xi –nota studenților din anul I
AS
Frecevenţa k i
4 10
5 25
6 8
7 15
8 10
9 7
10 5
Total 80
A=10-4=6
-
8/16/2019 Suport Curs Statistica Univariata 2015
30/49
30
C2. Abaterea standard (deviația standard) -Măsoară gradul de eterogenitate sau de dispersie faţăde medie. Cu cât are o valoare mai mare cu atât seria este mai eterogenă.
Notație: (sigma)
Exemplu 10.Abaterea standard-serie simplă Presupunem că avem o serie cu banii pe care i-au cheltuit un grup de studenţi într -o săptămână,
pe produse de birotică (euro). În grup sunt 20 de studenți. Dorim să aflăm cât de împrăștiate suntvalorile față de medie. Cu alte cuvinte, studentii pot fi considerați un grup omogen sau eterogen ?
Formula 5. Abaterea standard-serie simplă
Formula 6. Abaterea standard –serie cu frecvențe
n
x xk i
n
i
i
2
1
)(
Exemplu 10. Abaterea standard-(formula 5)
Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60
Formula 5. ̅=22,9 =15,69
Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru unîncepător să estimeze dacă grupul este omogen sau nu.
Exemplu 11. Abaterea standard-(formula 6)
Nota-xi –nota studenților din anul I
AS
Frecevenţa k i
4 10
5 25
6 8
7 15
8 10
9 7
10 5
Total 80
Formula 6. =1.77, ̅=6.38
Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru un
începător să estimeze dacă grupul este omogen sau nu. Cum interpretăm prin raportare la celalalt exemplu? Nu putem.
Este mai ușor noțiunea de deviaţie standard dacă este vizualizată. Figura de mai sus conţinedouă seturi de curbe de frecvenţa. Care dintre curbele din figura au deviaţie standard mai mare? Dintrecurba A şi B, distribuţia valorilor din curba A este mai eterogenă, are o deviaţie standard mai mare dela medie. Dintre curba C şi D, distribuţia valorilor din curba C este mai eterogenă şi are o deviaţiestandard mai mare.
n
x xi
n
i
2
1
)(
-
8/16/2019 Suport Curs Statistica Univariata 2015
31/49
31
Figura nr.8.1. Curbe de distribuție ale valorilor
C3.Coeficientul de variaţie-Este un indicator care indică gradul de omogenitate/eterogenitate a unei
serii de date. Se exprimă în procente. Dacă ν este mai mic decât 35-40%, atunci seria este omogenă iarmedia sa este reprezentativă,
Notație: v
Formula 7. Coeficientul de variație x
v
*100%
Exemplu 12. Coeficientul de variație ̅=6.38
v=1.77/6.38= 0.2774= 27.74%I nterpretare : Coeficientul este mai mic de 40% deci seria este omogenă și media este reprezentativă
Exercițiu. Avem o medie a cheltuielilor firmelor cu serviciile de comunicaţii electronice de 2056 ronşi o abatere standard de 1158. Este media cheltuielor reprezentativă pentru toate firmele din Braşov?
Varianţa 2
Denumită şi dispersie, se defineşte ca fiind pătratul mediu al abaterilor valorilor observate de lamedia lor. Varianţa este un index matematic al gradului în care scorurile deviază de la medie (sausunt în varianţă cu ea). O varianţă mică indică faptul că majoritatea scorurilor distribuţiei se aşeazădestul de aproape de medie; dacă este mare, atunci scorurile sunt împrăştiate mult. Deci, varianţaeste direct proporţională cu gradul de dispersie. Pentru a calcula varianţa unei distribuţii, mediaeste scăzută din fiecare scor. Diferenţa se ridică la pătrat, apoi se împarte suma pătratelor la n
Formula 8. Varianța-serie simplă
2 =
n
x xi
n
i
2
1
)(
Exemplu 13. Varianţa (formula 8) Luăm acelaşi exemplu de mai sus cu preţurile produselor achiziţionate de un grup de studenţi,
de data aceasta la un grup mai mare de 20 persoane.Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60
n=20
x =22.9
σ2 = ((2-22.9)2 + (4-22.9)2 + (6-22.9)2 +......+ (60-22.9)2 )/20 = 246.34
AB
C
D
-
8/16/2019 Suport Curs Statistica Univariata 2015
32/49
32
I nterpretare : Această valoare e greu de interpretat în lipsa unui referențial. Este folosită maidegrabă pentru calculul altor indicatori.
Formula 9. Varianța-serie cu frecvențe
2 =
n
x xk i
n
i
i
2
1
)(
Exemplu 14. Varianţa – (formula 9)
Nota-xi – nota studentilordin anul I AS
Frecevenţa k i
4 10
5 25
6 8
7 15
8 10
9 710 5
Total 80
x =6.382
= (( 10*(4-6.38)2 + 25*(5-6.38)2 +9*(6-6.38)2 +...+5*(10-6.38)2)/80=1.77
d.Mărimi multiple
d.1.Cuartilele
Sunt trei cuartile ce împart seria de date în patru părţi egale.
Cuartila inferioară este prima cuartilă în ordine ascendentă de aranjare a datelor . Se noteazăcu Q1 şi ne arată pânâ la ce valoare sunt distribuite primele 25% din valori.
Cuartila mijlocie, reprezintă jumătatea seriei şi este identică cu mediana, cuartila putând ficalculată în acelaşi mod ca şi aceasta. Se notează cu Q2 (Q2=Me) şi ne arată până la cevaloare sunt distribuite primele 50% din valori.
Cuartila superioară reprezintă trei sferturi în ordine ascendentă a datelor. Se notează cu Q3 şine arată până la ce valoare sunt distribuite primele 75% din valori.
Ultima cuartilă, Q4, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această cuartilă reprezintă valoarea maximă din seria de date.
Pentru calcularea cuartilelor trebuie parcurşi doi paşi :1. se calculează mai întâi poziţia în seria de date a respectivei cuartile ;
2. se calculează valoarea efectivă a cuartilei.
Exemplu 15. Cuartilele-serie simplă. Notele studentilor din grupa 1 la Statistică socială
Presupunem că avem n=10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9
Seria ordonată xi: 4,4, 5, 5, 6, 7, 8, 9, 9, 10Q1 - cuartila inferioară
-
8/16/2019 Suport Curs Statistica Univariata 2015
33/49
33
1.Poziţia va fi egalã cu: (n+1)/4=(10+1)/4= 2.75≈3Aceasta cuartilă va fi al treilea număr al seriei. Aceasta înseamnă că 5 este cuartila inferioară. Q1==5
I nterpretare: 25% dintre studenți au luat note până la valoarea de 3 restul au luat peste 3.
Q3 - cuartila superioară Poziţia cuartilei superioare se obţine în mod asemănător, cu excepţia faptului că este vorba de
trei sferturi, deci vom multiplica poziţia cuartilei inferioare cu 3. Poziţia cuartilei superioare va fi egalăcu: 3×(n +1)/4 = 8.25≈8
Reprezintă al optulea număr din secvenţă. Aceasta înseamnă că Q3=9 I nterpretare: 75% dintre studenți au luat note până la valoarea de 9 restul au luat peste 9.
Q2=Me- mediana
Poziţia medianei va fi egalã cu: 2×(n +1 )/4 = 5.5≈(între 6 și 7) Me= 6,5
I nterpretare: 50% dintre studenți au luat note până la valoarea de 6.5 restul au luat peste 6.5. Prin cunoaşterea cuartilelor obţinem o imagine mai clară despre cum se distribuie datele seriei.
Exemplu 15. Cuartilele-serie cu frecvențe. Notele studenților de la programul de studiu Asistență socială la disciplina Statitică Socială, suntredate mai jos....
Nota-xi – nota studentilordin anul I AS
Frecevenţa k i
4 10
5 25
6 8
7 15
8 10
9 7
10 5
Total 80
Tabelul de mai sus este transformat în acest tabel Nota-xi – nota studentilor
din anul I AS
Frecevenţa k i
4-5 35
6-7 23
8-10 22
Total 80
Poziţia Q1= (80+1)/4=20, 25≈20Este a 20 valoare din serie, se afla în primul interval a 20-a valoareQ1=4+(1:35)*15=4,57
Interpretare??
Poziţia lui Q3= 3* (80+1)/4=60,75≈ 61 Este a 61 valoarea, se afla în al treilea interval a 3-a valoareQ3=8+ (1:22)*3=8,13
Interpretare??
d.2.Decilele
Sunt 9 decile care împart seria de date în 10 părţi egale.
-
8/16/2019 Suport Curs Statistica Univariata 2015
34/49
34
D1, este prima decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 10% din valori.
D2, este a doua decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 20% din valori.
……………………………………………………………………………………………………………
D5, reprezintă jumătatea seriei şi este identică cu mediana, și cu Q2 şi ne arată până la cevaloare sunt distribuite primele 50% din valori. Ultima decilă, D9,, reprezintă ultima valoare din serie. Deoarece seria este ordonată crescător,
această decilă reprezintă valoarea maximă din seria de date.
Exemplu 16. Decile- serie de date simplă Luăm acelaşi exemplu menționat mai sus cu preţurile produselor achiziţionate de un grup de
studenţi, de data aceasta un grup mai mare de 20 persoane.
xi: 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60 Poziţia decilelor se calculează ca şi poziţia cuartilelor excepţie făcând împărţirea la 4. De data
aceasta pentru a calcula poziţia decilelor, se va face împărţirea la 10 Poziţia decilei a şasea D6, va fi egală cu 6× (n+1) : 10 =12, 6 13D6=26 ronInterpretare: 60% dintre studenţi au achiziţionat produse până în 26ron, deoarece valoarea a
treisprezecea din serie este 26 ron.
Exemplu 17.Decile-serie de date cu frecvenţe.
Nota-xi – nota studentilordin anul I AS
Frecevenţa ki
4-5 35
6-7 23
8-10 22
Total 80
Dorim să calculăm decila a patra, D4. Poziţia va fi egală cu: 4× (80 +1) : 10 = 32,4. Itemul 32 va reprezenta decila a patra. Aceasta
va fi cuprinsă în intervalul 4-5 ani . Prin urmare valoarea decilei a a patra va fi D4 = 4+ (1 : 35) ×32=4.91.
Interpretare: 40% dintre persoane au note pânâ în 4.9 ani, restul peste 4.9 ani.
d.3.Centilele
Sunt 99 centile care împart seria de date în 100 părţi egale.
C1, este prima centilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 1% din valori.
C20, este a douăzecea decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce
valoare sunt distribuite primele 20% din valori. C20=D2 ……………………………………………………………………………………………………………
C50, reprezintă jumătatea seriei şi este identică cu mediana, și cu D5 sau Q2 şi ne arată pânăla ce valoare sunt distribuite primele 50% din valori.
Ultima decilă, C99,, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această decilă reprezintă valoarea maximă din seria de date.
-
8/16/2019 Suport Curs Statistica Univariata 2015
35/49
35
Centilele
Sunt 100 de centile ce împart şirul de date în 100 de părţi egale. Poziţia oricărei centile seobţine în mod asemănător cu aflarea poziţiei cuartilelor sau a decilelor. De exemplu, poziţia celei de-atreizeci şi cincea centile este : 35 × (n +1) : 100 unde n este numărul de itemi (valori).
Exemplu 18. Centile- serie cu frecevenţe
vârsta frecvenţa k i între 15 – 25 ani 30
între 25 – 35 ani 76între 35 – 45 ani 38între 45 – 55 ani 10între 55 – 65 ani 5TOTAL (n) 159
. Poziţia oricărei centile se obţine în mod asemănător cu aflarea poziţiei cuartilelor sau adecilelor. De exemplu, poziţia celei de-a treizeci şi cincea centile este : 35 × (n +1) : 100 unde n estenumărul de itemi (valori).
Pentru exemplul anterior axându-ne pe vârsta angajaţilor, de exemplu, poziţia în serie a celeide-a optzecea centile este : 80 × (159 +1) : 100 = 128. Aceasta va fi în intervalul 35-45 de ani şi este adouăzeci şi doua vârstă din interval, după totalul de 106 angajaţi distribuiţi în primele două intervale.Aceasta înseamnă că a optzecea centilă a vârstei este:
P80= 35 + (10 : 38) × 22= 40,8 aniInterpretare: 80% dintre persoane au vârsta până în 40,8 ani restul peste 40,8 ani..
Toți acești indicatori se fac din SPSS de la meniul....
-
8/16/2019 Suport Curs Statistica Univariata 2015
36/49
36
-
8/16/2019 Suport Curs Statistica Univariata 2015
37/49
37
e. Distribuția normală a scorurilor unei serii ordonate crescător
e1. Ce reprezintă distribuția normală?
Distribuția normală este un model teoretic, unde scorurile nu se abat mai mult de 3σ (deviațiistandard de la medie. Mai mult de atât media, mediana și modul se află to ate la mijloculcurbei. Cele două jumătați sunt perfect simetrice.
În cazul distribuţiilor asimetrice
e2. Cum putem afla dacă variabila are sau nu o distribuție normală?
e2.1 Metode graf ice
Histograma
Boxplot
Histograma
Se face în SPSS din meniul…
-
8/16/2019 Suport Curs Statistica Univariata 2015
38/49
38
-
8/16/2019 Suport Curs Statistica Univariata 2015
39/49
39
Boxplot Se face în SPSS în
Această variabilă are sau nu distribuția normală? Dacă nu putem aprecia facem și altă metodă grafică, cum ar fi BOXPLOT
-
8/16/2019 Suport Curs Statistica Univariata 2015
40/49
40
Linia boldată este mediana și ar trebuie să fie la jumătatea cutiei ca varibila să aibă distribuțienormală.I nterpretare: În cazul de față, linia nu este la mijlocul cutiei, deci variabila nu are distribuție normală. Ne putem verifica și cu indicatorii formei distribuției
Mustata-valoarea maximă pe care au dat-o subiecții
Mustata-valoarea minimă pe care au dat-o subiecții
mediana
-
8/16/2019 Suport Curs Statistica Univariata 2015
41/49
41
e2.2Indicatori ai formei distribuţiei
Oblicitatea (Skewnees)
Ne arată înclinarea dacă este > 0 – cocoaşa este deplasată spre stânga; dacă este 0 – cocoaşă înaltă; lectocurtică; b < 0 – platicurtică.
Cu cât aceşti indicatori au valori mai depărtate de valoarea zero cu atât distribuţia variabilei seabate mai mult la stânga sau la dreapta sau este mai plată sau mai ascuţită. Cu cât valorile acestorindicatori sunt mai apropiate de valoare zeroa cu atât distribuţia variabilei este mai aproaee dedistribuţia normală, fiind simetrică faţă de medie(media=medina=modul)
In SPSSS se fac din meniul...EXPLORE..fără sa bifăm nimic se face automat tabelul de mai jos...
Cum intepretăm valorile cindicatorilor formei distribuției? Curba este mai ascuțită decât cea normală. Ce înseamnă acest lucru? Curva este deplasată ușor spre stânga. Ce înseamnă acest lucru?
-
8/16/2019 Suport Curs Statistica Univariata 2015
42/49
42
e2.3. Teste-Kolmogorov Smirnov
Graficele ne ajută să ilustrăm distribuția valorilor, dar uneori nu putem aprecia fosrte bine dacă acelevariabile au sau nu distribuție normală. De aceea este nevoie de teste, care ne vor spune cu siguranță,dacă putem considera că o variabilă are sau nu distribuție normală Termeni utilizați în testarea ipotezelor
P=95%probabilitatea de garantare a rezultatelor (probbilitatea de a a avea dreptatea atuncicând respingem/acceptăm ipoteza de nul)
α=5% probabilitatea de a greși atunci când acceptăm sau respingem ipoteza de nul
Ipotezele testului. Acestea diferă de la test la test
o H0=ipoteza de nul
o H1=ipoteza alternativă
Modalități de validare a ipotezei de nul sau alternative
o fiecare test are o modalitate proprie
o există o modalitate general valabilă la toate testele
Se compara pcalculat
(cel din SPPS-de la rubric Sig) cu valoarea lui p (teoretic)Lucrăm de obicei cu P=95% atunci p va fi 0.05. Deci pcalculat se va compara cu 0.05.Dacă este mai mic se respinge H0. Dacă e mai mare de 0,05 se va accepta H0.
Cum se face în SPSS Testul Kolmogorov Smirnov? Tot din meniul EXPLORE..
Orice test are o ipoteză de nul(H0) și una alternativă (H1)H0: distribuția variabilei d2 nu diferă de distribuția normal (teoretică) H1: distribuția variabilei d2 diferă de distribuția normal (teoretică)
-
8/16/2019 Suport Curs Statistica Univariata 2015
43/49
43
Cum vedem care ipoteză o acceptăm? Ne uităm la pcalculat(Sig.). dacă e mai mic de 0.05 se respinge H0, dacă e mai mare se acceptă H0. Încazul de față este 0.000 este mai mic de 0.05, deci se respinge H0. Cu alte cuvinte, variabila d2 nu are odistribuție normal.
Curs 11_Analiza bivariată a datelor 11.1 Analiza variabilelor măsurate pe scală nominal/ordinal
11.1.1 Grafice cu două variabile 11.1.2 Tabele cu două variabile (cu procente pe linie/coloană/total)
11.1.3 Teste de asociere-
Testul χ 2
Valoarea testului 2 se calculează în modul următor:
Formula 1. Testul2
asteptate
asteptateobservate
F
F F 22
)(
Frecvenţele aşteptate sunt calculate în ipoteza independenţei între variabile, folosindformula (I) discutată anterior (pentru prima căsuţă aceasta devine P
11=P
+1*P
1+sau F
11= F
+1*F
1+/nr.
total de subiecţi). Se porneşte, deci, de la distribuţia marginală şi se calculează valorile aşteptate pentrufiecare căsuţă în parte, după formula de mai sus.
Ipoteza de nul a acestui test presupune inexistenţa unei relaţii de asociere dintre cele douăvariabile analizate.
Ipoteza alternativă presupune existenţa unei asociere dintre cele două variabile.
În SPSS pentru a obţine aceste valori precum şi valoarea testului 2 se selectează din meniuANALYZE/DESCRIPTIVES STATISTICS/CROSSTABS, se introduce variabila pe linie şi cea pecoloană, apoi din opţiunea Statistics se bifează Chi-square, iar din Cells/ Counts se alege Observed(frecvenţele observate) şi Expected (cele aşteptate).
Rezultatele din fişierul Outuput sunt prezentate mai jos.
Cât de mulţumit(a) sunteţi de sănătatea dvs.?.
TotalDeloc
mulţumit Nu preamulţumit
Destul demulţumit
Foartemulţumit
Sex masculin Count 100 252 482 161 995
ExpectedCount
136,4 285,7 436,5 136,4 995,0
feminin Count 174 322 395 113 1004
ExpectedCount
137,6 288,3 440,5 137,6 1004,0
Total Count 274 574 877 274 1999
-
8/16/2019 Suport Curs Statistica Univariata 2015
44/49
44
Cât de mulţumit(a) sunteţi de sănătatea dvs.?.
TotalDeloc
mulţumit Nu preamulţumit
Destul demulţumit
Foartemulţumit
Sex masculin Count 100 252 482 161 995
ExpectedCount
136,4 285,7 436,5 136,4 995,0
feminin Count 174 322 395 113 1004
ExpectedCount
137,6 288,3 440,5 137,6 1004,0
Total Count 274 574 877 274 1999
ExpectedCount
274,0 574,0 877,0 274,0 1999,0
În acest tabel 136,4 reprezintă frecvenţa aşteptată pentru căsuţa (1,1) care este egală cu
produsul frecvenţelor marginale pe primul rând şi prima coloană împărţit la numărul total de subiecţi(274*995/1999), iar celelalte valori se calculează similar.
Chi-Square Tests
Value dfAsymp. Sig. (2-
sided)
Pearson Chi-Square 45,522a 3 ,000
Likelihood Ratio 45,850 3 ,000
Linear-by-LinearAssociation
43,368 1 ,000
N of Valid Cases 1999
a. 0 cells (,0%) have expected count less than 5. The minimumexpected count is 136,38.
Valoarea calculată a testului 2 se compară cu cea critică care depinde de numărul de grade delibertate. Numărul de grade de libertate gl= (r-1)*(c-1), unde r=nr. de rânduri, c=nr. de coloane.
Decizia se poate lua în două moduri:
1) Se compară valoarea calculată a lui 2 cu cea critică pentru numărul de grade de libertate, si dacă
2 calculat> 2 critic (care se ia din tabele standarde) atunci se respinge ipoteza de nul.
2) Alternativ dacă nivelul de semnificaţie (p sau Sig. cum este notat în SPSS) calculat este mai mic
decât 0,05 se respinge ipoteza de nul a independenţei dintre variabile (cu o probabilitate de eroarede 0,05).
Pentru tabelul anterior 2 =45,52, iar p=0,095. Fie comparăm p cu 0,05 sau valoarea 2 cu cea critică pentru 1 grad de libertate care este 3,8, concluzia la care ajungem este că respingem ipoteza de nul aindependenţei dintre variabile. Cu alte cuvinte există o relaţie de asociere între cele două variabile.
Valoarea reziduală standardizată şi ajustată
Această măsură se calculează pentru fiecare căsuţă a tabelului pe baza formulei de calcul atestului
2. Reziduul standardizat şi ajustat are avantajul că ne permite identificarea relaţiilor deasociere chiar dacă ele nu caracterizează tabelul în ansamblu, ci numai două valori particulare alevariabilelor.
-
8/16/2019 Suport Curs Statistica Univariata 2015
45/49
45
Formula 2. Valoarea reziduală ajustată și standardizată
Fasteptate
Fasteptate Fobservate I
Dacă pentru o celulă a tabelului valoarea reziduală standardizată ajustată este în afaraintervalului [-1.96;+1.96] atunci cu o probabilitate de eroare de 5% se poate susţine că frecvenţa
observată este semnificativ mai mare decât cea aşteptată în cazul independenţei între variabile, deci se presu pune că există o asociere între aceste două valori ale variabilelor. Dacă valoarea rezidualăajustată se află în interiorul intervalului se acceptă H0.
Pentru cazul anterior valorile sunt următoarele:
Adjusted Residual
Cât de mulţumit(a) sunteţi de sănătatea dvs.?
Delocmulţumit
Nu preamulţumit
Destul demulţumit
Foartemulţumit
Sexulrespondentului masculin -4,7 -3,3 4,1 3,2feminin 4,7 3,3 -4,1 -3,2
Aceste valori se obţin în SPSS din ANALYZE/DESCRIPTIVESSTATISTICS/CROSSTABS/CELLS, apoi se selectează Residuals şi se bifează Adj. Standardized .
Interpretare. Deducem deci că există o asociere pozitivă între persoanele de sex masculin şimulţumirea faţă de sănătate şi persoanele de sex feminin şi nemulţumirea faţă de sănătate
În SPSS TESTUL χ 2 se face din....
-
8/16/2019 Suport Curs Statistica Univariata 2015
46/49
46
-
8/16/2019 Suport Curs Statistica Univariata 2015
47/49
47
Iar valoarea reziduală ajustată și standardizată din...
-
8/16/2019 Suport Curs Statistica Univariata 2015
48/49
48
11.2. Analiza variabilelor măsurate la nivel de interval sau raport
11.2.1.Grafice realizate între variabile măsurate la nivel de interval sau raport Graficele realizate pe două variabile cantitative sunt cele de tip SCATTER/DOT din meniul
CHART BUILDER.
Am luat ca exemplu două variabile cantitative din Barometrul de opinie publică octombrie2007, vârsta şi număr hectare pământ pe gospodărie.
Interpretare. Se observă că persoanele care au peste 5 hectare de pământ au vârste peste 40de ani.
11.2.2.Coeficienţi de asociere între variabile măsurate la nivel de interval sau raport Coeficientul r a lui Pearson se foloseşte pentru a testa relaţiile dintre două variabile
cantitative.
y x
n
i
ii
n
y y x x
r
1
))((
,
unde, xi, yi reprezintă valorile celor două variabile,
x , y , reprezintă mediile celor două variabile N, volumul eşantionului iar σx, σy repezintă deviaţiile standard a celor două variabile.
Acest coeficient are valori în intervalul [-1;+1] şi cu cât valoarea coeficientului este maidepărtată de valoare de zero cu atât există o relaţie mai puternică între cele două variabile.
-
8/16/2019 Suport Curs Statistica Univariata 2015
49/49
În SPSS se realizează acest coeficient din meniulANALYZE/DESCRIPTIVES/STATISTICS/ CROSSTABS iar aici se va bifa opţiuneaCORRELATIONS. Pentru exemplificare, am luat variabilele prop1da şi vârsta din baza de date din
Barometrul de opinie publică octombrie 2007, care măsoară numărul de hectare deţinute de o persoanăşi respectiv vârsta persoanei.
Symmetric Measures
ValueAsymp.
Std. Error a Approx. T
b
Approx. Sig.
Interval byInterval
Pearson's R ,083 ,034 2,313 ,021c
Ordinal byOrdinal
SpearmanCorrelation
,160 ,035 4,536 ,000c
N of Valid Cases 782
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on normal approximation.
Interpretare. Valoarea coeficientului este r=0.083 iar probabilitatea de testare a coeficientuluieste p=0.021. Deoarece aceasta este mai mică decât 0,05 rezultă că acest coeficient este semnificativ,deşi are o valoare apropiată de zero. Prin urmare putem spune că există o relaţie directă între vârstă şinumărul de hectare deţinute, dar destul de slabă ca intensitate. Deoarece coeficientul este pozitiv, putem a precia că o dată cu creşterea vârstei poate creşte şi numărul de hectare de pământ deţinute.