Suport Curs Statistica Univariata 2015

8/16/2019 Suport Curs Statistica Univariata 2015

1/49

1

Cursul nr 1.Introducere în statistică socială

Ce este statistica socială?

Sociologia= știință care studiază societatea omenească și legile ei. Știință care seocupă cu studiul descrierii structurii și fiziologiei societății, al relațiilor interumane în

cadrul grupurilor sociale, precum și al instituțiilor din societatea dată Ştiinţele sociale îşi propun în general să descrie realitatea socială şi să o explice,

realizând predicţii asupra posibilelor evoluţii ulterioare ale fenomenelor, structuriisociale etc.

Cum stabilim legități (construim teorii)? -experimente

-ancheta sociologică pe bază de chestionar (cvasiexperiment)

Pentru a prelucra datele din ancheta pe bază de chestionar este nevoie de metode statistice.Statistica socială oferă instrumente de investigaţie şi de analiză care servesc celor trei

mari obiective: descrierea, explicaţia şi predicţia.

1. Descrierea datelor: care este starea de sănătate a populației din România; care estesituația în România d.p.d.v. al divorțialității/natalității?2. Explicarea datelor: care sunt factorii la nivel macro cu impact asupra stării desănătate a populațieie din România?(sistemul de sănătate, nivelul de dezvoltare a societății);care sunt factorii la nivel macro care determină creșterea/scăderea divorțialității/natalității?

Exemple implicații practice: construirea de teorii, realizarea unor măsuri pentru ainterveni (politici publice)

3. R ealizarea de predicţii asupra populaţiei, generalizarea datelor la nivel de

populaţie; (acest lucru se realizează doar atunci când se lucrează cu anchetă sociologică pe bază de eșantion și se dorește estimarea datelor la nivelul întregii populații de referințe);Exemple implicații practice: identificarea exactă a potențialilor alegători, identificarea

exactă a numărului de apartamente care ar trebui construite etc. Prin urmare, statistica socială este preocupată de culegerea datelor și de analiza și

interpretarea datelor. Trebuie însă subliniat faptul că statistica socială reprezintă un simpluinstrument care deserveşte aceste scopuri. Nu este o ramură a matematicii (nu avem axiome,nu se fac demonstrații, de aceeea pentru scopuri similare vom avea mai multe tipuri deindicatori)

În concluzie, Statistica socială este o știință care are drept obiect stabilirea regulilor de

culegere, prelucrarea și interpretare a datelor. Cu alte cuvinte, cu ajutorul statisticii sociale, pe de o parte vom învăța cum să proiectăm și să realizăm o cercetare la standarde cât mai aproape de rigorile științifice, iar pede altă parte cum să analizăm datele (să descriem, să găsim explicații sau cum să facem

predicții la nivelul populației. Metodele statistice necesare analizei datelor, pot fi utilizate atât pe date rezultate în urma unor anchete sociologice pe bază de chestionar, analiză de conținutcantitativă, fie pe date la nivel macro (indicatori baze de date oficiale). Chiar și atunci când nusuntem în ipostaza de a realiza cercetări științifice, cunoștințele dobândite în cadrul acestuicurs ne vor fi utile pentru a avea abilitatea de citi și înțelege rezultatele cercetărilor întreprinsede alte persoane.

Exemple de programe pentru prelucrarea datelor în științe sociale: SPSS, Excel, SAS,

AMOS, RData. Programul cel mai utilizat în România este SPSS (Software Package forSocial Sciense). Nu e nevoie să avem cunoştinţe avansate pentru a înţelege acest program.


2/49

2

Concepte de bază în statistica socială

Subiect, repondent, individ Orice persoană care răspunde la chestionar Populație Toate persoanele din care a fost extras eșantionul Item Orice întrebare din chestionar.Variabilă Seria de numere reprezentată de răspunsurile o întrebare din

chestionar.statistică descriptivă -un set de metode pentru descrierea datelor: tabele, grafice

exprimate în procente sau frecvenţe (număr de cazuri), indicatoristatistici precum media, mediana, modul, indicatori de dispersie etc

statistică deductivă sauinferenţială

Forme:

1.estimarea parametrilor populației pornind de la observaţiile făcute pe un eşantion, dacă sunt îndeplinite condiţiile de reprezentativitatecare să permită o astfel de operaţie;Ex1: estimăm procentul celor care votează la nivelul unui județ,estimăm procentul vârstnicilor care sunt implicați în voluntariat

Atunci când extragem un eşantion lucrăm cu diferite erori şi trebuiesă fie reprezentativ; ce înseamnă reprezentativ?Exemplu de eşantion nereprezentativ şi sondajele politice

2. testarea unor ipoteze

-

Ex2:identificăm o serie de factori cu impact asupra stării de sănătatea populației, deci atunci când testăm o serie de ipoteze științifice Ex3: r ealizăm comparații între datele obținute pe diferite populații -dorim să vedem dacă există diferenţe privind mulţumirea faţă de

sănătate între persoanele din diferite judeţe sau medii de rezidenţă -dacă există diferenţe dintre romii din Garcini şi romii din altecomunităţi -dacă există diferenţă între persoanele cu boli mentale care suntinstituţionalizaţi şi care nu sunt


3/49

3

Cursul nr 2. Etapele unui proiect de cercetare

Care sunt pașii unei cercetări până ajungem la analiza datelor cu ajutorul metodelorstatistice? (ancheta pe bază de chestionar)

EXEMPLU1. Definirea temei de cercetare: voluntariatul în rândul persoanelor vârstnice 2. Definire obiectivelor de cercetare

2.1. Identificarea atitudinii persoanelor vârstnice față de voluntariat

2.1.1. Identificarea gradului de implicare a vârtsnicilor în voluntariat

2.1.2. Identificarea factorilor care diminuează implicarea vârstnicilor față devoluntariat

2.1.3. Identificarea atitudinii persooanelor față de comportamentele deîntrajutorare 3. Documentarea

3.1.De unde mă informez? 3.1.1 De la specialiști

Din cărți de specialitate Articole din reviste de specialitate (ilustrare)

Studii /rapoarte de cercetare realizate de alte persoane (surse credibile)

Ce urmăresc?

Cum au studiat alții această tematică Indicii pentru alegerea metodei de cercetare

Indicii pentru dimensiuni/indicatori din instrument (chestionar)

Teorii utilizate care explică termenul nostru cheie (comportamentul de întrajutorare)

Limite/obstacole/probleme întâmpinate Exemplu: bazele de date internaționale-de pe portalExemplu-Rapoarte Fundația Soros

3.1.2 De la publicul țintă (ex.persoanele vârstnice-cercetare exploratorie)3.1.3.. De la clientul nostru

3.1.3 De la alte publicuri co-interesați de tematică (ex.instituțiile publice/private deasistență socială din Brașov) 4. Tipul de cercetare

4.1 descriptivă 4.2 explicativă

4.3. predictivă Nu sunt disjuncte5. Ipoteze doar pt 4.2Ex1: Realizăm o cercetare legată de starea de sănătate a populației.Din alte studii

reiese faptul că emoțiile pozitive sau rețeaua social sunt factori, Nu știm dacă e adevărat și pe publicul nostru țintă (persoane vârstnice). Testăm aceste bănuieli (ipoteze științific) 6*. Definirea termenilor (definiție terminologică sau operaționalizarea conceptelor) 7. Definim universul cercetării și stabilim caracteristicilor eșantionului

cercetare exhaustivă/cercetări selective

De ce sunt selective?

1. fie populaţia este prea mare şi nu o putem acoperi


4/49

4

2. fie sunt cercetări pe o temă delicată unde nu poţi aplica chestionare decât pe eşantion devoluntari

Exemple cercetări exhaustive: angajaţii unei companii/instituții Exemple cercetări selective: profesorii din licee, cercetări pe persoane cu dizabilităţi,cercetări pe persoane dependente de droguri/bolnavi de cancer

Exemplu-Rapoarte Fundația Soros

8*.Realizarea instrumentului de cercetare (chestionar)

Exemplu-Rapoarte Fundația Soros

9.Culegerea datelor

10.Prelucrarea datelor

Se introduce datele în SPSS (este doar unul din programele de prelucrare) Se analizează datele cu ajutorul metodelor statistice

11. Redactarea raportului de cerceare

Se descrie tema, se stabilește dacă ipotezele se confirmă sau nu și soluțiile practice pentru problemele studiate (acolo unde este cercetare aplicativă) Exemplu-Rapoarte Fundația Soros

CURS 3. Măsurarea în sociologie (științele socio-umane)

Pentru a putea realiza punctul 6* și 8* din schema etapelor unei cercetări, trebuie să

înțelegem ce înseamnă a măsura. Punctele 6, 8, 9 și 10 sunt etape ce fac parte din procesul

de măsurare a variabilelor. Etapele 7, 9, 10, 11 țin de obiectul statisticii sociale

1. Ce reprezintă măsurarea în sociologie (științe socio-umane)?

A măsura înseamnă a descrie și este legat deci de cercetările descriptive Există două tipuri de măsurare

a. Măsurare din ochi b. Măsurare instrumentală (științifică)

a. Măsurarea din ochi

în primul rând a măsura este a DENUMI un obiect/o stare/un comportament/uneveniment, dacă nu denumim nu putem măsura, dacă denumim prost măsurăm prost

..ex. asta e pisică, ăsta e câine… ..vrem să vedem care este situația persoanelor vârstnice din punct de

vedere al singurătății..Cum denumim acest lucru? Starea civilă?

Statusul marital al persoanei? Rețea socială )

Vrem să vedem care este situația persoanelor vârstnice d.p.d.v. al

educației..Cum denumim? Nivel de educație? Nivel de studii?(anii de

școală finalizați)

Vrem să vedem cât de bine trăiesc persoanele vârstnice..Cum

denumesc asta? Bunăstarea? Venituri? Bogăție?

denumim variațiile de principiu a ceea ce am denumit..ex câinele ăsta e mai mare, ăsta

mediu, ăsta mai mic, sau e mai puterninc, asa si asa, deloc etc care sunt ipostazele posibile pentru ceea ce am denumit?


5/49

5

Atribuim cifre variațiilor de principiu/ipostazelor o Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurareo Aceast lucru se face de regulă atunci când transpunem variabilele în

instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acestinstrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice.

Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente seaflă în fiecare variantă/ipostază

Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază

C ând vorbim despre măsurare din ochi? Vorbim despre măsurare din ochi atunci când suntem în una din situațiile următoare: a1.Propria noastră minte ne spune ceva despre denumirea și variația de principiu a

unei variabile

a2.Clientul cercetării noastre ne spune ceva despre o variabilă

a3.Subiecții cercetării noastre ne spun ceva despre o variabilă a4.Persoanele care formează publicurile interesate de cercetarea noastră ne spun ceva

despre o variabilă

Măsurări simple

implicarea în activități de voluntariat (formal) motivele neimplicării în activități de voluntariat (bani, timp, sănătate, nu știu unde etc) satisfacția față de activitățile de voluntariat întreprinse timpul alocat activităților de voluntariat

Exemple chestionar_viata_de_familie

Exemplu vârsta măsurată ordinal/interval/raport

Măsurări complexe (avem nevoie de un număr mai mare de indicatori) -operaționlizareaconceptului

satisfacția față de FSC –o putem măsura simplu-ordina/interval

satisfacția față de FSC (-o putem măsura complex-se dau note dar nu se știe ce aevaluat fiecare student/studentă, ecercițiu cu studenții..la ce s-a gândit fiecare când aevaluat, putem stabili variațiile de principiu și atribui numere sau mergem și mai fin laindicatori)

o Aspecte materiale (spații, tehnologie etc)

o

Procesul de învățământ (planuri de invățământ, discipline opționale/facultative,conținutul disciplinelor, practică, activități științifice, oportunități de afirmare profesională- burse, erasmus,manifestari științifice, sprijin financiar etc)

o Profesori (prezența la curs/seminar, stilul de predare, pregătirea profesionalăetc)

o Colegi (stilul de relaționare, de învățare)

atitudinea față de voluntariato Componenta cognitivă? o

Componenta afectivă? o Componenta comportamentală?


6/49

6

Stabiliți denumirea, variațiile de principiu și atribuiți numere

Exemple chestionar viata_de_familie

b. Măsurarea instrumentală Ii dăm o denumire terminologică, identificăm un termen dintr -o teorie (punctul 6 din

etape) Ex..știm la nivelul simțului comun că bogăția nu se suprapune neapărat

peste gradul de cultură a unei persoane..cum denumesc combinațiaasta?...status social? ..clasă socială?....

Determinăm variantele în care variabila respectivă se poate manifesta (variația de principiu) (punctul 6 din etape)

Atribuim cifre variațiilor de principiu/ipostazelor Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurare Aceast lucru se face de regulă atunci când transpunem variabilele în

instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acest

instrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice. Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente se

află în fiecare variantă/ipostază Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază

c. Măsurarea din ochi versus măsurarea științifică (instrumentală) Măsurarea din ochi nu este un substitute al măsurării instrumentale, ci doar o etapă

premergătoare măsurării instrumentale o Pe baza iformațiilor obținute reușim să dăm un nume variabilei respective

Ex. Sunt situații (cele mai multe) când nu este o operație ușoarădenumirea și avem nevoie de această etapă premergătoare..performanțeșcolare, comportamente de întrajutorare, voluntariat formal/informal

Identificăm variațiile de principiu, setul de ipostaze Atribuim cifre ipostazelor conform unor reguli de atribuire

Atenție! În anul I facem doar măsurare din ochi


7/49

7

CURS 4. Definirea universului cercetării și stabilirea caracteristiciloreșantionului

1. Definirea universului cercetării și stabilirea caracteristicilor eșantionului (punctul 7

din schema privind etapele de cercetare)1.1. Universul cercetării

Ex.persoanele vârstnice din municipiul Brașov/județul Brașov/zonele urbane din județul Brașov 1.2. Caracteristicile eșantionului 1.2.1. Cercetarea exhaustivă

Pornind de la obiectivul menționat în schema privind etapele de cercetare – ce tip decercetare este potrivită (atitudinea persoanelor vârstnice față de voluntariat)?

1.2.2. Cercetare selectivă

Princi piul de bază ale eșantionării

Presupoziţia care stă la baza eşantionării este că analiza unui eşantion din populaţia cadru conduce la rezultate similare cu acelea obţinute prin investigarea întregii populaţii, cucondiţia respectării unor condiţii statistice şi teoretice de asigurare a reprezentativităţii.

Cum definim reprezentativitatea unui eșantion?

Reprezentativitatea este o noţiune relativă. Nu se poate vorbi dereprezentativitate/nereprezentativitate, ci de mai mult/mai puţin reprezentativ.

Reprezentativitatea nu poate fi stabilită în general ci doar prin raportare la o serie devariabile. Aceste variabile ar putea fi: sex, vârstă, educaţie, ocupaţie, naţionalitate etc. Cu cât

luăm în calcul mai multe variabile cu atât eşantionul are un grad mai ridicat dereprezentativitate.

Un eşantion are o reprezentativitate în raport cu vârsta, altă reprezentativitate în raportcu sexul ş.a.m.d. Se poate afirma că un eșantion este reprezentativ în raport cu variabila sex,dacă el respectă structura pe sex a populației cadru1.

Folosirea expresiei de “eșantion reprezentativ” este corectă doar dacă el estereprezentativ pe toate caracteristicile studiate.

Ex. Dorim să proiectăm un eșantion pentru studiul mai sus menționat (persoanele vârstnicedin municipiul Brașov). Acest eșantion va trebui să respecte structura populației vârstnice dinmunicipiul Brașov după sex (cel puțin). Tabelul 4.1: Structura eșantionului în funcție de structura populației în funcție de sex

Structura populației cadru înfuncție de variabila sex

Structura teoretică aeșantionului în funcție devariabila sex

Masculin 40% Identică cu cea la nivelul

populației Feminin 60%

Total 100%

1 Datele referitoare la populația cadru (universul cercetării) pot fi iobținute de la INSSE (tempo on-line) sau de

la Direcțiile Județene de Statistică


8/49

8

Condiții pentru respectarea reprezentativității

Asigurarea reprezentativităţii eşantionului presupune respectarea următoarelor treicondiţii în ceea ce priveşte selecţia subiecţilor:

1. Includerea în eşantion a subiecţilor fără a acorda vreo preferinţă unora dintre ei,

fiecare fiind selectat după criterii aleatoare, după principiul hazardului combinaţional,având o probabilitate cunoscută şi diferită de zero (echireprezentarea). 2.

Eşantionul trebuie să fie suficient de mare (de ordinul sutelor) pentru a permiteredarea caracteristicilor principale ale populaţiei originare şi, pe această bază,obţinerea unor indicatori cu un grad mare de fidelitate.

3. Unităţile incluse în eşantion trebuie să fie independente una de alta.

Pentru a realiza cercetări selective se utilizează instrumente specifice. Apar într -unasemenea context mai multe probleme:

estimarea erorii produse prin colectarea unei valori pe eşantion în loc să o

calculăm pe întreaga populaţie; E evaluarea încrederii pe care putem să o acordăm valorilor pe eşantion ca

reprezentând valori similare pentru populaţia întreagă (prin aplicarea testelorde semnificaţie). P

“Reprezentativitatea unui eşantion este cuplul [E, P].” Nu putem ameliora simultan şi

precizia estimării şi siguranţa acesteia.

Ce informații trebuie să precizez la această etapă din cadrul proiectului?

a.Volumul eșantionului (câte persoane voi intervieva?)

p= procentul din populaţia cadru care posedă o caracteristică q = 100-p

P=99% t=2,58

P=95% t=1,96

P=90% t=1,68

2

2

E

xpxqt n


9/49

9

Tabelul 4.2: Relația dintre n, E și P p=procentul persoanelor

vârstnice care au oatitudine favorabilăvoluntariatului formal

Eroarea de

eșantionare Volumul

eșantionului P=probabilitatea

de garantare a

rezultatelor

(datelor ce

rezultă în urmaanalizelor)

Ex.1 p=10%, q=90% E=3% n=384 persoane

P=95%Ex2. p=10%, q=90% E=2%, n=864 persoane

Ex3. p=q=50%, E=3%, n=1067

persoane

Ex4. p=q=50%, E=2%, n=2401

persoane

p=procentul persoanelor

vârstnice care au oatitudine favorabilăvoluntariatului formal

Eroarea de

eșantionare Volumul

eșantionului P=probabilitatea

de garantare a

rezultatelor

(datelor cerezultă în urmaanalizelor)

Ex.1p=10%, q=90% E=3% n=665persoane

P=99%Ex2. p=10%, q=90% E=2%, n=1498persoane

Ex3. p=q=50%, E=3%, n=1849persoane

Ex4. p=q=50%, E=2%, n=4160persoane

Cum decidem volumul eșantionului?

Din punct de vedere formal, pentru determinarea mărimii eşantionului se face un

arbitraj între diverşi factori. Factori de ordin statistic P, probabilitatea de garantare a rezultatelor

E, eroare de eșantionare R, reprezentativitatea eșantionului

o Cu toate că o creştere a eşantionului va mări precizia rezultatelor, ea nu vaelimina şi nici nu va reduce influenţa distorsiunii din procedura de selecţie. Deaceea, măsurarea eşantionului în sine nu este suficientă pentru a asigurasuccesul cercetării.

o Reprezentativitatea atinge destul de repede un nivel suficient de ridicat, aşaîncât o creştere suplimentară a numărului de indivizi în eşantion nu mai aduce

un spor notabil de reprezentativitate


10/49

10

Figura 4.1:Relația dintre reprezentativitatea eșantionului și volumul eșantionului

Factori de ordin administrativ (de organizare a culegerii datelor)

Modalitatea de analiză a datelor (subeșantioane reprezentative) ex. Analiza atitudinii p.v. pe gen

Non-răspunsurile (profilul celor care fac voluntariat) Se vor lua în calcul resurse de bani, timp, oameni

b.Metoda de eșantionare (cum vor fi aleși subiecții la nivel teoretic) și caracteristicileeșantionului

b.1. Eșantionarea teoretică de principiu

Se descrie metoda de eșantionare și se specifică caracteristicile eșantionului astfelîncât să fie reprezentativ după cel puțin o variabilă-Există două categorii de metode de eșantionare 1. metode de eșantionare aleatorii (probabiliste) 2. metode de eșantionare nealeatorii (neprobabiliste)

Comparații 1. metode de eșantionare aleatorii(probabiliste)

2. metode de eșantionare nealeatorii(neprobabiliste)

Se pot face inferențe statistice lanivelul populației din care a fostextras

Datele caracterizează doar eșantionulde persoane intervievate

Se pot generaliza datele. Concluziilesunt legități pentru populația din carea fost extras

Nu se pot generaliza datele.Concluziile sunt posibile tendințe

b.2. Eșantionarea practică (efectivă) Eșantionul scos din teren nu se pliază exact pe cel proiectat. Trebuie testată

reprezentativitatea lui în funcție de variabilele luate în calcul pentru proiectarea eșantionului.Uneori este nevoie de ponderări ale eșantionului.


11/49

11

CURS 5. Metode de eșantionare probabiliste 5. Metode de eșantionare probabiliste 5.1.Eșantionarea aleatorie5.2.Eșantioanarea sistematica 5.3.Eșantionarea stratificată

5.4.Eșantionarea multistadială 5.5.Eșantionarea multifazică 5.6.Eșantioanarea cluster 5.7.Eșantioane fixe panel

5.1. Eșantionarea aleatorie Informații de care avem nevoie pentru a aplica acest tip de eșantionare

O listă cu populația de referință (cadru) Procedee:

Procedeul bilei revenite

Procedeul bilei nerevenite

5.2.Eșantioanarea sistematică Informații de care avem nevoie pentru a aplica acest tip de eșantionare

O listă cu populația de referință (cadru) Se stabilește un pas mecanic K 5.3.Eșantionarea stratificată Procedee:

a) Eșantionarea stratificată proportional b) Eșantionarea stratificată neproporțional c) Eșantionarea stratificată optimă

a.Eșantionarea stratificată proportional Etape:

1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,

județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului

populației din acel strat raportat la volumul întregii populații de referință 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu. Dorim să realizăm o cercetare pe tema fertilității la nivelul județului Brașov.Scopul este de a întreprinde politici demografice de creștere a natalității. Presupunem n

(volumul eșantionului)=2000 persoane2

1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din

județul Brașov, Tab 3, coloana 3)2. se stabilesc straturile populației (I categorie de straturi-vârsta (Tab 3, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 3, coloana 3, 4))3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului

populației din acel strat raportat la volumul întregii populații de referință, pentru fiecarecategorie de strat în parte (Tab 3, coloana 5, Tab 4 coloana 5, 6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)

2 aceast a cifră a fost rotunjită pentru ușurința în calcule


12/49

12

Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)

Tabelul 5.1: Eșantionarea stratificată proporțional-după volumul populației de sex

feminin din județul Brașov-prima categorie de straturi (categoriile de vârstă) Eșantionare stratificată proproțional

Straturile

(categorii de

vârstă-femei)Rate fertilitate

20123

Ni (volumul populației desex feminin pe prima

categorie de straturi-

vârsta)4

pi(repartizarea

volumului

populației pe prima

categorie de

straturi)

ni (repartizarea

volumului

eșantionului pefiecare strat în

parte-din

prima

categorie)

1 2 3 4 5

15-19 ani 35 13341 9,9% 199

20-24 ani 64 17292 12,9% 258

25-29 ani 83 25430 19% 379

30-34 ani 59 26707 19,9% 398

35-39 ani 25 27777 20,7% 414

40-44 ani 4 23619 17,6% 352

45-49 ani 0,2

TOTAL 134166 100% 2000

Tabelul 5.2: Eșantionarea stratificată proporțional-după volumul populației din județul

Brașov-a doua categorie de straturi (mediul de rezidență) Eșantionare stratificată proporțional

I categoriede straturi-

vârsta

ni (repartizare

avolumuluieșantionului pe fiecare

strat în parte-prima

categorie

de straturi)

p j (repartizarea volumului populației de sex feminin pe adoua categorie de straturi-mediul de rezidență)5

ni (repartizarea volumului eșantionului pefiecare strat în parte-din a doua categorie)

urban rural urban rural

1 2 3 4 5 6

15-19 ani 199 63,8% 36,2% 127 72

20-24 ani 258 68,7% 31,3% 177 81

25-29 ani 379 74,3% 25,7% 282 97

30-34 ani 398 77,1% 22,9% 307 91

35-39 ani 414 76,4% 23,6% 316 98

40-44 ani 352 73,7% 26,3% 260 92

TOTAL 2000 73,7% 26,3%- 1469 531

3 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)4 idem 5 ibidem


13/49

13

b.Eșantionarea stratificată neproporțional -nu ține cont de structura populației în funcțe de volum ci de alte criterii mai relevante pentrucercetare

Etape:

1. se stabilește populația de referință

2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați, județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu. Pentru cercetarea mai sus menționată despre fertilitatea în județul Brașov, mai util

pentru cercetare este eșantionarea stratificată neproporțional. Este mai util să ținem cont demărimea ratei de fertilitate pe fiecare categorie de vârstă. Presupunem n (volumuleșantionului)=2000 persoane6 1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din

județul Brașov, Tab 5, coloana 1)2. se stabilesc straturile populației (I categorie de straturi-vârsta (Tab 5, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 5, coloana 1)) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul (ratele de fertilitate,Tab 5, coloana 3,4, Tab 6 coloana 5,6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)

Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)

Tabelul 5.3: Eșantionare stratificată neproporțională- județul Brasov-prima categorie destraturi

esantionare stratificata neproproțională

Categorii de

vârstă Rate fertilitate

2012

pi (ponderea ratei de fertilitate

în suma ratelor de fertilitate)

ni(volumul eșantionuluiîn funcție de pi,coloana 3)

1 2 3 4

15-19 ani 35 0,130 259

20-24 ani 64 0,237 47425-29 ani 83 0,307 615

30-34 ani 59 0,219 437

35-39 ani 25 0,093 185

40-44 ani 4 0,015 30

45-49 ani 0,2

TOTAL 270 1 2000

6 Aceasta cifră a fost rotunjită pentru ușurința în calcule


14/49

14

Tabelul 5.4: Eșantionare stratificată neproporțională- județul Brasov-a doua categoriede straturi

esantionare stratificata neproproțională

Categorii de

vârstă

ni(volumul

eșantionului în

funcție deratele de

fertilitate pe

categorii de

vârstă)

p j (repartizarea ponderei ratelor de fertilitate pe a doua categorie de straturi-mediul de

rezidență)7

ni(volumul

eșantionului înfuncție de pi, coloana3,4)

urban8 rural urban rural

1 2 3 4 5 6

15-19 ani 259 0,258 0,742 67 192

20-24 ani 474 0,307 0,693 146 328

25-29 ani 615 0,437 0,563 269 346

30-34 ani 437 0,508 0,492 222 21535-39 ani 185 0,556 0,444 103 82

40-44 ani 30 0,466 0,534 14 16

TOTAL 2000 - - 2000

Cum diferă volumul eșantionului în funcție de cele două tipuri de eșantionare? 1. La eșantionarea stratificată proporțională ar trebui să se intervieveze un număr mare defemei cu vârsta peste 35 de ani și în număr mult mai mare din urban 2. la eșantionarea stratificată neproporțională ar trebui să se intervieveze mai puține femei cuvârsta peste 35 de ani și mai multe cu vârsta 20 -35 ani, DAR mai multe din mediul rural

(pentru că acolo este rata de fertilitate mai mare) Dacă dorim să vedem care sunt motivele pentru care cele care dau naștere la copii facacest lucru, atunci acest tip de eșantionare (al doilea) este mai potrivit. Dacă dor im să

văd em de ce femeile din urban nu doresc să dea naștere la copii, probabil primul tip

de eșantionare este mai potrivit (pentru ca ține cont de ponderea populației din urban)

Prin urmare ce metodă de eșantionare folosim? Cea care corespunde cel mai bineobiectivului cercetării noastre, dar și costurilor de timp și bani.

c.Eșantionarea stratificată optimă

-ține cont atât de volumul populației de referință pe fiecare strat în parte dar și de variația uneivariabile pe fiecare strat în parte Etape:

1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,

județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)

7 ibidem

8 ratele de fertilitate au fost luat separat urban/rural pe fiecare categorie de vârstă a populației de sex feminin. Datele sunt reale, preluate de pe

http://statistici.insse.ro/(Tempo-Online)


15/49

15

Exemplu. Dorim să realizăm o cercetare privind bunăstarea populației României. Vom utilizaaceastă metodă de eșantionare deoarece ține cont atât de volumul populației pe fiecare strat în

parte dar și de gradul de eterogenitate în ce privește veniturile (Tab 7, coloana 4). Se știefaptul că cu cât o populație este mai eterogenă d.p.d.v.d a unei variabile de interes pentrucercetare cu atât volumul eșantionului ar trebui să fie mai mare, pentru a surprinde diferitele

categorii de persoane.

Tabelul 5.5: Eșantionarea stratificată optimă-macroregiuni România

esantionare stratificată optimă

Straturi

Ni

(volumul

populației pe fiecare

macroregi

une)9

pi%

(ponde

rea

volum

ului

popula

ției pefiecare

strat în parte)

Deviatiastandard a

veniturilor

σi10

Ni* σi(deviatia

standard)

pi% din

Ni*σi ni=n* Ni*σi /suma Ni*σi

1 2 3 4 5 6 7

Macroregi

unea unu 4950475 25% 705 3490084875 43% 880

Macroregi

unea doi 5792920 29% 405 2346132600 29% 591

Macroregiunea trei 5379697 27% 300 1613909100 20% 407

Macroregi

unea patru 3862722 19% 125 482840250 6% 122

Total19985814 100% 7932966825 100%

5.4.Eșantionarea multistadială -nu e de sine stătătoare -se combină cu stratificată -diferite tipuri de unități de eșantionare sunt analizate în diferite etape

Ex. Eșantionarea bistadială stratificată, unde în primul stadiu au fost selectate facultățile care participă la studiu, iar în al doilea stadiu au fost selectate programele de studiu.5.5.Eșantionarea multifazică -același tip de unități de eșantionare sunt analizate în etape diferite cu instrumente diferite 5.6.Eșantioanarea cluster - presupune existența unor grupări naturale (regiuni istorice, macroregiuni, județe ect) 1. grupările naturale sunt diferite între ele și trebuie să luăm în eșantion din toate grupărilenaturale

9 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)

10 Date fictive


16/49

16

2. se consideră că unitățile de eșantionare din cadrul grupărilor naturale sunt omogene d.p.d.val unei variabile importante pentru studiu, astfel încât nu contează prea mult modul deselectare a unităților5.7.Eșantioane fixe panel -cercetarea se realizează pe aceleași persoane la un interval de timp

Curs 6. Metode de eșantionare neprobabiliste6.1. Eșantionare la întâmplare 6.2. Eșantioane de voluntari6.3. Eșantionarea dirijată 6.4. Eșantionare pe cote

a. cote simpleEtape:

1. se stabilește populația de referință

2. se stabilesc cotele populației (care de regulă sunt raportate la variabila sex și vârstă, dar poate fi orice altă variabilă socio-demografică; poate fi o singură cotă sau mai multe) 3. se stabilește volumul eșantionului pe fiecare cotă în parte în funcție de ponderea volumului

populației pe fiecare cotă în parte 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectateîntâmplător, dar pentru a se asigura condiții apropiate de reprezentativitatea unui eșantion suntstabilite niște criterii obiective (aceasta este diferența majoră față de eșantionareastratificată)

Notă. Dacă sunt respectate condiții stricte pentru selectarea indivizilor aceasta metodă de

eșantionare se apropie cel mai mult de metodele de eșantionare probabiliste.

Exemplu. Tema cercetării: Atitudinea față de persoanele cu disabilități. Populația dereferință: persoanele din municipiul Brașov cu vârsta 15-64 ani (date reale). Volumuleșantionului n=2000 persoane

Tabelul 6.1: Eșantionarea pe cote simple în funcție de sex-municipiul Brașov Sex Ni (volumul

populației municipiului

Brașov)

pi (ponderea

populației pecele două ccote)

ni

(repartizarea

volumului

eșantionului pe fiecare

cotă în parte)1 2 3 4

Masculin 103155 48% 960

Feminin 111023 52% 1040

Total 214178 100% 2000

11 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)


17/49

17

Tabelul 6.2: Eșantionarea pe cote simple în funcție de vârstă-municipiul Brașov

Vârsta

Ni (volumul

populației municipiului

Brașov)

pi (ponderea

populației pecele două ccote)

ni

(repartizarea

volumului

eșantionului

pe fiecarecotă în parte)

1 2 3 4

15-19 ani 9158 4,3% 86

20-29 ani 37641 17,6% 351

30-39 ani 54916 25,6% 513

40-49 ani 43773 20,4% 409

50-59 ani 46292 21,6% 432

60-64 ani 22398 10,5% 209

TOTAL 214178 100% 2000

b. cote combinate

Tabelul 6.3: Eșantionarea pe cote combinate în funcție de sex și vârstă-date la nivelulpopulației din municipiul Brașov

Gen

Vârsta masculin feminin Total15-19 ani 4616 4542 9158

20-29 ani 18795 18846 37641

30-39 ani 27415 27501 54916

40-49 ani 20900 22873 4377350-59 ani 20667 25625 46292

60-64 ani 10762 11636 22398

Total 103155 111023 214178

Tabelul 6.4: Eșantionarea pe cote combinate în funcție de sex și vârstă-date la niveluleșantionului pentru populația din municipiul Brașov

Date reale-

municipiul

Brașov

Gen Ni *volumul

eșantionului)

Vârsta masculin feminin masculin feminin TOTAL15-19 ani 4,5% 4,1% 43 43 86

20-29 ani 18,2% 17% 175 177 351

30-39 ani 26,6% 24,8% 255 258 513

40-49 ani 20,3% 20,6% 195 214 409

50-59 ani 20% 23,1% 192 240 432

60-64 ani 10,4% 10,5% 100 109 209

TOTAL 100% 100% 960 1040 2000

Care este diferența dintre eșantionarea stratificată proproțională și cea pe cote?

12 idem


18/49

18

Figura 6.1: Diferențe dintre metoda de eșantionare stratificată și cea pecote

Cum stabilim ce metode de eșantionare folosim? 1. Dacă avem tim p și bani și avem acces la date referitoare la populația de referință (listă cutoate unitățile de eșantionare) atunci vom apela la metodele de eșantionare probabiliste(aleatorie/sistematică/stratificată) 2. Dacă avem timp și bani și avem acces la date referitoare la populația de referință (doar dategenerale legate de structura pe sex, vârstă etc) atunci vom apela la metodele de eșantionareneprobabiliste (pe cote)

3. Dacă nu sunt suficiente resurse de timp și bani dar avem ceva date referitoare la populațiade referință putem apela la eșantionar ea cluster.4. Dacă nu putem avea acces la populația de referință (tema cercetării este delicate) sau nusunt resurse de bani, vom apela la eșantionarea neprobabilista (dirijată, la întâmplare, devoluntari)

Exerciții1. Dorim să realiz ăm o cercetare pe tema divorțialității

a.

Ce metodă de eșantionare ați folosit? b. De ce ați ales această metodă de eșantionare ?c. De ce informații aveți nevoie pentru a putea realiza această metodă de

eșantionare? Aveți acces la aceste informații?2.

Dorim să realizăm o cercetare privind relaț ii le de cuplu, doar pe cuplur il e caretr ăiesc î n uniune consensuală?

a. Ce metodă de eșantionare ați folosit? b. De ce ați ales această metodă de eșantionare ?c. De ce informații aveți nevoie pentru a putea realiza această metodă de

eșantionare? Aveți acces la aceste informații?

esantionare stratificata

versus eșantionare pecote

eșantionare stratificatăproporțională

PRIMULSTRAT

AL DOILEA STRAT (face

parte din primul strat)

unitatea de

eșantionarea este selectată aleator

eșantionarepe cote

cote simple

gencategorii

vârstă

cotecombinate

gen vârstă

unitatea de eșantionare nu este selectată aleator


19/49

19

CURS 7.METODE DE ESANTIONARE NEPROBABILISTE-EXERCIȚII

Esantionare pe cote

a. simple

Tema cercetării: Atitudinea față de persoanele cu disabilități Populația de referință: persoanele din municipiul Brașov (date reale)

n=2000 persoaneSex Persoane

15-64 ani

Ni volumul

populației Pi-procente ni

Masculin 103155 48% 960

Feminin 111023 52% 1040

Total 214178 100% 2000

Vârsta Ni volumul

populației Pi-procente ni

15-19 ani 9158 4,3% 86

20-29 ani37641 17,6% 351

30-39 ani 54916 25,6% 513

40-49 ani 43773 20,4% 409

50-59 ani 46292 21,6% 432

60-64 ani 22398 10,5% 209

TOTAL 214178 100% 2000

b. combinate

Date reale-municipiul

Brașov Gen

Vârsta masculin feminin TOTAL

15-19 ani 4616 4542 9158

20-29 ani 18795 18846 37641

30-39 ani 27415 27501 54916

40-49 ani 20900 22873 43773

50-59 ani 20667 25625 46292

60-64 ani 10762 11636 22398

TOTAL 103155 111023 214178

Date privind numărulde chestionare ce

trebuie realizate

Gen

Vârsta masculin feminin TOTAL

15-19 ani 86

20-29 ani 351

30-39 ani 513

40-49 ani 409

50-59 ani 432

60-64 ani 209

TOTAL 960 1040 2000


20/49

20

Date reale-

municipiul

Brașov

Gen ni *volumul eșantionului)

Vârsta masculin feminin masculin feminin TOTAL

15-19 ani4,5% 4,1% 43 43 86

20-29 ani18,2% 17% 175 177 351

30-39 ani26,6% 24,8% 255 258 513

40-49 ani20,3% 20,6% 195 214 409

50-59 ani20% 23,1% 192 240 432

60-64 ani10,4% 10,5% 100 109 209

TOTAL 100% 100% 960 1040 2000

Care este diferența dintre eșantionarea proproțională și cea pe cote simple?

Figura 7.1. Diferențe dintre eșantionarea proporțională și cea pe cote

Exercitii3. Dorim sa realizam o cercetare pe tema divortialitatii

a. Ce metoda de esantionare ati folosi?

b. De ce ati ales aceasta metoda ?

c.

De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem acces

la aceste informatii?

4. Dorim sa realizam o cercetare privind relatiile de cuplu, doar pe cuplurile care traiesc in

uniune consensuala?

a. Ce metoda de esantionare ati folosi?

b. De ce ati ales aceasta metoda ?

c.

De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem accesla aceste informatii?

esantionarestratificata versus

eșantionare pecote

eșantionarestratificată

proporțională

PRIMUL STRAT

AL DOILEA STRAT(face parte dinprimul strat)

eșantionare pecote

cote simple

gen categorii vârstă

cote combinate

gen vârstă


21/49

21

Curs 8. Culegerea datelor

1. Aspectice practice ale eșantionării După ce am proiectat teoretic un eșantion, cum facem în mod practic pe teren să

selectăm persoanele care urmează să fie intervievate? Atunci când aplicăm o metodă de eșantionare care necesită o listă cu populația cadru,

lucruri sunt simple. Vor fi intervievate acele persoane care au fost selectate din listă. Cum se procedează însă atunci când nu există o listă cu populația cadru?

Pasul 1. Alegerea zonelor/localităților/cartierelor Metoda areolară/pe zone

Se va lua zona vizată pentru cercetare și va fi împărțită în zone care vor deveniobiecte de selecție aleatorie simplă sau stratificată. În cazul zonelor alese se poate proceda laun nou stadiu de selecție sau dacă unitățile sunt mici pot fi intervievate toate persoaneleincluse aici.

Ex1. Municipiul Brașov (se va lua harta și se va împărți orașul pe cartiere/puncte devotare)

Ex2. Județul Brașov (se va lua harta și se va împărți județul pe zone (urban/rural)/localități/cartiere/străzi

Pasul 2. Alegerea punctelor de sondaj (gospodăriilor) Metoda itinerarelor (random route)

Ex. Se pot trage la sorț un număr de străzi/a unei adrese de pe fiecare stradă. O datăaleasă prima adresă, operatorul de interviu va primi instrucțiuni de selectarea a următoareloradrese de pe stradă Pasul 3. Alegerea persoanei de intervievatEste indicat de a lăsa cât mai puțin la latitudinea opratorului modul de selectare a persoanelor.Se pot da fie doar cote și atunci el are o marjă destul de mare de a selecta indivizii, fie se potda scheme complexe se selectare a persaonelor. (vezi Rotariu Traian și Iluț Petru, Ancheta

sociologică și sondajul de opinie, Ed Polirom, Iași, 2006, 185-187)Ex.primul care și-a sărbătorit cel mai recent ziua de naștere, scheme mai complexe

2.Managementul cercetării Plan de acțiune-Diagrama GanttPreîntâmpinarea și diminuarea diferitelor tipuri de erori


22/49

22

Exemplu. Planificarea activităților pentru o cercetare cantitativă (anchetă pe bază de chestionar) ACTIVITATEA LUNA

I 2 3 4

săptămâna săptămâna săptămâna săptămâna

1 2 3 4 1 2 3 4 1 2 3 4 1 2

1. ntâlnire cu beneficiarii prestației sociologice(pentru clarificarea obiectivelor cercetării șiaspectelor financiare)

2. Documentarea3. Stabilirea metodologiei de lucru (metoda, tehnica,

procedeul, volumul eșantionului/metoda deeșantionare) 3. Realizarea instrumentului/instrumentelor

cercetării 4. Selectarea operatorilor de teren

5. Pretestarea instrumentului/instrumentelor

cercetării 6. Culegerea datelor din teren

7. Realizarea bazei de date/bazelor de date

8. Realizarea raportului de cercetare

9. Prezentarea raportului de cercetare


23/49

23

3. Tipuri de erori (ce se referă la managementul eșantionării) a. Erori întâmplătoare (ex. Operatorul a notat greșit vârsta)

Eroarea finală (la nivel de grup) se numește eroare netă. Dacă numărul persoanelorintervievate este mare atunci această eroare netă tinde către zero. b. Erori sistematice

o

La nivelul respondentuluio La nivelul operatorului

o La nivelul celui care realizează instrumentul cercetării (chestionarul)b.1. Erori intenționate Modalități de a preveni erorile intenționate

La nivelul respondentului Întrebări de control Instruire, experiență La nivelul operatorului Verificarea muncii de teren

La nivelul celui care

realizează instrumentul

cercetării (chestionarul)

Controlul și sancționarea firmeide cercetare de către clientul

cercetării b.2. Erori neintenționate

b.2.1.Erori legate de construirea chestionarului

Erori datorate formulării întrebărilor

o Limbajul

o Conținutul

Ex1. Două întrebări în aceeaiași propoziție (În ce măsură sunteți mulțumit

de conținutul procesului de învățământ și de dotările tehnice din

Facultatea de Sociologie și Comunicare?)

Ex2.răspunsuri dezirabile (Sunteți de acord ca statul să intervină în

protejarea mediului înconjurător? control Cât la sută din venitul dvs ați fidispus se mearga la taxe pentru mediu?)(nr7)

Erori generate de numărul și ordinea întrebărilor

o Numărul întrebărilor (durata interviului este prea mare, un număr mare de

întrebări măsurate pe aceeași scală)

o Ordinea

Întrebări dificile

Contaminarea răspunsurilor

Erori generate de forma de răspuns

o Se sugerează variante de răspuns când de fapt el nu are o opinie

o

Întrebările deschise (Ce părere aveți despre construirea Aeroportului din

Ghimbav? sau Sunteti de acord cu construirea Aeroportului din Ghimbav?)

o Ordinea variantelor de răspuns (efectul cap de listă)

Erori produse de construcția grafică a chestionarului (greu de completat)

b.2.2.Erori datorate operatorilor de interviu

Trăsături de personalitate (calitatea rețelei de operatori)

Corelația dintre tema cercetării și atitudinea respondentului față de tema

Anticipațiile operatorului

o Anticipațiile de structură-atitudine

o

Anticipații de rol o Anticipații de probabilitate


24/49

24

b.2.3.Erori datorate respondenților

Dezirabilitatea socială

Limitele memoriei umane

Procesarea și interpretarea informației (nu înțeleg, nu sunt atenți etc)

Curs 9_10. Analiza datelor

Etape premergătoare analizei datelor. Cu alte cuvinte ce avem de făcut după am adunatdatele din teren?

9.1. Realizarea unei baze de date-selectarea chestionarelor valide-numerotarea chestionarelor-realizarea unui cap de tabel (care să conțină și numărul chestionarelor)-completarea bazei de date

9.2. Verificarea și corectarea bazelor de date -Frecvențe simple-Find_Replace (vezi laborator)9.3. Verificarea reprezentativității eșantionului (dacă am utilizat metode de eșantionare

probabiliste sau neprobabiliste pe cote) Avem următoarele situații? Putem considera că este respectată structura populației în funcție de sex,vârstă sau naționalitate dacă am lucrat cu o eroare de +/-2%?

Tabelul nr.9.1: Structura populaţie şi a eşantionului în funcţie de sex

Structura populaţiei municipiuluiBraşov după sex

Structura eşantionului dupa sex

masculin 47.2% 44%

feminin 52.8% 56%

Total 100% 100%

Tabelul nr.9.2: Structura populaţie şi a eşantionului în funcţie de vârstă

Structura populaţiei municipiului Braşovdupă vârsta

Structura eşantionului după vârstă

18-24 ani 14.1% 14.4%

25-29 ani 11.2% 12.2%

30-34 ani 9.4% 11.6%

35-39 ani 9.0% 8.7%

40-44 ani 7.6% 7.3%

45-49 ani 8.9% 7.5%

50-54 ani 11.2% 10.9%

55-59 ani 8.6% 7.4% peste 60 ani 19.9% 20%

Total 100% 100%

Tabelul nr.9.3: Structura populaţie şi a eşantionului în funcţie de naţionalitate

Structura populaţiei municipiului Braşovdupă naţionalitate

Structura eşantionului după naţionalitate

roman 90.7% 92.5%

maghiari 8.1% 6.9%

rromi 0.3% 0%

germani 0.6% 0.3%

alta 0.3% 0.3%

Total 100% 100%


25/49

25

9.4. Ce facem dacă eșantionul nu respectă structura populației? -ponderarea eșantionului

Tabelul nr.9.2: Ponderarea eșantionului în funcție de sex

Structura populaţiei municipiuluiBraşov după sex

Structura eşantionului dupasex

Variabila de ponderare

masculin 47.2% 44% 1.07 (47,2%/44%)

feminin 52.8% 56% 0,94 (52,8%/56%)

Total 100% 100%

-toate analizele in SPPSS se fac în funcție de variabila ponderată (această variabilă se introduce laDATA/ WEIGHT CASES)

9.5. analiză univariată a datelor 9.6. analiză bivariată 9.7. analiză multivariată 9.8 raportul de cercetare

9.5.Analiza univariată a datelor-descrierea datelor Fiecare variabilă este analizată separat.

a. Tabele de frecvențe ți grafice cu o singură variabilă (pentru varibile măsurate pe scală nominalsau ordinal )

Tabele de frecvențe


26/49

26

Grafice

De unde se fac și tabelele de frecvențe

SAU DIN

b. Indicatori de poziţie (media, mediana, modul)(pentru variaile măsurate pe scală deinterval sau raport)

Redau printr-o singură valoare numerică nivelul general al seriei.b1. Media- Se adună scorurile și se împart la numărul total de scoruri sau la numărul total de

frecvențe relative (formula 2)-valoarea medie

Notație:


27/49

27

Notă: Media, modul se poat utiliza și pentru variabile ordinale

Medie aritmetică simplă

n

x

x

n

i

i 1

Dacă utilizăm frecvenţe formula devine:

Medie ponderata

n

xk

x

s

i

ii 1 unde s = numărul de categorii/clase; ki = frecvenţa

Cele două formule prezentate sunt echivalente.În practică, însă, unii utilizatori comit eroarea de a considera că formula 2 este o medie

ponderată. Însă, media ponderată apare atunci când se încalcă principiul democraţiei statistice carespune în esenţă că fiecare individ statistic contează cât oricare alt individ. Eroarea apare atunci cândfrecvenţele sunt considerate ponderi.

Trebuie să reţinem încă un aspect deosebit de important: media nu este o valoare mijlocie;media poate fi foarte departe de mijlocul intervalului de valori.

Exemplu 1.Media-(formula 1). Care este nivelul mediu de pregătire al studenților din grupa

1 de la programul de studiu Sociologie la disciplina Statistică socială univariată? Presupunem că avem 10 studenţi în grupă care au următoarele note la Statitică socialăunivariată:xi :4,8,5,7,6,9,5,4,10,9

̅=6,7Interpretare: Studenții din grupa 1 au în medie nota 6,7. Deci, gradul lor de cunoștințe este

unul de nivel mediu la această disciplină.

Exemplu 2.Media-(formula 2). Aceeași serie de date – formula 1

Aceleași note ale studenţilor le punem în tabele cu frecvențe xi:4,8,5,7,6,9,5,4,10,9Nota-xi Frecevenţa k i

4 2

5 2

6 1

7 1

8 1

9 2

10 1

n=10-numărul de note (numărul de k i)̅ =6,7Interpretare: idem exemplu 1

Media: Formula 1

Media: Formula 2-


28/49

28

Exemplu 3.Media-(formula 2). Presupunem că avem un student care a luat următoarele notela cele 7 discipline dintr-un semestru. Fiecare disciplină are un număr de credite. Care este mediastudentului pe semestru?

Nota-xi Creditele k i

4 5

5 3

6 4

7 5

8 5

9 4

10 4

Total n=30

n=30-numărul de credite (numărul de k i)̅=7

Interpretare: Studentul are media 7 pe primul semestru.b2. Modul -valo area cea mai des întâlnită

Notație: MoExemplu 4.Modul. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1de la

programul de studii Sociologie. Presupunem că avem n=10 studenți în grupă care au mers astfel la bibliotecă...

Nr zile xi:1, 0, 5, 7, 5, 4, 5, 2,3, 4,Mo=5Interpretare: Cei mai mulți studenți au mers 5 zile pe săptămână.

Exemplu 5.Modul. Luăm același exemplu cu notele studentilor din grupa 1 la Statistica

sociala: xi: 4,8,5,7,6,9,5,4,10,9Mo=4, 5, 9Interpretare: în acest caz nu avem o singură valoare modală, și atunci vom spune că cei mai

mulți studenți au luat nota 4, 5 sau 9. b3. Mediana- valoarea care împarte seria în două părți egale

Notație: Me

Exemplu 6.Mediana. Notele studentilor din grupa 1 la Statistica sociala

Presu punem că avem 10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9

Seria ordonată.xi: 4,4, 5, 5, 6, 7, 8, 9, 9, 10Me=(6+7)/2=6,5 (suma celor două valori de la mijloc) Interpretare : 50% dintre studenți au luat note până în 6,5 iar 50% peste 6,5.

Exemplu 7.Mediana. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1 xi: 1, 0, 5, 7, 5, 4, 5, 2,3,

Seria ordonată: xi 0, 1, 2, 3, 4, 5, 5, 5, 7Me=4 (valoarea de la mijloc)Interpretare : 50% dintre studenți au mers la bibliotecă până în 4 zile pe lună, iar 50% peste 4

zile pe lună


29/49

29

Exemplu 8.Modul. Presupunem că avem 80 de studenți de la programul de Asistență socială care au luat

următorele note la disciplina Statistică socială univariată. Nota-xi –nota studenților din anul I

AS

Frecevenţa k i

4 10

5 25

6 8

7 15

8 10

9 7

10 5

Total 80

Mo= 5

̅= 6,38Me=6.03

Formula 3. Relația dintre cei trei indicatori. Mo = Me – 3 ( x -Me)

Cum decidem când folosim unul din indicatori? Dacă seria este omogenă, putem utiliza media, dacă seria este eterogenă folosim mediana sau

modulul.Cum vedem dacă o serie este omogenă sau nu?

Abaterea standard, coeficientul de variație.

c. Indicatori de dispersieIndicatorii de dispersie reflectă gradul de inegalitate între indivizi (omogenitate/eterogenitate).Indicatorii de dispersie reprezintă măsura în care indivizii se dispersează pe scala de valori; măsoarăinegalităţile dintre indivizi (ex. veniturile – indicatorul de dispersie relevă imediat inegalităţileexistente)

c1.Amplitudinea – distanța dintre cea mai mare valoare și cea mai mică, arată cât de mare e variațiascorurilor

Notație: A Formula 4. Amplitudinea. A = xmax – xmin

Exemplu 9. Amplitudinea

Presupunem că avem 80 de studenți de la programul de Asistență socială car e au luat

următorele note la disciplina Statistică socială univariată. Nota-xi –nota studenților din anul I

AS

Frecevenţa k i

4 10

5 25

6 8

7 15

8 10

9 7

10 5

Total 80

A=10-4=6


30/49

30

C2. Abaterea standard (deviația standard) -Măsoară gradul de eterogenitate sau de dispersie faţăde medie. Cu cât are o valoare mai mare cu atât seria este mai eterogenă.

Notație: (sigma)

Exemplu 10.Abaterea standard-serie simplă Presupunem că avem o serie cu banii pe care i-au cheltuit un grup de studenţi într -o săptămână,

pe produse de birotică (euro). În grup sunt 20 de studenți. Dorim să aflăm cât de împrăștiate suntvalorile față de medie. Cu alte cuvinte, studentii pot fi considerați un grup omogen sau eterogen ?

Formula 5. Abaterea standard-serie simplă

Formula 6. Abaterea standard –serie cu frecvențe

n

x xk i

n

i

i

2

1

)(

Exemplu 10. Abaterea standard-(formula 5)

Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60

Formula 5. ̅=22,9 =15,69

Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru unîncepător să estimeze dacă grupul este omogen sau nu.

Exemplu 11. Abaterea standard-(formula 6)

Nota-xi –nota studenților din anul I

AS

Frecevenţa k i

4 10

5 25

6 8

7 15

8 10

9 7

10 5

Total 80

Formula 6. =1.77, ̅=6.38

Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru un

începător să estimeze dacă grupul este omogen sau nu. Cum interpretăm prin raportare la celalalt exemplu? Nu putem.

Este mai ușor noțiunea de deviaţie standard dacă este vizualizată. Figura de mai sus conţinedouă seturi de curbe de frecvenţa. Care dintre curbele din figura au deviaţie standard mai mare? Dintrecurba A şi B, distribuţia valorilor din curba A este mai eterogenă, are o deviaţie standard mai mare dela medie. Dintre curba C şi D, distribuţia valorilor din curba C este mai eterogenă şi are o deviaţiestandard mai mare.

n

x xi

n

i

2

1

)(


31/49

31

Figura nr.8.1. Curbe de distribuție ale valorilor

C3.Coeficientul de variaţie-Este un indicator care indică gradul de omogenitate/eterogenitate a unei

serii de date. Se exprimă în procente. Dacă ν este mai mic decât 35-40%, atunci seria este omogenă iarmedia sa este reprezentativă,

Notație: v

Formula 7. Coeficientul de variație x

v

*100%

Exemplu 12. Coeficientul de variație ̅=6.38

v=1.77/6.38= 0.2774= 27.74%I nterpretare : Coeficientul este mai mic de 40% deci seria este omogenă și media este reprezentativă

Exercițiu. Avem o medie a cheltuielilor firmelor cu serviciile de comunicaţii electronice de 2056 ronşi o abatere standard de 1158. Este media cheltuielor reprezentativă pentru toate firmele din Braşov?

Varianţa 2

Denumită şi dispersie, se defineşte ca fiind pătratul mediu al abaterilor valorilor observate de lamedia lor. Varianţa este un index matematic al gradului în care scorurile deviază de la medie (sausunt în varianţă cu ea). O varianţă mică indică faptul că majoritatea scorurilor distribuţiei se aşeazădestul de aproape de medie; dacă este mare, atunci scorurile sunt împrăştiate mult. Deci, varianţaeste direct proporţională cu gradul de dispersie. Pentru a calcula varianţa unei distribuţii, mediaeste scăzută din fiecare scor. Diferenţa se ridică la pătrat, apoi se împarte suma pătratelor la n

Formula 8. Varianța-serie simplă

2 =

n

x xi

n

i

2

1

)(

Exemplu 13. Varianţa (formula 8) Luăm acelaşi exemplu de mai sus cu preţurile produselor achiziţionate de un grup de studenţi,

de data aceasta la un grup mai mare de 20 persoane.Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60

n=20

x =22.9

σ2 = ((2-22.9)2 + (4-22.9)2 + (6-22.9)2 +......+ (60-22.9)2 )/20 = 246.34

AB

C

D


32/49

32

I nterpretare : Această valoare e greu de interpretat în lipsa unui referențial. Este folosită maidegrabă pentru calculul altor indicatori.

Formula 9. Varianța-serie cu frecvențe

2 =

n

x xk i

n

i

i

2

1

)(

Exemplu 14. Varianţa – (formula 9)

Nota-xi – nota studentilordin anul I AS

Frecevenţa k i

4 10

5 25

6 8

7 15

8 10

9 710 5

Total 80

x =6.382

= (( 10*(4-6.38)2 + 25*(5-6.38)2 +9*(6-6.38)2 +...+5*(10-6.38)2)/80=1.77

d.Mărimi multiple

d.1.Cuartilele

Sunt trei cuartile ce împart seria de date în patru părţi egale.

Cuartila inferioară este prima cuartilă în ordine ascendentă de aranjare a datelor . Se noteazăcu Q1 şi ne arată pânâ la ce valoare sunt distribuite primele 25% din valori.

Cuartila mijlocie, reprezintă jumătatea seriei şi este identică cu mediana, cuartila putând ficalculată în acelaşi mod ca şi aceasta. Se notează cu Q2 (Q2=Me) şi ne arată până la cevaloare sunt distribuite primele 50% din valori.

Cuartila superioară reprezintă trei sferturi în ordine ascendentă a datelor. Se notează cu Q3 şine arată până la ce valoare sunt distribuite primele 75% din valori.

Ultima cuartilă, Q4, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această cuartilă reprezintă valoarea maximă din seria de date.

Pentru calcularea cuartilelor trebuie parcurşi doi paşi :1. se calculează mai întâi poziţia în seria de date a respectivei cuartile ;

2. se calculează valoarea efectivă a cuartilei.

Exemplu 15. Cuartilele-serie simplă. Notele studentilor din grupa 1 la Statistică socială

Presupunem că avem n=10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9

Seria ordonată xi: 4,4, 5, 5, 6, 7, 8, 9, 9, 10Q1 - cuartila inferioară


33/49

33

1.Poziţia va fi egalã cu: (n+1)/4=(10+1)/4= 2.75≈3Aceasta cuartilă va fi al treilea număr al seriei. Aceasta înseamnă că 5 este cuartila inferioară. Q1==5

I nterpretare: 25% dintre studenți au luat note până la valoarea de 3 restul au luat peste 3.

Q3 - cuartila superioară Poziţia cuartilei superioare se obţine în mod asemănător, cu excepţia faptului că este vorba de

trei sferturi, deci vom multiplica poziţia cuartilei inferioare cu 3. Poziţia cuartilei superioare va fi egalăcu: 3×(n +1)/4 = 8.25≈8

Reprezintă al optulea număr din secvenţă. Aceasta înseamnă că Q3=9 I nterpretare: 75% dintre studenți au luat note până la valoarea de 9 restul au luat peste 9.

Q2=Me- mediana

Poziţia medianei va fi egalã cu: 2×(n +1 )/4 = 5.5≈(între 6 și 7) Me= 6,5

I nterpretare: 50% dintre studenți au luat note până la valoarea de 6.5 restul au luat peste 6.5. Prin cunoaşterea cuartilelor obţinem o imagine mai clară despre cum se distribuie datele seriei.

Exemplu 15. Cuartilele-serie cu frecvențe. Notele studenților de la programul de studiu Asistență socială la disciplina Statitică Socială, suntredate mai jos....


Frecevenţa k i

4 10

5 25

6 8

7 15

8 10

9 7

10 5

Total 80

Tabelul de mai sus este transformat în acest tabel Nota-xi – nota studentilor

din anul I AS

Frecevenţa k i

4-5 35

6-7 23

8-10 22

Total 80

Poziţia Q1= (80+1)/4=20, 25≈20Este a 20 valoare din serie, se afla în primul interval a 20-a valoareQ1=4+(1:35)*15=4,57

Interpretare??

Poziţia lui Q3= 3* (80+1)/4=60,75≈ 61 Este a 61 valoarea, se afla în al treilea interval a 3-a valoareQ3=8+ (1:22)*3=8,13

Interpretare??

d.2.Decilele

Sunt 9 decile care împart seria de date în 10 părţi egale.


34/49

34

D1, este prima decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 10% din valori.

D2, este a doua decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 20% din valori.

……………………………………………………………………………………………………………

D5, reprezintă jumătatea seriei şi este identică cu mediana, și cu Q2 şi ne arată până la cevaloare sunt distribuite primele 50% din valori. Ultima decilă, D9,, reprezintă ultima valoare din serie. Deoarece seria este ordonată crescător,

această decilă reprezintă valoarea maximă din seria de date.

Exemplu 16. Decile- serie de date simplă Luăm acelaşi exemplu menționat mai sus cu preţurile produselor achiziţionate de un grup de

studenţi, de data aceasta un grup mai mare de 20 persoane.

xi: 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60 Poziţia decilelor se calculează ca şi poziţia cuartilelor excepţie făcând împărţirea la 4. De data

aceasta pentru a calcula poziţia decilelor, se va face împărţirea la 10 Poziţia decilei a şasea D6, va fi egală cu 6× (n+1) : 10 =12, 6 13D6=26 ronInterpretare: 60% dintre studenţi au achiziţionat produse până în 26ron, deoarece valoarea a

treisprezecea din serie este 26 ron.

Exemplu 17.Decile-serie de date cu frecvenţe.


Frecevenţa ki

4-5 35

6-7 23

8-10 22

Total 80

Dorim să calculăm decila a patra, D4. Poziţia va fi egală cu: 4× (80 +1) : 10 = 32,4. Itemul 32 va reprezenta decila a patra. Aceasta

va fi cuprinsă în intervalul 4-5 ani . Prin urmare valoarea decilei a a patra va fi D4 = 4+ (1 : 35) ×32=4.91.

Interpretare: 40% dintre persoane au note pânâ în 4.9 ani, restul peste 4.9 ani.

d.3.Centilele

Sunt 99 centile care împart seria de date în 100 părţi egale.

C1, este prima centilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 1% din valori.

C20, este a douăzecea decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce

valoare sunt distribuite primele 20% din valori. C20=D2 ……………………………………………………………………………………………………………

C50, reprezintă jumătatea seriei şi este identică cu mediana, și cu D5 sau Q2 şi ne arată pânăla ce valoare sunt distribuite primele 50% din valori.

Ultima decilă, C99,, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această decilă reprezintă valoarea maximă din seria de date.


35/49

35

Centilele

Sunt 100 de centile ce împart şirul de date în 100 de părţi egale. Poziţia oricărei centile seobţine în mod asemănător cu aflarea poziţiei cuartilelor sau a decilelor. De exemplu, poziţia celei de-atreizeci şi cincea centile este : 35 × (n +1) : 100 unde n este numărul de itemi (valori).

Exemplu 18. Centile- serie cu frecevenţe

vârsta frecvenţa k i între 15 – 25 ani 30

între 25 – 35 ani 76între 35 – 45 ani 38între 45 – 55 ani 10între 55 – 65 ani 5TOTAL (n) 159

. Poziţia oricărei centile se obţine în mod asemănător cu aflarea poziţiei cuartilelor sau adecilelor. De exemplu, poziţia celei de-a treizeci şi cincea centile este : 35 × (n +1) : 100 unde n estenumărul de itemi (valori).

Pentru exemplul anterior axându-ne pe vârsta angajaţilor, de exemplu, poziţia în serie a celeide-a optzecea centile este : 80 × (159 +1) : 100 = 128. Aceasta va fi în intervalul 35-45 de ani şi este adouăzeci şi doua vârstă din interval, după totalul de 106 angajaţi distribuiţi în primele două intervale.Aceasta înseamnă că a optzecea centilă a vârstei este:

P80= 35 + (10 : 38) × 22= 40,8 aniInterpretare: 80% dintre persoane au vârsta până în 40,8 ani restul peste 40,8 ani..

Toți acești indicatori se fac din SPSS de la meniul....


36/49

36


37/49

37

e. Distribuția normală a scorurilor unei serii ordonate crescător

e1. Ce reprezintă distribuția normală?

Distribuția normală este un model teoretic, unde scorurile nu se abat mai mult de 3σ (deviațiistandard de la medie. Mai mult de atât media, mediana și modul se află to ate la mijloculcurbei. Cele două jumătați sunt perfect simetrice.

În cazul distribuţiilor asimetrice

e2. Cum putem afla dacă variabila are sau nu o distribuție normală?

e2.1 Metode graf ice

Histograma

Boxplot

Histograma

Se face în SPSS din meniul…


38/49

38


39/49

39

Boxplot Se face în SPSS în

Această variabilă are sau nu distribuția normală? Dacă nu putem aprecia facem și altă metodă grafică, cum ar fi BOXPLOT


40/49

40

Linia boldată este mediana și ar trebuie să fie la jumătatea cutiei ca varibila să aibă distribuțienormală.I nterpretare: În cazul de față, linia nu este la mijlocul cutiei, deci variabila nu are distribuție normală. Ne putem verifica și cu indicatorii formei distribuției

Mustata-valoarea maximă pe care au dat-o subiecții

Mustata-valoarea minimă pe care au dat-o subiecții

mediana


41/49

41

e2.2Indicatori ai formei distribuţiei

Oblicitatea (Skewnees)

Ne arată înclinarea dacă este > 0 – cocoaşa este deplasată spre stânga; dacă este 0 – cocoaşă înaltă; lectocurtică; b < 0 – platicurtică.

Cu cât aceşti indicatori au valori mai depărtate de valoarea zero cu atât distribuţia variabilei seabate mai mult la stânga sau la dreapta sau este mai plată sau mai ascuţită. Cu cât valorile acestorindicatori sunt mai apropiate de valoare zeroa cu atât distribuţia variabilei este mai aproaee dedistribuţia normală, fiind simetrică faţă de medie(media=medina=modul)

In SPSSS se fac din meniul...EXPLORE..fără sa bifăm nimic se face automat tabelul de mai jos...

Cum intepretăm valorile cindicatorilor formei distribuției? Curba este mai ascuțită decât cea normală. Ce înseamnă acest lucru? Curva este deplasată ușor spre stânga. Ce înseamnă acest lucru?


42/49

42

e2.3. Teste-Kolmogorov Smirnov

Graficele ne ajută să ilustrăm distribuția valorilor, dar uneori nu putem aprecia fosrte bine dacă acelevariabile au sau nu distribuție normală. De aceea este nevoie de teste, care ne vor spune cu siguranță,dacă putem considera că o variabilă are sau nu distribuție normală Termeni utilizați în testarea ipotezelor

P=95%probabilitatea de garantare a rezultatelor (probbilitatea de a a avea dreptatea atuncicând respingem/acceptăm ipoteza de nul)

α=5% probabilitatea de a greși atunci când acceptăm sau respingem ipoteza de nul

Ipotezele testului. Acestea diferă de la test la test

o H0=ipoteza de nul

o H1=ipoteza alternativă

Modalități de validare a ipotezei de nul sau alternative

o fiecare test are o modalitate proprie

o există o modalitate general valabilă la toate testele

Se compara pcalculat

(cel din SPPS-de la rubric Sig) cu valoarea lui p (teoretic)Lucrăm de obicei cu P=95% atunci p va fi 0.05. Deci pcalculat se va compara cu 0.05.Dacă este mai mic se respinge H0. Dacă e mai mare de 0,05 se va accepta H0.

Cum se face în SPSS Testul Kolmogorov Smirnov? Tot din meniul EXPLORE..

Orice test are o ipoteză de nul(H0) și una alternativă (H1)H0: distribuția variabilei d2 nu diferă de distribuția normal (teoretică) H1: distribuția variabilei d2 diferă de distribuția normal (teoretică)


43/49

43

Cum vedem care ipoteză o acceptăm? Ne uităm la pcalculat(Sig.). dacă e mai mic de 0.05 se respinge H0, dacă e mai mare se acceptă H0. Încazul de față este 0.000 este mai mic de 0.05, deci se respinge H0. Cu alte cuvinte, variabila d2 nu are odistribuție normal.

Curs 11_Analiza bivariată a datelor 11.1 Analiza variabilelor măsurate pe scală nominal/ordinal

11.1.1 Grafice cu două variabile 11.1.2 Tabele cu două variabile (cu procente pe linie/coloană/total)

11.1.3 Teste de asociere-

Testul χ 2

Valoarea testului 2 se calculează în modul următor:

Formula 1. Testul2

asteptate

asteptateobservate

F

F F 22

)(

Frecvenţele aşteptate sunt calculate în ipoteza independenţei între variabile, folosindformula (I) discutată anterior (pentru prima căsuţă aceasta devine P

11=P

+1*P

1+sau F

11= F

+1*F

1+/nr.

total de subiecţi). Se porneşte, deci, de la distribuţia marginală şi se calculează valorile aşteptate pentrufiecare căsuţă în parte, după formula de mai sus.

Ipoteza de nul a acestui test presupune inexistenţa unei relaţii de asociere dintre cele douăvariabile analizate.

Ipoteza alternativă presupune existenţa unei asociere dintre cele două variabile.

În SPSS pentru a obţine aceste valori precum şi valoarea testului 2 se selectează din meniuANALYZE/DESCRIPTIVES STATISTICS/CROSSTABS, se introduce variabila pe linie şi cea pecoloană, apoi din opţiunea Statistics se bifează Chi-square, iar din Cells/ Counts se alege Observed(frecvenţele observate) şi Expected (cele aşteptate).

Rezultatele din fişierul Outuput sunt prezentate mai jos.

Cât de mulţumit(a) sunteţi de sănătatea dvs.?.

TotalDeloc

mulţumit Nu preamulţumit

Destul demulţumit

Foartemulţumit

Sex masculin Count 100 252 482 161 995

ExpectedCount

136,4 285,7 436,5 136,4 995,0

feminin Count 174 322 395 113 1004

ExpectedCount

137,6 288,3 440,5 137,6 1004,0

Total Count 274 574 877 274 1999


44/49

44

Cât de mulţumit(a) sunteţi de sănătatea dvs.?.

TotalDeloc

mulţumit Nu preamulţumit

Destul demulţumit

Foartemulţumit

Sex masculin Count 100 252 482 161 995

ExpectedCount

136,4 285,7 436,5 136,4 995,0

feminin Count 174 322 395 113 1004

ExpectedCount

137,6 288,3 440,5 137,6 1004,0

Total Count 274 574 877 274 1999

ExpectedCount

274,0 574,0 877,0 274,0 1999,0

În acest tabel 136,4 reprezintă frecvenţa aşteptată pentru căsuţa (1,1) care este egală cu

produsul frecvenţelor marginale pe primul rând şi prima coloană împărţit la numărul total de subiecţi(274*995/1999), iar celelalte valori se calculează similar.

Chi-Square Tests

Value dfAsymp. Sig. (2-

sided)

Pearson Chi-Square 45,522a 3 ,000

Likelihood Ratio 45,850 3 ,000

Linear-by-LinearAssociation

43,368 1 ,000

N of Valid Cases 1999

a. 0 cells (,0%) have expected count less than 5. The minimumexpected count is 136,38.

Valoarea calculată a testului 2 se compară cu cea critică care depinde de numărul de grade delibertate. Numărul de grade de libertate gl= (r-1)*(c-1), unde r=nr. de rânduri, c=nr. de coloane.

Decizia se poate lua în două moduri:

1) Se compară valoarea calculată a lui 2 cu cea critică pentru numărul de grade de libertate, si dacă

2 calculat> 2 critic (care se ia din tabele standarde) atunci se respinge ipoteza de nul.

2) Alternativ dacă nivelul de semnificaţie (p sau Sig. cum este notat în SPSS) calculat este mai mic

decât 0,05 se respinge ipoteza de nul a independenţei dintre variabile (cu o probabilitate de eroarede 0,05).

Pentru tabelul anterior 2 =45,52, iar p=0,095. Fie comparăm p cu 0,05 sau valoarea 2 cu cea critică pentru 1 grad de libertate care este 3,8, concluzia la care ajungem este că respingem ipoteza de nul aindependenţei dintre variabile. Cu alte cuvinte există o relaţie de asociere între cele două variabile.

Valoarea reziduală standardizată şi ajustată

Această măsură se calculează pentru fiecare căsuţă a tabelului pe baza formulei de calcul atestului

2. Reziduul standardizat şi ajustat are avantajul că ne permite identificarea relaţiilor deasociere chiar dacă ele nu caracterizează tabelul în ansamblu, ci numai două valori particulare alevariabilelor.


45/49

45

Formula 2. Valoarea reziduală ajustată și standardizată

Fasteptate

Fasteptate Fobservate I

Dacă pentru o celulă a tabelului valoarea reziduală standardizată ajustată este în afaraintervalului [-1.96;+1.96] atunci cu o probabilitate de eroare de 5% se poate susţine că frecvenţa

observată este semnificativ mai mare decât cea aşteptată în cazul independenţei între variabile, deci se presu pune că există o asociere între aceste două valori ale variabilelor. Dacă valoarea rezidualăajustată se află în interiorul intervalului se acceptă H0.

Pentru cazul anterior valorile sunt următoarele:

Adjusted Residual

Cât de mulţumit(a) sunteţi de sănătatea dvs.?

Delocmulţumit

Nu preamulţumit

Destul demulţumit

Foartemulţumit

Sexulrespondentului masculin -4,7 -3,3 4,1 3,2feminin 4,7 3,3 -4,1 -3,2

Aceste valori se obţin în SPSS din ANALYZE/DESCRIPTIVESSTATISTICS/CROSSTABS/CELLS, apoi se selectează Residuals şi se bifează Adj. Standardized .

Interpretare. Deducem deci că există o asociere pozitivă între persoanele de sex masculin şimulţumirea faţă de sănătate şi persoanele de sex feminin şi nemulţumirea faţă de sănătate

În SPSS TESTUL χ 2 se face din....


46/49

46


47/49

47

Iar valoarea reziduală ajustată și standardizată din...


48/49

48

11.2. Analiza variabilelor măsurate la nivel de interval sau raport

11.2.1.Grafice realizate între variabile măsurate la nivel de interval sau raport Graficele realizate pe două variabile cantitative sunt cele de tip SCATTER/DOT din meniul

CHART BUILDER.

Am luat ca exemplu două variabile cantitative din Barometrul de opinie publică octombrie2007, vârsta şi număr hectare pământ pe gospodărie.

Interpretare. Se observă că persoanele care au peste 5 hectare de pământ au vârste peste 40de ani.

11.2.2.Coeficienţi de asociere între variabile măsurate la nivel de interval sau raport Coeficientul r a lui Pearson se foloseşte pentru a testa relaţiile dintre două variabile

cantitative.

y x

n

i

ii

n

y y x x

r

1

))((

,

unde, xi, yi reprezintă valorile celor două variabile,

x , y , reprezintă mediile celor două variabile N, volumul eşantionului iar σx, σy repezintă deviaţiile standard a celor două variabile.

Acest coeficient are valori în intervalul [-1;+1] şi cu cât valoarea coeficientului este maidepărtată de valoare de zero cu atât există o relaţie mai puternică între cele două variabile.


49/49

În SPSS se realizează acest coeficient din meniulANALYZE/DESCRIPTIVES/STATISTICS/ CROSSTABS iar aici se va bifa opţiuneaCORRELATIONS. Pentru exemplificare, am luat variabilele prop1da şi vârsta din baza de date din

Barometrul de opinie publică octombrie 2007, care măsoară numărul de hectare deţinute de o persoanăşi respectiv vârsta persoanei.

Symmetric Measures

ValueAsymp.

Std. Error a Approx. T

b

Approx. Sig.

Interval byInterval

Pearson's R ,083 ,034 2,313 ,021c

Ordinal byOrdinal

SpearmanCorrelation

,160 ,035 4,536 ,000c

N of Valid Cases 782

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.

Interpretare. Valoarea coeficientului este r=0.083 iar probabilitatea de testare a coeficientuluieste p=0.021. Deoarece aceasta este mai mică decât 0,05 rezultă că acest coeficient este semnificativ,deşi are o valoare apropiată de zero. Prin urmare putem spune că există o relaţie directă între vârstă şinumărul de hectare deţinute, dar destul de slabă ca intensitate. Deoarece coeficientul este pozitiv, putem a precia că o dată cu creşterea vârstei poate creşte şi numărul de hectare de pământ deţinute.

Suport Curs Statistica Univariata 2015

Documents

Transcript of Suport Curs Statistica Univariata 2015