curs spss

I. 1. Introducere în SPSS

Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor cercetări de teren cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apărut astfel de-a lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleaşi proceduri statistice de bază. În acest curs vom trece în revistă o serie de proceduri pe care le utilizează programul SPSS for Windows, varianta 11.5., program care a fost lansat de către SPSS Inc. Chicago (alte informaţii puteţi afla pe site-ul www.spss.com). Traducerea liberă a acestor iniţiale este « Statistical Package for Social Sciences ». Odată lansat programul Windows, dacă SPSS 11.5 este instalat, programul se poate deschide apelând la pictograma* specifică sau căutând fişierul executabil după comenzile Start→Programs→ SPSS for Windows→ SPSS 11.5 for Windows :

După executarea acestor comenzi va apare fereastra generală a programului SPSS:

* Datorită specificului acestui demers explicativ am renunţat în aceste capitole la numirea şi numerotarea figurilor sau tabelelor.

http://www.spss.com/

În imaginea de mai înainte, în partea superioară se pot observa, ca şi în programele Word sau Excel trei bare:

-Bara de titlu care poate include numele fişierului după ce va fi salvat-Bara de meniuri (File, Edit, View, Data etc.)-Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale unor comenzi

care se găsesc de fapt şi în meniuri).Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit editor de

date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte mare. În acest tabel identificăm:

-coloanele (care reprezintă variabile statistice)-liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii)

În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de nominalizarea foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse în Data EditorVariable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:

File- conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care operează programul. Edit- conţine comenzile pentru editarea, modificarea, copierea, căutarea textelorData- conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date Transform- conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor.Statistics- meniu cu procedurile statistice disponibile în program Graphs- conţine procedurile pentru reprezentări grafice diverseUtilities- conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de variabile, organizarea meniurilor.Window- conţine comenzi care permit lucrul cu ferestrele SPSSHelp- conţine informaţii despre program şi despre procedurile statistice folosite.

I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date

Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse din alte surse de către utilizator fie că sunt cele existente deja în cadrul programului. Dacă intenţionăm să deschidem o astfel de bază de date este necesar să urmăm paşii următori: File→Open→Data după care apar toate bazele de date din program:

Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de tip *.spo în care sunt incluse rezultatele cercetării statistice).

Dacă deschidem însă rubrica Files of type apar următoarele specificaţii:

Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss dorim să fie salvat după comenzile File Save As; putem deci hotărî formatul în care va fi salvat. De asemenea cu comenzile FileOpen Database putem să transferăm diverse fişiere iar cu comezile FileRead Text Data putem transfera în SPSS chiar texte din fişiere tip ASCII Data..

***

Dupã cum se observã bazele de date sunt ordonate alfabetic iar din ultimul rând se deduce cã bazele de date sunt fişierele de tipul *.sav!

Deducem de aici cã SPSS poate citi şi multe alte tipuri de fişiere. De exemplu se pot citi fişiere de tip Spreadsheet (Excel, Lotus), de tip dBase, Ascii sau fişiere din diverse alte programe statistice. Pentru precizãri suplimentare se poate consulta Help-ul programului sau Tutorialul acestuia!

Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe numele acesteia atunci va apare pe ecran o imagine de tipul următor:

Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi putem

observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de identificare a individului care intră în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritală), agewed (vârsta la prima căsătorie) etc. După cum se vede fiecare variabilă are un nume prescurtat care poate include maximum 8 caractere (fără spaţii şi fără anumite semne speciale) iar dacă vom opri cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de asemenea submeniul File Display Data Info. Pentru înţelegerea informaţiilor astfel obţinute sau pentru construirea de noi baze de date trebuie cunoscută în amănunt problematica variabilelor statistice.

3. Variabile. Elemente de statistică descriptivă

Reluăm aici unele consideraţii făcute într-un curs anterior de statistică descriptivă datorită utilităţii acestora în cazul de faţă. Aminteam cu acel prilej că în orice cercetare statistică se obţin date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit, apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din aceste variabile se distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus aceste variabile se exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel, pentru Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:

-calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)-cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)

În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori pe două tipuri de scale:

1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)

2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de şeful dv. direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici nemulţumit d). mult e).foarte mult.

Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi denumirea de scală nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie de ordine (fiecare din variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca în exemplul următor:

Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?” Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ;

4). Practic niciodată. Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată

se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric, cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative!

În concluzie se poate face distincţia între variabile calitative nominale şi variabile calitative ordinale.

Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată printr-un număr cardinal şi se împart şi ele în două categorii:

-variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice valoare din intervalul [140, 220] cm.)

-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.) Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)!Variabilele cantitative uzează de două tipuri de scale:

1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.) 2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)

Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale respectiv ratio scale).

Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.

Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin et al. [1995; 34]:

Clasificarea variabilelor după tipTip de varibilă Scala Exemple

Calitativă Nominală Ordinală

Sex, profesiuneOpinie

Cantitativă (discretă sau continuă) De intervale

De rapoarte

Discretă: anul de naştereContinuă: temperaturăDiscretă: nr. de copii, vârstaContinuă: înălţime, greutate

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt la

distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru variabilele calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim că în literatura de specialitate se întâlneşte noţiunea de variabilă categorială uneori cu sens calitativ alteori cu sens cantitativ.

Generalizând, variabilele pot fi de două feluri : cantitative sau calitative iar dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizări sunt importante pentru că procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile şi de tipul scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste non-parametrice în timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este important de precizat că variabilele trebuie să îndeplinească anumite condiţii înainte de a fi supuse cercetării. De exemplu se cere ca o variabilă cantitativă să respecte condiţiil : distribuirea normală a valorilor în esantionul prelevat şi apropierea acestei distribuţii de distribuţia din populaţia mare din care a fost extras eşantionul.

Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe o scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm că suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem altă scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O carte 2. Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi tratată ca şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă. Diferenţa de interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În fiecare caz rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.

O distincţie importantă este şi aceea dintre variabile independente şi variabile dependente. Iată câteva exemple :

Variabila independentă Variabila dependentăStilul manageruluiSexul respondenţilorVirsta

Productivitatea munciiOpţiuni electoralePreferinţe muzicale

După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia inversă neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum sunt desemnate aceste tipuri de variabile diferă de la o cercetare la alta. Prin definiţie variabilele independente sunt cele care influenţează pe cele dependente, fiind stabilite sau introduse de către cercetător. În cercetările prin chestionar de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile (întrebări). Legăturile dintre astfel de variabile sunt mai des puse în evidenţă în experimentele sociologice.

4. Definirea variabilelor în SPSS

Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom urma comenzile File→New→Data după care apare tabloul gol Data Editor. Vom da apoi dublu clic pe numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doilea registru numit Variable view în care putem defini variabilele:

În prima coloană începând din colţul din stânga sus putem introduce numele variabilelor. Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi vom caracteriza respectivele variabile conform indicaţiilor care urmează : Type, Width, Decimals, Label etc.

De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe fiecare coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul fiecărei coloane:

Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_» numit şi underscore.

După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a celulei corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va apare următoarea fereastră :

Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile după valorile pe care le pot lua acestea :

-Numeric-opţiunea pentru valori numerice; se poate stabili câte cifre au aceste numere, maximum 40 (Width) dar şi cifrele pentru partea zecimală, maximum 16 (Decimal Places). Opţiunile alese vor apare în următoarele două coloane ale tabloului !-Comma- sau virgulă folosită uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz separatorul zecimal este un punct -Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz separatorul zecimal este un virgula-Scientific notation- notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*103

-Date-notaţii pentru date calendaristice (conform unui format care poate fi ales).-Dollar-simbolul monedei americane-Custom currency- variabilă numerică cu date dispuse după formatul din

Edit→Options→Currency-String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere sau numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.

Obs : cele mai des folosite tipuri sunt Numeric şi String !

-Label- putem desemna numele pe lung al variabilei cu până la 256 caractere

-Values- pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul variabilelor ordinale sau categoriale. După un clic în partea dreaptă a celulei corespunzătoare din coloana cu acest titlu va apare fereastra de dialog următoare :

- Missing – poate permite operatorului de a desemna valorile lipsă (Missing Values) din cadrul unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă după cum apare în fereastra următoare :

Value dã valoarea numericã a unei etichete iar Value Label va da numele etichetei respective. Dupã aceste operaţii se apasã pe butonul Add . Opţiunile pot fi apoi schimbate (Change) sau chiar şterse (Remove). Iata cum va arãta dupã aceste operaţii variabila sex cu cele douã alternative 1. masculin, 2. feminin:

Nu uitaţi: la finalul unor operaţiuni de acest tip se alege invariabil OK sau Continue, altfel setãrile dorite nu vor fi preluate de cãtre program!

Se poate opta totuşi pentru dverse variante:

În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing). De asemenea se poate decide ca pe lângă valorile cuprinse între 97-99 să mai fie adăugată o valoare din baza de date. Necesitatea unor astfel de operaţii este imediată : se pot face analize eliminând pe moment anumite valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsă. În cazul variabilelor alfanumerice trebuie consemnat un spaţiu liber în căsuţa Discrete missing values deoarece programul consideră valide chiar şi celulele goale !

- Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor variabilei

- Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

- Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de măsurare a variabilei. Astfel există trei opţiuni :

- Scale- opţiune pentru variabile numerice fie ele măsurate pe scale de interval sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori ale variabilei

- Ordinal- de obicei este o opţiune pentru variabile ordinale care au categorii bine precizate prin etichete numerice şi care pot fi ordonate.

- Nominal- opţiune pentru variabile alfanumerice în care nu există nici o relaţie de ordine între valori (care pot fi cuvinte dar şi numere).

Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !

5. Introducerea variabilelor şi a datelor în SPSS

Odată făcute precizările de până acum putem introduce datele în Data Editor ştiind că fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz sau o persoană. Să presupunem că într-un chestionar avem în ordine următorii itemi :

-Codul chestionarului :………………Q1. Cum trăiţi în prezent faţã de acum 3 ani?1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rãu 5. Mult mai rău 9. NS/NR Q2. Care este principala problemă din localitate pe care fostul primar nu a rezolvat-o? ..............................................................

Vom încerca să introducem itemii de mai înainte ca şi variabile în baza de date apoi vom insera valorile pentru primii zece subiecţi interogaţi. Se observă că primul item reprezintă o variabilă cantitativă, Q1 reprezintă o variabilă ordinală iar cea de a treia este o variabilă nominală. Înainte de a introduce valorile în bază vom intra în opţiunea Variable View şi vom defini variabilele cod, q1_trai, q2_probl. Pentru prima variabilă putem face următoarele opţiuni:

Se observă că am optat pentru tipul numeric variabila având drept valori numere cu până la

trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de persoane. Codul chestionarului este un număr întreg fără zecimale (Decimals=0), numele pe lung al variabilei este „Cod chestionar”, măsurarea este de tip Scale. Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).

La final noua variabilă din rândul al doilea va avea următorii parametri :

Se observă că valorile rămân numerice dar cu precizarea că acele numere se referă la valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o singură cifră (Width=1). Numele pe lung al variabilei este chiar întrebarea din chestionar : „Cum trăiţi în prezent faţă de acum 3 ani?”.Modalitatea de măsurare este Ordinal.

Cea de a treia variabilă q2_probl este una nominală răspunsurile fiind consemnate ca variante pentru o întrebare deschisă. Dacă în cazul anterior se vor introduce în baza de date doar

numerele valori ale etichetelor în acest caz trebuie introduse răspunsurile subiecţilor ca atare. Referitor la valorile variabilei tipul acesteia este String:

Odată cu alegerea opţiunii String se impune precizarea numărului de caractere pe care il poate avea răspunsul subiecţilor (în acest caz 100 de caractere). În final această variabilă va avea caracteristicile de pe poziţia a treia :

Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere nominale sau numerice. Modalitatea de măsurare este Nominal.

După aceste operaţii putem salva baza de date cu comenzile File→Save As şi noua bază o putem numi bazaexemplu. Numele bazei va apare în bara de titlu :

În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare un chenar în jurul celulei) apoi se apasă tasta Enter. Să presupunem că am introdus primii zece subiecţi chestionaţi.

Pentru a vedea şi care sunt etichetele ataşate valorilor din coloana a doua putem urma comenzile View → Value Label sau putem da clic pe

butonul de pe bara cu instrumente. Dupã o astfel de operaţie vor apare în bazã şi etichetele respective :

Se observă că în cea de a doua coloană apar doar valorile numerice ale etichetelor (fapt ce ne arată că introducerea datelor în acest caz este mult facilitat). În stânga sus se poate vedea şi poziţionarea celulei active : coloana 2, rândul 11.

Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare !

Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă. Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de date pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie. Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al aplicaţiilor care poate fi găsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi deschis şi ca document Word. Accesând acest document găsim următoarele specificaţii care rezumă de fapt construcţia bazei de date anterioare:

Un fişier sintaxă poate fi iniţiat după comenzile File→New→Syntax. Chiar dacă nu lucrăm în limbaj sintaxă atunci putem salva comenzile folosite fie alegând comanda Paste în loc de OK în diverse aplicaţii pe care le efectuăm sau putem sa le salvăm în outputul aplicaţiilor efectuând comenzile Edit→Option→Viewer→Display Commands in the log. Să dăm un exemplu de astfel de comenzi salvate în Output (fişier de rezutate) de exemplu pentru calcularea mediei vârstei respondenţilor din baza de date GSS93 Subset:

FREQUENCIES VARIABLES=age /STATISTICS=MEAN /ORDER= ANALYSIS .

În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă recomandăm pentru cei interesaţi de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau la Help-ul programului.

Thu Dec 25 13:42:07 2003 :journaling startedGET FILE='C:\Documents and Settings\Adrian\My Documents\spss curs'+ ' Id\bazaexemplu.sav'.SAVE OUTFILE='C:\Documents and Settings\Adrian\My Documents\spss curs Id\bazaexemplu.sav' /COMPRESSED.

http://www.spss.com/

6. Elemente de statistică univariată în SPSS

Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem aplica datelor statistice. Să deschidem una din bazele programului anume GSS93 subset (obţinută în urma unei anchete pe un eşantion de 1500 de subiecţi):

Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cărei caracteristici de bază le putem identifica în fereastra Variable View:

Variabila este considerată având valori numerice cu maximum două cifre, sunt consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt consemnate valorile 97, 98, 99. Variabila este considerată ordinală dar din cele spuse mai înainte ea poate fi la fel de bine considerate variabilă cantitativă discretă.

Pentru această variabilă vom încerca să calculăm principalele valori statistice. Pentru aceasta vom apela comenzile următoare: Analyse→Descriptive Statistics→Frequencies:

Se observă în această fereastră şi alte elemente:- Display frequency tables- opţiune pentru afişarea tabelului frecvenţelor variabilei; uneori putem renunţa la acest tabel (prin deselectarea opţiunii) - OK-comandă finală după ce am ales toate opţiunile de calcul - Paste- comandă pentru salvarea comenzilor în modul sintaxă - Reset- comandă pentru anularea setărilor în curs - Statistics- comandă pentru calculul principalelor valori statistice - Charts-comandă pentru reprezentări grafice - Format- opţiuni privind modalităţi de afişare ale rezultatelor - Help- comandă de ajutor

Prin acţionarea butonului Statistics se va deschide o nouă fereastră de dialog :

Se va deschide o nouã fereastrã de dialog care conţine douã compartimente. Pentru ca o varibilã sã poate fi analizatã trebuie trecutã din coloana din stânga în cea din dreapta cu ajutorul sãgeţii din mijloc (sau dublu clic) dupã selectare. Sãgeata se poate acţiona şi invers!

Se obsevã împãrţirea acestei ferestre pe o serie de blocuri distincte referitoare la percentile, dispersie, mãrimile tendinţei centrale şi mãrimi legate de forma distribuţiei statistice.Pentru calcularea acestor valori este necesar sã selectãm procedurile care ne intereseazã cu un clic al mausului în pãtrãţelele din faţã lor. Pentru deselectare vom da un clic în aceleaşi pãtrãţele! Vom discuta pe larg opţiunile acestei ferestre în cele ce urmeazã.

I. Percentile Values- comandă care împarte mulţimea valorilor statistice în mai multe grupe de date.

Există mai multe variante: Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%)Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi între 2

şi 100)Percntile(s)- se poate specifica o centilă anume.

II. Dispersion- include comenzi pentru calcule privind analiza variaţiei

Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea medie pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media lor. Formula de calcul pentru serii cu frecvenţe este cea cunoscută din statistica descriptivă deja parcursă:

Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distribuţie valorile seriei sunt cuprinse în proporţie de 99% în intervalul .

-Variance-o notăm SD2 este mărimea din care am obţinut deviaţia standard prin extragerea radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei anterioare:

-Range- sau “amplitudinea absolută” se calculează cu formula:

, valori notate Minimum, Maximum.

S.E. Mean-sau “standard error of mean” (eroarea standard a mediei) ne poate arată limitele între care variză media eşantionului () în cadrul unei populaţii de eşantioane. Se ştie că un astfel de interval este foarte util atunci când aproximăm valoarea mediei dintr-o populaţie. Această valoare nu este cunoscută decât în urma unor cercetări exhaustive care sunt deosebit de complexe şi costisitoare. În practică majoritatea estimărilor statistice se fac pe eşantioane iar rezultatele, sub condiţia reprezentativităţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras eşantionul. Dacă notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă cu Δx (Δx=t.SE) putem conchide că, cu o anumită probabilitate, , interval în care

este media din eşantion. Atragem atenţia că în majoritatea tratatelor de statistică valorile care se referă la o populaţie statistică sunt notate cu litere greceşti iar cele referitoare la eşantioane se vor nota cu litere latine.

III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei centrale (acele mărimi care caracterizează îm medie întreaga mulţime a valorilor statistice). Se calculează de obicei următoarele valori:

Mean- media aritmetică ( ); este calculate cu formulele:

, pentru serii simple şi , pentru serii cu frecvenţe

-Median-sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie această mărime se identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am ordonat valorile respective. Pentru o serie cu intervale se foloseşte formula:

, formulă în care x0 este limita inferioară a

intervalului median, d mărimea acelui interval, este frecvenţa cumulată anterioară intervalului median, iar fm este frecvenţa corespunzătoare acelui interval.

-Mode-sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare dintr-o serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie simplă este uşor de identificat iar pentru serii cu frecvenţe se foloseşte formula:

, formula în care x0 este limita inferioară a intervalului

modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval, Δ1 şi Δ2 sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a frecvenţelor anterioară şi posterioară acesteia.

-Sum-reprezintă suma valorilor seriei

IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde duă tipuri de valori: skewness (asimetria) şi kurtosis (aplatizarea).

Asimetria se referă la măsura în care graficul (distribuţia) valorilor este asimetric spre stînga sau spre dreapta faţă de valoarea medie. Pentru un coefficient, să îl notăm sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile:

Sk>0, asimetrie la dreapta (graphic alungit spre dreapta) Sk<0, asimetrie la stînga (graphic alungit spre stânga)

Sk≈0, distribuţie simetrică

Aplatizarea sau boltirea se referă la compararea distribuţiei cu o curbă normală. Se poate calcula un coeficient de aplatizare (îl notăm cu k) iar valorile acestuia pot fi interpretate astfel:

k>0, distribuţie leptocurtică (peste o curbă normală) k<0, distribuţie platicurtică (sub o curbă normală)

k≈0, distribuţie mezocurtică (tinde la o curbănormală)

Obs1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].

Obs2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de clopot, perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea statistică. Recomandă şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate simetric în jurul unei valori anumite.

7. Calcule statistice în SPSS

Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta toate variantele repective vom da OK şi vom obţine rezultatele într-o altă fereastră Output1 (specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de tip *.spo):

Statistics

Highest Year of School Completed1496

4

13.04

12.00

12

3.074

9.450

-.309

.063

.708

.126

20

0

20

19504

12.00

12.00

15.75

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

Variance

Skewness

Std. Error of Skewness

Kurtosis

Std. Error of Kurtosis

Range

Minimum

Maximum

Sum

25

50

75

Percentiles

Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta graphic seria după ce am ales setările care se potrivesc seriei noastre, din fereastra următoare:

Din aceste date deducem cã sunt valide 1496 de cazuri iar 4 sunt considerate lipsã (acele valori 97,98 şi 99). Media anilor de studii-şcoalã încheiatã din eşantion este de 13,04 ani iar SE of Mean= 0,079. Jumãtate dintre subiecţi au media anilor de studiu de pânã în 12 ani, restul de peste 12. Modul este unic şi este Mo=12, cea mai des întâlnitã valoare. Abaterea standard este de 3,074 ani. Coeficientul de asimetrie este de -0,309 deci distribuţia este alungitã uşor spre stânga iar coeficientul boltirii este de 0,708 deci distribuţia este leptocurticã. Amplitudinea este de 20 ca rezultat din diferenţa Maximum-Minimum. Suma tuturor valorilor este de 19504 ani. Primii 255 dintre respondenţi au pânã în 123 ani de şcoalã, primii 50% au tot pânã în 12 ani, primii 75% au pânã în 15,75 ani de scoala.

După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:

Highest Year of School Completed

20.017.515.012.510.07.55.02.50.0


Freq

uenc

y

700

600

500

400

300

200

100

0

Std. Dev = 3.07

Mean = 13.0

N = 1496.00

În aceeaşi fereastră Output1 vom găsi şi tabelul frecvenţelor după cum urmează:

Se observã cã am ales Graficul de tip Histogramã care este specific variabilelor cantitative. Am ales şi varianta With normal curve deoarece prin comparaţie se poate stabili şi tendinţa distribuţiei spre o curbã normalã. Se pot alege şi alte tipuri de grafice: Bar Charts (grafic cu bare) sau Pie charts (grafic de tip placintã). Ultimele douã tipuri de grafice sunt recomandate atunci când variabilele sunt categoriale pentru o mai bunã vizualizare a acestora (se recomandã ca numãrul categoriilor sã nu fie foarte mare pentru a se pãstra lizibilitatea). Pentru aceste grafice existã şi douã opţiuni: Frequencies şi Percentages.

Se observã în acest grafic constatãrile din primul tabel: distribuţia se apropie de o curbã normalã având o uşoarã alungire spre stânga (sk<0) iar din punctul de vedere al boltirii existând o tendinţã leptocurticã (k>0) adicã dacã am uni mijloacele dreptunghiurilor histogramei tendinţa este de a depãşi o curbã normalã.

Prima coloanã conţine valorile seriei respectiv anii de studii cu cifre cuprinse intre 0 şi 20 de ani de studiu. Cea de a doua coloanã cuprinde frecvenţele absolute la final adãugându-se şi numãrul celor care au rãspuns „don’t know” (DK). Cea de a treia coloanã conţine frecvenţele relative (procentuale). Cea de a patra coloanã conţine frecvenţele procentuale valide adicã acele frecvenţe recalculate în condiţiile în care valorile speciale de tip 97, 98, 99 sau altele sunt declarate „missing” sau „lipsã”. Diferenţele dintre coloanele a treia şi a patra nu existã datoritã numãrului foarte mic de valori missing. Dacã numãrul lor era mai mare diferenţa era vizibilã. Ultima coloanã conţine frecvenţele cumulate calculate dupã coloana din stânga. Algoritmul de calcul este simplu: se scrie prima frecvenţã 0,1 şi se adunã cu urmãtoarea 0,3, rezultã 0,4 ş.a.m.d.

Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu putem citi că 70% dintre respondenţii cu răspunsuri valide au până în 14 ani de şcoală.

Vom căuta să calculăm principalele valori statistice şi pentru o variabilă categorială (fie ea ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă bază de date BOP_mai-2003_Gallup FINAL.sav bază constituită în urma anchetei la nivel naţional intitulată Barometru de opinie. Această bază poate fi descărcată de pe site-ul www.osf.ro. Iată cum arată o porţiune din acastă bază:


2 .1 .1 .1

4 .3 .3 .4

7 .5 .5 .9

7 .5 .5 1.3

20 1.3 1.3 2.7

26 1.7 1.7 4.4

59 3.9 3.9 8.4

45 3.0 3.0 11.4

55 3.7 3.7 15.0

81 5.4 5.4 20.5

445 29.7 29.7 50.2

135 9.0 9.0 59.2

166 11.1 11.1 70.3

70 4.7 4.7 75.0

208 13.9 13.9 88.9

46 3.1 3.1 92.0

71 4.7 4.7 96.7

24 1.6 1.6 98.3

25 1.7 1.7 100.0

1496 99.7 100.0

4 .3

1500 100.0

0

2

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Total

Valid

DKMissing

Total

Frequency Percent Valid PercentCumulative

Percent

http://www.osf.ro/

Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de răspuns: 1. Mult mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai proastă 8. NS 9. NR. Să calculăm principalele valori statistice şi să reprezentăm grafic seria. Vom urma comenzile Analyze→Descriptive statistics→Frequencies:

De data aceasta valorile statistice care ne interesează sunt mult mai puţine datorită variabilei care este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastră. Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:

Statistics

Cum este viaþa dvs. în prezentcomparativ cu cea de acum un an?

2100

0

3.00

3

3.00

3.00

4.00

Valid

Missing

N

Median

Mode

25

50

75

Percentiles

Cum este viaþa dvs. în prezent comparativ cu cea de acum un an?

21 1.0 1.0 1.0

308 14.7 14.7 15.7

933 44.4 44.4 60.1

656 31.2 31.2 91.3

163 7.8 7.8 99.1

12 .6 .6 99.7

7 .3 .3 100.0

2100 100.0 100.0

mult mai bunã

mai bunã

aproximativ la fel

mai proastã

mult mai proastã

NS

NR

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Se deduce din acest tabel cã sunt 2100 de rãspunsuri (chestionare) valide şi nu sunt cazuri lipsã (missing). Mediana este 3 deci jumãtate din respondenţi au rãspunsuri cel mult cu valoarea „aproximativ la fel”. Cel mai des întâlnit rãspunds este tot 3 adicã „aproximativ la fel”. La fel se pot comenta şi quartilele. Se observã cã în acest caz media aritmeticã nu avea nici un sens chiar dacã ar fi fost calculatã. Mai explicit este însã tabelul frecvenţelor:

Observăm în acest tabel semnificaţiile coloanelor după observaţiile făcute anterior. Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru că respectivele valori nu au fost considerate ca valori lipsă. Graficul de tip Pie Charts va apare în Output, apoi putem da dublu clic pe acest grafic şi se va deschide o nouă fereatră intitulată Chart1:

Fereastra Chart1 este special constituită pentru a face diverse modificări în graficul respectiv. Aici nu vom aplica decât comenzile Chart→Options→Percent iar după eliminarea titlului din fereastra anterioară graficul final va fi următorul:

.3%

.6%

7.8%

31.2%

44.4%

14.7%

1.0%

NR

NS

mult mai proastã

mai proastã

aproximativ la fel

mai bunã

mult mai bunã

Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine şi dacă apelăm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile respective le putem alege din meniul Options.

Din bara cu meniuri a ferestrei Chart1 se pot selecta multe alte facilităţi pentru reprezentările grafice. De exemplu pot fi eliminate ponderile foarte mici cum ar fi NS, NR pentru o mai bună vizualizare a categoriilor variabilei! De asemenea pot fi adăugate/eliminate texte, pot fi făcute diverse modificări etc.După închiderea ferestrei rezultatul este salvat în Output.Meniul Help poate fi de ajutor în acest sens!

curs spss

Documents

Transcript of curs spss