SPSS

5/12/2018 SPSS - slidepdf.com

http://slidepdf.com/reader/full/spss5571feae49795991699be5ee 1/68

SPSS prezentare generala

"SPSS for Windows" este un pachet de programe destinat analizei statistice adatelor. Desi exista o varietate de programe de acest gen (SAS, Statistica for Windows,GraphPad, MS Excel, care are si el functii statistice), SPSS se distinge prin structurarea

riguroasa si usurinta utilizarii, chiar si pentru începatori.

Cea mai recenta versiune disponibila la aceasta data este SPSS 12.0. Acestmanual nu acopera în mod special o anumita versiune, ci face referire în general laversiunile sub Windows. În esenta, toate versiunile sub Windows ofera acelasi pachet defunctii statistice iar diferentele, chiar daca sunt, nu sunt relevante la nivelul unui cursintroductiv de statistica.

Simbolul care precede aceasta propozitie indica introducerea unei informatiiimportante, care se impune a fi retinuta.

Ne vom axa pe o prezentare sintetica, axata pe esential, considerândcunoscute elementele de baza de operare în mediul Windows.

Functii de baza ale SPSS

editarea datelor (construirea bazelor de date, transformari ale variabilelor)

prelucrarea statistica a datelor (statistici descriptive, teste de semnificatie)

prezentarea rezultatelor, sub forma numerica sau grafica

realizarea unor proceduri proprii de prelucrare sau de a modifica procedurilestandard SPSS. Aceasta optiune este rezervata utilizatorilor avansati si nu vaface obiectul prezentarii în acest manual.

Domeniile de lucru în SPSS

Particularitatea principala a interfetei de lucru cu SPSS este aceea ca rezervafiecareia dintre functiile de mai sus un domeniu special ("ecran", sau "fereastra"). Astfel,la lansarea programului, acesta deschide automat o fereastra rezervata editarii datelor ( Data Editor ) si una afisarii rezultatelor (Viewer ). Putem numi aceste ferestre si domenii

de lucru, deoarece la nivelul fiecaruia avem la dispozitie o varietate de functii si optiunispecifice. Ca sa întelegem mai bine, trebuie sa ne imaginam "domeniile de lucru" ca fiind"ferestre" distincte, similare celor ale documentelor Word, cu deosebirea ca, în acest caz,fiecare fereastra acopera functii specifice.

Trecerea de la o fereastra la alta se face într-unul din urmatoarele moduri:

Din meniul SPSS/Windows, prin alegerea ferestrei dorite;



Utilizând butoanele din bara de comenzi directe a ferestrei SPSS;

Utilizând butoanele de pe bara de sarcini a sistemului de operare (din partea de jos a ecranului).

Domeniul bazei de date (Data Editor)

La lansarea programului SPSS se deschide fereastra domeniului de editare a datelor (SPSS Data Editor ). Ea se prezinta ca în imaginea de mai jos, având caracteristicileobisnuite ale unei ferestre Windows, cu o structura de linii si coloane:

- pe coloane sunt variabilele (de ex., cod_sub, rezultat)

- pe linii sunt cazurile (în acest caz, cinci subiecti)

O sesiune de lucru cu SPSS presupune, în mod necesar, existenta unei baze dedate.

SPSS opereaza cu o singura baza de date la un moment dat.

Pentru a deschide o alta baza de date, sau a crea una noua, cea aflata în lucru va fiînchisa. Programul solicita salvarea ei prealabila, daca acest lucru nu a fost dejaefectuat.

Daca vrem sa prelucram date aflate în baze de date (fisiere) diferite, este necesaraaducerea lor în aceeasi baza de date (procedura DATA-Merge files, care va fidescrisa mai târziu).

Meniurile ferestrei Data Editor nu se vor activa integral decât atunci când vaexista cel putin o variabila definita si valori pentru cel putin un caz.



Baza de date SPSS poate fi creata direct, cu ajutorul structurii (ferestrei) Data Editor , sau poate fi deschisa cu ajutorul comenzii File-Open, asa cum vomexemplifica mai târziu.

Domeniul afisarii rezultatelor ( Viwer )

SPSS depune rezultatele prelucrarilor într-o sectiune aparte a domeniului delucru. Aceasta cuprinde toate tipurile de rezultate, atât de tip numeric cât si de tip grafic.Fereastra respectiva (Viewer ) este organizata în doua zone distincte: una pentru navigare(în partea stânga) si alta pentru afisarea rezultatelor (în partea dreapta).

Fisierul rezultat prin salvarea acestei ferestre are extensia .SPO

Un fisier cu rezultate SPSS nu poate fi deschis decât din SPSS

Daca se doreste transmiterea rezultatelor în afara SPSS se va proceda fie la"exportul" rezultatelor cu procedura corespunzatoare din meniul File/Export , fiela transferarea prin Select/Copy/Paste într-un editor grafic de tipul MS Word.

Domeniul de editare a procedurilor directe (Syntax)

SPSS permite, în afara operarii prin intermediul mediurilor, si lucrul direct cu proceduri definite de utilizator. Aceasta se face în interiorul unei ferestre speciale, care

permite, pe de o parte, editarea procedurilor, iar pe de alta parte, lansare lor în executie.

Imaginea de mai jos reda comenzile SPSS pentru calcularea procedurii de calculindicatorilor statistici descriptivi, redati mai sus, în fereastra SPSS Viewer .



Utilizarea directa a procedurilor impune aprofundarea SPSS

Se poate seta afisarea procedurilor curente în SPSS Viewer, concomitent curezultatele. ( Edit/Options/Viewe/Display commands in the log )

Meniurile SPSS

Meniurile de tip lista se aseamana cu meniurile altor programe sub Windows. Fara a intraîn amanunte, iata o prezentare succinta a meniurilor pentru fereastra DATA EDITOR:

Meniul Functii principale ObservatiiFile Operatii de deschidere si salvare de fisiere

EditOperatii de Select/Copy/Cut/Paste, Find si, celmai important, setarea caracteristicilor de lucruale SPSS (Options-în versiunile pt. Win 9X)

ViewÎn cazul ferestrei Data Editor , seteaza modul deafisare: cu sau fara bara de butoane, cu sau faraliniile despartitoare ale celulelor.

DataFunctii de operare cu variabilele; definire,inserare, stergere, selectare, sortare, aditionarede fisiere, etc.

Importante pentru pregatireadatelor în vederea prelucrarii

TransformFunctii de modificare a datelor prin calculare,recodificare.

Importante pentru pregatireadatelor în vederea prelucrarii

Statistics

(Analyze)Grupeaza procedurile de calcul statistic

Prin optiunile fiecarei proceduri se pot obtine sireprezentari grafice specifice

Graph Grupeaza procedurile de reprezentare grafica

Utilities Informatii despre variabile, structurare pe seturide variabile

WindowLista ferestrelor deschise cu posibilitatea deselectie

Help Informatii de ajutor Aici se afla un tutorial extremde sugestiv de operare cuSPSS, iar de la versiunea 7.5în sus, o procedura de sprijin



Meniul Functii principale Observatiiîn alegerea tipului de prelucrare statistica (Statistic

Coach)

Pasii analizei statistice cu SPSS

În principiu, prelucrarea datelor cu SPSS presupune urmatoarele etape:

1 Introducerea datelor

Optiuni:

(a) Introducerea directa a datelor în DATA EDITOR

(b) Deschiderea unui fisier de date SPSS (extensia .SAV)

(c) Importarea unui fisier de format diferit (se alege din caseta File open/File of type)

2 Pregatirea datelor

Corectia erorilor, selectii, recodificari, transformareavariabilelor prin calcule, declararea valorilor lipsa,combinarea datelor din doua fisiere diferite (meniurile Data,Transform)

3Selectarea proceduriisatistice

Meniurile Statistics (sau Analyze) si Graphs

4

Selectarea variabilelor ce

urmeaza a fi supuse prelucrarii

În conformitate cu configuratia casetei de dialog care esteafisata la fiecare procedura

5 Rularea procedurii

Se actioneaza butonul OK din caseta de dialog a procedurii

Butonul devine activ numai atunci când sunt întruniteconditiile presupuse de procedura respectiva

6 Analiza rezultatelor Rezultatele prelucrarilor sunt afisate într-o fereastra specifica(SPSS Viewer ), cu functiuni de editare grafica sau de tip text,în functie de versiune.

7 Editarea rezultatelor

Se editeaza rezultatele afisate în Viewer, aducându-le laforma dorita sub aspect grafic

Dublu clic pe un element din Viewer conduce la intrareaelementului respectiv în regim de editare)

8Inserarea datelor într-undocument

Rezultatele din SPSS Viewer se preiau cu Select/Copy si sedepun cu Paste în orice tip de editor de documente.



SPSS este un program puternic de analiza statistica a datelor. Utilizarea lui optima presupune, în mod necesar, stapânirea de catre operator a cunostintelor teoretice destatistica.

Asa cum un program de editare grafica nu compenseaza lipsa de talent la desen, nici

SPSS nu poate fi cu adevarat exploatat de catre cei care nu au cunostinte de statistica.În lipsa acestora, nici alegerea procedurilor si nici interpretarea rezultatelor nu va ficu adevarat posibila.



Editarea datelor

O baza de date în SPSS este o structura formata din linii si coloane, la intersectiacarora se formeaza celulele care contin, fiecare, o anumita unitate de informatie.

Existenta unei baze de date deschisa în fereastra Data Editor este o conditieobligatorie pentru operarea cu SPSS

SPSS opereaza numai cu o singura baza de date deschisa la un moment dat

În principiu, o baza de date SPSS se obtine pe una din urmatoarele cai:

a) Crearea ei prin operatiunea de definire a variabilelor si introducerea datelor de la

tastatura;

b) Deschiderea unei baze de date SPSS, existente pe un suport de memorie;

c) Importarea unei baze de date din alt format decât SPSS

În continuare, vom trata pe rând, fiecare din cele trei situatii:

a) Crearea unei baze de date SPSS

În linii generale, pentru crearea unei baze de date proprii în SPSS, se procedeazaastfel:

Se lanseaza SPSS

Se definesc variabilele bazei de date în domeniul Data Editor

Se introduc datele pentru fiecare caz (subiect) în parte

Se salveaza baza de date (extensia specifica este *.sav)

Definirea variabilelor

se actioneaza Define variable din meniul Data

solutie mai directa este dublu clic pe capul de coloana



În versiunile de SPSS mai recente,editarea variabilelor se face într-ofereastra speciala. Cu toate acestea,elementele de baza ramân aceleasica al versiunile anterioare.

Ca urmare a operatiei de mai sus,apare o caseta de dialog ca în imaginea de mai jos (forma ei nu difera substantial de la oversiune de SPSS la alta). Daca privim caseta,

vom observa urmatoarele elemente:

• Variable Name: zona de declarare a numelui de variabila. VAR00001 estenumele implicit al primei variabile. Acesta se sterge, pentru a fi înlocuit cunumele pe care dorim sa îl dam variabilei.

• Variable Description, este o zona informativa în care sunt afisatecaracteristicile predefinite ale noii variabile. Aceste caracteristici se pot seta în Edit-Options (sau Preferences, la unele versiuni).

• Change Settings, este o zona care cuprinde butoane de comenzi pentrumodificarea setarilor implicite:

• În zona Measurement , se permite declararea tipului de masurare specificvariabilei: Scale (Interval/Raport); Ordinal ; Nominal

• Butoanele OK (pentru finalizarea definirii variabilei, Cancel (pentrurenuntarea la definirea variabilei, Help (informatii legate de definireavariabilelor)



În versiunile mai recente de SPSS editarea variabilei nu presupune acest tip decaseta, dar toatele elementele ei constitutive se regasesc.

Numele variabilei:

Orice variabila SPSS trebuie sa aiba un nume. Cele mai importante aspecte legatede denumirea variabilelor sunt urmatoarele:

Trebuie sa fie format din minim 1, maxim 8 caractere,

Nu sunt suportate caractere "speciale" cum ar fi spatiu sau semne de punctuatie

În cazul utilizarii unor caractere improprii, apare un mesaj de eroare si se permitecorectarea numelui.

Alegerea numelui este la latitudinea operatorului. Respectarea anumitor conventii

poate fi, însa, extrem de utila, mai ales daca avem de a face cu o baza de date cumulte variabile. Iata câteva recomandari utile în acest sens (ele nu suntobligatorii):

• Numele sa exprime, pe cât posibil, continutul variabilei

• Pentru variabile "înrudite", se va utiliza o schema de denumirecare sa exprime acest lucru. De exemplu, daca avem variabile carecuprind valori ale timpului de reactie masurat în mai multeconditii, putem declara variabilele TR_1, TR_2, TR_3 s.a.m.d.,

• caracterul underscore este recomandabil ca separator în cadrulnumelui de variabila). Daca într-o situatie de acest gen am avea 10sau mai multe "momente", este de preferat sa se declare nume degenul TR_01, TR_02,...TR_10, etc., deoarece ulterior SPSSaranjeaza alfabetic variabilele în listele de selectie si, astfel, se pastreaza ordinea dorita.

Într-o baza de date nu pot exista doua variabile cu acelasi nume!

Exista o serie de cuvinte "rezervate", a caror utilizare ca nume de variabile nu esteacceptata de program. Acestea sunt: ALL, AND, BY, EQ, GE, GT, LE, LT, NE,

NOT, OR, THRU, TO, WITH.

Definirea "tipului" de variabila

Tipul de variabila se refera la



• Se actioneaza butonul Type de pe caseta Define Variable

• Apare caseta Define Variable Type

• , unde se marcheaza tipul variabilei si se declara caracteristicile acesteia(Width, Decimal Places, în cazul variabilelor numerice)

• Se actioneaza butonul Continue, pentru a se reveni la caseta DefineVariable.

Asa cum se observa în caseta Define Variable Type din imaginea de mai sus, SPSS poateopera cu o varietate de tipuri de variabile. Fiecarui tip îi corespund anumite proprietati(caracteristici) care trebuie definite de operator. Cele mai uzuale sunt tipurile:

[ Numeric], care cuprind valori de tip numeric cu sau fara zecimale.

Proprietati:

• numarul de cifre necesare pentru exprimarea "întregilor"

• numarul de "zecimale"

EXEMPLE:

Pentru o variabila în care vom introduce vârsta în ani împliniti, vom defini Type

Numeric cu Width 2 (presupunând ca nu avem subiecti cu vârsta peste 100 de ani)si Decimal Places 0.

Pentru o variabila în care vom introduce rezultatul la un test exprimat în scoruri T

cu o zecimala, definim Type Numeric cu Width 2 si Decimal Places 1.

[Caracter ] (String ), care cuprind valori exprimate sub forma de caractere alfanumerice(litere sau chiar cifre).

Proprietati



• numarul de caractere rezervat,care este fixat implicit la 8, dar poate fi modificat dupa dorinta.

SPSS face distinctie între variabile de tip

caracter "scurte" (Short string ) si "lungi" ( Long string ). Primele au maxim 8caractere si pot fi incluse în unele proceduri statistice (semnificatia diferentei întremedii, de exemplu), pe când celelalte nu pot fi utilizate decât în operatii de listare(cazul variabilei de genul "nume", de ex.).

Desi permisa, utilizarea variabilelor "string" nu este de preferat. Toate variabilelecare suporta codificari vor fi, de preferinta, introduse cu valori numerice. Utilizareaacestora în proceduri statistice nu este limitata de nici o restrictie.

Unitati de timp calendaristic sau orar [ Date], care pot include valori de timp într-unformat specificat, asa cum se vede în imagine.

Proprietati

• formatul de întroducere, care poate fi unul din cele evidentiate încaseta Define Variable Type/Date

Exemplu: dd-mmm-yyyy presupune introducerea unor valori de genul "21-FEB-2001" (luna fiind scrisa obligatoriu dupa prescurtarea ei în engleza).

Exista o mare varietate de formate pentru acest tip de variabila, acoperind, practic,orice cerinta posibila din partea utilizatorului.

Variabilele de tip Date beneficiaza de functii speciale de tratare si analiza înSPSS.

Nu vom prezenta si celelalte tipuri de variabile, ele fiind mai putin folosite, dar facem precizarea ca semnificatia lor poate fi gasita în Help-ul casetei Define Variable

Type.

Tipul unei variabile poate fi schimbat ulterior prin simpla redefinire aacesteia. Se va acorda atentie mesajelor care pot sa apara si care avertizeazaasupra eventualelor pierderi de informatie prin schimbarea tipului.

Optiunile din zona Measurement (Scale, Ordinal, Nominal ) , care se regasescdoar la versiuni SPSS de la 7.0 în sus, nu au întotdeauna o utilitate practicadar marcarea lor corecta este necesara pentru anumite proceduri statistice saugrafice.

Etichetarea variabilelor si a valorilor



Etichetarea este o forma de descriere explicita a continutului variabilei (având învederea ca numele variabilei nu poate fi mai mare de 8 caractere). Etichetarea se poate practica atât la nivelul variabilei dar si la valorile pe care le contine, în cazul variabilelor de tip nominal sau ordinal.

Pentru etichetare se apasa butonul Labels de pe caseta Define Variable. Sedeschide o noua caseta ( Define Labels), care contine spatii pentru eticheta variabilei(Variable Label) si pentru etichetele valorilor (Value labels).

Eticheta variabilei nu se supune restrictiilor pentru nume, putând contine oricâtecaractere (max. 255), dar si spatii sau alte semne grafice tiparibile.

Etichetele pentru valori vor fi introduse una câte una, astfel:

se plaseaza valorea etichetataîn zona Value

se introduce eticheta corespunzatoare în zona Value label

se actioneaza butonul Add

Operatiunea se reia pentru toate valorile pe care dorim sa le etichetam.

Imaginea prezinta etichetarea valorilor unei variabile care se refera la calificativulla un examen. Se observa ca valoarea 1 are eticheta SLAB, valoarea 2, eticheta MEDIUiar valoarea 3, eticheta BUN (înca nu a fost actionat butonul Add pentru a fi finalizatadeclaratia etichetei acestei valori).

Desi nimic nu ne obliga sa aplicam etichete variabilelor si valorilor, este foarterecomandabil ca ele sa fie atribuite.

Etichetele ajuta la citirea mai usoara a rezultatelor (deoarece apar alaturi de acestea).În plus, etichetele sunt asociate prelucrarilor grafice (histograme, bare, etc.) fapt carereduce necesitatea de a le introduce ulterior prin editarea respectivelor grafice.



Pentru a sti cum sa declaram etichetele, este bine sa ni le imaginam ca fiind înscrise pe axele de referinta ale unui grafic. Daca "se potrivesc", atunci au fost bine definite.

Oricum, ele vor putea fi modificate ulterior sau editate direct în SPSS Viewer.

Declararea valorilor lipsa (missing values)

Valorile lipsa sunt de doua tipuri:

valori lipsa de sistem ( system missing values) adica valori care lipsesc din baza dedate (nu au fost introduse). Forma lor de evidentiere pe ecran este un punct plasatîn celula respectiva.

valori lipsa declarate de utilizator (user missing values) adica valori pe careutilizatorul le declara ca atare. Acestea pot exista în baza de date dar utilizatorul,din diverse motive, nu doreste sa fie luate în calcul. Atentie, odata declarate,

aceste valori nu sunt sterse si nici nu sunt marcate în mod evident pe ecran.

Pentru declararea valorilor lipsa se actioneaza butonul Missing Values din caseta Define Variables, care genereaza aparitia casetei de dialog alaturate.

Se observa ca exista mai multe optiuni:

declararea a trei valori distincte ca fiind lipsa ( Discrete missing values)

declarea unui domeniu de valori lipsa ( Range of missing values)

declararea unui domeniu la care se poate adauga si o valoare distincta ( Range plus one discrete missing value)

Desi nu pare foarte evidenta acum, utilitatea functiei de declarare a valorilor lipsanu trebuie subestimata. Foarte adesea suntem nevoiti sa scoatem din prelucrarianumite valori (care nu pot fi totusi, pur si simplu, sterse). Sa ne gândim numai lavalorile extreme ale unei distributii, a caror mentinere în anumite prelucrari poatedetermina modifcari semnificative a rezultatelor.



În concluzie, declararea variabilelor se compune din urmatoarele operatiuni:

Atribuirea numelui (maxim 8 caractere)

Definirea tipului (numeric, caracter, data)

Atribuirea etichetei variabilei

Atribuirea etichetei valorilor, în cazul variabilelor masurate pe scalenominale sau ordinale

Declararea valorilor lipsa (care nu au fost recoltate în procesul demasurare, din diferite motive)

stergerea si inserarea variabilelor

stergerea unei variabile se face prin selectarea acesteia (clic pe capul de variabila)si actionarea tastei Delete (sau se comanda din meniul Edit-Cut ).

Inserarea unei variabile se face prin plasarea cursorului-celula pe coloanavariabilei în stânga careia dorim sa inseram noua variabila (sau prin selectareavariabilei respective), dupa care se comanda, din meniul Data-Insert variable.Dupa aceasta, se defineste variabila inserata (nume, tip, etichete).

stergerea si inserarea cazurilor

stergerea cazurilor se face în mod similar variabilelor, prin selectarea acestora(clic pe capul de linie) si tasta Delete (sau Edit-Cut ). Se pot selecta mai multecazuri simultan (drag cu mouse-ul pe capul liniilor) dupa care se sterg ca mai sus.

Inserarea cazurilor se face dupa plasarea cursorului pe linia deasupra careia dorimsa inseram un nou caz, dupa care se actioneaza în meniul Data- Insert case.

Pentru versiunile de SPSS de la 7 în sus, clic dreapta pe capul de coloana sau delinie, produce un meniu contextual care permite un acces mai rapid la functiile deinserare/stergere.

SPSS nu permite Undo (în meniulEdit

) decât limitat la ultima actiune. Din acestmotiv, stergerea variabilelor sau a cazurilor trebuie sa se faca cu atentie, pentru cadatele pot fi definitiv pierdute. Se va retine, totusi, ca baza de date se actualizeaza pe hard disk numai dupa salvarea comandata de utilizator. Ca urmare...

Orice modificare efectuata nu produce efecte decât asupra datelor din memoria delucru, fisierul ramânând nemodificat.



În cazul unei actiuni care produce efecte nedorite asupra bazei de date, existasolutia închiderii bazei de date, fara a se accepta salvarea ceruta de program, dupacare se deschide fisierul respectiv din nou.

Erori frecvente

- Aparitia unor cazuri inutile, (umplute cu system missing values) la sfârsitulunei baze de date.

Explicatie: Introducerea inutila a unei valori într-o variabila, valoare care apoieste stearsa. Cu toate acestea, SPSS a creat deja un caz nou, pe care l-a umplut cu system

missing values.

Solutie: Selectarea cazului prin apasarea pe capul de linie si actionarea tasteiDelete (sau Edit-Cut ).

- Aparitia unor variabile inutile (nedorite).

Explicatie: La introducerea din greseala a unei valori într-o variabila nedefinita în prealabil, SPSS creeaza automat o variabila implicita, pe care o denumeste VAR00001.

Solutie: Se selecteaza variabila resectiva (clic de mouse pe capul de coloana) si seactioneaza tasta Delete (sau Edit-Cut ).

Exemplu practic de realizare a unei baze de date

Sa ne imaginam ca am aplicat testul Eysenck Personality Inventory, care vizeaza

urmatoarele caracteristici de personalitate: extraversiunea, nevrozismul si atitudineadefensiva (scala Lie). Pentru analiza datelor suntem interesati sa raprtam rezultatele la oserie de caracteristic demografice ale subiectilor, sa zicem: sexul si vârsta. În plus, pentrua avea controlul datelor dorim sa inregistram si identitatea subiectilor.

Pentru fiecare dintre informatiile pe care dorim sa le introducem în baza de date vom creacâte o variabila.

Variabila Numelevariabilei

Tipul variabilei Etichetavariabilei

Etichetelevalorilor

Identitateasubiectielor(esentiala pentrua asiguraidentitateafiecareiinregistrariinparte si pentrurealizarea

COD (optam pentru un codnumeric daca nuavem nevoie denumelesubiectilor)

numeric, Width 2,Decimal Places 0

(presupunem ca nuavem mai mult de 99subiecti)

Identitate Nu se aplicaetichete decâtla valorilevariabilelor detip categorial(nominale sauordinale)



corespondentelor cu alte baze dedate in careavem informatiicu privire la

aceiasi subiecti)Sexul SEX Numeric, Width 1,Decimal Places 0

Sex 1=feminin

2=masculinVârsta (în aniîmpliniti; sau înluni daca dorimmai multa precizie)

VIRSTA Numeric, Width 2,Decimal Places 0

(presupunem ca nuavem subeicti cu vârsta peste 99 de ani)

Vârsta

Extraversiune EXTRAV Numeric, Width 2,

Decimal Places 0

(nu se poate obtine ovaloare mai mare de100 si nu existazecimale)

Extraversiune

Nevrozism NEVRO Numeric, Width 2,Decimal Places 0

(nu se poate obtine ovaloare mai mare de

100 si nu existazecimale)

Nevrozism

Lie LIE Numeric, Width 1,Decimal Places 0

(nu se poate obtine ovaloare mai mare de 9si nu exista zecimale)

"Minciuna"

Se observa faptul ca pentru variabile ale caror nume exprima exact continutul(SEX, VÂRSTA) se poate utiliza fara nici un inconvenient numele si ca eticheta. Pentru afi mai expliciti, sa spunem ca numele variablei este util în primul rând SPSS-ului pentru amanipula variabilele, în timp ce etichetele sunt necesare mai ales utilizatorului pentru aîntelege cu usurinta la ce se refera o variabila al carui nume prea scurt

Avem alaturat, imaginea DATA EDITOR pentru primii trei subiecti introdusi cuvariabilele de mai sus:



Insistam pe declararea, cu precadere, a variabilelor de tipnumeric: SPSS este un programde prelucrare statistica, faptcare implica date numerice.

Desi el poate opera si cu datede tip caracter, acestea nu sunt acceptate pentru toate tipurile de proceduri statistice.Pentru a nu avea surprize, este recomandabil sa fie utilizate variabile de tip numericîn toate cazurile. De exemplu, variabila sex, poate fi declarata de tip caracter (cuvalorile M si F) dar, la fel de bine, de tip numeric (cu valorile conventionale 1 si,respectiv, 2). În acest din urma caz, pentru explicitarea valorilor se vor folosietichetele de valoare (value label ).

Introducerea unei variabile care sa contina numele subiectilor poate fi necesara doar daca ne propunem realizarea unor liste ale subiectilor din baza de date. Altfel,identificarea numerica a fiecarei înregistrari este suficienta (si absolut necesara),

scutind un mare volum de munca pe care l-ar implica introducerea numelor. Vomavea grija însa, ca pe documentul original sa scriem codul numeric aferent fiecaruisubiect, astfel încât, la nevoie, sa se poata identifica numele (pentru corectii, de ex.)

Variabile multiple pentru întrebari cu raspuns multiplu: De obicei, o întrebare prezinta un singur raspuns, dar pot fi situatii în care o întrebare prezinta raspunsurimultiple care pot fi alese în acelasi timp. De exemplu: "Ce activitati preferati pentru

timpul liber? 1. sport; 2. filme; 3. petreceri cu prieteni...", etc. Într-un asemenea cazne putem astepta sa avem mai multe raspunsuri la aceeasi întrebare. Solutia pentruintroducerea datelor este, de aceea, crearea mai multor variabile, câte una pentrufiecare varianta de raspuns. Astfel, vom avea variabila "SPORT" care poate primi

doua valori, sa zicem "1" daca este aleasa si "0" daca nu este aleasa, si asa maideparte. În acest mod vom putea analiza frecventa alegerilor pentru fiecare variantade raspuns în parte.

Evitarea variabilelor redundante: Daca la un test nu sunt posibile, de exemplu, decâtraspunsuri corecte sau gresite, atunci nu este necesar sa declaram o variabila pentru"corecte" si una pentru "gresite" daca suma lor da totalul raspunsurilor.

Salvarea bazei de date din Data Editor

O baza de date aflata în lucru nu are un corespondent într-un fisier decât dupa ce

se executa o salvare a acesteia. Acest lucru nu trebuie niciodata uitat. Spre deosebire deWORD de exemplu, SPSS nu are o functie de salvare automata dupa un interval de timp prestabilit. Cu alte cuvinte, indiferent ce modificari facem în Data Editor pe ecran, datelerespective vor fi salvate numai la comanda explicita a operatorului.

Pentru o baza de date nou creata, salvarea se face în mod similar cu orice alt program cunoscut: File-Save as, care deschide urmatoarea caseta de dialog:



Se alege locatia de salvare (Save in)

Se da un nume fisierului ( File name)

Se verifica tipul de fisier (formatul implicit pentru

baze de date SPSS are extensia .sav)

Se actioneaza Save

SPSS poate salva si în alte formate, dintre cele mai importante fiind: Dbasesau FoxPro, Lotus 1-2-3, Excel. Salvarea în aceste formate poate fi utila pentru transferul datelor pentru prelucrari ulterioare în alte programe.

Deschiderea unei baze de date SPSS

O baza de date creata cu SPSS se deschide cu comanda File-Open, care activeaza

urmatoarea caseta de dialog:

Se alege locatia de citire ( Look in)

Se indica fisierul dorit (selectarea cu mouse-ul) în fereastra de cautare

Se indica tipul de fisier ce urmeaza a fi deschis (implicit este de tip SPSScu extensia .sav)

Se actioneaza Open

În cazul deschiderii unui fisier de alt tip decât SPSS, se va alege tipulrespectiv din lista Files of type. În cazul în care SPSS nu recunoaste tipul defisier în care se afla datele noastre, putem încerca transformarea lor prealabiladin formatul original într-un format recunoscut de SPSS. Desi exista riscul pierderii unor aspecte ce tin de formatul de reprezentare a datelor, operatiuneascuteste totusi un mare volum de munca.



Operatii de transformare a variabilelor

Daca privim variabilele SPSS din punctul de vedere al modului în care au fostcreate, putem distinge doua categorii:

b) variabile "primare" care includ valori rezultate direct din cercetare si au fostintroduse, de regula, de la tastatura.

c) variabile "secundare" rezultate prin transformarile aplicate variabilelor primare.

Exemple de situatii în care se impune transformarea variabilelor:

• Avem mai multe variabile "primare" care contin raspunsurile laîntrebarile unei scale de tip Lickert si suntem interesati sa calculam(într-o variabila "secundara") suma raspunsurilor.

• Avem un numar de variabile "primare" în care se afla rezultatul partial pentru fiecare minut din cele 10 câte dureaza un test de calcul aritmeticsi dorim sa cream o noua variabila ( "secundara") în care sa avemmedia performantei pe cele 10 minute sau abaterea standard a performantei pe cele 10 minute, pentru fiecare subiect,

• Avem o variabila care contine data nasterii si dorim sa cream pe bazaei o alta variabila, care sa contina vârsta.

•

Dorim sa transformam variabila care contine vârsta, într-o altavariabila care contine valori pentru categorii de vârsta.

Pentru toate aceste situatii, care sunt unele dintre cele mai des întâlnite, dar si pentru multe altele înca, SPSS ofera proceduri de transformare în meniul Transform.

În continuare, vom prezenta câteva dintre cele mai frecvent utilizate functii detransformare a variabilelor.

Însumarea valorilor variabilelor

Se utilizeaza atunci când dorim sa obtinem o variabila prin adunarea valorilor dindoua sau mai multe variabile.

Imaginea de mai jos prezinta o tabela de date SPSS care cuprinde scorurile la treiexamene partiale (scor_1, scor_2 si scor_3). Dorim sa realizam o variabila care sacuprinda un scor general, prin însumarea celor trei variabile. Se poate observa ca uniidintre subiecti nu au valori la toate cele trei scoruri (valori lipsa de sistem).



Deoarece prin calculare, o noua variabila este plasata dupa toate variabileleexistente, am preferat sa inseram o noua variabila imediat dupa cele trei pe care dorim sale însumam. În acest fel avem si posibilitatea sa controlam usor corectitudinea operatieide însumare

Se apeleaza procedura Transform-Compute, care deschide caseta de mai jos:

Se efectueaza urmatoarea succesiune de operatii:

1. Se introduce numele noii variabile în zona Target Variable ("total").2. Se scrie expresia de însumare în zona Numeric Expression.

Functia este SUM (expresie numerica, expresie numerica, ...), asa cum sevede si în zona listei Functions: Ea poate fi scrisa de la tastatura sauselectata din lista de functii si "ridicata" prin actionarea butonului ▲.Atentie, sintaxa fiecarei functii trebuie respectata întocmai. În cazulnostru, variabilele numerice se vor scrie între paranteze, una câte una, cu



virgula între ele. Variabilele pot fi scrise de la tastatura sau mutate larândul lor din lista de variabile cu butonul ►.

Daca variabilele ce vor fi însumate se afla în baza de date una dupa alta, caîn cazul exemplului nostru, atunci avem posibilitatea sa scriem o expresie

de însumare simplificata, astfel SUM (prima_variabila TOultima_variabila). În acest caz, clauza TO va fi cuprinsa între spatii, pentrua nu fi confundata cu un nume de variabila. Aceasta optiune ne sugereazacât de important poate fi sa aranjam corespunzator variabilele în structuraunei tabele SPSS.

3. Se apasa butonul OK 4. Deoarece variabila total exista, SPSS ne întreaba daca dorim sa modificam

continutul acesteia. Daca nu ar exista o variabila cu acest nume, rezultatuloperatiei de calcul ar fi depus într-o variabila creata automat si amplasata dupaultima variabila din baza de date.

Raspundem OK, deoarece stim ca amcreat aceasta variabila tocmai pentru adepune în ea suma.

Rezultatul operatiei se vede în imaginea de mai jos:

Calcularea mediei a doua sau mai multe variabile

Presupunând ca în loc de suma, ne-ar interesa media valorilor de la mai multe

variabile, se procedeaza în mod similar. Expresia de calcul a mediei este MEAN (expresie_numerica, expresie_numerica, ...), unde ... arata ca putem pune oricâtevariabile (sau valori) numerice, cu virgula între ele. Ca si în cazul sumei, se poate realizao expresie cu clauza TO, cu conditia ca variabilele pentru care se realizeaza media sa seafle una dupa alta în tabela SPSS.



Reamintim ca functia MEAN poate fi scrisa de la tastatura sau poate fi adusa dinlista de functii, prin selectare si actionarea butonului ▲.

Este de la sine înteles ca expresia de calcul poate fi realizata si într-o manierasimpla si directa, fara utilizarea functiilor (SUM sau MEAN), astfel:

Pentru suma: scor_1+scor_2+scor_3

Pentru medie: (scor_1+scor_2+scor_3)/3

Se va face o distinctie clara între suma sau media astfel obtinute, care se refera lasuma sau media valorilor de la mai multe variabile, pentru acelasi subiect, si sumasau media pe care am calcula-o pe verticala, la nivelul fiecarei variabile în parte, pe întreaga distributie

Se pot realiza diverse alte functii de transformare, utilizându-se marea varietatede functii care se gasesc în lista Functions si a caror semnificatie se poate afla din

Help-ul casetei Compute.

Extragerea anului dintr-o variabila de tip cronologic (date)

SPSS ofera functii de transformare cu variabilele de tip cronologic. Dintreacestea, vom exemplifica cu realizarea unei variabile care sa contina anul nasterii, sazicem, scos dintr-o variabila care contine data nasterii. Imaginea de mai jos este extrasadin baza de date Employee data.sav



Observam ca variabila bdate, care contine data nasterii. Pentru a avea vârsta,trebuie sa calculam diferenta dintre anul curent (sa zicem, 2000) si anul nasterii: Pentruaceasta trebuie sa facem diferenta dintre anul curent (2000) si anul nasterii, care se afla încâmpul bdate.

Pentru a avea variabila ce urmeaza a fi creata în apropierea variabilei bdate, vominsera o variabila (denumind-o "virsta", de tip numeric, cu doi întregi). Apoi utilizam procedura Compute din meniul Transform:

În câmpul Target variable introducem numele noii variabile (virsta).

În zona Numeric Expression vom scrie expresia de transformare, care se bazeaza pe functia XDATE.YEAR().

Aceasta functie are ca rezultat extragerea valorii care reprezinta anul dintr-o

variabila de tip data calendaristica. În cazul nostru, XDATE.YEAR(bdate)=anul nasterii

Ca urmare, putem scrie expresia astfel: 2000-XDATE.YEAR(bdate)

Mai jos putem vedea rezultatul procedurii Compute:



Se observa în variabila virsta, valorile rezultate prin transformare(corespunzatoare anului 2000).Desigur, transformarea putea fi efectuata si în doua etape.Mai întâi prin extragerea anului nasterii într-o variabila separata si, apoi, prin efectuareaunei noi transformari realizarea diferentei dintre anul curent si anul nasterii. Am preferato solutie într-o "singura etapa" pentru ca este mai operativa.

Posibilitatile de transformare a variabilelor oferite de SPSS permit crearea unor noi variabile pe baza celor existente, în functie de necesitatile de prelucrare pecare le avem. În toate cazurile, însa, nu se va alege solutia modificarii valorilor dintr-o variabila "primara" peste valorile deja existente. Cu alte cuvinte, esterecomandabil sa cream prin transformare variabile noi, si nu sa modificamvalorile existente din variabilele "primare" a caror pierdere ar necesitareintroducerea lor, în caz de necesitate.

Recodificarea variabilelor

Recodificarea unei variabile înseamna convertirea valorilor acesteia, cu scopul obtineriiunei distributii bazata pe frecvente cumulate. Procesul este similar cu crearea unei tabelede frecvente grupate si ne reamintim ca poate fi derulat în maniera descrisa mai jos:

Pasi pentru gruparii de frecvente:

• Se face diferenta dintre valoarea cea mai mare si valoarea cea mai mica a uneidistributii

• Se împarte valoarea obtinuta la marimea posibila (estimata) a intervalului• Se selecteaza marimea intervalului care conduce la un numar de clase cuprins

între 5 si 15• Se determina limita inferioara a primului interval (trebuie sa fie un multiplu al

marimii intervalului)• Se determina limita superioara a primului interval• Se construiesc intervalele de clasa pentru fiecare interval, fiind atenti sa avem

clase "suprapuse" sau "intervale neacoperite"



În principiu, desi este recomandabila obtinerea unei grupari de frecvente pe 5-15clase, se poate opta pentru un numar de clase care serveste cel mai bine interesul decercetare. De exemplu, în cazul unei distributii de vârsta exprimata în ani, este preferabil

sa se opteze pentru clase "cincinale" sau "decade", acestea având si o anumitasemnificatie "psihologica".

În urma transformarii de mai sus, am obtinut variabila virsta. Utilizarea ei ca atareîn analize statistice este improprie, de aceea ar fi foarte utila obtinerea unei variabile caresa asocieze anumite valori conventionale pentru categorii de virsta. Pentru aceasta putemefectua "recodificarea" variabilei virsta pentru a obtine o distributie grupata de frecvente,astfel:

Se lanseaza procedura Recode - Into Defferent Variables din meniul Transform:

Atentie, se poate alege si optiune Into Same Variables, dar nu este recomandabila

deoarece, în cazul unei erori, nu mai avem la dispozitie variabila initiala pentru o nouarecodificare.

Pasi de efectuat la aparitia casetei Recode into Defferent Variable:

• se trece variabila virsta în zona Numeric Variable →Output Variable. Semnulîntrebarii arata ca se asteapta numele variabilei ce urmeaza sa fie creata prinrecodificare.



• Acest nume se scrie în zona: Name, dupa care se apasa butonul Change.

Am ales, absolut conventional, ca nume al variabilei recodificate, v_clase.

Urmeaza acum sa descriem limitele claselor de recodificare. Pentru aceasta, se

actioneaza butonul Old and New Values

Desi relativ complicata, caseta de declarare a noilor valori în functie de cele vechi esteusor de înteles.

În zona Old value, se alege una dintre variantele de definire a valorilor de la care se pleaca. Sa zicem ca am ales solutia sa recodificam anii pe intervale de zece ani, primul intervalfiind 29-39, al doilea 40-49, s.a.m.d.

Pentru aceasta activam optiunea Range si scriem valorile limite al intervalului dorit.

Dupa aceasta, în zona New value oValue, scriem care este valoarea pe care o asignamacestei clase.

În fine, actionam butonul Add pentru a definitiva operatiunea si trecem la definireaurmatoarei clase, pâna terminam.

În zona Old → New se poate observa lista recodificarilor definite.

Se actioneaza butonul Continue si, la revenirea în caseta anterioara, butonul OK.Rezultatul operatiuni se vede mai jos:



Se observa corespondenta dintre valoarea din variabila virsta, cu valoarea din

variabila v_clase. Pentru valoarea 71, avem missing value în variabila v_clase, deoarecenu am definit un interval care sa cuprinda aceasta vârsta. (De regula, aceasta situatie estedeterminata de o eroare de definire a intervalelor de clasa. Pentru a o repara, ar trebui saintram din nou în procedura Recode si sa redefinim clasele).

relua.

Transformarea operata pe variabila vîrsta nu este de loc inutila. Daca am fi doritsa vedem în ce masura este o relatie între nivelul salariului si vârsta, ar fi fost oarecumimpropriu (fara a fi propriu-zis o greseala ) sa utilizam o statistica parametrica (corelatia).În analizele statistice pe vârste este recomandabil, totusi, sa operam cu grupe de vârsta.

Ordonarea dupa rang a valorilor unei variabile

Asa cum am spus în cuprinsul primei parti a acestui volum, este posibil sane confruntam cu o variabila cantitativa ale carei valori nu respecta conditiile uneistatistici parametrice (vezi figura din stânga, unde valoarea 250 este excesiva). Într-osituatie de acest gen, una din solutiile posibile este transformarea de rang, cu proceduraTransform-Rank cases (caseta din dreapta):



Variabila vizata (scor) este trecuta în lista Variable(s), se seteaza modul deordonare (am ales atribuirea rangului 1 valorii celei mai mari) iar apoi am actionat butonul OK. Procedura permite fixarea unor parametri de transformare cu ajutorul butoanelor Rank si Ties, asupra carora nu insistam aici.

Organizarea datelor pentru analizaSPSS permite efectuarea unor operatii de organizare a datelor care prezinta un

interes aparte pentru faza de analiza. Acestea sunt: sortarea, împartirea fisierului însubgrupuri, selectarea unor seturi de date, combinarea fisierelor (adaugarea de cazuri,adaugarea de variabile). Le vom trece în revista, pe rând.

Sortarea bazei de date

Sortarea este operatia de aranjare a bazei de date în functie de ordineacrescatoare/descrescatoare a valorilor unei variabile. Ea este utila mai ales pentruinspectarea directa a valorilor de la extrema unei distributii sau pentru listarea ordonata a bazei de date. Procedura utilizata este: Data-Sort .

Baza de date nesortata Caseta Sort Cases

Imaginea din caseta descrie sortarea bazei de date, crescator ( Ascending ), dupavalorile variabilei scor (rezultatul se vede în imaginea de mai jos).



Se poate efectua sortarea simultana dupa mai multe variabile, fiecare în sensuldorit, de exemplu: grup( Ascending ) si scor( Descending ).



Împartirea bazei de date în subgrupuri

Baza de date SPSS poate fi împartita în subgrupuri, pentru analiza distincta.Atunci când datele sunt astfel organizate, orice procedura de analiza se va efectua distinct

pentru fiecare subgrup.

Procedura este: Data-Split File iar caseta de dialog este cea de mai jos:

Optiunile sunt:

• Analyze all cases, do not create groups (pentru analiza integrala a datelor)• Compare groups (rezultatele vor fi afisate astfel încât sa poata fi usor comparate)• Organize output by groups (rezultatele vor fi afisate în Viewer, separat pe

grupuri)

Operatia nu produce nici o modificare vizibila asupra bazei de date. Singurulefect se vede în zona de afisare a rezultatelor, unde toate procedurile de analizavor fi afisate pentru fiecare subgrup în parte.

Pentru a se reveni la analiza intergrala a datelor, se va reveni în procedura SplitFile si se va seta optiunea Analyze all cases....

Selectarea unor seturi de date

Selectarea unui set de date permite aplicarea procedurilor de analiza numai pecazurile selectate. Daca nu se opteaza pentru stergerea datelor neselectate, ele vor fi pastrate si vor putea fi reintroduse în analiza. Procedura este Data-Select Cases....

Pentru exemplificare, sa ne propunem selectarea din baza de date din imaginea demai sus a cazurilor apartinând grupului 1.

Imaginea prezinta:



• În partea stânga, baza de date• La mijloc, caseta principala Select Cases care are:

o Zona listei de variabile

o Zona fixare a conditiilor de selectare Select , unde:

All caseseste setarea implicita si înseamna ca toate datele intra înanaliza

If condition is satisfied , se bifeaza atunci când se dorestedeclararea unei conditii de selectare bazata pe o functie

IF este butonul de deschidere a casetei pentru declararea conditiei,care deschide caseta Select Cases: if . În cazul nostru, am trecutvariabila grup în zona de editare a functie si am declarat-o egala cu

1. Astfel, toate cazurile din baza de date care au grup=1 vor fianalizate, celelalte fiind ignorate. Exemplul se bazeaza pe oselectie simpla, dar sunt permise selectii bazate pe functii maicomplicate sau care pot sa includa combinatii de variabile.

o Random sample of cases, permite selectarea unui set aleator de cayuri din baya de date

o Based on time por case range, permite selectarea cazurilor în functie de pozitia din baza de date.

o Use filter variable, selecteaza pe baza valorile unei variabile filtru

o Unselected cases Are, permite optiunea de filtrare a cazurilor neselctate( Filtered ) sau de eliminare a lor ( Deleted ). În acest din urmaa caz, cazurileneselectate vor fi sterse, dar baza de date, dar actualizarea fisierului de pehard disk se va face numai dupa prima comanda Save.



Dupa finalizarea operatiei de selectare de mai sus, baza de date se prezinta în felulurmator:

Se observa:

• Marcarea cu o diagonala a capului de linie corespunzator cazurilor neselectate• Aparitia unei variabile de sistem filter_$ care contine valoarea 0 pentru cazurile

neselectate si valoarea 1 pentru cazurile selectate. Aceasta variabila poate fiulterior utilizata în procedurile de analiza, ca variabila independenta (caz în carese va anula situatia de selectare, prin bifarea optiunii All cases).

Selectarea este utilizata în mod obisnuit, pentru alegerea temporara a unui set dedate. Adesea se uita anularea unei selectari existente, atunci când se doresterevenirea al analiza tuturor cazurilor. Efectul este obtinerea unor rezultate pe date partiale.

Alte operatii de organizare a datelor pentru analiza

Optiunile SPSS pentru organizarea datelor sunt mult mai numeroase decât celedescrise mai sus. Fara a le trata în amanunt, ne vom multumi sa le prezentam sumar:

• Agregarea cazurilor, atunci când exista înregistrari multiple pentru fiecare subiectsi se doreste pastrarea uneia singure ( Data-Agregate)

• Adaugarea unor cazuri din alta baza de date SPSS ( Data-Merge Files-Add cases...)

• Adaugarea unor variabile din alta baza de date SPSS ( Data-Merge Files-Add variables...)

• Inversarea liniilor cu coloanele ( Data-Transpose...)



Calcularea indicatorilor statistici descriptivi

Reamintim faptul ca statistica descriptiva are ca obiectiv analiza caracteristicilor variabilelor. Principalele elemente de statistica descriptiva sunt:

• reprezentarea întregii distributii, pe cale:o numerica (analiza de frecvente)o grafica (bara, histograma, box-plot , stem and leaf )

• valorile tendintei centraleo modo medieo mediana

• valorile împrastieriio amplitudineo abatere standard

• valorile formei distributiei

o indice de simetrie ( skewness)

o indice de boltire (kurtosis)

SPSS ofera posibilitati variate de reprezentare si de calcul a acestor indicatori. Înacest sens exista, pe de o parte, proceduri specializate si, pe de alta parte, optiuni care potfi accesate din interiorul altor proceduri. Fie si acest aspect numai, ar trebui sa sugerezeca analiza statistica descriptiva, în ciuda caracterului ei "elementar", este o componenta

indispensabila a analizei statistice.În ceea ce priveste procedurile specializate, ele se lanseaza din meniul Statistics-

Summarize (sau Analyze-Descriptive statistics, pentru versiunile mai noi de SPSS) si suntgrupate în trei proceduri: Frequencies, Descriptives si Explore.

Aceste proceduri ofera prelucrari distincte dar contin si rezultate comune.Alegerea uneia sau alteia dintre ele depinde de necesitatile de analiza.



Procedura Frequencies

Este singura care permite analiza de frecvente.

La aparitia casetei Frequencies, variabila pe care dorim sa o supunem analizei va

fi trecuta în lista de calcul Variable(s), prin selectarea ei si actionarea butonului detransfer (►). Pot fi incluse mai multe variabile în aceasta lista, rezultatele fiind afisatedistinct, pentru fiecare în parte.

Se va observa pe caseta de mai sus bifarea optiunii pentru tabela de frecvente,care este functia specifica a acestei proceduri. În plus, prin actionarea butoanelor din partea de jos a casetei se pot seta alte analize, astfel:

Butonul Statistics Butonul Chart Butonul Format

Se aleg indicatorii statisticidescriptivi doriti

Se alege tipul de graficdorit

Se aleg diverse moduri de prezentare a rezultatelor

Rezultatele sunt afisate în SPSS Viewer în forma de mai jos (dar unele sub altele,nu alaturat, asa cum sunt aranjati aici):

Indicatorii statisticidescriptivi

Tabelul de frecvente Histograma



Procedura Descriptives

Aceasta procedura vizeaza doar indicatorii statistici descriptivi. La lansare,Satistics-Descriptives, se deschide caseta principala Descriptives.

Se trec variabilele vizate în listaVariable(s)

(daca dorim calcularea scorurilor z, se bifeaza optiunea din stânga-jos a casetei )

Se aleg indicatorii doriti din Options

Rezultatul analizei, din Viewer Imaginea bazei de date, în care se vedeaparitia variabilei zscor (denumita automat de progarm) cu valorile transformate în scoruri z.

Procedura Explore

Procedura Explore este cea mai complexa dintre toate procedurile statisticiidescriptive si se poate utiliza atunci când se doreste o analiza exhaustiva a variabilei (sau

variabilelor).

Caseta principala Explore



• În Dependent List se includ variabilele de analizat• În Factor List se includ eventualele variabile categoriale, în functie de care se

doreste analiza variabilei analizate• Label cases by, permite etichetarea cazurilor la afisare (rar utilizat)• Display, permite alegerea optiunilor de afisare a rezultatelor numerice (Statistics),

grafice ( Plots) sau ambele categorii ( Both)• Butonul Statistics deschide caseta pentru alegerea unor indicatori (dar procedura

analizeaza, implicit toti indicatorii statistici descriptivi, de baza)• Butonul Plots, permite alegerea reprezentarilor grafice dorite:

• Butonul Options, permite setarea modului de tratare a valorilor lipsa

Rezultatele analizei Explore, definita mai sus, se prezinta astfel:

Indicatorii statistici Reprezentarea stem-and-leaf Reprezentarea Box plot



Teste parametrice

Testul z (t) pentru media unui singur esantion

Utilizare

Testul z pentru un singur esantion este utilizat pentru se testa diferenta dintremedia unui esantion fata de media cunoscuta a populatiei din care face parte. Atunci cândvolumul esantionului este mic (N<30) este utilizata o varianta denumita testul t pentru unsingur esantion.

Utilizarea acestui test statistic este conditionata de cunoasterea mediei populatiei.Daca populatia are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor în care exista studii speciale, cum sunt cele antropometrice, de exemplu). Dintrevariabilele psihologice ale carei medii pentru populatie este cunoscuta, este inteligenta,exprimata în unitati QI (μ=100). Testul poate fi utilizat, însa, atunci când populatia are oextindere mai redusa. De exemplu, daca a fost evaluat nivelul de satisfactie într-oorganizatie, se poate testa diferenta dintre nivelul de satisfactie la nivelul unei sectii fatade media satisfactiei la nivelul întregii organizatii (populatie).

Conditii de aplicare

Conditia teoretica de baza este normalitatea distributiei de esantionare. În temeiulteoremei limitei centrale, cu cât volumul esantionului este mai mare, cu atât normalitateadistributiei de esantionare este mai sigura.

Aranjarea datelor

Datele supuse testarii trebuie sa fie incluse într-o variabila SPSS de tip numeric.

Procedura: Statistics-Compare Means-One Sample T Test

Variabilatestata

Caseta principala

Variabila testata este trecuta în listaTest Variable(s)

În zona Test Value se înscrie media populatiei (100 în cazul nostru)

Caseta Options permite alegerea pragului de semnificatie.

Confidence Interval 95% esteechivalent cu p=0.05 si esteimplicit pentru toate testelestatistice



Rezultate

Primul tabel include statistica descriptiva a variabilei testate (N, media, ab.std,eroarea standard a mediei)

Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03,diferenta fata de media populatiei (22.6) si limitele inferioara (12.57) si superioara(32.63) ale intervalului de încredere pentru media populatiei estimata de esantionul decercetare.

Concluzia testului: media esantionului de cercetare difera semnificativ de QI=100,ca medie a populatiei.



Testul t pentru esantioane independente

Utilizare

Testul t pentru esantioane independente este utilizat pentru testarea diferenteidintre mediile aceleiasi variabile dependente masurate pe doua grupuri, formate dinsubiecti diferiti. Exemplu: testarea diferentei dintre media scorului la o scala desociabilitate aplicata unor copii crescuti în familie si unor copii crescuti în institutii deocrotire. În acest caz, scorul la sociabilitate este variabila dependenta, masurata pe scalacantitativa (interval/raport) iar mediul de educare este variabila independenta, exprimata pe scala nominala dihotomica (familie/institutie de ocrotire)

Conditii

Teoretic, testul t poate fi utilizat pentru esantioane oricât de mici, daca distributia

de esantionare pentru cele doua grupuri este normala si daca varianta valorilor în celedoua grupuri nu difera semnificativ. În ce priveste conditia egalitatii variantei, ea estetestata cu un teste specifice. Unul dintre acestea este testul Levene, iar în functie dacarezultatul sau programul calculeaza testul t pe doua cai, asa cum vom vedea mai jos.

Daca variabila dependenta nu întruneste conditiile pentru testul t , se poate apela lateste neparametrice, astfel:

• Testul z pentru proportii (compararea procentului de "sociabili" din cele douagrupuri)

• Testul Mann-Whitney U, daca se transforma valorile variabilei "sociabilitate"în valori de rang

Aranjarea datelor

Tabela de date SPSS va contine variabila dependenta, de tip numeric, si variabilaindependenta, de tip nominal, cu doua valori, în functie de apartenenta la un grup saualtul. Variabila independenta poate fi de tip " string " (codificând cele doua grupuri cuvalori de genul "A" si "B") sau de tip numeric (cu codificarea conventionala 1 si 2). Din principiu, însa, recomandam cea de a doua varianta.



Procedura: Statistics-Compare means-Indpendent Samples T Test

În caseta principala se trece variabila dependenta ( soc) în lista Test Variable(s)

(pot fi testate mai multe variabile simultan) iar variabila independenta ( grup), în zonaGrouping Variable. În acest moment, programul ataseaza variabilei dependente douasemne de întrebare, sugerând introducerea valorilor care definesc cele doua grupuri.Concomitent, se activeaza butonul Define Groups a carui actionare deschide casetasecundara Define Groups, unde se introduc valorile care definesc cele doua grupuricomparate (ordinea lor nu este relevanta). Dupa actionarea butonului Continue, caseta principala devine completa si se poate actiona OK pentru efectuarea testului.

Rezultate



În primul tabel (Group Statistics) avem statistica descriptiva a celor doua grupuri.Se va observa ca programul descrie grupurile prin intermediul etichetelor valorilor. Dacaacestea nu ar fi fost definite, în loc de "institutie" si "familie" ar fi aparut 1, respectiv, 2.

Al doilea tabel are doua linii:

Pe prima avem rezultatele testului t pentru cazul asumarii omogenitatii variantei( Levene's Test for Equality of Variances). În cazul nostru, ele sunt egale (Sig.=0.666,ceea ce se traduce ca o valoare p=0.666, deci mai mare de 0.05 pentru distributia F atestului Levene, pe care nu o discutam aici). Ca urmare, vom citi pe aceasta linierezultatul testului: t=-2.42, df=12, Sig.=0.045.

Pe a doua linie avem rezultatele testului t pentru cazul în care nu s-ar întruniconditia de omogenitate a variantei pentru cele doua grupuri. Daca semnificatia testului Levene ar fi fost mai mica sau egala cu 0.05, rezultatului testului t s-ar fi citit pe aceastalinie.

Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetarii,conform careia copiii crescuti în mediu familial sunt mai sociabili (m=22.00) decât ceicrescuti în mediu institutional (m=17.71).



Testul t pentru esantioane dependente (perechi)

Utilizare

Testul t al diferentei mediilor a doua esantioane dependente permite evaluareasemnificatiei variatiei unei anumite caracteristici la aceeasi indivizi în doua situatiidiferite (de exemplu, "înainte" si "dupa" actiunea unei anumite conditii, ori în douacontexte diferite, indiferent de momentul manifestarii acestora). Avantajul major alacestui model statistic este acela ca surprinde variatia numita "intrasubiect", prin faptul ca baza de calcul este diferenta dintre cele doua valori ale fiecarui subiect în parte.

Exemplu: Un grup de subiecti efectueaza operatii aritmetice în conditii de linistesi, ulterior, în conditii de zgomot puternic. Ipoteza cercetarii este ca zgomotul determinao reducere a capacitatii de calcul numeric.

Conditii

Conditia teoretica a testului este normalitatea distributiei de esantionare adistributiei de diferente. Ca si în celelalte cazuri, teorema limitei centrale determinanormalizarea distributiei de esantionare pe masura ce volumul esantionului creste.

În situatia în care conditia nu se îndeplineste, se pot utiliza teste neparametriceechivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru dateordinale).

Aranjarea datelor

Vor fi create doua variabile distincte, ambele cantitative, masurate pe scala de tipI/R, care primesc câte o valoare pentru fiecare subiect.



Procedura: Statistics-Compare Means-Paired Sample T Test...

Se selecteaza cu un clic de mouse, pe rând,fiecare dintre cele doua variabile. Astfel se

constituie perechea de variabile în zonaCurent selection.

O data constituita, perechea de variabile setrece în lista Paired Variables cu butonul de

transfer (►). Pot fi create mai multe perechide variabile si prelucrate simultan.

Caseta Options permite alegerea pragului de semnificatie (implicit 0.05).

Rezultate

Primul tabel contine statistica descriptiva pentru cele doua variabile.



Al doilea tabel contine testul de corelatie Pearson (r) dintre cele doua variabile.Evaluarea intensitatea asocierii liniare dintre cele doua variabile este legitima în acestcontext, dar ofera o informatie diferita de testul diferentei dintre medii. Alegerea testuluide corelatie sau al testului t se decide în functie de obiectivul cercetarii.

În fine, ultimul tabel prezinta rezultatul testului: t=5.076, df=9, p=0.001. Acesta permite respingerea ipotezei de nul si acceptarea ipotezei cercetarii, zgomotul afecteazacapacitatea de calcul aritmetic.

Coeficientul de corelatie liniara Pearson (r)

Utilizare

Corelatia Pearson (r) masoara gradul de asociere dintre variabile. Aceasta serefera la gradul si sensul de variatie concomitenta a valorilor unei variabile în raport cucealalta, dupa un model de tip liniar.

Domeniul de variatie a coeficientului de corelatie Pearson (r) este între r=-1(corelatie perfecta negativa) si r=+1 (corelatie perfecta pozitiva). Absenta oricareilegaturi (corelatii) dintre variabile se traduce prin r=0.

Exemplu: Testul de corelatie implica doua variabile dar, adesea, într-o cercetare psihologica numarul variabilelor supuse corelatiei este mai mare de doua. Acest faptconduce la ceea ce se numeste o matrice de corelatii care este un tabel ale caror celulecuprind corelatiile dintre perechile de variabile. Pentru exemplificare, sa luam înconsiderare situatia în care se urmareste evidentierea legaturii (asocierii) dintre anxietatesi agresivitate, pe de o parte, si preferinta pentru risc pe de alta parte.

Conditii

Conditia principala pentru calcularea coeficientului de corelatie liniara Pearsoneste ca variabilele implicate sa fie masurate pe scala de interval/raport (alaturi deexistenta unei forme a distributiei care nu se abate sever de la curba normala).

Testele neparametrice alternative, pentru cazul în care conditiile pentru utilizareatestului Pearson nu se îndeplinesc, sunt: testul chi-patrat (pentru date nominale) sau

coeficientii de corelatie Spearman sau Kendall (pentru date ordinale).

Aranjarea datelor

Se creeaza variabile distincte pentru fiecare caracteristica supusa testarii.



Procedura: Statistics-Corelate-Bivariate

Variabilele supuse corelatiei vor fi trecute în lista Variables:

Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifaun altul (Kendall sau Spearman), daca datele sunt neparametrice.

Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alegeunilateral (daca exista o justificare solida).

Flag significant correlations, determina marcarea cu un asterisc a coeficientilor semnificativi la p=0.05 si cu doua asteriscuri a celor semnificativi la p=0.01. Acest lucrueste util atunci când matricea de corelatie este mare, pentru a scoate în evidenta valorilesemnificative ale lui r.

Rezultate



Tabelul rezultatelor cuprinde matricea de corelatii a variabilelor analizate. El esteredundant, deoarece prezinta aceleasi corelatii de doua ori, odata deasupra diagonalei,odata sub diagonala. Corelatiile variabilelor cu ele însele sunt perfect pozitive (r=1) si nu

prezinta, desigur, nici un interes.

Fiecare celula include urmatoarele informatii:

• valoarea lui r

• nivelul p

• numarul de subiecti (N)

În cazul nostru, consemnam corelatii negative dar nesemnificative între anxietate

si agresivitate (r=-0.38, p=0.26), pe de o parte, si între anxietate si preferinta pentru risc, pe de alta parte (r=-0.40, p=0.24). În acelasi timp, se constata o corelatie semnificativa(r=0.96, p<0.001) între agresivitate si preferinta pentru risc. Precizam faptul ca raportareacoeficientilor de corelatie se face cu doua zecimale, chiar daca programele îi calculeazacu trei zecimale.

Dezavantajul acestui tip de tabel consta în faptul ca avem de fapt o dubla prezentare a corelatiilor, deasupra diagonalei si sub diagonala. Pentru corelatii implicândmulte variabile tabelul se va cit cu relativa dificultate.

Sa presupunem ca suntem interesati de corelatiile dintre anxietate si agresivitate

cu variabila preferinta pentru risc, nu si de corelatia dintre anxietate si agresivitate. Înacest caz, în caseta principala, Bivariate Correlations, prezentata mai sus, variabilele vor fi introduse astfel încât variabila "preferinta pentru risc" sa fie ultima din lista. Apoi seapasa butonul Paste, al carui efect este deschiderea domeniului Syntax, ca o fereastradistincta, în care se afla sintaxa procedurii de corelatie. Acolo, pe linia/VARIABLES=anx agresiv risc, se insereaza cuvântul WITH, având grija sa existe spatiuatât în stinga cât si în dreapta sa.



inserati WITH

Maideparte, seselecteaza întreaga procedura (cuajutorul mouse-ului) si se apasa pe butonul Run (►)

de pe bara de comenzi a ferestrei

Rezultatul din Viewer va arata ca mai jos:

Este evident ca aceasta modalitate se poate aplica pentru oricât variabile, dacaavem grija sa le asezam separat în lista si sa includem clauza WITH între cele douacategorii de variabile. Nu pot fi incluse mai multe clauze WITH în aceeasi procedura.

Ulterior, putem reveni în fereastra Syntax pentru a o închide (cu File-Close),salvând sau nu procedura astfel modificata.

Expresia grafica a corelatiei ( Scatterplot )

Caracterul si intensitatea corelatiei dintre doua variabile se evidentiaza extrem desugestiv cu ajutorul unei proceduri grafice specifice, numita scatterplot .

Aceasta se lanseaza din meniul principal Graphs-Scatter... care deschideurmatoarea caseta de dialog:



În cazul nostru, sa presupunem ca dorim reprezentarea grafica a corelatiei dintreagresivitate si preferinta pentru risc, singura semnificativa. În acest scop, selectam pecaseta Scatterplot optiunea Simple si apasam Define.

Trecem variabila Agresivitate pe axa Y si variabila Preferinta pentru risc pe axa Z(se poate la fel de bine si invers). Se apasa OK si se obtine graficul din imagineaurmatoare, care sugereaza foarte clar existenta unei asocieri de tip liniar între cele douavariabile.



Reprezentarea grafica este sursa de informatii cu privire la natura relatiei dintrevariabile, motiv pentru care este recomandabila utilizarea frecventa a acesteia. Mai mult,ea este necesara în special atunci când valoarea corelatiei este redusa, saunesemnificativa, deoarece graficul poate scoate în evidenta o legatura de alt tip decâtliniara.

O corelatie r=0.92, ca cea obtinuta mai sus, între agresivitate si preferinta pentu risc, este improbabil sa se întâlneasca într-un studiu real. De fapt, dacas-ar întâmpla sa apara, ar trebui sa concluzionam mai degraba ca cele douavariabile se confunda, decât ca sunt distincte.



Regresia liniara simpla

Utilizare

Analiza de regresie este o aplicatie a corelatiei, utilizata în scopuri de predictie.Daca evaluam agresivitatea ca trasatura de personalitate si preferinta pentru risc caexpresie a numarului de incidente în trafic, la conducatorii auto, se poate estima pe bazaagresivitatii riscul de accident înca înainte de dobândirea carnetului de sofer. Acest tip deregresie, în care exista o singura variabila predictor (agresivitatea) si o variabila criteriu(tendinta spre risc) se numeste regresie liniara simpla. Mai frecvent utilizata este regresiamultipla, care efectueaza predictii bazate pe mai multe variabile predictor asupra uneivariabile criteriu. Vom prezenta mai jos regresia liniara simpla, ca o forma de introducereîn analiza de regresie, mai usor de înteles.

Exemplu: Predictia rezultatului statistica pe baza cunostintelor de matematica,

evaluate anterior începerii cursului de statistica.

Conditii

Din punct de vedere statistic, conditiile variabilelor care sunt supuse analizei deregresie sunt aceleasi ca în cazul corelatiei, deoarece regresia liniara este o aplicatie aacesteia.

Din punct de vedere metodologic, predictia presupune, de regula, evaluareavariabilei predictor anterior variabilei criteriu. Acest fapt poate sugera o relatie de tipcauzal între variabile, dar numai daca sunt întrunite si alte conditii (cum ar fi izolarea

efectelor altor variabile).

Aranjarea datelor

Structura de variabile este similara analizei de corelatie.



Procedura: În principiu, analiza de regresie începe cu coeficientul de corelatiedintre variabile si vizualizarea imaginii scatterplot. În cazul nostru, urmând procedura prezentata mai sus, am obtinut o corelatie r=0.74 (p=0.002). Aceste valori confirmaexistenta unei legaturi pozitive semnificative, între cunostintele de matematica si performanta la statistica. O idee mai exacta ne ofera coeficientul de determinarer 2=0,5476. Acesta ne spune ca 54% din variatia "performantei la statistica" este explicatade variatia valorilor la variabila "cunostinte de matematica". Deducem ca restul de 46%din performanta la statistica este explicata de alte variabile, necunoscute în aceastafaza[1].

Pe baza acestor concluzii se poate trece la analiza de regresie a carei finalitate esteaceea de obtinere a coeficientilor a (termenul liber, sau originea dreptei de regresie) si b(panta dreptei de regresie), cu ajutorul carora se poate estima în viitor performanta lastatistica pe baza rezultatului la un test de cunostinte matematice aplicat în prima zi descoala. Neîndoielnic, o astfel de procedura s-ar justifica mai ales pentru identificareastudentilor cu potentiale dificultati si care, tocmai fiind avertizati în legatura cu acestedificultati vor putea sa acorde statisticii o atentie sporita, în vederea obtinerii unui rezultat peste nivelul celui prezis.

Lansarea procedurii: Statistics-Regression-Linear...

http://www.scritube.com/stiinta/informatica/Aplicatii-SPSS12121662.php#_ftn1

http://www.scritube.com/stiinta/informatica/Aplicatii-SPSS12121662.php#_ftn1



În caseta principala Linear Regression, se trece variabila criteriu în zona

Dependent iar variabila criteriu în zona Independent(s).

În caseta Statistics, bifam Estimates pentruobtinerea coeficientilor de regresie (optiuneimplicita)

În caseta Regression Save, bifam Predicted

Values-Unstandardized si Residuals-

Unstandardized , care vor avea ca efectcrearea de variabile distincte în baza de date.

Prediction interval (individual) va calculalimitele de încredere pentru valorile prezise.

Valorile prezise sunt valorile rezultate pe baza modelului de predictie.

Valorile reziduale se calculeaza ca diferenta între valorile variabilei criteriu sicele prezise pe baza modelului de regresie.



Analiza rezultatelor

Tabelul Model Summary ofera valoarea coeficientului de regresie, notat cu R,care este identic cu coeficientul de corelatie dintre cele doua variabile. Daca modelul deregresie ar fi avut mai multe variabile predictor, R ar fi fost coeficientul de corelatiemultipla dintre predictori si criteriu. Interpretarea este similara coeficientului de corelatiesimpla, la fel ca si pentru R 2, care este coeficientul de determinare al lui R. Valoarea luine spune ca 55% din variatia performantei la statistica este explicata de variatia variabilei"cunostinte de matematica". " Adjusted R Square" este o corectie a lui R 2 în functie denumarul de predictori si numarul de subiecti.

Tabelul Coefficients contine coeficientii B (nestandardizati) si coeficientul beta(standardizat), care pot fi utilizati, la alegere, în ecuatia de predictie.

Astfel, de exemplu, daca un student realizeaza un scor de 30 la testul de cunostinte dematematica, se poate estima performanta finala la statistica cu ajutorul relatiei:

unde 3.406 este originea iar 0.854 este panta dreptei de regresie.

Sau, daca predictia se face pe baza unui scor standardizat z al variabilei mat_in (sa zicem,0.93), atunci:

În acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruristandardizate se afla în 0.



Desigur, scorurile astfel prezise sunt estimari, atâta timp cât corelatia dintre variabile nueste perfecta. Iar estimarile contin cu atât mai multa eroare cu cât corelatia dintre variabile estemai mica (punctele graficului de corelatie fiind mai îndepartate de dreapta de regresie).

La finalul procedurii analizei de regresie, cu setarile de mai sus, în baza de date apar câteva variabile noi, asa cum se vede în imaginea de mai jos.

Variabila pre_1, contine valorile prezise pe baza modelului de regresie.

Variabila res_1, contine diferenta dintre valoarea reala si valoarea prezisa

Variabilele lici_1 si lici_2, contin limitele inferioara si superioara ale intervaluluide încredere pentru fiecare valoare în parte. Pentru a întelege mai bine problemalimitelor, sa privim prima valoare prezisa de pe coloana pre_1 (25.598). Cu un nivel deîncredere de 95% (echivalent cu o probabilitate de eroare de 0.05), putem spune cavaloarea adevarata pentru stat_fin prezisa pe baza valorii mat_in=26, s-ar afla înintervalul 21.77 si 29.41.

În fine, rezultatele contin si imaginea scatterplot a relatiei dintre valorile mat_in siscorurile z ale variabilei pre_1.



Imaginea este identica cu ceea ce am prezentat în cazul corelatiei. Singura

deosebire este data de trasarea dreptei. Aceasta se face de catre operator, în felul urmator:

- se actioneaza dublu clic de mouse pe imaginea graficului din Viewer . prin care...

- graficul este trecut deschis într-o fereastra individuala de editare, în care...

- se executa procedura Chart-Options-Fit Line- Fit Options. La capatul acestei seriide actiuni apare caseta de mai jos unde se marcheaza Linear regression.

Facem precizarea ca acest procedeu de trasare a liniei în interiorul scatterplotuluieste utilizabil si în cazul corelatiei. Daca se alege alt model decât cel liniar (de exemplu,Quadratic regression) se va obtine linia de regresie sub forma curbilinie, punând înevidenta abaterile de la modelul liniar. Acest lucru este cu deosebire util atunci cândcorelatia este mica, fapt care se poate datora faptului ca relatia dintre variabile nu



urmeaza un model liniar (vezi exemplul din prima sectiune a manualului, bazat pecorelatia dintre scorurile z si probabilitatile de sub curba normala).

Ce utilizam, corelatia sau regresia?

Corelatia si regresia liniara sunt similare si, de aceea, usor de confundat. În unelesituatii pot fi utilizate ambele proceduri.

Se calculeaza corelatia liniara:

• atunci când exista doua variabile masurate pe aceiasi subiecti si se doresteevaluarea gradului de asociere între variabile

• atunci când distributiile de esantionare ale celor doua variabile sunt normale(atunci când cel putin una dintre variabile este manipulata, nu se calculeazacorelatia Pearson)

Se calculeaza regresia liniara:

• atunci când una dintre variabile precede si poate fi cauza celeilalte variabile• atunci când una dintre variabile este manipulata, se calculeaza regresia• atentie, calculele regresiei nu sunt simetrice, ca urmare, inversând variabilele în

ecuatia de regresie se va obtine o linie de regresie diferita, în timp ce daca seinverseaza ordinea variabilelor în calcularea corelatiei, se obtine acelasi coeficientr .



Teste neparametrice nominale

Testul z al proportiei pentru un singur esantion

Utilizare

Testul z pentru proportii pentru un esantion, este utilizat în cazul variabilelor dihotomice pentru a testa diferenta dintre proportiile valorilor în esantion prin comparatiecu proportia la nivelul populatiei.

Exemplu: La întrebarea "cine se uita la telenovele?" raspund DA 7 subiecti, dintrecare 5 femei si 2 barbati. Întrebarea cercetarii este daca femeile se uita într-o proportiemai mare decât barbatii la telenovele.

Conditii

Cunoasterea proportiei la nivelul populatiei pentru valorile variabilei testate. Încazul nostru, raportul femei/barbati este cunoscut din studiile demografice (51%/49%)

Aranjarea datelor

Se creeaza variabila dihotomica cu valori numerice. Variabilele de tip "string" nusunt acceptate de procedura SPSS. În cazul nostru, valorile sunt 1 pentru feminin si 2 pentru masculin.

Procedura: Statistics-Non Patametric Tests-Binomial...



• Variabila testata este trecuta în lista Test Variable List :

• În zona Define Dichotomy se alege Get from data, daca variabila estedihotomica, sau Cut point , daca variabila este continua, prin fixarea uneivalori care împarte distributia în doua categorii.

• În zona Test proportion se introduce proportia primei categorii.

• Butonul Options permite solicitarea statisticii descriptive pentru variabilatestata.

Rezultate

Rezultatul în cazul exemplului dat cuprinde frecventa pe categorii, procentul sisemnificatia testului în raport cu proportia la nivelul populatiei (p=0.243). În acest caz, seaccepta ipoteza de nul si se respinge ipoteza cercetarii. Proportia femeilor care se uita latelenovele nu difera semnificativ de proportia barbatilor, prin raportare la proportia lor în populatie.



Testul semnelor

Utilizare

Testul semnelor este utilizat pentru a testa diferenta dintre valori, utilizându-sesemnul diferentei si nu valoarea acesteia, atunci când ambele valori sunt masurate pentruaceiasi subiecti . Daca nu ar exista nici o diferenta între valorile perechi, atunci numaruldiferentelor pozitive ar trebui sa fie egal cu cel al diferentelor negative. Cu cât numaruldiferentelor de un anumit semn este mai mare comparativ cu cel al diferentelor de semnopus, cu atât creste posibilitatea ca diferenta dintre variabile sa fie statistic semnificativa.

Exemplu: Într-un experiment cu privire la efectul motivarii asupra memorarii,subiectilor li se cere sa memoreze cuvinte dintr-o lista, înainte si dupa introducerea unuifactor motivant. Dat fiind faptul ca numarul subiectilor este prea mic pentru asumareanormalitatii distributiei de esantionare, se alege testul semnului, în locul testului t pentru

esantioane dependente.

Conditii

Variabilele vor fi de tip numeric, iar valorile exprimate în aceeasi unitate demasura, pentru a se putea face diferenta lor.

Aranjarea datelor

Imaginea de mai jos contine variabilele "inainte" si "dupa", care vor fi analizate.

Variabila "dif" contine rezultatul diferentei "dupa-inainte".

Variabila "semn", contine semnul diferentei. Ambele sunt prezentate numai pentru a face mai evident baza de calcul a testului deoarece, în fapt, nu sunt relevante subaspectul procedurii SPSS.

2. Daca nu se dispune de valorile variabilelor ci numai de semnul diferentei,testul semnului va fi calculat manual, pe baza formulei 4.7.

Procedura: Statisstics-Nonparametric Tests-2 Related Samples...



În prima faza, cele doua variabile suntselectate, pe rând, prin clic de mouse pefiecare, constituindu-se în pereche. Acestfapt se observa în partea de jos a casetei, înzona Current Selections.

Se bifeaza Sign în zona Test Type.

Apoi, perechea de variabile este trecuta înlista Test Pair(s) List: prin actionarea butonului ►.

Daca este necesar, se pot testa simultan mai

multe perechi de variabile.

Rezultate

Tabelul Sign Test cuprinde numarul diferentelor pozitive, respectiv negative, pentru cazurile din baza de date. În cazul nostru, exista 7 diferente pozitive si nici odiferenta negativa.

Tabelul Test Statistics, prezinta semnificatia testului (p=0.016). Ipoteza de nul serespinge daca valoarea lui p este mai mica decât pragul fixat si care, implicit, este 0.05. În



exemplul dat, ipoteza de nul se respinge, acceptându-se ipoteza cercetarii (motivareastimuleaza memorarea).



Testul Chi-patrat al asocierii (independetei)

Utilizare

Testul chi-patrat este utilizat pentru evidentierea gradului de asociere între douavariabile categoriale.

Exemplu: Sa presupunem ca am evaluat numarul femeilor si al barbatilor diagnosticati cu sindrom de stres postraumatic (PTSD) dintr-un mic oras, afectat de uncutremur de pamânt, iar datele sunt cele din urmatorul tabel de corespondenta:

Femei BarbatiPTSD 20 10 Non-PTSD 30 40

Problema cercetarii este daca incidenta PTSD este în legatura cu caracteristica desex.

Conditii

• Cele doua variabile nu trebuie sa se "intersecteze" (sa nu existe subiecti care safie inclusi în mai mult de o celula de tabel).

• Este recomandabil ca frecventa asteptata sa nu ia valori mai mici de 5 (sau, cel putin, în nu mai mult de 20% din celule).

• Nici o celula nu trebuie sa aiba frecventa asteptata 0..

Aranjarea datelor

Datele pot fi incluse în Data Editor în doua moduri:

a. Sub forma unor înregistrari distincte pentru fiecare caz



Acest mod poate fi extrem de dezavantajos atunci când sunt multe cazuri sau cândexista deja o statistica globala a fenomenului PTSD în raport cu sexul.

b. Sub forma unor înregistrari distincte pentru valorile caracteristicii de sex:

În aceasta situatie, se introduc frecventele PTSD pentru toate combinatiilevalorilor celor doua variabile analizate si frecventele asociate fiecareia. Pentru a serealiza corespondenta dintre variabilele sex si PTSD cu variabila frecv, se apeleaza la procedura Data-Wheight Cases...:

Facem precizarea ca în tabelele de date din imaginile de mai sus variabilele aufost codificate numeric cu 1 respectiv 2, atât pentru sex cât si pentru PTSD, valorile fiindetichetate. Faptul ca în celule apar etichetele si nu valorile, se obtine prin setarea Data-Value Labels.

Procedura Chi-patrat accepta si variabile de tip caracter ( string ) dar reamintimrecomandarea de principiu ca toate variabilele sa fie declarate de tip numeric.

Procedura: Statistics-Summarize-Crosstabs...

Casetele de configurare sunt urmatoarele:



• În caseta principala Crosstabs se trec variabilele analizate în lista Row(s),respectiv Columns(s). Pot fi analizate mai multe perechi de variabile simultan.Rezultatul analizei nu depinde de modul de plasare a variabilelor pe linie sau pecoloana. Daca de doreste crearea unui grafic al corespondentei dintre variabile, seva bifa si Display clustered bar charts.

• În caseta Statistics se bifeaza Chi-Square.• În caseta Cell Display se bifeaza Counts-Observed ; Percentages-Row, Column,

Total si Residuals-Unstandardized (bifarea optiunilor este în functie deinformatiile pe care le doreste analistul).

Rezultate

Imaginea prezinta tabelul de corespondenta, având pe linii valorile caracteristiciide sex iar pe coloane valorile aferente variabilei PTSD. În celulele tabelului se aflavalorile solicitate prin configurarea casetelor. Vom exemplifica pentru celula

"feminin/da":

• Count 20 indica numarul femeilor cu PTSD• %within Sex 40.0% indica procentul femeilor care au manifestat PTSD din totalul

femeilor • %within PTSD indica procentul femeilor cu PTSD din totalul celor care au

manifestat PTSD• % of Total indica procentul femeilor cu PTSD din totalul subiectilor • Residual indica diferenta dintre numarul de femei cu PTSD (frecventa observata)

si frecventa asteptata (în cazul nostru, +10)



În tabelul Chi-Square Tests citim valoarea testului Pearson Chi-Square (16.66) si,în special, pragul de semnificatie al acestuia (p=0.000 care va fi citit ca p<0.001). Încazul particular al acestui exemplu, unde tabelul de corespondenta este format din doualinii si doua coloane, valoarea lui chi-patrat poate fi luata de pe linia Continuitiy

Correction (15.04) cu valoarea aferenta a pragului de semnificatie: p<0.001.

Valoarea testului chi-patrat fiind mai mica decât nivelul alfa 0.05, se respingeipoteza de nul si se confirma ipoteza cercetarii: exista o incidenta mai mare a reactiei destres postraumatic la femei decât la barbati.

În raportarea statisticii chi-patrat va fi inclusa valoarea gradelor de libertate (df) sinumarul cazurilor

Valoarea lui chi-patrat se raporteaza cu doua zecimale

Graficul de tip bara permite vizualizarea relatiei dintre variabile.

Testul Chi-patrat pentru corespondenta ( goodness of fit )

Utilizare

Testul chi-patrat pentru gradul de corespondenta se utilizeaza atunci când dorimsa comparam frecventele observate unei singure variabile categoriale cu frecventeleasteptate, dinainte cunoscute.

Exemplul 1: Avem evaluarea nivelului de inteligenta pe cinci categorii valorice,de la foarte slab, la foarte bun si dorim sa stim daca distributia acestor calificative se

supune curbei normale, procentele aferente pe curba normala fiind cunoscute (2.5%,14%, 67%, 14%, 2.5%).

Exemplul 2: Am solicitat unui grup de tineri sa îsi exprime genul muzical preferatsi am obtinut frecvente diferite pentru mai multe genuri de muzica. Problema este dacadiferentele dintre aceste frecvente sunt semnificative, presupunând ca, daca nu ar fisemnificative proportiile preferintelor pentru genurilor muzicale, ar trebui sa fie identice(adica, daca ar fi trei genuri, fiecare ar trebui sa întruneasca un procent de 33.33%).



Aranjarea datelor

Vom exemplifica pe o situatie corespunzatoare celui de-al doilea exemplu. Bazade date se poate constitui fie prin înregistrarea fiecarui caz în parte (având o variabila pentru genul muzical si o alta pentru exprimarea preferintei fata de acesta), fie, ca în

exemplul anterior, prin înregistrarea rezultatelor sintetice si ponderarea variabilei gen_muz cu variabila frecv prin operatia Data-Weight cases...:

Procedura: Statstics-NonParametric-Tests-Chi-Square...

• În caseta Chi-Square Test se trece variabila analizata în zona Test

Variable List .

• Se bifeaza All categories equal , acesta fiind modelul în raport cu caredorim sa testam frecventele variabilei analizate

• Daca am fi dorit sa le testam în raport cu alte frecvente cunoscute, am fi bifat Values si, apoi, am fi introdus pe rând acele frecvente (scriindu-le îndreptul lui Values si înregistrându-le prin butonul Add )

Rezultate

Cele doua tabele cu rezultate din Viewer prezinta:



• Frecventele observate, frecventele asteptate si valorile reziduale (diferentadintre frecvente) pentru cele trei genuri muzicale

• Valoarea testului Chi-patrat al corespondentei (12.17), df(2) si p=0.002

Acest rezultat justifica respingerea ipotezei de nul si acceptarea concluziei casubiectii diferentele dintre preferintele pentru cele trei genuri muzicale sunt semnificativesi nu se datoreaza variatiei întâmplatoare de esantionare.

SPSS

Documents

Transcript of SPSS