Post on 28-Apr-2017
DANIELA DUMBRĂVEANU
STATISTICA APLICATĂ ÎN TURISM
ISBN
2
DANIELA DUMBRĂVEANU
STATISTICAAPLICATĂ ÎN TURISM
EDITURA UNIVERSITARĂ
3
Bucureşti, 2006
4
5
Capitolul 1
CUANTIFICAREA CA METODĂ DE STUDIU, CERCETARE ŞI CUNOAŞTERE
A REALITĂŢII SOCIO GEOGRAFICE
1.1. Introducere
Geografia1 în mod asemănător altor discipline de
studiu sau ştiinţe presupune un volum vast de informaţie
cu care operează, de ordin cantitativ sau calitativ în funcţie
de natura elementelor componente, a proceselor sau
fenomenelor dintr-un mediu anume. În marea majoritate a
cazurilor, elementele componente ale unui mediu
geografic fie el fizic sau antropic, fenomenele şi procesele
din natură şi societate în mod normal şi de la sine iau
forma unor grupuri, ansambluri sau mulţimi de elemente
individuale, de acelaşi fel, care în mod cauzal pentru
apariţie, evoluţie şi dezvoltare necesită condiţii
asemănătoare sau urmează aceleaşi legi. Astfel geografia
ca ştiinţă este pusă foarte adesea în situaţia de a generaliza
1Turismul este considerat şi tratat de către autoare din punct de vedere conceptologic ca disciplină componentă a Geografiei Umane, fapt pentru care în acest capitol nu va face referiri directe la acesta.
6
informaţia de detaliu în vederea cunoaşterii ansamblului,
de a descrie, examina şi analiza critic informaţia precum şi
de a perfecţiona ori prognoza tendinţe, practici, procese,
fenomene.
Cunoaşterea cantitativă sau statistică reprezintă un
domeniu la care geografia (la fel ca toate celelalte ştiinţe
sociale sau ale pământului) face apel, utilizând în mod
selectiv acele metode statistice cu aplicabilitate, eficacitate
şi relevanţă. Autoarea doreşte să sublinieze în beneficiul
studenţilor geografi, faptul ca nu toată statistica este utilă
sau relevantă ca metodă de analiză în studiile şi cercetările
geografice. La baza faptului că geografia face apel la
cunoaşterea statistică utilizându-i metodele stă în primul
rând faptul că cele două au ceva important în comun:
obiectul de studiu este adesea acelaşi – fenomenele de
masă, sau în limbaj geografic, procesele şi fenomenele
care implică un volum forte mare de elemente componente
sau informaţie.
În plus potrivit logicii formale din ştiinţă atât
inducţia cât şi deducţia reprezintă două laturi unitare ale
procesului de cunoaştere ştiinţifică în general,
7
completându-se, condiţionându-se reciproc (Ţarcă, 1998),
laturi specifice ambelor domenii.
Cunoaşterea geografică ca şi cea statistică a
fenomenelor complexe se realizează pe baza
caracteristicilor, a faptelor observate (metoda observaţiei,
fundamentală în geografie şi statistică) sau constatate fie
în realitate, pe teren, într-o experienţă, anchetă, sau într-o
bază de date, urmărindu-se:
desprinderea elementelor semnificative din
aparent întâmplătorul joc al realităţii,
determinarea unei structuri în domeniul aleator
identificarea unei legităţi, tendinţe, teorii ,etc,
confruntarea unei teorii cu realitatea
Este bine cunoscut faptul că legile ştiinţifice odată
stabilite nu exprimă cu certitudine cum se comportă natura
sau societatea în general, ci descriu pur şi simplu modul
cum se comportă acestea între anumite limite de timp, de
spaţiu şi modul cum probabil se vor comporta din nou în
condiţii similare. De asemenea este bine cunoscut faptul
că ştiinţele particulare, printre care şi geografia, nu ar fi
ajuns în mod real pe o treaptă superioară de dezvoltare
fără cuantificare, matematizare (aceasta reprezentând de
8
fapt un stadiu evolutiv). Această teorie a fost verificată
mai întâi în cazul ştiinţelor naturii iar mai recent şi în
cazul ştiinţelor sociale, ceea ce plasează geografia (atât
prin ramura sa umană cât şi prin cea fizică) în sfera
necesităţii combinării metodelor proprii de cunoaştere cu
cele ale statisticii prin prisma faptului că, esenţa statisticii
ca ştiinţă constă în capacitatea ei de a generaliza trăsăturile
şi relaţiile dintre procesele şi fenomenele colective din
viaţa economică şi socială, care există în mod obiectiv şi
în reflectarea lor în noţiuni generale, regularităţi, legităţi şi
legi (Ţarcă, 1998). Ori aceste aspecte reprezintă stadii
fundamentale în cunoaşterea geografică finală.
Practic atât cunoaşterea geografică cât şi cea
statistică, pornind de la real la abstract, cercetează
fenomene concrete sau colectivităţi de fenomene pentru a
stabili ce au în comun, esenţial şi stabil în vederea
determinării categoriilor, regularităţilor, legităţilor.
Ambele cunoaşteri putând lua forme inductive sau
deductive în funcţie de realitatea fenomenelor având ca
scop final cunoaşterea tendinţei de evoluţie, prognoza şi
luarea de decizii.
9
Revenind la fenomenele de masă ca obiect de studiu
comun atât geografiei cât şi statisticii se vor prezenta în
continuare o serie de aspecte care vin să argumenteze în
detaliu ce au în plus în comun cele două discipline sau
ştiinţe.
Esenţa fenomenelor sau a proceselor de masă este
pusă în evidenţă de numărul mare cazuri individuale din
componenţă. De exemplu, natalitatea unei populaţii
necesită un număr mare de naşteri de copii vii sau
formarea unei structuri de cazare în turism necesită un
număr mare de hoteluri de mai multe categorii.
Fenomenele de masă se caracterizează prin definiţie
prin variabilitate, concept de bază în statistică. În cazul
geografiei acesta se numeşte diversitate sau complexitate.
Elementele componente sau indivizii, până la un anumit
nivel, asemănători, prezintă şi anumite caracteristici
distinctive. Diferenţierile, mai mult sau mai puţin
semnificative constituind obiectivul înregistrării prin
măsurătoare (Isaic-Maniu şi colab; 2003). Astfel
fenomenele de masă sunt rezultatele acţiunii unui număr
mare de factori de influenţă cu componenţă şi natură
diferită, asociaţii cu sensuri, direcţii şi intensităţi multiple.
10
Ele sunt de asemenea deterministe, produse în condiţii de
incertitudine, forma lor individuală de manifestare fiind
diferită.
Legitatea de manifestare a fenomenelor de masă nu
poate fi studiată şi verificată decât la nivelul întregului
ansamblu de cazuri individuale, în nici un caz la nivel de
element component individual.
Astfel studiul cantitativ al fenomenelor de masă
presupune conform lui Isaic-Maniu şi colab., studiul
raportului dintre necesitate şi întâmplare, a raportului
dintre legea statistică (cunoscută şi sub denumirea de lege
stocastică) şi legea dinamică sau a relaţiei dintre modelul
statistic (stocastic) şi modelul determinist (Isaic-Maniu şi
colab; 2003). Deşi cele două legi şi modele fac parte din
metodologia de început a cercetării ştiinţifice fiind
considerate în prezent de către cercetătorii britanici
(autorităţi tradiţionale în domeniul statisticii), uşor
învechite şi depăşite ele rămân importante şi din punct de
vedere geografic datorită aplicabilităţii lor. Studiul relaţiei
dintre ele însă, sau mai bine spus a raportului dintre ele
constituie o tendinţă conceptuală şi de cercetare mai nouă
şi mai eficientă atât în statistică cât şi în geografie.
11
Legea statistică reprezentând „una din formele
manifestării legăturilor generale ale fenomenelor din
natură şi societate” (Ţarcă, 1998, p 43), constituie în
acelaşi timp un instrument de verificare şi cercetare a
tuturor proceselor şi fenomenelor din geografie. Spre
deosebire de legea dinamică , care este o formă de
manifestare a fenomenelor individuale luate ca atare, legea
statistică „exprimă legătura necesară dintr-un ansamblu de
procese şi fenomene, care se găsesc într-o anumită
interacţiune, aparent întâmplătoare, şi nu dintre două
fenomene oarecare sau două cazuri ale unui fenomen”
(Ţarcă, 1998, p 43). Fiecare unitate sau element
component dintr-un fenomen sau ansamblu se comportă
întâmplător în raport cu întregul, cu ansamblul de
fenomene. Legea statistică nu determină mişcarea sau
comportarea fiecărui element, ea este rezultanta medie a
numeroaselor acţiuni individuale ale ansamblului de
fenomene, ca tendinţă predominantă, ca medie a unui
număr mare de abateri întâmplătoare. Deoarece în
geografie interesează adesea, mai ales în ultimul timp şi
formele de manifestare ale unităţilor individuale ale
ansamblului de fenomene, aceasta trebuie să aplice şi să
12
ţină cont şi de legea dinamică cu atât mai mult cu cât,
mediul geografic în ansamblu său este un mediu foarte
dinamic, caracterizat printr-o structură complexă şi vastă
dar în acelaşi timp cu elemente individuale cu
personalitate şi trăsături puternice, la rândul lor, dinamice.
Practic geografia trebuie să ţină cont în cercetare de faptul
că între legea statistică şi cea dinamică există o legătură
dialectică (conform unor autori, precum Ţarcă, 1998), o
legătură determinantă. Ele se corelează, se întrepătrund,
determinând împreună manifestarea fenomenelor,
mişcarea lor, tendinţele de evoluţie. Devine astfel evident
de ce geografia, în mod special ramura sa, geografia
umană, pentru a atinge un nivel ridicat de rigurozitate în
cercetare, în verificarea teoriilor sale, mai ales atunci când
este vorba de fenomene de amploare (fenomene de masă)
trebuie să apeleze la cuantificare; urmând practic până la
un anumit nivel metodologia statistică cu care după câte
am demonstrat mai sus are forte multe în comun. Ca
urmare reamintim cititorului student că geografia aplică
selectiv o parte din metodologia şi „instrumentarul”
statisticii, ca necesitate de cuantificare în studiul
anumitor procese şi fenomene atât fizice dar mai ales
13
umane. Reamintim aceluiaşi cititor că în geografie
cuantificarea reprezintă doar un stadiu în demersul său
din cercetare, geografia mai ales cea umană nu îşi
bazează metodologia exclusiv, exhaustiv, finalmente pe
cuantificare. În concluzie, cuantificarea, statistica în
geografia umană trebuie privită ca un instrument, unul
important, de analiză, de verificare a legităţilor şi
teoriilor privind procesele şi fenomenele de amploare,
indiferent de natura acestora.
Statistica nu posedă până în prezent o definiţie
universal valabilă sau universal acceptată ca satisfăcătoare
deşi un domeniu cu propria sa istorie şi proces de evoluţie
(separat de matematică) este considerat de unii ştiinţă iar
alţii o artă. A apărut în secolul XVII ca urmare a
preocupării unor matematicieni pentru probabilităţi, s-a
dezvoltat mai întâi ca sub-domeniu al matematicii
devenind un domeniu de sine stătător în secolul XIX
(Ebdon, 1977).
Termenul de statistică posedă în general 4
semnificaţii diferite sau înrudite:
a) acela de activitate practică (colectarea, măsurarea,
obţinerea, înregistrarea, informaţiei, a datelor);
14
b) metodologie cantitativă (ansamblul metodelor şi
procedeelor de culegere, prelucrare şi analiză a datelor);
c) metodă cantitativă (modul de cercetare a
fenomenelor de masă, pe baza exprimărilor cantitative cu
ajutorul unui sistem specific de reguli, principii de
cunoaştere şi transformare a realităţii obiective);
d) disciplină ştiinţifică de învăţământ.
Ca rezultat domeniul statistic nu este cu siguranţă
unul restrâns.
1.2. Funcţiile statistice
Din punct de vedere al demersului geografic
statistica prezintă importanţă şi relevanţă devenind un
instrument de cercetare indispensabil prin prisma celor 4
funcţii fundamentale ale sale şi care în realitate stau la
baza formării unor ample categorii metodologice de sine
stătătoare:
Funcţia descriptivă. Cantitatea de
informaţie, de date care uneori iau formă numerică, cu
care operează geografia, în special cea umană, este foarte
mare şi în continuă creştere. Aplicarea principiului
descrierii statistice a reprezentat şi mai reprezintă o fază
15
(faza exploratorie) a dat naştere statisticii descriptive al
cărui scop principal şi specific este acela de a sintetiza şi
structura într-o manieră cât mai directă şi mai intuitivă
datele şi informaţia, inclusiv caracteristicile acestora. Ori
acest principiu îi este absolut necesar geografiei umane în
cercetare mai ales pentru trecerea de la demersul geografic
descriptiv la cel interpretativ.
Funcţia inducţiei sau inferenţei. Când
obiectul de studiu, informaţia sau datele geografului au
fost obţinute selectiv, ori provin din eşantioane nu din
întreg pe baza acestora sugerându-se ipoteze cu privire la
o posibilă extindere a concluziilor la nivelul ansamblului
implicând astfel probabilitatea ca model de evoluţie se
aplică principiul inferenţei. Acestuia îi revine rolul de a
extinde rezultatele obţinute pe baza datelor din eşantion la
nivelul ansamblului şi de a confirma sau invalida ipotezele
emise a priori sau formulate după faza exploratorie. Există
astfel o statistică inductivă sau inferenţială a cărei
metodologie se bazează practic pe teoria probabilităţilor
şi prezintă caracteristici specifice precum, caracterul
aleator al eşantionării, generalizarea concluziilor prin
marje specifice de eroare, recunoaşterea explicită a
16
nesiguranţei predicţiilor. Aceasta presupune în esenţă,
măsurarea incertitudinii rezultatelor şi calcularea riscurilor
pe care le implică luarea unei decizii bazate pe informaţii
care nu sunt exhaustive. Obiectivul ei constă în a estima
parametrii unei colectivităţi şi în testarea ipotezelor
statistice.
În limbaj geografic statistica inductivă sau
inferenţială poartă această denumire ca urmare a faptului
că porneşte de la o presupunere (inducţie) stabilită
(demonstrată) ulterior şi verificată printr-un rezultat.
În geografia umană şi nu numai, specialiştii lucrează
preponderent cu date selective (obţinute prin generare) şi
care nu sunt exhaustive. Adică aceste date reprezintă
eşantioane (sunt obţinute eşantionat) dintr-o populaţie
întreagă; sunt şiruri finite; ”incomplete” deoarece
totalitatea lor absolută este imposibil a fi obţinută. Ele sunt
datele care nu reproduc perfect şi absolut caracteristicile
populaţiei statistice. Exemplu: comportamentul decizional
în alegerea destinaţiei de vacanţă pentru o anume grupă
de vârstă de turişti sau grupă socială”. A obţine datele
statistice pentru întreaga populaţie , adică toţi potenţialii
turişti fie şi ai unui oraş este aproape imposibil. Se
17
selectează astfel un eşantion reprezentativ asupra căruia se
generează datele statistice necesare pe baza cărora se fac
apoi presupuneri, în funcţie de anumiţi factori şi situaţii
luate în calcul, pentru a se demonstra comportamentul
decizional. Acest comportament poate fi corelat în
evoluţia sau desfăşurarea sa cu anumiţi alţi factori etc.
Selectarea, eşantionarea presupune obligatoriu
probabilitatea existenţei unui anumit grad de eroare în
măsurătoare şi în deducţia finală. Probabilitatea este
conceptul statistic care deosebeşte datele selective sau
eşantioanele (incomplete, nu reprezintă/implică/presupun
toată populaţia fiind obţinute prin eşantionare) de cele
exhaustive (absolute, complete, finite, obţinute în ştiinţele
exacte din măsurători şi care reprezintă/implică/presupun
toată populaţia, nu un eşantion). Prin urmare datele
selective, eşantioanele includ probabilitatea erorii, în timp
ce datele exhaustive NU.
În concluzie funcţia deductivă presupune că: în
condiţii specifice, probabilitatea unei presupuneri/ipoteze
(deducţii) efectuate pe baza unor eşantioane de populaţie ,
să fie validă, iar statistica inductivă sau inferenţială pune
18
la dispoziţie o serie de metode şi tehnici de operare pentru
validare sau invalidare.
Profunzimea analizei statistice este dată în
continuare de îndeplinirea funcţiei semnificaţiei.
Funcţia semnificaţiei. Semnificaţia statistică
reprezintă una dintre cele mai puternice funcţii din punct
de vedere al ştiinţelor socio-geografice. Aceasta stabileşte
dacă diferenţa sau relaţia dintre două seturi de date
selective (eşantioane) este semnificativă. Constituie una
dintre cele mai utile funcţii statistice în sprijinul geografiei
umane mai ales în studiile cu caracter social. Semnificaţia
statistică presupune că diferenţa observată la două
eşantioane poate semnifica ceva anume sau altceva – de
exemplu: că există pur şi simplu o diferenţă între
eşantioanele respective sau că diferenţa apărută la nivelul
eşantioanelor este rezultatul întâmplării sau procedurii de
eşantionare.
Semnificaţia statistică presupune astfel operaţia de
comparaţie la nivel de eşantion. Eşantioanele, aşa cum
arătam mai devreme presupun prin natura lor o marjă de
eroare dar mai presupun şi o marjă de variaţie faţă de un
19
interval pe care se găsesc valorile efective ale populaţiei.
Astfel undeva apare o diferenţă!
Pentru a fi siguri că diferenţa dintre valorile în
eşantion reflectă o diferenţă reală de valori în populaţii,
la mărimile comparate ea trebuie să depăşească mărimea
intervalului pe care se află, cu o anumită probabilitate,
valorile din populaţie. Cu alte cuvinte o diferenţa este
semnificativă dacă depăşeşte eroarea maximă admisă,
adică ea nu poate fi pusă (integral) pe seama fluctuaţiilor
fireşti de eşantionare.
În caz contrar se va spune că diferenţa nu este
semnificativă. O diferenţă care nu este semnificativă
reflectă o deosebire despre care nu se poate spune cu o
probabilitate suficient de mare că este reală, acesta nu
înseamnă că ea nu este reală.
La o privire mai atentă asupra informaţiei privind
statistica inductivă cât şi semnificaţia statistică se poate
observa că ambele operează cu eşantioane şi ambele
implică probabilitatea de eroare fapt pentru care trebuie
menţionat că ambele operează într-o mare măsură cu
conceptul de probabilitate şi teoria probabilităţilor.
Statistica în sine nu poate trage concluzii, nu poate emite
20
deducţii asupra unor populaţii pe baza unor eşantioane şi
nu poate demonstra că o relaţie este semnificativă sau nu.
Ceea ce poate face este a ne pune la dispoziţie informaţie
suficient de obiectivă pe baza căreia să ne emitem
propriile deducţii şi trage propriile concluzii, inevitabil
subiective. Statistica ne poate pune la dispoziţie
probabilitatea cu care în condiţii specifice o relaţie
înseamnă ceva adică devine semnificativă; probabilitatea
cu care în condiţii specifice deducţiile efectuate pe baza
unor eşantioane sunt valide.
Funcţia prognozării. Cea de a patra funcţie
majoră a statisticii ne dă posibilitatea de face prognoze sau
predicţii, ori să explicăm în prezent anumite procese sau
fenomene trecute. O predicţie sau prognoză exactă este
posibilă numai atunci când se operează cu procese sau
fenomene deterministe, prin care se înţelege totalitatea
proceselor sau fenomenelor care produc rezultate identice
în condiţii şi circumstanţe identice. Un exemplu de astfel
de proces îl constituie acceleraţia gravitaţională. Înarmaţi
cu valoarea acceleraţiei gravitaţionale (în condiţiile căderii
unui obiect în vid) putem prognoza cu certitudine la ce
distanţă va cădea un obiect după un timp dat, sau care va fi
21
viteza acestuia la un moment anume din căderea sa în
aceleaşi condiţii de vid.
Cum cel mai adesea în geografie procesele şi
fenomenele nu au o natură deterministă, acestea se
comportă în general în feluri şi moduri diferite fapt pentru
care arareori putem spune cu certitudine absolută care vor
fi rezultatele sau tendinţele unui proces chiar şi în condiţii
strict controlate. Cu toate acestea pornind de la ideea că
procesul nu are loc la întâmplare (din hazard absolut,
deoarece s-a demonstrat că procesele şi fenomenele
geografice se supun legii cauzalităţii) ar putea fi posibil a
se prognoza rezultatul sau tendinţa acestuia în condiţiile
unei anumite combinaţii de circumstanţe şi cu anumite
limite. De exemplu dacă partea de suprafaţă a unei stânci
se erodează cu o anumită rată medie de centimetri pe an
este posibil a se prognoza cu o oarecare aproximaţie cu
câţi centimetri se va fi erodat suprafaţa stâncii în viitori 5
ani.
În concluzie statistica pune la dispoziţia geografului
prin metodologia şi principiile sale de cercetare şi analiză
informaţie asupra stabilităţii şi regularităţii trecutului sau
prezentului unui proces, lucru care ajută la efectuarea unor
22
prognoze probabile. Astfel predicţia unui anumit
eveniment sau prognoza asupra rezultatului sau tendinţei
unui proces, va implica întotdeauna o anumită cantitate de
intuiţie. Faptul că procesul respectiv s-a comportat cu
certitudine într-un anumit fel în trecut (zile, luni, ani, chiar
şi secole) NU face imposibilă, adică NU EXCLUDE
posibilitatea ca acesta să-şi schimbe total comportamentul
în secunda următoare.
1.3. Noţiuni statistice fundamentale cu semnificaţie în geografia umană1
Statistica operează cu o serie de termeni de
specialitate care reprezintă noţiuni fundamentale şi care
sunt utilizate ca atare şi de geografie atunci cât se apelează
la cuantificare sau metodologia statistică pentru analiză.
Geografia umană însă, are un punct de vedere mult mai
general în ceea ce priveşte terminologia acestor noţiuni
fundamentale. Ea nu le defineşte şi nu se preocupă de
teoria lor, le preia ca atare, le utilizează selectiv şi cel mai
adesea operează cu o terminologie paralelă mult mai de
1 Noţiunile statistice fundamentale în turism sunt considerate componente conceptuale ale disciplinelor umanisteîn general şi deci şi din geografia umană.
23
ansamblu în desemnarea noţiunilor statistice dar derivată
din aceasta. Ca urmare autoarea consideră necesară o
trecere în revistă a noţiunilor fundamentale ale statisticii.
Acestea vor fi prezentate în linii mari dar nu selectiv şi în
corelaţie cu semnificaţia acestora din punct de vedere
geografic, uman şi turistic.
De asemenea înainte de a trece la prezentarea
acestora autoarea consideră necesar să menţioneze faptul
că în literatura de specialitate, statisticienii utilizează
denumiri variate pentru aceeaşi termeni, lucru care vine să
sublinieze necesitatea prezentării şi explicării cel puţin a
noţiunilor statistice fundamentale de interes pentru
geografi şi lucrătorii în turism. Prezentarea care urmează
se bazează pe punctele de vedere ale autorilor M Ţarcă din
lucrarea intitulată, „Tratat de statistică aplicată”, A. Novak
din „Statistica şi sondajul de opiniei”, A. Isac-Maniu,
„Statistica”, D. Ebdon, „Statistics in Geography, a
practical approach”; I F. Clegg, „Simple statistics; a
course book for the social sciences”.
În studiul cantitativ al fenomenelor de masă,
statistica foloseşte un număr mare de noţiuni şi concepte.
Dintre acestea unele au caracter general şi formează
24
vocabularul de bază a statisticii iar altele au caracter
specific. Cele fundamentale sunt: colectivităţile statistice,
unităţile statistice şi caracteristicile unităţilor statistice.
a) Colectivităţile statistice
Colectivităţile statistice mai sunt cunoscute şi sub
denumirea de populaţii statistice constituind principală
formă sub care se delimitează şi definesc fenomenele de
masă din natură, societate sau economie.
Conform autorului M. Ţarcă, „Colectivitatea
statistică reprezintă... un ansamblu de fenomene
individuale, care au una sau mai multe caracteristici
esenţiale comune, bine definite, proprii tuturor unităţilor ei
componente” (Tarcă, 1998, p. 51). Cu alte cuvinte ea
desemnează elementelor (inclusiv când acestea iau forma
unor procese sau fenomene) de aceeaşi natură, sunt
asemănătoare sau sunt omogene din anumite puncte de
vedere sau criterii.
Conform aceluiaşi autor colectivităţile se
caracterizează prin existenţa lor de sine stătătoare, bazată
pe asociaţie, pe legături între elementele lor componente,
statistica ocupându-se numai de acele colectivităţi care
25
sunt finite, a căror existenţă este obiectivă şi concretă sau
faptică (Ţarcă, 1998).
Colectivităţile statistice se prezintă în forme foarte
variate, delimitându-se adesea în timp şi spaţiu din punct
de vedere al conţinutului şi formelor lor de organizare.
Există numeroase exemple de colectivităţi statistice dintre
care amintim: populaţia unui oraş sau a unui judeţ,
numărul de naşteri la o anumită populaţie într-o perioadă
determinată de timp, numărul căsătoriilor dintr-un oraş
dintr-o perioadă de timp determinată, cantităţile de
precipitaţii dintr-o regiune pe o perioadă de timp
determinată, debitul unui râu pe o perioadă de timp
determinată, parcul de autovehicule ce deservesc tur
operatorii dintr-un judeţ sau o ţară, agenţii turistice dintr-
un judeţ sau ţară, unităţi de cazare dintr-un judeţ sau ţară,
etc. În concluzie colectivităţile statistice pot fi formate din
fiinţe, lucruri sau manifestări ale acestora fie că sunt ele
fapte sau evenimente.
În funcţie de tipul de legi şi intensitatea cu care
acestea acţionează asupra elementelor unei colectivităţi,
aceasta prezintă un anumit grad de omogenitate dar şi o
tipologie a omogenităţii colectivităţilor. Astfel există
26
colectivităţi mai mult sau mai puţin omogene, mai largi
sau mai restrânse alcătuite sau nu din subcolectivităţi . Din
punct de vedere al tipologiei sale omogenitatea
colectivităţilor poate fi privită sub trei aspecte principale;
calitativ, de timp şi de spaţiu rezultând în principiu
omogenitate:
calitativă dată de însuşirea elementelor
componente care le definesc. De exemplu în
funcţie de sex populaţia unei ţări poate fi
omogen masculină sau feminină sau în funcţie
de vârstă, formată din tineri, adulţi sau vârstnici
ori despre o colectivitate privind produsele
turistice oferite în funcţie de destinaţie acestea
pot fi interne sau externe etc.
de timp pentru colectivităţile ale căror
elementele componente au însuşirea de a
aparţine aceluiaşi moment sau perioade de timp.
Condiţia momentului sau perioadei de timp
influenţează evoluţia şi dinamica colectivităţii
respective. De exemplu populaţia unei ţări la un
anume recensământ, numărul de turişti străini
dintr-o ţară într-o anume perioadă etc.
27
de spaţiu cunoscută şi sub denumirea de
omogenitate teritorială reprezintă însuşirea
elementelor componente ale unei colectivităţi de
a aparţine unui anumit teritoriu şi care imprimă
anumite trăsături colectivităţii respective.
Colectivităţile statistice se mai clasifică după natura
lor în colectivităţi de fiinţe sau lucruri cunoscute sub
denumirea de colectivităţi statice, colectivităţi de fapte sau
eveniment cunoscute sub denumirea de mişcare (Ţarcă,
1998). Iar în funcţie de gradul de cuprindere
colectivităţile pot fi generale (totale, complete) sau
parţiale (de selecţie).
b) Unităţile statistice.
Elementele componente ale colectivităţilor care se
înregistrează cu însuşirile lor poartă denumirea de unităţi
statistice, ele sunt purtătoare de informaţie sau sunt
subiecte logice ale informaţiei deoarece asupra lor se
efectuează nemijlocit observaţia. Ele sunt supuse
observării statistice şi înregistrării însuşirile lor
corespunzătoare. Ca urmare ele mai sunt întâlnite şi sub
28
denumirea de unităţi de observare care trebuiesc clar
definite, identificate pe teren, înregistrate şi apoi analizate.
Unităţile statistice mai pot fi privite ca fapte simple
elemente care fac obiectul observaţiei indiferent de natura
lor, cu condiţia de a răspunde cerinţelor unei definiţii
precise, ele putând fi fiinţe, fapte, evenimente, opinii,
comportamente, atitudini, obiceiuri etc. După numărul de
caracteristici necesare pentru definirea, descrierea şi
exprimarea lor acestea pot fi:
Unităţi statistice simple reprezintă unităţile
formate dintr-un singur element indivizibil, cum
ar fi spre exemplu persoana în cazul
recensământului, copilul născut viu în cadrul
natalităţii, turistul cazat într-o unitate hotelieră,
vizitatorul unui muzeu, biletul de tratament într-
o staţiune balneoclimaterică etc.
Unităţile statistice complexe reprezintă unităţile
formate din două sau mai multe unităţi simple,
constituite ca rezultat al organizării sociale şi
economice a colectivităţii. De exemplu: familia
formată dintr-un număr oarecare de membrii,
grupa de studenţi din cadrul unui an, a unei secţii
29
dintr-o facultate, clasa de elevi într-o şcoală,
hotelul format dint-un anumit număr de camere
duble ori simple şi un anumit număr de
apartamente, grupul de turişti dint-o anume
excursie, familia aflată într-o anume categorie de
vacanţă, agenţia turistică, turoperatorul etc.
Conform autorului Ţarcă (1998) definirea clară şi
precisă a unităţilor statistice este o condiţie de bază în
cercetare deoarece este necesară ajungerea la înregistrări
de date comparabile. Definiţia unică pe întregul arealului
cuprins în cercetare stă la baza comparaţiilor ce trebuie
făcute între aspectele diferite pe care îmbracă un anumit
fenomen în teritorii diferite, în funcţie de condiţiile
specifice ale dezvoltării (Ţarcă, 1998).
Acelaşi autor denumeşte totalitatea unităţilor
statistice care fac parte din cadrul unei colectivităţi volum
al unităţii respective. Volumul colectivităţilor se
determină prin identificare, înregistrare, numărare şi
totalizare a unităţilor care aparţin prin definiţie
colectivităţilor respective.
c) Caracteristicile unităţilor statistice
30
Aceasta desemnează însuşirea, proprietatea, trăsătura
comună unităţilor unei colectivităţi statistice reţinută într-
un program de cercetare pentru a fi înregistrată şi care
capătă accepţiuni diferite de la o unitate la alta sau de la
un grup de unităţi la altul.
„Însuşirea sau trăsătura comună tuturor unităţilor
statistice ale unei colectivităţi, ale cărei valori diferă, în
general, de la o unitate statistică la alta sau de la un grup
de unităţi la altul, poartă denumirea de caracteristică
statistică”(Ţarcă, 1998, p.55). De obicei fiecare unitate
statistică are mai multe caracteristici dintre care numai una
sau numai unele prezintă interes pentru un studiu sau
cercetare.
Caracteristicile statistice sunt cel mai frecvent
întâlnite sub denumirea de variabile statistice iar valorile
înregistrate de aceeaşi caracteristică/variabilă statistică se
numeşte variantă.
Exemple bine cunoscute de variabile statistice din
geografia umană spre exemplu, sunt: populaţia unui judeţ
cu caracteristicile privind: sexul, vârsta, calificarea, starea
civilă, naţionalitatea, religia etc sau turiştii sosiţi pentru
anumită perioadă într-o staţiune balneară, cu caracteristici
31
privind: vârsta, sexul, starea civilă, nivelul de pregătire
profesională, venitul lunar, domiciliul stabil etc.
Înainte de a trece la clasificarea variabilelor statistice
este necesară o concluzionare a teoriei noţiunilor
fundamentale statistice. Pentru aceasta autoarea va apela la
limbajul matematic tocmai pentru a evidenţia esenţialul în
ceea ce reprezintă de fapt cele trei noţiuni fundamentale
amintite. Ca urmare din punct de vedere statistic cele trei
noţiuni statistice fundamentale prezentate mai sus
(colectivitatea/populaţia, unitatea şi caracteristica/varia-
bila) se exprimă astfel: pentru un caz general valabil al
unei populaţii statistice (totale sau în eşantion în funcţie
de cercetare/studiu dacă este totală sau selectivă) notată cu
P , unităţile statistice ale acesteia sunt descrise printr-un
număr k (unde k 1) de elemente (sau cu alte cuvinte ea
este alcătuită din k unităţi), fiecare dintre acestea fiind
definită după cum urmează:
Printr-o mulţime de valori individuale denumite
variate sau un spaţiu de observaţii (M)
Printr-o structură algebrică specifică SA
existentă pe spaţiul de observaţii (M)
Printr-o aplicaţie „u” a lui P pe M
32
Variabile statistice sau caracteristicile unităţilor
statistice se pot clasifica din mai multe puncte de vedere:
a) După provenienţa, modul de colectare şi treapta
de cercetare
b) După importanţa lor
c) După numărul de valori pe care le pot lua
d) După modul de exprimare şi natura lor
e) După modul cum reflectă realitatea
După provenienţa, obţinerea şi treapta de
cercetare/studiu utilizate, se clasifică în două grupe:
primare şi secundare sau derivate
Caracteristicile primare ale variabilelor statistice
reprezintă acele însuşiri ale căror valori rezultă direct din
înregistrarea sau măsurarea statistică a colectivităţii, de
pe teren sau din realitate. Ele se exprimă de regulă în
mărimi absolute sau prin cuvinte fiind adesea întâlnite
direct sub denumirea de variabile statistice primare.
În geografie acestea sunt cunoscute ca fiind generate,
colectate prin măsurătoare sau observaţie directă,
indiferent de forma, tehnica şi metodologia acestora
(măsurătorii, observaţiei), efectuată de cercetător sau
33
persoanele abilitate direct pe teren. Din punct de vedere
geografic sunt incluse în categoria „date” şi mai sunt
cunoscute şi sub denumirea de date primare sau empirice
(unde termenul empiric indică faptul că au fost colectate
direct din realitate de către cercetător, persoana care
efectuează studiul sau persoana abilitată, şi nu s-a
intervenit asupra lor în nici un fel, conţin informaţie
brută). Nu este exclusă prezenţa informaţiei care nu ia
formă numerică din această categorie.
Caracteristicile secundare sau derivate rezultă din
prelucrarea informaţiilor, măsurătorilor, determinărilor
obţinute prin înregistrarea statistică ele putând fi
exprimate prin mărimi absolute, medii sau relative. Practic
acestea rezultă în urma unei intervenţii de un anume gen
(mai mult sau mai puţin complex) ca de exemplu a
aplicării de modele, metode sau simple operaţii de calcul
statistic ori estimări, comparaţii, evaluări. Ele sunt adesea
întâlnite sub denumirea de variabile statistice secundare
sau derivate.
În geografie sunt cunoscute ca fiind generate,
colectate de altcineva, conţinând un anume grad de
intervenţie asupra lor şi fiind publicate într-o formă sau
34
alta. Terminologia geografică utilizează în marea
majoritate a cazurilor denumirea de date secundare sau
derivate pentru această categorie de variabile şi nu exclude
din această categorie prezenţa informaţiei care nu ia formă
numerică. (Vezi tabelul 1 din anexa 1.1.)
După importanţa lor în procesul cunoaşterii şi
cercetării caracteristicile sau variabilele statistice pot fi
esenţiale, care definesc colectivitatea şi sunt prezente la
toate unităţile componente, şi ne esenţiale sau caracter
întâmplător.
După numărul de valori pe care le pot lua (niveluri
sau variante) caracteristicile sau variabilele statistice se
împart în două grupe: variabile alternative sau binare şi
variabile nealternative. Variabilele alternative sau binare
sunt acele însuşiri ale unităţilor statistice care nu pot lua
decât două valori ca de exemplu sexul (masculin,
feminin), mediul (fizic sau antropic), mediul antropic
(rural, urban) etc. Variabilele nealterntive reprezintă
trăsături ale unităţilor statistice care pot lua mai mult de
două niveluri sau valori. În marea majoritate a cazurilor
avem de a face cu variabile nealternative iar de regulă
când nu se face nici o specificaţie privind numărul de
35
niveluri sau valori ale unei variabile se presupune automat
prin aceasta una nealternativă.
După modul de exprimare şi natura lor,
caracteristicile sau variabilele statistice se pot împărţi în
două grupe principale: variabile numerice cunoscute şi
sub denumirea de variabile cantitative (care pot fi: de
timp, de spaţiu) şi variabile atributive sau calitative (sau
de conţinut).
Caracteristicile sau variabilele cantitative
reprezintă însuşiri ale unităţilor, care prin însăşi natura lor
sunt măsurabile şi se pot exprima cifric, numeric sau
cantitativ; spre exemplu: vârsta vizitatorilor unui muzeu,
numărul personalului hotelier, numărul de vehicule dintr-
un parc auto, valoarea unui sejur de 10 zile pe litoral,
înnoptările la un hotel, gradul de ocupare al unei unităţi de
cazare, număr locuri cazare,etc.
Caracteristicile cantitative reprezintă rezultatul unei
măsurători pentru care se pot defini relaţii de egalitate şi
însumare. (Ţarcă, 1998). Uneori o caracteristică cantitatvă
poate fi privită sau transformată calitativ în scopul
simplificării şi sintetizării realităţii (exemplu: veniturile
36
relaizate de o agenţie de turism într-o anumită perioadă de
timp pot fi împărţite ăn trei categorii: mici, medii, mari).
Transformarea nu este posibilă şi invers.
Atât caracteristicile cantitative cât şi cele calitative
pot desemna diverse stări exprimate prin valori numerice.
Acestea se numesc variante sau modalităţi. (Vezi
exerciţiul 1 din anexa 1.1.)
Măsurarea unei caracteristici pe care o posedă o
unitate statistică constă în atribuirea unui scor, care arată
în ce grad ea posedă o proprietate coresunzătoare
caracteristicii respective prin utilizarea unei scări de
măsură. Variabilele asupra cărora se poate aplica acelaşi
ansamblu de operaţiuni de prelucrare statistică se numesc
variabile măsurabile pe aceeaşi scară. Se cunosc şi se
utilizează patru scări de măsurare: scara intervală , cea
proporţională, scara nominală, scara ordinală.
Din punct de vedere pur teoretic statistic
caracteristicile sau variabilele cantitative utilizeaza scările
proporţională şi respectiv intervală. Astfel ele se mai
numesc :
Variabile cantitative metrice , cele care posedă
un zero natural, o origine absolută şi se măsoară
37
cu ajutorul unei scări proporţionale sau de
raport. De exemplu datele statistice utilizate în
meteorologie şi climatologie.
Variabile cantitative scalate , nu posedă un zero
natural, au origine arbitrară şi se măsoară cu
ajutorul unei scări de intervale.
Adesea, în statistică noţiunea de caracteristică
cantitativă se înlocuieşte cu noţiunea de variabilă iar în
geografie cu cea de dată numerică şi respectiv intervală.
Dată fiind natura preponderentă a proceselor şi
fenomenelor de masă din geografia umană, aceasta
utilizeaza în cea mai mare parte variabile cantitative
scalate, intervale.
Trebuie reţinut faptul că un anumit nivel al
caracteristicii poartă denumirea de de variantă a
caracteristicii sau variantă a unei anumite variabile. Din
punct de vedere al naturii variaţiei, variabilele cantitative
se împart în două categorii: discrete (discontinue) şi
continue.
Se spune despre o variabilă că este discretă dacă
variantele ei posibile pe un anumit interval sunt valori
izolate, cazul cel mai frecvent de variabile discrete fiind
38
acela în care valorile ei posibile sunt numere întregi. De
exemplu numărul vizitatorilor la Muzeul Naţional în luna
decembrie nu poate fi exprimat decât printr-un număr
întreg pentru intervalul respectiv.
Dimpotrivă, o variabilă este continuă dacă variantele
ei posibile sunt în număr infinit în cadrul unui anumit
interval. De exemplu: distanţa medie parcursă în timpul
unei călătorii, consumul mediu al unui anumit produs,
gradul de ocupare a unei anumite unităţi de cazare într-o
anumită peioadă. Variabilele continue continue pot fi
exprimate prin orice fel de număr.
Caracteristicile sau variabilele atributive ori
calitative reprezintă variabilele statistice ale căror variante
(modalităţi) reprezintă diferite rubrici ale unui
nomenclator stabilit astfel încât acestea să fie
incompatibile şi exhaustive. Ele reprezintă însuşiri ale
unităţilor statistice care se exprimă atât numeric cât şi prin
cuvinte (în cazuri excepţionale prin imagini) ca de
exemplu: starea civilă a populaţiei, destinaţii de vacanţă,
percepţia unui eşantion de populaţie asupra a ceva anume,
gradul de satisfacţie privind un produs turistic sau
rezultatele unor teste, opinii privind un anume eveniment,
39
proces, fenomen, gradul de satisfacţie, calitatea unui
produs turistic, etc. (Vezi exerciţiul 2 din anexa 1.1.)
Din punct de vedere pur teoretic statistic
caracteristicile sau variabilele calitative utilizează scările
nominale şi respectiv ordinale. Astfel ele se mai numesc :
Variabile calitative nominale , când acestea pot
fi doar numite, reprezintă simple etichete de
identificare. Astfel scala nominală are mai mult
funcţia de procedeu de clasificare decât de
măsurare dând numai o relaţie de echivalenţă
asupra cărora nu se pot face operaţii aritmetice
elementare. (Vezi exerciţiul 3 din anexa 1.1.)
Variabile calitative ordinale , când acestea pot fi
clasificate după o dimensiune, direcţie sau
criteriu de proprietate considerată, în sensul că
unitatea statistică posedă grade diferite ale
proprietăţii considerate.Cu acestea nu se pot
efectua operaţii aritmetice. (Vezi exerciţiul 4 din
anexa 1.1.)
În geografie şi nu numai, aceste variabile se întâlnesc
sub denumirea simplificată de date numerice cantitative
(intervale şi proporţionale) sau calitative (nominale şi
40
ordinale). Cu menţiunea că forma de exprimare cifrică a
unei variabile are dimensiune (variantă, nivel) atributivă
sau calitativă încazul datelor cantitative.
După modul cum reflectă realitatea variabilele
statistice pot fi clasificate în două categorii: certe (precise)
cele cu valori observate, rezultate dintr-un raţionament a
posteriori în cadrul analizei retrospective şi; aleatoare cu
valori care nu au fost observate, rezultate dintr-un
raţionament a priori în cadrul analizei retrospective.
41
Anexa 1.1.Tabelul 1
Numărul de vizitatori în staţiunile balneoclimaterice româneşti în perioada 1985 - 2000
secundară
Destinaţiile de vacanţă ale unui eşantion de 100 de studenţi ai Facultăţii de Geografie, Bucureşti
primară
Reprezentarea Spaniei ca destinaţie turistică într-un eşantion de 10 broşuri diferite primarăComportamentul spaţial al turiştilor din staţiunea Poiana Braşov în perioada 6 - 21 decembrie 2002
primară
Contribuţia turismului la PNB-ul ţarii în perioada 1970 – 2000
secundară
Ghidul ‚Lonely Planet’ pentru Europa de Est
secundară
Percepţia cetăţenilor britanici asupra României ca destinaţie turistică
secundară
Ilustrate ale staţiunii Mamaia din perioada 1970 – 2000
primară
Preţul unui pachet de vacanţă de 2 săptă-mâni în Grecia la 10 agenţii turistice diferite
primară
Cantitatea de precipitaţii din judeţul Braşov din anii 1980 - 2000
secundară
Preţul ceramicii artizanale din pieţele bucureştene
primară
Preţ cazare la Hotelurile din Judeţul Mehedinţi
prim.+ sec.
Mesaje conţinute de materialele promoţionale turistice ale Ungariei
secundară
42
Exerciţiul 1
Priviţi cifrele de mai jos în relaţie cu ceea ce exprimă ele. Sunt asemănătoare sau diferă? Prin ce?
Cele mai recente destinaţii turistice:
1 = Croaţia2 = Ungaria3 = SUA4 = Maramureş5 = Egipt
Exprimaţi gradat nivelul de satisfacţie al celei mai recente vacanţe, unde:
1 = excelent2 = bine3 = satisfăcător4 = nesatisfăcător5 = rău
Numărul de vizitatori la muzeul memorial „Liviu Rebreanu” în ultimii 5 ani:
125.000138. 258132.289120.610125.000
Da / Nu
Diferenţa 1............................................................................................
Diferenţa 2............................................................................................
Diferenţa 3............................................................................................
43
Tabelul 2
Durata medie a sejurului pentru vizitatorii oraşului Sighişoara
cantitativă
Densitatea schiorilor de pe pârtia... din Poiana Braşov
cantitativă
Modul de prezentare al Franţei ca destinaţie turistică de către Rough Guide
calitativă
Mesaje conţinute de materialele promoţionale turistice ale Ungariei
calitativă
Numărul de vizitatori la Muzeul Militar Central din Bucureşti
cantitativă
Impresiile de călătorie ale vizitatorilor Indiei în ghidurile de călătorie din secolul XIX
calitativă
Strategiile de dezvoltare turistică prevăzute de Ministerul turismului pentru patrimoniul istoric
calitativă
Poluarea vizuală din Parcul Natural Porţile de Fier
calitativă
Observaţii asupra comportamentului vizitatorilor Muzeului Ţăranului Român
calitativă
Proporţia vizitatorilor americani din hotelurile oraşului Manchester
cantitativă
44
Exerciţiul 2
Observaţi cifrele de mai jos. Exprimă o caracteristică cantitativă sau una calitativă?
Destinaţii de vacanţă
1 = Austria2 = Tenerife3 = Poiana Braşov4 = Grecia
Forme de turism
1 = odihnă2 = tranzit3 = afaceri4 = conferinţe
Organizaţii turistice statutare din Marea Britanie
1 = ETB2 = WTB3 = STB4 = NITB5 = BTA
Exerciţiul 3
Determinaţi destinaţia preferată de vacanţă a unui eşantion de populaţie utilizând întrebarea: „Unde v-aţi petrecut o parte din vacanţa de iarnă?”, şi răspunsurile următoare:1 = la munte2 = la mare3 = acasă cu familia4 = la bunici5 = în străinătate6 = în vizită la rude sau prieteni7 = alte situaţiiCe fel de variabile reprezintă cifrele variantelor de răspuns?
45
Exerciţiul 4
Ce fel de variabile reprezintă cifrele variantelor de răspuns?
Indicaţi nivelul de satisfacţie atins în timpul ultimei vacanţe de iarnă
5 = excelent4 = bine3 = în regulă2 = nesatisfăcător1 = plictisitor; rău
Oraşul Caracal nu este foarte căutat ca destinaţie turistică:
5 = foarte de acord4 = de acord3 = fără opinie2 = nu sunt de acord1 = total împotrivă
46
Capitolul 2
PROCESUL DE GRUPARE A INFORMAŢIEI GEOGRAFICE DE ORDIN STATISTIC
2.1. Gruparea informaţiei geografice statistice – concept teoretic
Primul pas în utilizarea informaţiei geografice de
ordin statistic în care se regăseşte şi informaţia strict
turistică, după colectare este acela de grupare,
sistematizare sau clasificare a evenimentelor şi
fenomenelor pe care le-au studiat încă din antichitate.
Acesta a aparut ca urmare, mai ales a posibilităţilor
limitate de stocare a unui volum mare de fapte şi de
cunoştiinţe, descoperite, în toate etapele istorice ale
dezvoltării umanităţii, în condiţiile în care acesta a
reprezentat un proces în continuă creştere. Asfel apariţia şi
dezvoltarea metodei grupărilor este strâns legată de
necesitatea de a ordona, ierarhiza şi sistematiza
fenomenele şi faptele din natură şi societate după criterii
logice.
47
Începutul a presupus recurgerea la clasificările
taxonomice care necesitau un criteriu uşor de aplicat, cum
ar fi succesiunea cronologică a faptelor şi evenimentelor.
Primele aspecte teoretice privind clasificările au fost
întocmite în Grecia antică de către Platon (427 î.e.n. – 348
î.e.n.), având la bază dihotomia, (diviziunea la doi
membri), considerat principiul raţional al orcărei
clasificări. Ulterior acest principiu a fost criticat de către
Aristotel ( 384 î.e.n. – 322 î.e.n care a susţinea că în
realitate, cel mai frecvent, clasificarea dihotomică
superficială şi dificil de aplicat (Ţarcă, 1998).
Gruparea informaţiei statistice a continuat să
intereseze şi să constituie o dispută în ceea ce priveşte
acurateţea ei ştiiţifică. Metoda grupărilor, apărută de
asemenea din antichitate a fost permanent subiect de
perfecţionare până în prezent. Aspectele conceptologice
fundamentale ale grupărilor nu au fost încă deplin
clarificate şi contin (Ţarcă, 1998).
Geografia Umană şi ramura sa, turismul operând cu
aspecte măsurabile ale fenomenelor colective, reprezintă
domenii interesate de clasificarea noţiunilor, principiilor şi
metodelor de grupare a unităţilor unei colectivităţi, în
48
vederea eficientizării prelucrării, analizei şi sintezei lor.
Aceasta urmeză însă tendinţa generală de operare a
statisticii.
Informaţiile geografice statistice obţinute prin
înregistrarea caracteristicilor unităţilor cercetate prezintă,
în general, un număr mare de variante care nu permite
formarea unei imagini concrete şi complete asupra unor
colectivităţi şi de aceea este necesară ordonarea unităţilor
în funcţie de nivelul de dezvoltare al caracteristicilor
esenţiale. Dacă numărul variantelor unei variabile
statistice este foarte mare, aceasta nu dă posibilitatea
evidenţie-rii anumitor regularităţice se manifestă în cadrul
colectivităţii la diferite grupe de unităţi.
„Împărţirea colectivităţilor statistice în grupe
omogene de unităţi, după variaţia uneia sau a mai multor
caracteristici eseţiale, comune tuturor unităţilor
colectivităţii, poartă denumirea de grupare statistică,
stratificare sau clasificare, iar grupele se mai numesc
straturi sau clase” (Ţarcă, 1998, p. 74).
Gruparea informaţiei geografice reprezintă un stadiu
foarte important în special în ceea ce priveşte informaţia
statistică deoarece, de modul cum sunt alcătuite grupele,
49
depinde în mare parte, cunoaşterea tipurilor calitative care
se conturează în cadrul colectivităţilor social-economice,
structura colectivităţilor, conţinutul indicatorilor ce
urmează a fi calculaţi şi pe baza acestora lor a rezultatelor
obţinute. Astfel, orice grupare a unităţilor unei colectivităţi
trebuie să fie precedată de o analiză multilaterală a esenţei
fenomenelor cercetate.
Pornind de la informaţiile sistematizate prin grupare,
se pot obţine indicatori generalizatori, diferenţiaţi pe
grupe, care să permită o analiză stiinţifică a fenomenelor şi
proceselor social-economice, a legăturilor esenţiale dintre
acestea.
Gruparea informaţiei presupune alegerea unui
criteriu care să exprime cel mai clar esenţa fenomenului
studiat şi care răspunde cel mai bine scopului cercetării.
Procesul de grupare statistică a informaţiei
presupune respectarea unor reguli elementare precum:
a) Gruparea unităţilor statistice (respectiv a
variantelor unei variabile) nu este raţională şi nici
avantajoasă decât dacă numărul variantelor variabilei de
grupare este suficient de mare.
50
b) Grupările nu prezintă interes decât în cazul în care
numărul de grupe (clase) este relativ redus (de obicei până
la 15).
c) Numărul de grupe trebuie să fie suficient de mare
pentru a putea a scoate în evidenţă anumite particularităţi
ale distribuţiei unităţilor statistice în cadrul colectivităţii
studiate.
2.2. Tipurile de grupări ale informaţiei geografice statisice
În practică de fapt există o mare diversitate de
grupări ceea ce necesită o clasificare a lor în funcţie de
anumite criterii, cum ar fi natura colectivităţilor şi scopul
cercetării.
a). În funcţie de numărul de caracteristici care stau
la baza grupărilor există: grupări simple şi grupări
combinate sau complexe.
Grupările simple iau naştere în urma aplicării unei
singure caracteristici de grupare, de exemplu, gruparea
unităţilor de cazare după numărul salariaţilor, în anul 2000
(tabelul 2.1.)
51
Regrupând unitaţile de cazare pe intervale de variaţie
mai mari (vezi ultima coloană a tabelului 2.1.) se poate
obţine o imagine a tipurilor calitative care se diferenţiază
în cadrul colectivităţii. Astfel, se disting tipurile:
• unităţi mici, care cuprind pană la 200 de salariaţi;
• unităţi mijlocii, având numărul salariaţilor între
201 şi 1000;
• unităţi mari, în care lucrează între 1001 şi 5000
salariaţi;
• unităţi foarte mari, care au numărul salariaţilormai
mare de 5000.
Tabelul 2.1. Distribuţia unităţilor de cazare din judeţul Mehedinţi după numărul salariaţilor şi total număr cazaţi la sfârşitul anului 2000
Unităţi
cazare
Salariaţi Total număr cazaţi
Valori
absolute %
Valori
absolute %
<2 1 0,7 24288 1,9 1,9
2 -5 4 2,9 162505 5,2 15,9
5 -10 6 4,5 391386 10,7
52
10 – 20 15 10,2 723116 18,9
53,820 – 30 24 16,9 592538 14,3
30 – 50 38 27,2 768760 20,6
>50 46 34,1 1039263 28,4 28,4
TOTAL 143 100,0 3701856 100,0 100,0
Sursa: Direcţia judeţeană de statistică Mehedinţi
Grupările simple sunt utile pentru caracterizarea
structurii colectivităţilor, pentru determinarea tendinţei de
concentrar a fenomenelor, pentru evidenţierea tipurilor
calitative care se conturează în dezvoltarea fenomenelor şi
pentru rezolvarea altor probleme ale cercetării statistice,
dar nu permit studierea legăturilor existente între
fenomene. Acest neajuns se înlatură cu ajutorul grupărilor
combinate.
Grupările combinate utilizează două sau mai multe
caracteristici, de exemplu, gruparea unităţilor de cazare
după numărul de salariaţi şi după mărimea numărul total
de cazaţi, gruparea salariaţilor după vârste, sexe şi medii
sociale, gruparea cazaţilor după domiciliu, numărul de
înnoptări etc. În cadrul procesului de grupare combinată,
colectivitatea se împarte în grupe după o anumită
53
caracteristică, apoi aceste grupe se împart în alte grupe
mai mici după o altă caracteristică şi aşa mai departe. Deci
numărul grupelor creşte o dată cu numărul caracteristicilor
de grupare considerate.
În statistica aplicată şi cu precădere în turism pentru
a se evita divizarea în exces a colectivităţilor se aleg cel
mult trei sau patru caracteristici de grupare, iar pentru
fiecare caracteristică (de grupare) nu se formează un
număr prea mare de grupe. Grupările combinate se
utilizează, în general, pentru cercetarea fenomenelor
complexe între care există o legătură reciprocă. De
exemplu, populaţia unei ţări înregistrată cu ocazia unui
recensământ, poate fi grupată în mod combinat astfel:
după mediul social în care trăieşte, se poate împărţi
în populaţia urbană şi populaţia rurală;
atât populaţia urbană cât şi cea rurală se poate
împărţi pe sexe în populaţia masculină şi populaţia
feminină;
la rândul lor populaţia masculină şi cea feminină,
astfel obţinute se poate împărţi în funcţie de
caracteristica stare civilă în patru grupe mai
omogene: necăsătorit, căsătorit, divorţat şi văduv.
54
Binenţeles că gruparea ar putea continua, în acest
caz, mai departe după alte caracteristici sociale şi
demografice. În mod similar se procedează cu informaţia
turistică.
b) Conţinutul caracteristicilor de grupare reprezintă
un alt criteriu utilizat în întocmirea de grupări,obţinându-
se următoarele grupări: după caracteristici de timp, după
caracteristici de spaţiu şi după caracteristici calitative.
Grupările statistice după caracteristici de timp
permit efectuarea analizei dependenţei fenomenelor
cercetate de timp şi evidenţierea tendinţei lor centrale de
dezvoltare de lungă durată, determinarea şi separarea
oscilaţiilor sezoniere şi a celor ciclice, pentru fenomenele
care poartă acest caracter şi constituie informaţia de bază
pentru efectuarea prognozelor. În cazul grupărilor după o
caracteristică de timp, unităţile colectivităţii se
repartizează în grupe după timpul în care au apărut, au
existat sau au suferit un anumit eveniment.
Grupările după caracteristici de spaţiu se utilizează
în practică pentru caracterizarea dezvoltării fenomenelor
în profil teritorial, de exemplu: gruparea turiţtilor după
destinaţie, numărul mediu al angajaţilor în turism per
55
unitate teritorială, volumul comerţului exterior pe ţări,
populaţia lumii pe ţări, producţia principalelor produse de
export pe ţări etc.
Grupările după o caracteristică calitativă se
utilizează în statistica aplicată pentru studierea structurii
diferitelor colecticvităţi şi uneori a tipurilor calitative care
se separă în cadrul acestora, iar în acest caz se numesc
grupări tipologice. De exemplu, gruparea tur-operatorilor
după numărul angajaţilor, structura turiştilor pe sexe,
medii, grupe de vârstă, categorii de destinaţie, structura
fondurilor de dezvoltare naţionale etc.
c). Forma de exprimare a caracteristicii reprezintă
un alt utilizat în grupare pentru diferenţiere, grupările
putându-se împărţi în două categorii:
• grupări după caracteristici calitative, exprimate
prin cuvinte, numite şi grupări tipologice sau
clasificări;(vezi capitolul 1, variabile calitative)
• grupări după caracteristici cantitative exprimate
numeric;(vezi capitolul 1, variabile cantitative).
La rândul lor grupările după caracteristici
cantitative pot fi de două feluri, după cum variaţia lor este
discretă sau continuă. În cazul unor caracteristici discrete
56
gruparea se poate face, de regulă, pe variante ale acesteia,
iar în cazul unor caracteristici continue, pe intervale de
variaţie.
2.3. Intervalele utilizate în grupare
Adesea procesele şi fenomenele evoluează sub
aspectul nivelului unor caracteristici prezintând un număr
foarte mare de variante, iar gruparea unităţilor după
variante ar duce la o divizare a colectivităţii într-un număr
foarte mare de grupe mici, fără nici o semnificaţie.Înastfel
de situaţii se procedează la reunirea colectivităţii în grupe
pe anumite intervale de variaţie. Fiecare interval are o
limită inferioară şi o limită superioară. În funcţie de
natura colectivităţilor şi scopul urmărit în cercetare, se pot
stabili intervale egale sau neegale de grupare .
Numărul de intervale de grupare, considerat pentru
o anumită variabilă continuă, depinde de mărimea
preciziei măsurătorilor, de natură şi volumul colectivităţii
studiate şi de scopul cercetării. Stabilirea unui număr mare
de intervale poate determina apariţia unor neregularităţi
accidentale, datorită numărului redus de unităţi cuprinse în
fiecare interval, dimpotrivă, considerarea unui număr
57
foarte mic de intervale poate determina o pierdere de
informaţie. Între aceste două situaţii extreme de precizie
iluzorie şi costisitoare – dată de un număr foarte mare de
intervale mici – şi informaţia insuficientă există în mod
logic un număr optim de intervale. Stabilirea numărului de
grupe este rezultatul unui compromis care depinde, mai
ales, de natura colectivităţii cercetate. În funcţie de natura
caracteristicii studiate, numărul optim de intervale se
situează în general între 10 şi 15.
Un interval de grupare ( ) i= este
descris de trei elemente:
mărimea sau amplitudinea intervalului de
grupare:
a centrul intervalului de grupare:
x
densitatea intervalului de grupare:
d
În cazul intervalelor neegale, d permite mai buna
apreciere a greutăţii specifice (a pondereii relative) a
58
unităţilor statistice care îi aparţin faţă de volumul total al
colectivităţii.
Mărimea intervalelor este determinată de necesitatea
obţinerii de efective comparabile – adică de acelaşi ordin
de mărime – de la un interval la altul. În practică se
folosesc atât intervale egale ca mărime, cât şi intervale
neegale.
Limitele intervalelor trebuie să fie întotdeauna valori
simple, de regulă numere întregi sau rotunjite.
În cazul unor intervale egale de grupare se
recomandă, în literatura de specialitate, determinarea
acestora după formula lui H.A.Sturges:
d =
în care:
d = mărimea intervalului de grupare;
x varianta maximă a caracteristicii de grupare;x varianta minimă a caracteristicii de grupare;N = numărul unităţilor colectivităţii cercetate.
Cu ajutorul acestei formule se stabileşte, în funcţie
de numărul unităţilor colectivităţii cercetate N, mărimei
intervalelor d în care se pot grupa variantele unei
59
caracteristicipentru a limita volumul calculelor şi nu a
pierde din informaţie. Numitorul formulei mai sus
prezenate, reprezintă tocmai numărul intervalelor de
grupare k.
Dacă se cunoaşte numărul de intervale egale de
grupare k pentru o anumită colectivitate, atunci mărimea
acestora d se poate determina cu ajutorul formulei:
d
Din această relaţie rezultă că, atunci când se
cunoaşte mărimea intervalelor de grupare d ,numărul
acestora k se va determina astfel:
k
Trebuie să precizăm că asemenea formule de
stabilire a mărimii intervalelor de grupare, cum este cea
elaborată de statisticianul american H. Sturges, au mai
mult o valoare orientativă şi nu pot, în nici un caz, să
suplinească analiza cantitativă a fenomenului cercetat.
Aplicarea în mod mecanic a acestei formule poate să ducă
la rezultate nesatisfăcătoare în practică. De regulă, pentru
fenomenele în curs de formare şi dezvoltare, se recomandă
60
a se utiliza intervale neegale de grupare, mai mici către
partea inferioară şi mai mari spre partea superioară (Ţarcă,
1998).
O altă problemă a grupărilor pe intervale este
stabilirea limitelor intervalelor de grupare.
Se disting mai multe cazuri:
a. când limita superioară face parte din
interval( tabelul 2.2. sau tabelul 2.3.)
Tabelul 2.2.
Caracteristica Numărul unităţilor
0-5 1
5-10 4
10-15 6
15-20 4
20-25 1
Total 16
61
Tabelul 2.3.
Caracteristica Numărul unităţilor
0
5
10
15
20
25
1
4
6
4
1
Total 16
b. când se precizează în mod explicit limitele intervalelor
de grupare:
Tabelul
Caracteristica Numărul unităţilor
0,1-5,0 1
5,1-10,0 4
10,1-15,0 6
15,1-20,0 4
20,1-25,0 1
Total 16
62
Desigur, cea mai precisă modalitate de stabilire a
limitelor intervalelor este varianta b , dar ea nu se
utilizează în mod obişnuit la una din formele variantei a.
În activitatea statistică se întâlnesc şi situaţii în care
nu se cunoaşte una dintre limitele intervalelor marginale
(limita inferioară a primului interval sau limita superioară
a ultimului interval). Dacă în cercetare este absolut
necesară cunoaşterea acestor limite, se va recurge la
obţinerea informaţiilor suplimentare cu privire la
colectivitatea cercetată sau se vor utiliza mijloace indirecte
de estimare, numai în cazul în care prima modalitate este
inaplicabilă.
63
Capitolul 3
INFORMAŢIA GEOGRAFICĂ DE ORDIN STATISTIC – PREZENTARE
ŞI REPREZENTARE GRAFICĂ
3.1. Seriile de repartiţie - terminologie, importanţă şi tipologie
Datele geografice de ordin statistic iniţiale, obţinute
în urma observării fenomenelor şi proceselor colective, se
prezintă sub formă brută ca o masă neordonată de date.
Înainte ca acestea să fie supuse prelucrării, analizei
ulterioare şi generalizărilor, ele trebuie să fie ordonate,
grupate şi sistematizate, astfel încât să permită obţinerea
unei imagini clare asupra colectivităţii la care se referă şi
să se preteze la calcule algebrice ulterioare.
Ca rezultat al grupării şi centralizării datele statistice
se sistematizează cu ajutorul unor tabele, sub forma a două
şiruri paralele de date, dintre care unul reprezintă
variantele sau intervalele de vatiaţie ale unei
caracteristici(variabile), iar celălalt, numărul de unităţi
64
statistice corespunzătoare fiecărei variante (sau fiecărui
interval de variaţie), numit frecvenţă.
Să considerăm, pentru exemplificare, o colectivitate
de fenomene constituită din n unităţi statistice pentru care
se înregistrează un anumit număr de caracteristici. Pentru
fiecare caracteristică X, Y,...Z se pot înregistra k niveluri
distincte ( x , x ,...,x ,...,x ), .....(z , z ,...,z ,....,z ), a căror
succesiune poate fi apariţiei lor, în ordinea mărimii lor
sau la întâmplare (fără un criteriu bine determinat). Un
anumit nivel al caracteristicii (o anumită variantă a unei
variabile) x se poate întâlni fie la o singură unitate
statistică, fie la mai multe unităţi. Numărul unităţilor
statistice n care poartă un anumit nivel x al caracteristicii
se numeşte frecvenţă absolută, deoarece se exprimă în
mărimi absolute.
Dacă se împarte fiecare frecvenţă absolută n la
volumul total al colectivităţii, se obţine frecvenţa relativă,
notată cu f , care se poate exprima sub formă de coeficienţi
sau în procente.
65
3.2. Seriile de repartiţie unidimesionale
Prezentarea paralelă a celor două şiruri de date x şi n
sau x şi f poartă denumirea de serie de repartiţie sau
distribuţie statistică unidimensională ( după o singură
caracteristică) sau distribuţie empirică unidimensională.
Seriile de repartiţie caracterizează fenomenele sub aspect
static şi prezintă distribuţia unităţilor unei colectivităţi în
funcţie de variaţia unei variabile calitative de grupare,
prezintă deci structura colectivităţilor.
Suma frecvenţelor absolute ale nivelurilor
individuale este egală cu volumul colectivităţii la care se
referă seria , iar suma frecvenţelor relative este
egală cu unitatea:
sau
unde f = şi f
66
Un anumit nivel al caracteristicii împreună cu
frecvenţa lui reprezintă un termen al seriei (x , n ) sau (x ,f
).
Dacă n = n = n = ....= n
= ......= n = constant t, atunci se poate renunţa în practică
la scrierea celui de al doilea şir n ,iar şirul x poartă
denumirea de serie de repartiţie simplă.
În general, frecvenţele n sunt diferite unele de altele
(aceasta nu exclude egalitatea unora dintre ele) şi este
necesar să se menţină cel de al doilea şir de valori, iar
această prezentare paralelă a celor două şiruri de valori
poartă denumirea de serie de repartiţie cu frecvenţă.
Datele statistice sistematizate cu ajutorul seriilor de
repartiţie constituie un element esenţial al sistemului
informaţional statistico-economic.
Alături de distribuţiile empirice unidimensionale
există şi distribuţii teoretice, care corespund unei anumite
legi de probabilitate cu o singură variabilă. Distribuţiile
empirice iau naştere pe baza unor experienţe practice şi au
un caracter statistic, de aceea se mai numesc şi distribuţii
statistice.
67
Distribuţiile empirice ale fenomenelor reale din
natură şi societate sunt studiate de către statistica aplicată,
în timp ce distribuţiile teoretice sunt studiate de către
calculul probabilităţilor şi statistica matematică.
Între disribuţiile teoretice şi cele empirice există o
strânsă legătură. De multe ori este suficientă înlocuirea
cuvântului probabilitate cu cel de frecvenţă pentru a se
trece de la o demonstraţie privind o anumită proprietate a
unei distribuţii teoretice la demonstraţia privind
proprietatea analogă a unei distribuţii empirice.
Datele statistice, sistematizate cu ajutorul
distribuţiilor empirice, constituie un element esenţial în
cadrul cercetării staistice pe baza căruia se pot determina
indicatorii derivaţi.
Frecvenţele empirice se pot cumula din aproape în
aproape, ajungându-se astfel la stabilirea distribuţiilor
frecvenţelor cumulate. Fie că este vorba de frecvenţa
absolută sau de cea relativă, frecvenţa cumulată a unei
valori empirice x a caracteristicii este egală cu suma
frecvenţelor tuturor valorilor mai mici sau mai mari decât
x , inclusiv aceea a lui x , în funcţie de sensul cumulării
68
N(x ) şi F(x ) respectiv N’(x ) şi F’(x ) în cazul
retrocumulării.
Dacă cumularea se face pornind de la nivelul minim
al lui x spre cel maxim, ultima frecvenţă cumulată este
egală cu totalul frecvenţei seriei şi deci cu volumul
colectivităţii:
N(x ) = F(x ) =
Seriile de repartiţie au o mare răspândire în statistica
social-economică, fiind utilizate pentru a reprezenta
structura diferitelor fenomene sociale şi economice pe
sfere ale economiei naţionale, pe sectoare de activitate, pe
ramuri ale economiei, pe forme de proprietate etc., de
exemplu, distribuţia populaţiei după caracteristici
demografice, sociale, economice etc.
După modul de exprimare a caracteristicii de grupare
(numeric sau prin cuvinte), seriile de repartiţie se pot
împărţi în două categorii:
serii de repartiţie cu caracteristica exprimată
numeric sau cantitativ, numite şi serii cu atribut cantitativ;
(vezi capitolul 1, variabile cantitative).
69
serii de repartiţie cu caracteristica exprimată prin
cuvinte, care se mai numesc şi serii cu atribut calitativ,
(vezi capitolul 1, variabile calitative)..
În cazul unor astfel de serii, frecvenţele (absolute sau
relative) sunt funcţii de anumite intervale, care sunt
compatibile de la un interval la altul, atunci când
intervalele sunt egale şi necompatibile în cazul unor
intervale neegale.
Pentru a deveni compatibile de la un interval la altul,
şi în acest caz se determină anumite mărimi abstracte,
numite frecvenţe transformate, prin împărţirea
frecvenţelor absolute sau a celor relative la mărimea
intervalelor corespunzătoare, astfel:
n = şi f =
unde: n - frecvenţa absolută transformată;
f - frecvenţa relativă transformată;
= x - x
Frecvenţele transformate n şi f se mai numesc şi
frecvenţe unitare sau frecvenţe pe intervale unitare.
70
Tabelul 3.1. Populaţia totală a României pe grupe de vârstă la recensământul din 7 ianuarie 1992
Grupa de vârstă(ani)
Numărul populaţiei
Grupa de vârstă(ani)
Numărul populaţiei
0 – 4 1 613 419 45 – 49 1 173 644
5 – 9 1 653 885 50 – 54 1 347 530
10 – 14 1 914 598 55 – 59 1 363 062
15 – 19 1 916 936 60 – 64 1 232 053
20 – 24 2 042 068 65 – 69 1 029 195
25 – 29 1 255 780 70 – 74 558 656
30 – 34 1 546 138 75 – 79 475 007
35 – 39 1 713 144 80 – 84 303 819
40 – 44 1 527 519 85 şi peste 143 582
Total 22 810 035
Sursa: Anuarul statistic al Românei, CNS, 1993, pp.96 – 98
Termenii seriei iniţiale se pot grupa pe intervale
egale sau neegale, în funcţie de natura fenomenului la care
se referă şi de scopul ce se urmăreşte prin alcătuirea seriei.
Să considerăm acum seria de distribuţie cu
caracteristica exprimată numeric, reperentând gruparea
municipiilor şi oraşelor din România după numărul
71
populaţiei la recensământul din 7 ianuarie 1992 (tabelul
3.2.)
Deci, din cele 260 de oraşe ale României, existente la
data recensământului, un număr de 109 aveau o populaţie
de peste 20 de mii de locuitori, iar 25 de oraşe aveau o
populaţie de peste 100 de mii de locuitori, din care 12
peste 200 de mii de locuitori. Paralel cu dezvoltarea
social-economică a ţării a avut loc o creştere continuă a
gradului de urbanizare, care s-a concretizat în sporirea
numărului de locuitori în localităţile urbane vechi şi în
cele nou înfiinţate, ca şi prin creşterea numărului de oraşe
cu o populaţie mai numeroasă, cu importante implicaţii
asupra structurii populaţiei pe medii.
72
Tabelul 3.2. Distribuţia municipiilor şi oraşelor din România după numărul populaţiei existente la recensământul din 7 ianuarie 1992
Grupe de oraşe după numărul de locuitori
Numărul municipiilorşi oraşelor
Numărul populaţieiPersoane %
Sub 20002000 – 49995000 - 9999
10000 – 1999920000 - 4999950000- 99999
100000 - 199999200000 - 999999
1000000 şi peste
1105486612313111
1 96937 848
414 1731 183 3951 910 0061 723 7131 827 0163 226 1542 067 545
*0,33,39,6
15,413,914,826,016,7
Total 260 12 391 819 100,0
* sub 0,1 % Sursa: Anuarul statistic al României 1993, CNS, Bucureşti, p.91.
Distribuţia municipiilor şi oraşelor din România s-a
făcut pe intervale neegale de grupare, deoarece procesul de
urbanizare în ţara noastră este în curs de desfăşurare. În
procesul complex de transformare a localităţilor rurale în
centre urbane, se diferenţiază o serie de etape cu o anumită
succesiune şi semnificaţie. De aceea este necesar, pentru
oraşele cu un număr redus de locuitori, să se formeze
intervale de grupare mai mici, iar pe măsură ce numărul
locuitorilor oraşelor va creşte , va creşte şi mărimea
73
intervalelor. În general, se poate aprecia că oraşele dintr-
un anumit interval au trăsături şi roluri specifice în viaţa
economico-socială din zonă.
Astfel, oraşele mici sunt fie centre industriale,
comerciale sau agro-industriale nou înfiinţate, fie centre
urbane mai vechi cu importanţă turistică restrânsă. Oraşele
mari –municipiile – concentrează în ele o importantă
activitate economico-socială şi culturală, şi sunt nuclee
puternice de urbanizare pentru zonele din care fac parte.
3.2.1. Seriile unidimensionale de repartiţie şi reprezentarea lor grafică
Pentru a uşura analiza şi generalizarea rezultatelor,
seriile statistice pot fi reprezentate grafic prin intermediul
punctelor, liniilor, suprafeţelor şi a altor forme geometrice,
prin figuri naturale şi simbolice, precum şi cu ajutorul
hărţilor. Această metodă intuitivă, flexibilă şi foarte utilă
pentru lămurirea, interpretarea şi analiza fenomenelor şi
proceselor social-economice, poartă denumirea de metoda
reprezentării grafice a informaţiilor statistice inclusiv
geografice.
74
Reprezentarea grafică a seriilor de distribuţie
urmăreşte să scoată în evidenţă diferite părţi ale
colectivităţii studiate pe baza variaţie caracteristicii şi a
frecvenţelor corespunzătoare. Prin reprezentarea grafică a
acestor serii se obţine o primă imagine asupra formei
distribuţiei, asupra structurii şi modificărilor structurale
în timp şi în spaţiu ale colectivităţii şi se pot determina
anumiţi indicatori.
Graficele utilizate pentru reprezentarea distribuţiilor
statistice sunt numeroase. Forma şi tipul acestora depinde
de natura fenomenului studiat şi de scopul urmărit. Astfel,
în practică, se folosesc: diagrame prin benzi, histograme,
diagrame triunghiulare, diagrame de structură, diagrame
cu figuri naturale, simbolice etc.
Diagramele prin benzi sunt reprezentările grafice
cele mai simple şi foarte răspândite în practică. Lungimea
benzilor este direct proporţională cu indicatorii reprezen-
taţi, iar lăţimea lor este aceeaşi pentru toate benzile dintr-o
diagramă. Aceste diagrame se utilizează în practică mai
ales pentru reprezentarea grafică a seriilor de distribuţie cu
caracteristica exprimată prin cuvinte (fig. 3.1.)
75
Figura 3.1. Diagrama prin benzi
O formă specifică de diagramă prin coloane, utilizată
pentru reprezentarea distribuţiilor statice unidimensionale,
este histograma.
Figura 3.2. Histograma
Pentru construirea pe abscisă, se trece mărimea
intervalelor de variaţie a caracteristicii, respectându-se
76
principiul ca intervale egale să fie repezentate prin distanţe
egale. Pe ordonată se construieşte scara frecvenţelor.
Pentru fiecare termen al seriei se ridică câte un dreptunghi
având baza pe axa absciselor egală cu mărimea
intervalului, iar înălţimea proporţională cu frecvenţa.
Coloanele se construiesc alăturat, iar laturile superioare
formează o linie frântă, în trepte, cu caracter de
continuitate, care oferă o imagine clară asupra formei
distribuţiei. Deoarece suprafeţele coloanelor sunt
proporţionale cu frecvenţe reprezentate, suprafaţa totală a
histogramei este proporţională cu volumul colectivităţii
cercetate.
Un aspect deosebit de important care apare la
ridicarea şi construirea histogramelor, este alegerea
scărilor pe cele două axe de coordonate, deoarece de
mărimea lor şi de raportul dintre ele depinde forma
graficului dar mai ales depinde expresivitatea lor şi
relevanţa pentru procesul sau fenomenul exprimat. Este
astfel necesar un plus de atenţie şi analază deoarece nu
există criterii general valabile şi bine conturate. Se ţine în
general seama de următorul principiu: cu cât mărimea
77
intervalelor pe axa absciselor este mai mare, cu atât
variaţia fenomenului reprezentat apare mai uniformă. În
situaţia inversă intervalele prea mici fărămiţează
dezvoltarea fenomenelor evidenţiind şi variaţiile lor
nesemnificative. Evident, între aceste două situaţii extreme
există o variantă care este cea mai potrivită pentru fiecare
fenomen reprezentat.
La construirea histogramelor se diferenţiază două
cazuri distincte după cum seriile de repartiţie au
intervalele egale sau neegale astfel acestea pot lua forma
diagramelor în trepte.
Figura 3.3. Diagrama în trepte
Poligonul frecvenţelor este un alt tip de grafic
utilizat pentru reprezentarea seriilor de distribuţie cu
atribut cantitativ. El se poate construi în două feluri:
78
Dacă se porneşte de la histograma seriei, atunci,
pentru a obţine poligonul frecvenţelor, se unesc succesiv
mijloacele capetelor de sus ale coloanelor histogramei prin
segmente de dreaptă (fig. 3.4.)
Aria poligonului frecvenţelor este egală cu aria
histogramei pe baza căreia a fost construit , deoarece linia
frântă a poligonului frecvenţelor lasă în afară, din
suprafaţa histogramei, o suprafaţă egală cu cea încorporată
de poligonul frecvenţelor din exteriorul histogramei.
Figura 3.4. Poligonul de frevcvenţe
Poligonul frecvenţelor poate fi construit şi direct pe
baza seriei. În acest scop, de pe axa absciselor, din
mijlocul intervalelor, se ridică perpendiculare (linii
79
punctate) ale căror înălţimi sunt proporţionale cu
frecvenţele respective. Unind, succesiv, prin segmente de
dreapta, capetele de mai sus ale perpendicularelor, se
obţine poligonul frecvenţelor.
Diagramele de structură reprezintă forme speciale
de grafice construite cu ajutorul suprafeţelor
(dreptunghiuri, pătrate, cercuri, semicercuri etc.) şi se
utilizează pentru reprezentarea structurii colectivităţilor şi
a modificărilor structurale intervenite în timp sau în spaţiu.
Principiul de bază de care trebuie să se ţină seama la
construirea graficelor de structură este proporţionalitatea
între mărimea fenomenului cercetat şi mărimea suprafeţei
figurii geometrice folosită pentru reprezentare. Grupele
din cadrul colectivităţii se reprezintă prin porţiuni de
suprafaţă proporţionale cu volumul lor. Modalităţile
concrete de construire a acestor diagrame diferă în funcţie
de figura geometrică de bază.
În cazul folosirii diagramelor prin dreptunghiuri,
suprafaţa acestora trebuie să fie direct proporţională cu
volumul colectivităţilor cercetate, iar grupele din cadrul
colectivităţii se reprezintă prin porţiuni proporţionale din
suprafaţa dreptunchiurilor. Raportul dintre suprafeţele
80
acestor porţiuni şi suprafaţa totală a dreptunghiului trebuie
să fie egal cu raportul dintre volumul fiecărei grupe şi
volumul total al colectivităţii.
Figura 3.5. Diagrame prin dreptunghiuri şi pătrate.
Diagramele de structură prin pătrate se constuiesc
pe baza respectării aceluiaşi principiu al proporţionalităţii
între suprafaţa pătratului şi volumul colectivităţii
prezentate. Pentru aceasta se consideră un pătrat care
reprezintă colectivitatea (100 %) şi apoi acesta se împarte
în 100 de pătrăţele, fiecare corespunzând unui procent. În
continuare, pentru fiecare grupă a colectivităţii, se separă
81
unnumăr de pătrăţele egal cu ponderea prcentuală a grupei
în totalul colectivităţii.
Diagrama de structură prin cerc constă în
reprezentarea structurii colectivităţilor prin sectoare de
cerc. Suprafaţa cercului întreg va fi proporţională cu
volumul colectivităţii de reprezentat:
S = de unde R =
Figura 3.6. Diagrama de structură prin cerc
82
3.3. Seriile de repartiţie multidimensionale
Alături de distribuţiile unidimensionale, în statistică
se utilizează numeroase distribuţii după două, trei sau mai
multe caracteristici. Deoarece frecvenţele în acest caz se
referă la mai multe caracteristici, distribuţiile respective se
numesc distribuţii multidimensionale sau serii de repar-
tiţie multidimensionale.
Cu toate că disribuţiile multidimensionale înglo-
bează, ca un caz particular, distribuţiile unidimensionale,
în studiul lor apar şi anumite probleme specifice care nu
au sens în cazul distribuţiilor unidimensionale, cum ar fi
analiza legăturilor dintre fenomene.
Ca şi seriile de repartiţie unidimensionale, seriile de
repartiţie multidimensionale pot fi teoretice şi empirice.
3.3.1. Seriile de repartiţie bidimensionale
În cazul studierii a două caracteristici ale unităţilor
statistice ale unei colectivităţi, distribuţiile obţinute se
numesc distribuţii bidimensionale sau serii de repartiţie
bidimensionale.
83
Să considerăm o colectivitate formată din n unităţi
statistice, care poartă simultan două caracteristici X şi Y şi
să notăm cu x , x , x ,.....,x ,...., x cele k variante ale
caracteristicii X, cu y , y , y ,...., y ,...., y cele p variante
ale caracteristicii Y. Fie n numărul de unităţi ale
colectivităţii care poartă în acelaşi timp varianta x a
caracteristicii X şi varianta y a caracteristicii Y, deci n
este frecvenţa absolută, iar f frcvenţa relativă de la
intersecţia lui i cu j.
3.3.2. Reprezentarea grafică a seriilor de repartiţie bidimensionale
Distribuţia unităţilor statistice ale unei colectivităţi
după două caracteristici se poate reprezenta grafic în
spaţiul bidimensional sau în cel tridimensional, în timp ce
distribuţiile unidimensionale se reprezintă în plan.
Pentru reprezentarea grafică a distrubuţiilor
bidimensionale se pot utiliza diferite figuri geometrice, cu
scopul de a reda repartiţia în ansamblu prin puncte,
suprafeţe, cercuri, paralelipipede dreptunghiulare etc.
84
Un grafic sugestiv, simplu de construit şi de aceea
des utilizat în practica statistică este diagrama prin puncte
(Figura 3.7a), numită şi diagrama sub forma unui „nor de
puncte”. Pentru construirea acestui grafic, se ia un sistem
de axe rectangulare pe care se înscriu cele două
caracteristici X şi Y, iar fiecare pereche de valori (x ; y )
se reprezintă printr-un punct. Dacă variaţia celor două
caracteristici se prezintă sub formă de intervale, atunci în
planul xoy se construieşte o reţea formată din
perpendicularele ridicate pe cele două axe din punctele
corespunzătoare limitelor intervalelor. Apoi în fiecare
pătrat (sau dreptunghi) al reţelei se construieşte un număr
de puncte egal cu frecvenţa corespunzătoare.
Concentrarea acestor puncte într-o anumită zonă din
planul axelor de coordonate ia forma unui nor, de unde
derivă şi denumirea de nor de puncte (3.7b).
85
Figura 3.7a Diagrama prin puncte
Figura 3.7b
Cu ajutorul acestui grafic se poate aprecia existenţa
unei legături dintre cele două variabile X şi Y , iar în
funcţie de forma norului de puncte se apreciază forma şi
intensitatea acesteia. Astfel, dacă punctele se dispersează
fără nici o regulă în întreg planul xoy, înseamnă că
86
informaţiile empirice pe care le-am reprezentat grafic nu
ne spun nimic cu privire la existenţa vreunei legături între
cele două variabile. Dimpotrivă, concentrarea punctelor
empirice într-o anumită zonă a graficului constituie un
argument în favoarea ipotezei că între variabilele
reprezentate poate exista o anumită legătură.
Un exemplu clasic de reprezentare grafică a
distribuţiilor bidimensionale îl constituie piramida
vârstelor. Cu ajutorul ei se poate reprezenta distribuţia
populaţiei pe vârste şi sexe la un anumit moment. Pentru a
construi un astfel de grafic pe axa verticală se trece vârsta
populaţiei de la 0 la 100 de ani, iar pe orizontală, numărul
populaţiei. Numărul populaţiei de diferite vârste sau grupe
de vârste se reprezintă printr-o bandă a cărei bază mică
corespunde intervalului de vârstă, iar lungimea ei este
proporţională cu numărul populaţiei. Se construiesc, de
fapt, două grafice (histograme) alăturate, câte unul pentru
fiecare sex. Pentru a se putea interpreta mai uşor este
indicat ca pe ambele părţi ale piramidei să se treacă şi anii
de naştere a populaţiei de diferite vârste (fig.3.8). Pentru
exemplificare se prezintă piramida vârstelor populaţiei.
87
Figura 3.8. Piramida vârstelor
3.3.3. Repartiţii tridimensionale
Distribuţiile tridimensionale rezultă din considerarea
a trei caracteristici cantitative sau calitative şi calitative
pentru fiecare unitate statistică.
În cazul unui număr redus de unităţi statistice,
distribuţiile tridimensionale se prezintă sub forma a trei
şiruri de date paralele, câte unul pentru fiecare
caracteristică X, Y şi Z:
88
X: (x , x ,.....,x ,.......,x )
Y: (y , y ,.....,y ,.......,y )
Z: (z ,z ,.....,z ,.......z )
Aceste şiruri de date pot fi eventual ordonate
crescător sau descrescător, după variantele uneia dintre
cele trei variabile.
Ca şi în cazul distribuţiilor bidimensionale, când
numărul unităţilor statistice n este suficient de mare, se
recomandă sistematizarea datelor iniţiale sub forma unei
distribuţii de frecvenţă a celor trei variabile pe variante sau
pe grupe de variante ale caracteristicilor. Se obţine, astfel,
un tabel statistic cu triplă intrare care cuprinde frecvenţele
n ale ansamblului de variante (x , y , z ), (i =1,2,...., p;
j = 1,2,..., q; k = 1,2,...., r) şi frecvenţele marginale n ,
n , n şi n .
3.4. Seriile dinamice
Cunoaşterea ştiinţifică a evoluţiei fenomenelor în
timp constituie o problemă complexă şi deosebit de
importantă. Acest lucru se explică prin faptul că
schimbările în timp care au loc în dezvoltarea
89
colectivităţilor se referă la variaţia volumului şi structurii
lor, la variaţia caracteristicilor proprii diferitelor unităţi ale
lor şi la forma şi caracterul legăturii dintre aceste
caracteristici. Toate aceste schimbări sunt, la rândul lor,
interdependente.
Seriile dinamice, de timp sau cronologice se
caracterizează prin faptul că termenii lor se diferenţiază în
funcţie de o caracteristică de timp.
Ca orice serie statistică, şi cele dinamice se compun
din două şiruri paralele de date. Primul se referă la variaţia
caracteristicii t şi reprezintă diferite momente sau
intervale de timp şi al doilea la nivelurile fenomenului
studiat y .
O caracteristică esenţială a seriilor dinamice o
constituie faptul că ele sunt construite pentru colectivităţi
omogene. Aceasta asigură comparabilitatea indicatorilor
de la o perioadă la alta sau de la un moment la altul.
Seriile dinamice se pot construi pentru perioade de timp
mai lungi sau mai scurte cu condiţia ca, în aceste perioade
să nu fi avut loc modificări calitative importante în cadrul
colectivităţii şi ele servesc pentru caracterizarea evoluţiei
90
fenomenelor individuale sau colective pe diferite trepte
sau etape din dezvoltarea lor.
O altă trăsătură caracteristică a seriilor dinamice
constă în faptul că fenomenele şi faptele sociale şi
economice, oglindite în indicatorii care formează seria,
sunt dependente între ele. Nivelul unui fenomen,
corespunzător unui anumit moment sau perioadă din
dezvoltarea lui, depinde şi de nivelul aceluiaşi fenomen
înregistrat în perioadele anterioare, ca şi de ambianţa în
care a avut loc dezvoltarea.
De aceea, schemele teoretice ale calculului
probabilităţilor – bazate, în general, pe independenţa
fenomenelor – nu sunt aplicate în analiza seriilor
dinamice.
La rândul lor seriile dinamice, după natura
colectivităţii la care se referă, se împart în două categorii
şi anume: serii de momente şi serii de intervale.
Seriile de momente caracterizează variaţia în timp a
colectivităţilor de stări, iar termenii lor reprezintă volumul
acestor colectivităţi înregistrat în diferite momente
succesive ale timpului. De exemplu: volumul stocurilor de
91
produse existent în întreprinderi la începutul fiecărei luni,
numărul populaţiei obţinut cu ocazia diferitelor
recensăminte sau la data de 1 ianuarie a fiecărui an,
numărul animalelor domestice, obţinut pe baza
recensămintelor etc.
Din această serie dinamică se poate constata că
populaţia globului a înregistrat în era noastră un proces de
creştere continuă, mai lent la început, apoi din ce în ce mai
accelerat până în prezent.
Seriile de momente se caracterizează prin faptul că
indicatorii lor succesivi nu se pot însuma, o asemenea
operaţie nu ar avea un conţinut real. Astfel, ar fi lipsită de
conţinut şi în discordanţă cu realitatea însumarea
numărului populaţiei lumii la diferite momente, deoarece o
parte din populaţia care a fost luată în calcul, de exemplu,
în anul 1995, există şi în momentele precedente 1900,
1950, 1960, 1970, 1980 şi 1990.
O altă particularitate a seriilor dinamice de momente
este şi aceea că ele se întocmesc pentru fenomenele a căror
înregistrare nu este posibil să se facă în mod curent-
continuu. Momentele unei astfel de serii pot fi egal sau
92
neegal distanţate între ele şi această particularitate prezintă
interes pentru alegerea celor mai potrivite metode şi
tehnici de calcul şi analiză a seriilor de momente.
Seriile dinamice de intervale se referă la fenomenele
care se înregistrează în mod curent şi cu caracter de
continuitate pe măsura producerii lor, totalizându-se
pentru anumite perioade de timp (zi, săptămână, lună,
trimestru, semestru, an, cinci ani, zece ani etc). De
exemplu, producţia industrială, producţia agricolă,
volumul vânzărilor de mărfuri, numărul născuţilor-vii,
numărul căsătoriilor, numărul divorţurilor, numărul
deceselor etc., se pot totaliza pe perioade de timp
calendaristice.
Deoarece seriile de intervale se obţin prin
înregistrarea curentă-continuă a fenomenelor, indicatorii
statistici care caracterizează nivelul dezvoltării lor pe o
anumită perioadă de timp, se pot cumula din aproape în
aproape, obţinându-se în felul acesta indicatori corespun-
zători unor intervale de timp mai mari.
93
Mărimea intervalelor seriilor dinamice se stabileşte
în funcţie de natura colectivităţilor şi de necesităţile
practice ale analizei statistice.
Din punct de vedere al naturii indicatorilor, care
reprezintă variantele caracteristicii cercetate, seriile
dinamice pot fi de mai multe feluri: serii dinamice
construite din mărimi absolute, serii dinamice construite
din mărimirelative şi serii dinamice construite din mărimi
medii.
Seriile dinamice construite din mărimi absolute
caracrerizează variaţia nivelului absolut al fenomenelor la
anumite date sau pe anumite perioade de timp, mai mult
sau mai puţin îndelungate, ele pot fi de momente sau de
intervale.
Tabelul 3. 3. Populaţia României în anii 1891 – 1996
Data Numărul populaţiei12 februarie31 decembrie31 decembrie31 decembrie29 decembrie6 aprilie
10 000 00011 168 00012 898 000 (recensământ)12 419 00014 280 129 (recensământ) 16 126 063 (recensamânt)
94
25 ianuarie21 februarie15 martie20 iunie5 ianuarie1 iulie3 decembrie1 iulie1 iulie7 ianuarie1 iulie1 iulie1 ianuarie
15 872 624 (recensământ) 17 489 450 (recensământ)19 103 163 (recensământ)20 000 00021 559 910 (recensământ)22 201 38723 000 00023 206 720 23 185 08422 810 035 (recensământ)22 755 26022 730 62222 656 145
Sursa: Recensământul populaţiei şi locuinţelor din 15 martie 1996, vol.I, Partea I-a, DCS, 1969, p.XVII; Anuarul statistic al României 1995, CNS, p.82
Seriile dinamice pot fi construite şi din mărimi
relative, în raport cu o anumită bază fixă sau variabilă a
fenomenelor în diferite momente sau perioade de timp.
Prin urmare şi aceste serii pot fi de intervale sau de
momente. De exemplu: dinamica produsului intern brut,
produsului social, dinamica venitului naţional, dinamica
productivităţii muncii pe un muncitor din industrie,
dinamica populaţiei ocupate, dinamica numărului mediu
scriptic al salariaţilor pentru diferite perioade de timp şi în
95
funcţie de nivelul unui anumit indicator dintr-o anumită
perioadă sau moment considerat ca bază etc.
Prezentăm, pentru concretizare, în paralel două serii
dinamice ai căror termeni se exprimă în mărimi relative, şi
anume dinamica produsului social şi a venitului naţional
creat în România în perioada 1950-1990, în care nivelul
anului 1950 este considerat ca bază.
Seriile dinamice construite din mărimi medii
caracterizează dezvoltarea medie a fenomenelor pe diferite
trepte ale evoluţiei lor, de exemplu, evoluţia numărului
mediu scriptic al salariaţilor din economia ţării noastre în
perioada 1950-1995.
La elaborarea oricărei serii dinamice trebuie să se
respecte anumite condiţii esenţiale care ar putea fi
sistematizate astfel:
compararea nivelului de dezvoltare a fenomenelor
să se efectueze numai pentru perioade de timp egale;
stabilirea mărimii intervalului de timp, în cazul
seriilor de intervale, trebuie să se facă ţinând seama de
natura specifică de dezvoltare a fenomenului respectiv, de
schimbările calitative care se produc în cadrul
colectivităţilor ca şi de necesităţile practice;
96
să se asigure comparabilitatea indicatorilor seriilor
dinamice din punct de vedere metodologic, teritorial, al
preţurilor etc;
orice serie dinamică trebuie să fie construită numai
din indicatori de acelaşi fel (mărimi absolute, mărimi
medii sau mărimi relative).
3.5. Seriile de spaţiu
Seriile de spaţiu sau teritoriale sunt acele serii
statistice în care criteriul de diferenţiere a termenilor lor
este teritoriul sau spaţiul (comuna, judeţul, ţara,
continentul etc.) în care fenomenele au apărut, au existat
sau au suferit un anumit eveniment. De exemplu:
distribuţia pe judeţe a numărului ţi densităţii populaţiei, a
numărului salariaţilor, a principalilor indicatori ai
industriei, a producţiei totale de fructe, a volumului
vânzărilor de mărfuri cu amănuntul, populaţia şi densitatea
ei pe continente, pe ţări, durata medie a vieţii pe tări etc.
Înregistrarea elementelor unei colectivităţi pe diferite
unităţi teritoriale se efectuează fie pentru o anumită
perioadă de timp sau la un moment dat, fie în funcţie de
97
natura fenomenelor cercetate şi acest fapt trebuie precizat
în titlul tabelului care prezintă seria.
3.5.1 Reprezentarea grafică a seriilor de spaţiu
Distribuţia spaţială a fenomenelor se poate
reprezenta grafic cu ajutorul diagramelor prin benzi, care
scot în evidenţă variaţia volumului fenomenului în teritorii
diferite.
Caracterul de distribuţie teritorială a seriilor de
spaţiu nu poate fi scos în evidenţă, în mod clar, numai cu
ajutorul graficelor obţinute (diagrame), ci ci este necesar,
pentru localizarea fenomenelor cercetate, să se apeleze la
un tip special de grafice, construite cu ajutorul hărţilor de
contur a diviziunilor teritoriale.
Desigur, economistul nu este geograf şi
reprezentările sale spaţiale nu vizează acelaşi scop; în loc
de a încerca reproducerea detaliată a fenomenelor în
spaţiu, economistul consideră că introduce în lucrările sale
o variabilă suplimentară, spaţiul. Reprezentarea grafică cu
ajutorul hărţilor este tot atât de importantă pentru analiza
statistico-economică şi pentru testarea ipotezelor statistice,
ca şi diagramele. Scopul statisticii este şi deglobalizarea
98
spaţială a colectivităţiilor, relevarea diversităţii care se
ignoră de către volumul acestora sau de către nivelul
mediu al diferitelor caracteristici. Spaţiul pentru economist
apare deci mult mai abstract decât pentru geograf.
Înainte de a prezenta unele modele ale diagramelor
spaţiale, se impun câteva precizări:
a) hărţile geografice sunt reprezentări prin suprafeţe:
fiecare unitate geografică este reprezentată printr-o
suprafaţă proporţională cu cea reală;
b) importanţa fiecărei zone geografice este foarte
diferită din mai multe puncte de vedere;
c) subzonele unui anumit teritoriu au o
individualitate proprie: caracteristicile geografice
(temperatură, precipitaţii); sociodemografice (regimul de
activitate, nivelul mortalităţii generale şi specifice,
numărul de locuinţe etc.); economice (mărimea şi forma
suprafeţei, dezvoltarea industriei şi structura ei, preţurile
produselor de sezon etc.)
d) analiza unei cartograme trebuie să vizeze cel
puţin două aspecte:
intensitatea luminoasă trebuie să fie în
concordanţă cu nivelul caracteristicii zonei
99
luate în studiu (două zone geografice apropiate
sau chiar identice se reprezintă prin aceeaşi
tonalitate luminoasă, culoare sau haşurare);
numărul de tonalităţi diferite care se pot utiliza
într-o cartodiagramă este limitat de posibilită-
ţile de percepţie ale omului;
Pornind de la aceste precizări de ordin general, se
prezintă în continuare câteva modele de grafice ale
distribuţiilor spaţiale.
Graficele specifice utilizate pentru reprezentarea
distribuţiilor după o caracteristică teritorială sunt de două
tipuri: cartograme şi cartodiagrame.
Cartogramele, la fel ca oricare alte grafice, trebuie să
fie cât mai simple pentru a putea fi uşor de citit şi
interpretat. Uneori, din dorinţa unor reprezentări cât mai
precise şi mai complexe, se pierde din claritate. În astfel
de cazuri este preferabil să se descompună o cartogramă,
foarte încărcată, în două sau mai multe cartograme mai
simple, mai expresive şi, deci, mai eficace.
Cu ajutorul cartogramelor se reprezintănivelul atins
de către diferite fenomene în teritorii diferite sau variaţia
acestora de la o unitate teritorială la alta, cu scopul de a
100
înlesni caracterizarea statistică a diferitelor zone din punct
de vedere al caracteristicii sau a caracteristicilor cercetate.
Cartogramele pot fi construite prin puncte, în culori sau în
nuanţe de culori, haşurate, cu izolinii (sau curbe de nivel)
etc.
Harta care stă la baza construcţiei cartogramei
trebuie să aibă bine conturate unităţile teritoriale, făra să se
precizeze formele de relief, apele, oraşele etc. decât în
măsura în care este nevoie de localizarea fenomenelor
cercetate, pentru a nu încărca în mod inutil cartograma.
Pentru reprezentarea pe hartă a variaţiei diferitelor
fenomene sau a intensităţii acestora în teritorii diferite, se
utilizează în practică cartograma prin puncte. În acest caz,
indicatorii se reprezintă printr-un anumit număr de puncte,
fiecare având o anumită mărime. Problema principală a
construcţiei acestor cartograme constă în alegerea
raţională a mărimii etalon a punctului (cerculeţului). Dacă
punctele vor reprezenta valori mai mari, ele se vor uni cu
cele învecinate şi vor da o nuanţă de gol teritoriului din
imediata apropiere. Dimpotrivă, dacă punctele vor
reprezenta valori prea mici, ele vor fi prea dese prea hartă
se vor contopi şi nu vor da o imagine clară. Cartogramele
101
prin puncte se utilizează mai ales pentrureprezentarea
seriilor formate din mărimi absolute (populaţie, producţie,
vânzări etc.).
Mai răspândite în practică sunt cartogramele cu
culori diferite şi cele cu intensităţi diferite ale aceleiaşi
culori. Dacă se întrebuinţează culori diferite, apare
dificultatea reprezentării culorilor într-o progresie optică
cu scopul de a permite identificarea precisă şi logică a
variaţiei şi intensităţii fenomenelor. În literatura de
specialitate s-a propus următoarea scară de culori, în
ordine crescătoare a intemsităţii: alb, galben-deschis,
galben auriu, portocaliu, roz, maro-deschis, maro-închis,
verde-închis, roşu-închis şi negru. Din practică, s-a
constatat c`în locul utilizării mai multor culori, este
preferabilă utilizarea mai multor nuanţe ale aceleiaşi
culori. Intensitatea culorii este strâns legată de intensitatea
fenomenului în zonele respective, astfel încât, acolo unde
aceasta este mai mare, şi nuanţa culorii va fi mai
pronunţată şi invers.
Cartogramele haşurate pot înlocui cartogramele în
culori. Haşurarea diferitelor zone se face pe baza aceloraşi
principii ca şi în cazul cartogramelor în culori: cu cât
102
intensitatea fenomenului este mai mare, cu atât haşurarea
are un fond mai închis, ce se realizează fie prin desimea
liniilor, fie prin grosimea lor şi invers.
Figura 3.9 Cartogramă haşurată
103
Capitolul 4
ANALIZA RELAŢIILOR DINTRE PROCESELE ŞI FENOMENELE SOCIALE
4.1. Introducere
Statistica folosindu-se de metodele proprii de
cercetare, contribuie alături de celelalte ştiinţe la
descoperirea legilor, legităţilor şi regularităţilor care se
manifestă în interiorul şi între fenomenele colective. De
altfel, problema fundamentală a oricărei cunoaşteri
ştiinţifice, a oricărei ştiinţe este descoperirea legilor care
acţionează asupra fenomenelor care fac obiectul lor de
studiu.
Fenomenele şi procesele din natură şi societate iau
naştere şi se dezvoltă sub influenţa acţiunii unui mare
număr de factori principali şi secundari, esenţiali şi
neesenţiali, cuantificabili şi necuantificabili sau cuantifi-
cabili cu aproximaţie.
În această secţiune vom depăşi această primă fază
descriptivă de studiere a legăturilor dintre fenomene,
introducând elemente noi de măsurare mai precisă a lor.
104
Fenomenele naturale, care iau naştere ca urmare a
mişcării mecanice, fizice, chimice şi biologice a materiei,
sunt legate între ele prin legături funcţionale.
De exemplu, fiind dată o bară metalică supusă unor
temperaturi diferite: t , ea se va dilata şi va lua
lungimile, respectiv: . De fiecare dată când
bara va fi supusă temperaturii t , va lua lungimea l .
Astfel, putem spune că unei temperaturi (dintr-un anumit
interval al temperaturilor) îi corespunde (sau i se poate
asocia) o anumită lungime a barei şi numai una. Legătura
dintre temperatură şi lungimea barei este o legătură
funcţională. Acest tip de legături, specific fenomenelor
naturii, nu este aplicabil fenomenelor sociale şi
economice.
Fenomenul social-economice le este caracteristic
faptul că asupra lor acţionează, alături de cauze
determinate pentru legătura sau dependenţa cercetată,
numeroşi alţi factori nu luaţi în calcul, accidentali, a căror
acţiune poate influenţa dezvoltarea lor. Acest fapt
determină existenţa unor legături de forme şi tipuri variate
între fenomene cu grade diferite de complexitate. Natura
105
legăturii dintre fenomene se stabileşte pe baza unei analize
calitative multilaterale.
În unele cazuri, între fenomene există o legătură
cauzală, atunci când unul dintre fenomene joacă rolul de
cauză, iar celălalt de efect. De exemplu, creşterea
productivităţii muncii determină în mare măsură reducerea
costului producţiei.
Intre alte fenomene poate exista o legătură sau o
interacţiune reciprocă, când nici unul dintre fenomene nu
poate fi considerat cauză sau efect. Astfel, se constată cu
caracter de legitate, că vârsta la căsătorie a soţului
concordă cu cea a soţiei, deci se căsătoresc, în general,
persoane care au o vârstă apropiată. În acest caz, nici
vârsta soţului, nici cea a soţiei nu poate fi considerată
numai cauză sau numai efect.
În alte cazuri, variaţia paralelă a două fenomene nu
se datorează legăturii dintre ele, ci influenţei unui al
treilea factor, care le determină pe ambele. Aşa, de
exemplu, cererea de mărfuri şi economiile băneşti ale
populaţiei variază în acelaşi sens, cu toate acestea nici
unul dintre ele nu poate fi considerat cauză sau efect al
celuilalt. Ambele fenomene sunt influenţate de un al
106
treilea factor şi anume, de mărimea veniturilor băneşti ale
populaţiei.
În cadrul fenomenelor sociale şi economice, legătura
nu se manifestă în fiecare caz în parte –aşa cum se
întâmplă în cadrul fenomenelor naturii – ci în general şi în
medie, într-un mare număr de cazuri. Fenomenul efect
este rezultatul conjugării influenţei mai multor fenomene-
cauză şi în acest sistem de legături nu toate raporturile de
dependenţă au aceeaşi importanţă, iar uneori acţiunea
unora dintre ele se compensează reciproc. Studierea
acestor fenomene, cunoaşterea legilor, legităţilor şi
regularităţilor de producere a lor nu se poate face pe cale
experimentală, ci folosind mai ales metoda abstractizării,
prin care se înlătură ceea ce este întâmlător şi neesenţial în
dezvoltarea lor, desprinzând astfel raporturile obviective
de cauzalitate şi descoperind condiţiile de formare şi
dezvoltare a acestora.
Variaţiile cantitative ale caracteristicii (variabilei)
efect Y pot fi mai mari sau mai mici decât variaţiile
cantitative determinate de caracteristicile cauzale
explicite. Unele valori ale caracteristicii efect (sau
rezultative) pot avea chiar sens contrar sensului de variaţie
107
pe care-l au caracteristicile cauzale. O astfel de legătură
între caracteristicile fenomenelor sau proceselor sociale
colective poartă denumirea de dependenţă sau legătură
stohastică.
Legăturile statistice sau stohastice se caracterizează
prin faptul că o caracteristică X exercită o anumită
influenţă asupra altei caracteristici Y, îi determină într-o
anumită măsură variaţia, însă aupra caracteristicii Y mai
acţionează şi alţi factori în afară de X, care, din punct de
vedere al legăturii dintre X şi Y, se consideră întâmplători.
De exemplu, între gradul înzestrării tehnice a muncii
şi nivelul productivităţii muncii există o legătură bine
determinată în sensul că, pe măsura creşterii nivelului
înzestrării tehnice a muncii, creşte şi nivelul productivităţii
muncii; dar productivitatea muncii este influenţată şi de
alţi factori, în afară de înzestrarea tehnică, cum ar fi:
experienţa în producţie, nivelul de calificare, salarizarea,
forma de organizare, factori psihologici etc.
Legătura statistică dintre două sau mai multe
caracteristici exprimate numeric poartă denumirea de
corelaţie. În general, se poate spune că între două sau mai
108
multe fenomene există corelaţie, dacă între ele există o
anumită legatură logică, cuantificabilă.
În opoziţie cu legăturile funcţionale, se pot întâlni în
realitate şi fenomene în care să nu existe nici un fel de
legătură, adică fenomenele respectice sunt independente
între ele. Deci, corelaţia este intermediară între
independenţă absolută dintre fenomene şi legăturile
funcţionale.
Studiul corelaţiei este îndreptat spre stabilirea
existenţei unei legături reale între fenomenele cercetate şi
apoi, cu ajutorul unor metode şi tehnici adecvate, se
caracterizează direcţia, forma şi intensitatea legăturii.
Mulţimea legăturilor statistice dintre fenomenele
colective se poate clasifica după mai multe criterii cum ar
fi: numărul variabilelor corelate, modul de exprimare a
caracteristicii, direcţia legăturii, forma legăturii şi
intensitatea ei.
a) După numărul caracteristicilor corelate,
legăturile dintre fenomene se pot împărţi în două grupe:
legături simple şi legături multiple. Legăturile simple se
stabilesc numai între două caracteristici, în timp ce
legăturile dintre trei sau mai multe caracteristici poartă
109
denumirea de legături multiple. O astfel de legătură există
(de exemplu) între recolta medie la hectar, pe de o parte şi
calitatea solului, măsurile agrotehnice, condiţiile
meteorologice, pe de altă parte; legătura dintre producţia
industrială pe judeţe, capitalul fix şi numărul de personal
din industrie etc.
Dacă legăturile dintre fenomene sunt cauzale, atunci
caracteristicile care joacă rol de cauză poartă denumirea de
variabile sau caracteristici independente, factoriale sau
determinate şi se notează cu , iar
caracteristica efect sa mai numeşte şi caracteristică sau
variabilă determinată sau variabilă dependentă sau
variabilă rezultativă şi se notează cu Y.
b) După direcţia sau sensul lor, legăturile statistice
pot fi directe sau pozitive şi inverse sau negative.
Legăturile directe apar atunci când variabila (sau
variabilele) factorială, cât şi variabila rezultativă variază
mereu în acelaşi sens. Dacă variaţia caracteristicilor
factoriale are sens contrar variaţiei caracteristicii
rezultative, atunci legătura dintre ele este inversă. De
exemplu, între înregistrarea tehnică a muncii şi nivelul
productivităţii muncii există o legătură directă, iar între
110
productivitatea muncii şi costul producţiei există o
legătură inversă.
c) După forma lor, legăturile dintre variabile pot fi
liniare sau curbilinii (hiperbolă, parabolă, exponenţială etc.).
Orice studiu statistic concret de corelaţie trebuie să
pornească de la identificarea existenţei unei legături reale
între fenomene şi apoi să treacă la măsurarea ei statistică.
De asemenea, trebuie să se ţină seama de faptul că orice
studiu concret se sprijină pe un număr limitat de observaţii
şi că, pe baza rezultatelor obţinute prin prelucrarea şi
analiza multilaterală a acestora, se încearcă apoi
caracterizarea colectivităţii generale. De aceea, rezultatele
calculelor de regresie şi corelaţie trebuie să fie interpretate
probalistic.
Pentru studierea legăturilor statistice dintre fenomene se
pot utiliza în practică metode elementare (metoda seriilor
paralele interdependente, metoda grupărilor, metoda tabelului
de corelaţie, metoda balanţelor, metoda grafică etc.) şi
metode analitice (regresie şi corelaţie simplă şi multiplă,
determinaţia simplă şi multiplă, verificarea ipotezei
existente şi formei legăturii, verificarea semnificaţiei
indicatorilor de regresie, corelaţie şi determinaţie).
111
4.2. Metode de analiză
Metodele statistice elementare de studiere a
dependenţelor dintre fenomene sunt uşor de aplicat, se
bazează pe analiza calitativă a variabilelor corelate şi oferă
informaţii importante asupra naturii caracteristicilor legăturii
cercetate. Ele servesc ca punct de plecare în vederea
aplicării metodelor analitice mai complexe şi mai precise.
4.2.1. Metoda seriilor statistice interdependente
Această metodă constă în stabilirea existenţei şi
caracterizarea legăturilor dintre fenomene pe baza
comparării indicatorilor proveniţi din două serii paralele:
una care prezintă variaţia variabilei factoriale X şi alta
pentru variabila rezultativă Y. Se pot supune comparaţiei
două serii de timp, două serii de spaţiu sau două serii de
distribuţie. În primul caz, termenii celor două serii
dinamice se înscriu în ordine cronologică, iar în cazul al
doilea şi al treilea, se procedează la ordonarea termenilor
seriilor în ordine crescătoare sau descrescătoare a
variabilei factoriale X şi în paralel se înscriu termenii
corespunzători ai variabilei rezultative Y. Prin aplicarea
acestei metode este posibil să se obţină o primă imagine
112
asupra existenţei şi direcţiei legăturii dintre variabile, dar
nu se poate aprecia forma şi intensitatea ei.
În cazul seriilor cronologice interdependente este
necesar ca, pe lângă identificarea legăturilor dintre
fenomene, să se precizeze şi perioada pentru care ar loc
legătura respectivă. Astfel, se pot evidenţia legături
sincrone dintre fenomene, când variaţia variabilei facto-
riale determină concomitent variaţia variabilei rezultative
şi legături asincrone în cazul în care variaţia variabilei
factoriale se exercită asupra variabilei rezultative, după o
anumită perioadă de timp, deci cu un anumit decalaj.
Procedeul seriilor paralele interedependente se poate
aplica atât în cazul legăturilor simple, cât şi în cazul
legăturilor multiple când este necesar ca, pe baza analizei
critice calitative, să se procedeze la ierarhizarea influenţei
factorilor cauzali în funcţie de mărimea influenţei lor
asupra variabilei rezultative. Dacă variabilele factoriale nu
sunt independente între ele, în cazul corelaţiei multiple,
apare fenomenul de multicoliniaritate, care trebuie diminuat
cât mai mult posibil înainte de a trece la calculul indica-
torilor de regresie şi corelaţie multiplă. Există în literatura
de specialitate metode de verificare a existenţei multico-
113
liniarităţii şi de diminuare a efectelor ei în cazul corelaţiei
liniare multiple. Eliminarea ei totală nu este posibilă.
Aplicarea metodei seriilor paralele interdependente
devine mai dificilă în cazul seriilor formate dintr-un număr
foarte mare de termeni şi implică în mare măsură
subiectivismul cercetătorului. Pentru a înlătura acest
neajuns, se poate utiliza metoda grupărilor.
4.2.2. Metoda grupărilor
Metoda grupărilor reprezintă o metodă bazată în
analiza legăturilor dintre fenomene şi constă în împărţirea
unităţilor statistice după variaţia variabilei factoriale X şi
calcularea indicatorilor sintetici (mărimi medii, dispersii,
mărimi relative de structură) ai caracteristicii rezultative Y,
pentru fiecare grupă în care a fost împărţită colectivitatea.
Această metodă oferă posibilitatea aprecierii existenţei
legăturii şi sensul ei, dar, ca şi în cazul metodei anterioare,
aprecierea formei şi intensităţii legăturii este cu totul
subiectivă, depinzând în mare măsură de competenţa şi
experienţa cercetătorului.
114
În cazul legăturilor simple se utilizează grupările
simple, iar în cazul legăturilor multiple se vor utiliza
grupările combinate.
4.2.3. Metoda grafică
Această metodă permite prezentarea întrşo formă
geometrica, expresivă şi vizuală a legăturilor dintre două
sau mai multe variabile.
În cazul a două variabile, metoda grafică se bazează
pe sistemul de axe rectangulare, în care valorile variabilei
factoriale se înscriu pe abscisă, iar cele ale variabilei
rezultative pe ordonată. Perechile de valori corelate ,
se reprezintă prin câte un punct în spaţiul xoy. Mulţimea
acestor puncte dispersate în grafic oferă imaginea
câmpului de corelaţie asemănătoare cu un „nor de
puncte”- de unde derivă şi denumirea acestui procedeu.
După forma şi poziţia norului de puncte în plan se
poate aprecia existenţa, forma, direcţia şi intensitatea
legăturii dintre variabile. Concentrarea punctelor în jurul
unei anumite drepte sau curbe ne va sugera faptul că între
variabile există o legătură.
115
Capitolul 5
REZUMATUL ŞI DESCRIEREA INDICATORILOR CARACTERISTICILOR
STATISTICE UTILIZATE ÎN GEOGRAFIA UMANĂ
Una dintre funcţiile de bază ale statisticii aşa cum
amintem în primul capitol al acestei lucrări este funcţia
descriptivă. Aceasta presupune aplicarea principiului
descrierii statistice tehnică ce a dat naştere statisticii
descriptive al cărui scop principal şi specific este acela de
a sintetiza şi structura într-o manieră cât mai directă şi mai
intuitivă datele şi informaţia, inclusiv caracteristicile
acestora.
Valorile ataşate variabilelor statistice în special
cantitative, prin intermediul cărora informaţia conţinută în
îndistribuţia de frecvenţe respective este exprimată
sintetic, sunt desemnate prin termenul „indicator” .
Aceştia mai sunt întâlniţi sub o mare varietate de denumiri
precum: „indici” (Rateau, 2004) „valori reprezentative”
116
(Novak, 1998), „parametri” (Moineagu, Negură şi Useanu,
1976) etc., în funcţie de de tipul de informaţie oferită,
aceşti indicatori se împart în două mari clase principale:
1. indicatori de poziţie (sau de nivel ori ai tendinţei
centrale);
2. indicatori de dispersie (sau de împrăştiere ori de
variaţie).
3. indicatori ai formei distribuţiei.
Această ultimă categorie constituind o categorie mai putin utilizata datorita calităţilor sale mai puţin expresive. Astfel aceată lucrare se va concentra asupra care apar mai frecvent în aplicaţiile statisticii în ştiinţele sociale în care se încadrează şi turismul.
5.1.Indicatorii de poziţie
Iindicatorii de poziţie reprezintă indicatorii ce redau
printr-o singură valoare numerică nivelul general al
valorilor seriei sau ordinul de mărime al acestor valori. De
exemplu variabila ce reprezintă distribuţia familiilor care
au optat pentru o destinaţie în străinătate dintr-o anumită
ţară după venitul lor lunar, exprimat în euro. Un indicator
de poziţie va fi o valoare, să zicem veuro, care va reda
nivelul de ansamblu al câştigului familiilor respective.
117
Exprimarea exactă a semnificaţiei generale a indicatorilor
de poziţie este imposibilă pentru că, strict vorbind, o
asemenea semnificaţie generală acoperă un conţinut relativ
redus sau, altfel spus, fiecare indicator posedă o doză
specifică de semnificaţie care-l individualizează clar de
ceilalţi. O astfel de valoarea (cea mai des utilizată în
ştiinţele sociale) este media aritmetică.
5.1.1. Modul
Modul (şi nu modulul !) sau valoarea modală, se
notează cu Mo şi reprezintă valoarea sau caracteristica ce
apare sau este luată cu cea mai mare frecvenţă. Ca
interpretare, putem spune că aceasta este valoarea ce
caracterizează individul tipic al populaţiei.
Acest indicator este specific pentru variabilele
(caracteristicile) calitative nominale fiind singurul care
poate exprima nivelul general al unei populaţii alcătuite
din astfel de variabile. Se înţelege imediat că acest
indicator este specific cazului în care lucrăm cu frecvenţe.
(Vezi exerciţiul 1, anexa 2).
Pentru variabilele continue, despre mod se poate
vorbi doar dacă vom construi intervale de valori. În acest
118
caz, este recomandabil ca lucrurile să se oprească la
găsirea intervalului modal, adică a intervalului cu cea mai
ridicată frecvenţă A merge aici mai departe, la a determina
o valoare modală, pentru distribuţii empirice, ni se pare, în
multe cazuri, un lucru foarte riscant.
De pildă, pentru distribuţia din tabelul 4.1.intervalul
modal este cel dat de limitele 25-29 ani. Pentru o
eventuală poziţionare a valorii modale pe acest interval, se
poate apela la frecvenţele din intervalele alăturate (din
stânga şi din dreapta celui modal). Astfel, notând cu k
frecvenţa intervalullui modal, cu k şi k frecvenţele
intervalelor premodal şi postmodal, cu x valoarea
inferioară a intervalului modal şi cu d lungimea acestuia,
o formulă de calculare a valorii modale este următoarea:
Mo = x +d
Pentru datele din tabelul 4.1., mărimile din formula
de mai sus sunt:
x =25 de ani; d = 5 ani; k = 4.411; şi ,
ceea ce conduce la valoarea:
119
Mo = 27,75 ani.
Subliniem încă o dată artificialitatea acestei valori,
nu atât datorită ipotezelor folosite, cât faptului că
semnificţia valorii modale este aceea de valoare tipică,
cea mai frecventă. Or, este limpede că în cazurile reale,
când valorile, oricât de multe ar fi, sunt totuşi discrete, nu
se poate vorbi de o valoare modală, valoare la care se
ajunge doar în domeniul matematicii, în cazul variabilelor
aleatorii continue, printr-un proces de trecere la limită.
Ceea ce se poate eventual spune, invocând valoarea
calculată cu formula de mai sus, este, interpretând datele
exemplului nostru, că cele mai multe situaţii de turişti cu
diagnostic, în 1985, sunt ale persoanelor aflate în jurul
vârstei de 27,75 ani.
În concluzie modul este un indicator de poziţie
expresiv pentru caracteristicile calitative nominale sau
eventual ordinale şi mai puţin pentru cele intervale
indiferent de natura acestora din urmă.
5.1.2. Mediana
Prezentarea valorii mediane, notată Me, ca indicator
al poziţiei necesită o introducere în care se va defini
120
individul median. Presupunând că cei n indivizi din
populaţie sunt aşezaţi în ordinea crescătoare sau
descrescătoare a valorilor pe care le iau, atunci individul
care se găseşte la mijlocul acestui şir, adică are în stânga
sa tot atâtea unităţi statistice câte şi în dreapta lui, se
numeşte individ median. Valoarea pe care o ia individul
median se numeşte valoare mediană sau, simplu, mediană.
Este evident că un individ median există, propriu-zis
vorbind, doar atunci când n este un număr fără soţ, căci
doar atunci fără el rămâne un efectiv cu soţ (n-1), care
poate fi împărţit în două părţi egale: câte (n-1)/2 în stânga
şi în dreapta. În caz contrar, vom considera un individ
median virtual, plasat între unitatea de rang n/2 şi cea de
rang n/2+1, individ căruia îi acordăm ca valoarea medie
aritmetică a valorilor celor două unităţi care-l încadrează.
(vezi exerciţiul 2, anexa 2)
Acest indicator al poziţiei este specific varibilelor
calitative ordinale fiind foarte expresiv. El se foloseşte
frecvent şi pentru stabilirea poziţiei poulaţiei pentru
variabile intervale.
Lucrurile se complică puţin atunci când ne găsim în
situaţia în care apar frecvenţe. Mai mult, această situaţie,
121
la rândul său, are două forme diferite: a) când frecvenţele
corespund unor valori univoce şi b) când frecvenţele
corespund unor intervale de valori. În ambele cazuri,
iererhia presupune că indivizii afalaţi sub o aceeaşi valoare
sau sub acelaşi interval de valori ocupă un acelaşi rang.
Să ne oprim la primul caz. Dacă n este fără soţ, va
exista un individ median care se va găsi sub acea valoare
pentru care frecvenţa cumulată ascendentă depăşeşte 50%
din efectivul populaţiei. Iar acea valoare va fi valoarea
mediană. Dacă n este cu soţ, atunci indivizii de rang n/2 şi
n/2+1 pot fie să ia o aceeaşi valoare şi atunci aceasta este
chiar mediana, fie să ia două valori diferite şi consecutive,
x şi x , luate cu frecvenţele k , respectiv k şi atunci
mediana va fi:
Me =
adică media celor două valori, luate cu frecvenţele respective.
Cazul al doilea, cel cu intervale de valori, induce în
plus faţă de cel precedent căutarea medianei atunci când
se cunoaşte intervalul median, adică intervalul pe care se
găseşte individul median ( real sau virtual). Cu alte cuvinte,
122
trebuie aleasă o metodă de a determina o valoare din
intervalul respectiv care să fie atribuită individului median.
Tabelul 5.1. Distribuţia turiştilor sosiţi în sejur balnear la Băile Herculane în 1985, având diagnostic anterior stabilit, în funcţie de vârsta la care s-a stabilit diagnosticul
Vârsta Frecvenţe Vârsta Frecvenţe cumulate
15-19 ani 253 Sub 15 ani 0
20-24 ani 2.269 Sub 20ani 253
25-29 ani 4.411 Sub 25 ani 2.522
30-34 ani 2.655 Sub 30 ani 6.933
35-39 ani 2.516 Sub 35 ani 9.588
40-44 ani 1.857 Sub 40 ani 12.104
45-49 ani 1.133 Sub 45 ani 13.961
50-54 ani 541 Sub 50 ani 15.094
55-59 ani 361 Sub 55 ani 15.635
60 şi peste 344 Sub 60 ani 15.996
Total 16.340 Total 16.340
Sursa: Direcţia Judeţeană pentru Statistică Caraş Severin
Se vede că efectivul total fiind un număr cu soţ,
16.340, vom avea un individ median virtual, cuprins între
cel cu rangul 8.170 şi 8.171, să zicem al 8.170,5-lea. Acest
123
individ se va găsi în intervalul 30-34 de ani, dat fiind că
până la 30 de ani se stabilesc dignostice la 6.933 turişti şi
până la 35 de ani, 9.588. Vom presupune că cele 2.516
persoane se distribuie uniform pe acest interval. Pentru a
afla rangul individului nostru virtual în rândul celor 2.516
din intervalul median, vom face diferenţa:
8170,5 – 6933 = 1237,5
În continuare, aplicăm regula de trei simplă:
„dacă la 2216 persoane corespund 5 ani de vârstă,
atunci la 1237,5, corespund x ani”.
Deci: x =
valoare care, adăugată celei de la capătul din stânga
al intervalului, ne dă mediana. Adică, în 1995, vârsta
mediană a turiştilor sosiţi la Băile Herculane având un
diagnostic stabilit este de 32,46 ani.
O procedură echivalentă de a calcula mediana este
cea care face apel la reprezentarea grafică. Presupunând că
pe o hârtie gradată (milimetrică) se desenează o linie
poligonală a frecvenţelor cumulate ascendente, ducând o
dreaptă paralelă cu axa X, la înălţimea n/2, aceasta va
124
intersecta graficul într-un punct a cărui abscisă este tocmai
mediana.
125
5.1.3. Media (aritmetică)
După cum se ştie, există mai multe mărimi ce poartă
denumirea de „medie” , dintre care cea mai cunoscută este
aşa-numita „medie aritmetică”. Dat fiind faptul că în
lucrarea de faţă nu vom aborda şi celelalte genuri (media
geometrică şi cea armonică) în capitolul de faţă se va
utiliza simplu denumirea de medie sau valoare medie,
înţelegându-se prin aceasta media aritmetică.
Există mai multe modalităţi de a defini valoarea
medie. Pentru că se raportează direct la formula cea mai
cunoscută de calcul a mediei, vom alege ca definiţie
propoziţia conform căreia media este acea valoare care se
obţine împărţind suma valorilor tuturor indivizilor din
populaţie la numărul acestora, ceea ce semnifică, în fapt,
că ea este acea valoare comună pe care ar trebui să o ia
fiecare individ din populaţie astfel încât să se păstreze
neschimbată suma valorilor.
Notaţia clasică a mediei porneşte de la simbolul
variabilei statistice, căruia i se aplică o bară superioară.
Astfel, pentru o variabilă X , valoarea medie se notează
frecvent cu şi este dată de formula:
126
=
Proprietăţi mai importante ale mediei sunt următoarele:
Media este o valoare cuprinsă în intervalul ale
cărui capete le constituie valoarea minimă şi cea
maximă a seriei de valori.
Media este o mărime exprimată în aceeaşi unitate
de măsură în care sunt exprimate şi valorile
variabilei respective.
Media aritmetică rămâne neschimbată dacă
frecvenţele se înmulţesc sau se împart cu un acelaşi
număr.
Valoarea medie poate fi calculată chiar dacă nu
cunoaştem distribuţia caracteristicii, ci numai
suma valorilor. De pildă, dacă o întreprindere are n
salariaţi şi într-o lună sunt cheltuiţi S lei pentru
fondul de salarii (suma valorilor), atunci, fără a
mai urmări ce salariu (valoare) are fiecare individ,
putem spune că salariul mediu este S/n.
Media este o mărime folosită foarte des pentru
ilustrarea nivelului general al valorilor unei
127
caracteristici. Se întâmpă însă că semnificaţia ei nu
este clar înţeleasă. Mai exact, pornindu-se de la
proprietatea (1), conform căreia media este o
valoare din interiorul seriei, se absolutizează
considerăndu-se că este valoarea mijlocie sau
tipică a serei.
Important pentru cei ce folosesc indicatorii statistici
– media în cazul de faţă – este să înţeleagă exact
semnificaţia valorii calculate şi să o utilizeze exclusiv în
limitele ce corespund acestei semnificţii. Mediile nu au un
caracter fix, nu sunt lipsite de conţinut, nu sunt
neprezentative în situaţii ca aceea invocată anterior, aşa
cum sunt adeseacaracterizate. Ele pur şi simplu nu dau
ceea ce unii aşteaptă de la ele sau pretind că dau.
Media, ca orice indicator, nu poate reflecta decât o
parte din informaţia surprinsă în caracteristică şi este
evident că, cu cât populaţia este mai omogenă, cu atât
media va reproduce mai mult din această informaţie. La
limită, dacă toţi indivizii iau aceeaşi valoare, aceasta va fi
chiar media şi informaţia este completă. Faptul că
situaţiile reale sunt departe de acest caz – limită – şi doar
aşa devin interesante, căci nu redau situaţii omogene – nu
128
trebuie să ducă la interzicerea calculului mediei, ci la
necesitatea de a determina şi alţi indicatori, cum sunt cei
de împrăştiere.
5.2. Indicatorii de dispersie
Statistica descriptivă operează cu indicatorii din
această categorie, indicatori ce vin să completeze
indicatorii de poziţie, pentru a îmbogăţi caracteristicile
variante ale variabilelor studiate. Cu alte cuvinte aceştia
măsoară gradul de împraştiere a indivizilor în cadrul seriei
de valori pe care le iau. Astfel indicatorii de dispersie
caracterizează o populaţie statistica din punctul de vedere
al omogenităţii/eterogenităţii, în raport cu o variabilă dată.
În anumite situaţii, în special când variabila reflectă
anumite ierarhii recunoscute sau valorizate între indivizii
statistici (adică în sensul că valori mai mari sunt
considerate ca fiind mai bune sau preferabile celor mai
mici, cum e cazul salariilor, de pildă), indicatorii de
dispersie reflectă gradul de inegalitate între indivizi, în
raport cu factorul social tradus în caracteristică.
Indicatorii de dispersie devin importanţi prin faptul
că li se atribuie semnificaţia de a reproduce gradul de
129
nedeterminare, de variabilitate al unui fenomen. Or,
explicaţia, cel puţin din punct de vedere statistic, înseamnă
reducerea acestei nedeterminări sau variabilităţi, adică
sporirea posibilităţii de a prezice starea unui fenomen.
Într-adevăr, aşa cum am sugerat deja, un fenomen este
tradus într-o caracteristică de tip statistic, care, la rândul ei
este exprimată printr-un indicator de poziţie (să spunem
media). A afirma că, de pildă, media gradului de
satisfacţie al unui grup de turişti întorşi dintr-un sejur este
8,50 înseamnă a afla ceva despre nivelul gradului de
satisfacţie al grupului respectiv. Dispersia scorurilor din
care rezultă această valoare medie va indica măsura în care
valoarea individuală este reprodusă prin cea de grup sau
calitatea predicţiei situaţiilor indivizilor prin mărimea la
nivelul colectiv. Dacă în analiză se introduce o variabilă
nouă, cu rol explicativ pentru ca cea iniţială, atunci,
presupunând cunoscută poziţia indivizilor după această
caracteristică zisă independentă, se va reduce
nedeterminarea situaţiei lor după variabila de bază, în
măsura în care între cei doi factori există o legătură. Astfel
spus, indicatorul de dispersie va pune în evidenţă cât din
130
nedeterminarea variabilei cercetate se poate reduce prin
introducerea în modelul explicativ a unei noi variabile.
Cei mai cunoscuţi ndicatori de dispersie sunt
prezenţaţi în această lucrare insistând mai ales asupra
logicii construcţiei lor, dar mai ales asupra semnificaţiei
pe care o posedă şi a limitelor în utilizarea lor.
5.2.1 Amplitudinea
In mod superficial se porneşte de la ideea că
problema dispersiei poate fi uşor rezolvată urmărind doar
întinderea scalei de valori a caracteristicii. Spre exemplu,
dacă media scorurilor de satisfacţie menţionată mai sus
rezultă dintr-un calcul în care valorile individuale sunt
cuprinse între nota 7 şi nota 9, atunci vom spune că
dispersia este mai redusă (grupul este mai omogen) decât
atunci când ea rezultă din scoruri cuprinse între 3 şi 10
(grupul este mai eterogen). Indicatorul de dispersie astfel
folosit poartă denumirea de amplitudine, notat cu A, şi se
calculează simplu, ca diferenţă între cea mai mare şi cea
mai mică valoare:
A = x - x
131
Neajunsul fundamental al acestui indicator constă în
faptul că valoarea sa este determinată doar de două dintre
valorile variabilei, celei extreme. Acasta înseamnă că pot
apărea situaţii de genul:
a) valorile maximă şi respectiv minimă, pentru două
caracteristici, pot fi aceleaşi, dar distribuţia
indivizilor pe scala respectivă de valori este
diferită;
b) există o valoare maximă şi/sau una minimă care se
abat ( se abate) foarte mult de la seria celorlalte
valori.
Prima situaţie are evident nevoie de o atenţie sporită,
în ceea ce priveşte indicatorul de dispersie, şi această
împrăştiere a indivizilor pe setul celorlalte valori, aflate
între cea minimă şi cea maximă. În al doilea caz se
sugerează existenţa unor valori foarte îndepărtate de marea
masă, numite în statistică „valori aberante”, ultimul cuvânt
nesugerând neapărat imposibilitatea existenţei unui astfel
de caz şi apariţia lui printr-o eroare de măsurare (deşi nu
este exclusă şi această posibilitate), ci faptul că e vorba de
cazuri cu totul atipice, adică puţine la număr, şi care nu ar
trebui luate ca reflectând situaţia populaţiei.
132
Pentru rafinarea procedurilorde construcţie a
indicatorilor de dispersie, se poate avansa pe calea
reducerii sau chiar a eliminării neajunsurilor sugerate fie
de situaţia (a), fie de cea de la punctul (b). Cei mai
cunoscuţi indicatori astfel construiţi sunt abaterile.
5.2.2. Abaterea standard
Abaterea standard cunoscută şi sub denumirea de
deviaţia standard reprezentând o variantă specială a
abaterii medii pătratice de la o valoare a care se
calculează, aşa cum arată şi denumirea, prin ridicarea la
pătrat a diferenţelor dintre valorile individuale şi o mărime
constantă, arbitrar aleasă, a, urmată de însumarea
pătratelor respective şi de raportarea la numărul cazurilor
observate, adică la n. Întrucât rezultatul acestei operaţie
de medie este o mărime pătratică, în sensul că se măsoară
în unităţi ale lui X ridicate la pătrat, pentru a reveni la
dimensiunea normală, deci la unităţile lui X, în final se
extrage radicalul din valoarea obţinută. Aşadar, abaterea
medie pătratică de la a, notată cu S(a), va fi dată de
formula:
133
S(a) =
Pentru o caracteristică dată, mărimea S(a) este în
funcţie de valorile lui a. Aşa cum abaterea medie atinge
minimul pentru cazul când valoarea de reper este mediana,
tot aşa, se poate arăta ( vezi, de exemplu, Yule şi Kendall,
1969, p.147) că cea mai mică abatere medie pătratică este
cea faţă de medie. Această formă particulară a abaterii
medii pătratice poartă denumirea de abatere standard. Ea
se notează cu litera mică grecească sigma , şi se obţine
cu formula:
În lucrările de statistică sau în alte texte din
domeniul ştiinţelor sociale, unde se întâlneşte acest
indicator, el mai apare destul de frecvent şi sub alte
denumiri: deviaţie standard, ecart tip sau, pur şi simplu,
dispersie.
Aplicaţie: vezi anexa 2
134
5.2.3. Coeficientul de variaţie
Indicatorii dispersiei se aplică şi se aleg pentru
expresivitate în funcţie de variabila aleasă şi, în general,
în funcţie de variabilele care se compară, iar criteriu
fundamental de aplicare ţine cont de faptul aceşti
indicatori se măsoară în unităţile de măsură ale variabilei
respecive şi că schimbarea unităţii de măsură a unei
variabile are drept consecinţă obţinerea unei valori, care,
în comparaţie cu prima, conduce la alt raport sau la altă
diferenţă. Spre exemplu, nu poate compara dispersia
veniturilor populaţei engleză (lire sterline) şi cea a celor
din România (lei), calculând, simplu, abaterile standard
pentru două distribuţii (ale veniturilor din ţările
respective).
Valoarea indicatorilor de dispersie este dependentă
şi de nivelul general al valorilor variabilei, exprimat, să
zicem, de valoarea medie. Pentru două variabile de aceeaşi
natură, evaluate în aceleeaşi unităţi de măsură, abaterea
standard va fi, mai mare pentru cea cu media mai mare.
Pentru relevanţă se poate apela la un exemplu
contrastant, să presupunem că ne interesează greutatea
135
corporală la pentru două specii, una de insecte - libelula,
să zicem – şi alta de mamifere – de pildă rinocerii. În
primul caz, diferenţele dintre indivizi şi dintre valorile
acestora şi cea medie sunt de ordinul gramelor, pe când în
al doilea de ordinul kilogramelor sau chiar al zecilor de
kilograme. E limepede că oricât de omogenă ar fi
populaţia de elefanţi, abaterea standard obţinută aici va fi
de un cu totul alt ordin de mărime decât cea calculată la
nivelul albinelor, dacă se utilizează aceeaşi unitate de
măsură. Ridicarea nivelului mediu al valorilor „dilată”
practic scara de valori şi atrage, aşa cum spuneam, o
mărire şi a indicatorilor de dispersie.
Pentru a se înlătura aceste dificultăţi de comparaţie,
s-a propus (Pearson) un indicator numit coeficient de
variaţie notat cu v, şi dat de formula:
v =
Prin împărţirea abaterii standard la medie se înlătură
atât unitatea de măsură, cât şi diferenţa în nivelul valorilor.
Coeficientul de variaţie deşi aparent utilîn domeniul
ştiinţelor sociale, se aplică rareori, datorită capcanelor în
care se poate cădea deorece adesea se uită faptul că acest
136
indicator este aplicabil doar în cazul variabilelor
măsurate pe scala de rapoarte, cu origine zero naturală.
Schimbarea originii scalei lasă diferenţele dintre valori
nemodificate, ceea ce însemnă că şi abaterea standard va
rămâne invariabilă (proprietatea a doua a abaterii standard
menţionată mai sus); în schimb media se modifică la
translaţia valorilor şi, drept urmare, şi raportul din formula
coeficientului de variaţie se schimbă. Mai mult, originea
poate fi astfel plasată încât media să fie zero şi atunci
raportul devine fără sens.
5.3. Indicatori ai formei distribuţiei
Aspecte privind formele intră în discuţie atunci când
avem de a face cu variabile continue, ce pot fi aranjate ca
distribuţii de frecvenţe, prin apelul la intervale de grupare,
deoarece, aşa cum am sugerat în capitolul anterior,
distribuţiile empirice se por raporta la nişte entităţi
perfecte (curbele matematice, constituite în condiţii ideale)
şi deci se va prelua de la aceste curbe ideea de formă a
acestora, care, presupune două aspecte:
1. În ce măsură distribuţia se abate de la cazul-limită
al simetriei în jurul valorilor centrale, caz de
137
simetrie ilustrat, în statistica matematică, în modul
cel mai clar de distribuţia normală. Se introduc
astfel indicatori ai oblicităţii.
2. În ce măsură distribuţia este mai plată sau mai
boltită, comparativ cu o distribuţie normală de
abatere standard respectivă. Se exprimă prin
indicatori ai boltirii sau de exces.
138
Anexa 2
Exerciţiul 1: Determinaţi destinaţia de vacanţă a unui
eşantion de 17 studenţi ai facultăţii dumneavoastră
utilizănd următoare întrebare cu variante de răspuns:
Unde v-aţi petrecut o parte din vacanţa de iarnă?
1 = la munte
2 = la mare
3 = acasă cu familia
4 = la bunici
5 = în străinătate
6 = în vizită la rude sau prieteni
7 = alte situaţii
Exemplu răspunsuri obţinute la nivelul fiecărui student:
Răspunsuri: S1 =3, S2 =1, S3 = 3,S4 = 2, S5 = 1, S6 = 3, S7 =
3, S8 = 4, S9 = 3, S10 = 5, S11 = 3, S12 = 3, S13 = 6, S14 = 3,
S15 = 6, S16 = 3, S17 = 3
139
Mo = 3, acesta reprezentând răspunsul cel mai frecvent sau
cel care caracterizează populaţia respectivă, la nivel
general
Exerciţiul 2: Repetaţi sau utilizaţi răspunsurile de la
exerciţiul 1. Acestea sunt:
Rs = 3,1,3,2,1,3,3,4,3,5,3,3,6,3,6,3,3
Aranjaţi-le în ordine crescătoare sau descrescătoare
Rs = 1,1,2,3,3,3,3,3,3,3,3,3,3,4,5,6,6
Me = 3
Aplicaţie : abaterea standard
Pentru a realiza necesitatea şi rolul abaterii standard priviţi
cele două şiruri de date numerice (reprezentând numărul
de vizitatori la 2 muzee diferite într-o perioadă de 10 zile)
de mai jos:
140
A) 34, 40, 37, 30, 35, 33, 38, 39, 32, 34
B)1, 6, 153, 10, 0, 100, 14, 5, 1, 60
Pasul 2: Calculaţi media aritmetică a fiecărui şir
A = 35
B = 35
Concluzie: media aritmetică nu exprimă variaţiile în
dispersie, lăsând la o parte aspecte importante.
Calculul abaterii standard prin aplicarea formulei
presupune 6 stadii după cum urmează:
Să presupunem că avem de calculat abaterea standard
pentru numărul de vizitatori ai Muzeului Naţional de
Istorie în perioada 1986 - 2000. Datele valorice fiind
următoarele:
Anul Număr vizitatori (mii)
Nv
1986 2
1987 2.8
1988 3.5
141
1989 5.1
1990 6
1991 5.5
1992 5
1993 5
1994 5.3
1995 5.7
1996 4.9
1997 4.5
1998 4.5
1999 4.5
2000 4.5
Stadiul 1
Se calculează media aritmetică a şirului de date
= 4,59
142
Stadiul 2
Se calculează diferenţa Nv - , pentru fiecare valoare a lui
Nv, adică diferenţa dintre fiecare valoare a numărului de
vizitatori şi media aritmetică obţinută la stadiul anterior
Nv Diferenţa Nv - , ( = 4.59)
2 -2.59
2.8 -1.79
3.5 -1.09
5.1 0.51
6 1.41
5.5 0.91
5 0.41
5 0.41
5.3 0.71
5.7 1.11
4.9 0.31
4.5 -0.09
4.5 -0.09
4.5 -0.09
4.5 -0.09
Stadiul 3
143
Se ridică diferenţa la pătrat (Nv - )2 după cum urmează:
Nv Nv - (Nv - )2
2 -2.59 6.708
2.8 -1.79 3.20
3.5 -1.09 1.188
5.1 0.51 0.26
6 1.41 1.988
5.5 0.91 0.828
5 0.41 0.168
5 0.41 0.168
5.3 0.71 0.504
5.7 1.11 1.232
4.9 0.31 0.096
4.5 -0.09 0.008
4.5 -0.09 0.008
4.5 -0.09 0.008
4.5 -0.09 0.008
Stadiul 4
144
Se calculează suma tuturor diferenţelor pătrate
(Nv - )2 = 16,372
Stadiul 5
Suma obţinută se divide la numărul total de valori
existente în şirul de date (15)
16,372 : 15 = 1, 0914
Stadiul 6
Se calculează radical din rezultatul obţinut. Acesta
reprezintă valoarea deviaţiei standard.
= 1,044
Semnificaţia acestei valori: în general cu cât
deviaţia standard are o valoare mai mare (în comparaţie cu
media aritmetică) cu atât dispersia, distribuţia datelor este
mai mare faţă de această medie cu cât deviaţia standard
are o valoare mai mică cu atât mai concentrate, mai
apropiate de medie sunt datele.
145
146
Capitolul 6
STATISTICA INFERENŢIALĂ – INTRODUCERE
6.1. Introducerea termenilor de populaţieşi eşantion
În introducerea acestui capitol este poate util să fie
trecute în revistă de data această în mod simplificat
elementele esenţiale studiate teoretic în primul capitol
dar cu care începând din acest punct se trece la aplicaţii.
Folosită în sensul obişnuit, noţiunea de populaţie
este foate adesea asociată cu aspectele demografice:
populaţia unei ţări, populaţia unui oraş etc. În statistică,
sensul dat noţiunii de populaţie este mai puţin restrictiv:
se numeşte populaţie mulţimea indivizilor care au în
comun cel puţin o caracteristică.
Urmează apoi noţiunea de individ trebuie şi ea
înţeleasă intr-un sens larg. Nu este vorba neapărat despre
indivizi umani, ci şi despre grupuri de persoane (familie,
grupuri
147
Termenul de caracteristică este la rândul său foarte
vast după cum s-a putut constata, mai ales din punct de
vedere teoretic. Am amintit mai sus că o populaţie este
compusă din indivizi care pot fi orice element definit. O
populaţie poate fi caracteizată în orice fel, ceea ce
îndepărtează această noţiune de sensul ei obişnuit, care o
asociază unui număr mare. În statistică, populaţia nu
înseamnă mii de indivizi. Caracterul ei esenţial constă în
faptul că putem găsi toţi indivizii care răspund criteriului
ce defineşte populaţia. Astfel, toate femeile divorţate de
două ori, toţi bărbaţii născuţi în Patagonia în luna aprilie,
toate întreprinderile de microinformatică sunt tot atâtea
exemple de populaţii diferite, în sensul statistic al
termenului. Cu alte cuvinte, definirea caracteristicilor unei
populaţii nu este lilitată. Singura condiţie este ca aceste
caracteristici să fie perfect stăpânite, pentru a evita
includerea în populaţia care ne interesează a indivizilor
nepotriviţi. Nici mărimea populaţiei nu este limitată.
Eşantionul reprezintă un subansamblu al unei
populaţii. Pentru a trage concluzii asupra ansamblului
populaţiei, măsurătorile se vor efectua pe acest eşantion.
Sigur că felul în care se construieşte eşantionul (adică
148
eşantionarea, sondajul) este crucial. Calitatea eşantionării
garantează că informaţia culeasă din eşantion poate fi
considerată ca fiind cea pe care am fi cules-o dacă am fi
interogat întreaga populaţie. Acest eşantion trebuie deci să
fie cât mai reprezentativ pentru populaţia de care aparţine.
Am văzut, de asemenea, că aplicarea metodei
experimentale implică adesea echivalenţa eşantioanelor
luate în considerare. Această echivalenţă este asigurată
dacă eşantioanele sunt la fel de reprezentative pentru
populaţia din care sunt extrase. Iată pe scurt câteva dintre
principalele metode de eşantionare, prezentate cu titlu
ilustrat.
Prelevarea eşsntioanelor
1) Metodele empirice
Acest termen reuneşte metodele legate de
cunoaşterea prealabilă a caracteristicilor populaţiei.
Metoda prin cote
Este frecvent citată în mass-media, întrucât este
folosită în cunoscutele sondaje politice. Îndivizii care
formează eşantionul sunt aleşi astfel încât caracteristicile
esenţiale ale populţiei (vârstă, sex, categorie socio-
149
profesională, stare civilă etc.) se regăsesc în eşantion în
aceleaşi proporţii, conform anumitor cote. Proporţia
repartiţiei criteriilor în cadrul populaţiei este aşadar
respectată în cadrul eşantionului.
Metoda prin unităţi –tip
Această metodă constă în împărţirea populaţiei în
categorii, pornind de la variabilele considerate esenţiale
pentru problematica studiului respectiv.
2) Metodele probabiliste
Acest termen reuneşte metodele care fac apel la
extracţia aleatorie a indivizilor ce formează eşantionul.
Tragerea la sorţi elementară
Constă în numerotarea tuturor indivizilor care
formează populaţia studiată şi apoi extragerea, la
întâmplare, a unui număr definit de numere. Teoretic,
diferitele caractere ale populaţiei sunt identic reprezentate
în eşantion. Un exemplu clasic constă în a imagina o urnă
cu 100 de bile, dintre care 60 sunt roşii, 30 albastre şi 10
verzi. Dacă bilele sunt bine amestecate, extragerea
aleatorie a 10 bile trebuie să prezinte culorile în aceleaşi
proporţii, adică 6 bile roşii, 3 albastre şi una verde. La fel
150
se întâmplă şi pentru caracterele umane. La sfârşitul unei
trageri la sorţi, dispunem astfel de indivizi care, teoretic,
prezintă totalitatea caracterelor populaţiei şi, drept urmare,
constituie un grup reprezentativ pentru această populaţie.
Metoda are însă un dezavantaj: necesită foarte mult
timp pentru recenzarea tuturor indivizilor care formează
populaţia şi găsirea indivizilor al căror număr a fost tras la
sorţi. Drept urmare, în majoritatea cazurilor, această
metodă se foloseşte pentru populaţii reduse, în care
indivizii care o compun pot fi evaluaţi şi recunoscuţi.
Tragerea la sorţi secvenţială
Este tragerea la sorţi dupa crirerii succesive. O
populaţie se defineşte print-un anumit criteriu, după care
se extrage aleatoriu un eşantion ce răspunde acestui
criteriu. Se defineşte apoi un alt criteriu şi, din interiorul
primilui eşantion, se treage din nou la sorţi pe baza acestui
nou criteriu etc. De exemplu, vrem să facem un studiu
asupra studenţilor din primul an de psihologie. Se
prelevează la întâmplare un anumit număr de studenţi, iar
dintre ei se reperează cei care sunt înscrişi la psihologie.
Se face o nouă tragere la sorţi dintre aceşti indivizi, după
care îi reperăm pe cei înscrişi în anul I şi facem şi facem a
151
treia tragere la sorţi. Putem spori numărul de criterii, dar
fiecare criteriu suplimentar limitează numărul de indivizi
disponibili: probabilitatea de a întâlni indivizii care
răspund tuturor criteriilor scade pe măsură ce creşte
numărul de criterii.
Metoda stratificării
Populaţia se împarte în subpopulaţii numite straturi,
care au, fiecare, caracteristici proprii. Se trage apoi la sorţi
un eşantion din interiorul fiecărui strat. Mulţimea acestor
eşantioane constituie eşantionul de studiu.
Desigur, prezentarea metodelor de eşantionare ar
necesita o lucrare întreagă. Ce trebuie înţels aici este că
extrapolarea la ansamblul populaţiei a rezultatelor obţinute
pe un eşantion nu este fiabilă decât dacă acest eşantion
este cât mai reprezentativ pentru populaţia respectivă. Tot
aşa, compararea a două măsurători realizate pe două
eşantioane distincte nu este validă decât dacă acestea sunt
echivalente 1n planul reprezentativităţii. Vom vedea însă
că în statistică se ia o marjă de eroare la eşantionare, ceea
ce nu însemnă însă abandonarea măsurilor de precauţie
elementare în construirea eşantionului.
152
O dată eşantionul construit, se procedează la diferite
măsurători cu scopul de a trage anumite concluzii despre
populaţia din care a fost extras. Este însă posibil şi să
efectuăm măsurătorile asupra mai multor eşantioane,
pentru ale compara mai ulterior. Aşa se întâmplă practic
întotdeauna în cadrul unei experienţe. În acest caz, este
foarte important să evaluăm dacă măsurătorile au fost
realizate asupra unor eşantioane distincte (eşantioane
independente) sau asupra aceloraşi indivizi ( eşantioane
perechi;).
6.2. Legea normală
Prezentarea aşa-numitei legi „normale” permite
înţelegerea mai clară a caracteristicilor noţiunii de
inferenţă statistică. Să luăm un exemplu fictiv: se
administrează un test cu scoruri al gradului de satisfacţie
unui eşantion de 30 de turişti care au avut aceeaşi
destinaţie de vacanţă. Pentru fiecare scor, se notează
efectivul obţinut:
153
Scor la test Efectiv
3031323334353637383940
01235853210
Se efectuează apoi reprezentarea grafică a acestei
distribuţii printr-o diagrama cu beţe (Figura 6.1.):
Fig.6.1.
154
Dacă rezumăm distribuţia cu ajutorul mediei şi
abaterii standard, se obţin o medie de 35 şi o abatere
standard de 1,87. Se constată o simetrie perfectă a curbei
distribuţiei, de o parte şi de cealaltă a mediei. Aceasta este
curba unei distribuţii numite normală (curba lui Gauss).
De ce „normală”? Pur şi simplu pentru că majoritatea
caracteristicilor fizice şi umane se repartizează astfel. De
exemplu, înălţimea: există mulţi oameni a căror înălţime
este apropiată de medie şi , cu cât ne apropiem de înălţimi
extreme, cu atât numărul indivizilor scade. La fel pentru
greutate, inteligenţă, numărul de copii, puls etc. Există o
mulţime de distribuţii normale, dar ele se deosebesc prin
valorile variabilei măsurate şi prin valorile mediilor şi
abaterilor standard. Toate aceste distribuţii sunt însă
identice în ceea ce priveşte repartiţia proporţiilor pe un
continuum de variaţii. Aceasta înseamnă că pentru o
anumită valoare a oricărei distribuţii care urmează legea
normală se poate şti proporţia de valori care îi sunt
superioare şi inferioare. În acest scop dispunem de o lege
standard numită legea normală centrată şi redusă, pentru
care valoarea mediei şi a abaterii standard au fost fixate o
dată pentru totdeauna.
155
6.2.1. Legea normală centrată şi redusă
Definiţie
Orice distribuţie care urmează legea normală poate fi
transformată în distribuţie normală centrată şi redusă. În
acest scop, fiecare dintre valorile x ale distribuţiei se
transformă într-o valoare normală centrată şi redusă
(notată z) cu formula următoare:
z =
În exemplul precedent avem:
z1= z6=
z2= z7=
z3= z8=
z4= z9= =1,60
z5= z10=
156
z11=
Obţinem deci o nouă distribuţie (distribuţie normală
centrată şi redusă) căreia îi putem calcula media şi
abaterea standard. Se observă că media este egală cu 0 şi
abaterea standard este egală cu 1. Această distribuţie fiind
standardizată, este uşor de alcătuit un tabel cu proporţiile
de valori care se găsesc de o parte şi de alta a unei valori z
date, tabelul legii normale centrate şi reduse. Se citeşte în
felul următor:
Să presupunem că vrem să găsim proporţiile asociate
lui z = 1,96 (care, datorită caracteristicilor legii normale
centrate şi reduse, înseamnă proporţiile de valori aflate la
o distanţă de 1,96 abateri standard de medie).
În prima coloană a tabelului, căutăm întregul şi
prima zecimală a valorii z (adică 1.9); pe prima linie
căutăm complementul, adică a doua zecimală (aici:0.06).
La intersecţia lor se află valoarea 0.05000), care
corespunde frecvenţei (exprimată pe o scală de la 0 la 1)
sumei probabilităţilor valorilor aflate de la o distanţă de
1,96 abateri standard de medie. Aceasta înseamnă pur şi
simplu că, în procente, 5% din valori sunt inferioare lui –
157
1,96 şi superioare lui + 1,96. Sau, cu alte cuvinte, că 2,5%
din valori sunt inferioare lui –1,96 şi 2,5% - superioare lui
1,96.
Legea normală centrată şi redusă are numeroase
utilizări, pe care nu le vom enumera aici. Cea care ne ve
interesa este aceea care permite estimarea probabilităţii de
apariţie a diferitelor valori ale unei variabile.
De exemplu, un studiu asupra a 1.000 de copii mici
arată că primele cuvinte apar în medie la vârsta de 11,5
luni, cu o abatere standard de 3,2 luni, această distribuţie
fiind normală. Să presupunem că mama unui copil de 14
luni care nu a spus încă primul cuvânt vrea să ştie ce
proporţie de copii se află în aceeaşi situaţie cu al ei. Pentru
a-i răspunde, transformăm valoarea 14 în variabilă
normală centrată şi redusă, cu ajutorul formulei de mai
sus. Se obţine:
z =
Raportându-ne la tabel, observăm că proporţia
asociată lui z =0,78 este de 0,43539. Deci 43,53 % dintre
copii spun primele cuvinte după 14 luni şi înainte de
[11,5-(14-11,5)] = 9 luni. Dată fiind simetria strictă a legii,
158
putem răspunde mamei că 21,76 % (43,53/2) dintre copii
spun primele cuvinte după vârsta de 14 luni şi că, prin
urmare copilul ei nu este un caz izolat.
De la descriere la inferenţă
Principiul general
Am văzut că legea normală centrată şi redusă
permite evaluarea frecvenţelor de apariţie a anumitor
valori într-un eşantion al unei populaţii date. Această lege
permite deci descrierea distribuţtiei eşantionului în funcţie
de medie şi de abaterea standard.
Foloasele ei merg însă mai departe. Plecând de la
cunoştiinţele asupra eşantionului (media, abaterea standard
şi mărimea lui), putem estima mai mult sau mai puţin
precis, parametri ce caracterizează populaţia din care s-a
extras acest eşantion. Plecând de la anumiţi parametri ai
eşantionului, încercăm extrapolarea lor la o populaţie.
Trecem astfel de la procedură descriptivă la una
inferenţială.
Se pune deci întrebarea următoare: putem deduce
media şi abaterea standard a unei populatii pornind de la
159
media şi abaterea standard a unui eşantion de mărime n,
extras din această populaţie?
Ca să răspundem acestei întrebări trebuie să zăbovim
puţin asupra legii normale centrate şi reduse.
Fie o populaţie din care s-au prelevat un număr mare
de eşantioane. Facem aceeaşi măsurătoare pe toate aceste
eşantioane şi se calculează mediile şi abaterile standard
corespunzătoare. Putem deci să ne apropiem de distribuţia
respectivelor medii şi să-i calculăm media şi abaterea
standard. Observăm că această medie este egală cu aceea a
populaţiei şi că abaterea standard, numită eroare de
eşantionare (eroare de sondaj) pe medie, este egală cu
abaterea standard a populaţiei împărţită la .
Ori, în realitate, acest lucru este imposibil, întrucât
nu putem extrage un număr mare de eşantioane. Încercăm
atunci să evaluăm, pornind de la un singur eşantion,
valoarea probabilă a mediei populaţiei din care s-a extras.
Se demonstrează că, dacă distribuţia măsurătorilor
realizate pe eşantion urmează legea normală, media este
aproximativ egală cu cea a populaţiei din care a fost
extras, iar eroarea de eşantionare este egală cu abaterea
standard a eşantionului împărţită la .
160
Noţiunea de prag de încredere
Aceasta mai apare în anumite lucrări de specialitate
şi sub denumirea de grad de confidenţă sau de certitudine.
Media populaţiei este doar aproximativ egală cu cea
a eşantionului deci nu poate fi dedusă strict. Se pot însă
calcula limitele între care se situează. Ele se numesc limite
de încredere ale mediei populaţiei şi vom vedea cum se
determină. Vom încerca, desigur, să definim aceste limite
cu cea mai mare certitudine. Ori, într-un fel, gradul de
certitudine se poate controla adoptând un risc de eroare:
media să nu se găsească între limitele calculate.
Principiul este uşor de înţeles: să ne imaginăm patru
studenţi care au dat un examen de statistică şi sunt
întrebaţi ce notă cred că vor lua. Primul estimează, fără
siguranţă, că va lua 10. Al doilea afirmă, ezitând, că va lua
între 9 şi 11. Al treilea spune că este rezonabil să ia între 7
şi 13. În sfârşit, al patrulea este absolut sigur că va lua
între 0 şi 20. Această poveste ilustrează bine că, pe măsură
ce intervalul de încredere creşte, creşte şi siguranţa
studentului. Invers, cu cât riscul asumat este mai mare, cu
atât intervalul este mai mic. Astfel, când afirmăm că,
ţinând cont de media şi de abaterea standard ale
161
eşantionului, media populaţiei este strict egală cu o anume
valoare, precizia este mare, dar ne asumăm riscul enorm
de a înşela. Dacă estimăm însă că media populaţiei
fluctuează într-un interval foarte larg, riscul de a ne înşela
este mic, dar precizia este şi ea redusă. Trebuie deci să
găsim cel mai bun compromis între riscul de eroare şi
precizia inferenţei.
O convenţie a comunităţii ştiinţifice ne poate ajuta la
asumarea acestei grele responsabilităţi: toţi autorii sunt de
acord că nivelul maxim de risc trebuie plasat la 5% - ceea
ce înseamnă că media populaţiei are minimum 95 de şanse
din 100 să aparţină intrevalului calculat (şi deci 5% şanse
să nu aparţină acestui interval). Întrucât pragul de 95%
este un minimum acceptabil, el poate fi ridicat (99 şanse,
99,9 şanse...). Tot prin convenţie ştiinţifică valorile
acestora sunt precalculate şi se gasesc de regulă la sfârşitul
publicaţiei în care se utilizează.
162
Aplicaţie
Să revenim la problema noastră. Am vazut că, dacă
distribuţia valorilor prelevate într-un eşantion urmează o
lege normală, atunci: Media eşantionului = Media
populaţiei şi
Eroarea de eşantionare =
.
Distribuţia fiind normală, media eşantionului poate fi
transformată în variabilă normală centrată şi redusă cu
formula
z = care, aici,
devine:
z =
Adică, după rezolvare:
Media populaţiei = Media eşantionului
Aici intervine gradul de certitudine pe care l-am
amintit. Valoarea z se va fixa conform pragului de
163
încredere dorit (risc de eroare 5%, de 1%...). Dacă fixăm
ca prag de încredere maximul stabilit de comunitatea
stiinţifică (5%, adică 0,05), este suficient să ne raportăm la
tabelul legii normale centrate şi reduse şi să-l citim invers,
pentru a determina valoarea z corespunzătoare acestui
prag. Găsim z = 1,96. Astfel, cu un risc de eroare de 5%,
se poate afirma că media populaţiei se situează între:
Media eşantionului –(1,96
)
şi
Media eşantionului + (1,96
)
Aplicaţie
Gradul de satisfacţie al unui grup de 280 de copii de
aceeaşi vârstă aflaţi într-o tabără a fost examinat cu
ajutorul unei scale cu scoruri. Media scorurilor observate
a fost de 108, cu o abatere standard de 14,6. Dorim să
estimăm, la pragurile de 0.05 şi 0.01, media populaţiei din
care s-a extras acest eşantion.
In tabelul legii normale centrate şi reduse se observă
că, la pragul 0.05, z = 1,96. Se poate calcula acuma
164
intervalul căruia îi aparţine media populaţiei din care s-a
extras acest eşantion:
- limita inferioară = 108 –(1,96 ) =106,28;
- limita superioară = 108 +(1,96 ) =109,71
Se estimează deci, cu un risc de eroare de 5%, că
media coeficienţilor ai copiilor de clasa a şasea este
cuprinsă între 106,28 şi 109,71.
La pragul de 0.01, valoarea z este 2,56. Formulele
devin:
- limita inferioară =
- limita superioară =
În consecinţă, cu un risc de eroare de 1%, se
estimează că media coeficienţilor intelectuali ai copiilor de
clasa a şasea este cuprinsă între 105,76 şi 110,23.
Observaţie. Se constată că intervalul se măreşte
cănd riscul de eroare este mai slab. Aceasta este o ilustrare
perfectă a gradului de certitudine amintit mai sus. Cu cât
165
gradul de certitudine este mai slab, cu atât imprecizia este
mai mare, şi invers.
Eşantioane mici şi mari
Am văzut la începutul acestei secţiuni că repartiţia
mediilor posibile ale eşantioanelor extrase dintr-o
populaţie tinde să aibă alura unei curbe normale. La fel,
când dintr-o populaţie se extrage un număr suficient de
indivizi a căror distribuţie este normală, curba repartiţiei
valorilor eşantionului tinde să urmeze legea normală.
Această condiţie nu este însă îndeplinită decât dacă
efectivul eşantionului este suficient de numeros. În cazul
contrar, curba repartiţiei valorilor eşantionului tinde să
urmeze legea lui Student. Mulţi autori fixează acest efectiv
la 30. Cu alte cuvinte, când efectivul eşantionului este mai
mare de 30, distribuţia valorilor tinde să urmeze legea
normală; când efectivul eşantionului este mai mic sau egal
cu 30, distribuţia valorilor tinde să urmeze legea lui
Student.
Ca şi legea normală centrată şi redusă, legea lui
Student permite determinarea probabilităţii de apariţie a
unor abateri teoretice. Aceste abateri se desemnează prin
litera t (spre deosebire de z pentru legea normală centrată
166
şi redusă). Ca şi distribuţia normală, distribuţia lui t este
simetrică. Şi ea are media egala cu 0, dar abaterea standard
depinde de gradul ei de libertate egal cu (efectivul
eşantionului-1).
Formula de determinare a intervalelor de fluctuaţie a
mediei populaţiei este, desigur, aceeaşi. Singura schimbare
reprezintă, în cazul eşantioanelor mai mici sau egale cu
30, valoarea z înlocuită printr-o valoare t dată de tabelul t a
lui Student.
Acest tabel se citeşte astfel:
- în prima coloană se află gradele de libertate (gdl);
- pe prima linie, pragurile de probabilitate;
- în interiorul tabelului, valorile lui t.
Aplicaţie
Un grup de 25 de copii de aceeaşi vârstă aflaţi într-o
tabără au fost rugaţi să-şi exprime atracţia pentru un set
de activităţi utilitând o scără cu scoruri . Media scorurilor
a fost de 98, cu o abatere standard de 10. Dorim să
estimăm, la pragul de 0.02, media populaţiei din care s-a
extras acest eşantion.
Avem un eşantion cu efectiv redus. În tabelul t a lui
Student, la pragul de probabilitate de 0.02 şi gradul de
167
libertate gdl = 25 – 1 = 24, găsim t = 2,4. Se poate calcula
acum intervalul căruia îi aparţine media populaţiei din care
s-a extras acest eşantion:
- limita inferioară = 98 – (2,4 ;
- limita superioară = 98 + (2,4 .
În consecinţă, cu un risc de eroare de 2% se estimează că media coeficienţilor
intelectuali ai copiilor de clasa a şasea este cuprinsă între 93,2 şi 102,8.
6.2.2. Principiul testelor statistice
Reamintim că scopul colectării datelor îl reprezintă,
după analiză şi tratament, confirmarea sau infirmarea unei
ipoteze. În acest scop, dispunem în statistică de multe teste
care ne permit să răsundem unor ipoteze. Există, de
asemenea, teste care compară între ele medii, proporţii,
varianţe, teste care studiază corelaţiile între două variabile
etc. Folosirea oricărui tip de test este supusă unui
tratament prealabil: trebuie formulate două ipoteze, în
general contrare, care vor fi testate alternativ.
168
Ipoteza nulă. Această ipoteză, notată Ho, presupune
că fenomenul studiat se datorează unor factori întâmpători,
şi nu unor factori sistematici. Cu alte cuvinte, a formula
ipoteza nulă înseamnă a afirma că toate măsurătorile pe
care dorim să le comparăm sunt strict egale sau că
diferenţele dintre ele se datorează numai întâmpării (adică
eşantionării aleatorii, faptului că eşantioanele comparate
nu sunt strict echivalente sau faptului că, prin definiţie, în
ştiinţele umane, fiecare individ dintr-un eşantion este
diferit de un altul etc.)
Ipoteza alternativă sau iniţială. Notată Hi, aceasta
corespunde în general ipotezei că fenomenul observat nu
se datorează fluctuaţiilor de eşantionare, ci unor factori
manipulaţi sau studiaţi. Această ipoteză presupune deci că
întâmplarea nu este suficientă pentru explicarea
diferenţelor obţinute între eşantioane.
Dintre aceste două ipoteze, cea verificată de testele
statistice este întotdeauna ipoteza nulă. Orice test este
construit pe baza absenţei de efect a unei variabile
oarecare. Sunt deci posibile două soluţii:
Ipoteza nulă fie se păstrează, fie se respinge, şi
atunci putem reţine ipoteza alternativă.
169
Menţinerea sau respingerea Ho nu este dată totuşi de
rezultatul absolut al testului, ci este mai ales legată de
riscul de eroare pe care carcetătorul şi-l asumă atunci când
afirmă că una dintre cele două ipoteze este adevărată.
Acest risc de eroare se numeşte prag de semnificativitate,
prag de probabilitate sau prag de încredere, aşa cum l-am
numit mai sus. Valoarea lui fixează riscul pe care ni-l
asumăm atunci când afirmăm că fenomenul observat se
datorează mai degrabă unui factor sistematic decât unor
erori de eşantionare. Am văzut că, de obicei, pragul
acestui risc se fixează la 5%.
Cu alte cuvinte, testul ne spune că: potrivit datelor
colectate, dacă afirmaţi că se respinge ipoteza nula, vă
asumaţi un risc de 5% sau de 1%... să vă înşelaţi. Sau:
puteţi afirma că se respinge ipoteza nulă, dar aveţi 5% sau
1%... şanse să nu fie adevărat. În jargonul statistic, se
spune că un anumit rezultat este semnificativ la 0.05 sau
0.01.. Dincolo de pragul celor 0.05, despre acest rezultat
se spune că este nesemnificativ sau că riscul de a afirma
că HO este falsă este prea mare.
6.3. Teste parametrice şi teste neparametrice
170
Se disting două familii de teste statistice: cele numite
teste parametrice, a căror formulare se sprijină pe legile
probabilităţii care cer ca distribuţiile studiate să aibă
anumite caracteristici, şi cele numite teste neparametrice,
care nu cer respectarea acestor caracteristici.
Pentru folosirea unui test parametric, este de dorit ca,
măcar într-o măsură aproximativă:
- distribuţia sau distribuţiile să urmeze o lege
normală;
- datele de care dispunem să provină dintr-o scală
de intervale;
- dacă dorim să comparăm mediile a două sau mai
multe distribuţii, varianţele acestora să fie
omogene (adică nu trebuie să existe
dezechilibre mari ale dispersiilor).
Înaintea folosirii oricărui test parametric, trebuie să
ne convingem că aceste condiţii sunt îndeplinite. În
realitate însă, majoritatea utilizatorilor efectuează foarte
rar o asemenea verificare. Riscul asociat acestei omisiuni
este că ipoteza nulă se respinge în mod greşit şi că se
constată diferenţe sau relaţii acolo unde ele nu există.
171
Testele neparametrice nu impun condiţii de
normalitate şi omogenitate ale dispersiilor. Se spune că ele
sunt independente de distribuţie. Ar trebui deci ca ele să
fie folosite sistematic ori de câte ori datele culese pe o
scală de intervale nu se distribuie conform legii normale şi
sunt deosebit de indicate pentru măsurători efectuate pe
scale ordinale sau de tip „clasament”. Testele neparemetrice
au însă reputaţia de a fi mai puternice decât cele
parametrice, de unde frecvenţa excesiv de scăzută a
utilizării lor, consecinţele acestei pretinse slăbiciuni fiind
creşterea riscului de respingere greşită a ipotezei nule.
172
Capitolul 7
TESTELE ÎN ANALIZA STATISTICĂ APLICATĂ
Analiza statistică presupune aplicarea unor metode de
calcul datelor sau şirurilor de date statistice în vederea:
testării anumitor calităţi, caracteristici ale acestora
stabilirii existenţei unei relaţii între acestea
determinarea tipului de relaţii dintre acestea
determinarea semnificaţiei relaţiei dintre date
Aminteam la sfârşitul capitolului precedent faptul că în
statisică există două categorii de teste: parametrice şi
neparametrice. Testele parametrice sunt teste care se
utilizează mai ales în ştiinţele exacte , aplicându-se în
general dalor intervale cu frecvenşe absolute. Datele
cărora li se aplică trebuie să aibă o distribuţie normală.
Sunt cunoscute ca fiind teste foarte riguroase, cu
“greutate” ştiinţifică. Datorită acurateţii privind calitatea
datelor aceste teste se utilizează mai rar în ştiinţele sociale
şi deci şi în turism sau geografia umană.
173
Testele neparametrice. Acestea se aplică tuturor
categoriilor de caracteristici (nominale, ordinale sau
intervale). Distribuţia normală a datelor nu este o condiţie
pentru a putea fi utilizate în testele non parametrice.
Aceste teste sunt mai puţin pretenţioase în ceea ce
pviveşte calitatea datelor ca cele parametrice dar sunt mult
mai ‚robuste’ şi flexibile.
În turism aproape toate metodele aplicate sunt
neparametrice.
Cu alte cuvinte în acest curs de statistică aplicată se
vor utiliza numai metode şi tehnici neparametrice
7.1. Corelaţia
7.1.1. Introducere
Definiţii.
“Corelaţia... reprezintă un test utilizat pentru
exprimarea gradului de asociere sau a intensităţii unei
relaţii existente între două valori sau mai multe
variabile”(Goodall 1987)
174
“Corelaţia ... este o metodă... de descriere a gradului
de asociere dintre 2 seturi de valori pereche” (Hammond
and McCullagh 1982)
Corelaţia este o metodă eficientă de a detecta şi
însuma relaţiile dintre două variabile. Aspectul cel mai
important privind corelaţia este acela privind „citirea” lor,
adică interpretarea rezultatului obţinut. Acest rezultat, de
fapt , măsoară legătura dintre variabile; stabileşte gradul
de legătură dintre ele. Această măsurătoare sau grad se
numeşte , coeficient.
Există un număr mare de coefcienţi de corelaţie în
statistică, în funcţie de natura variabilelor , a legăturii, a
modului de colectare a datelor etc. Toţi coeficienţii de
corelaţie în final detectează dacă valorile unor variabile
co-variază (variază împreună). Adică indică dacă
diferenţele apărute la nivelul valorilorilor unei variabile
tind să se asocieze cu diferenţele apărute la nivelul alteia.
Odată stabilită corelaţia, această NU presupune automat,
faptul că o variabilă este determinată sau cauzată de
cealaltă. Corelaţia stabileşte prezenţa de relaţii cauzale,
dar nu este suficintă pentru a demonstra cauzalitatea
175
unei relaţiI. Cu alte cuvinte corelaţia poate indica prezenţa
unei relaţii de cauzalitate dar nu o demonstrează.
În afară de faptul că prin corelaţie se stabileşte co-
variaţia, coeficienţii de corelaţie pot furniza trei tipuri de
informaţie asupra relaţiei descoperite:
1. intensitatea relaţiei, indicată de valoarea
coeficentului de corelaţie; cu cât acesta este
mai mare cu atât relaţia este mai puternică
2. direcţia relaţiei (mai ales pentru datele
ordinale şi intervale), pozitivă sau negativă
3. linearitatea, tendinţa de distribuţia a datelor
variabile, liară sau non-lineară
Mai concret: în statistică corelaţia are un înţeles,
semnificaţie, specific/ă. Presupune automat faptul că , spre
exemplu ,”în timp ce o variabilă creşte sau descreşte ca
valoare a doua variabilă creşte sau descreşte şi ea”. Pentru
exemplificare priviţi figura de mai jos. ( Fig. 7.1.)
Ea reprezintă un exemplu de distribuţie a două variabile A
şi B. Vizual, se poate detecta vreo relaţie, corelaţie între
ele? Adică putem spune că se întâmplă ceva cu A în timp
ce cu B se întâmplă ceva sau altceva? Există o relaţie de
covariaţie?
176
Fig. 7.1.
Răspuns corect: nu !
Dar în figura de mai jos?
Fig. 7.2.
177
Răspuns corect: da! Mai mult observăm că atunci când
una creşte, cealaltă creşte şi ea. În limbaj statistic avem de
a face cu o corelaţie pozitivă între cele 2 variabile.
Repetăm jocul observaţei şi cu figura de mai jos!
(Figura 7.3.) Există vreo relaţie, corelaţie între variabilele
de mai jos?
Fig. 7.3.
Răspuns corect: da! Mai mult observăm că atunci când
una scade, cealaltă scade şi ea. În limbaj statistic avem de
a face cu o corelaţie negativă între cele 2 variabile.
Până în acest stadiu am putut determina doar vizual
existenţa sau inexistenţa unei co-variaţii şi direcţia.
Fireşte pentru a determina aspecte privind intensitatea
178
relaţiei şi linearitatea ei este nevoie de mult mai mult
decât o observaţie vizuală. Este nevoie de obţinerea prin
calcul a coeficientului de corelaţie.
Corelaţia ca şi metodă de calcul statistic va avea
întotdeauna ca rezultat o valoare numerică cuprinsă între -
1 şi +1
Acesta poartă denumirea de coeficient de corelaţie şi
se notează cu r şi va avea precum aminteam mai sus valori
ce se pot înscrie/reprezenta pe axa de mai jos
-1____________ 0 ___________+1
Ca urmare în funcţie de valorile înregistrate de r, în
teoria modelelor de corelare apar situaţiile ideale şi
anume: corelaţia perfect negativă şi cea perfect pozitivă,
cu distribuţie perfect lineară ; adică valorile ambelor
variabile se distribuie perfect linear ascendent sau
descendent (cu inclusiv situaţia exccepţională când cele
două variabile se suprapun ca valoare). Priviţi figurile
7.4a, 7.4b.
179
Fig. 7.4a : Corelaţia perfect negativă (r = -1)
Fig .7.4b: Corelaţie perfect pozitivă (r = +1)
Ele reprezintă modelele ideale, perfecte de corelare.
Acestea sunt evident situaţiile de exccepţie, în realitate,
relaţia dintre variabile înregistrând intensităţi, direcţii şi
linearităţi diferite comportându-se ca atare!
180
Aşa cum aminteam anterior, există un număr foarte
mare de metode statistice de corelare ! Cele mai cunoscute
şi utilizate sunt:
1) Coeficientul de corelaţie produs-moment,
Person (Pearson’s Product Moment Correlation Coefficient).
Acesta este un coeficient de corelaţie parametric, adică
mai rar utilizat în ştiinţele sociale şi deci şi în turism
(prezentat în capitolul anterior, vezi capitolul 6).
2) Coeficientul de corelaţie cu rang, Spearman
(Spearman’s rank Correlation Coefficient). Formula
acestuia ca variantă simplă lineară este:
7.1.2. Coeficientul de corelaţie cu rang, Spearman: condiţii de aplicare
- date (variante) pentru 2 variabile.
- acelaşi număr de valori pentru ambele variabile.
- minimum 4 perechi de valori.
- date ordinale sau intervale.
Calculul formulei coeficientului de corelaţie presupune
12 stadii !
181
Studiu de caz
Râmania, perioada 1991 - 2000
Variabila 1: PNB (per cap loc.)
Variabila 2: Număr vizitatori străini
An PNB(US$) Număr vizitatori
străini
1991 1243 5,359,000
1992 859 6,401,000
1993 1159 5,786,000
1994 1323 5,898,000
1995 1564 5,445,000
1996 1563 5,205,000
1997 1565 5,149,000
1998 1872 4,831,000
1999 1585 5,224,000
2000 1645 5,264,000
182
Dorim să vedem dacă există vreo relaţie/corelaţie între
PNB şi numărul de vizitatori străini, adică dorim să
stabilim dacă cele două variabile co-variază.
Stadiul 1
Se întocmeşte reprezentarea grafică de distribuţie a
valorilor celor 2 variabile pentru analiză vizuală.
Dacă distribuţia nu pare să ia o formă corelativă
înseamnă că nu există o corelaţie şi calculul nu se mai
justifică. Adică : dacă aparent nu putem stabili că cele 2
variabile co-variază, că dezvoltă vreo relaţie atunci
calculul coeficientului de corelaţie este inutil!
Pentru studiul nostru de caz distribuţia valorilor se
prezintă ca în figura (fig. 7.5.) de mai jos:
Fig. 7.5.
183
Aparent ele co-varieză, având o tendinţă
descendentă, direcţie negativă. adică pare să existe o
relaţie între cele două, o relaţie cu tendinţă neativă,
descrescătoare.
Stadiul 2
Observând datele şi distribuţia acestora situaţia este
aparentă şi neclară. În acest caz, se formulează o ipoteză.
aceasta de regulă se bazează pe observaţia efectuată. se
numeşte ipoteză iniţială şi se notează cu Hi. În cazul de
faţă o ipoteză Hi , evidentă. ar putea fi : „Există o relaţie
între PNB şi numărul de vizitatori străini în România
în perioada 1991 – 2000’”
Conform convenţiei statistice în rigoare această
ipoteză se exprimă întotdeauna negativ. Adică invers
decât pare să fie situaţia. .
Aceasta ipoteză se numeşte ipoteza nulă şi se notează
cu HO. Şi dacă aparent există o relaţie între cele două,
ipoteza nulă se va exprima: ‘ Nu există nici un fel de
relaţie între PNB şi numărul de vizitatori străini în
România în perioada 1991 – 2000’
184
Stadiul 3
Se construieşte un tabel cu 6 coloane în care se înscriu
mai întâi datele exsitente, utilizându-se primele 2 coloane
(1 şi 2)
Variabila 1
(PNB)
Variabila 2
(vizitatori)
1243 5,359,000
859 6,401,000
1159 5,786,000
1323 5,898,000
1564 5,445,000
1563 5,205,000
1565 5,149,000
1872 4,831,000
1585 5,224,000
1645 5,264,000
185
Stadiul 4
Se acordă rang de mărime valorilor variabilei 1 (i.e.
cea mai mare valoare =1, următoarea = 2 etc). Înscrieţi
rangul fiecărei valori în coloana 3.
Stadiul 5
În mod similar acordaţi rang de mărime valorilor
variabilei 2. Înscrieţi rangul fiecărei valori în coloana 4.
Tabelul va arăta acum aşa!
Variabila 1
(PNB)
Variabila 2
(număr
vizitatori)
Rang
Varia-
bila 1
Rang
Varia-
bila 2
1243 5,359,000 8 5
859 6,401,000 10 1
1159 5,786,000 9 3
1323 5,898,000 7 2
1564 5,445,000 5 4
1563 5,205,000 6 8
1565 5,149,000 4 9
186
1872 4,831,000 1 10
1585 5,224,000 3 7
1645 5,264,000 2 6
Stadiul 6
Se calculează diferenţa dintre ranguri (rang 1 – rang
2). Adică din coloana 3 se scade coloana 4. Diferenţa de
rang se notează cu d şi se înscrie în coloana 5.
Variabi
la 1
(PNB)
Variabila 2
(număr
vizitatori)
Rang
Varia-
bila 1
Rang
Variabila
2
d
1243 5,359,000 8 5 3
859 6,401,000 10 1 9
1159 5,786,000 9 3 6
1323 5,898,000 7 2 5
1564 5,445,000 5 4 1
1563 5,205,000 6 8 -2
1565 5,149,000 4 9 -5
1872 4,831,000 1 10 -9
1585 5,224,000 3 7 -6
1645 5,264,000 2 6 -4
187
Stadiul 7
Se ridică la pătrat d (diferenţa de rang). Aceasta se
notează cu d2 şi se înscrie în coloana 6.
Variabila
1 (PNB)
Variabila 2
(număr
vizitatori)
Rang
Variabila
1
Rang
Variabila 2
d d2
1243 5,359,000 8 5 3 9
859 6,401,000 10 1 9 81
1159 5,786,000 9 3 6 36
1323 5,898,000 7 2 5 25
1564 5,445,000 5 4 1 1
1563 5,205,000 6 8 -
2
4
1565 5,149,000 4 9 -
5
25
1872 4,831,000 1 10 -
9
81
1585 5,224,000 3 7 -
4
16
1645 5,264,000 2 6 -
4
16
Stadiul 8:
188
Se calculează d2 adică suma tuturor valorilor d2.
d2 = 294
189
Stadiul 9:
Utilizaţi datele obţinute în formula următoare:
unde
rs = este coeficientul de corelaţie)
n = numărul de perechi ale variabilelor 1şi 2 (sau A
şi B)
rs = - 0.78 (aceasta este Coeficientul de de corelaţie)
Stadiul 10:
Se analizează semnificaţia coeficientului de
corelaţie. Analiza semnificaţiei presupune în primul rând
testarea semnificaţiei. Testarea semnificaţiei presupune
siguranţa, corectidunea, încrederea în rezultatul obţinut.
190
Aceasta se exprimă prin gradul de confidenţă al
coeficientului de corelaţie.
De regulă în ştiinţele sociale este nevoie de un grad
de confidenţă de cel puţin 95% înainte să se accepte un
coeficient. În statistică gradul de confienţă este notat cu p.
El este pre calculat şi se găseşte în tabele consacrate. Un
grad de confidenţă de 95% se notează în aceste tabele sub
forma de p = 0.05. Gradul de confidenţă este menţionat
întotdeauna în interpretare şi analiză şi înscris
obligatoriu în forma p = 0.05
Pentru o siguranţă şi o rigoare ştiinţifică mai mare se
poate merge la 99% grad de confidenţă asupra
rezultatului. Acesta se notează cu p = 0.01 Cu cât
valoarea lui p este mai mică cu atât gradul de confidenţă
este mai mare ceea ce implică o siguranţă mai mare şi
rigoare de calcul mai mare. Gradul de confidenţă cu
care se lucrează se stabileşte încă din stadiile incipiente
de calcul în funcţie de natura variabilelor şi numărul de
perechi de date disponibile. În general pentru studiul
proceselor, fenomene sociale cu caracter amplu, general
când sunt disponibile puţine perechi de date şi ne
raportăm la perioade de timp mari, se lucrează cu p =
191
0,05. Când se studiază procese, fenomene de detaliu cu
număr mare de perechi de date,pe perioade mici de timp
se lucrează că cu p = 0,01.
Tabelul de mai jos reprezintă o variantă simplificată
a unui tabel consacrat cu grade de confidenţă.
Pentru stabilirea semnificaţiei din studiul nostru de
caz se utilizează coloana 1 în care se află N = numărul de
perechi de variabile. În studiul nostru de caz am utilizat 10
perechi. Astfel urmărim pentru N = 10, valorea de
semnificaţie pentru p = 0.05.
N(număr de perechi de variabile)
95%(p = 0.05)
99%(p= 0.01)
5 1.000 -6 0.886 1.0007 0.786 0.9298 0.738 0.8819 0.683 0.83310 0.648 0.79412 0.591 0.77714 0.544 0.71516 0.506 0.665
192
Se raportează valoarea lui r la valorile p = 0.05 pentru
N =10.
Dacă coeficientul de corelaţie r este egal sau mai
mare decât valoarea lui p [se ignoră semnul lui r (plus sau
minus)] SE RESPINGE IPOTEZA NULĂ.
Coeficientul de corelaţie r, este 0.78, mai mare decât
valorea lui p = 0,05 ( de 95%) aceasta fiind de0.648. În
concluzie se respinge ipoteza nulă (Nu există nici un fel
de relaţie între PNB şi numărul de vizitatori străini în
România în perioada 1991 – 2000’) şi se acceptă ipoteza
iniţială, (Există o relaţie între PNB şi numărul de vizitatori
străini în România în perioada 1991 – 2000’”)
Dacă s-ar fi ales ca grad de confidenţă p = 0,01
situaţia ar fi fost coplect diferită. S-a stabilit ca grad de
confidenţă p = 0,05 deoarece: variabilele se referă la
indicatori destul de ampli, la nvel de ţară pe o perioadă
destul de limitată de timp cu valori la nivel anual.
În concluzie se poate spune că cele două variabile sunt
corelate cu un grad de confidenţă de 95%
193
Stadiul 11
Cel mai important lucru din punct de vedere al
ştiinţelor sociale şi deci şi al turismului este interpretarea
şi analiza rezultatelor. Ce înseamnă valoarea lui rs şi
faptul că am acceptat Hi ?
În final oricine poate calcula un coeficient de
corelaţie. Important este cum este interpretat rezultatul şi
ce înseamnă el!
Până aici s-a stabilit (ce-i drept, ştiinţific) faptul că
există o relaţie. Care este, însă natura relaţiei dintre PNB şi
numărul vizitatorilor străini din România în perioada
1991-2000?
De ce numărul turiştilor străini pare să scadă în timp
ce al PNB-ului să crească?
Ce putem spune despre contribuţia turismului la
PNB-ul României?
194
Stadiul 12:
Se scriu intepretările. Aici este locul şi momentul în
care se foloseşte coeficientul de corelaţie, pentru
interpretarea rezultatelor
De regulă se foloseşte formula:
“Există o puternică corelaţie negativă între PNB
şinumărul de vizitatori străini în România în perioada
1991 – 2000 (rs = -0.78, p = 0.05). Acest fapt se
datorează …”
7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică .
Definiţie
Semnificaţia statistică reprezintă una dintre cele patru
funcţii de baza ale statisticii. În literatura de specialitate
această tema se mai găseşte şi sub denumirea de „testarea
semnificaţiei statistice” sau „testarea diferenţei la nivel de
set de date”
195
7.2.1. Introducere
Pentru a pune întreaga temă într-un context clar şi
logic este necesară în acest moment o trecere în revistă a
teoriei funcţiilor statisticii.
Din punctul de vedere al ştiinţelor sociale (inclusiv a
turismului şi ) statistica devine utilă prin cele 4 funcţii de
bază ale sale:
funcţia descriptivă
funcţia deductivă
funcţia semnificaţiei
funcţia prognozării
În primele capitole ale cursului s-a insistant în mod
deosebit asupra teoriei datelor şi operaţiilor statistice
elementare sau a primelor stadiile de operare statistică. La
o privire mai atentă se poate concluziona că acestea
reprezintă de fapt „instrumente” ale funcţiei descriptive.
Ele nu fac altceva decât să descrie într-o măsură mai mică
sau mai mare, mai superficial sau mai profund elemente,
componente, procese sau fenomene ale activităţii sociale
sau .turistice în cazul nostru.
196
A fost prezentat anterior şi o metodă de determinare
şi stabilrea existenţei unei relaţii între două variabile care
nu a reprezentat altceva decât un exemplu aplicativ al
funcţiei deductive . Astfel de metode se mai numesc şi
metode statistice deductive sau pur şi simplu statistici
deductive ca urmare a faptului că pornesc de la o supoziţie
(deducţie) stabilită (demonstrată) ulterior şi verificată
printr-un rezultat. În turism ca şi în geografie, specialiştii
lucrează preponderent cu date selective (obţinute prin
generare) şi care nu sunt exhaustive. Adică aceste date
reprezintă eşantioane (sunt obţinute eşantionat) dintr-
o populaţie întreagă; sunt şiruri finite; ”incomplete”
deoarece totalitatea lor absoluta este imposibil a fi
obţinută. Exemplu: comportamentul decizional în alegerea
destinaţiei de vacanţă pentru o anume grupă de vârstă de
turişti sau grupă socială”. A obţine datele statistice pentru
întreaga populaţie , adică toţi potenţialii turişti fie şi ai
unui oraş este aproape imposibil. Se selectează astfel un
eşantion reprezentativ asupra căruia se generează datele
statistice necesare iar cu datele respective se fac aprecieri,
deducţii, în funcţie de anumiţi factori sau situaţii luate în
calcul, pentru a se demonstra comportamentul decizional.
197
Acest comportament poate fi corelat în evoluţia sau
desfăşurarea sa cu anumiţi alţi factori etc (co-variaţia).
Selectarea, eşantionarea presupune obligatoriu
probabilitatea existenţei unui anumit grad de eroare în
măsurătoare şi în deducţia finală (a se revedea toată teoria
cu gradul de confidenţă). Probabilitatea este conceptul
statistic care deosebeşte datele selective, (finite, obţinute
prin eşantionare) de cele exhaustive (absolute, complete,
obţinute în ştiinţele exacte din măsurătorile de laborator şi
care reprezintă toată populaţia nu un eşantion). Prin
urmare datele selective, eşantioanele, includ o
probabilitate de eroare în timp ce cele exhaustive NU
(acestea fiind cele folosite în metodele parametrice).
Metodele de analiză statistică precum coeficienţii de
corelaţie stabilesc o relaţie şi serie de caracteristici dar nu
dau posibilitatea aprofundării cauzalităţii sau a altor
aspecte relaţionale. În concluzie funcţia deductivă
presupune că: în condiţii specifice, probabilitatea unei
presupuneri/ipoteze (deducţii) efectuate pe baza unor
eşantioane de populaţie , să fie validă.
Profunzimea analizei statistice este dată în
continuare de îndeplinirea funcţiei semnificaţiei.
198
7.2.2 Semnificaţia statistică
Aspectele privind semnificaţia statistică a unor
mărimi, valori, variabile sau – mai frecvent – cea a
semnificaţiei diferenţei dintre două mărimi, valori,
variabile atunci când se compară , presupune că cel puţin
una dintre ele se obţine prin eşantionare. Acest ultim fapt
presupune la rândul său ideea de probabilitate de eroare.
Semnificaţia statistică reprezintă una dintre cele mai
puternice funcţii din punct de vedere al ştiinţelor socio-
geografice şi deci şi turistice. Aceasta stabileşte dacă
diferenţa sau relaţia dintre două seturi de date selective
(eşantioane) este semnificativă.
Ea presupune în primul rând comparaţia între valori
(cel puţin una) determinate la nivel de eşantion, adică
acele valori care nu reproduc perfect şi absolut
caracteristicile populaţiei statistice. Aceste valori
presupun prin natura lor o marjă de variaţie adică un
interval pe care se găsesc valorile efective ale populaţiei.
Undeva apare o diferenţă!
Pentru a fi siguri că diferenţa dintre valorile în
eşantion reflectă o diferenţă reală de valori în populaţii,
distanţa dintre mărimile comparate trebuie să depăşească
199
mărimea intervalului pe care se află , cu o anumită
probabilitate, valorile din populaţie. Cu alte cuvinte o
diferenţă este semnificativă dacă depăşeşte eroarea
maximă admisă, adică ea nu poate fi pusă (integral) pe
seama fluctuaţiilor fireşti de eşantionare.
În caz contrar se va spune că diferenţa nu este
semnificativă (exclus a se folosi nesemnificativă). O
diferenţă care nu este semnificativă reflectă o deosebire
despre care nu se poate spune cu o probabilitate suficient
de mare că este reală, acesta nu înseamnă că ea nu este
reală.
7.2.3. Testele de semnificaţie sau testarea diferenţei la seturi de date/eşantioane
Ce presupun testele de semnificaţie sau testarea unei
diferenţe la seturi de date/eşantioane? Obiectivul final al
acestora este acela de a explica diferenţa aparentă. Înainte
de a se căuta explicaţii cauzale, se doreşte a se determina
cât de mare este această diferenţă cât de semnificativă este
ea.
În domeniul turismului şi al studiilor privind
recreerea, în mod frecvent şi de regulă se folosesc date
200
relevante pentru comparaţie ca de exemplu : locaţii
diferite, ori asupra unor grupe umane diferite sau înainte şi
după un anume eveniment.
În astfel de situaţii apare necesitatea determinării
semnificaţiei diferenţelor dintre valori, mărimi, variabile;
adică a se testa diferenţele presupuse, (incluse,
implementate ori induse) de seturile respective de
eşantioane de date.
Exemple de eşantioane de date utilizate:
Preţul mediu hotelier la cazare în 2 staţiuni
diferite.
Comportamentul decizional asupra
destinaţiei de vacanţă a 2 grupe sociale diferite.
Grupele de vârstă ale vizitatorilor unui
obiectiv din zilele ‚cu eveniment’ sau ‚fără eveniment’.
Atitudini ale turiştilor privind destinaţia de
vacanţă înainte şi după vizitarea acesteia.
Practic avem date asupra a 2 locaţii diferite sau
grupe umane, diferenţele presupuse de acestea pot fi
evidente strict valoric numeric dar nu indică nimic despre
semnificaţia diferenţei dintre ele prin prisma intervalului
201
de raport la valorile probabile ale populaţiilor respective
(total necunoscute în cazul de faţă şi total lipsite de altfel
de relevanţă) în limitele maxime acceptabile de eroare. Cu
alte cuvinte dorim să testăm această diferenţa dintre ele şi
din punct de vedere al semnificaţiei statistice
(cuantificarea calităţii diferenţei).
Există 3 teste de semnificaţie statistică mai bine
cunoscute:
Testul „T”, un test parametric
Testul „U” sau Mann Whitney, un test
neparametric
Testul Wilcoxen sau testul ‚perechilor legate’
de asemenea un test neparametric sau
neparametric
7.2.4. Testul ‚U’sau Mann Whitney
Fiind un test de semnificaţie statistică va presupune
automat compararea a două eşantioane de date,
probabilitatea unei erori datorate de presupusa diferenţă
dintre caracteristicile acestora şi cele ale populaţiilor
respective, diferenţă arbitrată de o marjă de eroare
maximă, acceptată. Include în calcul mediile aritmetice
202
sau medianele seturilor de date. Varianta cea mai
cunoscută de formulă pentru testul U este:
nanb +
Condiţii de aplicare:
a) Date ordinale sau intervale
b) 2 seturi de date necesar a fi comparate ( nu este
necesar un număr egal de perechi de variabile)
c) Minimum 4 valori din fiecare set de variabilă
d) IPOTEZE, Ho - ca punct de pornire, în replică
pentru Hi. Ipoteza nulă (H0) presupune
întotdeauna că; ‚nu există nici o diferenţă între
cele 2 seturi de date’. Cu alte cuvinte, diferenţa
dintre cele 2 seturi de date nu este semnificativă.
Obiectivul final al testului este acela de a
respinge H0. în ideea acceptării Hi care presupune
existenţa unei diferenţe semnificative,
acceptabilă în raport cu marja maxim acceptabilă
de eroare.
203
Studiu de caz aplicativ pentru testul „U” sau
Mann-Whitney
Studiul de caz presupune testarea semnificaţiei
diferenţei pentru numărul de turişti români cazaţi în Băile
Herculane şi Drobeta Turnu Severin din 1991 până în
2000
Dorim deci să testăm dacă din punct de vedere
statistic există o diferenţă semnificativă la nivelul
numărului de vizitatori din cele 2 locaţii în aceeaşi
perioadă de timp.
Atenţie, nu este vorba despre diferenţă ca operaţie
aritmetică, aceasta nu are nici o semnificaţie, în afara
celei pur matematice. Semnificaţia statistică presupune la
un loc ideea de eşantion, de perioadă de timp ,de locaţii
diferite ce pot implica la nivelul raportării în populaţia
statistică respectivă anumite aspecte cu caracter social.
Observaţi tabelul de mai jos !
Sunt îndeplinite condiţiile de aplicare? Da iar
aplicarea testului poate continua chiar şi condiţiile
absenţei unei valori la ultima valoare a variabile 2,
204
respectiv „turiştii români cazaţi la Drobeta Turnu
Severin”.
AnulTurişti români
cazaţi la Băile
Herculane
Turişti români cazaţi la
Drobeta Turnu Severin
1991 72211 64537
1992 42968 56566
1993 72352 39182
1994 113242 40989
1995 95085 46227
1996 96631 47271
1997 66268 48885
1998 75441 32293
1999 100606 31515
2000 110286 -
Stadiul 1:
În funcţie de tipul de date pe care le deţinem se
calculează media aritmetică sau mediana.
205
În studiul de caz de mai sus dispunem de date
intervale; se calculează media aritmetică pentru fiecare
dintre cele două variabile.
Dacă
Am dispune de date ordinale se va calcula, mediana
pentru fiecare coloană de date.
Rezultatele se compară. În mod evident, dacă diferenţa
dintre medii/mediane nu este semnificativă continuarea
testului este inutilă.
Astfel:
Pentru variabla A (B. Herculane): media aritmetică =
84.509
Pentru variabla B (D.T.Severin): media aritmetică =
45.274
Diferenţă valorică semnificativă!
Stadiul 2:
Se stabileşte ipoteza nulă pe baza inversării uneia
iniţiale care presupune existenţa unei diferenţe
semnificative. Astfel:
206
Ipoteza nulă este „nu există o diferenţă semnificativă
între numărul turiştilor cazaţi la Băile Herculane şi cei
cazaţi la D.T. Severin în perioada 1991 – 2000”
Stadiul 3:
Se întocmeşte un tabel cu 4 coloane. Variabila A se
înscrie în coloana 1 iar variabila B în coloana 3, după cum
urmează:.
Variabla A
(Turişti români
cazaţi la Băile
Herculane)
Variabla B
(Turişti români
cazaţi la Drobeta
Turnu Severin)
72211 64537
42968 56566
72352 39182
113242 40989
95085 46227
96631 47271
66268 48885
207
75441 32293
100606 31515
110286
Stadiul 4:
Acordaţi ranguri de importanţă tuturor valorilor, în
ordine crescătoare. Pentru acordarea rangului de
importanţă se iau în consideraţie valorile ambelor
variabile. Cu alte cuvinte rangul NU se acorda separat pe
coloane ci la ambele împreună. Astfel valoarea cea mai
mică va primi rangul 1, următoarea ca mărime va primi
rangul 2 ...şamd.
Rangurile acordate pentru valorile variabilei A se
plasează în coloana 2. Acesta se notează cu ra
Rangurile acordate pentru valorile variabilei B se
plasează în coloana 4. Acesta se notează cu rb.
Variabla A(Turişti români cazaţi la Băile Herculane)
ra Variabla B(Turişti români cazaţi
la Drobeta Turnu Severin)
rb
72211 12 64537 10
42968 5 56566 9
72352 13 39182 3
208
113242 19 40989 4
95085 15 46227 6
96631 16 47271 7
66268 11 48885 8
75441 14 32293 2
100606 17 31515 1
110286 18
În cazul în care apar valori identice se procedează
la calcularea mediei rangurilor acestora indiferent de
numărul lor. Vezi tabelul de mai jos (caz didactic ipotetic,
nu are nici o legătură cu studiul de caz, este folosit ca
exemplu). Valoarea 45 apare de 2 ori şi ar primi rangul 3
ca mărime de importanţă. Rangul următor, 4, nu se înscrie
niciunde şi se foloseşte la calculul mediei rangurilor. (3 +
4) : 2 = 3,5
VA ra VB rb
30 1 45 3,535 2 50 5,545 3,5 58 750 5,5 62 875 11 69 980 12 70 10
209
Stadiul 5:
Se calculează separat suma ranguilor variabilei A,
notată cu ra.
ra = 140
Stadiul 6:
În mod similar se calculează suma rangilor variabilei
B, notată cu rb.
rb = 50
Stadiul 7:
Formula pentru testul U este:
nanb +
unde: na este numărul de valori al variabile A,
nb este numărul de valori al variabile B
Ea se aplică fiecărei variabile în parte!
În cazul nostru, pentru variabila A:
210
Stadiul 8:
Variabila B:
nanb +
Stadiul 9:
Dintre cele două valori U se alege prin convenţie
valoarea cea mai mică. În cazul studiului de caz de mai
sus, este vorba despre Ua = 5
Stadiul 10:
Se decide nivelul gradului de confidenţă la care
dorim să avem rezultatul. De regulă în ştiinţele sociale se
lucrează cu cel puţin 95% adică p = 0.05
211
Stadiul 11:
Se face apel la tabelele consacrate cu valori critice
ale gradului de confidenţă pentru testul U în vederea
stabilirii acestora la p = 0.05 (95%)
nb
na
1 2 3 4 5 6 7 8 9 10 11 12
12 0 0 0 0 13 0 1 1 2 2 3 3 44 0 1 2 3 4 4 5 6 75 0 1 2 3 5 6 7 8 9 116 1 2 3 5 6 8 10 11 13 147 1 3 5 6 8 10 12 14 16 188 0 2 4 6 8 10 13 15 17 19 229 0 2 4 7 10 12 15 17 20 23 26
10 0 3 5 8 11 14 17 20 23 26 2911 0 3 6 9 13 16 19 23 26 30 3312 1 4 7 11 14 18 22 26 29 33 37
Valoarea critică pentru un test cu 10 variante în
variabile unde p ‚ 005 = 20
212
Stadiul 12:
Dacă valoarea de test U aleasă (cea mai mică dintre
cele două calculate) este mai mică sau egală cu valoarea
critică a gradului de confidenţă stabilit, p = 0,05 atrage
după sine RESPINGEREA ipotezei nule.
În acest caz valoarea critică este 20 iar valoarea de
test U = 5.
Ipoteza nulă = nu există o diferenţă semnificativă
între numărul turiştilor cazaţi la Băile Herculane şi cei
cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’; se
respinge.
Se acceptă ipoteza iniţială, conform căreia există o
diferenţă semnificativă între numărul turiştilor cazaţi la
Băile Herculane şi cei cazaţi la Dr.Tr. Severin în perioada
1991 – 2000’
Stadiul 13:
Iportant! Interpretarea rezultatului final este mai
important decât faptul că după o serie de calcule am
respins o ipoteză nulă şi am acceptat una iniţială. În cazul
213
de faţă rezultatul final este există o diferenţă între cele
două seturi de date.
Ce semnificaţie are această diferenţă? De ce există
această diferenţă semnificativă?
Stadiul 14
Interpretarea şi analiza rezultatului includ întotdeauna
argumente sau explicaţii. Exprimarea acestora se face de
regulă prin formula de debut: “Există o diferenţă statistică
semnificativă între numărul turiştilor români cazaţi la
Băile Herculane şi cei cazaţi la Drobeta Turnu Severin (U
= 5, p = 0,05), fapt datorat.......spre exemplu faptului că
cele două locaţii reprezintă atracţii diferite în care se
practică două tipuri diferite de turism: turimul balnear şi
respectiv cel de tranzit, de conferinţă şi week end.
În analiză şi argumentare se utilizează informaţie cât
mai exactă asupra celor două locaţii.
Testul U sau Mann Whitney mai este cunoscut şi sub
denumirea de test al nivelului de semnificaţie.
214
7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’
Acest test se aplică doar datelor intervale, fapt pentru
care este privit ca un test mai special. El se deosebeşte şi
prin condiţiile pe care le pune la nivelul datelor intervale
ce urmează a fi testate.
Constituie o metodă statistică utilă în testarea
diferenţelor la nivel de serii de date, deseori folosit în
ştiinţele sociale. Acest test este la fel de important ca cel
anterior mai ales prin faptul că testează semnificaţia
eşantionului. Pentru turism el este adesea crucial ca
importanţa, cu precădere în situaţiile de sondaje la scară
medie şi mică.
Condiţii de aplicare:
Obligatoriu numai date intervale.
Cel puţin 6 perechi de date.
Între cele două şiruri de date (sau variabile) trebuie
să existe o anume (presupusă, dedusă) ‚legătură’,
tendinţă’. Cu alte cuvinte să formeze un anume tip
215
de ‚pereche’, să se cupleze conform unui criteriu
comun.
Între seriile de date sau între datele aceleiaşi
variabile trebuie să existe, cel puţin aparent, un anume gen
de relaţie, legătură.
Exemple:
Ex 1: Vizitatori europeni în România în anii 1999 şi 2000
1999 2000
Austria 63,000 66,000
Belgia 18,000 19,000
Danemarca 9,000 10,000
În acest caz relaţia este stabilită de cei 2 ani, caz în
care dacă pentru o ţară numărul de vizitatori a fost redus în
1999 este probabil să fie redus şi în 2000.
Ex 2 Gradul de ocupare al hotelurile de pe litoralul
românesc al Mării Negre (%)
216
2000 2001
Ianuarie 25 20
Februarie 30 29
Martie 50 48
Dacă gradul de ocupare a fost redus în ianuarie al
unui an este foarte probabil să fie redus şi în alt an –
relaţia aparentă dintre seturile de date, suficientă pentru a
forma perechi.
Dacă
a) Între date nu există o relaţie aparentă prin prisma
căreia ele să poată forma perechi dintr-un anumit
punct de vedere sau de un anume tip
sau
b) Datele sunt nominale sau ordinale
217
Testul Wilcoxen NU se poate aplica şi se apelează
în schimb la testul Mann-Whitney sau U
În aplicarea acestui test analiza teoretică a relaţiei
aparente dintre variabile este foarte imoprtantă.
Semnificaţia aparentă a relaţiei este ceea ce se cere de la la
testul U şi ce fel de diferenţă privim acolo în antiteză cu
perechea de la Wilcoxen. Astfel se poate concluziona că
felul datelor sau mai bine spus a relaţiilor aparente dintre
ele, dinamismul şi tendinţa evoluţiei acesteia determină
într-o oarecare măsură alegerea testului ce urmează a fi
utilizat.
Mod de calcul
Studiu de caz: serii de date privind gradul de
ocupare (%) al hotelurilor din Băile Herculane şi Drobeta
Turnu Severin în perioada 1991-2000
Băile Herculane Drobeta Turnu
Severin
1991 36 45
1992 31 30
1993 38 24
218
1994 41 38
1995 43 32
1996 35 32
1997 29 54
1998 37 49
1999 41 44
2000 45 43
Există o relaţie aparentă între datele de aici? Evident!
Fiind vorba de 2 localităţii situate în aceeaşi zonă turistică
şi gradul de ocupare al hotelurilor acestora se presupune
că gradul de ocupare la nivelul amândurora are cam
acelaşi comportament pentru aceeaşi perioadă de timp.
Gradul de ocupare (în această situaţie) pentru aceeaşi
categorie de unitate de cazare, este criteriul de
„împerechere”
Presupusa relaţie de reprezintă punctul de plecare în
stabilirea ipotezei nule pe baza căreia se poate trece la
calculul acestui test
219
Stadiul 1:
Se formulează ipoteza nulă (Ho) asupra seriilor de
date în concordanţă cu o ipoteză iniţială (.Hi). (Ho
întotdeauna exprimă negativul/inversul ipotezei iniţiale
Hi):
Ex. Nu există o diferenţă semnificativă în gradul de
ocupare al hotelurilor din Băile Herculane şi Drobeta
Turnu Severin în perioada 1991-2000
Stadiul 2:
Se construieşte un tabel cu 6 coloane. În coloanele 1
şi respectiv 2 se introduc seriile de date (denumite pentru
convenienţă variabile: A=Băile Herculane şi respectiv
B=Drobeta Turnu Severin)
A
(Herculane)
B
(Turnu
Severin)
36 45
31 30
38 24
220
41 38
43 32
35 32
29 54
37 49
41 44
45 43
Stadiul 3
Se calculează diferenţa aritmetică dintre A şi B (A-
B). Rezultatul obţinut amplasează în coloana 3 ignorând
semnul (+;-)
A B A - B
36 45 9
31 30 1
38 24 14
41 38 3
43 32 11
35 32 3
29 54 25
221
37 49 12
41 44 3
45 43 2
Stadiul 4
Dacă în coloana (A-B) avem valori egale cu 0,
acestea se exclud din analiză (se exclud şi perechile cu
totul, utilizându-se restul perechilor). Cu menţiunea că în
acest caz se reduce numărul de perechi luat în calcul!
În studiul de caz nu există astfel de situaţii, calculul
continuându-se fără alte modificări de condiţii.
Stadiul 5
Se acordă rang de importanţă valorilor din coloana
(A-B) pornindu-se de la valoarea cea mai mică căreia i se
atribuie rangul 1. Valorile rangurilor se înscriu în coloana 4.
În cazul valorilor identice se procedează la
calcularea mediei rangurilor valorilor variabilor identice
ca valoare indiferent de numărul acestora.
A B (A – B) Rang de
222
(A-B)
36 45 9 6
31 30 1 1
38 24 14 9
41 38 3 4
43 32 11 7
35 32 3 4
29 54 25 10
37 49 12 8
41 44 3 4
45 43 2 2
Stadiul 6
Se compară pe rând valorile din perechile
variabilelor A şi B. Acolo unde valoarea lui A este mai
mare decât a lui B se înscrie rangul atribuit diferenţei (A-B)
în coloana 5. Unde valoarea lui B este mai mare decât a lui
A rangul atribuit diferenţei (A-B ) se înscrie în coloana 6.
A B A - B Rang de A>B B>A
223
A-B
36 45 9 6 6
31 30 1 1 1
38 24 14 9 9
41 38 3 4 4
43 32 11 7 7
35 32 3 4 4
29 54 25 10 10
37 49 12 8 8
41 44 3 4 4
45 43 2 2 2
Stadiul 7
Se calculeazăi suma rangurilor pe fiecare coloană în
parte (A>B şi B>A din coloanele 5 şi 6).
A B A - B Rank
of A-B
A>B B>A
36 45 9 6 6
31 30 1 1 1
38 24 14 9 9
41 38 3 4 4
224
43 32 11 7 7
35 32 3 4 4
29 54 25 10 10
37 49 12 8 8
41 44 3 4 4
45 43 2 2 2
Suma din coloana A>B (5) = 27
SUMA DIN COLOANA B>A (6)= 28
Stadiul 8
Se selectează valoarea cea mai mică dintre cele 2
sume şi se noteză cu T
T = 27
Stadiul 9
Se decide cu ce grad de confidenţă se lucrează (95%
sau 99%) pentru stabilirea semnificaţiei rezultatului.
Se continuă făcând apel la tabelele consacrate, ale
valorilor critice pentru testul Wilcoxen. În cazul în care a
fost redus numărul de perechi în timpul calcului el se
225
reduce şi la interpretare. Exempl daca au fosrt eliminate 2
perechi din calcul la interpretare în loc de 10 perechi se va
urmări valoarea critică pentru 8 perechi.
Nr perechi A şi B P=0.05 P=0.01
6 0 -
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 20
17 35 23
18 40 28
19 46 32
20 52 38
226
Dacă valoarea obţinută pentru T este mai mică decât
valoarea critică (pentru numărul corect de perechi şi la
gradul de confidenţă ales) se respinge ipoteza nulă. În
orice altă situaţie aceasta se acceptă.
Conform studiului de caz T = 27, valoare critică = 8
(95%) sau 3 (99%):
IPOTEZA NULĂ SE ACCEPTĂ! Adică nu există o
diferenţă semnificativă în gradul de ocupare al hotelurilor
celor 2 locaţii.
Stadiul 9
Interpretarea rezultatului obţinut:
În studiul de caz de mai sus s-a demonstrat
statistic faptul că nu există o ‚diferenţă’, semnificativă, în
gradul de ocupare al hotelurilor din Băile Herculane şi
Drobeta Turnu Severin în perioada .... (în ciuda faptului că
aparent exista o diferenţă valorică).
De ce?
227
Stadiul 10
Analiza şi exprimarea rezultatului final:
Dacă ar fi existat o diferenţă semnificativă analiza ar
fi fost exprimată începându-se cu formularea:
“Există o diferenţă (relaţie) semnificativă între
gradul de ocupare din Băile Herculane şi Drobeta
Turnu Severin; T = 2, p = 0.01. Aceasta se
datorează......
În cazul nostru nu există o diferenţă semnificativă
între cele două pentru T = 2, p = 0.01. Această realitate
se datorează faptului că în calcul este luat gadul de
ocupare şi deşi cele două locaţii sunt diferite ca destinaţie
turistică, caracterizându-se prin tipuri dierite de turism ele
se află în aceeaşi zonă turistică, la distanţă relativ mica una
de cealaltă. Factorul care însă determină inexistenţă
diferenţei semnificative este raportul număr locuri cazare
– destinaţie turistică.
228
7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente. Testul Χ2
229
Aminteam anterior faptul că testarea semnificaţiei
statistice presupune în primul rând procesul de comparaţie.
Testele precedente de semnificaţie statistică au stabilit
semnificaţia diferenţei la nivelul datelor selective
(eşantioane) asemănătoare sau parte din aceeaşi mare
categorie. În general a fost vorba despre date
„asemănătoare”. Cu alte cuvinte s-a pornit de la ideea
comparării unor date asemănătoare (unii autori le
denumesc dependente) pentru a se determina diferenţa de
semnificaţie statistică dintre ele (în final demonstrată sau
nu prin acceptarea sau respingerea ipotezei nule).
Acelaşi proces de comparaţie statistică (atât de util în
îndeplinirea funcţiei de semnificaţie statistică) mai
presupune şi situaţia inversă: se compară/testează
semnificaţia statistică la nivelul datelor „ne asemănătoare”
sau independente pentru a se determina asemănarea lor.
Cu alte cuvinte pentru a se determina în ce măsură ele au
ceva în comun, şi ce presupune acest lucru (în final fapt
demonstrat sau nu prin acceptarea sau respingerea ipotezei
nule). Acest proces se efectuează prin ceea ce este
cunoscut şi sub denumirea de:
230
Testul de contingenţă
Ce este contingenţa?
Contingenţa
Contingenţa măsoară gradul de relaţionare sau
intensitatea legăturii dintre două elemente, fenomene,
procese,în final dintre variabile/seturi de date
selective/eşantioane.
Cu alte cuvinte fiind vorba de date independente,
contingenţa măsoară modul în care un aspect, o variabilă,
un set de date influenţează sau este influenţat de un altul/a.
Astfel în limbajul de specialitate apar formulări de
genul: unele variabile sunt contingente cu altele sau deţin
un contingent asupra altora.
EX:
Clasa socială are contingent asupra
numărului de vacanţe pe care o familie şi le poate
permite.
Sezonalitatea este contingenţă cu gradul de
ocupare al unui hotel.
Contingenţa însă nu este acelaşi lucru cu corelaţia.
231
Reamintim ce exprimă corelaţia şi aume o co-
variaţie. Aceasta indică pur şi simplu faptul că o variabilă
prezintă o anumită tendinţă sau are un anumit
comportament iar cealaltă sau celălalte prezintă şi ele o
anumită tendinţă sau are un anumit comportament.
Corelaţia nu spune nimic despre cauzalitate sau cum se
determină ori se influenţează variabilele între ele.
Cel mai cunoscut test pentru
investigarea/cunatificarea contingenţei este „testul chi2”
sau testul Χ2
Testul Χ2
Condiţii de utilizare:
În cazul necesităţii investigării tipului de
relaţie între două aspecte, fenomene, indici, indicatori
INDEPENDENŢI etc… (adică a modului în care
ceva/cum ceva, se leagă de altceva, influenţează.
În cazul în care avem la dispoziţie 2
variabile independente.
Avem la dispoziţie date nominale, ordinale
sau intervale.
232
Testul Χ2 sau Chi2 este un test non-parametric ale
cărui câteva caracteristici implică aspecte precum:
Datele exprimă categorii numărabile de
elemente.
Chi2 este foarte util mai ales în analiza
statistică a datelor chestionarelor (unde sunt necesare
cel puţin 100 de chestionare pentru relevanţa analizei)
Mod de aplicare
Chi2 porneşte întotdeauna de la ipoteza
iniţială, Hi, conform căreia există o relaţie între datele
analizate fapt pentru care ipoteza nulă, Ho, va avea
întotdeauna forma conform căreia NU există nici o
relaţie între variabile analizate.
Îşi clasifică datele utilizate în:
OBSERVATE (notate cu O) – reprezintă datele
prezente, aflate la dispoziţie; şi PRESUPUSE (notate cu
P) - determinate pe baza celor observate.
Datele presupuse reprezintă datele la care
se aşteaptă testul , sau pe care testul le prognozează în
233
cazul în care nu ar exista nici o legătură între ele sau cu
alte cuvinte în cazul în care ipoteza nulă ar fi adevărată.
Comparând datele, testul X2 stabileşte în
final dacă cele între cele două variabile există sau nu o
relaţie şi care este ea.
Elemente necesare pentru aplicarea testului X2
1) Date pentru 2 variabile.
2) Datele trebuie să exprime categorii de
elemente numărabile. NUMERE REALE.
3) Indiferent de forma în care se află datele acestea se
introduc într-un tabel de contingenţă.
4) Datele nu pot avea formă de procente
Studiu de caz
Date provenite de la Comisia Naţională pentru
Statistică privind numărul vizitatorilor străini în România
pentru anii 1985 şi respectiv 1995, în funcţie de motivaţia
vizitei.
234
În acest caz se poate discuta despre o posibilă
relaţie existentă între date: dinamica motivelor pentru care
străinii doresc să viziteze România în perioada respectivă.
Datele sunt:
Mii turişti străini în vacanţă:
1985 = 2498
1995 = 2274
Mii turişti străini sosiţi în România pentru alte
motive:
1985 = 2607
1995 = 2838
Testul Χ2 sau Chi2 presupune pentru aplicare12
stadii
Stadiul 1
Formularea ipotezelor iniţială şi respectiv nule (Hi,
Ho) pentru datele luate ca bază de studiu. Reamintim ca :
Ipoteza nulă Ho exprimă întotdeauna negativul, inversul
ipotezei iniţiale Hi
În cazulacestui studiu de caz Ho este :”nu există
nici relaţie (din punct de vedere al semnificaţiei statistice
235
aceasta este tot o diferenţă, diferenţa dintre date chemată
să arate o asemănare, aceeaşi dinamică a motivelor
vizitei) între numărul turiştilor străini veniţi în România
pentru o vacanţă şi cei sosiţi pentru alte motive atât în
timpul perioadei comuniste cât şi după încheierea
acesteia.
Stadiul 2
Construirea tabelului de contingenţă pentru cele
două variabile prin simpla introducere a datelor prezente şi
calcularea totalurilor coloanelor şi rândurilor tabelului
obţinut.
1985 1995 Total
Vizite pentru vacanţă 2498 2274 4772
Vizite pentru alte motive 2607 2838 5445
Total 5105 5112 10217
Aceste date se numesc datele cu valori OBSERVATE
236
Stadiul 3
Se examinează valorile observate. În cazul în care
există valori egale cu 0 întregul test devine invalid!
Stadiul 4
Se calculează valorile PRESUPUSE. (adică valorile
AŞTEPTATE sau presupuse de test în cazul în care nu ar
exista nici o relaţie între cele 2 variabile)
În calculul valorilor presupuse se porneşte
întotdeauna de la valorile observate. Pentru fiecare dată
observată se calculează echivalentul presupus după cum
urmează :
Valoarea presupusă =
(Total rând) x (Total coloană )
Total general
237
1985 1995 Total
O P O P
Vizite
pentru
vacanţă
2498 2384.4 2274 2387.6 4772
Vizite
pentru
alte
motive
2607 2720.6 2838 2724.4 5445
Total5105 5112 1021
7
Stadiul 5
Se examinează valorile presupuse. În cazul în care
există valori mai mici decât 5, testul devine invalid şi se
abandonează.
Stadiul 6
Se calculează X2 după formula:
238
X2 =
Practic pentru fiecare valoare observată:
Se calculează diferenţa (O – P)
Se ridică la pătrat fiecare rezultat
Acesta se împarte la valoarea presupusă respectivă
Se calculează suma tuturor rezultatelor obţinute
1985 1995
O P 2 O P 2 Tot
al
Vizite pentru
vacanţă
249
8
2384.
4
5.
4
227
4
2387.
6
5.
4
477
2
Vizite pentru
alte motive
260
7
2720.
6
4.
7
283
8
2724.
4
4.
7
544
5
Total 510
5
511
2
102
17
Valoarea totală 2 = 5.4 + 4.7 + 5.4 + 4.7 = 20.2
239
Stadiul 7
Se calculează gradul de libertate (gf), revenindu-se
la stadiul 2 (tabelul de contingenţă), ignorând totalurile.
Formula gradului de libertate este:
gf = (nr) - 1 x (nc) – 1
Unde : nr = număr de rânduri
nc = număr de coloane
Pentru acest studiu de caz :gf = (2-1) x (2-1) = 1
Stadiul 8
Se alege gradul de confidenţă.
95% (p= 0.05)
99% (p=0.01)
99.9%(p=0.001)
95% reprezintă gradul minim de confidenţă acceptat în
ştiinţele sociale .
240
Stadiul 9
Se face apel la tabelul valorilor critice al gradului de
confidenţă pentru testul X2.
Grad de
libertate
95%
(p=0.05)
99%
(p=0.01)
99.9%
(p=0.001)
1 3.84 6.64 10.83
2 5.99 9.21 13.82
3 7.82 11.34 16.27
4 9.49 13.28 18.46
5 11.07 15.09 20.52
6 12.59 16.81 22.46
7 14.07 18.48 24.32
8 15.51 20.09 26.12
241
Stadiul 10
Dacă valoarea 2 este mai mare decât valoarea
critică se respinge ipoteza nulă.
Dacă valoarea 2 este mai mică decât valoarea
critică se acceptă ipoteza nulă
În acest studiul de caz - 2 = 20.2 pentru o valoare
critică de 3,84 , l grad de libertate 1, cu grad de confidenţă
95%, fapt ce atrage după sine respingere ipotezei nule cu
grad de confidenţă 95%
Stadiul 11
Interpretarea rezultatului
Întotdeauna se face apel la tabelul cu valorile
observate şi presupuse dar şi la toate toate informaţiile
colaterale venite de acolo.
Ex: În 1985 numărul vizitatorilor străini pentru alte
motive, a fost mai mare decât al celor (O=2607 , P =
2720.6) dar mai mic decât al celor sosiţi în vacanţă…
În 1995 numărul vizitatorilor străini sosiţi pentru o
vacanţă a fost mai mare decât al celor (O=2274 , P =
2387.6) şi mai mic decât al celor sosiţi pentru alte motive
242
Concluzia: odată cu căderea comunismului un număr
mai mare de vizitatori străini au sosit în România pentru
vacanţă decât pentru alte motive.
Stadiul 12
Se argumentează concluzia anterioară utilizându-se
ca bază de pornire expresii precum: “Există o relaţie
semnificativă între motivaţia vizitării României şi anul în
care are loc vizita (Χ2 = 20.2, p=0.001) deoarece...
Se poate observa că acest test este primul test cu o
dimensiune de prognozare. Este o formă incipientă şi
insuficientă pentru îndeplinirea funcţiei statistice de
prognoză. Această funcţie se îndeplineşte odată cu trecerea
la tehnici de regresie şi analiză factorială.
243
BIBLIOGRAFIE
Clegg, F. (1985) Simple Statistics; A course book for social sciences, Cambridge University Press, Cambridge
Dickinson G.C. (1963) Statistical Mapping and the Presentaton of Statistics, Edward Arnold Publishers, London
Dumitrache, L. (2004) Starea de sănătate a populaţiei României. O abordare geografică, Editura Univers Enciclopedic, Bucureşti.
Ebdon, D (1977) Statistics in Geography. A practical approach, Blackwell, Oxford
Gregory, S (1973) Statistical Methods and the Geographer, Longman, London
Isaic-Maniu, A (2003) Statistică, Editura Universitară, Bucureşti
Kranzler, G.; Moursund, J Cliffs, (1995) Statistics for theTerrified, Prentice Hall. Englewood, New Jersey
Mathew, H.; Foster, I. (1992) Geographical Data; Sources, presentation and analysis, Oxford University Press, Oxford
Nocak, A. (2004) Statististica şi sondajul de opinie, Editura Universitară, Bucureşti
Rateau, P. (2004) Metodele şi statisticile experimentale în ştiinţele umane, Polirom, Burureşti
Rogerson, P. (2003) Statistical Methods for Geography, Sage Publication, London
244
Rotaru, T şi colab. (1999) Metode statistice aplicate în ştiinţele sociale, Polirom, Bucureşti
Sauvain, P. (1974) Advances Techniques and Statistics, Hulton
Ţarcă, M. (1998), Tratat de statistică aplicată, Editura Didactică şi Pedagogică, Bucureşti
Vaus de, D. (2004) Analyzing Social Science Data, Sage Publications, London
245
246
247
248
249
250
251
252
253
254
255
256
CUPRINS
Capitolul 1........................................................................5
Cuantificarea ca metodă de studiu, cercetare şi cunoaştere a realităţii socio geografice........................5
1.1. Introducere........................................................51.2. Funcţiile statistice...........................................141.3. Noţiuni statistice fundamentale cu
semnificaţie în geografia umană......................22
Capitolul 2......................................................................45
Procesul de grupare a informaţiei geografice de ordin statistic..............................................................45
2.1. Gruparea informaţiei geografice statistice – concept teoretic..............................46
2.2. Tipurile de grupări ale informaţiei geografice statisice...........................................50
2.3. Intervalele utilizate în grupare........................56
Capitolul 3......................................................................63
Informaţia geografică de ordin statistic – prezentare şi reprezentare grafică..................................63
257
3.1. Seriile de repartiţie - terminologie, importanţă şi tipologie.......................................63
3.2. Seriile de repartiţie unidimesionale.................653.3. Seriile de repartiţie multidimensionale...........82
3.3.1. Seriile de repartiţie bidimensionale.........823.3.2. Reprezentarea grafică a seriilor
de repartiţie bidimensionale.........................833.3.3. Repartiţii tridimensional..........................87
3.4. Seriile dinamice...............................................883.5. Seriile de spaţiu...............................................96
3.5.1 Reprezentarea grafică a seriilor de spaţiu........................................................97
Capitolul 4....................................................................103
Analiza relaţiilor dintre procesele şi fenomenele sociale ...................................................103
4.1. Introducere....................................................1034.2. Metode de analiză ........................................111
4.2.1. Metoda seriilor statistice interdependente...........................................111
4.2.2. Metoda grupărilor..................................1134.2.3. Metoda grafică.......................................114
Capitolul 5....................................................................115
Rezumatul şi descrierea indicatorilor caracteristicilor statistice utilizate în geografia umană.........................115
5.1.Indicatorii de poziţie......................................1165.1.1. Modul....................................................1175.1.2. Mediana.................................................1195.1.3. Media (aritmetică).................................124
258
5.2. Indicatorii de dispersie..................................1275.2.1 Amplitudinea..........................................1295.2.2. Abaterea standard..................................1315.2.3. Coeficientul de variaţie.........................133
5.3. Indicatori ai formei distribuţiei.....................135
Capitolul 6....................................................................145
Statistica inferenţială – introducere.............................145
6.1. Introducerea termenilor de populaţieşi eşantion......................................................145
6.2. Legea normală...............................................1516.2.1. Legea normală centrată şi redusă..........1546.2.2. Principiul testelor statistice...................166
6.3. Teste parametrice şi teste neparametrice......169
Capitolul 7....................................................................171
Testele în analiza statistică aplicată.............................171
7.1. Corelaţia .......................................................1727.1.1. Introducere...........................................1727.1.2. 7.1.2. Coeficientul de corelaţie
cu rang, Spearman......................................179
7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică....................................192 .7.2.1. Introducere............................................1937.2.2 Semnificaţia statistică.............................1967.2.3. Testele de semnificaţie sau testarea
diferenţei la seturi de date/eşantioane.........1977.2.4. Testul ‚U’sau Mann Whitney ...............199
259
7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’.........................................................212
7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente. Testul Χ2.............................226
Bibliografie...................................................................240
260