Econometrie - suport de curs
Transcript of Econometrie - suport de curs
1
1. Modelul de regresie
1.1. Câteva considerente de ordin general
La fel ca şi în multe alte domenii, în domeniul economic şi în particular în cel al
afacerilor se întâlnesc deseori situaţii care presupun luarea unor decizii, care necesită
prognoze sau care pun în evidenţă nevoia de a cunoaşte modul în care depind unele de altele
anumite mărimi importante la nivel de firmă. Iată exemplul foarte simplu al unui
întreprinzător care doreşte să ştie următoarele:
Este potrivit să investească pentru reclama unui produs?
Care formă de reclamă este cea mai potrivită?
Care este legătura între suma investită în reclamă şi volumul vânzărilor pentru
produsul respectiv?
Dacă s-au investit în reclamă x u.m., care este prognoza pentru volumul vânzărilor?
Cineva ar putea sugera faptul că întreprinzătorul, ca agent economic raţional, nu va face
cheltuieli decât în măsura în care va şti sigur care sunt rezultatele pe care contează. Prin
urmare, se poate insinua că nu este nevoie de un aparat matematic, statistic, econometric,
pentru a intui că întreprinzătorul va obţine ceea ce şi-a propus în momentul în care a decis să
facă reclamă produsului. Există însă un revers al medaliei, pentru că intuiţia este totuşi
intuiţie şi s-ar putea să nu fie foarte exactă. Desigur că logica lucrurilor ne face să afirmăm că
promovarea produsului are ca rezultat creşterea vânzărilor, dar practica ne învaţă că se poate
să nu se fi optat pentru cea mai bună variantă de promovare, că din motive greu de înţeles
vânzările nu au crescut sau, în orice caz, nu atât de mult pe cât s-a dorit sau cât să acopere
măcar cheltuielile efectuate în scopul reclamei. Din acest motiv ar fi ideal dacă
întreprinzătorul ar putea să cunoască din vreme o serie de detalii, ca de exemplu modul în
care se va realiza promovarea produsului, măsura în care vânzările preconizate sunt
realizabile, natura relaţiei care se stabileşte între cheltuielile pentru reclamă şi volumul
vânzărilor şi prin urmare să poată răspunde la întrebarea: „Există posibilitatea ca efortul
financiar făcut în scopul publicităţii să fie acoperit într-un interval de timp convenabil?”.
Cu siguranţă că astfel de lucruri nu vor putea fi cunoscute pur şi simplu, pentru că este
nevoie de date, date statistice pentru care prelucrarea şi analiza prin metode specifice vor
putea oferi informaţiile necesare. Maniera în care sunt colectate datele şi aranjarea lor în
forma cea mai potrivită nu reprezintă domeniul nostru de interes. Amănunte despre aceste
2
etape, despre maniera în care sunt duse la îndeplinire, se pot găsi în orice manual de
statistică1. Econometria poate intra în scenă doar după ce au fost oferite date suficiente,
imediat ce a fost stabilită problema care trebuie rezolvată şi în măsura în care metodele
specifice acestei discipline sunt utilizabile.
Vom face împreună primii paşi în econometrie, prin studiul unei metode care poate fi
utilizată în scopul determinării unei relaţii de dependenţă între două mărimi de interes pe care
le vom numi variabile. Este vorba despre Analiza regresiei. Deocamdată ne vom ocupa de
cazul cel mai simplu, acela care implică intenţia de a descrie o variabilă y, pe care o vom
numi variabilă dependentă, sau endogenă, în funcţie de o singură variabilă x, care va purta
numele de variabilă independentă, sau exogenă. Cel mai simplu tip de analiză de regresie
presupune că relaţia dintre cele două variabile se apropie de o relaţie liniară care, într-o
reprezentare grafică, are foma unei drepte. Cazul care implică o astfel de relaţie de
dependenţă este cunoscut în literatura de specialitate sub numele de Analiza regresiei liniare
simple. Dacă variabilele independente sunt două, sau mai multe, ne situăm în cazul regresiei
multiple.
Rezumând, ne vom ocupa de determinarea relaţiei dintre:
y: variabilă dependentă, sau endogenă
x: variabilă independentă, sau exogenă
Vom considera că relaţia este suficient de apropiată de una liniară şi din cauza acestei
„aproximări” este natural să ne punem problema dacă liniaritatea este o supoziţie corectă.
Prin studiul corelaţiei dintre x şi y se determină gradul în care variabilele sunt, într-adevăr, în
relaţie liniară şi nu de altă natură. Analiza de corelaţie, de care nu ne vom ocupa în această
lucrare, este o procedură de stabilire a măsurii în care relaţia dintre x şi y este liniară şi, dacă
acest lucru se confirmă, tot analiza de corelaţie ne ajută să determinăm intensitatea relaţiei.
Înainte de a trece efectiv la studiul modelului de regresie mai trebuie precizat faptul că
nici analiza regresiei şi nici cea a corelaţiei nu pun în evidenţă o relaţie de tipul cauză – efect
între variabilele implicate în model, ci arată doar în ce măsură sunt ele în legătură una cu alta.
Dacă analiza este justă, dacă se dovedeşte că există argumente solide în acest sens, atunci
cauzalitatea este un aspect care poate fi discutat ulterior.
În încheierea acestei prime secţiuni ne vom întoarce pentru o clipă la exemplul
întreprinzătorului doritor să ştie dacă reclama făcută produsului are efectul scontat şi vom
observa că variabila dependentă y este volumul vânzărilor, iar variabila independentă x este
1 Se poate vedea de exemplu Cornelia Nistor, Elemente de statistică, Ed. Cartea Universitară, Bucureşti, 2005.
3
reprezentată de suma cheltuită pentru publicitate. Pe viitor, dacă nu se fac specificaţii cu
privire la alegerea variabilelor, va trebui să aveţi abilitatea să stabiliţi singuri cine este
exogena şi cine este endogena, pentru a putea construi un model viabil.
1.2. Model determinist şi model probabilist
Este esenţial ca încă de la început să clarificăm distincţia între aceste două concepte.
Atunci când ne referim la un model determinist, trebuie să ştim imediat că a cunoaşte
valoarea variabilei independente x atrage după sine cunoaşterea exactă a variabilei
dependente y, aşa cum se poate vedea din exemplul următor.
Exemplul 1.2.1. Preţul unui kilogram de cartofi este de 3 RON. Dacă un client
cumpără x kilograme, atunci el va plăti o sumă pe care o notăm cu y şi care se calculează,
evident, după regula:
x3y .
Acest model de calcul arată cum cunoaşterea faptului că se achiziţionează 4x kg. cartofi
atrage după sine cunoaşterea sumei exacte care trebuie plătită, adică
1243y RON.
În concluzie, nu există dubii cu privire la valoarea y a sumei plătite, odată ce se cunoaşte
cantitatea x achiziţionată. ₪
Vom pune în evidenţă, prin intermediul exemplului următor, o situaţie care relevă o
componentă incertă.
Exemplul 1.2.2. O firmă de telefonie mobilă are dealeri pe tot cuprinsul ţării. Unele
dintre magazinele prin intermediul cărora se asigură contactul cu clienţii sunt situate în
vecinătatea unor supermarketuri din incinta unor centre comerciale, , iar altele sunt de sine
stătătoare. Directorul firmei doreşte înfiinţarea unor alte puncte de vânzare şi intuieşte, pe
baza rezultatelor anterioare, că profiturile cele mai mari s-au înregistrat de la acei dealeri
situaţi în apropierea supermarketurilor din centrele comerciale şi că există o legătură între
nivelul vânzărilor şi numărul clienţilor care vizitează zilnic supermarketul vecin. Înainte să
decidă locaţia în care va înfiinţa noile magazine, directorul doreşte să evalueze relaţia dintre
numărul zilnic al clienţilor din supermarketuri (x) şi vânzările anuale ale dealerilor învecinaţi
(y). Datele pe care le vom utiliza în studiul nostru sunt înregistrate în Tabelul 1.2.1. si provin
dintr-un eşantion format din zece dealeri situaţi în centre comerciale.
Dealer Nr. Clienţi (x) Vânzări anuale
4
(sute) (y) (sute RON)
1 1 19,36
2 4 50
3 7 68
4 7 90
5 10 100
6 12 125
7 14 150
8 14 200
9 15 162
10 16 190
Tabelul 1.2.1. Date cu privire la numărul zilnic de clienţi ai supermarketurilor şi vânzările
anuale ale dealerilor firmei de telefonie mobilă situaţi în vecinătate
O scurtă privire asupra datelor din Tabelul 1.2.1. ne va convinge că ipoteza unei relaţii
deterministe între numărul zilnic al vizitatorilor supermarketurilor şi vânzările anuale ale
dealerilor nu poate fi luată în calcul. Dealerii 3 şi 4 sunt situaţi în vecinătatea unor
supermarketuri cu acelaşi număr zilnic de vizitatori, 700, dar vânzările anuale sunt diferite.
Observăm că:
68y7x (Dealer 3)
90y7x (Dealer 4)
Aceeaşi observaţie este valabilă şi pentru dealerii 7 şi 8, pentru care:
150y14x (Dealer 7)
200y14x (Dealer 8)
Într-o astfel de situaţie nu mai putem pune problema determinării exacte a lui y pe baza
cunoaşterii valorii lui x, motiv pentru care spunem că modelul care arată relaţia dintre x şi y
este de natură nedeterministă şi prin urmare probabilistică.
1. 3. Prezentarea modelului de regresie
Pentru o mai bună imagine asupra datelor din Tabelul 1.2.1. vom proceda la
reprezentarea lor grafică într-un sistem de coordonate bidimensional, în care numărul
clienţilor este înscris pe orizontală ca variabilă independentă şi volumul vânzărilor pe
verticală, ca variabilă dependentă. Rezultatul acestei reprezentări, din Figura 1.3.1., este
5
cunoscut sub numele de diagramă scatter şi ne oferă o viziune de ansamblu care este de
ajutor în intuirea relaţiei dintre cele două variabile.
_________________________________________
Figura 1.3.1. Diagrama scatter pentru datele
din Tabelul 1.2.1.
Din Figura 1.3.1. putem desprinde câteva concluzii preliminare. În primul rând apare
ideea că un număr mic de clienţi ai supermarketului este asociat cu un volum mic de vânzări
anuale, iar un număr mare de clienţi este, dimpotrivă, corespunzător unui volum anual mare
al vânzărilor. De asemenea, se observă o tendinţă de dependenţă liniară (în formă de dreaptă)
între cele două variabile şi în Figura 1.3.1. am trasat linia dreaptă care pare să aproximeze
această dependenţă. Totuşi, este important să ţinem cont de faptul că relaţia liniară care s-a
conturat nu este una perfectă, pentru că nu toate punctele de pe diagrama scatter aparţin
dreptei pe care am desenat-o.
Am văzut deja, în Tabelul 1.2.1., că unei aceeaşi valori a lui x nu i se garantează
aceeaşi valoare a lui y şi din acest motiv va trebui să acceptăm că dependenţa dintre x şi y nu
are o natură deterministă, ci una probabilistă. Pe baza faptului că relaţia care se conturează
între numărul clienţilor din supermarmarketuri vecine şi volumul anual al vânzărilor obţinute
de dealerii firmei de telefonie mobilă este una liniară, aproximată de linia dreaptă din Figura
1.3.1., afirmăm acum că următorul model probabilist este o reprezentare apropiată de realitate
a relaţiei dintre cele două variabile:
xy 10 (1.3.1.)
Reamintindu-ne acum semnificaţia coeficienţilor care apar într-o funcţie liniară, vom şti că:
0 reprezintă intersecţia dreptei de ecuaţie xy 10 cu axa verticală a sistemului
de coordonate;
1 reprezintă panta dreptei de ecuaţie xy 10 .
Având în vedere că în Figura 1.3.1. doar un număr mic de puncte ale diagramei scatter
aparţin efectiv dreptei, apare ca firească nevoia de a lua în calcul încă un termen, pe care în
relaţia (1.3.1.) l-am notat cu şi care reprezintă eroarea pe care o facem atunci când
aproximăm relaţia dintre variabile cu relaţia liniară xy 10 . Deci, reprezintă devierea
valorii efective (sau observate în practică şi comunicate, în exemplul nostru, prin Talelul
6
1.2.1.) a lui y faţă de acea valoare a lui y pe care o obţinem prin înlocuirea lui x în
xy 10 .
Pentru că există mai multe valori ale lui x, în cazul exemplului nostru zece, este
natural să luăm în calcul eroarea posibilă pentru fiecare situaţie în parte. Practic, ne aşteptăm
ca pentru fiecare valoare a lui x să obţinem o eroare, mai mare sau mai mică (sau poate nulă)
notată x .
Folosirea relaţiei (1.3.1.) ca model pentru legătura dintre y şi x ne dă posibilitatea să
afirmăm că x şi y sunt în aceeaşi relaţie ca aceea descrisă de xy 10 , dar această relaţie
este doar aproximativă dacă nu ţinem cont de termenul eroare .
Modelul (1.3.1.), despre care credem că reflectă relaţia dintre variabila independentă
x şi variabila dependentă y este numit modelul de regresie. În continuare, ne vom referi la
coeficienţii 0 şi 1 ca la parametrii modelului.
1.4. Erorile modelului de regresie
Experienţa didactică mi-a dovedit că în foarte multe cazuri persoanele care iau contact
cu modelul de regresie întâmpină dificultăţi în a înţelege condiţiile oarecum abstracte care se
impun asupra erorilor . De ce sunt ele considerate variabile aleatoare? De unde provin şi ce
anume trebuie luat în calcul atunci când ne referim la erori?
Logica lucrurilor ne spune că volumul vânzărilor firmei de telefonie mobilă nu este
influenţat doar de numărul de clienţi din supermarket. Există, intuim, şi alţi factori care îşi pot
pune amprenta, dar pe care nu îi considerăm atât de importanţi pentru a fi introduşi în model.
De exemplu, există clienţi care vizitează centrul comercial fără intenţia de a pătrunde în
supermarket şi care manifestă totuşi interes faţă de oferta firmei. Chiar dacă aceştia nu
influenţează decisiv volumul vânzărilor, ei trebuie luaţi în seamă pentru că în ansamblu pot
produce perturbări asupra rezultatelor aşteptate. De asemenea, se întâlnesc şi o serie de
elemente de natură calitativă, greu sau imposibil de cuantificat, care pot influenţa clienţii
supermarketurilor astfel încât să îi determine să nu fie niciodată adeptii firmei de telefonie
mobilă sau în orice caz nu ai dealerului din vecinătate: gusturile, înclinaţia către un anumit
dealer, percepţia asupra personalului din magazin, fidelitatea faţă de o altă firmă sunt la
rândul lor elemente care fac ca o simplă relaţie matematică să fie insuficientă pentru
descrierea unor rezultate exacte. Şi, nu în ultimul rând, pot să apară erori în înregistrarea
datelor statistice cu ajutorul cărora se construieşte modelul. Pot fi erori în comunicarea
valorilor observate ale variabilei observate y, caz în care modelul de regresie se va bucura o
7
dată în plus de prezenţa lui , sau erori în înregistrarea variabilei independente x. Pentru
liniştea noastră, nu vom lua în calcul deocamdată această ultimă de posibilitate deosebit de
neplăcută din punct de vedere al consecinţelor.
În concluzie, variabila eroare este necesară şi, din păcate, ea nu poate fi observată
efectiv ci doar luată în calcul ca fiind prezentă şi dotată cu anumite proprietăţi puse în
evidenţă de specialişti în scopul încercării de a convieţui cu ea. Condiţiile2 impuse asupra
variabile eroare sunt prezentate în cele ce urmează, împreună cu implicaţiile lor.
Condiţia 1: Eroarea este o variabilă aleatoare normal distribuită, luând valori
pozitive sau negative care reflectă devierea dintre valoarea observată a lui y şi valoarea
rezultată prin înlocuirea lui x în x10 .
Implicaţii: Deoarece 0 şi 1 sunt constante, deducem că pentru o valoare dată a lui x
mărimea definită în (1.3.1.), xy 10 , este de asemenea o variabilă aleatoare normal
distribuită.
Condiţia 2: Media variabilei aleatoare eroare este zero, adică 0M .
Implicaţii: Să ne remintim că valoarea medie a unei constante este constanta însăşi şi faptul
că:
YMXMYXM .
Deducem astfel valoarea medie a variabilei dependente Y, din calculul următor:
MxMMxMyM 1010
Pentru că x, 0 şi 1 sunt constante şi media variabilei aleatoare eroare este zero, obţinem:
xyM 10 (1.4.1.).
Condiţia 3: Dispersia variabilei aleatoare , pe care o vom nota 2 , este aceeaşi
pentru toate valorile lui x.
Implicaţii: Pornind de la proprietăţile dispersiei, vom demonstra că şi variabila aleatoare
dependentă y are aceeaşi dispersie pentru toate valorile lui x.
2
1
2
0
2
10
22 DxDDxDyD
Pentru că dispersia unei constante este zero şi 22D obţinem, indiferent de valoarea lui
x:
22 yD (1.4.2.)
2 Pentru o tratare detaliată, se poate vedea Dorin Jula, Introducere în econometrie, Ed. PROFESSIONAL
CONSULTING, Bucureşti, 2003
8
Vom reţine această implicaţie pentru că va fi de natură să explice foarte multe din
afirmaţiile de mai târziu. Va trebui să reţinem, de asemenea, relaţia (1.4.1.) ca fiind deosebit
de importantă şi o vom numi ecuaţia de regresie. Aflăm de aici modul în care se poate
calcula media variabilei dependente y, despre care am aflat că este o variabilă aleatoare
normală, pentru valori fixate ale lui x.
Deocamdată lucrurile sunt destul de abstracte şi de aceea ne vom întoarce pentru o
clipă la exemplul firmei de telefonie mobilă. Să ne referim la supermerketul în care există
zilnic o mie de clienţi (este cazul dealerului nr. 5). Deci, 10x . Semnificaţia relaţiei (1.4.1.)
pentru 10x este aceea a valorii medii a vânzărilor anuale înegistrate de către toţi dealerii
situaţi în vecinătatea suprmerketurilor cu o mie de clienţi pe zi. În cazul particular 10x ,
eroarea specifică depinde de diferenţa dintre valoarea observată y relativ la acest x (în
exemplul nostru a fost observat un nivel al vănzărilor egal cu 100 sute RON) şi valoarea
medie rezultată din ecuaţia de regresie, yM . Pe măsură ce vom avansa în prezentarea
modelului de regresie, toate aceste elemente care deocamdată au o conotaţie destul de
teoretică vor căpăta sens.
În finalul acestei secţiuni mă simt datoare să fac câteva comentarii. Pentru aceia
dintre cititori care îşi amintesc faptul că funcţia de gradul I a fost predată de profesorul de
matematică încă de prin clasa a şaptea, modelul de regresie liniară cu o singură variabilă
independentă poate fi considerat pueril şi oarecum departe de realitatea înconjurătoare.
Complexitatea din viaţa economică sugerează fenomene care nu au nici un motiv să se
comporte atât de simplist încât să ne permită să le modelăm printr-o funcţie de gradul întâi.
Ajuns în prag de bacalaureat, orice elev cunoaşte deja o sumedenie de funcţii cu o singură
variabilă şi atunci se naşte, firesc, întrebarea: ce forţă mai are regresia liniară simplă, dacă se
dovedeşte că dependenţa lui y de x are, de exemplu, forma 2
10 xy ? Aceeaşi forţă, este
răspunsul la întrebare. Pentru că nu vă opreşte nimic să faceţi o notaţie, 2xz , cu ajutorul
căreia dependenţa capătă o natură liniară: zy 10 . Mai departe, veţi proceda la fel ca şi
în modelul discutat până acum, având z pe poziţia lui x şi încercând să nu uitaţi ce se află în
spatele notaţiei pe care aţi făcut-o. Dar trebuie spus şi faptul că modelul de regresie liniară nu
este atotputernic, lucru despre care nu vom discuta pe larg deocamdată.
Exerciţii propuse:
9
Exerciţiul 1. Se dau următoarele modele de relaţii între variabila dependentă y şi
variabila independentă x:
Modelul 1: x23y
Modelul 2: x23y
Am notat cu termenul eroare.
a) Calculaţi pentru fiecare model în parte valoarea lui y pentru 9x şi 2 .
b) Calculaţi pentru fiecare model în parte valoarea lui y pentru 9x şi 0 .
c) Care dintre cele două modele este determinist şi care este probabilist? Explicaţi.
Exerciţiul 2. Utilizaţi ecuaţia regresiei din (1.4.1.).
a) Scrieţi ecuaţia regresiei pentru 10 şi 41 .
b) Reprezentaţi grafic ecuaţia acestei drepte, într-un sistem de coordonate care are
variabila x pe axa orizontală şi variabila yM pe axa verticală.
c) Scrieţi ecuaţia regresiei pentru 00 şi 21 . Reprezentaţi grafic, într-un sistem de
coordonate similar celui de la punctul anterior.
Exerciţiul 3. Următoarele date arată media de admitere şi media de absolvire pentru opt
studenţi ai Facultăţii de Administraţie şi Afaceri.
Media de admitere (x) Media de absolvire (y)
8,24 7,14
8,75 8,90
8,16 7,20
8,90 9,50
9,15 9,28
9,03 9,00
9,70 9,62
10 9,65
a) Construiţi diagrama scatter pentru aceste date, înscriind media de admitere pe axa
orizontală şi media de absolvire pe axa verticală.
b) Pe baza diagramei scatter, observaţi vreo tendinţă care să sugereze un anumit tip de
relaţie între cele două variabile?
c) Construiţi dreapta care consideraţi că aproximează cel mai bine tendinţa relevată de
diagrama scatter.
Exerciţiul 43. Supermarketurile BRISTO există pe tot cuprinsul ţării. A fost selectat un
eşantion format cu cinci dintre ele pentru a se vedea natura legăturii care se stabileşte între
cheltuielile efectuate în scopul reclamei şi volumul vânzărilor, în decurs de o lună:
Cheltuieli pentru reclamă
(mii RON) (x)
Volum vânzări (mii RON)
(y)
1 19
4 44
6 40
3 Anderson R. D., Sweeney J. D., Williams A. T., Statistics for Business and Economics, Second Edition, West
Publishing Company, 1984, p. 412
10
10 52
14 53
a) Construiţi diagrama scatter pentru aceste date, înregistrând pe axa orizontală
cheltuielile penru reclamă.
b) Reprezentaţi grafic dreapta x5,224yM pe diagrama scatter. Consideraţi că
aceasta oferă o bună aproximare a relaţiei care se stabileşte între cheltuielile pentru
recamă şi volumul vânzărilor?
c) Reprezentaţi grafic funcţia x2
x60yM
, calculând valorile ei pentru fiecare x din
tabelul de date. Consideraţi că această curbă care rezultă din reprezentare este o bună
aproximare a relaţiei dintre x şi z?
d) Faţă de dreapta de la punctul b, consideraţi că funcţia de la punctul c oferă o mai bună
potrivire pe diagrama scatter?
e) Calculaţi erorile care rezultă din aproximarea vânzărilor prin intermediul funcţiilor de
la punctele b şi c, faţă de valorile efective ale lui y pe care le cunoaşteţi din tabelul de
date.
Exerciţiul 5. Datele următoare provin de la cinci asociaţii de locatari şi arată suma pe
care o plătesc proprietarii a cinci apartamente de suprafeţe diferite care beneficiază de
centrală termică proprie, pentru factura de gaze în decursul unei luni calendaristice.
Suprafaţa locuimţei (mp)
(x)
Costul încălzirii (sute
RON) (y)
62 1,5
65 1,3
58 1
70 2,3
76 2,6
a) Construiţi diagrama scatter, având suprafaţa pe axa orizontală.
b) Încercaţi să aproximaţi relaţia dintre suprafaţa apartamentelor şi costul facturii,
punând în evidenţă linia dreaptă corespunzătoare pe diagrama scatter.
c) Consideraţi că aproximarea liniară este potrivită?
Exerciţiul 6. Consideraţi că relaţiile pe care le-aţi observat în exerciţiile anterioare sunt
relaţii de tip cauză – efect, sau relaţii de asociere? Explicaţi, pentru fiecare situaţie în parte.
Întrebări recapitulative:
1. Ce este analiza de regresie?
2. Ce reprezintă modelul de regresie şi care este forma sa, în cazul regresiei liniare
simple?
3. Ce reprezintă ecuaţia de regresie, care este forma sa şi cum se obţine pornind de la
modelul de regresie?
4. Care este scopul analizei de corelaţie? Prin ce anume se deosebeşte de analiza de
regresie?
11
5. Definiţi noţiunile: variabilă endogenă, variabilă exogenă, relaţie directă, liniară şi
curbilinie.
6. La ce se referă relaţia de cauzalitate şi care este legătura dintre acest concept şi relaţia
de asociere? Prezentaţi punctele comune şi diferenţele.
7. Care sunt motivele pentru care se construieşte diagrama scatter?
8. Cum credeţi este reprezentată o diagramă scatter care nu indică nici un fel de relaţie
ître variabilele x şi y?
9. Care sunt motivele pentru care modelul de regresie include variabila eroare ?
10. Care sunt condiţiile care se impun asupra erorilor şi care sunt implicaţiile acestor
condiţii?
2. Metoda celor mai mici pătrate. Estimarea parametrilor 0β şi 1β .
2.1. Considerente generale despre erori
Vom reaminti faptul că în capitolul anterior am fixat pentru modelul de regresie
variabilele x şi y care în exemplul firmei de telefonie mobilă au următoarea semnificaţie:
x numărul zilnic al clienţilor din supermarket
y vânzările anuale ale dealerului poziţionat în centrul comercial care include supermarketul
Am stabilit că modelul de regresie are forma:
xy 10 .
Condiţiile pe care le-am impus asupra variabilei aleatoare eroare ne-au ajutat să descriem
ecuaţia de regresie, pentru care am găsit forma:
xyM 10 .
Deocamdată 0 şi 1 sunt constante cu valori necunoscute, numite parametrii modelului de
regresie şi pe care am dori să le determinăm pe baza datelor furnizate de tabelul 1.2.1. Dacă
am reuşi să calculăm 0 şi 1 , atunci dreapta de regresie ar fi complet determinată şi am
putea afla foarte multe lucruri despre relaţia dintre variabilele de interes.
Am căzut deja de acord asupra faptului că xy 10 este o funcţie care indică o
relaţie liniară între variabila dependentă y şi variabila independentă x. Să privim acum la
Figura 1.2.1. din secţiunea 1.2. şi să notăm că intenţia a fost să reprezentăm dreapta care să se
apropie în cea mai mare măsură de punctele diagramei scatter. De obicei se optează pentru
acea dreaptă care, chiar dacă nu trece prin toate punctele diagramei, lasă deasupra şi dedesupt
aproximativ acelaşi număr de puncte. În cazul nostru desupra dreptei au rămas trei puncte şi
sub ea au rămas două, ceea ce este o variantă rezonabilă. Cu toate acestea, este limpede că
există foarte multe posibilităţi de construcţie a unei drepte care să îndeplinească impunerea
12
menţionată anterior, chiar dacă unele dintre aceste reprezentări ar fi foarte apropiate una de
alta. De asemenea, este lesne de înţeles faptul că orice dreaptă aţi alege, ea nu va trece prin
absolut toate punctele diagramei decât cel mult într-un caz destul de rar, acela în care toate
variabilele observate conduc la reprezentarea unor puncte coliniare. Din punct de vedere
practic o atare posibilitate este atât de puţin probabil să apară, încât trebuie să fim conştienţi
că în cea mai mare parte a cazurilor erorile sunt de neevitat. În Figura 2.1.1. am reprezentat o
diagramă scatter oarecare şi am pus în evidenţă erorile pentru două alegeri diferite ale dreptei
pe care ne-am dori-o a fi de regresie.
Figura 2.1.1. Două posibile drepte de regresie pentru aceeaşi diagramă scatter pun în
evidenţă erori diferite
Iată, deci, cum o diagramă scatter cu puncte puţine a permis deja alegerea a două
drepte de regresie care să o aproximeze. Este de aşteptat ca problemele practice, bazate pe
mult mai multe date, să ofere multe alte variante şi să ridice întrebarea: „Care alegere este cea
mai bună?” Şi, „Care este criteriul care ne spune că alegerea este corespunzătoare?”
2.2. Semnificaţia parametrilor dreptei de regresie: o analiză exemplificată.
Aşa cum spuneam mai devreme, o dreaptă este complet determinată atunci când am
reuşit să determinăm valorile lui 0 şi 1 . În capitolul precedent am stabilit şi semnificaţia
generală a acestora. E timpul să discutăm semnificaţia practică şi pentru asta ne vom referi
din nou la exemplul firmei de telefonie mobilă. Am spus că 0 reprezintă intersecţia dreptei
de ecuaţie xy 10 cu axa verticală, această valoare obţinându-se pentru 0x . Din
punct de vedere al exemplului, asta înseamnă că nu există nici un client în supermarket.
Valoarea 0 înseamnă, prin urmare, că acesta este nivelul vânzărilor „autonome”, rezultate
de la clienţii care vin în centrul comercial în alte scopuri decât vizitarea supermarketului.
Despre 1 am spus că este panta, sau înclinaţia dreptei. Pentru o funcţie liniară această pantă
este aceeaşi peste tot şi are următoarea semnificaţie: dacă valoarea lui x creşte cu o unitate,
atunci valoarea lui y se modifică în sens de creştere sau descreştere cu 1 unităţi, în funcţie
de semnul (pozitiv sau negativ) al lui 1 . Din modul în care au fost stabilite unităţile în
Tabelul 1.2.1., putem spune că o creştere cu 100 de clienţi zilnic a numărului clienţilor din
13
supermarket generează o creştere cu 1 sute RON a vânzărilor anuale ale dealerului (dacă 1
se va dovedi a fi pozitiv) sau o scădere cu 1 sute RON a acestor vânzări (dacă 1 se
dovedeste a fi negativ, ceea este foarte putin probabil dacă tinem cont de evidenţa practică).
Diagrama scatter din Figura 1.2.1. arată în mod clar că 1 este pozitiv, pentru că
reprezentarea punctelor indică faptul că pe măsură ce x creşte, y creşte de asemenea în
majoritatea cazurilor.
2.3. Eroarea totală. Metoda celor mai mici pătrate.
Ne-am convins de faptul că trebuie să determinăm 0 şi 1 , am explicat semnificaţia
acestor parametri şi nu ne rămâne decât să discutăm despre criteriul după care putem alege
cea mai bună dreaptă de regresie. Figura 2.1.1. ar putea fi cheia acestei probleme: am
reprezentat, pentru aceeaşi diagramă scatter, două drepte posibile şi am pus în evidenţă
erorile care apar. Devine natural, în acest moment, să căutăm determinarea acelei variante
care generează o cea mai mică eroare totală, nu-i aşa? Nu putem spera într-o eroare nulă, dar
putem căuta acea dreaptă care să corespundă unui minim de eroare. Acesta va fi criteriul are
ne va ghida mai departe şi care, din păcate, crează o serie de probleme suplimentare.
Pentru a înţelege procedeul care va urma, va trebui să faceţi permanent diferenţa între
două aspecte: ce este şi ce rezultă a fi, sau altfel spus ce este şi ce se estimează că ar fi. „Ce
este” se referă la datele pe care le avem şi pe care le puteţi vedea reprezentate pe diagrama
scatter. „Ce se estimează a fi” se referă la ce aproximăm, sau estimăm prin calcul că
reprezintă cea mai bună variantă a dreptei de regresie. Ori de câte ori apare ideea de estimare,
ea va fi pusă în evidenţă prin adăugarea simbolului „pălărie” deasupra valorilor estimate: y ,
0 , 1 de exemplu.
În concluzie, în modelul nostru este o dreaptă de regresie xyM 10 . Deşi în
esenţă ea este, noi nu o cunoaştem pentru că în general nu cunoaştem toate informaţiile şi nu
ne rămâne decât să o estimăm pe baza datelor pe care le avem. De exemplu firma de telefonie
mobilă ne pune la dispoziţie un eşantion format cu zece dealeri, deşi se poate ca ea să aibă
vreo două sute. Nu avem toate datele, deci încercăm să ne descurcăm cu ce avem. Ca
estimare, dreapta de regresie are forma:
xˆˆy 10 (2.3.1.)
Observaţi că x nu are pălăriuţă, pentru că valorile lui sunt cunoscute şi pe baza lor vom
efectua calculele. De asemenea, observaţi că ecuaţia estimată a regresiei este similară
14
adevăratei ecuaţii de regresie, doar că yM a fost înlocuit cu estimatorul său y , 0 cu 0 , şi
1 cu 1 .
În exemplul firmei de telefonie mobilă, Tabelul 1.2.1. ne furnizează datele de la zece
dealeri, pe baza cărora vom construi calculele. În general, valorile lui x se notează cu
n21 x,...,x,x şi valorile corespunzătoare ale lui y cu n21 y,...,y,y , unde n este dimensiunea
eşantionului (adică numărul de date pe care le avem) pentru fiecare dintre variabilele x şi y).
Pentru exemplul nostru 10n , 4x 2 , 100y5 etc. În mod normal dacă dreapta de
regresie ar trece prin toate punctele diagramei scatter, atunci ar trebui ca i10i xy
pentru toate valorile lui i. Lucrul acesta nu se întâmplă şi ca atare pornind de la valorile ix
putem obţine doar estimări ale lui iy , cu eventuale erori pe care le-am pus în evidenţă în
Figura 2.1.1. Valoarea estimată a variabilei dependente va urma, deci, forma (2.3.1.) şi va fi:
i10i xˆˆy (2.3.2.)
Unde apar erorile? Evident, în diferenţa dintre valorile efectiv observate iy pe care le
regăsim în tabelul de date şi valorile pe care le-am estimat în (2.3.2.), adică iy . Reţinem,
deci, că eroarea care se face pentru poziţia i este:
Eroare iii yy (2.3.3.)
Aceste erori le puteţi vedea în Figura 2.1.1., puse în evidenţă pentru două drepte care ar putea
aproxima punctele de pe diagrama scatter. Tot din această reprezentare grafică se poate
observa şi un alt aspect, care va fi esenţial mai departe: unele puncte ale diagramei sunt
situate deasupra dreptelor, iar altele sunt situate dedesupt. Asta înseamnă că erorile care vor
rezulta din calcul vor putea avea semne diferite, uneori plus, alteori minus. Atunci când se
pune problema să evaluăm eroarea totală însumarea unor valori pozitive şi a unora negative
poate conduce la anulare, astfel încât deşi în realitate erorile pot fi considerabile suma lor ar
putea fi totuşi nulă. Ori, eroare zero este un rezultat care ar putea determina pe oricine să
doarmă liniştit cu toate că în fapt lucrurile se poate să stea prost de tot. Pentru a evita o astfel
de situaţie extrem de neplăcută, statisticienii au căutat soluţii care să ofere o variantă de
calcul a erorii totale care să nu se mai confrunte cu astfel de probleme. S-a optat pentru luarea
în discuţie a erorilor din (2.3.3.) ridicate la pătrat, ceea ce elimină definitiv posibilitatea
vreunei valori negative. Cineva ar putea argumenta că trecerea valorilor în valoare absolută,
adică în modul, elimină în egală măsură valorile negative şi în plus nu ne pune în situaţia să
lucrăm cu valorile mari, sau incomode din punct de vedere al numărului de zecimale, pe care
15
le poate atrage după sine ridicarea la pătrat. De exemplu, dacă o eroare este 05,0 valoarea
ei absolută este 05,0 , pe când pătratul ei este 0025,0 şi mai devreme sau mai târziu tot vom
suspecta vreo greşeală de calcul. Argumentul adus în sprijinul funcţiei modul este corect, dar
trebuie să vă amintiţi şi faptul că această funcţie are o serie de obiceiuri proaste care se
manifestă cu precădere atunci când urmează a fi derivată. Ori, interesul nostru este să
utilizăm pentru minimizarea erorii totale tocmai acele instrumente pe care ni le pune la
dispoziţie calculul diferenţial şi cu care funcţia „pătrat” este în cele mai bune relaţii.
Metoda utilizată în estimarea parametrilor ecuaţiei de regresie este cunoscută sub
numele de Metoda celor mai mici pătrate şi presupune determinarea lui 0 şi 1 astfel încât
să fie minimizată expresia:
n
1i
2
ii yySPE (2.3.4.)
O privire simultană asupra relaţiilor (2.3.3.) şi (2.3.4.) ne spune că ultima dintre ele reprezintă
suma pătratelor erorilor (SPE) care apar atunci când utilizăm pentru dreapta de regresie
estimarea (2.3.1.). Nu vom prezenta aici întreaga demonstraţie a metodei, dar vom reţine că
valorile lui 0 şi 1 se calculează conform regulilor următoare:
n
1i
2
i
n
1i
ii
1
xx
yyxxˆ sau
2n
1i
i
n
1i
2
i
n
1i
i
n
1i
i
n
1i
ii
1
xn
1x
yxn
1yx
ˆ
(2.3.5.)
xˆyˆ10 (2.3.6.)
Semnnificaţiile pentru ix şi iy au fost deja discutate. Avem de precizat că x reprezintă
valoarea medie pentru variabila independentă, iar y este valoarea medie pentru variabila
independentă, mărimi calculate din:
n
x
x
n
1i
i ;
n
y
y
n
1i
i (2.3.7.)
Ca de obicei, n reprezintă numărul de observaţii adică numărul datelor din tabel. Se observă
că în (2.3.5.) există două formule de calcul pentru 1 . Ele conduc, evident, la acelaşi rezultat
dar de obicei se consideră că forma a doua este mai simplu de aplicat.
Vom folosi aceste rezultate pentru exemplul firmei de telefonie mobilă şi vom calcula
toate valorile necesare pe baza datelor din Tabelul 1.2.1.:
16
100xx10
1i
i
n
1i
i
36,1154yy10
1i
i
n
1i
i
1232xx10
1i
2
i
n
1i
2
i
36,14195yxyx10
1i
ii
n
1i
ii
Aplicăm a doua formă (2.3.5.) şi obţinem prin înlocuire:
43,11
10010
11232
36,115410010
136,14195
ˆ2
1
Pentru aplicarea formulei (2.3.6.) şi calculul lui 0 , avem nevoie de x şi y pe care le
obţinem din (2.3.7.):
1010
100x şi 436,115
10
36,1154y .
Calculăm acum 0 din (2.3.6.):
136,11043,11436,115ˆ0
Prin urmare, am obţinut ecuaţia estimată a regresiei:
x43,11136,1y .
Este cazul să comentăm rezultatul. Panta ecuaţiei estimate a regresiei este 11,43 şi ia o
valoare pozitivă, ceea ce înseamnă că dacă numărul clienţilor supermarketului este mai mare,
de asemenea şi vânzările anuale ale dealerului situat în complexul comercial respectiv sunt
mai mari. Putem spune ceva mai concret chiar, având în vedere semnificaţia pantei unei
drepte despre care am discutat puţin mai devreme. În Tabelul 1.2.1. numărul clienţilor este
exprimat în sute, iar volumul vânzărilor în sute RON. Deci, o creştere cu 100 a numărului
clienţilor din supermarket înseamnă că ne aşteptăm la vânzări anuale medii mai mari cu 11,43
sute RON. Asta înseamnă că vânzările anuale medii de care este responsabil fiecare client din
supermarket sunt de 11,43 RON.
De asemenea, dacă privim valoarea 136,1ˆ0 vom afla că dacă supermarketul nu
este vizitat de clienţi 0x există totuşi şanse ca dealerul să vîndă câte ceva către acele
persoane care vin la magazin exact în acest scop sau care se nimeresc prin zonă şi intră şi ele
17
ca să pună vreo întrebare. În situaţia inexistenţei clienţilor în supermarket, vânzările medii
anuale ale dealerului ar fi de 1,136 sute RON, sau altfel spus 113,6 RON.
Dacă ecuaţia estimată a regresiei se va dovedi credibilă (iar lucrul acesta îl vom
lămuri în secţiunea următoare), atunci vom putea utiliza această descriere a relaţiei dintre x şi
y pentru a realiza predicţii ale lui y în condiţiile în care ne sunt date valori ale lui x. De
exemplu, directorul firmei ar dori să ştie care sunt vânzările medii anuale la care se poate
aştepta de la un dealer situat lângă un supermarket vizitat zilnic de 1700 de clienţi, adică
pentru .17x Obţinem o medie anuală a vânzărilor egală cu:
446,1951743,11136,1y sute RON,
adică 19544,6 RON. Secţiunea următoare va prezenta metode prin intermediul cărora putem
stabili dacă estimarea s-a făcut cu acurateţe şi dacă rezultatele obţinute pot fi utilizate în
prognoză.
2.4. Verificarea ecuaţiei estimate
Acum, că ne-am familiarizat cu calculul ecuaţiei estimate a regresiei, vom trece la
pasul următor şi vom învăţa cum putem să verificăm corectitudinea rezultatului. Problema nu
este inutilă, dacă vă uitaţi la formulele care au fost aplicate: cu cât dispuneţi de mai multe
date, sau valori observate, cu atât este mai puternică ameninţarea să se strecoare o eroare de
calcul. Prin urmare, se conturează ca necesară o metodă prin care să stabiliţi dacă ecuaţia pe
care aţi obţinut-o este corectă.
Există, ne spun specialiştii, două metode pe care le puteţi aplica în acest scop. Prima
este uşor de intuit şi presupune reprezentarea grafică a dreptei estimate a regresiei pe
diagrama scatter: veţi urmări dacă linia obţinută descrie cât mai bine cu putinţă
comportamentul punctelor de care dispuneţi ca urmare a observaţiilor. Această metodă este la
îndemâna oricui şi nu necesită decât atenţie la reprezentarea grafică, dar nu conduce la
rezultate foarte exacte pentru că este o evaluare bazată mai mult pe observaţii şi nu oferă
argumente bine susţinute teoretic. Vă propun ca exerciţiu să reprezentaţi grafic dreapta
estimată a regresiei obţinută pentru exemplul firmei de telefonie mobilă, pe diagrama scatter
din Figura 1.3.1.
Cea de-a doua metodă pe care au pus-o în evidenţă specialiştii presupune, e drept, mai
multe calcule, dar permite obţinerea de concluzii argumentate. Metoda derivă direct din
proprietăţile pe care trebuie să le îndeplinească dreapta determinată prin metoda celor mai
mici pătrate şi presupune verificarea faptului că suma erorilor individuale pozitive şi negative
18
rezultate din din aproximarea valorilor y cu cele de pe dreapta de regresie y trebuie să fie
egală cu zero. Vom exemplifica această metodă pentru datele de care dispune firma de
telefonie mobilă. Calculăm prin urmare valorile y pentru toate cele zece valori ale lui x, pe
baza ecuaţiei estimate a regresiei x43,11136,1y .
x y y yy
1 19,36 12,566 6,794
4 50 46,856 3,144
7 68 81,146 -13,146
7 90 81,146 8,854
10 100 115,436 -15,436
12 125 138,296 -13,296
14 150 161,156 -11,156
14 200 161,156 38,844
15 162 172,586 -10,586
16 190 184,016 5,984
Total erori individuale: 0
Tabelul 2.4.1. Calculul erorilor individuale pentru datele deţinute de firma de telefonie
mobilă
Din coloana a patra a Tabelului 2.4.1. se observă că suma tuturor erorilor individuale este
zero, prin urmare acum puteţi fi siguri că nu s-a strecurat nici o eroare de calcul atunci când
am făcut demersurile necesare obţinerii ecuaţiei estimate a regresiei. Dacă, aşa cum v-am
sugerat, aţi reprezentat grafic dreapta estimată a regresiei pe diagrama scatter, puteţi să vă
convingeţi că linia pe care aţi trasat-o aproximează foarte bine tendinţa punctelor care au fost
reprezentate pe baza datelor din Tabelul 1.2.1.
2.5. Eroarea standard a estimării
Pasul următor care trebuie parcurs în procesul analizei de regresie se referă la modul
în care putem măsura încrederea cu privire la ecuaţia estimată pe care am construit-o anterior.
Este dreapta de regresie relevantă în raport cu datele observate? Oricine poate intui că dreapta
va fi cu atât mai relevantă pentru studiu cu cât punctele diagramei scatter sunt mai apropiate
de ea, lucru care de data aceasta nu mai are legătură cu corectitudinea calculului. Aici este
19
vorba despre faptul că ecuaţia estimată a regresiei este corect determinată (aţi verificat deja că
suma erorilor individuale este nulă), dar s-ar putea ca dincolo de toate eforturile noastre
punctele rămase în afara dreptei să fie atât de multe şi, mai ales, atât de distanţate de aceasta
încât utilizarea estimărilor să fie aproape inutilă. Reprezentăm în continuare două situaţii care
implică aceeaşi dreaptă de regresie pentru două diagrame scatter diferite. Este limpede că
Figura 2.5.1.a. se referă la un caz care inspiră mai multă încredere decât Figura 2.5.1.b.,
pentru că în prima situaţie punctele diagramei scatter sunt mai „adunate” şi indică o mai mică
împrăştiere faţî de dreapta de regresie.
Figura 2.5.1. a şi b. Două diagrame scatter care arată împrăştieri diferite faţă de dreapta de
regresie
Pentru măsurarea încrederii pe care o putem avea în ecuaţia estimată a regresiei,
statisticienii ne-au pus la dispoziţie mărimea numită „eroarea standard a estimării”, notată es
şi având o natură similară abaterii standard de selecţie pe care aţi întâlnit-o la cursul de
statistică. Ambele mărimi reprezintă, de fapt, o măsură a dispersării datelor faţă de „o”
medie: abaterea standard de selecţie măsoară dispersarea faţă de media de selecţie, pe când
eroarea standard a estimării măsoară dispersarea faţă de punctele dreptei de regresie care,
reamintiţi.vă, au ordonata y pe care am asimilat-o estimatorului mediei yM . Formula de
calcul a lui es este:
2n
SPEse
(2.5.1.).
Dacă ne amintim cine este SPE, din (2.3.4.), atunci eroarea standard a estimării se poate scrie
într-o formă desfăşurată:
2n
yy
s
n
1i
2
ii
e
(2.5.2.)
Se poate observa acum asemănarea dintre formulele de calcul pentru abaterea standard de
selecţie şi eroarea standard a estimării şi vom reţine că numărul gradelor de libertate pe care
le vom lua în calcul pentru es este 2n , adică tocmai numitorul fracţiei de sub radical.
Vom calcula acum es pentru exemplul firmei de telefonie mobilă şi pentru asta
utilizăm ultima coloană din Tabelul 2.4.1. în scopul obţinerii lui SPE:
20
49,2503yySPEn
1i
2
ii
.
Pentru că 10n , deducem că 82n şi din (2.5.1.) obţinem eroarea standard a estimării
ca fiind.
69,178
49,2503
2n
SPEse
Unitatea de măsură a lui es este aceeaşi cu a mărimilor y, prin urmare 69,17se sute RON,
sau 17690 RON.
Specialiştii ne propun şi o altă metodă de calcul pentru es , pe care unii dintre cititori
ar putea-o considera mai simplu de aplicat. Dacă xˆˆy 10 este ecuaţia estimată a
regresiei, a doua metodă ne învaţă că es poate fi obţinută din formula:
2n
yxˆyˆy
s
n
1i
ii1
n
1i
i0
n
1i
2
i
e
(2.5.3.)
La o primă vedere, formula (2.5.3.) este cu mult mai complicată decât (2.5.1.) sau (2.5.2.) şi
de aceea este nevoie să discutăm puţin asupra utilităţii ei. Dacă în ecuaţia estimată e regresiei
aţi calculat deja 1 din a doua variantă a formulei (2.3.5.), atunci singurul termen care vă mai
lipseşte din (2.5.3.) este
n
1i
2
iy , care poate fi calculat direct din tabelul de date. Evitaţi, astfel
operaţiile de scădere yy şi ridicările la pătrat ale rezultatelor. Pe de altă parte, dacă aţi fost
nevoiţi să verificaţi corectitudinea calculului printr-un tabel ca 2.4.1., atunci nu prea mai
contează ce formulă de calcul aplicaţi pentru es , fiindcă deja aveţi la dispoziţie erorile
individuale. În orice caz, este un exerciţiu bun să încercaţi determinarea lui es prin ambele
formule de calcul despre care am discutat aici.
Am convingerea că tocmai vă trece prin cap un protest vehement relativ la rostul
mărimii es , o mărime în plus în totalul şi aşa deranjant pe care vi l-a oferit până acum această
prezentare. Să aplicăm şi să interpretăm pornind de la exemplul nostru: am afirmat ceva mai
devreme că pe baza ecuaţiei estimate a regresiei se poate face o predicţie cu privire la nivelul
anual al vânzărilor pentru un dealer situat în preajma unui supermarket cu 1700 de clienţi
zilnic. Mai exact, am găsit acel nivel anual mediu ca fiind egal cu 195,446 sute RON, sau
19544,6 RON. Dacă aţi fi chiar proprietarul firmei de telefonie mobilă, v-ar interesa foarte
tare în ce măsură vă puteţi baza pe această predicţie. Uneori, astfel de proprietari nu ţin
21
neapărat să citească un curs de econometrie şi, din păcate, nici nu întreabă vreun specialist în
domeniu. Cei care o fac, însă, pot afla o sumedenie de lucruri interesante pe care le vom
prezenta imediat.
Deocamdată ştim că avem, pentru 17x , o predicţie 446,195y . Fiecare dintre
mărimi se măsoară conform cu unităţile de măsură care au fost stabilite în tabelul iniţial al
datelor. Mai şim că există o abatere standard a estimării 69,17se . Bunul simţ ne sugerează
că în realitate nivelul mediu al vânzărilor anuale este cel prognozat, dar în rezultatul
446,195y există o marjă de eroare de 69,17 . Adică, media anuală ar fi situată între
69,17446,195 şi 69,17446,195 , sau echivalent, în intervalul 136,213;756,177 . Într-un
anume fel şi mai ales în anumite condiţii, afirmaţia este adevărată. Nu trebuie să uităm nici o
clipă că valoarea 446,195y este doar o predicţie, deci că include un anumit grad de
aproximare şi atunci devine naturală întrebarea: „Care sunt şansele ca acest interval să fie
corect?” De asemenea, teoria probabilităţilor ne învaţă că abaterile standard pot oferi
intervale simetrice faţă de medie doar în cazul în care distribuţia de probabilitate a variabilei
aleatoare despre care se discută este la rândul ei simetrică faţă de medie şi bine ar fi să fie
vorba chiar despre o distribuţie normală. Până să vedem dacă astfel de lucruri sunt valabile în
cazul nostru, să facem observaţia intuitivă că o eroare standard de estimare mai mare
corespunde unei împrăştieri mai pronunţate a punctelor de pe diagrama scatter faţă de dreapta
de regresie, aşa cum se poate vedea în Figura 2.5.1.b., iar o eroare standard de estimare mai
mică evidenţiază o împrăştiere mai slabă, ca de exemplu în Figura 2.5.1.a. De asemenea,
puteţi deduce imediat că dacă 0se înseamnă că aţi găsit o dreaptă de regresie pe care sunt
dispuse toate punctele diagramei scatter, deci potrivirea este perfectă şi în acest caz predicţia
se face cu exactitate.
Ca să ne putem referi la intervalul 136,213;756,177 pe care l-am obţinut mai
devreme ca la o informaţie cu consistenţă ştiinţifică, va trebui să impunem două condiţii a
căror îndeplinire ne va permite obţinerea de rezultate corecte şi de încredere pentru directorul
firmei. Condiţiile vor fi pe deplin deranjante pentru aceia dintre cititori care îşi doresc doar
utilizarea practică a unor formule de calcul, dar sunt absolut necesare. Citirorii familiarizaţi
cu elemente de teoria probabilităţilor şi statistică le vor considera foarte utile şi la locul lor,
lucru care mă motivează să merg mai departe.
22
Condiţia 1 Valorile observate y sunt normal distribuite în jurul fiecărei valori
estimate, y . Această condiţie este legată, evident, de posibilitatea utilizării fiecărei estimări
y ca medie a unei variabile aleatoare normale.
Condiţia 2. Dispersia distribuţiilor în jurul fiecărei valori y este aceeaşi. Motivul
introducerii acestei condiţii este legat de utilizarea valorii es ca valoare unică pentru abaterile
standard ale distribuţiilor de probabilitate menţionate în prima condiţie.
Să vedem acum de ce aducerea în discuţie a chinuitoarei repartiţii normale ne poate
rezolva o serie de probleme. Ne vom reaminti că orice carte de teoria probabilităţilor
precizează următoarele: pentru o variabilă normal repartizată, cu media m şi abaterea
standard , sunt valabile afirmaţiile:
68% dintre rezultate sunt cuprinse în intervalul m,m
95,5% dintre rezultate sunt cuprinse în intervalul 2m,2m
99,7% dintre rezultate sunt cuprinse în intervalul 3m,3m
Pentru că putem stabili corespondenţa între şi es şi pentru că y din ecuaţia estimată a
regresiei este estimatir al lui yM , deci al valorii medii, înseamnă că dacă cele ouă condiţii
sunt îndeplinite atunci punctele de pe diagrama scatter au proprietatea de a fi dispuse astfel:
68% dintre ele se află la distanţă es faţă de dreapta de regresie;
95,5% dintre ele se află la distanţă es2 faţă de dreapta de regresie;
99,7% dintre ele se află la distanţă es3 faţă de dreapta de regresie.
Înseamnă că există 68% şanse ca nivelul mediu anual al vânzărilor dealerului situat în
preajma supermarketului vizitat zilnic de 1700 de clienţi să fie cuprins între 177,756 sute
RON şi 213,136 sute RON, pentru că aceste limite de interval au fost obţinute din estimarea
lui yM pentru 17x , plus sau minus valoarea lui es .
Spre disperarea celor care nu au fost intotdeauna prietenii calculelor, trebuie spus că
nu ne vom opri aici. O scurtă rememorare a elementelor de statistică va trage un semnal de
alarmă în două direcţii. Prima este legată de faptul că practica nu ne pune la dispoziţie
întotdeauna repartiţii normale, iar a doua este legată de dimensiunea eşantionului, adică de
numărul datelor pe care le avem la dispoziţie.
Ceva mai devreme am subliniat natura similară a mărimilor pe care le cunoaştem
acum sub numele de eroarea standard a estimării, es şi abaterea standard de selecţie, pe care
la cursul de statistică aţi notat-o cu s. De asemenea, am avut o tentativă de construcţie a unui
23
interval de predicţie, similar intervalului de încredere pe care îl cunoaşteţi de la acelaşi curs.
Într-adevăr, es poate fi utilizat pentru construcţia unui astfel de interval în jurul valorii
estimate y , unde să fie situate cu o anumită probabilitate valorile efectiv observate pe care le-
am tot notat cu y. Acesta este aspectul de care ne vom ecupa în continuare, mai exact
construcţia intervalelor aproximative de predicţie.
2.6. Intervale de predicţie
Din cele amintite anterior despre repartiţia normală şi pe baza acelor condiţii pe care
le-am impus asupra repartizării valorilor y, putem afirma că: 68% dintre valorile y se află la
distanţa es faţă de dreapta de regresie (deasupra sau sub aceasta, ceea ce face corectă
descrierea prin intermediul mărimii es ), că 95,5% dintre valorile lui y se află la distanţă
es2 faţă de dreapta de regresie şi că 99,7% dintre valori se află la diatanţă es3 faţă de
această dreaptă.
Concret, pentru exemplul firmei de telefonie mobilă aceasta înseamnă că dacă 17x
şi 446,195y , atunci sunt:
68% şanse ca nivelul mediu al încasărilor pentru un dealer oarecare situat în
vecinătatea unui supermarket oarecare cu un număr zilnic de clienţi de 1700 să fie
situat în intervalul 69,17446,195;69,17446,195 , deci în intervalul
136,213;756,177 ;
95,5% şanse ca nivelul mediu al acestor vânzări să fie în
69,172446,195;69,172446,195 , deci între 160,066 şi 230,826;
99,7% şanse ca nivelul mediu al încasărilor anuale să fie între 69,173446,195 şi
69,173446,195 , deci între 142,376 şi 248,516.
Metoda prin care am construit aceste intervale, pentru grade de încredere diferite, este corectă
în măsura în care utilizarea repartiţiei normale este justificată. Dacă eşantionul folosit în
studiu are dimensiune mai mică decât 30 (aşa cum este cazul în exemplul nostru) şi dacă nu
se îndeplinesc cele două condiţii impuse asupra lui y, ceea ce este foarte posibil în practică,
atunci distribuţia normală nu mai are nici o putere. Din fericire, statisticienii ne învaţă că
atunci când dimensiunea n a eşantionului este mai mică decât 30 şi cînd dispersia întregii
populaţii este necunoscută, intră în cu succes Distribuţia t, sau Distribuţia Student, care în
cazul de faţă se bucură de n-2 grade de libertate, acelaşi n-2 ca şi numitărul din formula de
calcul pentru es . Vom reţine în acest context forma intervalului de predicţie şi anume:
24
Cu o probabilitate egală cu 1 , valorile observate ale lui z se află situate în
intervalul:
e
2e
2
sty;sty (2.6.1.)
Să aplicăm această formă pentru exemplul firmei de telefonie mobilă. Avem un eşantion
format din 10n dealeri, deci 30n şi, judecând la rece, habar nu avem care este abaterea
standard a populaţiei. Prin urmare, pentru predicţie va trebui utilizat intervalul (2.6.1.), cu o
distribuţie t cu 82n grade de libertate. Ne vom referi la valoarea estimată pentru 17x ,
pentru care am calculat 446,195y şi vom avea în atenţie că dacă dorim pentru intervalul
care urmează a fi construit un grad de încredere de 95% de exemplu, atunci:
025,02
05,095,01 .
Pentru cele 8 grade de libertate, tabelele distribuţiei t ne pun la dispoziţie valoarea
306,2tt 025,02
. Înlocuim în (2.6.1.) şi obţinem:
69,17306,23,195;69,17306,23,195
După efectuarea calculelor, directorul firmei poate fi sigur în proporţie de 95% de faptul că
nivelul mediu anual al vânzărilor pentru un dealer oarecare situat în vecinătatea unui
supermarket oarecare cu un număr zilnic de clienţi de 1700 este situat între 15444 RON şi
23616 RON.
Exerciţii propuse
Exerciţiul 7. Tabelul următor prezintă şase observaţii despre două variabile, x şi y.
Observaţia ix iy
1 4 30
2 5 30
3 6 25
4 2 35
5 9 20
6 10 16
a) Construiţi o diagramă scatter pentru aceste date.
25
b) Reprezentaţi grafic dreapta x240y pe diagrama scatter. Consideraţi că această
dreaptă este o bună aproximare a datelor?
c) Utilizaţi metoda celor mai mici pătrate şi calculaţi ecuaţia estimată a regresiei pe baza
datelor din tabel.
d) Calculaţi
n
1i
2
ii yySPE pentru dreptele de la b) şi c). Care valoare a lui SPE este
mai mică şi cum explicaţi?
Exerciţiul 8. Datele din tabelul următor indică salariile de care beneficiază angajaţii unei
firme şi vechimea acestora la locul de muncă.
Vechime (ani) Salariu (RON)
1,5 651
2,5 800
3,2 920
3,6 870
4,3 1000
2,9 820
a) Construiţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.
b) Faceţi o predicţie cu privire la salariul pe care îl poate primi un angajat cu doi ani
vechime şi unul cu cinci ani vechime.
Exerciţiul 9. Construiţi ecuaţia estimată a regresiei pentru datele din Exerciţiul 3 propus
în secţiunea precedentă. Faceţi apoi o predicţie cu privire la media generală cu care poate fi
absolvită facultatea de către un student care a fost admis cu nota 9.
Exerciţiul 10. [Andersen] O agenţie imobiliară dispune de următoarele date cu privire la
suprafaţa şi preţul de vânzare pentru cinci locuinţe:
Spaţiu locuibil (mp) Preţ de vânzare (mii euro)
250 124
240 108
180 92
300 146
230 110
26
a) Construiţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.
b) Faceţi o predicţie cu privire la preţul de vânzare pentru o locuinţă cu suprafaţa de 270
mp.
Exerciţiul 11. Se dau următoarele date:
x 54 46 40 56 38 37 48
y 43 36,5 32,5 44,2 31,2 30,1 38,6
a) Calculaţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.
b) Calculaţi erorile individuale de estimare şi verificaţi corectitudinea calculului de la
punctul anterior, pe baza rezultatului obţinut prin însumarea acestor erori.
c) Calculaţi eroarea standard a estimării.
d) Construiţi un interval de predicţie pentru y în cazul unei valori 42x , cu un grad de
încredere de 95%.
Exerciţiul 12. O firmă care asigură transport internaţional efecturază un studiu cu privire
la efectele pe care le are modificarea preţului biletelor asupra numărului de pasageri. Au fost
obţinute următoarele date:
Preţ bilet (euro) Număr pasageri
30 700
35 670
40 670
45 550
50 530
55 500
60 510
65 430
a) Stabiliţi care este variabila independentă x şi care este variabila dependentă y.
b) Construiţi diagrama scatter pentru datele din enunţ.
c) Construiţi ecuaţia estimată a regresiei cu ajutorul metodei celor mai mici pătrate şi
reprezentaţi grafic dreapta corespuntătoare în sistemul de coordonate de la punctul
anterior.
d) Calculaţi erorile individuale şi verificaţi corectitudinea calculului, studiind rezultatul
sumei acestora.
27
e) Calculaţi eroarea standard a estimării.
f) Dezvoltaţi un interval de predicţie 95% pentru numărul de pasageri pe care îi poate
avea firma dacă preţul biletului este de 53 euro.
Exerciţiul 13. [Levin, Rubin] O firmă testează agenţii proprii specializaţi în vânzări,
înainte de a-i trimite efectiv pe teren. Managerul firmei este interesat în determinarea relaţiei
care se stabileşte între punctajul obţinut la test şi vânzările efective realizate de către agenţi
după un an de practică. Următoarele date au fost culese şi se referă la zece persoane care au
lucrat timp de un an pe teren.
Persoana Punctajul testului Număr unităţi
vândute
1 26 95
2 37 140
3 24 85
4 45 180
5 26 100
6 50 195
7 28 115
8 30 136
9 40 175
10 34 150
a) Determinaţi ecuaţia estimată a regresiei, care poate fi utilizată în scopul predicţiei
volumului vânzărilor pe baza rezultatelor obţinute la test de către agenţi.
b) Cât de mult este aşteptat să crească numărul unităţilor vândute de către un agent, la o
creştere cu zece puncte a punctajului obţinut la test?
c) Utilizaţi ecuaţia estimată a regresiei pentru a efectua o predicţie cu privire la numărul
unităţilor pe care le poate vinde un agent care a obţinut la testare 25 de puncte.
d) Calculaţi eroarea standard a estimării.
e) Construiţi un interval de predicţie 95% pentru mărimea pentru care aţi făcut predicţia
la punctul c).
Întrebări recapitulative
1. Care este semnificaţia parametrilor 0 şi 1 ?
28
2. Cum se aplică această semnificaţie pentru exemplul firmei de telefonie mobilă?
3. Cum trebuie aleasă dreapta de regresie pentru ca analiza de regresie să fie credibilă?
4. Ce sunt erorile individuale, care este formula de calcul şi ce semn pot avea? Ce
sugerează semnul erorilor individuale?
5. Ce este metoda celor mai mici pătrate şi ce anume se urmăreşte prin aplicarea ei?
6. Care sunt formulele de calcul pentru parametrii ecuaţiei estimate a regresiei?
7. Care este diferenţa dintre modelul de regresie şi ecuaţia estimată a regresiei?
8. Prin ce metode se poate verifica dacă ecuaţia estimată a regresiei a fost calculată
corect?
9. Ce este eroarea standard a estimării şi unde poate fi utilizată?
10. Ce sunt intervalele de predicţie şi cum se calculează? Comentaţi semnificaţia fiecărei
mărimi care apare în formula generală de calcul, în funcţie de dimensiunea
eşantionului şi informaţiile pe care le aveţi despre dispersia populaţiei.
29
3. Coeficientul de determinare
Există, până în acest moment, câteva aspecte cu care putem fi de acord cu toţii. În
primul rând, faptul că ideea de estimare atrage după sine suspiciuni cu privire la exactitatea
rezultatului şi implicit sugerează existenţa unor potenţiale erori provenite din diferenţa între
valorile estimate şi cele înregistrate efectiv. În al doilea rând, atunci când teoria ne pune la
dispoziţie două sau mai multe metode de estimare se conturează ideea că diferenţele pot să
apară nu doar între valorile estimate şi cele observate, ci şi între estimările obţinute prin
metode diferite.
Ar fi ideal să putem conta pe modalităţi de control cu ajutorul cărora să stabilim
gradul în care o anumită estimare poate fi utilizată în prognoză şi este de intuit că un element
de ghidare în obţinerea răspunsului la întrebarea „În ce măsură pot folosi informaţiile pentru
prognoză?” trebuie să fie legat de luarea în calcul a unei analize bazate pe cel puţin două
metode de estimare. În mod sigur veţi acorda mai mlt credit unui rezultat dacă aţi obţine
acelaşi lucru pe mai multe căi, nu-i aşa?
Iată de ce atunci când vom discuta problema acestei măsuri, sau gradului în care
ecusţia estimată a regresiei poate fi utilizată în prognoze vom face referire la mărilime
observate iy , la cele estimate iy şi la o mărime pe care ne-o oferă statistica. Este vorba
despre y , media valorilor observate, despre care teoria ne învaţă că poate fi utilizată ca
estimator pentru media întregii populaţii. Aşadar, dispunem de:
Datele iniţiale iy ;
Estimarea pe baza relaţiei de regresie, din care obţinem valorile iy ;
Estimarea bazată pe media y a datelor din eşantion.
În cazul exemplului pe care l-am discutat până acum, al firmei de telefonie mobilă,
regăsim aceste valori după cum urmează: datele iniţiale iy şi estimările lor iy se află în
coloanele 2 şi 3 ale Tabelului 1.2.1.. Media y a fost calculată pe baza relaţiei (2.3.7.) şi a
rezultat egală cu 115,436.
Conform cu ceea ce am precizat puţin mai devreme, va trebui să luăm în calcul
următoarele erori şi diferenţe:
30
a) Erorile care apar atunci când estimăm datele iy prin intermediul valorilor iy obţinute
pe baza ecuaţiei estimate a regresiei. Este vorba despre diferenţele ii yy pe care le
întâlniţi în cărţile de specialitate sub numele de reziduuri. Suma pătratelor erorilor
astfel rezultate este o cunoştinţă mai veche, pe care am notat-o cu SPE şi, pentru
exemplul firmei de telefonie mobilă, a rezultat din calcul ca fiind egală cu 2503,49.
b) Erorile care apar atunci când estimăm iy prin intermediul valorii medii y , a căror
sumă a pătratelor o vom nota SPT şi are forma:
n
1i
2
i yySPT (3.1.)
Expresia (3.1.) este binecunoscută pentru cei care îşi amintesc formula de calcul a
dispersiei de selecţie şi reprezintă suma pătratelor abaterilor pe care le înregistrează
datele din eşantion faţă de valoarea medie de selecţie.
Haideţi să calculăm acum valoarea SPT pentru exemplul firmei de telefonie mobilă şi
vom utiliza Tabelul 3.1. pentru simplificarea calculului.
x y y y y 2yy
1 19,36 115,436 -96, 076 9230,597
4 50 115,436 -65, 436 4281,87
7 68 115,436 -47, 436 2250,174
7 90 115,436 -25, 436 646,99
10 100 115,436 -15, 436 238,27
12 125 115,436 9, 564 91,47
14 150 115,436 34, 564 1194,67
14 200 115,436 84, 564 7151,07
15 162 115,436 46, 564 2168,2
16 190 115,436 74, 564 5559,79
SPT = 32813,1
Tabelul 3.1. Calculul valorii SPT prin însumarea rezultatelor din ultima coloană a tabelului.
Am obţinut, deci, 1,32813SPT pentru exemplul firmei de telefonie mobilă. Asupra acestui
rezultat vom reveni cu câteva comentarii imediat ce vom prezenta şi ultima categorie de
diferenţe care trebuie luate în calcul în studiul nostru.
c) Diferenţele care apar între cele două variante de estimare, cea în care a fost utilizată
ecuaţia estimată a regresiei şi cea în care am folosit media de selecţie calculată pe
31
baza eşantionului de date. Este vorba, deci, despre yy i , iar suma pătratelor
acestora o vom nota SPR.
n
1i
2
i yySPR (3.2.)
Pentru exemplul firmei de telefonie mobilă utilizăm Tabelul 3.2. şi calculăm SPR.
y y y y 2yy
12,566 115,436 -102,87 10582,2369
46,856 115,436 -68,58 4703,2164
81,146 115,436 -34,29 1175,8041
81,146 115,436 -34,29 1175,8041
115,436 115,436 0 0
138,296 115,436 22,86 522,5796
161,156 115,436 45,72 2090,3184
161,156 115,436 45,72 2090,3184
172,586 115,436 57,15 3266,1225
184,016 115,436 68,58 4703,2164
SPR = 30309,61
Tabelul 3.2. Calculul valorii SPR prin însumarea rezultatelor din ultima coloană a tabelului.
Am calculat, aşadar, cele trei sume implicate de diferenţele care apar între valorile
observate şi cele estimate, respectiv între mărimile rezultate din cele două estimări pe care le-
am folosit. O înlocuire simplă vă va convinge că are loc următoarea egalitate:
SPRSPESPT (3.3.)
Această relaţie se verifică întotdeauna, nu doar pentru exemplul firmei de telefonie mobilă,
dar demonstraţia afirmaţiei nu este tocmai plăcută şi de aceea voi opta pentru omiterea ei din
această lucrare. Aceia dintre cititori care agrează calculele laborioase şi doresc să se convingă
de adevărul egalităţii (3.3.) în cadru general pot găsi amanunte şi indicaţii suplimentare în
lucrări de econometrie care dezvoltă mai profund aspectele teoretice4. În ceea ce ne priveşte,
vom lucra în continuare considerând că (3.3.) este adevărată şi vom discuta implicaţiile
acestei egalităţi.
Vom privi din nou la SPE şi SPT şi ne vom aminti faptul că SPE este suma pătratelor
erorilor care apar între punctele diagramei scatter (care corespund valorilor observate, dau
4 Se poate vedea Jula Dorin, Op. Cit.
32
date, iy ) şi punctele corespunzătoare de pe dreapta estimată a regresiei. Gândind într-o
manieră similară, SPT va trebui să provină din însumarea pătratelor erorilor care apar între
punctele aceleiaşi diagrame şi cele corespunzătoare de pe dreapta de ecuaţie yy . Figura
3.1. arată „aproximarea” punctelor iy prin cele două drepte.
Figura 3.1. Diagrama scatter pentru datele din Tabelul 1.2.1. şi aproximarea acesteia prin
ecuaţia estimată a regresiei, respectiv prin dreapta yy
În Figura 3.1. am pus în evidenţă eroarea aproximării pentru valoarea lui y corespunzătoate
lui 16x . Am notat cu 1E eroarea faţă de dreapta de regresie şi cu 2E eroarea faţă de
dreapta orizontală yy . Similar, se ot evidenţia toate erorile pentru toate punctele diagramei
scatter. Este momentul să ne amintim că în capitolul precedent am discutat despre metoda
care permite să verificăm calculul matematic atunci când construim ecuaţia estimată a
regresiei. Spuneam atunci că suma erorilor individuale trebuie să fie zero şi am arătat că
lucrul acesta chia se întâmplă. Spuneam, de asemenea, că această condiţie nu se referă la
gradul de încredere pe care îl putem avea în în ecuaţia estimată a regresiei, în sensul că nu
aflăm de aici în ce măsură ne putem baza pe aceasta pentru predicţii ulterioare şi a sosit clipa
să ne motivăm afirmaţia. Dacă aveţi curiozitatea să însumaţi erorile din coloana a patra a
Tabelului 3.1. veţi obţine valoarea zero. Asta nu înseamnă nici pe departe că dreapta de
ecuaţie yy este o foarte bună aproximare a punctelor de pe diagrama scatter, lucrul acesta
fiind argumentabil în două moduri: întâi, Figura 3.1. vă convinge imediat că diagrama este
mult împrăştiată faţă de punctele dreptei orizontale, iar al doilea va trebui să comparaţi suma
pătratelor erorilor în două situaţii, adică SPE şi SPT. Se observă că SPT, corespunzător
aproximării prin dreapta orizontală, este mult mai mare decât SPE care derivă din
aproximarea pe baza dreptei de regresie, cu toate că suma erorilor individiale în fiecare caz
este zero. Deduceţi de aici că anularea sumei este o simplă verificare pentru corectitudinea
calculului şi nu pentru vreo afirmaţie relativ la precizia estimării pe baza dreptei respective.
Mai putem face o observaţie pornind de la egalitatea (3.3.). Pentru că SPR este o sumă
de pătrate, înseamnă că are loc întotdeauna 0SPR . Egalitatea cu zero poate avea loc doar
dacă toţi termenii implicaţi în calcul ar fi zero, adică iy y = 0, n,1i . Această situaţie
corespunde cazului în care dreapta de regresie se suprapune peste dreapta yy şi este
33
unicul caz în care SPESPT . Pornind de la reprezentarea grafică din Figura 3.1. putem
spune deci că SPT şi SPE au următoarea semnificaţie:
SPT este măsura erorii atunci când nu utilizăm analiza de regresie
SPE este măsura erorii atunci când utilizăm analiza de regresie
Am convingerea că până în momentul de faţă cel puţin un cititor şi-a pus întrebarea
dacă relaţia (3.3.) mai are şi alt rost înafară de stresarea începătorilor în econometrie. Îmi face
plăcere să spun că tot ce am spus până acum converge către o argumentare solidă relativ la
măsura în care relaţia găsită pentru ecuaţia estimată a regresiei poate fi utilizată în prognoze.
Aceasta însemna, după cum am mai spus şi în capitolul anterior, ca pe dreapta de regresie să
se afle cât mai multe dintre punctele diagramei scatter. Un ideal, greu de atins, ar fi ca dreapta
la care ne.am referit să treacă prin toate aceste puncte, ceea ce ar însemna că în toate cazurile
are loc iy iy , iar în Figura 3.1. aţi mai regăsi doar erori faţă de dreapta orizontală yy .
Într-o atare situaţie ar avea loc:
iy y = 0, n,1i 0SPE
Cele două cazuri extreme pe care le.am pus în discuţie, cu toate că nu se prea întâlnesc în
practică, sunt de ajutor pentru studiul unei mărimi pe care o vom defini imediat şi pe care se
bazează multe elemente din analiza de regresie. Este vorba despre coeficientul de
determinare.
Definiţia 3.1. Coeficientul de determinare este mărimea care reflectă gradul în care
ecuaţia estimată a regresiei poate fi folosită în prognoze. Se notează cu 2r şi se calculează
după formula:
SPT
SPRr 2 (3.4.)
Cele două cazuri extreme discutate anterior ne spun că:
0r 2 dacă 0SPR , adică dacă dreapta de regresie se suprapune peste dreapta
yy ;
1r 2 dacă SPTSPR ,ceea ce înseamnă din (3.3.) că 0SPE adică dacă dreapta
de regresie se suprapune peste toate punctele diagramei scatter.
În oricare altă situaţie, pentru că SPE este o sumă de pătrate şi este pozitivă, la fel cu
celelalte mărimi implicate în (3.3.), are loc inegalitatea SPTSPR . Rezultă imediat că
1SPT
SPR . Ţinând cont de cele două cazuri particulare şi de definiţia coeficientului de
determinare, obţinem:
34
1,0r 2 (3.5.)
Coeficientul de determinare exprimă procentul din SPT care poate fi explicat de utilizarea
ecuaţiei estimată a regresiei. El mai poate fi folosit ca măsură a gradului de apropiere a
dreptei de regresie de punctele diagramei scatter, în sensul că o valoare mare a lui 2r ne
spune că apropierea este foarte bună. Nu în ultimul rând, 2r exprimă o măsură a intensităţii
relaţiei de regresie: mai exact, cu cît 2r este mai mare relaţia este mai puternică pe când o
valoare mică a lui 2r arată o relaţie slabă.
Pentru exemplul firmei de telefonie mobilă, coeficientul de determinare este
9237,01,32813
61,30309r 2 . În exprimare procentuală avem %37,92r 2 , valoare foarte
apropiată de 1, deci relaţia dintre numărul clienţilor din supermarket şi vânzările anuale ale
firmei este foarte intensă.
Altfel exprimat, procentul de 92,37% arată de fapt măsura în care variaţia vânzărilor
anuale ale firmei de telefonie mobilă este explicată de variaţia numărului de clienţi ai
supermarketului în preajma căruia este situat dealerul. Exprimându-ne astfel, devine uşor de
înţeles motivul pentru care de foarte multe ori în lucrările de specialitate veţi întâlni, pentru
valorile iy denumirea de „variabilă explicată de modelul de regresie”. De asemenea, pentru
că în exemplul nostru coeficientul de determinare este 92,37%, se intuieşte că diferenţa până
la 100% corespunde unui segment, sau unei părţi din variaţia vânzărilor care nu poate fi
atribuită numărului de clienţi din supermarketuri. Despre această diferenţă de 7,63% nu avem
informaţii cuprinse în modelul pe care l-am utilizat şi este ideal ca acest procent „diferenţă”
să fie foarte mic, astfel încât încrederea în relaţia obţinută (ecuaţia de regresie) să fie mare.
Dealtfel este limpede că un model, fie el de regresie sau de altă natură, este cu atât mai
potrivit cu cât furnizează cât mai multe explicaţii asupra fenomenului studiat.
În concluzie, procentul de 92,37% ne spune că din variaţia totală a vânzărilor anuale
care ne-au fost oferite în eşantion, 92,37% ar putea fi atribuită modului în care sunt distribuite
datele corespunzătoare numărului clienţilor din supermarket. Aş dori să atrag atenţia din nou
asupra unu aspect pe care l-am mai comentat şi anume faptul că în exprimarea utilizată
anterior nu am sugerat nici o secundă o relaţie de cauzalitate între variabilele modelului. Am
folosit cuvintele „ar putea fi atribuită” şi nu „are drept cauză”, acestea din urmă însemnând,
la o privire atentă, cu totul altceva.
Acelaşi procent ne spune că putem să avem încredere în faptul că ecuaţia estimată a
regresieioferă o bună aproximare a punctelor diagramei scatter.
35
În final trebuie să recunoaştem că întreg calculul lui 2r este destul de incomod şi că
metoda directă pe care am prezentat-o şi care utilizează Tabelele 3.1. şi 3.2. este destul de
riscantă, mai ales că în calculul erorilor ridicate la pătrat apar deseori zecimale şi tot deseori
se simte nevoia aproximării valorilor obţinute. Desigur că în scopuri didactice aş fi putut
alege un exemplu care să nu cauzeze bătăi de cap cititorului, însă într-o atare situaţie probabil
că metoda rapidă de calcul pe care o voi prezenta mai departe nu ar mai fi fost apreciată la
justa ei valoare.
Experienţa didactică mi-a dovedit că de foarte multe ori studenţii manifestă aversiune
faţă de formulele de calcul şi preferă să abordeze problemele într-o manieră directă,
muncitorească. Din păcate, trunchierile rezultatelor intermediare determină în marea
majoritate a cazurilor rezultate finale destul de departe de adevăr, pentru că datele reale cu
care se lucrează în problemele practice nu pot fi întotdeauna alese „comod”.
Sugerez cititorilor să ţină cont de toate aceste aspecte şi să nu respingă metoda de
calcul a coeficientului de determinare care presupune aflarea lui SPR şi SPT din formulele
următoare:
2n
1i
i
n
1i
2i
2n
1i
i
n
1i
i
n
1i
ii
xn
1x
yxn
1yx
SPR
(3.6.)
2n
1i
i
n
1i
2i
yn
1ySPT
(3.7.)
Atunci când am calculat coeficienţii 0 şi 1 pentru ecuaţia estimată a regresiei am avut
nevoie de toate elementele care apar în (3.6.) şi (3.7.), mai puţin de suma
n
1i
2i
y care va fi
calculată acum. Reamintim că:
10n , 36,14195yxn
1i
ii
, 100xn
1i
i
, 36,11154yxn
1i
ii
, 1232xn
1i
2i
.
Din calcul direct, rezultă 8096,166067yn
1i
2i
.
Înlocuim în (3.6.) şi (3.7.) şi obţinem:
36
61,30309
10010
11232
36,115410010
136,14195
SPR2
2
1,3281336,115410
18096,166067SPT 2
Coeficientul de determinare se calculează din (3.4.) şi pentru că valorile SPT şi SPR au
rezultat, aşa cum ne aşteptam, aceleaşi ca şi în cazul metodei anterioare de calcul, înseamnă
că 2r îşi menţine valoarea de 92,37%. În acest fel nu am utilizat tabele, nu am ridicat la
pătrat o grămadă de diferenţe, de fapt n-am făcut decât să utilizăm mărimile care ne-au fost
deja de ajutor în calculul lui 0 şi 1 . Este foarte adevărat că şi această metodă presupune ca,
la un moment dat, să facem ulele aproximări. Dacă veţi calcula efectiv SPR şi SPT prin
intermediul formulelor (3.6.) şi (3.7.), veţi vedea că ele sunt „aproximativ egale” cu valorile
pe care le-am comunicat cititorilor. Dar prin această metodă de lucru eventuala aproximare
apare o singură dată, la finalul calculului şi nu în fiecare căsuţă din ultima coloană a
Tabelelor 3.1. şi 3.2., aşa cum sunt tentaţi studenţii să procedeze atunci când sunt confruntaţi
în mod repetat cu zecimale incomode.
În fond, şi calculul direct şi aplicarea formulelor prescurtate sunt de fapt metode de
lucru la fel de corecte câtă vreme rezultatele obţinute nu sunt eronate. Important este ca,
indiferent pe care dintre căi, să o scoateţi la capăt şi să calculaţi corect coeficientul de
determinare.
Exerciţii propuse
Exerciţiul 14. Pentru datele din Exerciţiul 7, să se calculeze cu ajutorul formulelor
(3.6.) şi (3.7.):
a) SPR
b) SPT
c) Folosind formula (3.3.) şi rezultatele de la a) şi b), calculaţi SPE şi comparaţi cu
rezultatul pe care l-aţi obţinut când aţi rezolvat Exerciţiul 7 şi aţi utilizat metoda
directă.
d) Calcluaţi coeficientul de determinare şi comentaţi asupra ecuaţiei estimate a regresiei
pe care aţi obţinut-o în rezolvarea Exerciţiului 7.
37
Exerciţiul 15. Pentru datele din Exerciţiul 8, să se calculeze SPR şi SPT prin metoda
directă şi apoi cu ajutorul formulelor (3.6.) şi (3.7.). Care este procentul din SPT care este
explicat prin modelul de regresie? Ce informaţii oferă valoarea coeficientului de determinare
cu privire la relaţia dintre variabilele din problemă?
Exerciţiul 16. Pentru datele din Exerciţiul 9, se cer:
a) Valorile pentru SPR, SPE şi SPT , calculate prin metoda directă şi apoi cu ajutorul
formulelor (3.3.), (3.6.) şi (3.7.).
b) Comparaţi rezultatele obţinute prin cele două metode şi explicaţi eventualele diferenţe
care pot să apară.
c) Calculaţi coeficientul de determinare şi comentaţi semnificaţia lui pe baza elementelor
teoretice explicate în Secţiunea 3.
Exerciţiul 17. Aceleaşi cerinţe ca la exerciţiul anterior, pentru datele din Exerciţiul 11.
Exerciţiul 18. Se dau următoarele date:
x 50 75 100 140 160 180
y 5 25 45 70 95 120
a) Imaginaţi un exemplu practic pentru care datele din tabelul anterior ar putea fi
corespunzătoare.
b) Stabiliţi variabila independentă şi pe cea dependentă, conform cu semnificaţiile
impuse de exemplul pe care l-aţi ales.
c) Construiţi ecuaţia estimată a regresiei pentru datele din enunţ şi reprezentaţi-o grafic
în acelaşi sistem de coordonate cu diagrama scatter care se profilează.
d) Calculaţi coeficientul de determinare şi interpretaţi valoarea lui pe baza exemplului
concret pe care l-aţi ales.
Exerciţiul 19. Calculaţi coeficientul de determinare pentru ecuaţia estimată a regresiei pe
care aţi determinat-o la Exerciţiul 10. Comentaţi rezultatul prin prisma semnificaţiei lui 2r .
Întrebări recapitulative
38
1. Care sunt elementele de care dispunem iniţial atunci când ne pregătim să calculăm
coeficientul de determinare?
2. Câte metode de estimare sunt implicate în calculul coeficientului de determinare?
Care sunt?
3. Câte feluri de erori, sau diferenţe, trebuie avute în vedere atunci când urmează să
discutăm problema coeficientului de determinare? Care sunt?
4. Care este semnificaţia mărimilor SPR, SPE şi SPT?
5. Care este relaţia dintre SPR, SPE şi SPT?
6. În câte moduri pot fi calculate mărimile SPR, SPE şi SPT? Detaliaţi.
7. Explicaţi avantajele şi dezavantajele fiecăreia dintre metodele de calcul pe care le-
aţi menţionat ca răspuns la întrebarea 6.
8. Cum se defineşte coeficientul de determinare?
9. Care este formula de calcul a coeficientului de determinare?
10. Care sunt comentariile pe care le puteţi face asupra semnificaţiei coeficientului de
determinare?
4. Testarea semnificaţiei statistice
Există câteva motive obiective pentru care această secţiune va fi prezentată cu foarte
mare atenţie şi, pentru unii dintre cititori, poate prea în amănunt. Dacă prezenta lucrare s-ar
adresa specialiştilor în econometrie, cu siguranţă că grija ar trebui îndreptată doar asupra
corectitudinii informaţiei. Mi-am propus, însă, ca această carte să se adreseze în primul rând
persoanelor care nu sunt familiarizate cu domeniul şi de aceea, în dorinţa de a explica foarte
clar noţiunile şi metodele cu care operăm, voi prefera să aduc şi foarte multe elemente care
pot fi de ajutor în atingerea obiectivului propus. Secţiunea 4 face apel la o serie de cunoştinţe
pe care cititorul ar trebui să le aibă ca urmare a lecturării atente a unui curs de statistică.
Pentru că nu sunt convinsă de existenţa acestor informaţii nici măcar atunci când este vorba
despre foştii mei studenţi şi pentru că de cele mai multe ori reacţia cititorilor este aceea de „a
trece peste” paragrafele incomode mai degrabă decât să caute prin diverse cărţi o completare
a cunoştinţelor, am preferat să elaborez această secţiune reamintind şi câteva din elementele
fundamentale de statistică pe care se bazează toate construcţiile şi concluziile la care vom
ajunge. Îmi place să cred că acest demers va fi de ajutor măcar unora dintre dumneavoastră,
39
uşurându-vă munca de documentare şi, de ce nu, eliminând o parte din sentimentul de
respingere cu care este primită de către studenţi această parte a analizei de regresie.
Voi începe printr-o scurtă recapitulare a câtorva lucruri pe care le-am făcut până
acum. Am prezentat Metoda Celor Mai Mici Pătrate, cu ajutorul căreia am determinat 0 şi
1 pe care i-am numit parametrii ecuaţiei estimate a regresiei. Trebuie să ne amintim faptul
că întreg calculul s-a bazat pe datele din Tabelul 1.1., deci pe un eşantion format din zece
dealeri. Haideţi să ne gândim că în realitate firma de telefonie mobilă are reprezentanţi în
foarte multe locuri şi că în total există 270 de magazine prin intermediul cărora ăşi distribuie
produsele destinate vânzării: telefoane mobile, accesorii sau abonamente şi alte servicii. Într-
o atare situaţie alegerea unui eşantion format din zece dealeri se poate face în foarte multe
moduri, mai exact în 10270
C adică un număr deloc de neglijat pe care nu v-aş sfătui să încercaţi
sa-l calculaţi dacă nu dispuneţi de un program special pe computer. Ne putem aştepta, deci,
ca pentru un alt eşantion datele din Tabelul 1.1. să arate mai mult sau mai puţin diferit, la fel
de bine cum valorile rezultate dintr-un nou calcul pentru 0 şi 1 pot fi de asemenea diferite
de cele determinate de noi în Secţiunea 2. Mai grav, dacă lucrăm pe baza datelor provenite de
la 20 de eşantioane diferite, de exemplu, n-ar fi de mirare să obţinem tot atâtea valori pentru
parametrii estimaţi 0 şi 1 . Ei, bine, toată povestea aceasta reprezintă „marea problemă”
care cere ajutorul instrumentelor statistice. Atâta vreme cât nu dispunem de absolut toate
datele – adică de întreaga populaţie – şi avem la îndemână doar o parte dintre ele – adică
eşantionul – nu ne putem baza cu certitudine pe rezultatele pe care le-am obţinut. Informaţia
trunchiată va genera în mod sigur erori şi problemele care apar sunt destul de numeroase.
Orice statistician poate mărturisi că lupta cu datele care urmează a fi utilizate în
analize este destul de spinoasă. Se pot întâmpla două lucruri: să-i fie puse la dispoziţie, sau să
fie invitat să le culeagă. Ambele variante crează oarecari neplăceri şi este greu de spus care
situaţie este de preferat. Dacă datele îi sunt furnizate pur şi simplu, apare problema modului
în care au fost obţinute. Sunt corecte? Sunt suficiente? Au fost colectate conform regulilor pe
care le impune statistica? Dacă are posibilitatea să le culeagă singur, atunci va şti ce are de
făcut pentru ca totul să se desfăşoare pe baze ştiinţifice, dar şi în această situaţie se va afla
faţă în faţă cu fragmente de informaţie şi nu cu date complete relativ la întreaga populaţie.
Revenind la problema valorilor care se pot obţine pentru 0 şi 1 din diferite
eşantioane, este uşor de înţeles faptul că se naşte următoarea suspiciune: cât de mult ne putem
baza pe rezultatele pe care le-am obţinut? Cât de semnificateive sunt, în sensul în care scopul
40
nostru este să caracterizăm întregul pe baza unei părţi pe care o cunoaştem? De exemplu,
valorile 136,1ˆ0 şi 43,11ˆ
1 pe care le-am calculat în Secţiunea 2caracterizează cât de
cât fidel ecuaţia de regresie pe ansamblul dealerilor firmei de telefonie mobilă, sau se poate
întâmpla ca un alt eşantion să ne conducă la rezultate complet diferite, ca de exemplu
6,12ˆ0 şi 135ˆ
1 , iar în realitate să fie vorba despre 4,40 şi 51 ? Aceste ultime
valori s-ar referi la mărimile pe care le-am obţine dacă am avea acces la datele pentru
întreaga populaţie şi care nu ar fi deloc apropiate de rezultatele pe care le-am menţionat ca
provenind din două eşantioane diferite.
De obicei eşantioanele se aleg uniform aleator şi prin urmare există o valoare de
probabilitate pe care o puteţi atribui posibilităţii ca din această alegere să rezulte un eşantion
anume. De asemenea, fiecărui eşantion îi vor corespunde ca urmare a calculului prezentat în
Secţiunea 2 valori ferme ale parametrilor estimaţi 0 şi 1 . Putem afirma, deci, că 0 şi 1
se obţin din calcule cu aceeaşi probabilitate cu care este ales eşantionul pe baza căruia au fost
determinaţi. Dacă, de exemplu, eşantionul din Tabelul 1.1. apare cu probabilitate 0,014
(ipotetic vorbind) atunci când se aleg la întâmplare zece dealeri din totalul lor, atunci putem
spune că 136,1ˆ0 şi 43,11ˆ
1 apar cu probabilitate identică, adică tot 0,014.
Vom discuta un exemplu în care populaţia are trei elemente, iar populaţia are două.
Desigur că din punct de vedere practic nu are nici un sens să aplicăm instrumente statistice în
această situaţie, decât dacă din diferite motive nu avem acces la întreaga informaţie. Pentru
scopuri didactice, însă, exemplul este potrivit.
Exemplul 4.1. Considerăm populaţia c,b,a din care alegem uniform aleator un
eşantion format cu doi itemi. Este uşor de observat că există trei posibilităţi şi anume: b,a ,
c,a , c,b şi intuim că fiecare variantă are şansa, sau probabilitatea, de 3
1 de a fi aleasă.
Pentru fiecare dintre cele trei posibilităţi de alegere se vor obţine valori ferme pentru 0 şi
1 , pe care le vom nota astfel:
Eşantionul b,a : 01 şi 11
Eşantionul c,a : 02 şi 12
Eşantionul c,b : 03 şi 13
41
Pentru că fiecare eşantion apare cu probabilitate 3
1, cu aceeaşi probabilitate se vor înregistra
şi rezultatele 0 şi 1 . Construim tablourile următoare, în care înscriem pe prima linie
parametrii şi pe linia a doua şansele lor de apariţie:
Tabloul 1:
3
1
3
1
3
1
ˆˆˆ
:ˆ030201
0
Tabloul 2:
3
1
3
1
3
1
ˆˆˆ
:ˆ131211
1
Pentru cititorii familiarizaţi cu teoria probabilităţilor faptul că am enumerat toate variantele
de rezultat şi şansele lor de apariţie este o direcţionare clară către noţiunea de „variabilă
aleatoare”. Tabloul 1 este variabila aleatoare care corespunde lui 0 , iar Tabloul 2 lui 1 . ₪
Dacă exemplul anterior a fost suficient de clar, înseamnă că este de înţeles faptul că
0 şi 1 sunt, de fapt, variabile aleatoare care pot lua diferite valori în funcţie de eşantionul
ales, iar aceste valori se pot întâlni cu aceeaşi probabilitate cu care eşantionul utilizat în calcul
are şanse să apară ca urmare a selecţiei din întreaga populaţie. Problema care se conturează
imediat este legată de natura valorilor pe care le pot lua aceste două variabile aleatoare, în
sensul în care dorim să vedem:
Dacă există o tendinţă de grupare a lor în jurul unei valori medii;
În ce măsură se realizează această grupare;
Cât de dispersate, sau împrăştiate, sunt valorile faţă de media pe care am menţionat-o.
Exprimat în limbaj de specialitate, dorim ca 0 şi 1 să îndeplinească următoarele
proprietăţi:
1) Să fie estimatori nedeplasaţi, adică media fiecăreia dintre cele două variabile aleatoare
să fie egală cu parametrul corespunzător care ar rezulta din calcul dacă am utiliza, în
loc de eşantion, întreaga populaţie. Această proprietate se scrie, formal, astfel:
00ˆM şi 11.ˆM
2) Dispersia variabilelor 0 şi 1 să fie cea mai mică posibilă, adică estimatorii trebuie
să se împrăştie, sau să se îndepărteze cât mai puţin cu putinţă de la valorile medii
pomenite anterior.
42
3) Să fie estimatori consistenţi, adică pe măsură ce alegem eşantioane de dimensiuni din
ce în ce mai mari, valorile rezultate din calcul pentru 0 şi 1 să se apropie din ce în
ce mai mult de valorile reale ale parametrilor 0 şi 1 care corespund întregii
populaţii.
Fără să intrăm în amănunte, vom spune că estimatorii 0 şi 1 calculaţi prin Metoda
Celor Mai Mici Pătrate îndeplinesc o serie de proprietăţi care ne dau voie să credem că ne
putem baza pe cele trei caracteristici pe care tocmai le-am prezentat.
Din punct de vedere al practicianului, tot preambulul pe care l-am făcut aici poate fi
considerat plictisitor sau deranjant. Foarte mulţi cititori sunt interesaţi în primul rând de latura
aplicativă a problemelor, simţindu-se pe deplin insensibili când este vorba despre
caracteristicile sau proprietăţile teoretice ale instrumentelor cu care operează. Prin urmare,
voi continua prezentarea într-un registru concret şi voi urmări două coordonate care pot fi de
interes atunci când lucrăm cu date numerice. În ambele situaţii, metodele de lucru au la bază
elemente de statistică şi pentru că nu toată lumea cunoaşte în amănunt capitolul pe cre această
ştiinţă îl dedică verificării ipotezelor, voi opta pentru indicarea unor etape de lucru şi nu
pentru o recapitulare în amănunt a informaţiilor.
Prima problemă: Am explicat faptul că 0 şi 1 sunt, de fapt, estimări ale parametrilor
0 şi 1 ai întregii populaţii. Se poate întâmpla ca, din diferite considerente, să intuim
valoarea lui 0 şi 1 şi să dorim să verificăm dacă avem dreptate utilizând un eşantion din
care să calculăm 0 şi 1 . Pentru o mai bună înţelegere a fenomenului, haideţi să
presupunem că directorul firmei de telefonie mobilă are motive să creadă că 1 ia, în
realitate, valoare 11,5. Cum se poate convinge că această valoare este plauzibilă? În primul
rând, el nu va avea certitudine asupra afirmaţiei decât în situaţia în care efectuează calculul
lui 1 pe baza datelor provenite de la toţi dealerii, adică pe baza întregii populaţii. În rest,
directorul poate spera într-o afirmaţie cu 90% sau 95% şanse de certitudine, sau cu orice alt
procent de obicei mai mic de 100%. Să admitem că domnul director se declară mulţumit cu
procentul de 90%. Apar aici două ipoteze pe care le vom numi – după modelul statisticii –
ipoteza nulă 0H şi ipoteza alternativă 1H . Ipoteza nulă se referă la ceea ce se verifică şi deci
la posibilitatea 5,111 . Ipoteza alternativă este contrară primeia şi va presupune, prin
urmare, că 5,111 . Alegerea celor două ipoteze este mai mult decât firească, pentru că se
referă la cele două ipostaze în care se poate afla 1 : egal sau diferit de 11,5. Vom scrie astfel:
43
0H : 5,111
1H : 5,111
Urmează acum etapa în care va trebui să hotărâm care ipoteză este adevărată şi pentru
asta vom folosi informaţiile pe care le-am obţinut deja pe baza eşantionului disponibil în
Tabelul 1.1. Avem nevoie de o mărime pe care o numim eroarea standard a corficientului de
regresie, aceasta fiind tocmai rădăcina pătrată a coeficientului de determinare 2r . Pentru că
am precizat deja că voi prezenta doar metoda de calcul, cititorii vor trebui să ştie doar faptul
că trebuie calculată mărimea:
2n
1i
2i
eˆ
xnx
ss
1
(4.1.)
Pe es l-aţi întâlnit în Secţiunea 3 şi a fost calculat, rezultând 69,17se . Obţinem, prin
urmare:
1614,1
10101232
69,17s
2ˆ
1
Tocmai am folosit un element important pentru continuarea calculului şi anume informaţia cu
privire la dimensiunea eşantionului, care este 10n . Lucrul acesta ar trebui să ne
reamintească faptul că în statistică se ţine cont dacă eşantionul este format din mai mult sau
mai puţin de 30 de itemi, pentru că în funcţie de asta vom şti cum abordăm problema mai
departe. De fapt, avem de calculat două valori „limită” şi anume: limita superioară a regiunii
de acceptare pentru ipoteza 0H şi limita inferioară a aceleiaşi regiuni. Va trebui să
determinăm mărimile:
1ˆ1 s
În locul steluţei se va afla fie un „t”, fie un „z”, în funcţie de dimensiunea eşantionului, adică:
Dacă 30n , cum este şi cazul nostru, vom folosi distribuţia Student cu 2n grade
de libertate şi în locul lui va fi un t.
Dacă 30n , intră în scenă distribuţia normală şi va fi înlocuit printr-un z.
Am stabilit că directorul firmei se declară mulţumit dacă poate fi sigur în proporţie de
90% de rezultatul testării. Atunci vom determina o valoare din egalitatea următoare:
05,02
10,09,01
44
Acest se numeşte prag de semnificaţie şi reprezintă probabilitatea cu care ipoteza
0H riscă să fie respinsă, ea fiind în realitate adevărată.
Vom calcula limita superioară şi cea inferioară de acceptare astfel:
Limita superioară: 1
ˆ2
1 st (4.2.)
Limita inferioară: 1
ˆ2
1 st (4.3.)
Valoarea 2
t , pentru 05,02 şi 82n grade de libertate este de găsit în
tabelele distribuţiei Student şi este 860,1t 05,0 . Cele două limite se calculează imediat,
ţinând cont că ipoteza 0H insinuează o valoare 5,111 :
Limita superioară: 66,131614,186,15,11
Limita inferioară: 34,91614,186,15,11
Mai departe, metoda de lucru ne spune să verificăm dacă valoarea estimată pentru 1
se află între limita inferioară şi cea superioară a regiunii de acceptare. Mai exact, dacă
66,13;34,943,11ˆ1 . Pentru că apartenenţa lui 1 la acest interval este evidentă, vom
afirma că suntem siguri în proporţie de 90% de faptul că ipoteza 0H este adevărată şi vom
accepta că 5,111 .
Exemplul 4.2. Uitaţi pentru moment faptul că s-ar putea confirma cu şanse 90%
valoarea 5,111 şi haideţi să readucem în discuţie „amănuntul” că 43,11ˆ1 a fost obţinut
din unul dintre eşantioanele posibile ale populaţiei. Am discutat deja cu privire la
posibilitatea ca acest rezultat să fie, de fapt, foarte departe de adevăr şi că este posibil ca în
realitate 1351 de exemplu. Să testăm această ipoteză urmând exact aceiaşi paşi pe care
i-am prezentat anterior.
Fixăm ipotezele:
0H : 1351
1H : 1351
Vom calcula din nou limitele regiunii de acceptare din (4.2.) şi (4.3.), singura mărime
care se modifică faţă de calculul precedent fiind 1351 .
Limita superioară: 84,1321614,186,1135
Limita inferioară: 16,1371614,186,1135
45
Verificăm acum dacă valoarea 43,11ˆ1 este situată în intervalul pe care l-am
obţinut, adică:
84,132;16,13743,11ˆ1
Apartenenţa nu este valabilă, deci putem afirma cu certitudine de 90% că ipoteza 0H se
respinge, iar ipoteza 1H devine implicit acceptată.
Calcule similare se pot face şi pentru verificarea ipotezelor relativ la parametrul 0 şi
voi lăsa în seama cititorului să afle dacă presupunerea că 14,10 este viabilă, c o
probabilitate de 90%.
A doua problemă: Am luat în calcul până acum diferite aspecte care vizează valorile
posibile ale parametrilor 0 şi 1 , dar nu ne-am referit la o situaţie care, odată apărută, poate
modifica radical modul în care am privit problema relaţiei de regresie dintre variabilele x şi y.
Este vorba despre cazul în care, de fapt, 01 ceea ce înseamnă că nu există influenţă a
variabilei independente asupra variabilei dependente.
Ne vom reaminti că ecuaţia regresiei are forma:
xyM 10
Înseamnă că dacă de exemplu 21 , atunci modificarea gu o unitate a lui x este
responsabilă de modificarea cu două unităţi a lui yM , ceea ce indică faptul că între x şi
yM se stabileşte o relaţie liniară. Dacă 1 se dovedeşte a fi zero, înseamnă că modificările
lui x nu mai au influenţă asupra lui yM , adică între cele două mărimi nu există o relaţie
liniară şi, cine ştie, poate că de fapt nu există nici un fel de relaţie. De ce n+am putea intui
încă de la început o astfel de situaţie? Evident, pentru că operând pe un eşantion ne punem
speranţe că dacă 1 a rezultat nenul, atunci şi 1 trebuie să fie la fel. Avem deja destule
argumente ca să nu avem încredere deplină în această posibilitate, mai ales dacă 1 are o
valoare foarte mică. Aşadar, este justificată testarea ipotezei ca 1 să fie nul, având ca
ipoteză alternativă posibilitatea 01 :
0H : 01
1H : 01
Metoda pe care o vom utiliza mai departe, numită Testul F, se bazează tot pe verificarea
ipotezelor statistice şi nu va fi aprofundată sub aspectmteoretic ci vor fi urmaţi doar paşii de
46
lecru. Vom utiliza unele mărimi deja calculate şi va trebui să mai determinăm şi altele, după
cum urmează.
Cunoaştem deja 49,2503SPE şi, cu ajutorul ei, calculăm media pătratelor erorilor
din formula:
2n
SPEMPE
(4.4.)
Obţinem 936,3128
49,2503MPE . Calculăm apoi media pătratelor erorilor rezultate din
utilizarea regresiei, din formula:
.indep.var.nr
SPRMPR (4.5.)
Pentru că în modelul nostru avem o singură variabilă independentă, x, înseamnă că numitorul
fracţiei anterioare este egal cu 1. Numărătorul a fost calculat deja şi este 30309,61, deci
obţinem 61,30309MPR .
Dacă ne gândim la un fapt evident, anume acela că odată cu modificarea eşantionului
se vor modifica şi mărimile SPR şi SPE, deci şi MPR şi MPE, înseamnă că acestea din urmă
sunt variabile aleatoare. Justificarea este similară celei pe care am adus-o atunci când am
explicat că 0 şi 1 sunt astfel de variabile. Raportul lor îl vom nota cu F:
MPE
MPRF (4.6.)
Acest F desemnează o distribuţie întâlnită în teoria probabilităţilor sub numele de Distribuţia
F cu un grad de libertate la numărător şi 2n grade de libertate la numitor, unde n este
dimensiunea eşantionului utilizat.
Calculăm valoarea lui F pentru exemplul nostru şi obţinem:
855,96936,312
61,30309F
Să stabilim dacă putem accepta 0H şi vom presupune că trebuie să fim siguri în proporţie de
99%. Înseamnă că putem greşi cu şanse de 1%, adică 0,01.
Pentru 01,0 şi pentru distribuţia F cu un grad de libertate la numărător şi 8 grade
de libertate la numitor, obţinem din tabelele specifice valoarea 26,11F 01,0 . Ultimul pas în
rezolvarea problemei noastre este să comparăm valorile F şi 01,0F pe care tocmai le-am
determinat şi să apliăm următoarea regulă de decizie:
Dacă 01,0FF , acceptăm 0H .
47
Dacă 01,0FF , respingem 0H .
Pentru că 855,96F 26,11F 01,0 rezultă că ipoteza 0H se respinge. Asta înseamnă că
suntem 99% siguri de faptul că 01 , deci că între variabilele x şi y există o relaţie în
sensul că variaţia lui x generează variaţii ale lui y. Putem avea încredere acum în ecuaţia
estimată a regresiei pe care am determinat-o în Secţiunea 2 şi o putem folosi în predicţii cu
privire la vânzările anuale ale firmei de telefonie mobilă.
Specialiştii ne pun la dispoziţie şi o altă metodă de verificare a ipotezelor în acest caz,
bazată de această dată pe Testul t. Câtă vreme lucraţi pentru testarea parametrilor unui model
de regresie liniară cu o singură variabilă independentă, în cazul nostru x, puteţi aplica după
propriile preferinţe Testul F sau Testul t pentru că ele conduc la acelaşi rezultat. Dacă
modelul are, însă, mai multe variabile independente, ceea ce nu este cazul în lucrarea de faţă,
Testul F va fi singura armă de care veţi dispune.
Discutăm în continuare etapele de lucru specifice Testului t, fără să ne oprim asupra
motivelor teoretice care justifică funcţionalitatea lor.
Pasul 1. Calculăm valoarea 2ˆ
1
s
care se constituie în estimatorul dispersiei, sau
împrăştierii 2 pe care o înregistrează valorile variabilei aleatoare 1 :
2n
1i
2i
2ˆ
xnx
1MPEs
1
(4.7.)
Obţinem, pentru exemplul nostru: 349,1s2ˆ
1
. Trebuie să observaţi că (4.7.) este de fapt
(4.2.) ridicată la pătrat în ambii membri.
Pasul 2. Calculăm raportul
1ˆ
1
s
ˆ
.
Pentru exemplul nostru, obţinem: 84,91614,1
43,11
s
ˆ
1ˆ
1
Pasul 3. În funcţie de pragul de semnificaţie dorit, vom calcula 2
t din tabelul
Distribuţiei t cu 2n grade de libertate.
48
Să presupunem că dorim să fim siguri în proporţie 90% de faptul că ipoteza 0H este
adevărată. Asta îneamnă că 05,02
10,09,01 , de unde obţinem
86,1t2 pentru 8 grade de libertate.
Pasul 4. Regula de decizie. Vom folosi următoarea regulă:
Acceptăm 0H dacă 2
t
1ˆ
1
s
ˆ
2t
Respingem 0H dacă
1ˆ
1
s
ˆ
2t
În exemplul nostru se observă că este îndeplinită cea de-a doua relaţie, pentru că 9,84 > 1,86.
În consecinţă, respingem 0H şi acceptăm 1H care ne spune că 01 . Această concluzie o
considerăm adevărată la un prag de semnificaţie 10,0 .
În încheierea acestei secţiuni aş dori să mai trec în revistă încă o dată motivele pentru
care etapa de testare a semnificaţiei parametrilor este necesară. Modificările eşantionului şi a
dimensiunii acestuia ridică probleme, pentru că apar schimbări în valorile estimatorilor 0 şi
1 . Problemele se traduc astfel:
În ce condiţii putem generaliza estimările? Altfel spus, în ce condiţii putem realiza
inferenţa statistică?
Pe ce ne bazăm atunci când afirmăm că o estimare este cu adevărat semnificativă şi
nu este rezultatul întâmplării sau a unei conjuncturi particulare, legate de alegerea
unui anumit eşantion?
Între ce limite se poate modifica estimaţia fără să afectăm concluziile relativ la
semnificaţia ei?
Ce garanţii probabilistice avem cu privire la semnificaţia estimatorilor?
Dacă după parcurgerea acestei secţiuni aţi putut răspunde acestor întrebări, înseamnă
că aţi acumulat toate informaţiile necesare pentru această etapă în materie de testarea
semnificaţiei estimatorilor.
Exerciţii propuse
Exerciţiul 20. Se dau următoarele date, provenite din 5 observaţii:
49
Observaţia ix iy
1 3 25
2 4 26
3 6 22
4 2 32
5 10 15
a) Calculaţi SPR, SPT şi SPE.
b) Calculaţi MSR şi MSE.
c) Aplicaţi testul F pentru ipotezele:
0H : 01
1H : 01
la un prag de semnificaţie 05,0
d) Pentru rezolvarea acestei probleme aveţi nevoie de determinarea prealabilă a ecuaţiei
estimate a regresiei?
e) Ce semnificaţie consideraţi că are concluzia pe care aţi obţinut-o la punctul c)?
Exerciţiul 21. Pentru datele de la Exerciţiul 7, răspundeţi cerinţelor următoare:
a) Calculaţi SPR, SPT şi SPE.
b) Calculaţi MSR şi MSE.
c) La un prag de semnificaţie 05,0 , aplicaţi testul F pentru ipotezele:
0H : 01
1H : 01
d) Există vreo relaţie între variabilele x şi y din datele iniţiale? Justificaţi răspunsul.
e) La un prag de semnificaţie 05,0 , testaţi ipotezele:
0H : 5,21
1H : 5,21
Exerciţiul 22. Pentru datele de la Exerciţiul 8, răspundeţi cerinţelor următoare:
a) Calculaţi MSE, ca estimator al lui 2 .
b) Calculaţi 2ˆ
1
s
şi 1
ˆs
.
50
c) Utilizaţi Testul t pentru a stabili dacă între nivelul salariilor angajaţilor şi vechime
există o relaţie. Efectuaţi testarea, separat, pentru praguri de semnificaţie 1,0 ,
05,0 şi 025,0 .
d) La un prag de semnificaţie 05,0 , testaţi ipotezele:
0H : 1201
1H : 1201
e) La un prag de semnificaţie 1,0 şi apoi 05,0 , testaţi ipotezele:
0H : 5,4860
1H : 5,4860
Exerciţiul 23. Pentru datele din Exerciţiul 10, testaţi dacă între preţul de vânzare a unei
locuinţe şi suprafaţa acesteia există o relaţie. Utilizaţi atât Testul t cât şi Testul F, pentru
pragurile de semnificaţie 1,0 şi 05,0 .
Exerciţiul 24. Pentru datele din Exerciţiul 12, răspundeţi următoarelor cerinţe:
a) Utilizaţi Testul F la un prag de semnificaţie 1,0 şi apoi 05,0 pentru a stabili
dacă între preţul biletului şi numărul de pasageri există sau nu vreo relaţie.
b) Aceeaşi cerinţă, pentru aplicarea Testului t.
c) Comparaţi valorile lui
1ˆ
1
s
ˆ
şi
2t şi găsiţi, dacă există, o relaţie între ele.
d) Consideraţi că Testul F şi Testul t pot conduce la concluzii diferite?
Intrebări recapitulative
1. Care sunt avantajele şi dezavantajele utilizării eşantionului şi nu a întregii populaţii?
2. De ce utilizarea eşantionului nu oferă informaţii exacte despre comportamentul
întregii populaţii?
3. Câte valori ale lui 0 şi 1 putem obţine atunci când avem posibilitatea să selectăm
diferite eşantioane din pupulaţie?
4. De ce 0 şi 1 sunt considerate variabile aleatoare?
51
5. Ce înseamnă faptul că 0 şi 1 sunt estimatori nedeplasaţi, consistenţi şi de dispersie
minimă?
6. Care sunt cele două probleme care pot să apară atunci când dorim să ne bazăm pe
valori 0 şi 1 provenite din eşantioane?
7. Recapitulaţi paşii de lucru ai metodei de testare a faptului că 1 ia în realitate o
anumită valoare.
8. Recapitulaţi paşii de lucru pentru aplicarea Testului F şi a Testului t şi precizaţi
scopul în care sunt aplicate aceste metode.
9. Ce înseamnă prag de semnificaţie?
10. În ce situaţie vă este indiferent dacă aplicaţi Testul F sau Testul t?