Econometrie - suport de curs

1

1. Modelul de regresie

1.1. Câteva considerente de ordin general

La fel ca şi în multe alte domenii, în domeniul economic şi în particular în cel al

afacerilor se întâlnesc deseori situaţii care presupun luarea unor decizii, care necesită

prognoze sau care pun în evidenţă nevoia de a cunoaşte modul în care depind unele de altele

anumite mărimi importante la nivel de firmă. Iată exemplul foarte simplu al unui

întreprinzător care doreşte să ştie următoarele:

Este potrivit să investească pentru reclama unui produs?

Care formă de reclamă este cea mai potrivită?

Care este legătura între suma investită în reclamă şi volumul vânzărilor pentru

produsul respectiv?

Dacă s-au investit în reclamă x u.m., care este prognoza pentru volumul vânzărilor?

Cineva ar putea sugera faptul că întreprinzătorul, ca agent economic raţional, nu va face

cheltuieli decât în măsura în care va şti sigur care sunt rezultatele pe care contează. Prin

urmare, se poate insinua că nu este nevoie de un aparat matematic, statistic, econometric,

pentru a intui că întreprinzătorul va obţine ceea ce şi-a propus în momentul în care a decis să

facă reclamă produsului. Există însă un revers al medaliei, pentru că intuiţia este totuşi

intuiţie şi s-ar putea să nu fie foarte exactă. Desigur că logica lucrurilor ne face să afirmăm că

promovarea produsului are ca rezultat creşterea vânzărilor, dar practica ne învaţă că se poate

să nu se fi optat pentru cea mai bună variantă de promovare, că din motive greu de înţeles

vânzările nu au crescut sau, în orice caz, nu atât de mult pe cât s-a dorit sau cât să acopere

măcar cheltuielile efectuate în scopul reclamei. Din acest motiv ar fi ideal dacă

întreprinzătorul ar putea să cunoască din vreme o serie de detalii, ca de exemplu modul în

care se va realiza promovarea produsului, măsura în care vânzările preconizate sunt

realizabile, natura relaţiei care se stabileşte între cheltuielile pentru reclamă şi volumul

vânzărilor şi prin urmare să poată răspunde la întrebarea: „Există posibilitatea ca efortul

financiar făcut în scopul publicităţii să fie acoperit într-un interval de timp convenabil?”.

Cu siguranţă că astfel de lucruri nu vor putea fi cunoscute pur şi simplu, pentru că este

nevoie de date, date statistice pentru care prelucrarea şi analiza prin metode specifice vor

putea oferi informaţiile necesare. Maniera în care sunt colectate datele şi aranjarea lor în

forma cea mai potrivită nu reprezintă domeniul nostru de interes. Amănunte despre aceste

2

etape, despre maniera în care sunt duse la îndeplinire, se pot găsi în orice manual de

statistică1. Econometria poate intra în scenă doar după ce au fost oferite date suficiente,

imediat ce a fost stabilită problema care trebuie rezolvată şi în măsura în care metodele

specifice acestei discipline sunt utilizabile.

Vom face împreună primii paşi în econometrie, prin studiul unei metode care poate fi

utilizată în scopul determinării unei relaţii de dependenţă între două mărimi de interes pe care

le vom numi variabile. Este vorba despre Analiza regresiei. Deocamdată ne vom ocupa de

cazul cel mai simplu, acela care implică intenţia de a descrie o variabilă y, pe care o vom

numi variabilă dependentă, sau endogenă, în funcţie de o singură variabilă x, care va purta

numele de variabilă independentă, sau exogenă. Cel mai simplu tip de analiză de regresie

presupune că relaţia dintre cele două variabile se apropie de o relaţie liniară care, într-o

reprezentare grafică, are foma unei drepte. Cazul care implică o astfel de relaţie de

dependenţă este cunoscut în literatura de specialitate sub numele de Analiza regresiei liniare

simple. Dacă variabilele independente sunt două, sau mai multe, ne situăm în cazul regresiei

multiple.

Rezumând, ne vom ocupa de determinarea relaţiei dintre:

y: variabilă dependentă, sau endogenă

x: variabilă independentă, sau exogenă

Vom considera că relaţia este suficient de apropiată de una liniară şi din cauza acestei

„aproximări” este natural să ne punem problema dacă liniaritatea este o supoziţie corectă.

Prin studiul corelaţiei dintre x şi y se determină gradul în care variabilele sunt, într-adevăr, în

relaţie liniară şi nu de altă natură. Analiza de corelaţie, de care nu ne vom ocupa în această

lucrare, este o procedură de stabilire a măsurii în care relaţia dintre x şi y este liniară şi, dacă

acest lucru se confirmă, tot analiza de corelaţie ne ajută să determinăm intensitatea relaţiei.

Înainte de a trece efectiv la studiul modelului de regresie mai trebuie precizat faptul că

nici analiza regresiei şi nici cea a corelaţiei nu pun în evidenţă o relaţie de tipul cauză – efect

între variabilele implicate în model, ci arată doar în ce măsură sunt ele în legătură una cu alta.

Dacă analiza este justă, dacă se dovedeşte că există argumente solide în acest sens, atunci

cauzalitatea este un aspect care poate fi discutat ulterior.

În încheierea acestei prime secţiuni ne vom întoarce pentru o clipă la exemplul

întreprinzătorului doritor să ştie dacă reclama făcută produsului are efectul scontat şi vom

observa că variabila dependentă y este volumul vânzărilor, iar variabila independentă x este

1 Se poate vedea de exemplu Cornelia Nistor, Elemente de statistică, Ed. Cartea Universitară, Bucureşti, 2005.

3

reprezentată de suma cheltuită pentru publicitate. Pe viitor, dacă nu se fac specificaţii cu

privire la alegerea variabilelor, va trebui să aveţi abilitatea să stabiliţi singuri cine este

exogena şi cine este endogena, pentru a putea construi un model viabil.

1.2. Model determinist şi model probabilist

Este esenţial ca încă de la început să clarificăm distincţia între aceste două concepte.

Atunci când ne referim la un model determinist, trebuie să ştim imediat că a cunoaşte

valoarea variabilei independente x atrage după sine cunoaşterea exactă a variabilei

dependente y, aşa cum se poate vedea din exemplul următor.

Exemplul 1.2.1. Preţul unui kilogram de cartofi este de 3 RON. Dacă un client

cumpără x kilograme, atunci el va plăti o sumă pe care o notăm cu y şi care se calculează,

evident, după regula:

x3y .

Acest model de calcul arată cum cunoaşterea faptului că se achiziţionează 4x kg. cartofi

atrage după sine cunoaşterea sumei exacte care trebuie plătită, adică

1243y RON.

În concluzie, nu există dubii cu privire la valoarea y a sumei plătite, odată ce se cunoaşte

cantitatea x achiziţionată. ₪

Vom pune în evidenţă, prin intermediul exemplului următor, o situaţie care relevă o

componentă incertă.

Exemplul 1.2.2. O firmă de telefonie mobilă are dealeri pe tot cuprinsul ţării. Unele

dintre magazinele prin intermediul cărora se asigură contactul cu clienţii sunt situate în

vecinătatea unor supermarketuri din incinta unor centre comerciale, , iar altele sunt de sine

stătătoare. Directorul firmei doreşte înfiinţarea unor alte puncte de vânzare şi intuieşte, pe

baza rezultatelor anterioare, că profiturile cele mai mari s-au înregistrat de la acei dealeri

situaţi în apropierea supermarketurilor din centrele comerciale şi că există o legătură între

nivelul vânzărilor şi numărul clienţilor care vizitează zilnic supermarketul vecin. Înainte să

decidă locaţia în care va înfiinţa noile magazine, directorul doreşte să evalueze relaţia dintre

numărul zilnic al clienţilor din supermarketuri (x) şi vânzările anuale ale dealerilor învecinaţi

(y). Datele pe care le vom utiliza în studiul nostru sunt înregistrate în Tabelul 1.2.1. si provin

dintr-un eşantion format din zece dealeri situaţi în centre comerciale.

Dealer Nr. Clienţi (x) Vânzări anuale

4

(sute) (y) (sute RON)

1 1 19,36

2 4 50

3 7 68

4 7 90

5 10 100

6 12 125

7 14 150

8 14 200

9 15 162

10 16 190

Tabelul 1.2.1. Date cu privire la numărul zilnic de clienţi ai supermarketurilor şi vânzările

anuale ale dealerilor firmei de telefonie mobilă situaţi în vecinătate

O scurtă privire asupra datelor din Tabelul 1.2.1. ne va convinge că ipoteza unei relaţii

deterministe între numărul zilnic al vizitatorilor supermarketurilor şi vânzările anuale ale

dealerilor nu poate fi luată în calcul. Dealerii 3 şi 4 sunt situaţi în vecinătatea unor

supermarketuri cu acelaşi număr zilnic de vizitatori, 700, dar vânzările anuale sunt diferite.

Observăm că:

68y7x (Dealer 3)

90y7x (Dealer 4)

Aceeaşi observaţie este valabilă şi pentru dealerii 7 şi 8, pentru care:

150y14x (Dealer 7)

200y14x (Dealer 8)

Într-o astfel de situaţie nu mai putem pune problema determinării exacte a lui y pe baza

cunoaşterii valorii lui x, motiv pentru care spunem că modelul care arată relaţia dintre x şi y

este de natură nedeterministă şi prin urmare probabilistică.

1. 3. Prezentarea modelului de regresie

Pentru o mai bună imagine asupra datelor din Tabelul 1.2.1. vom proceda la

reprezentarea lor grafică într-un sistem de coordonate bidimensional, în care numărul

clienţilor este înscris pe orizontală ca variabilă independentă şi volumul vânzărilor pe

verticală, ca variabilă dependentă. Rezultatul acestei reprezentări, din Figura 1.3.1., este

5

cunoscut sub numele de diagramă scatter şi ne oferă o viziune de ansamblu care este de

ajutor în intuirea relaţiei dintre cele două variabile.

_________________________________________

Figura 1.3.1. Diagrama scatter pentru datele

din Tabelul 1.2.1.

Din Figura 1.3.1. putem desprinde câteva concluzii preliminare. În primul rând apare

ideea că un număr mic de clienţi ai supermarketului este asociat cu un volum mic de vânzări

anuale, iar un număr mare de clienţi este, dimpotrivă, corespunzător unui volum anual mare

al vânzărilor. De asemenea, se observă o tendinţă de dependenţă liniară (în formă de dreaptă)

între cele două variabile şi în Figura 1.3.1. am trasat linia dreaptă care pare să aproximeze

această dependenţă. Totuşi, este important să ţinem cont de faptul că relaţia liniară care s-a

conturat nu este una perfectă, pentru că nu toate punctele de pe diagrama scatter aparţin

dreptei pe care am desenat-o.

Am văzut deja, în Tabelul 1.2.1., că unei aceeaşi valori a lui x nu i se garantează

aceeaşi valoare a lui y şi din acest motiv va trebui să acceptăm că dependenţa dintre x şi y nu

are o natură deterministă, ci una probabilistă. Pe baza faptului că relaţia care se conturează

între numărul clienţilor din supermarmarketuri vecine şi volumul anual al vânzărilor obţinute

de dealerii firmei de telefonie mobilă este una liniară, aproximată de linia dreaptă din Figura

1.3.1., afirmăm acum că următorul model probabilist este o reprezentare apropiată de realitate

a relaţiei dintre cele două variabile:

xy 10 (1.3.1.)

Reamintindu-ne acum semnificaţia coeficienţilor care apar într-o funcţie liniară, vom şti că:

0 reprezintă intersecţia dreptei de ecuaţie xy 10 cu axa verticală a sistemului

de coordonate;

1 reprezintă panta dreptei de ecuaţie xy 10 .

Având în vedere că în Figura 1.3.1. doar un număr mic de puncte ale diagramei scatter

aparţin efectiv dreptei, apare ca firească nevoia de a lua în calcul încă un termen, pe care în

relaţia (1.3.1.) l-am notat cu şi care reprezintă eroarea pe care o facem atunci când

aproximăm relaţia dintre variabile cu relaţia liniară xy 10 . Deci, reprezintă devierea

valorii efective (sau observate în practică şi comunicate, în exemplul nostru, prin Talelul

6

1.2.1.) a lui y faţă de acea valoare a lui y pe care o obţinem prin înlocuirea lui x în

xy 10 .

Pentru că există mai multe valori ale lui x, în cazul exemplului nostru zece, este

natural să luăm în calcul eroarea posibilă pentru fiecare situaţie în parte. Practic, ne aşteptăm

ca pentru fiecare valoare a lui x să obţinem o eroare, mai mare sau mai mică (sau poate nulă)

notată x .

Folosirea relaţiei (1.3.1.) ca model pentru legătura dintre y şi x ne dă posibilitatea să

afirmăm că x şi y sunt în aceeaşi relaţie ca aceea descrisă de xy 10 , dar această relaţie

este doar aproximativă dacă nu ţinem cont de termenul eroare .

Modelul (1.3.1.), despre care credem că reflectă relaţia dintre variabila independentă

x şi variabila dependentă y este numit modelul de regresie. În continuare, ne vom referi la

coeficienţii 0 şi 1 ca la parametrii modelului.

1.4. Erorile modelului de regresie

Experienţa didactică mi-a dovedit că în foarte multe cazuri persoanele care iau contact

cu modelul de regresie întâmpină dificultăţi în a înţelege condiţiile oarecum abstracte care se

impun asupra erorilor . De ce sunt ele considerate variabile aleatoare? De unde provin şi ce

anume trebuie luat în calcul atunci când ne referim la erori?

Logica lucrurilor ne spune că volumul vânzărilor firmei de telefonie mobilă nu este

influenţat doar de numărul de clienţi din supermarket. Există, intuim, şi alţi factori care îşi pot

pune amprenta, dar pe care nu îi considerăm atât de importanţi pentru a fi introduşi în model.

De exemplu, există clienţi care vizitează centrul comercial fără intenţia de a pătrunde în

supermarket şi care manifestă totuşi interes faţă de oferta firmei. Chiar dacă aceştia nu

influenţează decisiv volumul vânzărilor, ei trebuie luaţi în seamă pentru că în ansamblu pot

produce perturbări asupra rezultatelor aşteptate. De asemenea, se întâlnesc şi o serie de

elemente de natură calitativă, greu sau imposibil de cuantificat, care pot influenţa clienţii

supermarketurilor astfel încât să îi determine să nu fie niciodată adeptii firmei de telefonie

mobilă sau în orice caz nu ai dealerului din vecinătate: gusturile, înclinaţia către un anumit

dealer, percepţia asupra personalului din magazin, fidelitatea faţă de o altă firmă sunt la

rândul lor elemente care fac ca o simplă relaţie matematică să fie insuficientă pentru

descrierea unor rezultate exacte. Şi, nu în ultimul rând, pot să apară erori în înregistrarea

datelor statistice cu ajutorul cărora se construieşte modelul. Pot fi erori în comunicarea

valorilor observate ale variabilei observate y, caz în care modelul de regresie se va bucura o

7

dată în plus de prezenţa lui , sau erori în înregistrarea variabilei independente x. Pentru

liniştea noastră, nu vom lua în calcul deocamdată această ultimă de posibilitate deosebit de

neplăcută din punct de vedere al consecinţelor.

În concluzie, variabila eroare este necesară şi, din păcate, ea nu poate fi observată

efectiv ci doar luată în calcul ca fiind prezentă şi dotată cu anumite proprietăţi puse în

evidenţă de specialişti în scopul încercării de a convieţui cu ea. Condiţiile2 impuse asupra

variabile eroare sunt prezentate în cele ce urmează, împreună cu implicaţiile lor.

Condiţia 1: Eroarea este o variabilă aleatoare normal distribuită, luând valori

pozitive sau negative care reflectă devierea dintre valoarea observată a lui y şi valoarea

rezultată prin înlocuirea lui x în x10 .

Implicaţii: Deoarece 0 şi 1 sunt constante, deducem că pentru o valoare dată a lui x

mărimea definită în (1.3.1.), xy 10 , este de asemenea o variabilă aleatoare normal

distribuită.

Condiţia 2: Media variabilei aleatoare eroare este zero, adică 0M .

Implicaţii: Să ne remintim că valoarea medie a unei constante este constanta însăşi şi faptul

că:

YMXMYXM .

Deducem astfel valoarea medie a variabilei dependente Y, din calculul următor:

MxMMxMyM 1010

Pentru că x, 0 şi 1 sunt constante şi media variabilei aleatoare eroare este zero, obţinem:

xyM 10 (1.4.1.).

Condiţia 3: Dispersia variabilei aleatoare , pe care o vom nota 2 , este aceeaşi

pentru toate valorile lui x.

Implicaţii: Pornind de la proprietăţile dispersiei, vom demonstra că şi variabila aleatoare

dependentă y are aceeaşi dispersie pentru toate valorile lui x.

2

1

2

0

2

10

22 DxDDxDyD

Pentru că dispersia unei constante este zero şi 22D obţinem, indiferent de valoarea lui

x:

22 yD (1.4.2.)

2 Pentru o tratare detaliată, se poate vedea Dorin Jula, Introducere în econometrie, Ed. PROFESSIONAL

CONSULTING, Bucureşti, 2003

8

Vom reţine această implicaţie pentru că va fi de natură să explice foarte multe din

afirmaţiile de mai târziu. Va trebui să reţinem, de asemenea, relaţia (1.4.1.) ca fiind deosebit

de importantă şi o vom numi ecuaţia de regresie. Aflăm de aici modul în care se poate

calcula media variabilei dependente y, despre care am aflat că este o variabilă aleatoare

normală, pentru valori fixate ale lui x.

Deocamdată lucrurile sunt destul de abstracte şi de aceea ne vom întoarce pentru o

clipă la exemplul firmei de telefonie mobilă. Să ne referim la supermerketul în care există

zilnic o mie de clienţi (este cazul dealerului nr. 5). Deci, 10x . Semnificaţia relaţiei (1.4.1.)

pentru 10x este aceea a valorii medii a vânzărilor anuale înegistrate de către toţi dealerii

situaţi în vecinătatea suprmerketurilor cu o mie de clienţi pe zi. În cazul particular 10x ,

eroarea specifică depinde de diferenţa dintre valoarea observată y relativ la acest x (în

exemplul nostru a fost observat un nivel al vănzărilor egal cu 100 sute RON) şi valoarea

medie rezultată din ecuaţia de regresie, yM . Pe măsură ce vom avansa în prezentarea

modelului de regresie, toate aceste elemente care deocamdată au o conotaţie destul de

teoretică vor căpăta sens.

În finalul acestei secţiuni mă simt datoare să fac câteva comentarii. Pentru aceia

dintre cititori care îşi amintesc faptul că funcţia de gradul I a fost predată de profesorul de

matematică încă de prin clasa a şaptea, modelul de regresie liniară cu o singură variabilă

independentă poate fi considerat pueril şi oarecum departe de realitatea înconjurătoare.

Complexitatea din viaţa economică sugerează fenomene care nu au nici un motiv să se

comporte atât de simplist încât să ne permită să le modelăm printr-o funcţie de gradul întâi.

Ajuns în prag de bacalaureat, orice elev cunoaşte deja o sumedenie de funcţii cu o singură

variabilă şi atunci se naşte, firesc, întrebarea: ce forţă mai are regresia liniară simplă, dacă se

dovedeşte că dependenţa lui y de x are, de exemplu, forma 2

10 xy ? Aceeaşi forţă, este

răspunsul la întrebare. Pentru că nu vă opreşte nimic să faceţi o notaţie, 2xz , cu ajutorul

căreia dependenţa capătă o natură liniară: zy 10 . Mai departe, veţi proceda la fel ca şi

în modelul discutat până acum, având z pe poziţia lui x şi încercând să nu uitaţi ce se află în

spatele notaţiei pe care aţi făcut-o. Dar trebuie spus şi faptul că modelul de regresie liniară nu

este atotputernic, lucru despre care nu vom discuta pe larg deocamdată.

Exerciţii propuse:

9

Exerciţiul 1. Se dau următoarele modele de relaţii între variabila dependentă y şi

variabila independentă x:

Modelul 1: x23y

Modelul 2: x23y

Am notat cu termenul eroare.

a) Calculaţi pentru fiecare model în parte valoarea lui y pentru 9x şi 2 .

b) Calculaţi pentru fiecare model în parte valoarea lui y pentru 9x şi 0 .

c) Care dintre cele două modele este determinist şi care este probabilist? Explicaţi.

Exerciţiul 2. Utilizaţi ecuaţia regresiei din (1.4.1.).

a) Scrieţi ecuaţia regresiei pentru 10 şi 41 .

b) Reprezentaţi grafic ecuaţia acestei drepte, într-un sistem de coordonate care are

variabila x pe axa orizontală şi variabila yM pe axa verticală.

c) Scrieţi ecuaţia regresiei pentru 00 şi 21 . Reprezentaţi grafic, într-un sistem de

coordonate similar celui de la punctul anterior.

Exerciţiul 3. Următoarele date arată media de admitere şi media de absolvire pentru opt

studenţi ai Facultăţii de Administraţie şi Afaceri.

Media de admitere (x) Media de absolvire (y)

8,24 7,14

8,75 8,90

8,16 7,20

8,90 9,50

9,15 9,28

9,03 9,00

9,70 9,62

10 9,65

a) Construiţi diagrama scatter pentru aceste date, înscriind media de admitere pe axa

orizontală şi media de absolvire pe axa verticală.

b) Pe baza diagramei scatter, observaţi vreo tendinţă care să sugereze un anumit tip de

relaţie între cele două variabile?

c) Construiţi dreapta care consideraţi că aproximează cel mai bine tendinţa relevată de

diagrama scatter.

Exerciţiul 43. Supermarketurile BRISTO există pe tot cuprinsul ţării. A fost selectat un

eşantion format cu cinci dintre ele pentru a se vedea natura legăturii care se stabileşte între

cheltuielile efectuate în scopul reclamei şi volumul vânzărilor, în decurs de o lună:

Cheltuieli pentru reclamă

(mii RON) (x)

Volum vânzări (mii RON)

(y)

1 19

4 44

6 40

3 Anderson R. D., Sweeney J. D., Williams A. T., Statistics for Business and Economics, Second Edition, West

Publishing Company, 1984, p. 412

10

10 52

14 53

a) Construiţi diagrama scatter pentru aceste date, înregistrând pe axa orizontală

cheltuielile penru reclamă.

b) Reprezentaţi grafic dreapta x5,224yM pe diagrama scatter. Consideraţi că

aceasta oferă o bună aproximare a relaţiei care se stabileşte între cheltuielile pentru

recamă şi volumul vânzărilor?

c) Reprezentaţi grafic funcţia x2

x60yM

, calculând valorile ei pentru fiecare x din

tabelul de date. Consideraţi că această curbă care rezultă din reprezentare este o bună

aproximare a relaţiei dintre x şi z?

d) Faţă de dreapta de la punctul b, consideraţi că funcţia de la punctul c oferă o mai bună

potrivire pe diagrama scatter?

e) Calculaţi erorile care rezultă din aproximarea vânzărilor prin intermediul funcţiilor de

la punctele b şi c, faţă de valorile efective ale lui y pe care le cunoaşteţi din tabelul de

date.

Exerciţiul 5. Datele următoare provin de la cinci asociaţii de locatari şi arată suma pe

care o plătesc proprietarii a cinci apartamente de suprafeţe diferite care beneficiază de

centrală termică proprie, pentru factura de gaze în decursul unei luni calendaristice.

Suprafaţa locuimţei (mp)

(x)

Costul încălzirii (sute

RON) (y)

62 1,5

65 1,3

58 1

70 2,3

76 2,6

a) Construiţi diagrama scatter, având suprafaţa pe axa orizontală.

b) Încercaţi să aproximaţi relaţia dintre suprafaţa apartamentelor şi costul facturii,

punând în evidenţă linia dreaptă corespunzătoare pe diagrama scatter.

c) Consideraţi că aproximarea liniară este potrivită?

Exerciţiul 6. Consideraţi că relaţiile pe care le-aţi observat în exerciţiile anterioare sunt

relaţii de tip cauză – efect, sau relaţii de asociere? Explicaţi, pentru fiecare situaţie în parte.

Întrebări recapitulative:

1. Ce este analiza de regresie?

2. Ce reprezintă modelul de regresie şi care este forma sa, în cazul regresiei liniare

simple?

3. Ce reprezintă ecuaţia de regresie, care este forma sa şi cum se obţine pornind de la

modelul de regresie?

4. Care este scopul analizei de corelaţie? Prin ce anume se deosebeşte de analiza de

regresie?

11

5. Definiţi noţiunile: variabilă endogenă, variabilă exogenă, relaţie directă, liniară şi

curbilinie.

6. La ce se referă relaţia de cauzalitate şi care este legătura dintre acest concept şi relaţia

de asociere? Prezentaţi punctele comune şi diferenţele.

7. Care sunt motivele pentru care se construieşte diagrama scatter?

8. Cum credeţi este reprezentată o diagramă scatter care nu indică nici un fel de relaţie

ître variabilele x şi y?

9. Care sunt motivele pentru care modelul de regresie include variabila eroare ?

10. Care sunt condiţiile care se impun asupra erorilor şi care sunt implicaţiile acestor

condiţii?

2. Metoda celor mai mici pătrate. Estimarea parametrilor 0β şi 1β .

2.1. Considerente generale despre erori

Vom reaminti faptul că în capitolul anterior am fixat pentru modelul de regresie

variabilele x şi y care în exemplul firmei de telefonie mobilă au următoarea semnificaţie:

x numărul zilnic al clienţilor din supermarket

y vânzările anuale ale dealerului poziţionat în centrul comercial care include supermarketul

Am stabilit că modelul de regresie are forma:

xy 10 .

Condiţiile pe care le-am impus asupra variabilei aleatoare eroare ne-au ajutat să descriem

ecuaţia de regresie, pentru care am găsit forma:

xyM 10 .

Deocamdată 0 şi 1 sunt constante cu valori necunoscute, numite parametrii modelului de

regresie şi pe care am dori să le determinăm pe baza datelor furnizate de tabelul 1.2.1. Dacă

am reuşi să calculăm 0 şi 1 , atunci dreapta de regresie ar fi complet determinată şi am

putea afla foarte multe lucruri despre relaţia dintre variabilele de interes.

Am căzut deja de acord asupra faptului că xy 10 este o funcţie care indică o

relaţie liniară între variabila dependentă y şi variabila independentă x. Să privim acum la

Figura 1.2.1. din secţiunea 1.2. şi să notăm că intenţia a fost să reprezentăm dreapta care să se

apropie în cea mai mare măsură de punctele diagramei scatter. De obicei se optează pentru

acea dreaptă care, chiar dacă nu trece prin toate punctele diagramei, lasă deasupra şi dedesupt

aproximativ acelaşi număr de puncte. În cazul nostru desupra dreptei au rămas trei puncte şi

sub ea au rămas două, ceea ce este o variantă rezonabilă. Cu toate acestea, este limpede că

există foarte multe posibilităţi de construcţie a unei drepte care să îndeplinească impunerea

12

menţionată anterior, chiar dacă unele dintre aceste reprezentări ar fi foarte apropiate una de

alta. De asemenea, este lesne de înţeles faptul că orice dreaptă aţi alege, ea nu va trece prin

absolut toate punctele diagramei decât cel mult într-un caz destul de rar, acela în care toate

variabilele observate conduc la reprezentarea unor puncte coliniare. Din punct de vedere

practic o atare posibilitate este atât de puţin probabil să apară, încât trebuie să fim conştienţi

că în cea mai mare parte a cazurilor erorile sunt de neevitat. În Figura 2.1.1. am reprezentat o

diagramă scatter oarecare şi am pus în evidenţă erorile pentru două alegeri diferite ale dreptei

pe care ne-am dori-o a fi de regresie.

Figura 2.1.1. Două posibile drepte de regresie pentru aceeaşi diagramă scatter pun în

evidenţă erori diferite

Iată, deci, cum o diagramă scatter cu puncte puţine a permis deja alegerea a două

drepte de regresie care să o aproximeze. Este de aşteptat ca problemele practice, bazate pe

mult mai multe date, să ofere multe alte variante şi să ridice întrebarea: „Care alegere este cea

mai bună?” Şi, „Care este criteriul care ne spune că alegerea este corespunzătoare?”

2.2. Semnificaţia parametrilor dreptei de regresie: o analiză exemplificată.

Aşa cum spuneam mai devreme, o dreaptă este complet determinată atunci când am

reuşit să determinăm valorile lui 0 şi 1 . În capitolul precedent am stabilit şi semnificaţia

generală a acestora. E timpul să discutăm semnificaţia practică şi pentru asta ne vom referi

din nou la exemplul firmei de telefonie mobilă. Am spus că 0 reprezintă intersecţia dreptei

de ecuaţie xy 10 cu axa verticală, această valoare obţinându-se pentru 0x . Din

punct de vedere al exemplului, asta înseamnă că nu există nici un client în supermarket.

Valoarea 0 înseamnă, prin urmare, că acesta este nivelul vânzărilor „autonome”, rezultate

de la clienţii care vin în centrul comercial în alte scopuri decât vizitarea supermarketului.

Despre 1 am spus că este panta, sau înclinaţia dreptei. Pentru o funcţie liniară această pantă

este aceeaşi peste tot şi are următoarea semnificaţie: dacă valoarea lui x creşte cu o unitate,

atunci valoarea lui y se modifică în sens de creştere sau descreştere cu 1 unităţi, în funcţie

de semnul (pozitiv sau negativ) al lui 1 . Din modul în care au fost stabilite unităţile în

Tabelul 1.2.1., putem spune că o creştere cu 100 de clienţi zilnic a numărului clienţilor din

13

supermarket generează o creştere cu 1 sute RON a vânzărilor anuale ale dealerului (dacă 1

se va dovedi a fi pozitiv) sau o scădere cu 1 sute RON a acestor vânzări (dacă 1 se

dovedeste a fi negativ, ceea este foarte putin probabil dacă tinem cont de evidenţa practică).

Diagrama scatter din Figura 1.2.1. arată în mod clar că 1 este pozitiv, pentru că

reprezentarea punctelor indică faptul că pe măsură ce x creşte, y creşte de asemenea în

majoritatea cazurilor.

2.3. Eroarea totală. Metoda celor mai mici pătrate.

Ne-am convins de faptul că trebuie să determinăm 0 şi 1 , am explicat semnificaţia

acestor parametri şi nu ne rămâne decât să discutăm despre criteriul după care putem alege

cea mai bună dreaptă de regresie. Figura 2.1.1. ar putea fi cheia acestei probleme: am

reprezentat, pentru aceeaşi diagramă scatter, două drepte posibile şi am pus în evidenţă

erorile care apar. Devine natural, în acest moment, să căutăm determinarea acelei variante

care generează o cea mai mică eroare totală, nu-i aşa? Nu putem spera într-o eroare nulă, dar

putem căuta acea dreaptă care să corespundă unui minim de eroare. Acesta va fi criteriul are

ne va ghida mai departe şi care, din păcate, crează o serie de probleme suplimentare.

Pentru a înţelege procedeul care va urma, va trebui să faceţi permanent diferenţa între

două aspecte: ce este şi ce rezultă a fi, sau altfel spus ce este şi ce se estimează că ar fi. „Ce

este” se referă la datele pe care le avem şi pe care le puteţi vedea reprezentate pe diagrama

scatter. „Ce se estimează a fi” se referă la ce aproximăm, sau estimăm prin calcul că

reprezintă cea mai bună variantă a dreptei de regresie. Ori de câte ori apare ideea de estimare,

ea va fi pusă în evidenţă prin adăugarea simbolului „pălărie” deasupra valorilor estimate: y ,

0 , 1 de exemplu.

În concluzie, în modelul nostru este o dreaptă de regresie xyM 10 . Deşi în

esenţă ea este, noi nu o cunoaştem pentru că în general nu cunoaştem toate informaţiile şi nu

ne rămâne decât să o estimăm pe baza datelor pe care le avem. De exemplu firma de telefonie

mobilă ne pune la dispoziţie un eşantion format cu zece dealeri, deşi se poate ca ea să aibă

vreo două sute. Nu avem toate datele, deci încercăm să ne descurcăm cu ce avem. Ca

estimare, dreapta de regresie are forma:

xˆˆy 10 (2.3.1.)

Observaţi că x nu are pălăriuţă, pentru că valorile lui sunt cunoscute şi pe baza lor vom

efectua calculele. De asemenea, observaţi că ecuaţia estimată a regresiei este similară

14

adevăratei ecuaţii de regresie, doar că yM a fost înlocuit cu estimatorul său y , 0 cu 0 , şi

1 cu 1 .

În exemplul firmei de telefonie mobilă, Tabelul 1.2.1. ne furnizează datele de la zece

dealeri, pe baza cărora vom construi calculele. În general, valorile lui x se notează cu

n21 x,...,x,x şi valorile corespunzătoare ale lui y cu n21 y,...,y,y , unde n este dimensiunea

eşantionului (adică numărul de date pe care le avem) pentru fiecare dintre variabilele x şi y).

Pentru exemplul nostru 10n , 4x 2 , 100y5 etc. În mod normal dacă dreapta de

regresie ar trece prin toate punctele diagramei scatter, atunci ar trebui ca i10i xy

pentru toate valorile lui i. Lucrul acesta nu se întâmplă şi ca atare pornind de la valorile ix

putem obţine doar estimări ale lui iy , cu eventuale erori pe care le-am pus în evidenţă în

Figura 2.1.1. Valoarea estimată a variabilei dependente va urma, deci, forma (2.3.1.) şi va fi:

i10i xˆˆy (2.3.2.)

Unde apar erorile? Evident, în diferenţa dintre valorile efectiv observate iy pe care le

regăsim în tabelul de date şi valorile pe care le-am estimat în (2.3.2.), adică iy . Reţinem,

deci, că eroarea care se face pentru poziţia i este:

Eroare iii yy (2.3.3.)

Aceste erori le puteţi vedea în Figura 2.1.1., puse în evidenţă pentru două drepte care ar putea

aproxima punctele de pe diagrama scatter. Tot din această reprezentare grafică se poate

observa şi un alt aspect, care va fi esenţial mai departe: unele puncte ale diagramei sunt

situate deasupra dreptelor, iar altele sunt situate dedesupt. Asta înseamnă că erorile care vor

rezulta din calcul vor putea avea semne diferite, uneori plus, alteori minus. Atunci când se

pune problema să evaluăm eroarea totală însumarea unor valori pozitive şi a unora negative

poate conduce la anulare, astfel încât deşi în realitate erorile pot fi considerabile suma lor ar

putea fi totuşi nulă. Ori, eroare zero este un rezultat care ar putea determina pe oricine să

doarmă liniştit cu toate că în fapt lucrurile se poate să stea prost de tot. Pentru a evita o astfel

de situaţie extrem de neplăcută, statisticienii au căutat soluţii care să ofere o variantă de

calcul a erorii totale care să nu se mai confrunte cu astfel de probleme. S-a optat pentru luarea

în discuţie a erorilor din (2.3.3.) ridicate la pătrat, ceea ce elimină definitiv posibilitatea

vreunei valori negative. Cineva ar putea argumenta că trecerea valorilor în valoare absolută,

adică în modul, elimină în egală măsură valorile negative şi în plus nu ne pune în situaţia să

lucrăm cu valorile mari, sau incomode din punct de vedere al numărului de zecimale, pe care

15

le poate atrage după sine ridicarea la pătrat. De exemplu, dacă o eroare este 05,0 valoarea

ei absolută este 05,0 , pe când pătratul ei este 0025,0 şi mai devreme sau mai târziu tot vom

suspecta vreo greşeală de calcul. Argumentul adus în sprijinul funcţiei modul este corect, dar

trebuie să vă amintiţi şi faptul că această funcţie are o serie de obiceiuri proaste care se

manifestă cu precădere atunci când urmează a fi derivată. Ori, interesul nostru este să

utilizăm pentru minimizarea erorii totale tocmai acele instrumente pe care ni le pune la

dispoziţie calculul diferenţial şi cu care funcţia „pătrat” este în cele mai bune relaţii.

Metoda utilizată în estimarea parametrilor ecuaţiei de regresie este cunoscută sub

numele de Metoda celor mai mici pătrate şi presupune determinarea lui 0 şi 1 astfel încât

să fie minimizată expresia:

n

1i

2

ii yySPE (2.3.4.)

O privire simultană asupra relaţiilor (2.3.3.) şi (2.3.4.) ne spune că ultima dintre ele reprezintă

suma pătratelor erorilor (SPE) care apar atunci când utilizăm pentru dreapta de regresie

estimarea (2.3.1.). Nu vom prezenta aici întreaga demonstraţie a metodei, dar vom reţine că

valorile lui 0 şi 1 se calculează conform regulilor următoare:

n

1i

2

i

n

1i

ii

1

xx

yyxxˆ sau

2n

1i

i

n

1i

2

i

n

1i

i

n

1i

i

n

1i

ii

1

xn

1x

yxn

1yx

ˆ

(2.3.5.)

xˆyˆ10 (2.3.6.)

Semnnificaţiile pentru ix şi iy au fost deja discutate. Avem de precizat că x reprezintă

valoarea medie pentru variabila independentă, iar y este valoarea medie pentru variabila

independentă, mărimi calculate din:

n

x

x

n

1i

i ;

n

y

y

n

1i

i (2.3.7.)

Ca de obicei, n reprezintă numărul de observaţii adică numărul datelor din tabel. Se observă

că în (2.3.5.) există două formule de calcul pentru 1 . Ele conduc, evident, la acelaşi rezultat

dar de obicei se consideră că forma a doua este mai simplu de aplicat.

Vom folosi aceste rezultate pentru exemplul firmei de telefonie mobilă şi vom calcula

toate valorile necesare pe baza datelor din Tabelul 1.2.1.:

16

100xx10

1i

i

n

1i

i

36,1154yy10

1i

i

n

1i

i

1232xx10

1i

2

i

n

1i

2

i

36,14195yxyx10

1i

ii

n

1i

ii

Aplicăm a doua formă (2.3.5.) şi obţinem prin înlocuire:

43,11

10010

11232

36,115410010

136,14195

ˆ2

1

Pentru aplicarea formulei (2.3.6.) şi calculul lui 0 , avem nevoie de x şi y pe care le

obţinem din (2.3.7.):

1010

100x şi 436,115

10

36,1154y .

Calculăm acum 0 din (2.3.6.):

136,11043,11436,115ˆ0

Prin urmare, am obţinut ecuaţia estimată a regresiei:

x43,11136,1y .

Este cazul să comentăm rezultatul. Panta ecuaţiei estimate a regresiei este 11,43 şi ia o

valoare pozitivă, ceea ce înseamnă că dacă numărul clienţilor supermarketului este mai mare,

de asemenea şi vânzările anuale ale dealerului situat în complexul comercial respectiv sunt

mai mari. Putem spune ceva mai concret chiar, având în vedere semnificaţia pantei unei

drepte despre care am discutat puţin mai devreme. În Tabelul 1.2.1. numărul clienţilor este

exprimat în sute, iar volumul vânzărilor în sute RON. Deci, o creştere cu 100 a numărului

clienţilor din supermarket înseamnă că ne aşteptăm la vânzări anuale medii mai mari cu 11,43

sute RON. Asta înseamnă că vânzările anuale medii de care este responsabil fiecare client din

supermarket sunt de 11,43 RON.

De asemenea, dacă privim valoarea 136,1ˆ0 vom afla că dacă supermarketul nu

este vizitat de clienţi 0x există totuşi şanse ca dealerul să vîndă câte ceva către acele

persoane care vin la magazin exact în acest scop sau care se nimeresc prin zonă şi intră şi ele

17

ca să pună vreo întrebare. În situaţia inexistenţei clienţilor în supermarket, vânzările medii

anuale ale dealerului ar fi de 1,136 sute RON, sau altfel spus 113,6 RON.

Dacă ecuaţia estimată a regresiei se va dovedi credibilă (iar lucrul acesta îl vom

lămuri în secţiunea următoare), atunci vom putea utiliza această descriere a relaţiei dintre x şi

y pentru a realiza predicţii ale lui y în condiţiile în care ne sunt date valori ale lui x. De

exemplu, directorul firmei ar dori să ştie care sunt vânzările medii anuale la care se poate

aştepta de la un dealer situat lângă un supermarket vizitat zilnic de 1700 de clienţi, adică

pentru .17x Obţinem o medie anuală a vânzărilor egală cu:

446,1951743,11136,1y sute RON,

adică 19544,6 RON. Secţiunea următoare va prezenta metode prin intermediul cărora putem

stabili dacă estimarea s-a făcut cu acurateţe şi dacă rezultatele obţinute pot fi utilizate în

prognoză.

2.4. Verificarea ecuaţiei estimate

Acum, că ne-am familiarizat cu calculul ecuaţiei estimate a regresiei, vom trece la

pasul următor şi vom învăţa cum putem să verificăm corectitudinea rezultatului. Problema nu

este inutilă, dacă vă uitaţi la formulele care au fost aplicate: cu cât dispuneţi de mai multe

date, sau valori observate, cu atât este mai puternică ameninţarea să se strecoare o eroare de

calcul. Prin urmare, se conturează ca necesară o metodă prin care să stabiliţi dacă ecuaţia pe

care aţi obţinut-o este corectă.

Există, ne spun specialiştii, două metode pe care le puteţi aplica în acest scop. Prima

este uşor de intuit şi presupune reprezentarea grafică a dreptei estimate a regresiei pe

diagrama scatter: veţi urmări dacă linia obţinută descrie cât mai bine cu putinţă

comportamentul punctelor de care dispuneţi ca urmare a observaţiilor. Această metodă este la

îndemâna oricui şi nu necesită decât atenţie la reprezentarea grafică, dar nu conduce la

rezultate foarte exacte pentru că este o evaluare bazată mai mult pe observaţii şi nu oferă

argumente bine susţinute teoretic. Vă propun ca exerciţiu să reprezentaţi grafic dreapta

estimată a regresiei obţinută pentru exemplul firmei de telefonie mobilă, pe diagrama scatter

din Figura 1.3.1.

Cea de-a doua metodă pe care au pus-o în evidenţă specialiştii presupune, e drept, mai

multe calcule, dar permite obţinerea de concluzii argumentate. Metoda derivă direct din

proprietăţile pe care trebuie să le îndeplinească dreapta determinată prin metoda celor mai

mici pătrate şi presupune verificarea faptului că suma erorilor individuale pozitive şi negative

18

rezultate din din aproximarea valorilor y cu cele de pe dreapta de regresie y trebuie să fie

egală cu zero. Vom exemplifica această metodă pentru datele de care dispune firma de

telefonie mobilă. Calculăm prin urmare valorile y pentru toate cele zece valori ale lui x, pe

baza ecuaţiei estimate a regresiei x43,11136,1y .

x y y yy

1 19,36 12,566 6,794

4 50 46,856 3,144

7 68 81,146 -13,146

7 90 81,146 8,854

10 100 115,436 -15,436

12 125 138,296 -13,296

14 150 161,156 -11,156

14 200 161,156 38,844

15 162 172,586 -10,586

16 190 184,016 5,984

Total erori individuale: 0

Tabelul 2.4.1. Calculul erorilor individuale pentru datele deţinute de firma de telefonie

mobilă

Din coloana a patra a Tabelului 2.4.1. se observă că suma tuturor erorilor individuale este

zero, prin urmare acum puteţi fi siguri că nu s-a strecurat nici o eroare de calcul atunci când

am făcut demersurile necesare obţinerii ecuaţiei estimate a regresiei. Dacă, aşa cum v-am

sugerat, aţi reprezentat grafic dreapta estimată a regresiei pe diagrama scatter, puteţi să vă

convingeţi că linia pe care aţi trasat-o aproximează foarte bine tendinţa punctelor care au fost

reprezentate pe baza datelor din Tabelul 1.2.1.

2.5. Eroarea standard a estimării

Pasul următor care trebuie parcurs în procesul analizei de regresie se referă la modul

în care putem măsura încrederea cu privire la ecuaţia estimată pe care am construit-o anterior.

Este dreapta de regresie relevantă în raport cu datele observate? Oricine poate intui că dreapta

va fi cu atât mai relevantă pentru studiu cu cât punctele diagramei scatter sunt mai apropiate

de ea, lucru care de data aceasta nu mai are legătură cu corectitudinea calculului. Aici este

19

vorba despre faptul că ecuaţia estimată a regresiei este corect determinată (aţi verificat deja că

suma erorilor individuale este nulă), dar s-ar putea ca dincolo de toate eforturile noastre

punctele rămase în afara dreptei să fie atât de multe şi, mai ales, atât de distanţate de aceasta

încât utilizarea estimărilor să fie aproape inutilă. Reprezentăm în continuare două situaţii care

implică aceeaşi dreaptă de regresie pentru două diagrame scatter diferite. Este limpede că

Figura 2.5.1.a. se referă la un caz care inspiră mai multă încredere decât Figura 2.5.1.b.,

pentru că în prima situaţie punctele diagramei scatter sunt mai „adunate” şi indică o mai mică

împrăştiere faţî de dreapta de regresie.

Figura 2.5.1. a şi b. Două diagrame scatter care arată împrăştieri diferite faţă de dreapta de

regresie

Pentru măsurarea încrederii pe care o putem avea în ecuaţia estimată a regresiei,

statisticienii ne-au pus la dispoziţie mărimea numită „eroarea standard a estimării”, notată es

şi având o natură similară abaterii standard de selecţie pe care aţi întâlnit-o la cursul de

statistică. Ambele mărimi reprezintă, de fapt, o măsură a dispersării datelor faţă de „o”

medie: abaterea standard de selecţie măsoară dispersarea faţă de media de selecţie, pe când

eroarea standard a estimării măsoară dispersarea faţă de punctele dreptei de regresie care,

reamintiţi.vă, au ordonata y pe care am asimilat-o estimatorului mediei yM . Formula de

calcul a lui es este:

2n

SPEse

(2.5.1.).

Dacă ne amintim cine este SPE, din (2.3.4.), atunci eroarea standard a estimării se poate scrie

într-o formă desfăşurată:

2n

yy

s

n

1i

2

ii

e

(2.5.2.)

Se poate observa acum asemănarea dintre formulele de calcul pentru abaterea standard de

selecţie şi eroarea standard a estimării şi vom reţine că numărul gradelor de libertate pe care

le vom lua în calcul pentru es este 2n , adică tocmai numitorul fracţiei de sub radical.

Vom calcula acum es pentru exemplul firmei de telefonie mobilă şi pentru asta

utilizăm ultima coloană din Tabelul 2.4.1. în scopul obţinerii lui SPE:

20

49,2503yySPEn

1i

2

ii

.

Pentru că 10n , deducem că 82n şi din (2.5.1.) obţinem eroarea standard a estimării

ca fiind.

69,178

49,2503

2n

SPEse

Unitatea de măsură a lui es este aceeaşi cu a mărimilor y, prin urmare 69,17se sute RON,

sau 17690 RON.

Specialiştii ne propun şi o altă metodă de calcul pentru es , pe care unii dintre cititori

ar putea-o considera mai simplu de aplicat. Dacă xˆˆy 10 este ecuaţia estimată a

regresiei, a doua metodă ne învaţă că es poate fi obţinută din formula:

2n

yxˆyˆy

s

n

1i

ii1

n

1i

i0

n

1i

2

i

e

(2.5.3.)

La o primă vedere, formula (2.5.3.) este cu mult mai complicată decât (2.5.1.) sau (2.5.2.) şi

de aceea este nevoie să discutăm puţin asupra utilităţii ei. Dacă în ecuaţia estimată e regresiei

aţi calculat deja 1 din a doua variantă a formulei (2.3.5.), atunci singurul termen care vă mai

lipseşte din (2.5.3.) este

n

1i

2

iy , care poate fi calculat direct din tabelul de date. Evitaţi, astfel

operaţiile de scădere yy şi ridicările la pătrat ale rezultatelor. Pe de altă parte, dacă aţi fost

nevoiţi să verificaţi corectitudinea calculului printr-un tabel ca 2.4.1., atunci nu prea mai

contează ce formulă de calcul aplicaţi pentru es , fiindcă deja aveţi la dispoziţie erorile

individuale. În orice caz, este un exerciţiu bun să încercaţi determinarea lui es prin ambele

formule de calcul despre care am discutat aici.

Am convingerea că tocmai vă trece prin cap un protest vehement relativ la rostul

mărimii es , o mărime în plus în totalul şi aşa deranjant pe care vi l-a oferit până acum această

prezentare. Să aplicăm şi să interpretăm pornind de la exemplul nostru: am afirmat ceva mai

devreme că pe baza ecuaţiei estimate a regresiei se poate face o predicţie cu privire la nivelul

anual al vânzărilor pentru un dealer situat în preajma unui supermarket cu 1700 de clienţi

zilnic. Mai exact, am găsit acel nivel anual mediu ca fiind egal cu 195,446 sute RON, sau

19544,6 RON. Dacă aţi fi chiar proprietarul firmei de telefonie mobilă, v-ar interesa foarte

tare în ce măsură vă puteţi baza pe această predicţie. Uneori, astfel de proprietari nu ţin

21

neapărat să citească un curs de econometrie şi, din păcate, nici nu întreabă vreun specialist în

domeniu. Cei care o fac, însă, pot afla o sumedenie de lucruri interesante pe care le vom

prezenta imediat.

Deocamdată ştim că avem, pentru 17x , o predicţie 446,195y . Fiecare dintre

mărimi se măsoară conform cu unităţile de măsură care au fost stabilite în tabelul iniţial al

datelor. Mai şim că există o abatere standard a estimării 69,17se . Bunul simţ ne sugerează

că în realitate nivelul mediu al vânzărilor anuale este cel prognozat, dar în rezultatul

446,195y există o marjă de eroare de 69,17 . Adică, media anuală ar fi situată între

69,17446,195 şi 69,17446,195 , sau echivalent, în intervalul 136,213;756,177 . Într-un

anume fel şi mai ales în anumite condiţii, afirmaţia este adevărată. Nu trebuie să uităm nici o

clipă că valoarea 446,195y este doar o predicţie, deci că include un anumit grad de

aproximare şi atunci devine naturală întrebarea: „Care sunt şansele ca acest interval să fie

corect?” De asemenea, teoria probabilităţilor ne învaţă că abaterile standard pot oferi

intervale simetrice faţă de medie doar în cazul în care distribuţia de probabilitate a variabilei

aleatoare despre care se discută este la rândul ei simetrică faţă de medie şi bine ar fi să fie

vorba chiar despre o distribuţie normală. Până să vedem dacă astfel de lucruri sunt valabile în

cazul nostru, să facem observaţia intuitivă că o eroare standard de estimare mai mare

corespunde unei împrăştieri mai pronunţate a punctelor de pe diagrama scatter faţă de dreapta

de regresie, aşa cum se poate vedea în Figura 2.5.1.b., iar o eroare standard de estimare mai

mică evidenţiază o împrăştiere mai slabă, ca de exemplu în Figura 2.5.1.a. De asemenea,

puteţi deduce imediat că dacă 0se înseamnă că aţi găsit o dreaptă de regresie pe care sunt

dispuse toate punctele diagramei scatter, deci potrivirea este perfectă şi în acest caz predicţia

se face cu exactitate.

Ca să ne putem referi la intervalul 136,213;756,177 pe care l-am obţinut mai

devreme ca la o informaţie cu consistenţă ştiinţifică, va trebui să impunem două condiţii a

căror îndeplinire ne va permite obţinerea de rezultate corecte şi de încredere pentru directorul

firmei. Condiţiile vor fi pe deplin deranjante pentru aceia dintre cititori care îşi doresc doar

utilizarea practică a unor formule de calcul, dar sunt absolut necesare. Citirorii familiarizaţi

cu elemente de teoria probabilităţilor şi statistică le vor considera foarte utile şi la locul lor,

lucru care mă motivează să merg mai departe.

22

Condiţia 1 Valorile observate y sunt normal distribuite în jurul fiecărei valori

estimate, y . Această condiţie este legată, evident, de posibilitatea utilizării fiecărei estimări

y ca medie a unei variabile aleatoare normale.

Condiţia 2. Dispersia distribuţiilor în jurul fiecărei valori y este aceeaşi. Motivul

introducerii acestei condiţii este legat de utilizarea valorii es ca valoare unică pentru abaterile

standard ale distribuţiilor de probabilitate menţionate în prima condiţie.

Să vedem acum de ce aducerea în discuţie a chinuitoarei repartiţii normale ne poate

rezolva o serie de probleme. Ne vom reaminti că orice carte de teoria probabilităţilor

precizează următoarele: pentru o variabilă normal repartizată, cu media m şi abaterea

standard , sunt valabile afirmaţiile:

68% dintre rezultate sunt cuprinse în intervalul m,m

95,5% dintre rezultate sunt cuprinse în intervalul 2m,2m

99,7% dintre rezultate sunt cuprinse în intervalul 3m,3m

Pentru că putem stabili corespondenţa între şi es şi pentru că y din ecuaţia estimată a

regresiei este estimatir al lui yM , deci al valorii medii, înseamnă că dacă cele ouă condiţii

sunt îndeplinite atunci punctele de pe diagrama scatter au proprietatea de a fi dispuse astfel:

68% dintre ele se află la distanţă es faţă de dreapta de regresie;

95,5% dintre ele se află la distanţă es2 faţă de dreapta de regresie;

99,7% dintre ele se află la distanţă es3 faţă de dreapta de regresie.

Înseamnă că există 68% şanse ca nivelul mediu anual al vânzărilor dealerului situat în

preajma supermarketului vizitat zilnic de 1700 de clienţi să fie cuprins între 177,756 sute

RON şi 213,136 sute RON, pentru că aceste limite de interval au fost obţinute din estimarea

lui yM pentru 17x , plus sau minus valoarea lui es .

Spre disperarea celor care nu au fost intotdeauna prietenii calculelor, trebuie spus că

nu ne vom opri aici. O scurtă rememorare a elementelor de statistică va trage un semnal de

alarmă în două direcţii. Prima este legată de faptul că practica nu ne pune la dispoziţie

întotdeauna repartiţii normale, iar a doua este legată de dimensiunea eşantionului, adică de

numărul datelor pe care le avem la dispoziţie.

Ceva mai devreme am subliniat natura similară a mărimilor pe care le cunoaştem

acum sub numele de eroarea standard a estimării, es şi abaterea standard de selecţie, pe care

la cursul de statistică aţi notat-o cu s. De asemenea, am avut o tentativă de construcţie a unui

23

interval de predicţie, similar intervalului de încredere pe care îl cunoaşteţi de la acelaşi curs.

Într-adevăr, es poate fi utilizat pentru construcţia unui astfel de interval în jurul valorii

estimate y , unde să fie situate cu o anumită probabilitate valorile efectiv observate pe care le-

am tot notat cu y. Acesta este aspectul de care ne vom ecupa în continuare, mai exact

construcţia intervalelor aproximative de predicţie.

2.6. Intervale de predicţie

Din cele amintite anterior despre repartiţia normală şi pe baza acelor condiţii pe care

le-am impus asupra repartizării valorilor y, putem afirma că: 68% dintre valorile y se află la

distanţa es faţă de dreapta de regresie (deasupra sau sub aceasta, ceea ce face corectă

descrierea prin intermediul mărimii es ), că 95,5% dintre valorile lui y se află la distanţă

es2 faţă de dreapta de regresie şi că 99,7% dintre valori se află la diatanţă es3 faţă de

această dreaptă.

Concret, pentru exemplul firmei de telefonie mobilă aceasta înseamnă că dacă 17x

şi 446,195y , atunci sunt:

68% şanse ca nivelul mediu al încasărilor pentru un dealer oarecare situat în

vecinătatea unui supermarket oarecare cu un număr zilnic de clienţi de 1700 să fie

situat în intervalul 69,17446,195;69,17446,195 , deci în intervalul

136,213;756,177 ;

95,5% şanse ca nivelul mediu al acestor vânzări să fie în

69,172446,195;69,172446,195 , deci între 160,066 şi 230,826;

99,7% şanse ca nivelul mediu al încasărilor anuale să fie între 69,173446,195 şi

69,173446,195 , deci între 142,376 şi 248,516.

Metoda prin care am construit aceste intervale, pentru grade de încredere diferite, este corectă

în măsura în care utilizarea repartiţiei normale este justificată. Dacă eşantionul folosit în

studiu are dimensiune mai mică decât 30 (aşa cum este cazul în exemplul nostru) şi dacă nu

se îndeplinesc cele două condiţii impuse asupra lui y, ceea ce este foarte posibil în practică,

atunci distribuţia normală nu mai are nici o putere. Din fericire, statisticienii ne învaţă că

atunci când dimensiunea n a eşantionului este mai mică decât 30 şi cînd dispersia întregii

populaţii este necunoscută, intră în cu succes Distribuţia t, sau Distribuţia Student, care în

cazul de faţă se bucură de n-2 grade de libertate, acelaşi n-2 ca şi numitărul din formula de

calcul pentru es . Vom reţine în acest context forma intervalului de predicţie şi anume:

24

Cu o probabilitate egală cu 1 , valorile observate ale lui z se află situate în

intervalul:

e

2e

2

sty;sty (2.6.1.)

Să aplicăm această formă pentru exemplul firmei de telefonie mobilă. Avem un eşantion

format din 10n dealeri, deci 30n şi, judecând la rece, habar nu avem care este abaterea

standard a populaţiei. Prin urmare, pentru predicţie va trebui utilizat intervalul (2.6.1.), cu o

distribuţie t cu 82n grade de libertate. Ne vom referi la valoarea estimată pentru 17x ,

pentru care am calculat 446,195y şi vom avea în atenţie că dacă dorim pentru intervalul

care urmează a fi construit un grad de încredere de 95% de exemplu, atunci:

025,02

05,095,01 .

Pentru cele 8 grade de libertate, tabelele distribuţiei t ne pun la dispoziţie valoarea

306,2tt 025,02

. Înlocuim în (2.6.1.) şi obţinem:

69,17306,23,195;69,17306,23,195

După efectuarea calculelor, directorul firmei poate fi sigur în proporţie de 95% de faptul că

nivelul mediu anual al vânzărilor pentru un dealer oarecare situat în vecinătatea unui

supermarket oarecare cu un număr zilnic de clienţi de 1700 este situat între 15444 RON şi

23616 RON.

Exerciţii propuse

Exerciţiul 7. Tabelul următor prezintă şase observaţii despre două variabile, x şi y.

Observaţia ix iy

1 4 30

2 5 30

3 6 25

4 2 35

5 9 20

6 10 16

a) Construiţi o diagramă scatter pentru aceste date.

25

b) Reprezentaţi grafic dreapta x240y pe diagrama scatter. Consideraţi că această

dreaptă este o bună aproximare a datelor?

c) Utilizaţi metoda celor mai mici pătrate şi calculaţi ecuaţia estimată a regresiei pe baza

datelor din tabel.

d) Calculaţi

n

1i

2

ii yySPE pentru dreptele de la b) şi c). Care valoare a lui SPE este

mai mică şi cum explicaţi?

Exerciţiul 8. Datele din tabelul următor indică salariile de care beneficiază angajaţii unei

firme şi vechimea acestora la locul de muncă.

Vechime (ani) Salariu (RON)

1,5 651

2,5 800

3,2 920

3,6 870

4,3 1000

2,9 820

a) Construiţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.

b) Faceţi o predicţie cu privire la salariul pe care îl poate primi un angajat cu doi ani

vechime şi unul cu cinci ani vechime.

Exerciţiul 9. Construiţi ecuaţia estimată a regresiei pentru datele din Exerciţiul 3 propus

în secţiunea precedentă. Faceţi apoi o predicţie cu privire la media generală cu care poate fi

absolvită facultatea de către un student care a fost admis cu nota 9.

Exerciţiul 10. [Andersen] O agenţie imobiliară dispune de următoarele date cu privire la

suprafaţa şi preţul de vânzare pentru cinci locuinţe:

Spaţiu locuibil (mp) Preţ de vânzare (mii euro)

250 124

240 108

180 92

300 146

230 110

26

a) Construiţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.

b) Faceţi o predicţie cu privire la preţul de vânzare pentru o locuinţă cu suprafaţa de 270

mp.

Exerciţiul 11. Se dau următoarele date:

x 54 46 40 56 38 37 48

y 43 36,5 32,5 44,2 31,2 30,1 38,6

a) Calculaţi ecuaţia estimată a regresiei utilizând metoda celor mai mici pătrate.

b) Calculaţi erorile individuale de estimare şi verificaţi corectitudinea calculului de la

punctul anterior, pe baza rezultatului obţinut prin însumarea acestor erori.

c) Calculaţi eroarea standard a estimării.

d) Construiţi un interval de predicţie pentru y în cazul unei valori 42x , cu un grad de

încredere de 95%.

Exerciţiul 12. O firmă care asigură transport internaţional efecturază un studiu cu privire

la efectele pe care le are modificarea preţului biletelor asupra numărului de pasageri. Au fost

obţinute următoarele date:

Preţ bilet (euro) Număr pasageri

30 700

35 670

40 670

45 550

50 530

55 500

60 510

65 430

a) Stabiliţi care este variabila independentă x şi care este variabila dependentă y.

b) Construiţi diagrama scatter pentru datele din enunţ.

c) Construiţi ecuaţia estimată a regresiei cu ajutorul metodei celor mai mici pătrate şi

reprezentaţi grafic dreapta corespuntătoare în sistemul de coordonate de la punctul

anterior.

d) Calculaţi erorile individuale şi verificaţi corectitudinea calculului, studiind rezultatul

sumei acestora.

27

e) Calculaţi eroarea standard a estimării.

f) Dezvoltaţi un interval de predicţie 95% pentru numărul de pasageri pe care îi poate

avea firma dacă preţul biletului este de 53 euro.

Exerciţiul 13. [Levin, Rubin] O firmă testează agenţii proprii specializaţi în vânzări,

înainte de a-i trimite efectiv pe teren. Managerul firmei este interesat în determinarea relaţiei

care se stabileşte între punctajul obţinut la test şi vânzările efective realizate de către agenţi

după un an de practică. Următoarele date au fost culese şi se referă la zece persoane care au

lucrat timp de un an pe teren.

Persoana Punctajul testului Număr unităţi

vândute

1 26 95

2 37 140

3 24 85

4 45 180

5 26 100

6 50 195

7 28 115

8 30 136

9 40 175

10 34 150

a) Determinaţi ecuaţia estimată a regresiei, care poate fi utilizată în scopul predicţiei

volumului vânzărilor pe baza rezultatelor obţinute la test de către agenţi.

b) Cât de mult este aşteptat să crească numărul unităţilor vândute de către un agent, la o

creştere cu zece puncte a punctajului obţinut la test?

c) Utilizaţi ecuaţia estimată a regresiei pentru a efectua o predicţie cu privire la numărul

unităţilor pe care le poate vinde un agent care a obţinut la testare 25 de puncte.

d) Calculaţi eroarea standard a estimării.

e) Construiţi un interval de predicţie 95% pentru mărimea pentru care aţi făcut predicţia

la punctul c).

Întrebări recapitulative

1. Care este semnificaţia parametrilor 0 şi 1 ?

28

2. Cum se aplică această semnificaţie pentru exemplul firmei de telefonie mobilă?

3. Cum trebuie aleasă dreapta de regresie pentru ca analiza de regresie să fie credibilă?

4. Ce sunt erorile individuale, care este formula de calcul şi ce semn pot avea? Ce

sugerează semnul erorilor individuale?

5. Ce este metoda celor mai mici pătrate şi ce anume se urmăreşte prin aplicarea ei?

6. Care sunt formulele de calcul pentru parametrii ecuaţiei estimate a regresiei?

7. Care este diferenţa dintre modelul de regresie şi ecuaţia estimată a regresiei?

8. Prin ce metode se poate verifica dacă ecuaţia estimată a regresiei a fost calculată

corect?

9. Ce este eroarea standard a estimării şi unde poate fi utilizată?

10. Ce sunt intervalele de predicţie şi cum se calculează? Comentaţi semnificaţia fiecărei

mărimi care apare în formula generală de calcul, în funcţie de dimensiunea

eşantionului şi informaţiile pe care le aveţi despre dispersia populaţiei.

29

3. Coeficientul de determinare

Există, până în acest moment, câteva aspecte cu care putem fi de acord cu toţii. În

primul rând, faptul că ideea de estimare atrage după sine suspiciuni cu privire la exactitatea

rezultatului şi implicit sugerează existenţa unor potenţiale erori provenite din diferenţa între

valorile estimate şi cele înregistrate efectiv. În al doilea rând, atunci când teoria ne pune la

dispoziţie două sau mai multe metode de estimare se conturează ideea că diferenţele pot să

apară nu doar între valorile estimate şi cele observate, ci şi între estimările obţinute prin

metode diferite.

Ar fi ideal să putem conta pe modalităţi de control cu ajutorul cărora să stabilim

gradul în care o anumită estimare poate fi utilizată în prognoză şi este de intuit că un element

de ghidare în obţinerea răspunsului la întrebarea „În ce măsură pot folosi informaţiile pentru

prognoză?” trebuie să fie legat de luarea în calcul a unei analize bazate pe cel puţin două

metode de estimare. În mod sigur veţi acorda mai mlt credit unui rezultat dacă aţi obţine

acelaşi lucru pe mai multe căi, nu-i aşa?

Iată de ce atunci când vom discuta problema acestei măsuri, sau gradului în care

ecusţia estimată a regresiei poate fi utilizată în prognoze vom face referire la mărilime

observate iy , la cele estimate iy şi la o mărime pe care ne-o oferă statistica. Este vorba

despre y , media valorilor observate, despre care teoria ne învaţă că poate fi utilizată ca

estimator pentru media întregii populaţii. Aşadar, dispunem de:

Datele iniţiale iy ;

Estimarea pe baza relaţiei de regresie, din care obţinem valorile iy ;

Estimarea bazată pe media y a datelor din eşantion.

În cazul exemplului pe care l-am discutat până acum, al firmei de telefonie mobilă,

regăsim aceste valori după cum urmează: datele iniţiale iy şi estimările lor iy se află în

coloanele 2 şi 3 ale Tabelului 1.2.1.. Media y a fost calculată pe baza relaţiei (2.3.7.) şi a

rezultat egală cu 115,436.

Conform cu ceea ce am precizat puţin mai devreme, va trebui să luăm în calcul

următoarele erori şi diferenţe:

30

a) Erorile care apar atunci când estimăm datele iy prin intermediul valorilor iy obţinute

pe baza ecuaţiei estimate a regresiei. Este vorba despre diferenţele ii yy pe care le

întâlniţi în cărţile de specialitate sub numele de reziduuri. Suma pătratelor erorilor

astfel rezultate este o cunoştinţă mai veche, pe care am notat-o cu SPE şi, pentru

exemplul firmei de telefonie mobilă, a rezultat din calcul ca fiind egală cu 2503,49.

b) Erorile care apar atunci când estimăm iy prin intermediul valorii medii y , a căror

sumă a pătratelor o vom nota SPT şi are forma:

n

1i

2

i yySPT (3.1.)

Expresia (3.1.) este binecunoscută pentru cei care îşi amintesc formula de calcul a

dispersiei de selecţie şi reprezintă suma pătratelor abaterilor pe care le înregistrează

datele din eşantion faţă de valoarea medie de selecţie.

Haideţi să calculăm acum valoarea SPT pentru exemplul firmei de telefonie mobilă şi

vom utiliza Tabelul 3.1. pentru simplificarea calculului.

x y y y y 2yy

1 19,36 115,436 -96, 076 9230,597

4 50 115,436 -65, 436 4281,87

7 68 115,436 -47, 436 2250,174

7 90 115,436 -25, 436 646,99

10 100 115,436 -15, 436 238,27

12 125 115,436 9, 564 91,47

14 150 115,436 34, 564 1194,67

14 200 115,436 84, 564 7151,07

15 162 115,436 46, 564 2168,2

16 190 115,436 74, 564 5559,79

SPT = 32813,1

Tabelul 3.1. Calculul valorii SPT prin însumarea rezultatelor din ultima coloană a tabelului.

Am obţinut, deci, 1,32813SPT pentru exemplul firmei de telefonie mobilă. Asupra acestui

rezultat vom reveni cu câteva comentarii imediat ce vom prezenta şi ultima categorie de

diferenţe care trebuie luate în calcul în studiul nostru.

c) Diferenţele care apar între cele două variante de estimare, cea în care a fost utilizată

ecuaţia estimată a regresiei şi cea în care am folosit media de selecţie calculată pe

31

baza eşantionului de date. Este vorba, deci, despre yy i , iar suma pătratelor

acestora o vom nota SPR.

n

1i

2

i yySPR (3.2.)

Pentru exemplul firmei de telefonie mobilă utilizăm Tabelul 3.2. şi calculăm SPR.

y y y y 2yy

12,566 115,436 -102,87 10582,2369

46,856 115,436 -68,58 4703,2164

81,146 115,436 -34,29 1175,8041

81,146 115,436 -34,29 1175,8041

115,436 115,436 0 0

138,296 115,436 22,86 522,5796

161,156 115,436 45,72 2090,3184

161,156 115,436 45,72 2090,3184

172,586 115,436 57,15 3266,1225

184,016 115,436 68,58 4703,2164

SPR = 30309,61

Tabelul 3.2. Calculul valorii SPR prin însumarea rezultatelor din ultima coloană a tabelului.

Am calculat, aşadar, cele trei sume implicate de diferenţele care apar între valorile

observate şi cele estimate, respectiv între mărimile rezultate din cele două estimări pe care le-

am folosit. O înlocuire simplă vă va convinge că are loc următoarea egalitate:

SPRSPESPT (3.3.)

Această relaţie se verifică întotdeauna, nu doar pentru exemplul firmei de telefonie mobilă,

dar demonstraţia afirmaţiei nu este tocmai plăcută şi de aceea voi opta pentru omiterea ei din

această lucrare. Aceia dintre cititori care agrează calculele laborioase şi doresc să se convingă

de adevărul egalităţii (3.3.) în cadru general pot găsi amanunte şi indicaţii suplimentare în

lucrări de econometrie care dezvoltă mai profund aspectele teoretice4. În ceea ce ne priveşte,

vom lucra în continuare considerând că (3.3.) este adevărată şi vom discuta implicaţiile

acestei egalităţi.

Vom privi din nou la SPE şi SPT şi ne vom aminti faptul că SPE este suma pătratelor

erorilor care apar între punctele diagramei scatter (care corespund valorilor observate, dau

4 Se poate vedea Jula Dorin, Op. Cit.

32

date, iy ) şi punctele corespunzătoare de pe dreapta estimată a regresiei. Gândind într-o

manieră similară, SPT va trebui să provină din însumarea pătratelor erorilor care apar între

punctele aceleiaşi diagrame şi cele corespunzătoare de pe dreapta de ecuaţie yy . Figura

3.1. arată „aproximarea” punctelor iy prin cele două drepte.

Figura 3.1. Diagrama scatter pentru datele din Tabelul 1.2.1. şi aproximarea acesteia prin

ecuaţia estimată a regresiei, respectiv prin dreapta yy

În Figura 3.1. am pus în evidenţă eroarea aproximării pentru valoarea lui y corespunzătoate

lui 16x . Am notat cu 1E eroarea faţă de dreapta de regresie şi cu 2E eroarea faţă de

dreapta orizontală yy . Similar, se ot evidenţia toate erorile pentru toate punctele diagramei

scatter. Este momentul să ne amintim că în capitolul precedent am discutat despre metoda

care permite să verificăm calculul matematic atunci când construim ecuaţia estimată a

regresiei. Spuneam atunci că suma erorilor individuale trebuie să fie zero şi am arătat că

lucrul acesta chia se întâmplă. Spuneam, de asemenea, că această condiţie nu se referă la

gradul de încredere pe care îl putem avea în în ecuaţia estimată a regresiei, în sensul că nu

aflăm de aici în ce măsură ne putem baza pe aceasta pentru predicţii ulterioare şi a sosit clipa

să ne motivăm afirmaţia. Dacă aveţi curiozitatea să însumaţi erorile din coloana a patra a

Tabelului 3.1. veţi obţine valoarea zero. Asta nu înseamnă nici pe departe că dreapta de

ecuaţie yy este o foarte bună aproximare a punctelor de pe diagrama scatter, lucrul acesta

fiind argumentabil în două moduri: întâi, Figura 3.1. vă convinge imediat că diagrama este

mult împrăştiată faţă de punctele dreptei orizontale, iar al doilea va trebui să comparaţi suma

pătratelor erorilor în două situaţii, adică SPE şi SPT. Se observă că SPT, corespunzător

aproximării prin dreapta orizontală, este mult mai mare decât SPE care derivă din

aproximarea pe baza dreptei de regresie, cu toate că suma erorilor individiale în fiecare caz

este zero. Deduceţi de aici că anularea sumei este o simplă verificare pentru corectitudinea

calculului şi nu pentru vreo afirmaţie relativ la precizia estimării pe baza dreptei respective.

Mai putem face o observaţie pornind de la egalitatea (3.3.). Pentru că SPR este o sumă

de pătrate, înseamnă că are loc întotdeauna 0SPR . Egalitatea cu zero poate avea loc doar

dacă toţi termenii implicaţi în calcul ar fi zero, adică iy y = 0, n,1i . Această situaţie

corespunde cazului în care dreapta de regresie se suprapune peste dreapta yy şi este

33

unicul caz în care SPESPT . Pornind de la reprezentarea grafică din Figura 3.1. putem

spune deci că SPT şi SPE au următoarea semnificaţie:

SPT este măsura erorii atunci când nu utilizăm analiza de regresie

SPE este măsura erorii atunci când utilizăm analiza de regresie

Am convingerea că până în momentul de faţă cel puţin un cititor şi-a pus întrebarea

dacă relaţia (3.3.) mai are şi alt rost înafară de stresarea începătorilor în econometrie. Îmi face

plăcere să spun că tot ce am spus până acum converge către o argumentare solidă relativ la

măsura în care relaţia găsită pentru ecuaţia estimată a regresiei poate fi utilizată în prognoze.

Aceasta însemna, după cum am mai spus şi în capitolul anterior, ca pe dreapta de regresie să

se afle cât mai multe dintre punctele diagramei scatter. Un ideal, greu de atins, ar fi ca dreapta

la care ne.am referit să treacă prin toate aceste puncte, ceea ce ar însemna că în toate cazurile

are loc iy iy , iar în Figura 3.1. aţi mai regăsi doar erori faţă de dreapta orizontală yy .

Într-o atare situaţie ar avea loc:

iy y = 0, n,1i 0SPE

Cele două cazuri extreme pe care le.am pus în discuţie, cu toate că nu se prea întâlnesc în

practică, sunt de ajutor pentru studiul unei mărimi pe care o vom defini imediat şi pe care se

bazează multe elemente din analiza de regresie. Este vorba despre coeficientul de

determinare.

Definiţia 3.1. Coeficientul de determinare este mărimea care reflectă gradul în care

ecuaţia estimată a regresiei poate fi folosită în prognoze. Se notează cu 2r şi se calculează

după formula:

SPT

SPRr 2 (3.4.)

Cele două cazuri extreme discutate anterior ne spun că:

0r 2 dacă 0SPR , adică dacă dreapta de regresie se suprapune peste dreapta

yy ;

1r 2 dacă SPTSPR ,ceea ce înseamnă din (3.3.) că 0SPE adică dacă dreapta

de regresie se suprapune peste toate punctele diagramei scatter.

În oricare altă situaţie, pentru că SPE este o sumă de pătrate şi este pozitivă, la fel cu

celelalte mărimi implicate în (3.3.), are loc inegalitatea SPTSPR . Rezultă imediat că

1SPT

SPR . Ţinând cont de cele două cazuri particulare şi de definiţia coeficientului de

determinare, obţinem:

34

1,0r 2 (3.5.)

Coeficientul de determinare exprimă procentul din SPT care poate fi explicat de utilizarea

ecuaţiei estimată a regresiei. El mai poate fi folosit ca măsură a gradului de apropiere a

dreptei de regresie de punctele diagramei scatter, în sensul că o valoare mare a lui 2r ne

spune că apropierea este foarte bună. Nu în ultimul rând, 2r exprimă o măsură a intensităţii

relaţiei de regresie: mai exact, cu cît 2r este mai mare relaţia este mai puternică pe când o

valoare mică a lui 2r arată o relaţie slabă.

Pentru exemplul firmei de telefonie mobilă, coeficientul de determinare este

9237,01,32813

61,30309r 2 . În exprimare procentuală avem %37,92r 2 , valoare foarte

apropiată de 1, deci relaţia dintre numărul clienţilor din supermarket şi vânzările anuale ale

firmei este foarte intensă.

Altfel exprimat, procentul de 92,37% arată de fapt măsura în care variaţia vânzărilor

anuale ale firmei de telefonie mobilă este explicată de variaţia numărului de clienţi ai

supermarketului în preajma căruia este situat dealerul. Exprimându-ne astfel, devine uşor de

înţeles motivul pentru care de foarte multe ori în lucrările de specialitate veţi întâlni, pentru

valorile iy denumirea de „variabilă explicată de modelul de regresie”. De asemenea, pentru

că în exemplul nostru coeficientul de determinare este 92,37%, se intuieşte că diferenţa până

la 100% corespunde unui segment, sau unei părţi din variaţia vânzărilor care nu poate fi

atribuită numărului de clienţi din supermarketuri. Despre această diferenţă de 7,63% nu avem

informaţii cuprinse în modelul pe care l-am utilizat şi este ideal ca acest procent „diferenţă”

să fie foarte mic, astfel încât încrederea în relaţia obţinută (ecuaţia de regresie) să fie mare.

Dealtfel este limpede că un model, fie el de regresie sau de altă natură, este cu atât mai

potrivit cu cât furnizează cât mai multe explicaţii asupra fenomenului studiat.

În concluzie, procentul de 92,37% ne spune că din variaţia totală a vânzărilor anuale

care ne-au fost oferite în eşantion, 92,37% ar putea fi atribuită modului în care sunt distribuite

datele corespunzătoare numărului clienţilor din supermarket. Aş dori să atrag atenţia din nou

asupra unu aspect pe care l-am mai comentat şi anume faptul că în exprimarea utilizată

anterior nu am sugerat nici o secundă o relaţie de cauzalitate între variabilele modelului. Am

folosit cuvintele „ar putea fi atribuită” şi nu „are drept cauză”, acestea din urmă însemnând,

la o privire atentă, cu totul altceva.

Acelaşi procent ne spune că putem să avem încredere în faptul că ecuaţia estimată a

regresieioferă o bună aproximare a punctelor diagramei scatter.

35

În final trebuie să recunoaştem că întreg calculul lui 2r este destul de incomod şi că

metoda directă pe care am prezentat-o şi care utilizează Tabelele 3.1. şi 3.2. este destul de

riscantă, mai ales că în calculul erorilor ridicate la pătrat apar deseori zecimale şi tot deseori

se simte nevoia aproximării valorilor obţinute. Desigur că în scopuri didactice aş fi putut

alege un exemplu care să nu cauzeze bătăi de cap cititorului, însă într-o atare situaţie probabil

că metoda rapidă de calcul pe care o voi prezenta mai departe nu ar mai fi fost apreciată la

justa ei valoare.

Experienţa didactică mi-a dovedit că de foarte multe ori studenţii manifestă aversiune

faţă de formulele de calcul şi preferă să abordeze problemele într-o manieră directă,

muncitorească. Din păcate, trunchierile rezultatelor intermediare determină în marea

majoritate a cazurilor rezultate finale destul de departe de adevăr, pentru că datele reale cu

care se lucrează în problemele practice nu pot fi întotdeauna alese „comod”.

Sugerez cititorilor să ţină cont de toate aceste aspecte şi să nu respingă metoda de

calcul a coeficientului de determinare care presupune aflarea lui SPR şi SPT din formulele

următoare:

2n

1i

i

n

1i

2i

2n

1i

i

n

1i

i

n

1i

ii

xn

1x

yxn

1yx

SPR

(3.6.)

2n

1i

i

n

1i

2i

yn

1ySPT

(3.7.)

Atunci când am calculat coeficienţii 0 şi 1 pentru ecuaţia estimată a regresiei am avut

nevoie de toate elementele care apar în (3.6.) şi (3.7.), mai puţin de suma

n

1i

2i

y care va fi

calculată acum. Reamintim că:

10n , 36,14195yxn

1i

ii

, 100xn

1i

i

, 36,11154yxn

1i

ii

, 1232xn

1i

2i

.

Din calcul direct, rezultă 8096,166067yn

1i

2i

.

Înlocuim în (3.6.) şi (3.7.) şi obţinem:

36

61,30309

10010

11232

36,115410010

136,14195

SPR2

2

1,3281336,115410

18096,166067SPT 2

Coeficientul de determinare se calculează din (3.4.) şi pentru că valorile SPT şi SPR au

rezultat, aşa cum ne aşteptam, aceleaşi ca şi în cazul metodei anterioare de calcul, înseamnă

că 2r îşi menţine valoarea de 92,37%. În acest fel nu am utilizat tabele, nu am ridicat la

pătrat o grămadă de diferenţe, de fapt n-am făcut decât să utilizăm mărimile care ne-au fost

deja de ajutor în calculul lui 0 şi 1 . Este foarte adevărat că şi această metodă presupune ca,

la un moment dat, să facem ulele aproximări. Dacă veţi calcula efectiv SPR şi SPT prin

intermediul formulelor (3.6.) şi (3.7.), veţi vedea că ele sunt „aproximativ egale” cu valorile

pe care le-am comunicat cititorilor. Dar prin această metodă de lucru eventuala aproximare

apare o singură dată, la finalul calculului şi nu în fiecare căsuţă din ultima coloană a

Tabelelor 3.1. şi 3.2., aşa cum sunt tentaţi studenţii să procedeze atunci când sunt confruntaţi

în mod repetat cu zecimale incomode.

În fond, şi calculul direct şi aplicarea formulelor prescurtate sunt de fapt metode de

lucru la fel de corecte câtă vreme rezultatele obţinute nu sunt eronate. Important este ca,

indiferent pe care dintre căi, să o scoateţi la capăt şi să calculaţi corect coeficientul de

determinare.

Exerciţii propuse

Exerciţiul 14. Pentru datele din Exerciţiul 7, să se calculeze cu ajutorul formulelor

(3.6.) şi (3.7.):

a) SPR

b) SPT

c) Folosind formula (3.3.) şi rezultatele de la a) şi b), calculaţi SPE şi comparaţi cu

rezultatul pe care l-aţi obţinut când aţi rezolvat Exerciţiul 7 şi aţi utilizat metoda

directă.

d) Calcluaţi coeficientul de determinare şi comentaţi asupra ecuaţiei estimate a regresiei

pe care aţi obţinut-o în rezolvarea Exerciţiului 7.

37

Exerciţiul 15. Pentru datele din Exerciţiul 8, să se calculeze SPR şi SPT prin metoda

directă şi apoi cu ajutorul formulelor (3.6.) şi (3.7.). Care este procentul din SPT care este

explicat prin modelul de regresie? Ce informaţii oferă valoarea coeficientului de determinare

cu privire la relaţia dintre variabilele din problemă?

Exerciţiul 16. Pentru datele din Exerciţiul 9, se cer:

a) Valorile pentru SPR, SPE şi SPT , calculate prin metoda directă şi apoi cu ajutorul

formulelor (3.3.), (3.6.) şi (3.7.).

b) Comparaţi rezultatele obţinute prin cele două metode şi explicaţi eventualele diferenţe

care pot să apară.

c) Calculaţi coeficientul de determinare şi comentaţi semnificaţia lui pe baza elementelor

teoretice explicate în Secţiunea 3.

Exerciţiul 17. Aceleaşi cerinţe ca la exerciţiul anterior, pentru datele din Exerciţiul 11.

Exerciţiul 18. Se dau următoarele date:

x 50 75 100 140 160 180

y 5 25 45 70 95 120

a) Imaginaţi un exemplu practic pentru care datele din tabelul anterior ar putea fi

corespunzătoare.

b) Stabiliţi variabila independentă şi pe cea dependentă, conform cu semnificaţiile

impuse de exemplul pe care l-aţi ales.

c) Construiţi ecuaţia estimată a regresiei pentru datele din enunţ şi reprezentaţi-o grafic

în acelaşi sistem de coordonate cu diagrama scatter care se profilează.

d) Calculaţi coeficientul de determinare şi interpretaţi valoarea lui pe baza exemplului

concret pe care l-aţi ales.

Exerciţiul 19. Calculaţi coeficientul de determinare pentru ecuaţia estimată a regresiei pe

care aţi determinat-o la Exerciţiul 10. Comentaţi rezultatul prin prisma semnificaţiei lui 2r .

Întrebări recapitulative

38

1. Care sunt elementele de care dispunem iniţial atunci când ne pregătim să calculăm

coeficientul de determinare?

2. Câte metode de estimare sunt implicate în calculul coeficientului de determinare?

Care sunt?

3. Câte feluri de erori, sau diferenţe, trebuie avute în vedere atunci când urmează să

discutăm problema coeficientului de determinare? Care sunt?

4. Care este semnificaţia mărimilor SPR, SPE şi SPT?

5. Care este relaţia dintre SPR, SPE şi SPT?

6. În câte moduri pot fi calculate mărimile SPR, SPE şi SPT? Detaliaţi.

7. Explicaţi avantajele şi dezavantajele fiecăreia dintre metodele de calcul pe care le-

aţi menţionat ca răspuns la întrebarea 6.

8. Cum se defineşte coeficientul de determinare?

9. Care este formula de calcul a coeficientului de determinare?

10. Care sunt comentariile pe care le puteţi face asupra semnificaţiei coeficientului de

determinare?

4. Testarea semnificaţiei statistice

Există câteva motive obiective pentru care această secţiune va fi prezentată cu foarte

mare atenţie şi, pentru unii dintre cititori, poate prea în amănunt. Dacă prezenta lucrare s-ar

adresa specialiştilor în econometrie, cu siguranţă că grija ar trebui îndreptată doar asupra

corectitudinii informaţiei. Mi-am propus, însă, ca această carte să se adreseze în primul rând

persoanelor care nu sunt familiarizate cu domeniul şi de aceea, în dorinţa de a explica foarte

clar noţiunile şi metodele cu care operăm, voi prefera să aduc şi foarte multe elemente care

pot fi de ajutor în atingerea obiectivului propus. Secţiunea 4 face apel la o serie de cunoştinţe

pe care cititorul ar trebui să le aibă ca urmare a lecturării atente a unui curs de statistică.

Pentru că nu sunt convinsă de existenţa acestor informaţii nici măcar atunci când este vorba

despre foştii mei studenţi şi pentru că de cele mai multe ori reacţia cititorilor este aceea de „a

trece peste” paragrafele incomode mai degrabă decât să caute prin diverse cărţi o completare

a cunoştinţelor, am preferat să elaborez această secţiune reamintind şi câteva din elementele

fundamentale de statistică pe care se bazează toate construcţiile şi concluziile la care vom

ajunge. Îmi place să cred că acest demers va fi de ajutor măcar unora dintre dumneavoastră,

39

uşurându-vă munca de documentare şi, de ce nu, eliminând o parte din sentimentul de

respingere cu care este primită de către studenţi această parte a analizei de regresie.

Voi începe printr-o scurtă recapitulare a câtorva lucruri pe care le-am făcut până

acum. Am prezentat Metoda Celor Mai Mici Pătrate, cu ajutorul căreia am determinat 0 şi

1 pe care i-am numit parametrii ecuaţiei estimate a regresiei. Trebuie să ne amintim faptul

că întreg calculul s-a bazat pe datele din Tabelul 1.1., deci pe un eşantion format din zece

dealeri. Haideţi să ne gândim că în realitate firma de telefonie mobilă are reprezentanţi în

foarte multe locuri şi că în total există 270 de magazine prin intermediul cărora ăşi distribuie

produsele destinate vânzării: telefoane mobile, accesorii sau abonamente şi alte servicii. Într-

o atare situaţie alegerea unui eşantion format din zece dealeri se poate face în foarte multe

moduri, mai exact în 10270

C adică un număr deloc de neglijat pe care nu v-aş sfătui să încercaţi

sa-l calculaţi dacă nu dispuneţi de un program special pe computer. Ne putem aştepta, deci,

ca pentru un alt eşantion datele din Tabelul 1.1. să arate mai mult sau mai puţin diferit, la fel

de bine cum valorile rezultate dintr-un nou calcul pentru 0 şi 1 pot fi de asemenea diferite

de cele determinate de noi în Secţiunea 2. Mai grav, dacă lucrăm pe baza datelor provenite de

la 20 de eşantioane diferite, de exemplu, n-ar fi de mirare să obţinem tot atâtea valori pentru

parametrii estimaţi 0 şi 1 . Ei, bine, toată povestea aceasta reprezintă „marea problemă”

care cere ajutorul instrumentelor statistice. Atâta vreme cât nu dispunem de absolut toate

datele – adică de întreaga populaţie – şi avem la îndemână doar o parte dintre ele – adică

eşantionul – nu ne putem baza cu certitudine pe rezultatele pe care le-am obţinut. Informaţia

trunchiată va genera în mod sigur erori şi problemele care apar sunt destul de numeroase.

Orice statistician poate mărturisi că lupta cu datele care urmează a fi utilizate în

analize este destul de spinoasă. Se pot întâmpla două lucruri: să-i fie puse la dispoziţie, sau să

fie invitat să le culeagă. Ambele variante crează oarecari neplăceri şi este greu de spus care

situaţie este de preferat. Dacă datele îi sunt furnizate pur şi simplu, apare problema modului

în care au fost obţinute. Sunt corecte? Sunt suficiente? Au fost colectate conform regulilor pe

care le impune statistica? Dacă are posibilitatea să le culeagă singur, atunci va şti ce are de

făcut pentru ca totul să se desfăşoare pe baze ştiinţifice, dar şi în această situaţie se va afla

faţă în faţă cu fragmente de informaţie şi nu cu date complete relativ la întreaga populaţie.

Revenind la problema valorilor care se pot obţine pentru 0 şi 1 din diferite

eşantioane, este uşor de înţeles faptul că se naşte următoarea suspiciune: cât de mult ne putem

baza pe rezultatele pe care le-am obţinut? Cât de semnificateive sunt, în sensul în care scopul

40

nostru este să caracterizăm întregul pe baza unei părţi pe care o cunoaştem? De exemplu,

valorile 136,1ˆ0 şi 43,11ˆ

1 pe care le-am calculat în Secţiunea 2caracterizează cât de

cât fidel ecuaţia de regresie pe ansamblul dealerilor firmei de telefonie mobilă, sau se poate

întâmpla ca un alt eşantion să ne conducă la rezultate complet diferite, ca de exemplu

6,12ˆ0 şi 135ˆ

1 , iar în realitate să fie vorba despre 4,40 şi 51 ? Aceste ultime

valori s-ar referi la mărimile pe care le-am obţine dacă am avea acces la datele pentru

întreaga populaţie şi care nu ar fi deloc apropiate de rezultatele pe care le-am menţionat ca

provenind din două eşantioane diferite.

De obicei eşantioanele se aleg uniform aleator şi prin urmare există o valoare de

probabilitate pe care o puteţi atribui posibilităţii ca din această alegere să rezulte un eşantion

anume. De asemenea, fiecărui eşantion îi vor corespunde ca urmare a calculului prezentat în

Secţiunea 2 valori ferme ale parametrilor estimaţi 0 şi 1 . Putem afirma, deci, că 0 şi 1

se obţin din calcule cu aceeaşi probabilitate cu care este ales eşantionul pe baza căruia au fost

determinaţi. Dacă, de exemplu, eşantionul din Tabelul 1.1. apare cu probabilitate 0,014

(ipotetic vorbind) atunci când se aleg la întâmplare zece dealeri din totalul lor, atunci putem

spune că 136,1ˆ0 şi 43,11ˆ

1 apar cu probabilitate identică, adică tot 0,014.

Vom discuta un exemplu în care populaţia are trei elemente, iar populaţia are două.

Desigur că din punct de vedere practic nu are nici un sens să aplicăm instrumente statistice în

această situaţie, decât dacă din diferite motive nu avem acces la întreaga informaţie. Pentru

scopuri didactice, însă, exemplul este potrivit.

Exemplul 4.1. Considerăm populaţia c,b,a din care alegem uniform aleator un

eşantion format cu doi itemi. Este uşor de observat că există trei posibilităţi şi anume: b,a ,

c,a , c,b şi intuim că fiecare variantă are şansa, sau probabilitatea, de 3

1 de a fi aleasă.

Pentru fiecare dintre cele trei posibilităţi de alegere se vor obţine valori ferme pentru 0 şi

1 , pe care le vom nota astfel:

Eşantionul b,a : 01 şi 11

Eşantionul c,a : 02 şi 12

Eşantionul c,b : 03 şi 13

41

Pentru că fiecare eşantion apare cu probabilitate 3

1, cu aceeaşi probabilitate se vor înregistra

şi rezultatele 0 şi 1 . Construim tablourile următoare, în care înscriem pe prima linie

parametrii şi pe linia a doua şansele lor de apariţie:

Tabloul 1:

3

1

3

1

3

1

ˆˆˆ

:ˆ030201

0

Tabloul 2:

3

1

3

1

3

1

ˆˆˆ

:ˆ131211

1

Pentru cititorii familiarizaţi cu teoria probabilităţilor faptul că am enumerat toate variantele

de rezultat şi şansele lor de apariţie este o direcţionare clară către noţiunea de „variabilă

aleatoare”. Tabloul 1 este variabila aleatoare care corespunde lui 0 , iar Tabloul 2 lui 1 . ₪

Dacă exemplul anterior a fost suficient de clar, înseamnă că este de înţeles faptul că

0 şi 1 sunt, de fapt, variabile aleatoare care pot lua diferite valori în funcţie de eşantionul

ales, iar aceste valori se pot întâlni cu aceeaşi probabilitate cu care eşantionul utilizat în calcul

are şanse să apară ca urmare a selecţiei din întreaga populaţie. Problema care se conturează

imediat este legată de natura valorilor pe care le pot lua aceste două variabile aleatoare, în

sensul în care dorim să vedem:

Dacă există o tendinţă de grupare a lor în jurul unei valori medii;

În ce măsură se realizează această grupare;

Cât de dispersate, sau împrăştiate, sunt valorile faţă de media pe care am menţionat-o.

Exprimat în limbaj de specialitate, dorim ca 0 şi 1 să îndeplinească următoarele

proprietăţi:

1) Să fie estimatori nedeplasaţi, adică media fiecăreia dintre cele două variabile aleatoare

să fie egală cu parametrul corespunzător care ar rezulta din calcul dacă am utiliza, în

loc de eşantion, întreaga populaţie. Această proprietate se scrie, formal, astfel:

00ˆM şi 11.ˆM

2) Dispersia variabilelor 0 şi 1 să fie cea mai mică posibilă, adică estimatorii trebuie

să se împrăştie, sau să se îndepărteze cât mai puţin cu putinţă de la valorile medii

pomenite anterior.

42

3) Să fie estimatori consistenţi, adică pe măsură ce alegem eşantioane de dimensiuni din

ce în ce mai mari, valorile rezultate din calcul pentru 0 şi 1 să se apropie din ce în

ce mai mult de valorile reale ale parametrilor 0 şi 1 care corespund întregii

populaţii.

Fără să intrăm în amănunte, vom spune că estimatorii 0 şi 1 calculaţi prin Metoda

Celor Mai Mici Pătrate îndeplinesc o serie de proprietăţi care ne dau voie să credem că ne

putem baza pe cele trei caracteristici pe care tocmai le-am prezentat.

Din punct de vedere al practicianului, tot preambulul pe care l-am făcut aici poate fi

considerat plictisitor sau deranjant. Foarte mulţi cititori sunt interesaţi în primul rând de latura

aplicativă a problemelor, simţindu-se pe deplin insensibili când este vorba despre

caracteristicile sau proprietăţile teoretice ale instrumentelor cu care operează. Prin urmare,

voi continua prezentarea într-un registru concret şi voi urmări două coordonate care pot fi de

interes atunci când lucrăm cu date numerice. În ambele situaţii, metodele de lucru au la bază

elemente de statistică şi pentru că nu toată lumea cunoaşte în amănunt capitolul pe cre această

ştiinţă îl dedică verificării ipotezelor, voi opta pentru indicarea unor etape de lucru şi nu

pentru o recapitulare în amănunt a informaţiilor.

Prima problemă: Am explicat faptul că 0 şi 1 sunt, de fapt, estimări ale parametrilor

0 şi 1 ai întregii populaţii. Se poate întâmpla ca, din diferite considerente, să intuim

valoarea lui 0 şi 1 şi să dorim să verificăm dacă avem dreptate utilizând un eşantion din

care să calculăm 0 şi 1 . Pentru o mai bună înţelegere a fenomenului, haideţi să

presupunem că directorul firmei de telefonie mobilă are motive să creadă că 1 ia, în

realitate, valoare 11,5. Cum se poate convinge că această valoare este plauzibilă? În primul

rând, el nu va avea certitudine asupra afirmaţiei decât în situaţia în care efectuează calculul

lui 1 pe baza datelor provenite de la toţi dealerii, adică pe baza întregii populaţii. În rest,

directorul poate spera într-o afirmaţie cu 90% sau 95% şanse de certitudine, sau cu orice alt

procent de obicei mai mic de 100%. Să admitem că domnul director se declară mulţumit cu

procentul de 90%. Apar aici două ipoteze pe care le vom numi – după modelul statisticii –

ipoteza nulă 0H şi ipoteza alternativă 1H . Ipoteza nulă se referă la ceea ce se verifică şi deci

la posibilitatea 5,111 . Ipoteza alternativă este contrară primeia şi va presupune, prin

urmare, că 5,111 . Alegerea celor două ipoteze este mai mult decât firească, pentru că se

referă la cele două ipostaze în care se poate afla 1 : egal sau diferit de 11,5. Vom scrie astfel:

43

0H : 5,111

1H : 5,111

Urmează acum etapa în care va trebui să hotărâm care ipoteză este adevărată şi pentru

asta vom folosi informaţiile pe care le-am obţinut deja pe baza eşantionului disponibil în

Tabelul 1.1. Avem nevoie de o mărime pe care o numim eroarea standard a corficientului de

regresie, aceasta fiind tocmai rădăcina pătrată a coeficientului de determinare 2r . Pentru că

am precizat deja că voi prezenta doar metoda de calcul, cititorii vor trebui să ştie doar faptul

că trebuie calculată mărimea:

2n

1i

2i

eˆ

xnx

ss

1

(4.1.)

Pe es l-aţi întâlnit în Secţiunea 3 şi a fost calculat, rezultând 69,17se . Obţinem, prin

urmare:

1614,1

10101232

69,17s

2ˆ

1

Tocmai am folosit un element important pentru continuarea calculului şi anume informaţia cu

privire la dimensiunea eşantionului, care este 10n . Lucrul acesta ar trebui să ne

reamintească faptul că în statistică se ţine cont dacă eşantionul este format din mai mult sau

mai puţin de 30 de itemi, pentru că în funcţie de asta vom şti cum abordăm problema mai

departe. De fapt, avem de calculat două valori „limită” şi anume: limita superioară a regiunii

de acceptare pentru ipoteza 0H şi limita inferioară a aceleiaşi regiuni. Va trebui să

determinăm mărimile:

1ˆ1 s

În locul steluţei se va afla fie un „t”, fie un „z”, în funcţie de dimensiunea eşantionului, adică:

Dacă 30n , cum este şi cazul nostru, vom folosi distribuţia Student cu 2n grade

de libertate şi în locul lui va fi un t.

Dacă 30n , intră în scenă distribuţia normală şi va fi înlocuit printr-un z.

Am stabilit că directorul firmei se declară mulţumit dacă poate fi sigur în proporţie de

90% de rezultatul testării. Atunci vom determina o valoare din egalitatea următoare:

05,02

10,09,01

44

Acest se numeşte prag de semnificaţie şi reprezintă probabilitatea cu care ipoteza

0H riscă să fie respinsă, ea fiind în realitate adevărată.

Vom calcula limita superioară şi cea inferioară de acceptare astfel:

Limita superioară: 1

ˆ2

1 st (4.2.)

Limita inferioară: 1

ˆ2

1 st (4.3.)

Valoarea 2

t , pentru 05,02 şi 82n grade de libertate este de găsit în

tabelele distribuţiei Student şi este 860,1t 05,0 . Cele două limite se calculează imediat,

ţinând cont că ipoteza 0H insinuează o valoare 5,111 :

Limita superioară: 66,131614,186,15,11

Limita inferioară: 34,91614,186,15,11

Mai departe, metoda de lucru ne spune să verificăm dacă valoarea estimată pentru 1

se află între limita inferioară şi cea superioară a regiunii de acceptare. Mai exact, dacă

66,13;34,943,11ˆ1 . Pentru că apartenenţa lui 1 la acest interval este evidentă, vom

afirma că suntem siguri în proporţie de 90% de faptul că ipoteza 0H este adevărată şi vom

accepta că 5,111 .

Exemplul 4.2. Uitaţi pentru moment faptul că s-ar putea confirma cu şanse 90%

valoarea 5,111 şi haideţi să readucem în discuţie „amănuntul” că 43,11ˆ1 a fost obţinut

din unul dintre eşantioanele posibile ale populaţiei. Am discutat deja cu privire la

posibilitatea ca acest rezultat să fie, de fapt, foarte departe de adevăr şi că este posibil ca în

realitate 1351 de exemplu. Să testăm această ipoteză urmând exact aceiaşi paşi pe care

i-am prezentat anterior.

Fixăm ipotezele:

0H : 1351

1H : 1351

Vom calcula din nou limitele regiunii de acceptare din (4.2.) şi (4.3.), singura mărime

care se modifică faţă de calculul precedent fiind 1351 .

Limita superioară: 84,1321614,186,1135

Limita inferioară: 16,1371614,186,1135

45

Verificăm acum dacă valoarea 43,11ˆ1 este situată în intervalul pe care l-am

obţinut, adică:

84,132;16,13743,11ˆ1

Apartenenţa nu este valabilă, deci putem afirma cu certitudine de 90% că ipoteza 0H se

respinge, iar ipoteza 1H devine implicit acceptată.

Calcule similare se pot face şi pentru verificarea ipotezelor relativ la parametrul 0 şi

voi lăsa în seama cititorului să afle dacă presupunerea că 14,10 este viabilă, c o

probabilitate de 90%.

A doua problemă: Am luat în calcul până acum diferite aspecte care vizează valorile

posibile ale parametrilor 0 şi 1 , dar nu ne-am referit la o situaţie care, odată apărută, poate

modifica radical modul în care am privit problema relaţiei de regresie dintre variabilele x şi y.

Este vorba despre cazul în care, de fapt, 01 ceea ce înseamnă că nu există influenţă a

variabilei independente asupra variabilei dependente.

Ne vom reaminti că ecuaţia regresiei are forma:

xyM 10

Înseamnă că dacă de exemplu 21 , atunci modificarea gu o unitate a lui x este

responsabilă de modificarea cu două unităţi a lui yM , ceea ce indică faptul că între x şi

yM se stabileşte o relaţie liniară. Dacă 1 se dovedeşte a fi zero, înseamnă că modificările

lui x nu mai au influenţă asupra lui yM , adică între cele două mărimi nu există o relaţie

liniară şi, cine ştie, poate că de fapt nu există nici un fel de relaţie. De ce n+am putea intui

încă de la început o astfel de situaţie? Evident, pentru că operând pe un eşantion ne punem

speranţe că dacă 1 a rezultat nenul, atunci şi 1 trebuie să fie la fel. Avem deja destule

argumente ca să nu avem încredere deplină în această posibilitate, mai ales dacă 1 are o

valoare foarte mică. Aşadar, este justificată testarea ipotezei ca 1 să fie nul, având ca

ipoteză alternativă posibilitatea 01 :

0H : 01

1H : 01

Metoda pe care o vom utiliza mai departe, numită Testul F, se bazează tot pe verificarea

ipotezelor statistice şi nu va fi aprofundată sub aspectmteoretic ci vor fi urmaţi doar paşii de

46

lecru. Vom utiliza unele mărimi deja calculate şi va trebui să mai determinăm şi altele, după

cum urmează.

Cunoaştem deja 49,2503SPE şi, cu ajutorul ei, calculăm media pătratelor erorilor

din formula:

2n

SPEMPE

(4.4.)

Obţinem 936,3128

49,2503MPE . Calculăm apoi media pătratelor erorilor rezultate din

utilizarea regresiei, din formula:

.indep.var.nr

SPRMPR (4.5.)

Pentru că în modelul nostru avem o singură variabilă independentă, x, înseamnă că numitorul

fracţiei anterioare este egal cu 1. Numărătorul a fost calculat deja şi este 30309,61, deci

obţinem 61,30309MPR .

Dacă ne gândim la un fapt evident, anume acela că odată cu modificarea eşantionului

se vor modifica şi mărimile SPR şi SPE, deci şi MPR şi MPE, înseamnă că acestea din urmă

sunt variabile aleatoare. Justificarea este similară celei pe care am adus-o atunci când am

explicat că 0 şi 1 sunt astfel de variabile. Raportul lor îl vom nota cu F:

MPE

MPRF (4.6.)

Acest F desemnează o distribuţie întâlnită în teoria probabilităţilor sub numele de Distribuţia

F cu un grad de libertate la numărător şi 2n grade de libertate la numitor, unde n este

dimensiunea eşantionului utilizat.

Calculăm valoarea lui F pentru exemplul nostru şi obţinem:

855,96936,312

61,30309F

Să stabilim dacă putem accepta 0H şi vom presupune că trebuie să fim siguri în proporţie de

99%. Înseamnă că putem greşi cu şanse de 1%, adică 0,01.

Pentru 01,0 şi pentru distribuţia F cu un grad de libertate la numărător şi 8 grade

de libertate la numitor, obţinem din tabelele specifice valoarea 26,11F 01,0 . Ultimul pas în

rezolvarea problemei noastre este să comparăm valorile F şi 01,0F pe care tocmai le-am

determinat şi să apliăm următoarea regulă de decizie:

Dacă 01,0FF , acceptăm 0H .

47

Dacă 01,0FF , respingem 0H .

Pentru că 855,96F 26,11F 01,0 rezultă că ipoteza 0H se respinge. Asta înseamnă că

suntem 99% siguri de faptul că 01 , deci că între variabilele x şi y există o relaţie în

sensul că variaţia lui x generează variaţii ale lui y. Putem avea încredere acum în ecuaţia

estimată a regresiei pe care am determinat-o în Secţiunea 2 şi o putem folosi în predicţii cu

privire la vânzările anuale ale firmei de telefonie mobilă.

Specialiştii ne pun la dispoziţie şi o altă metodă de verificare a ipotezelor în acest caz,

bazată de această dată pe Testul t. Câtă vreme lucraţi pentru testarea parametrilor unui model

de regresie liniară cu o singură variabilă independentă, în cazul nostru x, puteţi aplica după

propriile preferinţe Testul F sau Testul t pentru că ele conduc la acelaşi rezultat. Dacă

modelul are, însă, mai multe variabile independente, ceea ce nu este cazul în lucrarea de faţă,

Testul F va fi singura armă de care veţi dispune.

Discutăm în continuare etapele de lucru specifice Testului t, fără să ne oprim asupra

motivelor teoretice care justifică funcţionalitatea lor.

Pasul 1. Calculăm valoarea 2ˆ

1

s

care se constituie în estimatorul dispersiei, sau

împrăştierii 2 pe care o înregistrează valorile variabilei aleatoare 1 :

2n

1i

2i

2ˆ

xnx

1MPEs

1

(4.7.)

Obţinem, pentru exemplul nostru: 349,1s2ˆ

1

. Trebuie să observaţi că (4.7.) este de fapt

(4.2.) ridicată la pătrat în ambii membri.

Pasul 2. Calculăm raportul

1ˆ

1

s

ˆ

.

Pentru exemplul nostru, obţinem: 84,91614,1

43,11

s

ˆ

1ˆ

1

Pasul 3. În funcţie de pragul de semnificaţie dorit, vom calcula 2

t din tabelul

Distribuţiei t cu 2n grade de libertate.

48

Să presupunem că dorim să fim siguri în proporţie 90% de faptul că ipoteza 0H este

adevărată. Asta îneamnă că 05,02

10,09,01 , de unde obţinem

86,1t2 pentru 8 grade de libertate.

Pasul 4. Regula de decizie. Vom folosi următoarea regulă:

Acceptăm 0H dacă 2

t

1ˆ

1

s

ˆ

2t

Respingem 0H dacă

1ˆ

1

s

ˆ

2t

În exemplul nostru se observă că este îndeplinită cea de-a doua relaţie, pentru că 9,84 > 1,86.

În consecinţă, respingem 0H şi acceptăm 1H care ne spune că 01 . Această concluzie o

considerăm adevărată la un prag de semnificaţie 10,0 .

În încheierea acestei secţiuni aş dori să mai trec în revistă încă o dată motivele pentru

care etapa de testare a semnificaţiei parametrilor este necesară. Modificările eşantionului şi a

dimensiunii acestuia ridică probleme, pentru că apar schimbări în valorile estimatorilor 0 şi

1 . Problemele se traduc astfel:

În ce condiţii putem generaliza estimările? Altfel spus, în ce condiţii putem realiza

inferenţa statistică?

Pe ce ne bazăm atunci când afirmăm că o estimare este cu adevărat semnificativă şi

nu este rezultatul întâmplării sau a unei conjuncturi particulare, legate de alegerea

unui anumit eşantion?

Între ce limite se poate modifica estimaţia fără să afectăm concluziile relativ la

semnificaţia ei?

Ce garanţii probabilistice avem cu privire la semnificaţia estimatorilor?

Dacă după parcurgerea acestei secţiuni aţi putut răspunde acestor întrebări, înseamnă

că aţi acumulat toate informaţiile necesare pentru această etapă în materie de testarea

semnificaţiei estimatorilor.

Exerciţii propuse

Exerciţiul 20. Se dau următoarele date, provenite din 5 observaţii:

49

Observaţia ix iy

1 3 25

2 4 26

3 6 22

4 2 32

5 10 15

a) Calculaţi SPR, SPT şi SPE.

b) Calculaţi MSR şi MSE.

c) Aplicaţi testul F pentru ipotezele:

0H : 01

1H : 01

la un prag de semnificaţie 05,0

d) Pentru rezolvarea acestei probleme aveţi nevoie de determinarea prealabilă a ecuaţiei

estimate a regresiei?

e) Ce semnificaţie consideraţi că are concluzia pe care aţi obţinut-o la punctul c)?

Exerciţiul 21. Pentru datele de la Exerciţiul 7, răspundeţi cerinţelor următoare:

a) Calculaţi SPR, SPT şi SPE.

b) Calculaţi MSR şi MSE.

c) La un prag de semnificaţie 05,0 , aplicaţi testul F pentru ipotezele:

0H : 01

1H : 01

d) Există vreo relaţie între variabilele x şi y din datele iniţiale? Justificaţi răspunsul.

e) La un prag de semnificaţie 05,0 , testaţi ipotezele:

0H : 5,21

1H : 5,21

Exerciţiul 22. Pentru datele de la Exerciţiul 8, răspundeţi cerinţelor următoare:

a) Calculaţi MSE, ca estimator al lui 2 .

b) Calculaţi 2ˆ

1

s

şi 1

ˆs

.

50

c) Utilizaţi Testul t pentru a stabili dacă între nivelul salariilor angajaţilor şi vechime

există o relaţie. Efectuaţi testarea, separat, pentru praguri de semnificaţie 1,0 ,

05,0 şi 025,0 .

d) La un prag de semnificaţie 05,0 , testaţi ipotezele:

0H : 1201

1H : 1201

e) La un prag de semnificaţie 1,0 şi apoi 05,0 , testaţi ipotezele:

0H : 5,4860

1H : 5,4860

Exerciţiul 23. Pentru datele din Exerciţiul 10, testaţi dacă între preţul de vânzare a unei

locuinţe şi suprafaţa acesteia există o relaţie. Utilizaţi atât Testul t cât şi Testul F, pentru

pragurile de semnificaţie 1,0 şi 05,0 .

Exerciţiul 24. Pentru datele din Exerciţiul 12, răspundeţi următoarelor cerinţe:

a) Utilizaţi Testul F la un prag de semnificaţie 1,0 şi apoi 05,0 pentru a stabili

dacă între preţul biletului şi numărul de pasageri există sau nu vreo relaţie.

b) Aceeaşi cerinţă, pentru aplicarea Testului t.

c) Comparaţi valorile lui

1ˆ

1

s

ˆ

şi

2t şi găsiţi, dacă există, o relaţie între ele.

d) Consideraţi că Testul F şi Testul t pot conduce la concluzii diferite?

Intrebări recapitulative

1. Care sunt avantajele şi dezavantajele utilizării eşantionului şi nu a întregii populaţii?

2. De ce utilizarea eşantionului nu oferă informaţii exacte despre comportamentul

întregii populaţii?

3. Câte valori ale lui 0 şi 1 putem obţine atunci când avem posibilitatea să selectăm

diferite eşantioane din pupulaţie?

4. De ce 0 şi 1 sunt considerate variabile aleatoare?

51

5. Ce înseamnă faptul că 0 şi 1 sunt estimatori nedeplasaţi, consistenţi şi de dispersie

minimă?

6. Care sunt cele două probleme care pot să apară atunci când dorim să ne bazăm pe

valori 0 şi 1 provenite din eşantioane?

7. Recapitulaţi paşii de lucru ai metodei de testare a faptului că 1 ia în realitate o

anumită valoare.

8. Recapitulaţi paşii de lucru pentru aplicarea Testului F şi a Testului t şi precizaţi

scopul în care sunt aplicate aceste metode.

9. Ce înseamnă prag de semnificaţie?

10. În ce situaţie vă este indiferent dacă aplicaţi Testul F sau Testul t?

Econometrie - suport de curs

Documents

Transcript of Econometrie - suport de curs