MODELUL REGRESIEI SIMPLE
n funcie de numrul de factori a cror variaie se consider n explicarea variaiei fenomenului efect, y, exist: - regresie simpl: cnd se consider variaia unui singur factor: y=f(x) i- regresie multipl: cnd se consider variaia mai multor variabile explicative: y=f(x1, x2, , xk).
Metoda regresiei analizeaz relaiile existente ntre variabila explicat i variabilele explicative, pe baza datelor observate pentru aceste variabile. Se poate stabili care din factori au o influen semnificativ, gradul lor de esenialitate i cunoscnd influena variabilelor factoriale asupra variaiei fenomenului explicat, se pot face previziuni ale valorilor variabilei y pentru anumite valori date ale variabilelor x.
Metoda celor mai mici ptrate - ipoteze
Metoda celor mai mici ptrate, atribuit matematicianului german Carl Friederich Gauss, este una din cele mai des utilizate metode de estimare a ecuaiilor de regresie a sondajelor statistice. Principiul acestei metode const n minimizarea sumei ptratelor abaterilor valorilor empirice fa de cele teoretic estimate, adic minimizarea sumeiptratelor reziduurilor. Aplicarea acestei metode se bazeaz pe urmtoarele ipoteze presupuse adevrate:
1. Modelul este liniar n xi (sau n oricare transformare a lui xi).2. Valorile lui xi sunt observate fr erori (xi este nealeator).3. Media (operatorul E) erorilor este zero: E(i / xi)=0Aceast ipotez spune de fapt c toi factorii neexplicitai de model, i dealtfel cuprini n i, nu afecteaz n mod sistematic valoarea medie a lui y, adic valorile lor pozitive se anuleaz cu cele negative astfel nct efectul lor mediu asupra lui y este zero.4. Homoscedasticitatea sau variaia (V dispersia, varian) egal a erorilor 2.
Variana erorilor pentru fiecare xi (variana condiionat a lui i) este un numr pozitiv constant i egal cu 2 sau altfel spus, populaiile lui y, corespunztoare valorilor xi, au aceeai varian. Situaia opus se numete heteroscedasticitate i se poate nota: , i unde variana nu mai este constant, i=1,n.
5. Nu exist corelaia (covariana) erorilor. pentru oricare i j.
Pentru anumite valori date xi, abaterile oricror dou valori y de la valoarea lor medie nu prezint nici o tendin.
6. Erorile sunt independente de variabila explicativ. Nu exist corelaie ntre erori i valorile x.
pentru c din ipoteza 3.
Modelul de regresie este corect specificat. O investigaie econometric ncepe prin specificarea modelului econometric. Problemele sunt: ce variabile ar trebui incluse n model, care este forma funcional a modelului (este liniar n parametri, n variabile sau ambele?)
Proprietile estimatorilor metodei celor mai mici ptrate Estimatorii metodei celor mai mici ptrate au urmtoarele proprieti:
liniari, adic o funcie liniar a unei variabile aleatoare, cum ar fi variabila y n modelul de regresie;
nedeplasai, media estimatorului din toate eantioanele posibile, de volum n sau valoarea ateptat a estimatorului este egal cu valoarea adevrat a parametrului, ;
eficieni, adic are variana minim.
Teorema lui Gauss-Markov se enun astfel:Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor mai mici ptrate, din clasa estimatorilor liniari nedeplasai, au varian minim; se poate spune c sunt BLUE (Best Linear Unbiased Estimators).
Liniaritatea liniaritatea n variabile - cu un neles natural nseamn c media condiional (n sensul de valoarea medie ateptat - n econometrie, apare termenul de speran matematic) a variabilei y este o funcie liniar a lui xi. Operatorul de speran matematic se noteaz cu litera E. Dreapta de regresie a populaiei reprezint tendina medie i se scrie: E(y/xi)=a0 + a1xi.
liniaritatea n parametrii este cnd distribuia condiional a variabilei y, E(y/xi) este o funcie liniar a parametrilor, adic toi sunt la puterea 1, in timp ce variabilele x pot sau nu s fie liniare.
Termenul de regresie liniar nsemn ntotdeauna, liniaritatea n parametrii necunoscui; indiferent dac exist liniaritate n variabilele explicative.
Astfel, exemple de modele liniare sunt: E(y/xi)=a0 + a1xi, liniar n parametrii i n variabile i E(y/xi)=a0 + a1xi2, liniar n parametrii i neliniar n variabile.
Un model neliniar n parametrii este: .Pentru regresia liniar este relevant termenul de liniaritate n parametrii.
Liniaritatea estimatorului
unde
Estimatorul este o funcie liniar a variabilei y, valorile ki servind ca ponderi ale valorilor centrate fa de medie ale variabilei y.
Proprietile ponderilor ki sunt:a) valorile ki sunt nealeatoare, pentru c se presupune c i valorile xi sunt nealeatoare;b) ; este evident, la numrtor .
c) ; (1)
d) .
Aceste proprieti se pot verifica pe baza definiiei lui ki:
b)
c)
d)
d)
Se nlocuiete valoarea yi cu funcia de regresie a populaiei, n definiia combinaiei liniare a estimatorului , i innd seama de proprietile ponderilor ki, rezult:
Liniaritatea estimatorului
(2)
Pentru c o proprietate a valorilor ki este c sunt valori nealeatoare, rezult c pot fi considerate constante i trecnd la medie, E, relaia obinut anterior, devine: , pentru c din ipoteze .Astfel s-a demonstrat ca estimatorul este un estimator nedeplasat pentru a1. La fel se poate demonstra i pentru .
Liniaritatea estimatorului
Folosind relaia (2) i ipoteza se obine:
Aplicnd operatorul medie se poate demonstra ca i este un estimator nedeplasat pentru .
Liniaritatea estimatorului
Proprietile ponderilor wi sunt:
1.
2.
3.
Dispersia reziduurilor
Precizia estimatorilor modelului de regresie liniar simpl se msoar prin erorile lor standard. Aceste erori se obin prin extragerea rdcinii ptrate din dispersiile estimatorilor.Formulele varianelor estimatorilor se obin n funcie de estimatorul varianei (dispersiei) reziduurilor sau simplu, . Estimatorul dispersiei reziduurilor se obine prin raportarea sumei ptratelor reziduurilor la numrul gradelor de libertate n-2:
Varianele estimatorilor
Precizia i erorile standard ale estimatorilorAbaterile estimatorilor sunt:
Dependena estimatorilor se msoar prin covariana lor:
Estimatori liniari nedeplasai cu
Se definete un alt estimator liniar i nedeplasat pentru parametrul , fiind tot o medie ponderat cu alte ponderi vi, nu n mod intenionat egale cu ponderile ki:
Pentru ca s fie un estimator nedeplasat, trebuie s fie ndeplinit condiiile: i .
Estimatori liniari nedeplasai i eficieni
pentru c .
este constant este minim cnd .
n caz contrar i estimatorul nu va mai fi de varian minim. Dac exist un estimator de varian minim acela este cel al metodei celor mai mici ptrate. n mod similar se poate arta i pentru c este estimatorul de varian minim pentru parametrul .
distribuia lui distribuia lui distribuia lui i
Tabela de regresie simpl
cuprinde n sumarul su, SUMMARY OUTPUT, trei pri: Regression Statistics, tabelul ANOVA i informaiile despre estimatorii coeficienilor modelului liniar.
Regression Statistics conine informaii cu caracter general despre variabilele implicate n analiza de regresie: coeficientul de corelaie multipl Multiple R, care la regresia simpl este coeficientul de corelaie liniar simpl, r; coeficientul de determinaie R2, numit R Square arat validitatea modelului.Adjusted R Square care este R2 ajustat cu un anumit numr de grade de libertate; Standard Error este eroarea medie standard a valorilor teoretice ale lui y i se calculeaz ca o abatere medie ptratic a valorilor empirice fa de cele teoretice:
Observations reprezint n este numrul de observri ale variabilei dependente, care este egal cu numrul de valori ale variabilei (variabilelor) independente xi.
Coeficientul de determinaie.
R2 arat n ce msur modelul ales explic variaia lui Y, altfel spus, este o msur a validitii modelului. 0 < R2 < 1, cu ct este mai apropiat de 1 cu att modelul este mai bun.
Raportul de corelaieRaportul de corelaie are semnul coeficientului de regresie b, i are aceeai semnificaie ca i coeficientul de corelaie, r.
Coeficientul de corelaie -1 < r < 1
r =
n
i
n
i
i
i
n
i
n
i
i
i
n
i
n
i
n
i
i
i
i
i
xy
y
y
n
x
x
n
y
x
y
x
n
r
1
2
1
2
1
2
1
2
1
1
1
Tabelul de analiz a varianei pentru regresia simpl
Testul Fisher este un test de verificare a semnificaiei globale a regresiei, n cazul regresiei multiple. n cazul regresiei simple, aceast semnificaie se reduce la semnificaia influenei variabilei x asupra variaiei caracteristicii variabilei y.
Dac , se respinge ipoteza de egalitate a varianelor (H0 ipoteza nul), variabila x fiind semnificativ pentru variaia variabilei y. n caz contrar se accept aceast ipotez de egalitate a varianelor.
Sursa variaieiSuma ptratelorGradelibertatePtrate mediireziduuri
x
Totaln-2
1
n-1SSR/(n-2)
SSE/1
Informaiile despre estimatorii coeficienilor modeluluin coloana Coefficients - valorile estimate ale coeficienilor modelului liniar , i=1,k, Intercept - estimatorul termenului constant, 0, care poate fi zero dac s-a optat pentru Constant is Zero i estimatorii coeficienilor variabilelor explicative: 1, ..., n la X Variable 1, X Variable 2, ... n ordinea declarrii variabilelor explicative;Standard Error, abaterile standard ale estimatorilor; arat cu ct variaz n medie, n plus sau n minus valorile estimate ale coeficienilor fa de parametrii pe care i estimeaz valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaiei acestuia fa de 0;P-value, corespunztoare pragului de semnificaie , ncepnd de la care valoarea estimatorului este semnificativ diferit de zero,limitele intervalului de ncredere ale estimatorilor: inferioar Lower 95% i superioar Upper 95%, cu o probabilitate de 95%, implicit, iar la cerere se pot solicita i alte valori ale probabilitii: 99%, 90%, etc.
Funcii de regresie a populaiei i a eantioanelor Funcia de regresie a populaiei Funcia de regresie a eantioanelor
yi yi i ei E(y/x) E(y/xi)
Consecine ale ipotezelor: construirea testelor
teste de verificare a semnificaiei estimatorului varianei erorilor i intervalul de ncredere al estimatorului varianei erorilor, ca fiind consecine ale ipotezei de normalitate a erorilor;teste de verificare a semnificaiei estimatorilor i ai parametrilor i din ecuaia de regresie a populaiei, precum i intervalul lor de ncredere, estimat cu o anumit probabilitate;testul Fisher de verificare a semnificaiei globale a regresiei.
Testul de semnificaie al estimatorului Estimatorul varianei erorilor , notat este: .
Ipoteza de normalitate a erorilor implic: urmeaz o lege cu n-2 grade de libertate.
i urmeaz o lege normal centrat redus N(0,1).
urmeaz o lege cu n-2 grade de libertate.
Rezult c: i urmeaz o lege Student cu n-2 grd. lib.
Testul de semnificaie al estimatorilor i intervalele de ncredere ale acestora apar ca fiind consecine ale ipotezei de normalitate a erorilor.
Teoria testelor statistice: raia Studentipoteza nulH0: ipoteza alternativ H1: Dac se respinge ipoteza nul H0, la un prag fixat, atunci estimatorul este considerat ca fiind semnificativ diferit de 0. Pragul de semnificaie cel mai des utilizat este =0.05, adic un risc de a respinge H0, n mod nentemeiat, de 5%.raie Student
Intervalul de ncredere al estimatorilor H0 cu probabilitatea P=1-H1H1/2/2I
Intervalul de ncredere al parametrului este:
Intervalul de ncredere al previziunii cu modelul regresiei simple
Se calculeaz variana erorii de previziune care permite determinarea unui interval de ncredere pentru previziune.
Previziuni cu modelul regresiei simple
Abaterea medie ptratic a erorii de previziune este:
Rezult intervalul de ncredere IC al variabilei y la n+1:
Top Related