S.S Eco.com_final

23
Universitatea Titu Maiorescu Facultatea de StiinteEconomice Regresia Lineară Simplă Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predicţii. Deşi nu se gasesc relaţii perfecte în lumea reală, prin intermediul regresiei se pot face predicţii ale unei variabile, în funcţie de valoarea altora. În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si lineare (relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul norului de puncte). Regresia se leaga foarte mult de conceptul de corelatie. Analiza corelaţiei este o tehnică statistică care măsoară şi descrie gradul de asociere dintre două variabile. Teoria ne spune că o asociere puternica între doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Corelaţia poate fi studiată cu ajutorul mai multor măsurători, în funcţie de tipul variabilelor, mai precis dacă acestea sunt calitative, sau numerice discrete, ori cantitative. Spre exemplu, valorile maxime pe care coeficientul de corelaţie Pearson le poate lua variază între - 1

description

Regresia lineara folosind Excel

Transcript of S.S Eco.com_final

Regresia linear: aplicaii cu MS Excel

Universitatea Titu Maiorescu Facultatea de StiinteEconomice

Regresia Linear Simpl

Unul din principalele capitole ale statisticii are n vedere posibilitatea de a face predicii. Dei nu se gasesc relaii perfecte n lumea real, prin intermediul regresiei se pot face predicii ale unei variabile, n funcie de valoarea altora. n continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si lineare (relatia dintre cele doua variabile poate fi descrisa printr-o dreapta n cadrul norului de puncte).Regresia se leaga foarte mult de conceptul de corelatie. Analiza corelaiei este o tehnic statistic care msoar i descrie gradul de asociere dintre dou variabile. Teoria ne spune c o asociere puternica ntre doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia.Corelaia poate fi studiat cu ajutorul mai multor msurtori, n funcie de tipul variabilelor, mai precis dac acestea sunt calitative, sau numerice discrete, ori cantitative. Spre exemplu, valorile maxime pe care coeficientul de corelaie Pearson le poate lua variaz ntre -1 i 1. O corelaie ridicat, apropiat de +1 sau 1, crete ansele unei estimri ct mai precise a unui model de regresie.n explicitarea unui model de regresie, studiul corelaiei ne ajut s identificm mai nti existena relaiei dintre variabile, pentru ca apoi s studiem i cauzalitatea, adic influena unei sau unor variabile asupra alteia.Procesul de regresie presupune doi principali pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii n predictie.Forma general i arhicunoscut prin care se exprima o ecuatie de regresie linear simpl este:

(1)unde: este rezultatul estimat al variabilei explicate;

este interceptul (locul pe ordonata unde dreapta de regresie se intersecteaza cu OY, valoarea lui )

este panta dreptei de regresie (ne arata cu ct se modifica atunci cnd X creste sau scade cu o unitate; X este variabila explicativ (cunoscuta).Existena unei legturi funcionale de form linear dintre Y i X se bazeaz pe supoziia existenei unei variabile reziduale u care nglobeaz toate celelalte variabile care nu au putut fi observate ntr-o relaie de forma:

(2)

Trebuie observat c, n relaia de mai sus, variabila estimat a fost nlocuit cu variabila observat , deoarece n (1) valorile variabilei estimate sunt chiar pe linia de regresie, fr s fie afectate de valorile reziduale u.Daca alti factori din u sunt mentinuti ficsi, astfel incat modificarile u sunt zero (u=0), atunci intr-un model linear x are un efect constant asupra y:

Atunci, este estimaia parametrului de principal interes in economia aplicat. Estimaia a termenului constant este rareori de interes pentru analiza.Exista mai multe posibilitati echivalente de calculare a lor, pe baza metodei celor mai mici ptrate (CMMP). Una dintre ele este redat n continuare.Daca se cunoate valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea standard ale celor doua variabile, putem aplica urmatoarele formule:

(3)i

(4)unde: r este valoarea coeficientului de corelatie dintre X si Y; sy este abaterea standard a variabilei Y; sx este abaterea standard a variabilei X; este valoarea medie a variabilei Y; este valoarea medie a variabilei X.Pentru a stabili linia de regresie se apeleaz la proprietile matematice ale unei drepte, deoarece orice dreapt poate fi determinat prin urmtoarea ecuaia (1)Panta de regresie ia o valoare pozitiv, dac exist o corelaie pozitiv ntre x i y i o valoare negativ, dac exist o corelaie negativ ntre cele dou variabile.

Regresia Linear MultiplForma general a modelului liniar multiplu este dat prin relaia:

(5)unde: Y - variabila dependent; X1, X2,,Xi,,Xp - variabile independente (predictori); u - variabil reziduu de modelare (variabila aleatoare); i - parametrii modelului de regresie k - numrul de parametri din model, k=p+1. 0 valoarea medie a variabilei dependente Y, n condiiile n care influena variabilelor independente ar fi nul; Cei k parametri ai modelului liniar multiplu au urmtoarea semnificaie:

reprezint variaia absolut a variabilei dependente la o variaie absolut cu o unitate a variabilei independente Xi, n condiiile n care influena celorlalte variabile independente este meninut constant. Arat influena parial a fiecrei variabile independente asupra variabilei dependente. Regresia multipla este mult mai potrivita pentru analiza cauzala conform principiului ceteris paribus, adic n condiiile n care toi ceilali factori sunt considerai constani. Motivul este dat de faptul c putem explicita controlul pentru ceilalti factori care afecteaza variabila dependent y.O etap important n evaluarea calitii modelului de regresie o reprezint testarea parametrilor modelului multiplu liniar, care const n trei pai:1. Formularea ipotezelor:

2. Alegerea pragului de semnificaie De regul, se asum un risc = 0,05.3. Alegerea statisticii test:t =

4. Valoarea teoretic a statisticii testPentru pragul de semnificaie ales i v=n-k grade de libertate, se citete valoarea teoretic din tabela Student: t/2;n-k 5. Valoarea calculat a statisticii test

La nivelul eantionului se determin valoarea calculat a testului: 6. Regula de decizie

Dac se respinge H0 Dac | se accept H0, pentru risc asumat de 5%n Excel, decizia se ia pe baza semnificaiei testului (Sig.):- dac , se respinge H0 -dac , se accept H0, pentru un nivel de ncredere de 95%.7. Compararea celor dou valori ale statisticii test i luarea deciziei8. Interpretarea rezultatului testrii Studiu de cazEXCEL 2010: regresie multipl Aceast fi de ajutor ianuarie 2009 ofer informaii cu privire la: regresie multipl folosind Analiza datelor Add-in. Interpretarea statistica de regresie. Interpretarea tabelul ANOVA (de multe ori acest lucru este omis). Interpretarea tabelului coeficienilor de regresie. Intervale de ncredere pentru parametrii de panta. Testarea pentru semnificaia statistic a coeficienilor Ipoteza de testare pe un parametru de pant. Testarea semnificaiei globale a regresorilor. Prezicerea y a unor valori date ale regresorilor. Limitri Excel. Exist ceva n plus de stiut dincolo de regresie cu o variabil explicativ. Regresie multipl folosind analiza DATELOR Add-In Acest lucru necesit analiza datelor Add-in: vezi Excel 2010: Accesul i activarea analizei datelor Add-in

Apoi vom crea o nou variabil n celulele C2: C6, mrimea radacinei patrate ca un regresor. Apoi n celula C1 dam titlul dimensiune patrata HH. (Se pare c datele HH SIZE au un coeficient de exact 0,0; cubul este utilizat). Celulele de calcul tabelar A1: C6 ar trebui s arate:

Avem regresie cu o interceptare i de regresori HH SIZE i cuburi HH SIZE Modelul de regresie a populaiei este: y = 1 + 2 x2 +3 x3 + u Se presupune c eroarea u este independent cu variaie continu - vezi LIMITAREA EXCEL n partea de jos. Ne dorim sa estimam linia de regresie: y = b1 + b2 x2 + b3 x3Facem acest lucru folosind analiza de date Add-in i cea de regresie.

Singura schimbare pe o variabil de regresie este acea de a include mai mult de o coloan n Banda de intrare X.

Reinei, totui, c regresorii trebuie s fie n coloane nvecinate (aici coloanele B i C). Dac nu este cazul ca n datele originale, apoi coloanele trebuie s fie copiate pentru a obine regresorii din coloanele adiacente.Apasand OK obtinem:

Ieirea (a rezultatelor)de regresie are trei componente: tabel de statistici de regresie tabelul ANOVA tabelul Coeficienilor de regresie. TABELUL DE INTERPRETARE STATISTICA A REGRESIEI Aceasta este urmtoarea ieire. De cel mai mare interes este etalonul R.Explicatie

Multiple R0.895828R = radacina patrata a lui R2

R Square0.802508R2

Adjusted R Square0.605016R2 ajustat , este folosit daca exista mai mult de o variabila x

Standard Error0.444401Aceasta este o estimare exemplu a deviatiei standard a erorii u

Observations5Numarul de observatii folosite in regresie (n)

Cele de mai sus ofer valorile generale: R2 = 0.8025 Corelaia ntre y i y- este 0.8958 (atunci cnd ridicata la ptrat d 0.8025). R2 corectat = R2 - (1-R2) * (k-1) / (n-k) = 0.8025 la 0.1975 * 2/2 = 0.6050. Eroarea standard de aici se refer la deviaia standard estimat a termenului de eroare u. Aceasta este denumita uneori eroarea standard a regresiei. Acesta este egal cu radical din (SSE / (n-k)). Acesta nu trebuie s fie confundat cu eroarea standard a lui y n sine (de la statistici descriptive), sau cu erori standard de coeficienii de regresie de mai jos. R2 = 0.8025 nseamn c 80,25% din variaia yi in jurul ybar(mediu) (media acestuia), se explic prin regresorii x2i i x3i. INTERPRETAREA TABELULUI ANOVA Un tabel ANOVA este dat. Acest lucru este adesea omis.Tabelul ANOVA ( analiza varianei ) mpartesuma ptratelor ntre componentele sale .Sume totale de ptrate= Restant ( sau eroare ) suma de patrate + Regresie( sau explicate) suma de ptrate .Astfel, i ( yi - ybar )2 = i ( yi yhati )2 + i ( yhati - ybar )2unde yhati este valoarea yi prezisa de regresie i ybar este eantionul mediu de y .De exemplu :R2 = 1 restant SS / Total SS ( formul general pentru R2 )= 1 - 0.3950 / 1.6050 ( de la datele din tabelul ANOVA )= 0.8025 ( care este egal cu R2 ce apare n tabelul de Statistic de regresie ).Coloana denumit F dtestul F general al H0 : 2 = 0 i 3 = 0 versus Ha : cel puin unul dintre 2 i 3 nu este egal cu zero.Ca rezerva : Excel calculeaza F ca :F = [ regresie SS / ( k - 1 ) ] / [ restant SS / ( n-k ) ] = [ 1.6050 / 2 ] / [ 0.39498 / 2 ] = 4.0635.Coloana denumit semnificaie F are ca valoarea asociat P.Deoarece 0.1975 > 0,05 , nu respingem H0 la nivel de semnificatie 0.05 .Not : Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este numrul de regresori inclusiv segmentul hte.Aici FINV (4.0635,2,2) = 0,1975 .INTERPRETAREA TABELULUI COEFICIENILOR DE REGRESIEIeirea de regresie de cel mai mare interes este urmtorul tabel de coeficieni i de ieirea asociata : j denota coeficientul populaiei a regresorului jth (segment , HH SIZE i CUBED HH SIZE ) .Apoi Coloana " Coeficient " ofer cel putin ptrate estimate ale j. Coloana " eroare Standard" ofer erorile standard ( e.g deviaia standard estimat ) de cel puin ptratele estimate ale bj de j. Coloana " t Stat " d calculat statistica t pentru H0 : j = 0 mpotriva Ha : j 0 .Aceasta este coeficientul mprit de eroarea standard . Acesta este comparat cu t; ( n-k ) grade de libertate n care aici n = 5 i k = 3 . Coloana " valoarea P " d valoarea p pentru testul H0 : j = 0 mpotriva Ha : j 0 ..Aceasta echivaleaz cu Pr { | t | > t -Stat } unde t este o variabila t - distribuita aleator cu grade de libertate n-k i t -Stat este valoarea statistica calculat t ce apare n coloana precedent .Reinei c aceast valoare p este pentru un test cu dou fee. Pentru un test unilateral mparte aceast valoare p la 2 ( verificarea semnului de t -Stat ) . Coloane de valori " Inferior 95 % " i " Superior de 95 % " definesc un interval de ncredere de 95 % pentru j .Un simplu rezumat afiat mai sus este faptul c linia este reprezentata astfel:y = 0.8966 + 0.3365 * x + 0,0021 * zIntervalele de ncredere pentru coeficienii SLOPE 95% interval de ncredere pentru coeficientul de pant 2 este ieirea Excel (-1.4823, 2.1552). Excel calculeaz aceasta ca b2 t_.025 (3) SE (b2) = 0.33647 TINV (0,05, 2) 0.42270 = 0.33647 4.303 0.42270 = 0.33647 1.8189 = (-1.4823, 2.1552). Alte intervale de ncredere pot fi obinute. De exemplu, pentru a gsi intervale de ncredere de 99%: n caseta de dialog de regresie (n analiza datelor Add-in), bifai caseta nivel de ncredere i setai nivelul de 99%.

TESTUL DE IPOTEZA ZERO A COEFICIENTUL DE PANTA (" TEST de semnificaie statistic ")Coeficientul HH SIZE a estimat eroare standard de 0.4227, statistica t de 0.7960 i valoarea p de 0.5095 .Prin urmare, este nesemnificativ statistic la nivelul de semnificaie = .05 ca p > 0,05 .Coeficientul CUBED HH SIZE a estimat eroare standard de 0.0131 , statistica t de 0.1594 i valoarea p de 0.8880 .Prin urmare, este nesemnificativ statistic la nivelul de semnificaie = .05 ca p > 0,05 .Exist 5 observaii i 3 regresori (segmentul i x ), deci vom folosi t ( 5-3 ) = t ( 2 ) .De exemplu , pentru HH SIZE p == TDIST ( 0.796,2,2 ) = 0.5095 .

TESTUL DE IPOTEZA PE UN PARAMENTRU DE REGRESIEAici vom testa daca HH SIZE are coefficient 2 = 1,0 .Exemplu : H0 : 2 = 1.0 mpotriva Ha : 2 1.0 la nivel de semnificaie = .05 .Apoit = ( b2 - valoarea H0 a 2 ) / ( eroare standard de b2 )= ( 0.33647-1.0 ) / 0.42270= -1.569 .Utiliznd abordarea valoarii p valoarea p = TDIST ( 1.569 , 2 , 2 ) = 0,257 . [ n = 5 i k = 3 , astfel n - k = 2 ] . A nu se respinge ipoteza nul la nivel de 0.05 , deoarece valoarea p este > 0,05 .Utiliznd abordarea de valoare critic Am calculat t = -1.569 Valoarea critic este t_.025 ( 2 ) = TINV ( 0.05,2 ) = 4.303 . [ n = 5 i k = 3 , astfel n - k = 2 ] . Deci, a nu se respinge ipoteza nul la nivel de 0.05 de la t = | -1.569 | < 4.303 .

TEST GENERAL AL DE SEMNIFICATIE A PARAMETRILOR DE REGRESIEAm testat H0 : 2 = 0 i 2 = 0 versus Ha : cel puin unul dintre 2 i 2 nu este egal cu zero.Din tabelul ANOVA statistica de test F este 4.0635 cu valorea p de 0.1975.Deoarece valoarea - p nu este mai mic de 0,05 nu respingem ipoteza nul c parametrii de regresie sunt zero la nivel de semnificaie 0,05 .Concluzia este c parametrii sunt mpreun statistic nesemnificativi la nivel de semnificaie 0,05 .Not : Semnificaia F n general = FINV ( F , K - 1 , n-k ), unde k este numrul de regresori inclusiv segmentul hte .Aici FINV (4.0635,2,2) = 0,1975 .VALOAREA PREZISA A LUI Y SI REGRESORII DATILuai n considerare cazul n care x = 4 , n cazul n care puterea a treia HH SIZE = x ^ 3 = 4 ^ 3 = 64.yhat = b1 + b2 x2 + b3 X3= 0.88966 + 0.3365 4 + 0,0021 64 = 2.37006LIMITARI EXCELExcel limiteaz numrul de regresori ( numai pn la 16 regresori ? ? ) .Excel cere ca toate variabilele regresor sa fie n coloane adiacente .Trebuie sa mutati coloane pentru a asigura acest lucru .De exemplu, dac regresorii sunt n coloanele B i D trebuie s copiai cel puin una din coloanele B i D , astfel nct acestea sa fie adiacente una fata de celelalte.Erorile standard Excel, statisticile t i valorile p se bazeaz pe presupunerea c eroarea este independenta cu variaie continu ( homoskedastic ) .Excel nu furnizeaz alternative , cum ar asheteroskedastic - robust sau autocorelaie robust, erori standard i statistici t i valori p.Este nevoie de mai multe software-uri de specializate , cum ar fi STATA , EVIEWS , SAS , LIMDEP , PC - TSP , ... .

Bibliografie:1. Linest Function - http://office.microsoft.com/en-001/excel-help/linest-function-HP010342653.aspx2. Essential of Statistics, David Brink, Ventus Publishing ApS, 2010 (bookboon.com)

18