Regresiona i Korelaciona Analiza

download Regresiona i Korelaciona Analiza

of 21

Transcript of Regresiona i Korelaciona Analiza

Modelizacija veza izmeu dvije ili vie varijabli Model - pojednostavljena slika realnosti Model slui da se na adekvatan nain kvantificiraju sloeni ekonomski fenomeni i relacije izmeu njih Pretpostavke koje moraju biti zadovoljene kako bismo mogli modelizirati vezu izmeu varijabli: Modeliziranje moemo vriti ukoliko postoji zavisnost izmeu varijabli Funkcionalna versus stohastika meuzavisnost Mogu se modelizirati jedino kvantitativne varijable, jer je u tom sluaju mogue kompletirati oblak (dijagram) rasipanja, raunati mjere centralne tendencije i disperzije Regresioni model - model koji kvantificira oblik meuzavisnosti izmeu dvije ili vie varijabli

Etape konstrukcije regresionog modela (modela meuzavisnosti dvije varijable)1. Determinisati nezavisnu i zavisnu varijablu 2. Grafiki predstaviti na dijagramu rasipanja podatke o analiziranim varijablama da bi se potvrdila ili odbacila pretpostavka o zavisnosti izmeu dvije statistike varijable 3. Na osnovu dijagrama procijeniti oblik veze izmeu posmatranih varijabli Postoje razliiti oblici veza kao npr. linearna, krivolinijska, eksponencijalna itd 4. Konstruisati ili ocijeniti primjenom odgovarajuih metoda odabrani regresioni model 5. Izraunati rezidualna (neobjanjena) odstupanja ocijenjenih od posmatranih podataka i analizirati ih 6. Procijeniti kvalitet ocijenjenog regresionog modela Smjer veze izmeu dvije varijable 7. Pozitivan ili direktan porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable. Vrijeme koje student provede uei i ocjena na ispitu Vrijeme provedeno u gledanju TV-a i strah od kriminala 8. Negativan ili indirektan porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable Brzina i vrijeme potrebno da se stigne do zadanog odredita Cijena i koliina Dijagram (oblak) rasipanja Slui za vizuelnu identifikaciju da li izmeu dvije varijable postoji meuzavisnost, pri emu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja) Pokazuje koliko jedna varijabla utie na drugu Daje odgovor na sljedea pitanja: Da li postoji veza izmeu varijabli X i Y? Kog smjera je veza izmeu varijabli X i Y? Da li je ta veza pravolinijska (linearna) ili nije? Da li postoje outlieri? Dijagram rasipanja - Da li postoji veza izmeu varijabli X i Y?

Veza postojiy y y

a y

x y

b

x y

c

x

d

x

e

x

f

x

Veza ne postoji

Dijagram rasipanja - Smjer veze izmeu varijabli X i Y

Dijagram rasipanja Linearna versus nelinearna veza?

Pitanje

Rjeenje Prvi korak je da identificiramo zavisnu i nezavisnu varijablu: Nezavisna varijabla je broj dana pohaanja nastave Zavisna varijabla je ocjena Potom kreiramo dijagram rasipanja da sagledamo vezu izmeu posmatranih varijabli. Rjeenje, cont.

Dijagram rasipanja1,1 1 0,9 0,8 a 0,7 n e j 0,6 0,5 c 0,4 o 0,3 0,2 0,1 0 0 10 20 30 dani pohaanja nastave 40

Rjeenje, cont. Na bazi dijagrama rasipanja zakljuujemo sljedee: Postoji meuzavisnost Smjer veze je direktan (vie dana pohaanja nastave via ocjena) Veza se moe ocijenti linearnim regresionim modelom

Kovarijansa

Tumaenje kovarijanse Kovarijansa je pozitivna ako oblak rasipanja ima generalno rastuu tendenciju. Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna. Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuu tendenciju. Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna. Kovarijansa je jednaka ili priblino jednaka nuli ako oblak rasipanja nije ni rastui ni opadajui ili ukoliko je pola opadajui, a pola rastui. Ako nema ni rastue ni opadajue generalne tendencije, kovarijansa je jednaka nuli.

Pitanje U jednom regionu pratili smo varijable broj industrijskih postrojenja i broj oboljelih od astme po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza izmeu ove dvije varijable je: a) multipla b) direktna c) indirektna d) jaka

Zbir i razlika statistikih varijabli Varijansu zbira i razlike statistikih varijabli moemo analizirati koristei kovarijansu i izraziti ih na sljedei nain: Var(X +Y)=VarX + Var Y + 2 Cov(X,Y) Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)

Meutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom sluaju varijansu za zbir i razliku statistikih varijabli moemo izraziti sljedeim relacijama: Var(X+Y)=VarX + Var Y

Var(X-Y)=VarX + Var Y

Regresioni model Kvantificira ili matematski formalizira vezu izmeu zavisne i niza nezavisnih varijabli oblik veze Opti oblik regresionog modela glasi:

gdje je:

Yi = f ( X 1i , X 2i,.., X ji ,.., X ki ) + ei Yi - zavisna promjenljiva, Xj - nezavisne promjenljive i ei - sluajno odstupanje.

Prezentirani model naziva se model viestruke ili multiple regresije ili viedimenzionalni regresioni model.

Model jednostavne regresije Za odreivanje analitikog odnosa izmeu dvije varijable. Sadri zavisnu i jednu nezavisnu promjenljivu Opti oblik modela jednostavne regresije glasi:

Model jednostavne linearne regresije Za odreivanje parametrara za konstrukciju modela linearne meuzavisnosti izmeu dvije varijable. Jednostavni ili prosti model sadri zavisnu i jednu nezavisnu promjenljivu Opti oblik modela jednostavne linearne regresije glasi:

Yi = f ( X i ) + ei

yi = a + b xi + ei , i = 1,2,...,n.gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.

Model jednostavne linearne regresije, cont. Razloimo model jednostavne linerne regresije na funkcionalni i stohastiki dio:

yi =

( a + b xi ) yi -funkcionalni dio modela

+

eistohastiki dio modela

Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom Stohastiki dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu ukljueni u regresioni model

Model jednostavne linearne regresije, cont. Rezidualno odstupanje ili stohastiki dio regresionog modela moemo izraziti kao:

yi = yi +ei ei = yi yi ei = yi ( a + b xi )

yi

y e i= ( y i - y i )

y i = a + b xi

yi

xi

x

Metod najmanjih kvadrata

Metod najmanjih kvadrata jednostavna linearna regresija

Tumaenje parametara jednostavnog linearnog regresionog modela Parametar a je matematski presjek sa x osom, to jeste ukazuje na oekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:

xi == a 0 yi Parametar b je matematski nagib prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko e se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla povea za jednu svoju jedinicu:

x = 1 y = b

Primjer 1, cont. Vezu izmeu analiziranih varijabli ocijeniti odgovarajuim regresionim modelom.1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 25 30 35 40

a n e j c o

dani pohaanja nastave

Na osnovu dijagrama rasipanja za ovaj primjer zakljuili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije.

Rjeenje

Rjeenje, cont.

b=

n x y x y n x 2 ( x )2

=

14 226,88 280 10,39 = 0, 0166 14 6748 280 2

Ocjena e porasti za 0,0166 ako se broj dana pohaanja nastave povea za 1. (direktna veza)

a = y bx =

10,39 280 0, 0166 = 0, 4097 14 14

Student koji ima 0 skor za pohaanje nastave e prema modelu imati ocjenu 0,4097. Regresioni model glasi:

yi = 0, 4097 + 0, 0166 xi

Pitanje 1. Izmeu koliine proizvodnje kao nezavisne varijable i trokova proizvodnje kao zavisne varijable utvrena je regresiona veza oblika:

y i = 1,3 x i + 10Vrijednost 10 u ovoj funkcionalnoj vezi predstavlja: a) trokove po jedinici proizvoda b) ukupne trokove c) dobit po jedinici proizvoda d) fiksne trokove Pitanje 2.

Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza Ukoliko se broj agenata povea za 1, broj prodanih polica e se: a) poveati za 1 b) smanjiti za 2 c) poveati za 2 d) poveati za 8

yi = 2 xi + 8

Prim 2 jerIstraivanje da li postoji veza izmeu godina starosti polovnog automobila tipa C i njegove tekue prodajne cijene za 8 polovnih automobila dalo je sljedee rezultate:Starost auta u godinama Cijena u $000 1 2 3 4 5 6 7 8 15 13 12 10 9 7 6 4

Primjer 2, cont. Konstruisati oblak rasipanja. Komentar. Konstruisati odgovarajui regresioni model. Objasniti parametre.

RjeenjeU Excelu biramo opciju Chart Wizard i u okviru nje Scatterplot:

Rjeenje, cont.

16 14 12 cijena 10 8 6 4 2 0 0 2 4 starost auta 6 8 10

Ovakav oblak rasipanja ukazuje na postojanje indirektne veze izmeu analiziranih varijabli.

R n , c t. je e je on Kod odreivanja param etara a i b koristiem Excelove o statistike funkcije:

Regresioni model glasi:

yi = 16375,14 1523,81 xi to znai da: Ako kupujemo novo auto analiziranog tipa C njegova oekivana cijena je $16 375,14 Ako starost auta poraste za jednu godinu oekujemo da e cijena tog auta da se smanji za $1 523,81 (indirektna veza)

Mjere reprezentativnosti regresionog modela

Pokazatelji reprezentativnosti ili kvaliteta regresionog modela kvantificiraju stepen meuzavisnosti i izraavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable. Pokazatelji reprezentativnosti regresionog modela su: 1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greka i 4. koeficijent varijacije regresionog modela.

Dekompozicija varijanse

Dekompozicija varijanse, cont. Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se moe matematski izraziti kao:

yi = y + ( yi y ) +( yi yi )gdje: je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraivanjem je procjenjena ili predviena vrijednost zavisne varijable na bazi regresionog modela

yi yi

y=y

je prosjena vrijednost zavisne varijable

D k moi i v rja s ,c n. e o p zcja ai ne o tP s a jm u u a v rija ilite z v n v rija leu o mtra o k p n a b t a is e a b k n k tun g v d ad lak jas oid n ira o te s je o a v ije o m e tific li d k m o ic m a n e e o p z ijo v rija s :

( yi ) = y( + yi yi) y y () iO dstupanje orginalnih podataka za zavisnu varijablu od prosjeka zavisne varijable O dstupanje podataka ocjenjenihregresionim m odelomza zavisnu varijablu od prosjeka zavisne varijable ovo je dio koji ukazuje na m euzavisnost izm eu zavisne i nezavisne varijable

Odstupanje podataka ocjenjenihregresionim m odelomza zavisnu varijablu od orginalnih vrijednosti zavisne varijable ovo je dio koji ukazuje na uticaj drugih faktora koje regresioni m odel nije ukljuio na zavisnu varijablu .

D k moi i av rj ne c n. e o p zcj ai a s , o tA ok a rir m o ao s p n i s m a oih d b e o k v d a o v d tu a ja u ir m , o i m s m k a r tak jes z ro e u e v da o u b jiv :

( y = ) 2 yi Ukupan varijabilitet sum kvadrata a odstupanja orginalnih vrijednosti zavisne varijable od njenog prosjeka

yi (+ y

( yi yi) )2

2

Objanjeni varijabilitet - sum kvadrata a odstupanja u okviru regresionogm odela ovo je dio varijabilitetazavisne varijable koji se m oe predvidjeti na osnovu poznavanja vrijednosti nezavisne varijable

Neobjanjeni varijabilitet sum kvadrata odstupanja a koja nije objanjena regresionimm odelom

-

K eic n d t r in c o f ije t eem a ije N o n v d k m o ic v rija s o re u m k e ije t d te in c . a s o u e o p z ije a n e d je o o fic n e rm a ije P d ta ljau e o ja n n gv rija ilite uu u n m a b tuz v n re s v e b je o a b ta k p o v rija ilite a is e v rija le a b .

r

2

( y = ( y

i i

) y = 2 1 ) y2

i ( yi y i ( y y

2 2

) )

P k z jed v rija ilite z v n v rija lek ji jeo ja n nre re io im o a u io a b ta a is e a b o b je g s n m d lo k zu a n z v n v rija leb m d la o e m ro tic j e a is e a b iz o e . R la n m ra iz v s u% e tiv a je , ra a a e . M u e v d o ti izin rv la o e z ti rije n s te a 0 do+ (ili 0 -1 0 ) . 1 0% V v d o t o o k e ije tau a u d jev p p rc o ja n n u e a rije n s v g o fic n k z je a e a ro o ija b je e u u n j v rija s i d jeo a ra i m d l p u d n i re re e ta n k p o a n i a d b n o e o z a iji p z n tiv iji.

Koeficijent korelacije Mjeri jainu i smjer povezanosti dvije pojave za koje poznajemo empirijske vrijednosti kvantitatinih varijabli.

r= r =2

( y i y ) 2 ( y i y ) 2

Neimenovani broj. Kao i kod koeficijenta determinacije sa kojim je u funkcionalnoj vezi, vea vrijednost ovog koeficijenta ukazuje da je vea proporcija objanjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

Koeficijent linearne korelacije Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija varijable X i varijable Y.

r=

Cov( X , Y ) = X Y

(x

(xi

i

x )( yi y )

x )2

( y

i

y )2

Vrijednost koeficijenta linearne korelacije se nalazi izmeu -1 i 1. Vea vrijednost koeficijenta ukazuje na postojanje vee linearne povezanosti izmeu promjenjljivih X i Y. Manja vrijednost r ne mora uvijek znaiti da je slaba korelacija jer se moe raditi o pogrenoj primjeni koeficijenta linearne korelacije za mjerenje jaine veze pojava koje nisu u linearnom odnosu. Tumaenje: Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastika). Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastika). Za vrijednosti 1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj korelaciji, to jeste o funkcionalnoj vezi.

Koeficijent linearne korelacije, cont.

Napomena: ako je mogue uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije. Standardna greka ocjene Prema vrijednosti neobjanjenog varijabiliteta za regresioni model odreujemo standardnu greku ocjene:

standardna neobjanjeni varijabilitet = greka ocjene = n = (1 r 2 ) ukupan varijabilitet n

Standardna greka ocjene, cont. Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosjeno odstupanje empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom. Apsolutna mjera disperzije oko regresije jer se izraava u istim jedinicama mjere kao zavisna varijabla. Vea vrijednost ovog pokazatelja ukazuje da je vea proporcija neobjanjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno. Koeficijent varijacije regresionog modela Relativni pokazatelj kvaliteta regresionog modela Jednak je odnosu standardne greke ocijenjenog regresionog modela i aritmetike sredine zavisne varijable Y:

kVy =

y y

100

Vea vrijednost ovog pokazatelja ukazuje da je vea proporcija neobjanjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela, cont. Na osnovu vrijednosti ovog koeficijenta moemo procijeniti preciznost i kvalitet ocjene na sljedei nain: Ako je Ako je Ako je Ako je u intervalu 7%