PROSTA KORELACIONA I REGRESIONA...

44
PROSTA KORELACIONA I REGRESIONA ANALIZA U prethodnim poglavljima upoznali smo se sa metodima statističkog zaključivanja, odnosno kako se na osnovu informacije iz uzorka donose zaključci (putem ocenjivanja ili testiranja hipoteza) o nepoznatim karakteristikama osnovnog skupa. Sada ćemo naše interesovanje usmeriti na istraživanje međusobnih veza i uticaja dve ili više pojava. Tako, na primer, može nas interesovati da ispitamo zavisnost između vremena provedenog u spremanju statistike i ocene na ispitu, dohotka i izdataka za kulturu domaćinstava, između zarada zaposlenih i godina školovanja, kamatne stope i ponude novca, izdataka za propagandu i prodaje, troškova za istraživanje i profita firme, broja kriminalnih dela sa jedne strane i stope nezaposlenosti i stope inflacije sa druge strane, itd. U svakom od navedenih slučajeva analizu sprovodimo pomoću dva, verovatno najpoznatija statistička metoda, korelacije i regresije. Kao i do sada, naše zaključivanje zasnivaće se na uzorku. Ali sada ćemo na osnovu uzorka ispitivati kako su varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave. Cilj našeg istraživanja neće se naravno odnositi na uzorak, već na osnovni skup iz koga je uzorak izvučen. CILJEVI POGLAVLJA Nakon čitanja ovoga poglavlja bićete u stanju da: 1. shvatite razliku izme đ u funkcionalne i stohasti č ke veze i razumete stohasti č ki model 2. znate kada se primenjuje korelacija, a kada regresija 3. primenite i shvatite koeficijent proste linearne korelacije i njegova ograni č enja 4. formulišete prost linerani regresioni model, i da na osnovu njega ocenite i predvidite vrednost jedne pojave na osnovu vrednosti neke druge 5. shvatite logiku i primenite jedan od najvažnijih statisti č kih metoda, metod najmanjih kvadrata 6. interpretirate regresioni i korelacioni izlaz iz modernih statisti č kih softvera 11. glava

Transcript of PROSTA KORELACIONA I REGRESIONA...

Page 1: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

PROSTA KORELACIONA I REGRESIONA ANALIZA

U prethodnim poglavljima upoznali smo se sa metodima statističkog zaključivanja, odnosno kako se na osnovu informacije iz uzorka donose zaključci (putem ocenjivanja ili testiranja hipoteza) o nepoznatim karakteristikama osnovnog skupa. Sada ćemo naše interesovanje usmeriti na istraživanje međusobnih veza i uticaja dve ili više pojava. Tako, na primer, može nas interesovati da ispitamo zavisnost između vremena provedenog u spremanju statistike i ocene na ispitu, dohotka i izdataka za kulturu domaćinstava, između zarada zaposlenih i godina školovanja, kamatne stope i ponude novca, izdataka za propagandu i prodaje, troškova za istraživanje i profita firme, broja kriminalnih dela sa jedne strane i stope nezaposlenosti i stope inflacije sa druge strane, itd. U svakom od navedenih slučajeva analizu sprovodimo pomoću dva, verovatno najpoznatija statistička metoda, korelacije i regresije. Kao i do sada, naše zaključivanje zasnivaće se na uzorku. Ali sada ćemo na osnovu uzorka ispitivati kako su varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave. Cilj našeg istraživanja neće se naravno odnositi na uzorak, već na osnovni skup iz koga je uzorak izvučen.

CILJEVI POGLAVLJA

Nakon čitanja ovoga poglavlja bićete u stanju da:

1. shvatite razliku između funkcionalne i stohastičke veze i razumete stohastički model

2. znate kada se primenjuje korelaci ja, a kada regresi ja 3. primenite i shvatite koef ici jent proste l inearne korelaci je

i njegova ograničenja 4. formulišete prost l inerani regresioni model , i da na

osnovu njega ocenite i predvidite vrednost jedne pojave na osnovu vrednosti neke druge

5. shvatite logiku i primenite jedan od najvažnij ih statističkih metoda, metod najmanjih kvadrata

6. interpretirate regresioni i korelacioni izlaz iz modernih statističkih softvera

11. g

lava

Page 2: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

250 OSNOVI STATISTIKE

11.1 FUNKCIONALNA I STOHASTIČKA VEZA

Međusobne veze između pojava (promenljivih) možemo podeliti u dve grupe: funkcionalne i stohastičke. Funkcionalna (naziva se još i deterministička ili egzaktna) veza javlja u slučaju kada jednoj vrednosti nezavisne promenljive X odgovara samo jedna, tačno određena, vrednost zavisne promenljive Y. Tako, na primer, površina kvadrata izračunava se pomoću formule P = a2. Za bilo koju željenu vrednost stranice kvadrata a, možemo egzaktno izračunati površinu P, jednostavnom zamenom numeričke vrednosti na desnoj strani jednakosti. Determinističke veze se retko sreću u društvenim naukama i ekonomiji.

Posmatrajmo sada međuzavisnost dve ekonomske pojave, recimo, izdatke za propagandu (oglašavanje) kompjuterske opreme (kao nezavisne promenljive) i prihod od prodaje te opreme (kao zavisne promenljive). Prvo pitanje koje se ovde postavlja je: da li postoji funkcionalna veza između ove dve pojave? Drugačije rečeno, da li na osnovu poznavanja izdataka za propagandu možemo egzaktno da predvidimo nivo prihoda od prodaje, na primer, u vidu relacije

Prihod od prodaje = 5 · Troškovi reklamiranja

koja bi važila za sve firme u Srbiji? To bi praktično značilo da ako neka firma uloži 1000 evra u reklamiranje, prihod od prodaje bi iznosio tačno 5000 evra. Složićemo se da je odgovor negativan i to iz više razloga. Prodaja kompjuterske opreme ne zavisi samo od propagande, već i od niza drugih faktora, kao što su cena opreme, cena konkurentskih proizvoda, dohotka potencijalnih kupaca itd. Čak i kad bismo u model uključili veliki broj faktora od kojih zavisi prodaja, ne bi bilo moguće predvideti egzaktnu vrednost prodaje. Zbog čega? Zbog toga što na pojave u društvu i ekonomiji deluju specifični nepredvidljivi uticaji psihološke prirode, kao i različiti slučajni uticaji. Zato ni nismo u stanju da na osnovu poznavanja pojedinih vrednosti nezavisne promenljive u potpunosti odredimo vrednosti zavisne promenljive. Ipak, očekujemo da postoji određena pozitivna veza između propagande i prodaje, u smislu: veći izdaci za propagandu − veća prodaja. Ovakva veza je slabija od funkcionalne i naziva se stohastička1 (eng. stochastical) veza. Kod stohastičkih veza jednoj vrednosti nezavisne promenljive odgovara čitav niz mogućih vrednosti zavisne promenljive. U našoj formuli, odnosno modelu, (11.1), kod različitih firmi, za isti nivo izdataka za propagandu očekivali bismo različiti nivo prodaje. Drugim rečima, takav model ne samo da je suviše jednostavan, nego bi u praksi pokazivao manje ili veće greške. Kako onda da modeliramo veze između pojava u ekonomiji, koje su po svojoj prirodi stohastičke?

Stohastičke veze između dve pojave modeliraćemo tako što ćemo u

1 Termin "stohastički" potiče od starogrčke reči στοχαστικός, što znači ciljati ili pogađati.

(11.1)

Page 3: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251

model, pored zavisne i nezavisne promenljive, uključiti još jednu komponentu, koja će obuhvatiti sve ostale faktore (osim X) koji utiču na Y. Bez uključivanja te komponente jasno je da bi naš model (11.1) za različite vrednosti X davao pogrešne vrednosti Y. Ta komponenta deluje na nepredvidljiv, slučajan način na Y. Kako da nazovemo tu komponentu koja na sasvim slučajan način dovodi do greške pri predviđanju u model (11.1)? Nazvaćemo je stohastički član ili slučajna greška modela, i već smo imali prilike da je upoznamo kod modela analize varijanse. Dakle, umesto relacije (11.1) međuzavisnost posmatrane dve pojave se neuporedivo bolje opisuje modelom

Prihod od prodaje = 5 · Izdaci za propagandu + Slučajna greška

Ovakav model dozvoljava da za razne vrednosti X imamo više različitih vrednosti Y. Generalno, stohastički model, odnosno veza, može se prikazati na sledeći način.

Generalna forma stohastičkog modela

Y = Deterministički član + stohastički član

Posmatranjem modela (11.3) nameće se logično pitanje: kako je uopšte moguće analizirati takav model, ako on uključuje potpuno nepredvidljivu komponentu, preciznije rečeno, slučajnu promenljivu? Statističari su pokazali da se takvi modeli ipak mogu koristiti tako što će se uvesti određene pretpostavke o stohastičkom članu modela. Za sada ukažimo samo na jednu od njih. Budući da stohastički član u različitim situacijama deluje na slučajan način, nekada tako što utiče pozitivno na Y, nekada negativno, pretpostavićemo da se ti uticaji u zbiru potiru, odnosno da je u proseku njegov uticaj jednak nuli. Kako je stohastički član, u stvari, slučajna promenljiva, koji statistički pokazatelj označava prosek te slučajne promenljive? Podsetimo se, to je, očekivana vrednost E(X). Dakle, E(stohastičkog člana) = 0. Ako je u modelu (11.3) zavisna promenljiva Y funkcija stohastičkog člana, a ovaj je po svojoj prirodi slučajna promenljiva, koja je statistička priroda Y? Iz glave 4 znamo da je svaka funkcija slučajne promenljive i sama slučajna promenljiva. Zaključujemo stoga da je i Y slučajna promenljiva. Ostaje još samo da odredimo čemu je jednak prosek, tj. očekivana vrednost Y. Prosek Y, na osnovu relacije (11.3), biće jednak proseku zbira determinističkog i stohastičkog člana. Kako je prosek stohastičkog člana jednak nuli, zaključujemo da je

Prosek Y = Deterministički član.

Da sumiramo: u ekonomiji stohastički model mnogo bolje opisuje realnost od determinističkog. On uvek u sebi uključuje bar jednu slučajnu promenljivu. Usled toga se u literaturi u poslednje vreme reči "stohastički" i "slučajni" shvataju kao sinonimi2.

2 Videti, na primer, Voght P., Dictionary of Statistics & Methodology – a Nontethical

(11.3)

(11.4)

(11.2)

Page 4: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

252 OSNOVI STATISTIKE

Veze kod kojih porastû (opadanju) vrednosti nezavisne promenljive X istovremeno odgovara porast (opadanje) zavisne promenljive Y nazivamo direktnim vezama. Tipičan primer je odnos između primenjene količine određenog veštačkog đubriva i prinosa neke poljoprivredne kulture. Sa druge strane, ako porastû jedne promenljive odgovara opadanje druge, radi se o inverznim vezama (na primer, sa porastom cene avionskih karata opada broj putnika, uz konstantni realni dohodak). Naravno, ukoliko se ustanovi da sa promenama vrednosti jedne pojave druga promenljiva ostaje konstantna, zaključićemo da između njih ne postoji nikakva zavisnost. U stvarnosti, između dve ili više pojava moguće je postojanje najrazličitijih oblika veza, počev od onih koje se matematički mogu iskazati jednostavnom formulom, pa do onih veoma kompleksnih. Najjednostavniji oblik veze između pojava je linearna veza i u ovoj knjizi zadržaćemo se samo na takvim vezama.

11.2 RAZLIKA IZMEĐU REGRESIONE I KORELACIONE ANALIZE Prilikom istraživanja međuzavisnosti varijacija dve ili više pojava u statistici se primenjuju metodi regresione i korelacione analize. Iako su ovi statistički metodi u bliskoj vezi i međusobno se dopunjuju, između njih postoje i značajne razlike. Kod korelacije, pri analizi dve pojave svejedno je koja se od njih označava kao nezavisna, a koja kao zavisna promenljiva - dobija se identičan rezultat. Međutim, kao što ćemo videti u sledećoj glavi, pri ispitivanju korelacione veze između tri ili više pojava prethodno jedna od njih se mora definisati kao zavisna promenljiva, dok ostale dobijaju ulogu nezavisnih promenljivih.

Cilj korelacione analize je da se ispita da li između varijacija posmatranih pojava postoji kvantitativno slaganje i, ako postoji, u kom stepenu.

Kod regresione analize nužno je unapred identifikovati koja pojava će imati ulogu zavisne promenljive, a koja nezavisne promenljive. U statistici se kod regresije najčešće ne koristi termin "nezavisna promenljiva"3, već objašnjavajuća promenljiva ili regresor. Naziva se objašnjavajuća jer pomoću nje pokušavamo da objasnimo varijacije zavisne promenljive. Koja promenljiva će biti izabrana za objašnjavajuću utvrđuje se na osnovu prethodnih teorijskih ili empirijskih saznanja, ili pretpostavki o prirodi analiziranih pojava.

Guide for the Social Sciences, Sage, Thousand Oaks, 2005, str. 312, ili: http://mathworld.wolfram.com/Stochastic.html 3 Kod regresije se izbegava izraz “nezavisna promenljiva“ jer to implicira da je X uzrok, a Y posledica. Međutim, regresionom analizom je nemoguće dokazati uzročnu vezu između pojava.

Page 5: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 253

Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti između posmatranih pojava. To se postiže pomoću odgovarajućeg regresionog modela. Regresioni model je takav stohastički model koji kroz matematičku formulu i niz odgovarajućih pretpostavki najbolje opisuje kvantitativnu zavisnost između varijacija posmatranih pojava u realnosti. Regresioni model nije sam po sebi cilj regresije, već sredstvo koje nam služi da ocenimo i predvidimo vrednosti zavisne promenljive za željene vrednosti objašnjavajuće promenljive.

Cilj regresione analize je da se odredi onaj regresioni model koji najbolje opisuje vezu između pojava i da se na osnovu toga modela ocene i predvide vrednosti zavisne promenljive Y za odabrane vrednosti objašnjavajuće promenljive X.

Na osnovu navedenog jasno je da regresiona analiza ima daleko veći značaj u praktičnim istraživanjima od korelacije. Važno je napomenuti da pomoću regresije i korelacije nismo u stanju da otkrijemo da li između pojava postoji uzročno-posledična veza, u smislu da je jedna pojava uzrok, a druga posledica. To se može utvrditi drugim metodima kvantitativne ili pomoću kvalitativne analize. Prilikom istraživanja međusobnih veza dve promenljive primenjuju se metodi proste (eng. simple) regresione i korelacione analize, a u slučaju posmatranja više promenljivih, metodi višestruke (eng. multiple) regresije i korelacije. Reč "prosta" znači samo to da su u pitanju dve pojave, a nikako da je analiza jednostavna. U ovoj knjizi zadržaćemo se samo na prostoj korelaciji i regresiji.

11.3 DIJAGRAM RASPRŠENOSTI

Dijagram raspršenosti (eng. scatter diagram) je dijagram kojim se prikazuje veza između dve kvantitativne promenljive. Bitno je shvatiti da se vrednosti ovih promenljivih dobijaju na osnovu merenja na istim jedinicama posmatranja (na primer istim studentima, istim firmama itd.). Na osnovu merenja dolazi se do uređenih parova podataka (x1,y1), (x2,y2),...itd.

Pretpostavimo da nas interesuje da li između visine i težine studenata Vašeg univerziteta postoji kvantitativno slaganje. Kod svakog studenta morali bismo da izmerimo visinu i težinu i na taj način formirali bismo uređenu listu parova podataka. Svaki od tih parova sastojao bi se od dva broja – jednog koji bi označavao težinu određenog studenta i drugi koji bi se odnosio na njegovu visinu, na primer, (75 kg ; 185 cm). Osnovni skup u ovom slučaju čine svi parovi vrednosti (xi, yi), pa kažemo da on sadrži sve realizovane vrednosti dvodimenzionalne promenljive. Dijagram raspršenosti nema smisla koristiti ako nemamo uređene parove podataka, na primer nema smisla grafički prikazivati podatke za visinu 10 studenata u Kragujevcu i težinu 10 studenata u Subotici. Ovo ujedno važi i za regresionu i korelacionu analizu.

Dijagram raspršenosti se konstruiše u pravouglom koordinatnom sistemu. Pri

Page 6: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

254 OSNOVI STATISTIKE

tome se na apscisnu osu nanose jedinice pojave koju smo označili nezavisnom (u regresionoj analizi objašnjavajućom) promenljivom X, a na ordinatnu osu jedinice zavisne promenljive Y. Ucrtavanjem svih empirijskih parova podataka može se dobiti važna slika o eventualnom postojanju, obliku, smeru i jačini veze između posmatranih pojava.

PRIMER 11.1: Uzmimo podatke Tabele 11.1, koja pokazuje izdatke za propagandu (u milionima dinara) i prihod od prodaje (u 100 miliona dinara), deset, na slučaj odabranih računarskih firmi u Srbiji.

Tabela 11.1 Izdaci za propagandu i prihod od prodaje 10 računarskih firmi, na osnovu slučajnog uzorka

Firma A B C D E F G H I J

Izdaci za propagandu 8 10 3 3 2 7 5 6 5 4

Prihod od prodaje 10 14 3 5 4 12 8 9 7 6

Koju promenljivu označiti kao X, a koju kao Y? Odgovor zavisi od toga da li sprovodimo korelacionu ili regresionu analizu. Ako istražujemo vezu između posmatrane dve pojave, potpuno je svejedno da li ćemo na X osu nanositi vrednosti prve ili druge promenljive. Međutim, ako želimo da ispitamo da li se na osnovu ulaganja u propagandu mogu objasniti varijacije prodaje, kao objašnjavajuću promenljivu odabraćemo izdatke za propagandu. Budući da ćemo podatke Tabele 11.1 koristiti i u regresionoj analizi, izdatke za propagandu ćemo označiti kao X, a prodaju kao Y. Podatke uzorka prikazaćemo grafički pomoću dijagrama raspršenosti na Slici 11.1.

Slika 11.1 Dijagram raspršenosti za podatke Tabele 11.1

Dijagram raspršenosti na Slici 11.1 pokazuje da između varijacija posmatranih pojava postoji kvantitativno slaganje. Naime, sa porastom ulaganja u propagandu raste i prihod od prodaje. Dakle, vidimo da se radi o direktnoj vezi između pojava. Takođe, raspored tačaka se približno grupiše u

Izdaci

Pri

hod

1086420

14

12

10

8

6

4

2

0

Dijagram raspršenosti

Page 7: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 255

vidu prave linije, što nam govori da je u pitanju linearna veza. Međutim, sve tačke se ne nalaze na samoj pravoj liniji, jer bi se onda radilo o funkcionalnom slaganju, što je izuzetno redak slučaj u ekonomiji. U pitanju je, dakle, stohastička veza, kod koje individualni slučajevi pokazuju odstupanja od opšte pravilnosti. Ukoliko su tačke više raspršene u odnosu na pravu liniju, utoliko je i slabija međuzavisnost dve pojave, i obrnuto. U slučaju kada je raspored tačaka sasvim raspršen zaključuje se da ne postoji nikakvo kvantitativno slaganje varijacija dve pojave.

Na Slici 11.2 prikazane su različite mogućnosti povezanosti varijacija dve pojave na odgovarajućim dijagramima raspršenosti.

Slika 11.2 Primeri različitih oblika veza na dijagramima raspršenosti

Od navedenih grafičkih prikaza obratimo pažnju na onaj pod i) zbog njegove posebne važnosti u daljem izlaganju. Iako na prvi pogled izgleda da postoji pravolinijska funkcionalna veza između pojava, to nije tačno, jer za bilo koje vrednosti promenljive X promenljiva Y ostaje konstantna. Takođe, upozorimo na jednu specifičnost dijagrama raspršenosti na Slici 11.1 u odnosu na dijagrame sa Slike 11.2. Naime, ranije smo naveli da kod stohastičke veze za svaku vrednost X postoji čitav niz vrednosti Y, a to se ne može uočiti na Slici

Page 8: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

256 OSNOVI STATISTIKE

11.1 (izuzev što za vrednosti X = 3 i X = 5 imamo po dve vrednosti Y). Razlog je u tome što u našem primeru raspolažemo sa relativno malim uzorkom od samo 10 firmi. Na osnovu svega navedenog možemo zaključiti da dijagramom raspršenosti grafički prikazujemo varijacije dve pojave u cilju sagledavanja:

1. da li između njih postoji kvantitativno slaganje, 2. ako slaganje postoji, koji je njegov oblik (linearni ili krivolinijski), 3. koji je smer slaganja (direktni ili inverzni), i 4. koja je jačina slaganja.

Bez dijagrama raspršenosti često se u praksi mogu dobiti potpuno nevalidni zaključci; stoga preporučujemo da se obavezno, pre bilo kakve kvantitativne analize, podaci prikažu na ovom dijagramu.

11.4 PROSTA KORELACIONA ANALIZA

Podsetimo se da je svrha korelacione analize da se utvrdi da li između varijacija posmatranih pojava postoji kvantitativno slaganje (korelaciona veza) i, ako postoji, u kom stepenu. Ako se pri tome posmatraju dve pojave, govori se o prostoj korelaciji, a prilikom analize više pojava o višestrukoj korelaciji. Za razliku od regresije kod proste korelacije se ne pravi razlika između zavisne i nezavisne promenljive – obe posmatrane pojave imaju jednaki status. Preciznije rečeno, obe posmatrane pojave tretiraju se kao slučajne promenljive. Dakle, potpuno je svejedno koju pojavu ćemo označiti kao X, a koju kao Y, pošto se dobijaju identični rezultati. Tako se, na primer, posmatranjem uspeha studenata na ispitu iz matematike i ispitu iz statistike može uočiti tendencija da će studenti koji imaju više ocene iz matematike, imati više ocene iz statistike, i obrnuto. Naravno, ovo važi u masi slučajeva, a ne kod svakog pojedinačnog studenta. Međutim, ne možemo kategorički nijednu od navedenih pojava označiti kao nezavisnu promenljivu. Slično, pri ispitivanju veze između stope inflacije i stope nezaposlenosti primećuju se slične tendencije porasta ili opadanja, ali nismo u mogućnosti da preciziramo koja je od njih nezavisna promenljiva. Zbog toga se kao cilj ispitivanja ne postavlja istraživanje jedne pojave u funkciji druge.

11.4.1 Koeficijent proste linearne korelacije

Pomoću koeficijenta proste linearne korelacije ispituje se da li između varijacija dve pojave postoji linearna (pravolinijska) veza. Kao prvi korak u korelacionoj analizi, empirijski podaci se prikazuju grafički dijagramom raspršenosti da bi se sagledalo da li se oni približno grupišu oko prave linije.

PRIMER 11.2: Pretpostavimo da nas interesuje da li postoji linearna kvantitativna veza između broja zaposlenih i prihoda 500 najbolje rangiranih kompanija na svetu u 2007. godini, na osnovu liste koju je sastavljena u

Page 9: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 257

poznatom američkom poslovnom časopisu Fortune4. U ovom slučaju osnovni skup se sastoji od 500 parova podataka. Da bismo odredili da li postoji korelacija u skupu morali bismo obuhvatiti svih 500 kompanija. Kako za neke od kompanija nisu dostupni podaci o broju zaposlenih, i, sajt je tako organizovan da iziskuje puno vremena da bi se došlo do podataka o broju zaposlenih, uzeli smo slučajan uzorak od 8 kompanija i dobili podatke kao u Tabeli 11.2.

Tabela 11.2 Broj zaposlenih (u 000) i prihod (u milijardama $) 8 kompanija u 2007.

Kompanija Tojota General Motors

Walt Disney

Pepsi Microsoft Coca cola

Nike Sony

Broj zaposlenih

299,4 280 133 168 71 71 28 163

Prihod 204,7 207,35 34,28 35,14 44,3 24,1 14,9 70,9

Budući da je svejedno koju ćemo pojavu identifikovati kao nezavisnu promenljivu, označimo, na primer, broj zaposlenih sa X, a prihod sa Y. Podatke slučajnog uzorka najpre ćemo prikazati pomoću dijagrama raspršenosti, na Slici 11.3.

Slika 11.3 Broj zaposlenih i prihod 8 kompanija u slučajnom uzorku

Slika 11.3 sugeriše da između varijacija posmatrane dve pojave u uzorku postoji kvantitativna veza, jer se uočava generalna tendencija da kompanije sa više zaposlenih ujedno imaju i veće prihode. Budući da se tačke približno grupišu oko prave linije ima smisla ispitati postojanje i jačinu linearne veze između posmatrane dve pojave.

4 Rang lista se naziva Fortune Global 500 i podaci su dostupni na sajtu: http://money.cnn.com/magazines/fortune/global500/2007/

Broj zaposlenih

Pri

hod

300250200150100500

200

150

100

50

0

Dijagram raspršenosti za broj zaposlenih i prihod

Page 10: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

258 OSNOVI STATISTIKE

(11.5)

Kao mera jačine proste linearne korelacione veze u uzorku koristi se relativna mera, koja se naziva Pirsonov koeficijent proste linearne korelacije, ili koeficijent proste linearne korelacije, ili često samo koeficijent korelacije. Formulisao ga je Karl Pirson5 1896. godine. Ovaj koeficijent pokazuje stepen pravolinijskog kvantitativnog slaganja dve pojave. Označava se sa r i izračunava po formuli:

gde je n veličina uzorka (broj parova podataka). Primećujemo da je formula (11.5) simetrična u odnosu na promenljive X i Y. Samim tim, potpuno je svejedno koju smo promenljivu označili sa X, a koju sa Y.

Pirsonov koeficijent proste linearne korelacije, r, pokazuje stepen linearnog (pravolinijskog) kvantitativnog slaganja varijacija između dve numeričke promenljive (obeležja).

Koeficijent proste linearne korelacije, kao relativna mera, uzima vrednosti od -1 do +1. Ukoliko uzima pozitivne vrednosti, korelacija između pojava je direktna ili pozitivna (obe pojave pokazuju istosmerne varijacije). U slučaju kada je r < 0, veza je inverzna ili negativna (kada jedna pojava raste druga opada, i obrnuto). Ako između posmatranih pojava postoji funkcionalna veza (sve empirijske tačke se nalaze tačno na pravoj liniji), govorimo o savršenoj (perfektnoj) korelaciji. Tada koeficijent korelacije uzima vrednost -1 (ako je veza inverzna) ili +1 (ako je veza direktna). Što je koeficijent korelacije po apsolutnoj vrednosti bliži jedinici, sve je jača korelaciona veza između pojava. Nasuprot tome, što je bliži nuli linearna veza je slabija. U ekstremnoj situaciji, kada koeficijent korelacije uzme vrednost jednaku nuli, zaključuje se da nema linearne veze između pojava. Obrnuto, ne važi. Dakle, kada se na osnovu uzorka dobije koeficijent korelacije jednak nuli, pogrešno je zaključiti da između dve pojave ne postoji kvantitativno slaganje. U takvom slučaju između pojava možda postoji neki oblik krivolinijskog slaganja (kao na Slici 11.4 f) ili uopšte nema nikakve kvantitativne veze (kao na Slici 11.4 e). Dakle, na osnovu nultog koeficijenta korelacije, bez dijagrama raspršenosti nismo u poziciji da zaključimo šta je od toga istina.

5 Osnovne ideje o korelaciji prvi je sugerisao Frensis Golton 1888. u članku "Co-relations and their measurements, chiefly from anthropometric data. Proc R Soc London, 45, str. 219-247". Golton je prvi uveo oznaku r za koeficijent korelacije. Usled ovoga u poslednje vreme koeficijent proste korelacije neki autori nazivaju Golton-Pirsonov koeficijent.

Koeficijent proste linearne korelacije u uzorku

2 2 2 2( ) ( )

−=

− −

n xy x y

rn x x n y y

Page 11: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 259

Različite vrednosti koje može da uzme koeficijent korelacije r, u zavisnosti od stepena pravolinijskog kvantitativnog slaganja dve pojave, prikazane su na Slici 11.4.

Slika 11.4 Raspršenost tačaka i odgovarajuće vrednosti r U statističkoj literaturi ne postoji potpuno slaganje u pogledu tumačenja značenja pojedinih mogućih vrednosti koeficijenta proste linearne korelacije. Ipak, možemo usvojiti sledeću grubu skalu, datu na Slici 11.5.

PRIMER 11.2 (nastavak): Da bismo izračunali koeficijent korelacije za

Slika 12.5 Tumačenje vrednosti r

Nema linearne veze

0 0,7 0,8 0,9 1 - 1 - 0,9 - 0,8 -0,7

Nije Izražena

Inverzna izražena

Direktna izražena

Direktna savršena

Inverzna savršena

Direktna veoma jaka

Inverzna veoma jaka

Direktna jaka

Inver zna jaka

Page 12: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

260 OSNOVI STATISTIKE

podatke Tabele 11.2 formiraćemo Tabelu 11.3:

Tabela 11.3 Izračunavanje koeficijenta proste linearne korelacije za podatke u Tabeli 11.2

Broj zaposlenih x

Prihod

y xy x2 y2

299,4

280

133

168

71

71

28

163

204,7

207,35

34,28

35,14

44,3

24,1

14,9

70,9

61287,18

58058,00

4559,24

5903,52

3145,30

1711,10

417,20

11556,70

89640,36

78400

17689

28224

5041

5041

784

26569

41902,09

42994,02

1175,11

1234,81

1962,49

580,81

222,01

5026,81

1213,4 635,67 146638,24 251388,36 95098,17

Primenimo formulu (11.5) da bismo izračunali r:

2 2

8 146638,24 1213,4 635,67 401783,9 0,924383878 251388,36 1213,4 8 95098,17 635,67

⋅ − ⋅= = =⋅ − ⋅ −

r

Rezultat ukazuje na direktnu (pozitivnu), veoma jaku, linearnu vezu između broja zaposlenih i prihoda osam kompanija sa Fortune liste 500 najuspešnijih kompanija u 2007. godini.

Pošto smo prilikom izračunavanja koeficijenta korelacije r koristili podatke slučajnog uzorka, važno je shvatiti da r ukazuje samo na postojanje korelacije u uzorku. Međutim, nas interesuje da li u osnovnom skupu iz koga potiče uzorak postoji korelaciona veza? Lako je, stoga zaključiti, da r predstavlja ocenu nepoznatog koeficijenta korelacije u osnovnom skupu. Stoga je potrebno testirati značajnost dobijene ocene.

11.4.2 Testiranje značajnosti ocene koeficijenta proste linearne korelacije

Koeficijent proste linearne korelacije u osnovnom skupu označava se sa grčkim slovom ρ (čita se: ro). On pokazuje jačinu pravolinijske veze između dve posmatrane pojave u osnovnom skupu. Budući da je on numerički pokazatelj skupa, jasno nam je da se radi o parametru. Njegove pojedinačne vrednosti se tumače istovetno kao i vrednosti koeficijenta korelacije u uzorku r. Da bismo tačno izračunali njegovu vrednost, morali bismo da raspolažemo svim podacima u skupu. Budući da u praksi uglavnom radimo sa uzorkom, sledi da će koeficijent korelacije ρ za nas ostati nepoznat. U našem primeru, njegovu

Page 13: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 261

tačnu vrednost bismo izračunali ako bismo u obzir uzeli podatke za svih 500 kompanija sa globalne liste časopisa Fortune. Budući da te podatke nemamo, postavlja se pitanje, kako na osnovu koeficijenta korelacije u uzorku r doneti validan zaključak o tome da li u skupu postoji korelacija? Prilikom testiranja uvešćemo dodatnu pretpostavku da je zajednički raspored promenljive X i Y normalan. Zbog toga je jasno da ćemo primeniti parametarski test. Nultu hipotezu postavićemo u obliku:

0 : 0=ρH

odnosno, da u osnovnom skupu ne postoji linearna korelacija, ili, što je isto, da ocena, r, nije statistički značajna. Ograničićemo se na dvosmernu alternativnu hipotezu:

1 : 0≠ρH

Dakle, alternativna hipoteza ukazuje samo na to da u skupu postoji linearna veza, a ne govori ništa o jačini veze. Za nivo značajnosti uzmimo standardnu vrednost α = 0,05. Postavlja se pitanje koji statistički test, odnosno koju statistiku testa da primenimo? U teorijskoj statistici je pokazano da se kod testiranja proste linearne korelacije koristi t test sa n – 2 stepeni slobode. Polazeći od opšteg izraza za statistiku testa (10.1) i vodeći računa da hipotetična vrednost parametra iznosi 0, izraz za statistiku testa glasi:

=r

rts

gde je sr standardna greška ocene koeficijenta proste linearne korelacije. Pri njenom izračunavanju koristi se formula:

Standardna greška ocene koeficijenta proste linearne korelacije

212

−=−rrs

n

Šta pokazuje ova standardna greška? Podsetimo se: svaka standardna greška u statistici pokazuje prosek odstupanja ocene od parametra. Dakle, sr pokazuje koliko u proseku koeficijent korelacije uzorka odstupa od koeficijenta korelacije skupa.

PRIMER 11.2 (nastavak): Prilikom izračunavanja ocenjenog koeficijenta korelacije na podatke Tabele 11.2 dobili smo da je r = 0,92. Standardna greška ocene koeficijenta korelacije sr jednaka je:

2 21 1 0,92 0,162 8 2

− −= = =− −rrs

n

pa će izračunata vrednost statistike Studentovog testa biti:

(11.6)

(11.7)

Page 14: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

262 OSNOVI STATISTIKE

0,92 5,750,16

= = =r

rts

Odredimo sada p-vrednost pomoću tablica Studentovog rasporeda. Broj stepeni slobode iznosi (n-2)=6. Statistika testa je veća od 3,7074, pa zaključujemo da je p-vrednost < 0,01 (jer smo vrednost iz zaglavlja 0,005 pomnožiti sa 2 pošto je test dvosmeran). Budući da je p-vrednost manja od postavljenog nivoa značajnosti α = 0,05, odbacujemo nultu hipotezu. Zaključujemo, uz rizik greške od 0,05, da da u skupu (koji se sastoji od 500 najboljih kompanija u svetu) postoji linearna veza između broja zaposlenih i prihoda. Prikažimo sada izlaze korelacione analize pomoću EduStata, Tabelom 11.4:

Tabela 11.4 Izlaz iz EduStata pri rešavanju postojanja linearne korelacije

Pirsonov koeficijent proste korelacije r Varijable X : Broj zaposlenih Y : Prihod r : 0,9165 TESTIRANJE Standardna greška koeficijenta proste korelacije

Statistika t-testa P

0,1633 5,6121 0,001365 H0 : U osnovnom skupu NE postoji linearna korelacija H1 : U osnovnom skupu postoji linearna korelacija Zaključak : Pri testiranju nulte hipoteze da u osnovnom skupu nema linearne korelacije dobijena p-vrednost 0,0014 ukazuje da u osnovnom skupu postoji linearna veza na nivou značajnosti od 0,01 jer je p-vrednost < 0,01. Zaključujemo da koeficijent proste korelacije r JESTE statistički značajan

Statistički softver je dao preciznu p-vrednost koja potvrđuje našu analizu i zaključak da se nulta hipoteza odbacuje.

11.4.3 Interpretacija koeficijenta proste linearne korelacije

Pravilna interpretacija koeficijenta proste linearne korelacije zahteva dopunska objašnjenja, naročito u pogledu eventualne uzročne veze posmatranih pojava. Ovo posebno napominjemo zbog činjenice da je u praksi koeficijent korelacije, uz aritmetičku sredinu, statistički pokazatelj koji se često pogrešno tumači.

1. Koeficijent proste korelacije r ukazuje samo na da li u uzorku postoji korelacija.

2. Pirsonov koeficijent korelacije pokazuje da li između dve posmatrane pojave postoji linearna veza; on ne ukazuje na postojanje eventualne krivolinijske veze, bez obzira na njenu jačinu.

3. r zahteva numeričke podatke. Pomoću njega je nemoguće ispitati, na

Page 15: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 263

primer, da li postoji veza između plata i pola zaposlenih jer je pol atributivno obeležje.

4. r je relativna mera, a to znači da nije iskazan u mernim jedinicama originalnih pojava.

5. Postojanje korelacije ukazuje samo na opšte slaganje varijacija dve pojave i nikako ne važi za sve pojedinačne slučajeve.

6. Važno je naznačiti da se na osnovu postojanja linearne korelacione veze dve pojave, X i Y, ne sme zaključivati da je X uzrok, a Y posledica, ili obrnuto. Visok koeficijent korelacije, recimo, 0,95, ne znači da između posmatranih pojava postoji uzročna veza. U stvarnosti, moguće je: a) da X predstavlja uzrok, b) da Y uzrokuje varijacije X, c) da su obe pojave pod uticajem nekih drugih neidentifikovanih faktora, d) da između pojava postoji interakcija (uzajamno dejstvo), e) da smo izvukli nereprezentativan uzorak koji upućuje na postojanje korelacije, iako ona u skupu ne postoji, i f) da smo dobili tzv. iskrivljenu korelaciju.

Između dve pojave postoji lažna korelacija (eng. spurious correlation) kada je koeficijent korelacije različit od nule, a nemamo nikakvog razloga da verujemo da su one međusobno povezane. Navešćemo tri primera, jer se korelacija može lako zloupotrebiti, odnosno neetički izvršiti analiza, tako što bi se primenila na neke dve pojave koje pokazuju istu tendenciju rasta tokom vremena, a između njih ne postoji nikakva logički opravdana povezanost.

PRIMER 11.3: Poznati ekonometričar Dejvid Hendri6 je 1980. izračunao da postoji izuzetno visoka korelacija između inflacije i kumulativno iskazane količine kiše u Velikoj Britaniji (r=0,998). Da li bi iko zaključio da padanje kiše uzrokuje inflaciju?

PRIMER 11.4: Neka istraživanja su pokazala da postoji visoka direktna korelacija između dužine ruku osnovaca i stepena njihovog logičkog rezonovanja, odnosno da osnovci sa dužim rukama bolje rezonuju. Ali ovo je besmisleno jer je iz analize izostavljena treća važna varijabla, a to su godine starosti. Dakle, osnovci sa dužim rukama zaista rezonuju bolje, ali zato što su stariji!

PRIMER 11.5: Ole Skog7 je pokazao da korelacija između kvartalno iskazanih indeksa intravenoznog uzimanja droge u Stokholmu i tzv. Volferovog indeksa aktivnosti sunčevih pega u periodu od 1965.-1970. iznosi 0,91. Da li se na osnovu ovoga može zaključiti da sunce uzrokuje korišćenje droge?

6 Hendry D. "Econometrics - Alchemy or Science", Economica, 47, str. 387-406, 1980. 7 Skog, O.J., "Testing Causal Hypotheses about correlated trends: pitfalls and remedies" Contemporary Drug Problems, Winter, str. 565-606, 1988.

Page 16: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

264 OSNOVI STATISTIKE

11.5 PROSTA LINEARNA REGRESIJA

Regresiona analiza je jedan od najvažnijih i najčešće korišćenih statističkih metoda i ima veliku primenu u ekonomiji i ostalim društvenim naukama. Termin regresija prvi je upotrebio engleski naučnik Frensis Golton 1885. godine, prilikom istraživanja naslednih osobina. On je otkrio da visina sinova prema visini njihovih očeva pokazuje nazadovanje (regresiju) prema prosečnoj visini (očevi znatno viši od proseka imaće sinove niže od njih, ali više od proseka, i obrnuto)8.

Danas se, međutim, reč regresija koristi u znatno širem značenju: da ukaže na statistički metod koji omogućava da se formuliše regresioni model i na osnovu njega opiše, predvidi i kontroliše zavisna promenljiva na osnovu jedne ili više objašnjavajućih promenljivih. Tako, na primer, proizvođač može da uz pomoć regresione analize poboljša proces proizvodnje tako što će ispitati uticaje različitih faktora koji na njega utiču. Marketing menadžer može koristiti regresionu analizu da kroz ispitivanje faktora koji deluju na prodaju prilagodi svoju strategiju. Čitava jedna oblast ekonomske nauke, ekonometrija, velikim delom bavi se samo regresijom. Pogledajmo još jedan primer da bismo videli širinu upotrebe regresione analize.

PRIMER 11.8: Početkom decembra 2007. objavljeni su rezultati Programa za međunarodno testiranje učenika9, koji su izazvali veliki odjek u javnosti. “Finski učenici zauzeli su prvo mesto u studiji o obrazovanju PISA, koju je među više od 400.000 srednjoškolaca u 57 zemalja sprovela Organizacija za ekonomsku saradnju i razvoj (OECD) sa ciljem da ustanovi efikasnost obrazovnih sistema u svetu. Srbija se našla na 41. mestu, odnosno u delu tabele koji, kako se navodi, "statistički znatno zaostaje za prosekom OECD" (Blic, 4.12..2007). Analiza podataka izvršena je pomoću posebne vrste regresije (tzv. multilevel regresije10).

Etape u linearnoj regresionoj analizi možemo prikazati na Dijagramu 11.1.

11.5.1 Jednačina prave linije i linija regresije

O prostoj linearnoj regresiji govorimo kada posmatramo dve promenljive između kojih postoji linearna (pravolinijska) povezanost. Postavlja se pitanje, kako konkretno formulisati takav linearni model, kako za skup, tako i za uzorak?

8 Danas se takav način zaključivanja često naziva regresionom obmanom (regression fallacy) jer (a) izgledalo bi da postoji generalna tendencija ka uprosečavanju visine ljudi što nije tačno (b) ako bi se posmatrala visina sinova u odnosu na visinu njihovih očeva tada bi se moglo zaključiti da postoji tendencija divergencije (sinovi niži od proseka imali bi očeve više od proseka, i obrnuto. 9 (eng. Program for International Student Assessment) 10 Rezultati su objavljeni ba sajtu http://www.pisa.oecd.org

Page 17: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 265

Dijagram 11.1 Etape u prostoj linearnoj regresiji

Pre nego što pređemo na razmatranje takvog modela podsetimo se elementarnog koncepta iz matematike – jednačine prave linije:

0 1Y xβ β= +

Prava je u potpunosti definisana sa dva koeficijenta: ß0, koji pokazuje odsečak (eng. intercept) na Y osi (odnosno vrednost Y kada je X jednako 0) i ß1, koji se naziva koeficijent nagiba (eng. slope) i pokazuje tangens ugla koji zaklapa prava sa pozitivnim krakom X ose. Kada je ß1 > 0 prava pokazuje rastuću tendenciju od donjeg levog ugla prema gornjem desnom uglu prvog kvadranta koordinatnog sistema, i opadajuću, u slučaju kada je ß1 < 0. Ako su nam poznata dva navedena koeficijenta imamo svu potrebnu informaciju o pravoj liniji i po potrebi možemo grafički da je prikažemo. Na Slici 11.6 prikazana je jedna prava linija sa jednačinom Y = 1 + 0,5X. Sa Slike 11.6 se može sagledati još jedno, za nas važno, tumačenje koeficijenta ß1: on pokazuje promenu zavisne promenljive Y kada se nezavisna promenljiva X poveća za jednu svoju jedinicu.

1. Identifikacija zavisne i objašnjavajuće promenljive.

2. Izvlačenje slučajnog uzorka.

3. Pomoću dijagrama raspršenosti sagledati da li prava linija dobro aproksimira empirijske vrednosti. Ako jeste, biramo linearni regresioni model.

4. Ispitivanje ispunjenosti pretpostavki modela.

5. Ocenjivanje parametara linearnog modela metodom najmanjih kvadrata.

(11.8)

Odsečak Nagib

Jednačina prave linije

6. Iznalaženje mera reprezentativnosti regresionog modela i testiranje validnosti modela.

7. Upotreba modela za ocenjivanje i predviđanje Y.

Page 18: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

266 OSNOVI STATISTIKE

Slika 11.6 Grafički prikaz prave Y = 1 + 0,5X

Vratimo se sada na Sliku 11.1, gde smo kroz dijagram raspršenosti prikazali podatke o izdacima za propagandu i prihode od prodaje 10 računarskih firmi. Analizirajmo pažljivo ovu sliku. Ako bi se sve empirijske tačke nalazile na istom pravcu, tada bi se jednostavno odredila jednačina prave linije. Zamenom neke određene vrednosti X dobila bi se lako željena vrednost za Y i osnovni cilj regresije bio bi ispunjen. Nažalost, takva veza je funkcionalna. Kao što znamo, u ekonomskoj stvarnosti preovladavaju stohastičke veze i kao posledicu imamo manja ili veća odstupanja tačaka od neke zamišljene prave linije, baš kao na našem dijagramu. Jasno je da je nemoguće pronaći pravu koja će da prolazi kroz sve tačke. Šta nam onda ostaje? Jedino da nađemo takvu pravu liniju koja će biti što je moguće bliže svim empirijskim vrednostima. Drugim rečima, pravu koja bi ucrtane tačke najbolje reprezentovala. Takva prava linija naziva se linijom regresije. Naš zadatak svodi se zato na nalaženje dva koeficijenta te prave linije (jer smo je samim tim u potpunosti definisali). Dolaženjem do vrednosti ta dva koeficijenta (odsečka i nagiba) omogućiće predviđanje Y za različite željene vrednosti X. Odmah da razjasnimo da takvo predviđanje neće biti egzaktno, jer se u obzir mora uzeti i greška zbog stohastičke prirode veze.

11.5.2 Prost linearni regresioni model

Na osnovu Dijagrama 11.1 možemo sagledati da smo za podatke u Primeru 11.1 već prošli kroz prve tri etape regresije:

1. Prihode od prodaje smo identifikovali kao zavisnu, a izdatke za propagandu kao objašnjavajuću promenljivu.

2. Slučajan uzorak od 10 firmi je već izabran. 3. Na osnovu dijagrama raspršenosti 11.1 videli smo da se empirijske

vrednosti približno grupišu oko prave linije. Sada ćemo da objasnimo sledeće dve etape, uz napomenu da se četvrtom etapom bavi prevashodno ekonometrija. Podaci koje smo grafički prikazali na Slici 11.1 odnose se na slučajan

Page 19: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 267

uzorak od 10 firmi. Zadatak koji se pred nas postavlja je da nađemo matematički oblik zavisnosti (tj. formulu) koja najbolje opisuje vezu između izdataka za privrednu propagandu i prihoda od prodaje. Opredelili smo se za najjednostavniji model – linearni model. Model polazi od jednačine prave linije, date izrazom (11.8), koja opisuje funkcionalnu vezu između dve pojave. Međutim, nama je poznato da u ekonomiji i društvenim naukama preovladavaju stohastičke veze. Usled toga, model (11.8) mora da se koriguje i prilagodi realnosti. Zato ćemo u regresionoj analizi koristiti modele poput (11.3). Drugim rečima, sve ostale faktore koji utiču na zavisnu promenljivu Y obuhvatićemo kroz stohastički član (ili, što je isto, slučajnu grešku). Stohastički član obeležićemo sa ε (grčko slovo epsilon). Na osnovu svega navedenog postavićemo prost linearni regresioni model. Formulisaćemo ga tako što ćemo napisati jednačinu za zavisnu promenljivu Yi:

0 1= + +β β εi i iY x i = 1,2,...,N

gde su

Yi i-ta zavisna promenljiva

xi i-ta vrednost objašnjavajuće promenljive

ß0 i ß1 su regresioni parametri: ß0 je odsečak ili slobodni član, a ß1 nagib

εi stohastički član ili slučajna greška

N veličina osnovnog skupa

i i-ta vrednost u osnovnom skupu.

Šta opisuje ovaj regresioni model i u čemu je njegov smisao? Regresioni model opisuje (modelira) stohastičku zavisnost između posmatrane dve promenljive u osnovnom skupu, iz koga je izabran uzorak. Model je linearan, jer je njegov deterministički deo β0 + β1xi prava linija. Objasnimo detaljnije konceptualnu osnovu modela. Vraćajući se na naš Primer 11.1, pretpostavimo za trenutak da su nam poznati podaci za sve firme u Srbiji koje se bave prodajom računarske opreme. Recimo da je njihov broj 1000 (N=1000) i da između izdataka za propagandu i prihoda od prodaje postoji stohastička linearna veza kao u (11.9). Grafički prikazano, dijagram raspršenosti mogao bi izgledati kao na Slici 11.7.

Prost linearni regresioni model (11.9)

deterministički deo modela

stohastički deo modela

Page 20: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

268 OSNOVI STATISTIKE

Slika 11.7 Dijagram raspršenosti za osnovni skup Da se radi o stohastičkoj vezi vidimo po tome što za svaku vrednost objašnjavajuće promenljive X imamo čitav niz vrednosti Y. Teorijski, regresioni model podrazumeva da je broj takvih vrednosti Y beskonačan. Analizirajmo sada pažljivije raspored tačaka na Slici 11.7. Najpre uočavamo generalnu tendenciju: sa porastom X povećava se i Y. Takođe možemo videti da se sve prosečne vrednosti Y (za pojedine vrednosti X), koje su označene crnim krugovima, nalaze na pravoj liniji. Takva prava linija koja prolazi kroz sve prosečne vrednosti Y, označimo ih sa | iY X xμ = ,11 najbolje opisuje stohastičku

vezu između posmatrane dve pojave, odnosno najviše je prilagođena datim podacima. Ona se naziva linijom regresije skupa (populacije). Njena jednačina glasi:

μ β β⏐ = = +0 1i iY X xx

Ovo je sasvim u skladu sa izrazom (11.4), gde smo naveli da je prosek Y jednak determinističkom delu modela.

Ako bi nam u praksi bile poznate vrednosti oba koeficijenta regresione linije skupa, tada bismo, jednostavnom zamenom pojedinih vrednosti ix , došli do predviđanja za prosečne vrednosti Yi. Nažalost, kako uvek radimo samo sa uzorkom, te koeficijente ne možemo izračunati i stoga ß0 i ß1 predstavljaju za nas nepoznate parametre (poput aritmetičke sredine skupa μ). Zadatak regresije svodi se, stoga, u njihovom ocenjivanju na osnovu podataka uzorka, kako bismo na osnovu ocena izvršili predviđanje. Nalaženjem takvih ocena, označimo ih sa b0

11 | iY X xμ = se čita: prosek Y za X jednako xi, ili prosek Y pod uslovom da je X

jednako xi.

(11.10) Regresiona linija osnovnog skupa

Parametar odsečka Parametar nagiba

Page 21: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 269

i b1, faktički se dolazi do koeficijenata prave linije u uzorku koja se naziva linijom regresije uzorka. Veza između dijagrama raspršenosti za populaciju i uzorak može se uočiti sa Slike 11.8.

Slika 11.8 Dijagrami raspršenosti skupa i uzorka

Sa Slike 11.8 se jasno sagledava kako se generišu podaci u slučajnom uzorku veličine n iz populacije veličine N. Dakle, ideja regresije je u sledećem: pronaći najbolju liniju regresije uzorka i nju koristiti kao "supstitut" za nepoznatu liniju regresije skupa.

Karakteristike i pretpostavke regresionog modela

Objasnimo sada detaljnije komponente regresionog modela. Krenimo od stohastičkog člana. Postavlja se pitanje, zbog čega model uključuje stohastički član ε. U uvodnom delu smo već delimično odgovorili na ovo pitanje. Ovde ćemo detaljnije navesti tri razloga:

1) Na zavisnu promenljivu Y ne deluje samo objašnjavajuća promenljiva X, već i veliki broj drugih faktora koji u modelu nisu identifikovani. U našem primeru, na prodaju računarske opreme, osim propagande, čije je dejstvo obuhvaćeno modelom, deluje i cena i kvalitet opreme, dohodak i starosna struktura stanovništva, preferencije, itd.

2) U ekonomskim relacijama skoro uvek su prisutni subjektivni faktori, svojstveni ljudskom ponašanju, sa nepredvidljivim dejstvom.

3) Statistički podaci u uzorku sadrže greške u merenju.

Navedeni faktori najčešće deluju zajedno, tako da se može prihvatiti da pojedini od njih deluju u suprotnim smerovima i da se u zbiru njihovi uticaji međusobno potiru. Usled toga je logično pretpostaviti da je stohastički član u

Page 22: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

270 OSNOVI STATISTIKE

proseku jednak nuli. Takođe, na osnovu Centralne granične teoreme može se prihvatiti da stohastički član ima normalan raspored. Već smo objasnili da je po statističkoj prirodi ε slučajna promenljiva. Prilikom objašnjenja pojma slučajne promenljive (odeljak 6.1) naveli smo da je svaka funkcija slučajne promenljive i sama slučajna promenljiva. Primenjeno na regresioni model, to znači da je i zavisna promenljiva Y slučajna promenljiva, jer je funkcija slučajne promenljive ε. U našem primeru, za bilo koje izdatke za propagandu, pre nego što se izvuče uzorak, prihode od prodaje nije moguće unapred predvideti, pa je Y slučajna promenljiva.

Ostalo je još da objasnimo značenje dva regresiona parametra. Da bismo to učinili najpre ćemo da preciznije postavimo matematički izraz linije regresije u skupu, odnosno prave koja prolazi kroz prosečne vrednosti Yi :

Očekivana vrednost E(Yi) pojavljuje se iz razloga što se radi o proseku slučajne promenljive Yi, pa ćemo, zbog toga, nadalje, za prosečnu vrednost Yi (za dato xi) koristiti izraz sa očekivanom vrednošću. Poređenjem gornjeg izraza i izraza za model (11.9) vidimo da je razlika u tome da se model odnosi na pojedinačne vrednosti Yi, a linija regresije skupa na prosečne vrednosti E(Yi). Na osnovu izraza (11.11) i Slike 11.6 možemo da damo tumačenje regresionih parametara.

Regresioni parametri (koeficijenti) − tumačenje

Regresioni parametar ß0 (odsečak) pokazuje prosečnu vrednost zavisne promenljive za nultu vrednost objašnjavajuće promenljive.

Regresioni parametar ß1 (nagib) pokazuje prosečnu promenu zavisne promenljive Y kada se objašnjavajuća promenljiva X poveća za jednu svoju jedinicu.

Specifikacija regresionog modela kao statističkog modela ne podrazumeva samo njegov matematički izraz, već i pretpostavke koje obezbeđuju optimalno ocenjivanje nepoznatih parametara ßo i ß1. Najčešće se uvodi sledećih pet pretpostavki:

1. Normalnost: slučajne greške εi imaju normalan raspored.

2. E(εi) = 0. To znači da je stohastički član (slučajna greška) u proseku jednak nuli.

3. Homoskedastičnost. Ova pretpostavka se odnosi na disperziju stohastičkih članova i kaže da sve slučajne greške imaju jednaka disperziju, preciznije, jednake varijanse:

(11.11)

Populaciona linija regresije

μ=⏐ iY X x

= E(Yi) = β0 + β1xi

Page 23: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 271

Var (ε1) = Var (ε2) = ... = Var (εN) = σ 2

Ukoliko je ova pretpostavka narušena pojavljuje se problem heteroskedastičnosti.

Prve tri pretpostavke možemo jednostavno napisati na sledeći način:

εi : N(0, 2σ )

tj. stohastički član ima normalan raspored sa aritmetičkom sredinom 0 i varijansom 2σ .

4. Nema autokorelacije. To znači da između bilo koja dva stohastička člana εi i εj ne postoji linearna korelacija.

5. X nije slučajna promenljiva (otuda je u modelu objašnjavajuća promenljiva označena malim slovom). Ova pretpostavka ukazuje na to da su vrednosti objašnjavajuće promenljive fiksirane, tj. da ih istraživač unapred mora odabrati pre uzimanja uzorka. U našem primeru to bi značilo da bi se najpre fiksirali pojedini nivoi ulaganja u propagandu, a zatim za svaki od njih na slučaj birala firma i merila njena prodaja.

Svih pet pretpostavki zajedno formiraju tzv. normalan linearni regresioni model. Budući da se koristi pretpostavka o normalnosti, jasno je da je linearna regresija parametarski statistički metod.

11.5.3 Ocenjivanje regresionog modela: Metod najmanjih kvadrata

Videli smo da se druga etapa u prostoj regresionoj analizi svodi na grafičko prikazivanje podataka na dijagramu raspršenosti. Generalno, na osnovu dijagrama raspršenosti odabraćemo tip krive koji najviše odgovara empirijskim podacima. Tek kada nam dijagram (uz druga teorijska i empirijska saznanja) ukaže na linearnu zavisnost dve pojave, prelazimo na sledeću etapu - ocenjivanje nepoznatih parametara: slobodnog člana ß0 i koeficijenta nagiba ß1. Cilj je da se na osnovu uzorka dođe do najboljih mogućih ocena b0 i b1, i time postavi linija regresije u uzorku:

Linija regresije u uzorku

0 1ˆi iy b b x= +

gde je sa ˆiy označena ona vrednost Y koja se tačno nalazi na najbolje prilagođenoj liniji regresije uzorka, pa se naziva prilagođena vrednost Y. Ocene b0 i b1 imaju identično značenje kao kod osnovnog skupa, s tim što se odnose na uzorak. Linija regresije u skupu i uzorku se po pravilu razlikuju, jer se ocenjene vrednosti b0 i b1 razlikuju od stvarnih vrednosti parametara ß0 i ß1. Razlog je jednostavan: uzorak skoro nikada nije savršeno reprezentativan.

(11.12)

Page 24: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

272 OSNOVI STATISTIKE

Kakva je statistička priroda ocena b0 i b1? Pošto od uzorka do uzorka mogu uzimati različite vrednosti, koje ne možemo unapred predvideti, one su slučajne promenljive. Ovo je analogno ocenjivanju aritmetičke sredine skupa, gde je nepoznata aritmetička sredina skupa μ konstanta, njena ocena X slučajna promenljiva, a ocenjena (realizovana) vrednost x konstanta. U prostoj regresiji nepoznati parametri ß0 i ß1 su konstante, njihove ocene b0 i b1 slučajne promenljive, a nakon što se odabere uzorak, odgovarajuće ocenjene vrednosti b0 i b1 su konstante. Ove razlike možemo prikazati Tabelom 11.4.

Tabela 11.4 Statistička priroda parametara, ocena i ocenjenih vrednosti u regresiji

Parametri β0 i β1 Konstante

Ocene b0 i b1 Slučajne promenljive

Ocenjene vrednosti b0 i b1 Konstante

Vratimo se našem primeru sa podacima Tabele 11.1, koji su grafički prikazani na Slici 11.1. Između tačaka na dijagramu raspršenosti teorijski je moguće povući beskonačno mnogo pravih linija. Sve one bi se, naravno, razlikovale po koeficijentima b0 i b1. Postavlja se sledeće pitanje: kako između empirijskih tačaka povući onu pravu liniju koja ih najbolje reprezentuje? Ta prava bi trebalo da prolazi što je moguće bliža svim tačkama i time bi nam dala optimalne ocene b0 i b1.

Kao prvo rešenje nameće se grafički metod, tj. da se vizuelno odabere ona prava koja najviše odgovara opštoj tendenciji rasporeda tačaka. Nažalost, ovaj metod ima dve krupne slabosti (1) potpuno je subjektivne prirode i (2) ne daje mogućnost određivanja greške ocene. Zbog toga je u statistici predloženo više objektivnih metoda za rešavanje ovog problema. Najčešće se koristi metod najmanjih kvadrata (eng. method of least squares).

Metod najmanjih kvadrata se zasniva na minimiziranju kvadrata odstupanja svih empirijskih tačaka od regresione linije. Osnovne ideje metode najmanjih kvadrata predložio je Karl Gaus. Radi jasnijeg sagledavanja ideje metoda najmanjih kvadrata prikažimo na Slici 11.9, u proizvoljnom dijagramu raspršenosti, pravu za koju pretpostavljamo da se najbolje prilagođava podacima. Poznato nam je da će zbog stohastičkog karaktera veze empirijske tačke pokazivati manja ili veća odstupanja od prave. Vertikalno odstupanje (razliku) između stvarne vrednosti yi i prilagođene vrednosti nazivamo rezidualom i označavamo sa ei:

Rezidual

0 1ˆ ( )i i i i ie y y y b b x= − = − +

Sa Slike 11.9 se može sagledati da će rezidual biti pozitivan ako se empirijska tačka nalazi iznad ocenjene linije, negativan ako tačka leži ispod, i biće jednak nuli ako se stvarna vrednost poklapa sa prilagođenom. U slučaju funkcionalne

(11.13)

Page 25: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 273

veze svi reziduali bi bili jednaki nuli. Zaključujemo da će prava dobro reprezentovati raspored tačaka ukoliko su vrednosti svih reziduala relativno male, i obrnuto. Dakle, rezidual ei, predstavlja ocenu odgovarajućeg stohastičkog člana εi, koji pokazuje odstupanja na nivou skupa.

Slika 11.9 Stvarne vrednosti, prilagođene vrednosti i reziduali

Na osnovu prethodnog zaključujemo da bi se kao dobar izbor pokazala ona prava linija kod koje se potiru pozitivna odstupanja (iznad prave) i negativna odstupanja (ispod prave). Preciznije, ona prava kod koje je zbir vertikalnih odstupanja (tj. reziduala) jednak nuli. Nažalost, može se lako pokazati da je broj takvih pravih neograničen. Na primer jedna od takvih pravih bi bila jednaka prosečnoj vrednosti Y. Usled toga moramo da postavimo drugačiji kriterijum za najbolju pravu liniju. Na analogan način kao kod definisanja varijanse, nameće se da kao kriterijum koristimo sumu kvadrata odstupanja. Dakle, ideja metoda najmanjih kvadrata jeste da se od svih mogućih pravih linija odabere ona koja ima najmanju sumu kvadrata vertikalnih odstupanja (reziduala). Matematički, potrebno je potražiti minimum izraza:

[ ]22 20 1ˆ( ) ( )i i i i ie y y y b b x = − = − +

U ovom izrazu nepoznate su bo i b1. Postupak minimiziranja se sprovodi nalaženjem parcijalnih izvoda po b0 i b1 i njihovim izjednačavanjem sa nulom. Na taj način dolazimo do sistema dve jednačine sa dve nepoznate, koje se nazivaju normalnim jednačinama:

Normalne jednačine

= =

= = ==

= +

+

0 11 1

210

1 1 1

n n

iii i

n n n

i i iii i i

y nb b x

y x b x b x

(11.14)

(11.15)

(Rezidual) i i ie y y= −

Page 26: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

274 OSNOVI STATISTIKE

gde n predstavlja veličinu uzorka, odnosno broj parova podataka. Rešavanjem normalnih jednačina dolazimo do formula za ocenjene vrednosti b0 i b1:

Formule za ocenjivanje parametara regresionog modela metodom najmanjih kvadrata

Iako na prvi pogled izgleda da je metod najmanjih kvadrata komplikovan, njegova praktična primena je krajnje jednostavna i svodi se na primenu formula (11.16) i (11.17).

Primenimo metod najmanjih kvadrata na podatke date u Tabeli 11.1. Rezultati i kolone potrebne za izračunavanje dati su u Tabeli 11.6. Kolona y2 nam trenutno nije potrebna, ali ćemo njenu sumu koristiti kasnije, pa smo je pridodali tabeli.

Tabela 11.5 Podaci za izračunavanje linije regresije metodom najmanjih kvadrata

Firma Ulaganje u

propagandu (x)

Prodaja (y) xy x2 y2

A 8 10 80 64 100 B 10 14 140 100 196 C 3 3 9 9 9 D 3 5 15 9 25 E 2 4 8 4 16 F 7 12 84 49 144 G 5 8 40 25 64 H 6 9 54 36 81 I 5 7 35 25 49 J 4 6 24 16 36 Σ 53 78 489 337 720

1 2 2 210 489 53 78

1,3476( ) 10 337 53

n xy x yb

n x x

− ⋅ − ⋅= = =− ⋅ −

0 178 53

1,3476 0,657710 10

b y b x= − = − ⋅ =

Matematički izraz ocenjene regresione linije glasi:

iy = 0,6577 + 1,3476xi

Ocenjena vrednostparametra nagiba

−=

− 1 2 2( )

n xy x yb

n x x

Ocenjena vrednostparametra odsečka = −0 1b y b x

(11.16)

(11.17)

Page 27: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 275

Ovu prava ucrtaćemo u dijagram raspršenosti tako što ćemo uzeti bilo koje dve vrednosti za x, zameniti u jednačinu i dobiti odgovarajuće prilagođene

vrednosti iy . Spajanjem te dve tačke dobijamo pravu liniju. To smo i uradili

na Slici 11.10. korišćenjem statističkog paketa Minitab (otuda i zanemarljive razlike u rezultatima, kao posledica zaokrugljivanja).

Slika 11.10 Linija regresije uzorka između izdataka za propagandu i prihoda od prodaje 10 računarskih firmi

Da sumiramo: od beskonačno mnogo pravih linija koje je moguće povući između empirijskih tačaka, ucrtana regresiona linija je najbolja (eng. best-fit), jer na osnovu metoda najmanjih kvadrata ispunjava dva kriterijuma:

1) suma reziduala je jednaka nuli,

2) ima najmanju sumu kvadrata vertikalnih odstupanja u odnosu na bilo koju drugu pravu.

Interpretacija ocena dobijenih metodom najmanjih kvadrata

Podsetimo se da ocenjena vrednost b0 pokazuje odsečak na Y osi u dijagramu raspršenosti. U odeljku o ekstrapolaciji objasnićemo zašto ona najčešće u praksi nema neku posebnu ekonomsku važnost. Štaviše, može dovesti do besmislenih zaključaka. Pri tumačenju dobijenih vrednosti u regresiji moramo strogo da vodimo računa o mernim jedinicama u kojima su iskazane posmatrane dve promenljive.

U našem primeru promenljiva X (izdaci za propagandu) je iskazana u milionima, a Y (prihodi od prodaje) u stotinama miliona dinara. Ocenjena vrednost odsečka b0 = 0,6577 bi značila da u slučaju da bi firma koja ništa ne

Propaganda

Prod

aja

1086420

16

14

12

10

8

6

4

2

0

Najbolje prilagođena regresiona linijaProdaja = 0.6578 + 1.348 Propaganda

Page 28: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

276 OSNOVI STATISTIKE

ulaže u propagandu imala u proseku prihode od prodaje u iznosu od 65.777.000 dinara ( 0,6577 100.000.000× ).

Više pažnje posvetićemo ocenjenoj vrednosti nagiba, b1. U skladu sa ranijim tumačenjem parametra ß1, sledi da regresioni koeficijent b1 predstavlja ocenjenu vrednost prosečne promene zavisne promenljive Y kada se objašnjavajuća promenljiva X poveća za svoju jedinicu.

Vodeći računa o mernim jedinicama, u našem primeru ocenjena vrednost 1,3476 ukazuje na procenu da ako se ulaganje za propagandu poveća za jednu svoju jedinicu, a to je 1 milion dinara, prodaja će se u proseku povećati za 134.760.000 dinara ( 1,3476 100,000,000× ). Dakle, oba regresiona koeficijenta uvek tumačimo u mernim jedinicama promenljive Y.

Nakon primene metoda najmanjih kvadrata, u ekonomskim istraživanjima je od posebne važnosti proveriti veličinu i znak dobijenih ocenjenih vrednosti. Stoga, kada se kao rezultat ocenjivanja dobije znak ili veličina ocenjene vrednosti u suprotnosti sa ekonomskom teorijom ili logikom, u opštem slučaju takve vrednosti smatraju se nezadovoljavajućim. Do toga dolazi bilo zbog neodgovarajuće veličine uzorka, njegove nereprezentativnosti, ili zbog narušenih pretpostavki. U našem primeru, ocenjena vrednost b1 ima pozitivan znak, što je u skladu sa očekivanjem da se sa porastom ulaganja u propagandu povećava i prihod od prodaje.

Gaus-Markovljeva teorema

Postavlja se pitanje, koliko su ocenjene vrednosti odsečka i nagiba bliske nepoznatim parametrima? Ili, što je isto, koliko je ocenjena regresiona linija u blizini regresione linije u skupu? O kvalitetu ocena dobijenih metodom najmanjih kvadrata, u poređenju sa ocenama dobijenim bilo kojim drugim metodima, govori Gaus-Markovljeva teorema koja je, uz Centralnu graničnu teoremu, jedan od najvažnijih rezultata teorijske statistike.

Gaus-Markovljeva teorema

Ako su ispunjene sve pretpostavke prostog linearnog regresionog modela, ocene dobijene metodom najmanjih kvadrata su najbolje (efikasne), nepristrasne linearne ocene.

Na osnovu teoreme vidimo da su ocene dobijene metodom najmanjih kvadrata između ostalog i nepristrasne. To se može napisati korišćenjem očekivane vrednosti:

E(b0) = ß0 i E(b1) = ß1 ,

odnosno da su ocene b0 i b1 u proseku jednake nepoznatim parametrima ß0 i ß1. U našem primeru, ako bi se iz čitavog skupa od 1000 firmi izvukli svi mogući različiti uzorci od 10 preduzeća i izračunale ocenjene vrednosti b0 i b1, njihove

Page 29: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 277

aritmetičke sredine bile bi jednake nepoznatim parametrima. Posmatrajmo sada ocenu b1. Ako bismo kod svih mogućih uzoraka izračunali ocenjene vrednosti b1, dobili bismo uzorački raspored ocene b1, koji bi grafički izgledao kao na Slici 11.11.

Vidimo da ocena b1 (kao slučajna promenljiva) ima normalan raspored. Aritmetička sredina tog rasporeda je ß1. Standardna devijacija uzoračkog rasporeda ocene b1, označimo je sa σb1, naziva se standardnom greškom ocene b1. Šta pokazuje ova standardna greška? Kao i svaka standardna greška - prosek odstupanja ocene od parametra. Dakle, standardna greška nagiba pokazuje prosek odstupanja ocene nagiba u uzorku od parametra nagiba u skupu. Kao takva, ona ukazuje na preciznost ocene; ukoliko je standardna greška manja, ocena je kvalitetnija. U slučaju neispunjenja pojedinih pretpostavki regresionog modela potrebno je preduzeti odgovarajuće korektivne akcije. Ovo je predmet ekonometrije i mi se na njima nećemo zadržavati. Spomenimo samo da je regresiona analiza robustna na odstupanje od normalnosti, ali da se posebni problemi javljaju u slučaju postojanja autokorelacije i heteroskedastičnosti. Ovim smo završili sa prikazivanjem četvrte i pete etape u regresionoj analizi. Prelazimo na šestu: potrebno je ispitati koliko je dobro regresiona linija prilagođena podacima i testirati da li objašnjavajuća promenljiva predstavlja bitan faktor pri objašnjavanju varijacija Y.

11.5.4 Mere reprezentativnosti regresionog modela

Nakon što smo ocenili parametre regresionog modela došli smo do optimalnih ocena i na osnovu njih konstruisali regresionu liniju u uzorku. Od svih mogućih pravih linija ona se najbolje prilagođava podacima. Sada se postavlja pitanje, koliko takva linija dobro reprezentuje empirijske podatke? Drugačije rečeno, koliko je naš model uspešan, tj. kvalitetan, u opisivanju zavisnosti

E(b1) = β1

1

21 1: ( , )bb N β σ

Slika 12.11 Teorijski uzorački raspored ocene b1

Page 30: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

278 OSNOVI STATISTIKE

između dve pojave? U ovom delu upoznaćemo dve mere reprezentativnosti regresione linije. Prva je apsolutna mera odstupanja empirijskih tačaka i naziva se standardnom greškom regresije, a druga, koeficijent determinacije, je relativan pokazatelj. Da bismo razumeli ove dve mere najpre je potrebno sagledati od čega zavisi varijabilitet (ponašanje) zavisne promenljive Y. Napomenimo da smo skoro identičnu logiku koristili kod analize varijanse, kada smo formulisali faktorsku i rezidualnu varijansu. Podsetimo se jednačine prostog linearnog regresionog modela: Yi = ß0 + ß1xi + εi . Shodno ovom modelu, pojedine vrednosti Yi variraju iz dva razloga.

1. Jedan izvor varijabiliteta se duguje varijacijama u vrednostima xi i može se objasniti regresionim modelom.

2. Drugi deo varijabiliteta posledica je delovanja slučajne greške εi i ne može se objasniti regresionim modelom.

U cilju jasnijeg sagledavanja ovih komponenti varijabiliteta zavisne promenljive posmatrajmo proizvoljnu liniju regresije uzorka, ucrtanu u dijagram raspršenosti, kao na Slici 11.12.

Slika 11.12 Ukupno, objašnjeno i neobjašnjeno odstupanje zavisne promenljive Y

Na dijagramu raspršenosti 11.12 posmatrajmo jednu, proizvoljnu empirijsku (stvarnu) vrednost yi iz uzorka koja odgovara vrednosti objašnjavajuće promenljive xi. Pošto je aritmetička sredina serije y konkretnog uzorka uvek konstanta, ona ne zavisi od serije x, pa se može ucrtati kao linija paralelna x osi. Iz deskriptivne statistike nam je poznato da se odstupanje (varijacija) meri najčešće kao razlika između podataka i aritmetičke sredine svih podataka. U ovom slučaju "podatak" je yi, a aritmetička sredina y . Takvo odstupanje naziva se ukupnim odstupanjem. Vidimo da se posmatrana tačka ne nalazi tačno na regresionoj liniji, već je iznad nje. Zbog čega? Zato što posmatramo stohastičke

yi

iy

Neobjašnjeno odstupanje Objašnjeno odstupanje

( ) Ukupno odstupanjeiy y− ( )iy y−

( )i iy y−

xi

Page 31: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 279

veze i do tog odstupanja iznad prave )ˆ( ii yy − je došlo pod uticajem slučajne

greške. Zato takvo odstupanje nazivamo neobjašnjenim odstupanjem (rezidualom). Nasuprot tome, odstupanje empirijske vrednosti od aritmetičke sredine )ˆ( yyi − je objašnjeno regresionom vezom između X i Y i naziva se

objašnjenim odstupanjem. Ukupno odstupanje zavisne promenljive Y stoga možemo raščlaniti na zbir objašnjenog i neobjašnjenog odstupanja:

)( yyi − = )ˆ( yyi − + )ˆ( ii yy −

Ukupno Objašnjeno Neobjašnjeno odstupanje odstupanje odstupanje

Može se pokazati da će jednakost nastaviti da važi i kada obe strane kvadriramo i sumiramo za sve vrednosti u uzorku. Pošto su tada obuhvaćene sve vrednosti zavisne promenljive u uzorku kažemo da je ukupan varijabilitet jednak zbiru objašnjenog i neobjašnjenog varijabiliteta:

2)( yyi − = 2)ˆ( yyi − + 2)ˆ( ii yy − SKU SKO SKN Ukupna Objašnjena Neobjašnjena suma kvadrata suma kvadrata suma kvadrata (Ukupan (Objašnjen (Neobjašnjen varijabilitet) varijabilitet) varijabilitet)

Na taj način, došli smo do iste jednakosti kao kod analize varijanse. Ukupna suma kvadrata razložena je na dva dela. Objašnjena suma kvadrata često se naziva i regresionom sumom kvadrata, a neobjašnjena suma kvadrata rezidualnom ili sumom kvadrata greške. Primetimo da smo izraz SKN već koristili u obliku Σei2, pri objašnjenju metoda najmanjih kvadrata. Jednakost (11.19) ima veliki značaj, jer se na osnovu nje dolazi do mera reprezentativnosti regresione linije; standardna greška regresije se zasniva na vrednosti SKN, a koeficijent determinacije na poređenju veličine SKO u odnosu na SKU.

Standardna greška regresije

Prvu meru kvaliteta regresionog modela formulisaćemo polazeći od sledeće jednostavne ideje: što je raspršenost tačaka oko prave linije manja, model je bolji, i u suprotnom što je raspršenost tačaka veća linearni model je sve lošiji. U jednoj ekstremnoj situaciji, kada se sve tačke nalaze baš na pravoj liniji, odstupanja nema i model "savršeno opisuje zavisnost dve pojave. Na drugom kraju ekstrema tačke su sasvim raspršene, na sve strane oko prave linije, i linearni model je beskoristan. Koji indikator ukazuje na veličinu odstupanja

(11.18)

(11.19)

Page 32: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

280 OSNOVI STATISTIKE

podataka od prave linije? Vodimo računa da nam treba pokazatelj na nivou skupa. Taj pokazatelj je varijansa slučajne greške, 2σ . Upravo ona pokazuje na veličinu odstupanja podataka od prosečnih vrednosti, koje se nalaze na regresionoj liniji u osnovnom skupu. Sa povećanjem raspršenosti tačaka uvećava se i vrednost varijanse greške i regresiona linija skupa sve slabije reprezentuje vezu između pojava. Sa druge strane, u slučaju funkcionalne veze, sve tačke se nalaze na regresionoj liniji skupa, pa je i 2σ jednaka nuli. Nažalost, u praksi skoro nikada ne raspolažemo svim podacima skupa, pa varijansu slučajne greške ne možemo ni izračunati. Ostaje nam samo da je ocenimo na osnovu uzorka. Pri tome kao "supstitut" za odstupanja u skupu, tj. εi , koristićemo odgovarajuća odstupanja u uzorku, a to su reziduali ei. Dakle, reziduale ćemo koristiti da bismo ocenili varijansu slučajne greške. Poznato nam je da se varijansa uzorka dobija kada se suma kvadrata podeli brojem stepeni slobode (n-1). Ovde, u prostoj regresionoj analizi, polazimo od sume kvadrata reziduala, a broj stepeni slobode je (n - 2), jer ocenjujemo dva parametra, 0β i 1β . Zato ocenu varijanse 2σ dobijamo po formuli:

= = =− −

22 ( )Suma kvadrata reziduala

Broj stepeni slobode 2 2i iy ySKN

sn n

Vidimo da je brojilac u gornjoj oceni jednak SKN, odnosno sumi kvadrata reziduala, pa se takva ocena često naziva rezidualnom varijansom. Standardna greška regresije dobija se kao kvadratni koren iz rezidualne varijanse, pa predstavlja ocenu standardne devijacije slučajne greške:

2 2

0 1( )2 2

i iy y y b y b xys

n n− − −

= =− −

Koristeći rezultate date u Tabeli 11.5, prikažimo u našem primeru sa ulaganjima u propagandu i prodajom izračunavanje standardne greške regresije:

20 12 720 0,6577 78 1,3476 489

1,2152 10 2

− − − ⋅ − ⋅= = =− −

y b y b xys

n

1 215 1 102, ,s = =

Budući da je standardna greška regresije u suštini standardna devijacija, ona je apsolutna mera.

(11.20)

(11.21) Standardna greška regresije

Page 33: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 281

Standardna greška regresije je apsolutna mera i pokazuje odstupanja empirijskih podataka u uzorku od regresione linije uzorka.

Koeficijent determinacije

U praksi se kao indikator kvaliteta regresionog modela, odnosno kao mera njegove reprezentativnosti, skoro isključivo koristi koeficijent determinacije. Ovim ne negiramo važnost standardne greške regresije, ona je uostalom deo regresionog izlaza svakog statističkog softvera. Prednosti koeficijenta determinacije u odnosu na standardnu grešku su sledeće:

1. ne zavisi od mernih jedinica promenljive Y, odnosno on je relativna mera,

2. mnogo je lakši za tumačenje, i

3. na jednostavan način omogućava poređenje više regresionih modela.

Koeficijent determinacije ćemo definisati polazeći od jednakosti (11.19) u kojoj je suma kvadrata ukupnog varijabiliteta zavisne promenljive Y (SKU) predstavljena kao zbir sume kvadrata objašnjenog (SKO) i neobjašnjenog varijabiliteta (SKN):

SKU = SKO + SKN

Nakon deljenja obe strane gornje jednakosti sa SKU i prebacivanja članova sa SKN na desnu stranu, dolazimo do relacije:

1= −SKO SKNSKU SKU

Leva strana gornje jednakosti pokazuje koliko je učešće objašnjenog varijabiliteta u ukupnom; naziva se koeficijentom determinacije (eng.

coefficient of determination) i obeležava sa 2r . Pri izračunavanju koristićemo jednostavniju formulu:

Koeficijent

determinacije

222 2

1 22

x nxr b

y ny

−=

gde je b1 ocenjena vrednost nagiba.

Koeficijent determinacije je relativna mera i pokazuje učešće objašnjenog varijabiliteta u ukupnom, odnosno koliko su varijacije promenljive Y objašnjene promenljivom X.

(11.23)

(11.24)

(11.22)

Page 34: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

282 OSNOVI STATISTIKE

Iz definicije koeficijenta determinacije sledi da njegova vrednost varira od 0 do 1, tj:

20 1r≤ ≤

Kada je 2r = 1 sve empirijske vrednosti yi se nalaze na liniji regresije - objašnjen varijabilitet jednak je ukupnom. Tada su varijacije promenljive Y u potpunosti objašnjene regresionom linijom i ne postoje uticaji drugih faktora, odnosno dve promenljive su u funkcionalnoj vezi. Približavanjem vrednosti koeficijenta determinacije nuli, sve je manji udeo objašnjenog varijabiliteta i regresiona linija

sve slabije reprezentuje podatke. U ekstremnom slučaju kada je 2r = 0, neobjašnjeni varijabilitet se izjednačava sa ukupnim, nimalo nismo uspeli da objasnimo ponašanje Y, te zaključujemo da ne postoji linearna regresija. U praksi se koeficijent determinacije množi sa 100, tako da se njegove vrednosti tumače u procentima. Da bismo lakše tumačili ovaj važan regresioni pokazatelj, ilustrujmo neke od vrednosti koje on može uzeti Slikom 11.16.

Slika 11.16 Reprezentativnost linearnog regresionog modela u zavisnosti od vrednosti koeficijenta determinacije

Izračunajmo koeficijent determinacije u regresionom modelu između izdataka za propagandu i prihoda od prodaje.

22 22 2 2

1 2 22

337 10 5,31,3476 0,9129

720 10 7,8

x nxr b

y ny

− − ⋅= = =− ⋅−

Rezultat upućuje na zaključak da je 91,29% ukupnog varijabiliteta prodaje objašnjeno izdacima za propagandom, odnosno regresionim modelom. Ostatak, 8,71% ukupnog varijabiliteta, nije objašnjen regresionom linijom, tj. pod uticajem je neidentifikovanih faktora. Pošto je r2 blizak jedinici, regresiona linija veoma dobro reprezentuje empirijske podatke.

Reprezentativnost regresionog modela

Page 35: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 283

Postoji bliska veza između koeficijenta determinacije koji je mera reprezentativnosti regresionog modela i koeficijenta proste linearne korelacije. Koeficijent proste linearne linearne korelacije jednak je kvadratnom korenu koeficijenta determinacije:

2r r= ±

Dakle, ako nam je poznat koeficijent korelacije, koeficijent determinacije ćemo najlakše odrediti kvadriranjem koeficijenta korelacije. U suprotnom, ne postoji samo jedno, već dva rešenja jer ne znamo da li je veza direktna ili inverzna.

11.5.5 Testiranje značajnosti regresione veze

Da bi primena regresione linije uzorka pri predviđanju vrednosti zavisne promenljive Y bila opravdana, nije dovoljno samo da je koeficijent determinacije relativno visok. Neophodno je prethodno ispitati da li je objašnjavajuća promenljiva zaista relevantna u opisivanju ponašanja zavisne promenljive. Preciznije, postavlja se pitanje, da li uopšte postoji linearno slaganje između varijacija posmatrane dve promenljive u skupu? Kada X i E(Y) nisu linearno povezani, tada, na osnovu regresione linije u skupu:

β β= +0 1( )i iE Y x zaključujemo da je nagib 1β jednak nuli. U tom slučaju vrednosti X nisu od koristi pri predviđanju Y.

Koeficijent nagiba 1β jednak je nuli u sledeća tri slučaja:

1. Y je konstantno za bilo koju vrednost X, na primer, Yi = 10. Ova situacija se grafički može videti na Slici 11.2.i.

2. Između posmatranih pojava ne postoji nikakva kvantitativna veza. Na Slici 11.2 ovaj slučaj je prikazan pod h.

3. Između promenljivih postoji nelinearna funkcionalna veza. Ovo je ilustrovano na Slici 11.2 c.

U svim ostalim situacijama postoji barem slaba linearna veza između X i Y, pa će se nagib prave razlikovati od nule. Stoga je u prostoj linearnoj regresiji najvažnije testirati hipotezu da li je parametar nagiba ß1 jednak nuli. Ako bi nas takav test uputio na zaključak da je 1β = 0, tada ne bismo smeli ocenjenu regresionu liniju koristiti u cilju predviđanja. Postavimo, stoga, nultu hipotezu da između varijacija posmatranih pojava u osnovnom skupu ne postoji linearna veza, odnosno da X ne utiče na Y:

0 1: 0H β =

i ograničimo se na dvosmernu alternativnu hipotezu:

1 1: 0H β ≠

Page 36: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

284 OSNOVI STATISTIKE

Statistiku testa jednostavno ćemo formirati slično kao kod proste linearne korelacije (izraz 11.6), tako što ćemo ocenu parametra staviti u odnos sa standardnom greškom te ocene (jer je pretpostavljena vrednost parametra jednaka nuli). Ovde je ocena b1, a njenu standardnu grešku

1bσ smo upoznali

kada smo razmatrali karakteristike ocena dobijenih metodom najmanjih kvadrata. Budući da standardna greška ocene nagiba,

1bσ , zavisi od nepoznate

standardne devijacije slučajne greške, σ, moramo je oceniti. Kada umesto σ stavimo njenu ocenu, s (standardnu grešku regresije), dolazimo do formule za standardnu grešku ocene nagiba:

Ocena standardne

greške nagiba =

−1 22

bs

sx nx

Statistika testa ima oblik :

1

1

b

bt

s=

i sledi Studentov raspored sa (n-2) stepena slobode, a testiranje se sprovodi po istom postupku kao kod linearne korelacije.

U našem primeru o izdacima za propagandu i prodaji (podaci Tabele 11.5) standardna greška ocene nagiba iznosiće:

1 2 2 2

1,1020,147

337 (10)(5,3 )b

ss

x nx= = =

− −

a statistika testa:

1

1 1,34769,167

0,147b

bt

s= = =

Odredimo p-vrednost kako bismo doneli odluku da li da odbacimo nultu hipotezu. Pri tome, za nivo značajnosti uzmimo standardni α = 0,05. Naša statistika testa iznosi 9,167 i kao takva veća je od najveće kritične vrednosti 3,3554 u Tablici 2 t rasporeda, za 8 stepeni slobode. U zaglavlju ćemo potražiti p-vrednost, ali ne zaboravimo da je pomnožimo sa 2, pošto je test dvosmeran. Vidimo da je p-vrednost 2 0,005< × , odnosno < 0,01. Pošto je p-vrednost manja od nivoa značajnosti odbacujemo nultu hipotezu i usvajamo alternativnu 1 1: 0H β ≠ . Zaključujemo, uz rizik 0,05, da se parametar nagiba 1β u regresionoj liniji osnovnog skupa razlikuje od nule. Samim tim, postoji linearna veza između varijacija posmatranih pojava u osnovnom skupu i regresionu liniju možemo koristiti za predviđanje. Takođe zaključujemo da X utiče na Y. Kažemo još da je ocena b1 statistički značajna.

U slučaju neodbacivanja nulte hipoteze korektno je zaključiti samo da nemamo dovoljno dokaza da X utiče na Y.

(11.25)

(11.26)

Page 37: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 285

11.5.6 Predviđanje vrednosti zavisne promenljive

Pređimo sada na poslednju etapu regresione analize, koja je ujedno i njen cilj. Da bismo validno koristili prost linearni regresioni model za predviđanje neophodno je da su ispunjena, istovremeno sledeća tri uslova:

Uslovi za validno predviđanje pomoću regresije

1. Regresiona linija dobro reprezentuje empirijske podatke (zaključeno na osnovu dijagrama raspršenosti i relativno visokog koeficijenta determinacije)

2. Parametar nagiba se statistički značajno razlikuje od nule, tj. β ≠1 0 .

3. Ne koristi se prekomerna ekstrapolacija

Objasnimo sada šta je ekstrapolacija i koji se tu problemi javljaju.

Problemi ekstrapolacije u regresiji

Ukoliko se izabrana vrednost objašnjavajuće promenljive, označimo je sa xp , za koju želimo da ocenimo ili predvidimo odgovarajuću vrednost zavisne promenljive Yp , nalazi u domenu raspoloživih podataka uzorka (u našem primeru između 2 i 10), tada govorimo o interpolaciji; u suprotnom radi se o ekstrapolaciji.

Ekstrapolacija je korišćenje regresione linije uzorka u cilju predviđanja vrednosti Y za one vrednosti X koje su izvan intervala koji je dat empirijskim podacima uzorka.

Ekstrapolacijom, u stvari, produžavamo regresionu liniju izvan opsega vrednosti objašnjavajuće promenljive koje smo dobili u uzorku. Veliki broj statističara smatra da se ekstrapolacija regresione linije uopšte ne bi smela primenjivati. Pri takvom postupku istraživač snosi rizik da izvan opsega podataka na osnovu kojih su ocenjeni parametri ne postoji linearna veza.

Vidimo da regresiona linija uzorka dobro reprezentuje linearnu stohastičku vezu između promenljivih unutar intervala dostupnih podataka, ali da izvan njega postoji krivolinijska veza. Svaka ekstrapolacija izvan neposredne blizine empirijskih tačaka bila bi u takvoj situaciji podložna velikoj grešci. Na osnovu navedenog možemo zauzeti sledeći stav: ekstrapolacija u praksi se ipak može primenjivati, ali samo u neposrednoj blizini najmanje i najveće vrednosti X date uzorkom.

Page 38: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

286 OSNOVI STATISTIKE

11.5.7 Interval ocene prosečne vrednosti Y i interval predviđanja pojedinačne vrednosti Y

Na osnovu regresione analize u statistici možemo formirati dva različita intervala:

1) interval ocene koji se odnosi na prosečnu vrednost zavisne promenljive i

2) interval predviđanja koji se odnosi na pojedinačnu vrednost Y.

Za izračunavanje oba ova intervala koristićemo neki statistički softver. Pre bilo kakvog formiranja ovih intervala neophodno je proveriti da li su ispunjeni uslovi dati u prethodnom odeljku. Ukoliko makar jedan uslov nije ispunjen dobijeni interval neće biti validan, odnosno njegovo izračunavanje nema smisla.

Bitno je shvatiti da se prilikom predviđanja pojedinačne vrednosti zavisne promenljive javlja veća neizvesnost jer pojedinačni slučajevi uvek pokazuju veća kolebanja od proseka. Samim tim i interval predviđanja pojedinačne vrednosti Y uvek će biti širi od intervala ocene prosečne vrednosti.

Prvi korak kod formiranja oba intervala svodi se na jednostavnu zamenu odabrane vrednosti objašnjavajuće promenljive u ocenjenoj regresionoj liniji uzorka.

0 1 ppy b b x= +

gde smo sa px označili vrednost objašnjavajuće promenljive X za koju želimo

da izvršimo ocenjivanje ili predviđanje. Pretpostavimo da u našem Primeru 11.1 želimo da izvršimo ocenjivanje ili predviđanje Y. Dalje pretpostavimo da smo se opredelili za firmu koja ulaže 9 miliona dinara u propagandu (xp = 9). Kao što smo naveli pre bilo kakvog predviđanja moramo da ispitamo da li su ispunjena sva tri uslova koja su neophodna za validno predviđanje.

1. Dijagram raspršenosti dat na Slici 11.1 sugeriše da između dve promenljive postoji linearno kvantitativno slaganje, odnosno da se empirijske vrednosti grupišu oko prave linije. Takođe, koeficijent determinacije je relativno visok i iznosi r2= 0,9129.

2. Statistički značajna ocena nagiba: p-vrednost za b1 = 0, dakle ocena b1 je statistički značajna.

3. Nema prekomerne ekstrapolacije: Vrednost objašnjavajuće promenljive za koju želimo da izvršimo predviđanje, xp = 9, nalazi se u opsegu podataka za X (X se kreće od 2 do 10).

Pošto su sva tri uslova ispunjena zaključujemo da će bilo ocenjivanje prosečne vrednosti bilo predviđanje individualne vrednosti Y u ovom konkretnom slučaju biti validno.

py = 0,6577 + 1,3476· x = 0,6577 + 1,3476· 9 = 12,7861

Proverimo logički korektnost ovog rezultata. Ako pogledamo originalne podatke

Page 39: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 287

uzorka u Tabeli 11.1, videćemo da je dobijena vrednost u skladu sa varijacijama X i Y. Dobijena predviđena (ocenjena) vrednost sugeriše da će za firmu koja ulaže 9 miliona dinara u propagandu, prosečna prodaja iznositi 1,27861 milijardi dinara ( 12,7861 100× miliona dinara).

A) Interval ocene prosečne vrednosti zavisne promenljive, koji će sa verovatnoćom ( 1 α− ) obuhvatiti E(Yp), formira se analogno bilo kom t- intervalu poverenja koje smo do sada koristili:

Interval poverenja prosečne vrednosti Y

α α− −− ≤ ≤ +/2, 2 /2 , 2( )

p pn p np py y

y t s E Y y t s

gde su y ps standardna greška a /2tα se dobija iz Tablice t rasporeda za n-2

stepena slobode.

U našem primeru korišćenjem statističkog paketa Minitab dobili smo sledeći interval

11,296 ≤ E(Yp) ≤ 14,276

Sa pouzdanošću od 0,95 zaključujemo da će računarske firme u Srbiji koje ulažu 9 miliona dinara u propagandu imati prosečan prihod od prodaje u intervalu od 11,296 do 14,276 (stotina miliona dinara).

B) Interval predviđanja pojedinačne vrednosti zavisne promenljive, koji će sa verovatnoćom ( 1 α− ) obuhvatiti Yp, formira se slično uz razliku da se izrazi za standardnu grešku razlikuju, odnosno standardna greška će biti veća i samim tim interval širi bego prethodni.:

Interval predviđanja pojedinačne vrednosti Y

α α− −− ≤ ≤ +/2, 2 /2 , 2n y p n yp pp p

y t s Y y t s

gde su pYs standardna greška a /2tα se dobija iz Tablice t rasporeda za n-2

stepena slobode.

Interval predviđanja pojedinačne vrednosti Y

α α− −− ≤ ≤ +/2, 2 /2 , 2n y p n yp pp p

y t s Y y t s

U našem primeru korišćenjem statističkog paketa Minitab dobili smo sledeći interval

9,841 ≤ pY ≤ 15,731

(11.27)

(11.28)

Page 40: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

288 OSNOVI STATISTIKE

Predviđamo, uz rizik od 0,05, da će se, kod neke pojedinačne firme koja ulaže devet miliona dinara u propagandu, prodaja nalaziti u intervalu od 9,841 do 15,731 (stotina miliona dinara). Kao posledica veće standardne greške vidimo da je interval predviđanja širi od intervala poverenja. Ovo je logično, jer su individualne vrednosti podložne većim fluktuacijama nego prosečne.

R E Z I M E

U ekonomiji i društvenim naukama preovladavaju stohastičke veze između pojava. Dok kod funkcionalnih veza za svaku vrednost nezavisne promenljive X uvek postoji samo jedna vrednost zavisne promenljive Y, kod stohastičkih veza za jednu vrednost X postoji čitav niz mogućih vrednosti Y. Stohastičke veze u stvarnosti opisujemo pomoću stohastičkih modela. Ovi modeli uključuju slučajnu grešku kojom obuhvatamo uticaje svih faktora koje nismo uključili u model. Prilikom ispitivanja međuzavisnosti varijacija dve ili više promenljivih u statistici se primenjuju regresiona i korelaciona analiza. Ukoliko analiziramo samo dve pojave govorimo o prostoj regresiji ili korelaciji. U slučaju analize više od dve pojave, jednu od njih označavamo kao zavisno promenljivu i primenjujemo višestruku korelaciju ili regresiju. Pomoću korelacije ispitujemo da li između dve ili više pojava postoji kvantitativno slaganje, i ako postoji, kog je intenziteta. Pirsonov koeficijent se označava sa r i pokazuje da li između dve numeričke promenljive u uzorku postoji linearna veza. Da bi se ispitalo da li i u osnovnom skupu postoji linearna veza njegovu vrednost moramo da testiramo pomoću Studentovog t testa. Pirsonov koeficijent spada u grupu parametarskih pokazatelja jer se zasniva na pretpostavci da je zajednički skup dve posmatrane promenljive normalan. Dok kod korelacije nije bitno koju smo promenljivu označili kao zavisnu a koju kao nezavisnu, kod regresione analize najpre mora da se izvrši identifikacija promenljivih. Cilj regresije je da se kroz ocenu parametara regresionog modela izvrši ocenjivanje prosečne vrednosti Y i predvide pojedinačne vrednosti Y. Zavisnost između dve pojave u prostoj linearnoj regresiji opisujemo kroz prost linearni regresioni model. Ukoliko su pretpostavke tog modela ispunjene tada metod najmanjih kvadrata, po Gaus-Markovljevoj teoremi, daje najbolje nepristrasne linearne ocene. Ideja metode najmanjih kvadrata kod proste linearne regresije je da se dođe do najbolje prave linije, odnosno one koja će najbolje reprezentovati vezu između dve pojave. To se postiže minimiziranjem sume kvadrata reziduala. Kod proste linearne regresije ocenjujemo dva parametra regresionog modela: odsečak i nagib. Ocenjena vrednost odsečka pokazuje ocenu prosečne vrednosti zavisne promenljive kada je objašnjavajuća promenljiva X jednaka 0. U praksi je daleko važnija ocena nagiba. Ona pokazuje ocenu prosečne promene Y kada se X poveća za svoju jedinicu. Da bismo sagledali da li regresioni model na zadovoljavajući način opisuje

Page 41: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 289

zavisnost dve pojave u realnosti koristimo dve mere reprezentativnosti. Prva je standardna greška regresije i ona je apsolutna mera, odnosno iskazana je u istim mernim jedinicama kao i Y. Druga mera se mnogo češće koristi i naziva koeficijentom determinacije. Ovaj koeficijent pokazuje udeo objašnjenog varijabiliteta u ukupnom. Dok koeficijent korelacije može uzimati vrednosti u intervalu [ ]1, 1− + , koeficijent determinacije nikad ne može biti negativan. Njegova

maksimalna vrednost je +1 i javlja se samo u slučaju da između dve pojave postoji funkcionalna veza, pa se sve empirijske tačke nalaze na pravoj liniji. Prilikom korišćenja regresionog modela u cilju predviđanja mora se voditi računa da je (a) koeficijent determinacije relativno visok, (b) da je ocena nagiba statistički značajna i (d) da nema prekomerne ekstrapolacije. Ekstrapolacija se javlja ako prilikom predviđanja Y uzimamo one vrednosti objašnjavajuće promenljive X koje su ili manje od minimalne ili veće od maksimalne u uzorku.

KLJUČNI NOVI POJMOVI

Funkcionalna veza

Stohastička veza

Zavisna promenljiva

Objašnjavajuća promenljiva

Korelacija

Regresija

Dijagram raspršenosti

Pirsonov koeficijent korelacije

Prost linearni regresioni model

Regresiona linija skupa

Regresiona linija uzorka

Nagib

Odsečak

Stohastički član (slučajna greška)

Metod najmanjih kvadrata

Gaus-Markovljeva teorema

Rezidual

Standardna greška regresije

Koeficijent determinacije

Ekstrapolacija

Interval ocene za prosečnu vrednost Y

Interval predviđanja za pojedinačnu vrednost Y

KONTROLNA PITANJA I ZADACI

1. Deterministička i stohastička zavisnost. 2. Objasnite stohastički model i njegove komponente. 3. Objasnite razliku između regresione i korelacione analize.

Page 42: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

290 OSNOVI STATISTIKE

4. Da li na osnovu regresione analize možemo da otkrijemo postojanje uzročno-

posledične veze između pojava?

5. Cilj regresione analize je: a) utvrđivanje mere kvantitativnog slaganja između pojava; b) ocena i predviđanje ponašanja zavisno promenljive; c) identifikacija zavisno i nezavisno promenljive.

6. Dijagram raspršenosti.

7. Ako je koeficijent proste korelacije jednak nuli zaključujemo: a) između pojava nema kvantitativnog slaganja; b) između pojava nema linearne veze, c) između varijacija posmatranih promenljivih u uzorku nema linearne

veze.

8. U čemu je smisao testiranja značajnosti koeficijenta proste linearne korelacije?

9. Dobijeni Pirsonov koeficijent korelacije rs = -0,95 kg tumačimo kao: a) veoma visoku direktnu linearnu korelaciju, b) veoma visoku inverznu linearnu korelaciju, c) grešku u izračunavanju, jer koeficijent korelacije ne može biti negativan. d) ništa od navedenog, već...

10. Šta se podrazumeva pod lažnom korelacijom?

11. Da li je yx xyr r= ? Objasnite.

12. Prost linearni regresioni model.

13. Pretpostavke normalnog linearnog regresionog modela.

14. Objasnite šta pokazuju regresioni koeficijenti β0 i β1 u prostom linearnom regresionom modelu.

15. Kod linije regresije populacije E(Yi) = β0 + β1xi, koeficijent β1 pokazuje:

a) promenu zavisno promenljive kada se vrednost nezavisno promenljive promeni za jedinicu;

b) prosečnu promenu nezavisno promenljive kada se zavisno promenljiva promeni za jedinicu;

c) prosečnu promenu zavisno promenljive kada se vrednost nezavisno promenljive promeni za jedinicu.

16. Navedite razloge zbog kojih se uvodi stohastički član ε u regresioni model.

17. Da li je nezavisna promenljiva X slučajna promenljiva u prostom linearnom regresionom modelu? A zavisna promenljiva Y?

18. Kako tumačite pojam heteroskedastičnost?

19. Da li su b0 i b1 nepristrasne ocene nepoznatih parametara β0 i β1 u prostom linearnom regresionom modelu? Objasnite.

Page 43: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

POGLAVLJE 11 – Prosta korelaciona i regresiona analiza 291

20. Metod najmanjih kvadrata kod prostog linearnog regresionog modela se

zasniva na: a) odabiranju tipa krive koji najbolje aproksimira dati empirijski raspored; b) minimiziranju sume horizontalnih odstupanja empirijskih podataka od

prave; c) minimiziranju sume kvadrata vertikalnih odstupanja empirijskih

podataka od prave.

21. U čemu je razlika između ocene b1 i ocenjene vrednosti b1?

22. Objasnite značenje i posledice Gaus-Markovljeve teoreme.

23. Mere reprezentativnosti linije regresije.

24. Koeficijent determinacije r2.

25. Zbog čega testiramo nultu hipotezu β1 = 0 u prostoj linearnoj regresiji?

26. U čemu je razlika između ocenjivanja i predviđanja u regresionoj analizi?

27. Problemi ekstrapolacije u regresionoj analizi. 28. Raspolažemo podacima slučajnog uzorka izabranog iz Forbzove liste

od 946 milijardera, formirane 2007. godine (http://www.forbes.com):

Ime i prezime Bogatstvo (u milijardama dolara)

Godine starosti

Vilijam Gejts III 56 51 Amančio Ortega 24 71

Roman Abramovič 18,7 40 Džim Volton 16,8 59

Majkl Del 15,8 42 Sulejman Kerimov 14,4 41

Vladimir Lisin 14,3 50 Silvio Berluskoni 11,8 70

Testirajte da li između bogatstva i godina starosti postoji linearna korelacija. 29. Na osnovu podataka tržišne statistike o kretanju ponude i cene jednog

kozmetičkog proizvoda formirana je sledeća tabela:

Cena

(u 210 din.) Ponuda

(u 00 komada) 20 35 25 40 30 44 35 49 40 53

a) Ucrtajte podatke u dijagram raspršenosti i odaberite odgovarajući regresioni model.

b) Metodom najmanjih kvadrata ocenite parametre modela. c) Testirajte značajnost ocenjene vrednosti b1. Da li X utiče na Y? d) Ocenite koliko se u proseku može očekivati ponuda za cenu od 4200

dinara. Da li je dobijena vrednost validna? Objasnite!

Page 44: PROSTA KORELACIONA I REGRESIONA ANALIZAvtsns.edu.rs/wp-content/uploads/2017/12/Regresija.pdfPOGLAVLJE 11 – Prosta korelaciona i regresiona analiza 251 model, pored zavisne i nezavisne

292 OSNOVI STATISTIKE

30. Dati su podaci o radnom iskustvu i broju neispravnih proizvoda za 7 slučajno

odabranih radnika:

Radno iskustvo

(u godinama)

Broj neispravnih

proizvoda

7 23

8 23

10 21

14 18

15 16

15 14

18 10

Ocenjeni regresioni model predstavljen je sledećom tabelom:

Parametar Ocena Stand. Greška ocene

Odsečak 31,8929 1,64370

Nagib -1,2411 0,13081

Koeficijent determinacije je 0,9375

Standardna greška regresije je 1,3839

a) Ucrtati podatke u dijagram raspršenosti , a zatim i ocenjenu regresionu liniju ucrtati u dijagram raspršenosti.

b) Protumačiti relativnu meru reprezentativnosti regresionog modela. c) Koliko je učešće neobjašnjenog varijabiliteta broja neispravnih proizvoda? d) Ocenite za koliko bi se u proseku promenio broj neispravnih proizvoda pri

povećanju radnog iskustva za jednu godinu. e) Ocenite prosečan broj neispravnih proizvoda za radno iskustvo od 17

godina. f) Ispitati stepen kvantitativnog slaganja varijacija radnog iskustva i broja

neispravnih proizvoda, a zatim testirati odgovarajuću hipotezu.