Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o...

27
Line´ aris Regresszi´ o arkus L´ aszl´ o Val ´ osz´ ın˝ us´ egelm´ eleti ´ es Statisztika Tansz´ ek, otv¨ os Lor´ and Tudom´ anyegyetem May 3, 2016

Transcript of Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o...

Page 1: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linearis Regresszio

Markus Laszlo

Valoszınusegelmeleti es Statisztika Tanszek,Eotvos Lorand Tudomanyegyetem

May 3, 2016

Page 2: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

A feladat

Az adatok

Merni vagy megfigyelni tudunk valamilyen X1, . . . ,Xk mennyisegeket, (nevuk:fuggetlen v. magyarazo valtozok, input, regresszor) illetve a veluk feltetelezhetoenosszefuggesben allo Y mennyiseget (neve: fuggo valtozo, valasz, output). Ezeketa mennyisegeket valvaltozonak tekintjuk. A mert ertekek ezek realizacioi: az xi,j =Xi(ωj) valos szamok. Adataink strukturaja a kovetkezo.

valasz valtozo︷︸︸︷Yy1y2...

yn

⇐=

magyarazo valtozok︷ ︸︸ ︷X1, X2, . . . Xkx1,1 x1,2 . . . x1,kx2,1 x2,2 . . . x2,k

......

......

xn,1 xn,2 . . . xn,k

Nem mindig adott vagy nem egyertelmu melyik valtozo a valasz, fel kell mernivan-e osszefugges valamely valtozok kozott. Tisztazni kell, mi fugg mitol, mi afuggo valtozo, melyek a magyarazo valtozok. Nem mindig matematikai feladat,merhetoseg, koltseg is befolyasolhat.At kell gondolni a celt, ami lehet pl. csak az osszefugges igazolasa, vagyelorejelzes az X-(ek) alapjan az Y-ra, stb.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 2 / 27

Page 3: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

A feladat

Az adatelemzes kezdeti lepesei

Ezek jelentos resze nem csupan a regressziora vonatkozik, csak ennek kapcsan mond-juk el.

Az adatatvilagıtas (screening) minden statisztikai elemzes elso lepese.”Ellenorizzuk”, nem ırtak-e el a tizedesvesszot, nem ırtak-e be a datumot isadatkent, stb.Megjelenıtes, vizualizacio. Ez egyfelol az adatatvilagıtas resze, masfelolintuıciokat szerzunk altala az adatokrol, felmerjuk a szobajovo modellek koret.Adatainkat onmagukban is plottoljuk ill. egymas fuggvenyeben is (scatterplot),esetleg hisztogrammot, ritkabban surusegfuggveny becslest, Q-Q plotot nezunk.Osszefuggesek felmerese. Ide tartozik a korrelaciok szamıtasa. Ha a valasz, amagyarazando valtozo, sok magyarazo valtozo egyuttesetol fugg, akkor nem fo-gunk eros korrelaciokat tapasztalni, de azert valos korulmenyek kozott legalabb0.3, 0.4 nagysagu korrelaciok lete elvarhato egy tenyleges linearis modellben.Ha a scatterplotok nemlinearis osszefuggesre utalnak, akkor a valasz es az egyesmagyarazo valtozok kopulainak vizsgalata is hasznos lehet. A kopula mar transz-formalt valtozo, tehat a kapcsolat jellegere nem kozvetlenul utal!Megjegyzes: Ha pl. y 20 db fuggetlen standard normalis valtozo atlaga - tehat egy(szelsoseges) linearis kapcsolat all fenn - az elmeleti korrelacio 1√

20= 0.223 a

tapasztalatiak kozt pedig alig lesz 0.3-nal nagyobb ertek, legfeljebb 1-2 adodik.Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 3 / 27

Page 4: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

A feladat

A regresszio altalanos modellje

A regresszio modelljeben a valasz valamilyen determinisztikusfuggvenykapcsolatban van az ot magyarazo valtozokkal, es ezt a kapcsolatot egyadditıv zajon keresztul tudjuk megfigyelni. (”Magyarazat”-on azt ertjuk, hogy Yveletlen fluktuacioja a zajtol eltekintve ”megismerheto ”, szamıthato az X-ekfluktuaciojabol.) Igy adataink az

Y = f (X1,X2, . . . ,Xk)+ ε

egyenlet szerint jonnek letre, ahol f egy k-valtozos valos fuggveny, az u.n.regresszios fuggveny, ε fuggetlen erteku (gyakran normalis eloszlasu) zaj, esD2ε = σ2

ε < ∞.Az adatokat letrehozo mechanizmus modellje linearis regresszio eseten:

Y = B0 +B1 ·X1 +B2 ·X2 + . . .+Bk ·Xk + ε

ahol B0 ∈ R az u.n. ”intercept”, B1, . . . ,Bk ∈ R a regresszios egyutthatok.Alapesetben a B0 es B1, . . . ,Bk ismeretlen valos szamokat, valamint esetenkentσ2

ε -et szeretnenk becsulni.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 4 / 27

Page 5: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

A feladat

A vizsgalt kapcsolatok jellege

Nem csak linearis kapcsolatot vizsgalhatunk. Magyarazo valtozok fuggvenyeitis hozzavehetjuk tovabbi magyarazo valtozokent, hiszen ennek ertekei a megfi-gyeltek alapjan szamolhatoak. Pl. polinom jellegu kapcsolatot is becsulhetunk,vagy eXi konstansszorosa is benne lehet a kapcsolatban, de az a lenyeg, hogy azegyutthatokban linearis legyen a fuggveny. Peldaul az

Y = B0 +B1 ·X1 +B2 ·X21 + . . .+Bp ·Xp

1 +

+ Bp+1 ·X2 + . . .+Bk+p−1 ·Xk +Bk+p · eXk + ε

kapcsolat becsulheto linearis regresszioval, de az

Y = B0 + eB1·X1 + ε vagy az Y = log(B1 ·X1 +B2 ·X2)+ ε

tıpusu kapcsolatok nem.A zaj sem feltetlen strukturalatlan. Vizsgalhatjuk adott osszefuggesi strukturavalrendelkezo zaj (pl. ε egy AR(1) idosor) esetet is. Ilyenkor a kovariancia matrixotadottnak/ismertnek vagy legfeljebb nehany becsulheto parametertol fuggonekfeletelezzuk.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 5 / 27

Page 6: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A modell matrixos alakja

Az interceptet B0-t nem akarjuk kulon kezelni, ezert belole es a B1, . . . ,Bkegyutthatokbol megalkotjuk a B = (B0,B1, . . . ,Bk) vektort, amelynek dimenziojaıgy k+1.Azert, hogy egyenleteinket vektor-matrix alakban is konzisztensen ırhassuk fel, amagyarazo valtozokhoz X0-kent a csupa 1-bol allo (oszlop)vektort vesszuk hozza.Igy a magyarazo valtozok az n× (k+1) dimenzios X matrixot adjak.Ezek utan vektormuveletekkel is szamolhatunk. A regresszio modelljenek egyen-lete matrix alakban:

Y = XB+ ε.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 6 / 27

Page 7: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Az egyutthatok OLS becslese

A legegyszerubb esetben a megfigyeleseink (az egyes esetek) fuggetlenekegymastol (eleg, hogy ε fuggetlen erteku zaj). Ilyenkor kozonseges legkisebbnegyzetes (ordinary least squares, OLS) becslesrol beszelunk, amikor is az(Y − XB)T(Y − XB) = ||Y − XB||2 elteres negyzetosszeget, az u.n. rezidualisnegyzetosszeget szeretnenk minimalizalni. Ebben az esetben az egyutthatokbecslese

BOLS = (XTX)−1(XTY)

-kent adhato meg. Errol a derivaltakra adodo egyenleteket megoldva konnyenmeggyozodhetunk.Az OLS becsles torzıtatlan, konzisztens, hatasos es aszimptotikusan normalis haa hiba ε veges szorasu es korrelalatlan a magyarazo valtozokkal.Megmutathato, hogy az OLS becsles felteteles variancia-kovariancia matrixaadott X mellett ΣBOLS

= (XTX)−1 · σ2ε . Ez fontos megbızhatosagi (konfidencia)

tartomany konstrukciojahoz, viszont ehhez szukseges σ2ε becslese. Ez:

σ2ε =

1n− k−1

||Y−XB||2 = 1n− k−1

n

∑i=1

ε2i

ahol εi-k a rezidualisok: εi = yi− B0− B1xi,1− . . .− Bkxi,k.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 7 / 27

Page 8: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Az egyutthatok GLS becslese

Az altalanosıtott legkisebb negyzetes modszer (generalised least squares, GLS)akkor alkalmazhato, ha a hiba ε egyes ertekei kozott korrelacio van, azonban eza korrelacio ismert es a variancia-kovariancia matrixa Σε adott. (A gyakorlatbanbecsult matrixszal is hasznaljuk a modszert, termeszetesen ez noveli a bizonyta-lansagot, ıgy a hibat is.) Az egyutthatok GLS becslese ekkor

B = (XTΣ−1ε X)−1(XT

Σ−1ε Y).

A GLS becsles ismert Σε mellett torzıtatlan, konzisztens, hatasos es aszimptotiku-san normalis. Becsult Σε mellett e tulajdonsagok aszimptotikusan megmaradnak.Σε -t elsokent az OLS becsles alapjan kapott rezidualisokbol becsulhetjuk,majd ezt iteralva, a fenti formulaval ujrabecsult egyutthatokkal rezidualisokatkaphatunk, melyekbol ujabb Σε -t becsulunk es ıgy tovabb. Ekkor tehat a GLSegy iteratıv eljaras.Ismert Σε mellett a GLS ekvivalens a kozonseges negyzetes becsles alka-lmazasaval linearisan transzformalt adatokra. Ehhez Σε ”negyzetgyoke” kell:Σε = AAT ezutan a regresszios egyenletet beszorozzuk A−1-gyel es az ıgy kapottzaj mar korrelalatlan erteku lesz. Ez a ”negyzetgyok” azonban nem egyertelmu.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 8 / 27

Page 9: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A magyarazo valtozok kivalasztasa

Kerdesek:kihagyhatok-e a magyarazo valtozok kozul egyesek anelkul, hogy a magyarazo”ero” jelentosen csokkenne, erdemes-e hozzavenni tovabbi valtozot a mag-yarazokhozAkkor jo a valtozo kivalasztas, ha a magyarazo valtozok erosen korrelalnak avalasszal, de egymas kozt gyengenKonnyen manipulalhato, jol merhetovaltozok bevalasztasa is lehet szempontHozzavegyunk-e nemlinearis tagokat?Vizsgalhatok magyarazo valtozok konkurrens csoportjaiMi a legjobb predikcio, ha a magyarazokat merjuk, de a valaszt nem?Mennyire jo a regresszio, pl. a regresszios egyenlet jobb becslest ad-e mintha csakveletlenszeruen valasztanank becslest?

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 9 / 27

Page 10: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A regresszio hatarai

Nem oksagi kapcsolatot mutat ki (Sok a tuzolto⇒ nagy a kar)Erzekeny a bevalasztott magyarazo valtozokra - meg egy lenyegtelen kidobasa isvaltoztatHa ez egyik valtozo meresi hibaja korrelal a masik magyarazo valtozoval, akkorez eros torzıtast hozhat letreUgyancsak erzekeny az u.n. outlier-ekre, a kiugro vagy szelsosegesertekekre/megfigyelesekreAz outliereket vagy meg az elemzes elott toroljuk, vagy tudatosan bennhagyjukes a hatasukat elemezzuk, hogy mennyire terıthetik el a regressziot.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 10 / 27

Page 11: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Esetszam es valtozoszam

A legegyszerubb okolszabaly n≥ 50+8k ahol k a magyarazo valtozok szama, n amegfigyelesszam. Ezt persze kello toleranciaval rugalmassaggal kell kezelni, sokesetben kenyszerulunk ennel kevesebb adatbol is regresszios becslesre. Fontosazonban ilyenkor a valtozekonysag elemzese, peldaul ujramintavetelezesi (boot-strap) technikaval. Ha az osszefuggesek eleg erosek, akkor meg megbızhato islehet az eredmeny.A fenti okolszabaly ”kozepes” fuggosegre vonatkozik, azaz ha a B egyutthatotstandardizalt valtozokra (magyarazo es fuggo) nezzuk, akkor 0.2 korulinek kelllennie.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 11 / 27

Page 12: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Meroszamok a regresszio ertekelesere

Totalis negyzetosszeg:

SSY =n

∑i=1

(Yi− Y

)2

Regresszios negyzetosszeg:

SSreg =n

∑i=1

(Yi− Y

)2

ahol Yi a megfigyelesek predikcioja a regresszio alapjan a becsult egyutthatoksegıtsegevel:

Yi = B0 + B1 ·X1 + B2 ·X2 + . . .+ Bk ·Xk

Yi ertekei a regresszios egyenesen vagy hipersıkon vannak.Rezidualis negyzetosszeg:

SSres =n

∑i=1

(Yi− Yi

)2

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 12 / 27

Page 13: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A regresszio ertekelese: Determinacios egyutthato

Determinacios egyutthato avagy R2 (Coefficient of determination or squaredmultiple correlation):

R2 =SSreg

SSY= 1− SSres

SSY

Jelentese: Az Y varianciajanak hanyadreszet magyarazza a regressziobol adodopredikcioja. Maskepp: az Y fuktuaciojanak hanyadresze szarmazik a magyarazovaltozokbol.A regresszio akkor jo, ha a varhato ertek vızszintes egyenesetol (hipersıkjatol, hatobb magyarazo valtozonk van) mert negyzetes elteres fokent a megfigyelt ertekekregresszios egyenes (hipersık) menten torteno (szabalyos) elhelyezkedeseboladodik, es nem a veletlen, szabalytalan fluktuaciobol. E szerint tehat SSreg nagy,mikozben SSres ehhez kepest relatıve kicsi. Ez azt jelenti, hogy R2 erteke 1-hezkozeli.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 13 / 27

Page 14: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A determinacios egyutthato eloszlasa:egyszeru regresszio

A kerdes az, hogy mikor van eleg kozel 1-hez a determinacios egyutthato?A valasz nem egyszeru es nyilvan fugg a regresszios egyenletben szereplo zajeloszlasatol. Sajnos meg a hatareloszlas sem univerzalis. Ezert nem is szoktakszignifikancia szintet meghatarozni R2-reAz egyszeru regresszio (1 magyarazo valtozo) es normalis eloszlasu, fuggetlenerteku zaj eseten Rabbani egy elegans otlettel az R2 = cos(θ) felırasalapjan eloszor θ eloszlasat hatarozza meg. Az n dimenzios Gauss eloszlaskor/gombszimmetriajat kihasznalva, az n-szeres integralt polarkoordinatakbankiszamıtva, kapja eloszor θ surusegfuggvenyet, majd ebbol:

fR2(r) =Γ( n

2

)√

πr ·Γ( n−1

2

) (1− r)n−3

2

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 14 / 27

Page 15: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A determinacios egyutthato eloszlasa:tobbvaltozos regresszio

Tobb magyarazo valtozo eseten mar nem adhato zart formula asurusegfuggvenyre.Fuggetlen erteku, normalis eloszlasu zajt 0 varhato ertekkel es σ szorassalfeltetelezve a japan Otani ert el eredmenyt 1994-ben.Ilyen feltetelek mellett legyen

y =1

2σ2 BTXTXB =1

2σ2 YT Y

Ezzel a jelolessel az R2 statisztika surusegfuggvenye:

fR2(z) = e−y(1− z)n−k−2

2

∑i=1

yi

i!·{B( k+2i−1

2 , n−k2

)}−1 · z k+2i−32

ahol B a nem teljes beta fuggveny.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 15 / 27

Page 16: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A determinacios egyutthato eloszlasa:tobbvaltozos regresszio t eloszlasu zajjal

Meg tovabb bonyolodik a helyzet, ha a generalo zaj nem normalis eloszlasu, pedigez sok alkalmazasban van ıgy.A normalisnal joval vastagabb farku eloszlasok t eloszlasokkal gyakran jolkozelıthetok.Fuggetlen erteku, szimmetrikus t eloszlasu 0 varhato erteku zaj eseten Otani esTanizaki 2004-es cikke alapjan lehet tudni a surusegfuggvenyt.A pontos formula meglehetosen bonyolult, a normalis esetben szereplosurusegfuggveny szorzodik egy inverz Gauss eloszlas surusegfuggvenyevel.Fontos ismerni az R2 statisztika korlatait is. Kis elemszamu mintara erosen torzıt,mıg a korrigalt verzio (adjusted R2) szorasat tekintve megbızhatatlanabb az ere-detinel.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 16 / 27

Page 17: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A regresszios egyenes, hipersık koruli szoras

A teljes negyzetosszegbol SSY -bol konnyen keszıthetunk szorasnegyzet becslest.Ezzel az adatoknak a varhato ertek szintu vızszintes egyenes koruliszorasnegyzetet becsuljuk.A rezidualis negyzetosszegbol SSres is elkeszıthetunk egy ”szorasnegyzet”becslest, ez pedig a regresszios egyenes koruli szorast meri, pontosabban becsulimeg.A regresszios egyenes koruli szorast ugy ertjuk, hogy adatainkat a varhato ertekhelyett a regresszios egyenes megfelelo ertekevel, azaz a regresszios predikciovalcentraljuk.Ha tobb magyarazo valtozonk van, az egyenesek szerepet hipersıkok veszik at, deegyebkent minden ugyan ıgy ervenyes, definialhato.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 17 / 27

Page 18: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A regresszio ertekelese: F-proba

A regresszio akkor jo, ha a varhato ertek vızszintes egyenese koruli szorasnegyzetjoval nagyobb, mint a regresszios egyenes koruli szoras, mivel az elobbi tar-talmazza a megfigyelt ertekek regresszios egyenes (hipersık) menten torteno(szabalyos) elhelyezkedesebol adodo valtozekonysagot is.Amennyiben tehat a ket becsult szoras lenyegesen elter, akkor az a feltetelezettlinearis kapcsolat fennallasara utal.A szorasok eltereset F-probaval ellenorizhetjuk.Probastatisztikank

SSYn−1SSresn−1

,

amely F eloszlasu, n−1,n− k−1 szabadsagi fokokkkal.Amennyiben az F-proba elutasıt, a regresszio jo, a feltetelezett linearis kapcsolatfennall.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 18 / 27

Page 19: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Magyarazo valtozok szelekcioja: tolerancia

Egy magyarazo valtozo, Xj, felesleges a regresszioban, ha nem tartalmaz a tobbimagyarazo valtozotol eltero informaciot (de nem csak ekkor felesleges!).Ezt ugy ellenorizzuk, hogy elvegzunk egy olyan regressziot, amelyben az adottmagyarazo valtozo Xj lesz a valasz, a fuggo valtozo, es a regresszorok, az otmagyarazni kıvano valtozok pedig az eredeti regresszio megmarado magyarazovaltozoi: X1, . . . ,Xj−1,Xj+1, . . . ,Xk.Nyilvan, ha ez a regresszio ”jo”, akkor a valtozo a tobbiekkel magyarazhato,benne nincs a tobbiektol kulonbozo lenyeges informacio, tehat elhagyhato az ere-deti regresszio magyarazo valtozoi kozul.E regresszio ”jo” voltat, illeszkedeset az R2 statisztikaval ellenorizzuk, es az1−R2 erteket az adott valtozohoz tartozo tolerancianak hıvjuk. A ”nagy”, 0-tol szignifikansan eltero toleranciaval rendelkezo valtozokat tarthatjuk meg mag-yarazo valtozokent.Egy valtozo kidobasa utan az osszes toleranciat ujra kell szamolniAzt, hogy a tolerancia eleg ”nagy”-e, szignifikansan kulonbozik-e 0-tol, az R2

statisztika eloszlasa alapjan mondhatjuk meg. Annak meghatarozasa azonban,hogy mit tekintunk szignifikans elteresnek, az adott feladattol, alkalmazastolnagyban fugghet.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 19 / 27

Page 20: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

A parcialis korrelacio

Legyen X,Y,Z harom veges szorasu valvaltozo. Ekkor X,Y parcialis kovarianciajaZ ismerete mellett:

cov(X,Y|Z) = E[(X−E(X|Z)) · (Y−E(Y|Z))

].

Tehat a kovariancia szokasos definıciojaban a Z szerinti felteteles varhato ertekkelcentralunk a kozonseges varhato ertek helyett. A parcialis korrelaciot egyfajtafelteteles korrelaciokent intrepretaljuk.Az X felteteles szorasnegyzete, adott Z mellett, az onmagaval vett parcialiskovariancia – ennek negyzetgyoke a felteteles szoras:

D2(X|Z) = cov(X,X|Z); D(X|Z) =√

D2(X|Z)

A parcialis korrelaciot ezek utan ugy kapjuk, hogy a parcialis kovarianciat osztjuk afelteteles szorasokkal:

cor(X,Y|Z) = cov(X,Y|Z)D(X|Z) ·D(Y|Z)

.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 20 / 27

Page 21: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Magyarazo valtozok szelekcioja parcialis korrelacio alapjan

Attol, hogy az Xj magyarazo valtozo tartalmaz a tobbieketol kulonbozo in-formaciot, meg nem biztos, hogy ez a sajat informacio relevans az Yvalasz valtozo valtozekonysaganak magyarazataban. Magyaran, az egyedi in-formaciotartalomtol az Xj valtozo meg nyugodtan lehet felesleges a regresszioban,ha ez az egyedi informacio nem az Y-t magyarazza.Az informacio relevanciajat pedig ugy ellenorizzuk, hogy kiszamıtjuk az Y es azXj parcialis korrelaciojat.Ha az Y es Xj parcialis korrelacioja eleg ”nagy”, legalabb 0.3 koruli, akkor azXj-ben levo sajat informacio kapcsolatban van a valasz valtozoval, ıgy ertekesenjarulhat hozza a valasz valtozekonysaganak magyarazatahoz.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 21 / 27

Page 22: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Magyarazo valtozok szelekcioja t-proba alapjan

Ha az Xj magyarazo valtozo tartalmaz is a sajat informaciot, es ez az in-formacio kapcsolatban is all az Y valasz valtozo valtozekonysagaval, meg mindigelofordulhat, hogy lenyegtelenul kicsi a szerepe a valtozekonysag leırasaban. Eza regresszios egyutthato lenyegtelenul kicsi voltaban erheto tetten.Tesztelnunk kell tehat azt is, hogy az egyutthato lenyeges-e, azaz szignifikansanelter-e 0-tol.A legkisebb nenyzetes modszerrel becsult OLS egyutthato becsles BOLS =(XTX)−1(XTY) torzıtatlan, normalis eloszlasu zaj mellett maga is normaliseloszlasu es adott X mellett variancia-kovariancia matrixa ΣBOLS

= σ2ε · (XTX)−1.

Az i-ik egyutthato szorasa a matrix diagonalisa i-ik elemenek negyzetgyoke, ıgyaz egyutthatok szignifikanciaja t-probaval ertekelheto.Ha a zaj nem normalis eloszlasu, de fuggetlen erteku, akkor az OLS alkalmazhato,aszimptotikus normalitas ervenyes, es a t-proba jo kozelıtessel ervenyes.Ha a zaj nem is fuggetlen erteku, es a GLS modszert hasznaljuk, akkor a becsultvariancia-kovariancia matrix miatt az aszimptotikus normalitas bar igaz, de sokkallassabban ervenyesul, ezert csak jelentos mintaelemszam mellett lehet bızni a t-probaban.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 22 / 27

Page 23: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Modellszelekcio goodness-of-fit ”cross-validation”-nal

A ”cross-validation” altalanos modellmegfeleles ertekelo eljaras, nem csupan aregressziohoz kotott.Kidobjuk, elfelejtjuk a megfigyelesek (regresszioban esetekrol, sorokrol van szo!)egy reszet, a maradekra illesztjuk a modellt es a kidobottakon predikciovalellenorizzuk.Vegezhetjuk egyesevel kidobalva az eseteket, majd az illeszteskor kidobott mag-yarazo ertekeket felhasznalva predikaljuk a valaszt a modellbol. Ez a ”leave-one-out cross validation”. Ertekelesehez szamoljuk a predikcios hibat a kidobott es-eten. Ezt az egesz eljarast (kidobas-predikcio-hiba) az osszes eseten egyesevelelvegezve es osszeadva a negyzetes hibakat, a modell ”josagat” jellemzo egyetlenszamot kapunk, ami modellek osszevetesere alkalmas.Ha eloszlas jellegu elozetes ismeretunk vagy varakozasunk van a predikcioshibara (pl. terkepszerkesztes eseten az u.n. probability map), Vagy az osszefuggesistrukturara, akkor nem egyesevel dobjuk ki a megfigyeleseket, hanem pl. azadatok 30% -at kidobjuk, a megmarado 70%ra illesztunk, predikaljuk kidobott30% -ot es a hibaeloszlast vizsgaljuk. Osszefuggesi struktura eseten pl veletlenvalasztassal tobbszor elvegezzuk az eljarast es a predikcios hiba eloszlasanak sta-bilitasat ellenorizzuk.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 23 / 27

Page 24: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Modellstabilitas, trendszelekcio, tulillesztes

A cross validation alapvetoen modellek kozotti valasztasra, es modellstabilitasellenorzesere alkalmas. Igy pl jo lehet magyarazo valtozok kulonbozo alternativcsoportjai kozotti dontesre, a nemlinearis jelleg/trend vizsgalatara (pl polinomialisvagy exponencialis trend jobb-e) stb.A cross validation ugyancsak alkalmas peldaul modelltulillesztes kiszuresere.Tulillesztes: az adott minta es mintaszam mellett a modell jol illeszkedonek tunik,azonban ha egy ujabb megfigyeles valik elerhetove, az mar nem illeszkedik amodellhez ill fordıtva. (Peldaul: 5 magyarazo valtozo 5 megfigyeles = 5 egyenlet5 ismeretlen, hiba nelkul megoldhato. Nyilvan nem arrol van szo, hogy nincs zaj arendszerben, hanem a megfigyeles keves. Ha egy hatodik megfigyelest is tudunkvegezni, biztos hogy nem az egyenletekbol kiszamolhatoval fog egybeesni.)

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 24 / 27

Page 25: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Outlierek, Cook tavolsag

A regresszio nagyon erzekeny szelsoseges, kiugro ertekekre, ezek nagyon”felrehuzhatjak” a regresszios egyenest / hipersıkot.Az outlierek eseten vagy atskalazni vagy transzformalni kell a valtozot (haegy koordinata kiugro), ki kell hagyni az egesz esetet (sort), vagy csak amegbızhatosag ertekeleset kell nagy gonddal elvegezni es bemutatni - outlierestul:) .A cross validation segıtsegevel detektalhatok az outlierek. Leave-one-out crossvalidation-t vegezve az egyutthato vektort becsuljuk mindig (ez Bi az i-ik esetkidobasa eseten) es nezzuk Bi es a teljes regressziobol szarmazo B tavolsagatRk-ban. Ez a Cook tavolsag. Azt meri, hogy mennyire mozdıtja el az adott megfi-gyeles kidobasa a regresszios egyenest, tehat a megfigyeles befolyasossagat meri,es ha ez nagy, akkor outlier-nek tekinthetjuk.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 25 / 27

Page 26: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Rezidualis elemzes

A rezidualisokat (Y − Y) normalitasra linearitasra es homoszkedaszticitasra(homo= homogen + skedastikos = (szet)szorodni kepes (gorog)) teszteljuk. Ho-moszkedaszticitas = homogen szoras.Altalaban a regresszio az outliereket kiveve robusztus. Letezik kulon robusztusregresszios eljaras is.Ha nem normalisak a rezidualisok, akkor a tesztek nem pontosak. Legalabb sz-immetria legyen az eloszlasban. Nemlinearitas vagy heteroszkedaszticitas nemervenytelenıti csak gyengıti a regressziot, a kapcsolat egy reszet feltartuk demaradt ismeretlen hatas is.A heteroszkedaszticitas szarmazhat a magyarazo valtozok kozottikolcsonhatasbol, egyes valtozok ferdesegebol.

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 26 / 27

Page 27: Markus L´ aszl´ o´web.cs.elte.hu/probability/markus/Meteo/Regression... · ´Igy a magyar az´ o v´ altoz´ ´ok az n (k+1) dimenzios´ X matrixot adj´ ak.´ Ezek utan vektorm´

Linear Models

Scatterplotok

Vizualis elemzes, igen hasznos.Predicted vs. residuals: linearitas tesztelesere. Ha valamilyen mintazat latszik aploton, akkor valamilyen nemlinearis hatas (kvadratikus trend etc.) is jelen van.Observed vs. residuals: pontosıtashoz: ha van nemlinearitas, honnan szarmazik.Sok plot is lehet - korulmenyes.ANOVA tabla ugyanerreResiduals vs deleted residuals instabilak-e a regresszios egyutthatokNormal plot of residuals - normalitasvizsgalat

Markus Laszlo, Eotvos Lorand Tudomanyegyetem Linearis Regresszio May 3, 2016 27 / 27