9. REGRESNÁ A KORELA NÁ ANALÝZA - svf.utc.sksvf.utc.sk/kgd/skripta/vp2/kap09.pdf · premennými...

60

9. REGRESNÁ A KORELA�NÁ ANALÝZA

Vo vedeckých a inžinierskych analýzach sa �asto stretávame s kvantitatívnym hodnotením dvoch a viac veli�ín, ktoré vyjadrujeme funk�ným vz�ahom

y = f(x), z = ϕ(y, x). (9.1)

Veli�iny sú vzájomne štatisticky korelované (závislé). Pritom nepoznáme typ a konštanty funkcie, ktoré dodato�ne ur�ujeme na podklade empiricky zistených (odmeraných) údajov. Tento druh riešenia a problému nazývame regresná analýza. Tesnos� empirickej závislosti korelovaných veli�ín na štatisticky vyhodnotenom funk�nom vz�ahu nazývame korela�ná analýza.

V rovniciach (9.1) napr. namiesto presných hodnôt X, Y máme k dispozícii odmerané hodnoty xi, yi . Vyrovnávacia krivka y = f(x) je spojitá a prechádza medzi bodmi empirického polygónu, ktorý je vytvorený odmeranými údajmi (obr. 9.1). Odstupy bodov Pi od krivky εi sú reziduá alebo regresné chyby.

Empirickým ur�ením typu analytickej funkcie a jej �íselných konštánt vyjadrujeme priebeh javu odmeraných hodnôt závislej premennej y pri meniacich sa hodnotách argumentu x. Grafické znázornenie priebehu javu, vplyvom mera�ských chýb alebo iných rušivých vplyvov, vyjadruje nepravidelný rad bodov (empirický polygón). Úlohou je nájs� takú funk�nú závislos� medzi premennými x, y, aby priebeh funkcie javu charakterizovaný vyrovnávacou krivkou, sa pri jednoduchom tvare funkcie optimálne primkol k empirickému polygónu. Zvy�ajne máme k dispozícii nadbyto�ný po�et meraní, vtedy koeficienty funkcie (9.1) ur�íme s vyrovnaním MNŠ.

Výsledkom bude tzv. regresná krivka. Aproximácia skuto�ného priebehu javu je nevyhnutná k interpolácii priebehu javu pre �ubovo�nú hodnotu argumentu. Používa sa �asto k �íselnému vyjadreniu fyzikálnych vz�ahov v geodézii a v iných vedných odboroch.

Obr. 9.1. Regresná krivka

Metódy regresnej a korela�nej analýzy, ako všetky metódy matematickej štatistiky, pri obmedzenom splnení podmienok budú ma� aj obmedzenú platnos� záverov, v zásade iba na definovanom intervale ∈xi, (i = 1, 2, ... n).

Metódy regresnej a korela�nej analýzy sú založené na výsledkoch meraní radu dvoch sú�asne nezávislých premenných. Výsledkom bude rad hodnôt dvojíc, ktoré považujeme za meranie

61

dvojrozmernej veli�iny. Pri korelácii budeme predpoklada�, že obe premenné sú spojité náhodné veli�iny. V regresnej analýze sta�í iba predpoklad, že jedna z obidvoch premenných je spojitá náhodná veli�ina, u druhej nemusí by� tento predpoklad splnený.

Pri regresnej analýze považujeme zvy�ajne hodnoty jednej premennej, napr. y, za meranie spojitej náhodnej veli�iny pre dané hodnoty druhej premennej x. Pre každú z daných hodnôt xi (i = 1, 2, ... , n) bude ma� náhodná veli�ina y ur�ité rozdelenie so strednou hodnotou a varianciou, zodpovedajúcou príslušnej hodnote xi.

Ak vyhodnocované kvantitatívne vz�ahy riešime lineárnou funkciou o nieko�kých neznámych parametroch (regresných koeficientoch), riešený problém nazývame lineárna regresia. Nelineárna regresia vyžaduje špeciálne riešenie. Ke� je po�et analyzovaných prvkov (x, y) dva, riešený problém ozna�ujeme jednopremenná regresná analýza. Vä�ší po�et analyzovaných prvkov ako dva ozna�ujeme multipremenná regresná analýza.

Existujú tri varianty riešenia:

1. Uvažujeme len regresné chyby εyi funkcie y a vyrovnanie vykonáme z podmienky .min=P��T Mera�skými chybami sú za�ažené iba hodnoty yi a hodnoty xi považujeme za

bezchybné

( )iyii xfy 1=+ ε , εxi = 0, .min=yyTy �P� (9.2)

Je to naj�astejší prípad v geodetických aplikáciách.

2. Uvažujeme len regresné chyby εxi argumentu xi. Vyrovnanie vykonáme za podmienky

( )xiii xfy ε+= 2 , εyi = 0, .min=xxTx �P� (9.3)

3. Uvažujeme regresné chyby εyi funkcie y ako aj regresné chyby argumentu xi. Riešime podmienku

.min=+ xxTxyy

Ty �P��P� (9.4)

9.1 Lineárna regresia

Predpokladajme, že dve veli�iny x a y sme odmerali n krát s údajmi: x1, x2, ..., xn a y1, y2, ..., yn. Úlohou je zisti�, �i platí vz�ah medzi veli�inami vyjadrený rovnicou

BxAy += , (9.5)

kde A, B sú neznáme (teoretické) regresné koeficienty. Ak rovnica (9.5) geometricky predstavuje priamku, nazývame ju teoretická regresná priamka. Vz�ah medzi x a y môže by� ovplyvnený mnohými komplikovanými faktormi, okrem toho údaje (xi, yi, i = 1, 2 , .... n) sú za�ažené mera�skými chybami.

Rovnicu (8.5) upravíme pre odmerané údaje

iii BxAy +=+ ε , (9.6)

62

pri�om o zvyškových regresných chybách (reziduách) predpokladáme, že všetky chyby ( )nii ≤≤1ε

sú navzájom nezávislé. Aby sme našli vyrovnané hodnoty regresných koeficientov BA ˆ,ˆ , ktoré by najlepšie vyhovovali vz�ahu odmeraných údajov (xi, yi) stanovujeme podmienku

( )� � =−+== =

n

i

n

iii yBxA

1 1

21 .minε (9.7)

Regresná analýza formulovaná vz�ahom (9.7) BA ˆ, neznámych regresných koeficientov, predstavuje aproximáciu s vyrovnaním MNŠ. Vyrovnané optimálne hodnoty regresných koeficientov A, B dostaneme deriváciou rovnice (9.7) a porovnáme s nulou

( ) ( ) 0)1(ˆˆ21ˆ,

2

1=+−+�=

��

�� −+

∂∂

====ii

n

iBBAA

n

iii yxBAyBxA

A,

( ) ( ) 0)(ˆˆ21ˆ,

2

1=+−+�=

��

�� −+

∂∂

====iii

n

iBBAA

n

iii xyxBAyBxA

B,

�o vedie k lineárnemu systému rovníc pre neznáme regresné koeficienty BA ˆ,

2

1

2221

1211

ˆ

ˆ

b

b

B

Aaa

aa= , kde (9.8)

a11 = n ,

a12 = a21 = �=

n

iix

1,

a22 = �=

n

iix

1

2 , (9.9)

b1 = �=

n

iiy

1,

b2 = �=

n

iii yx

1.

Rovnicu (9.8) môžeme maticovo zapísa� aj v tvare

Cx = D. (9.10)

Riešením rovnice (9.8), resp. (9.10) s inverziou matice C pomocou determinatu, vyriešime

regresné koeficienty BA ˆ,

2

1

1112

122221222112

11

2221

1211 1b

b

aa

aa

aaab

b

aa

aa

B

A−

−−

====−

−�

�

DCx 1 =

63

211112

2121222122211

1baba

baba

aaa +−−

−= . (9.11)

Ur�ením regresných koeficientov BA ˆ, vyrovnaním MNŠ, vypo�ítame vyrovnané reziduá iε ,

ktoré jednotlivo vyjadrujú tesnos� empirického polygónu od regresnej priamky xBAy ˆˆ+=

iii yxBA −+= ˆˆε . (9.12)

Teoretické reziduá iε majú apriori rozdelenie iε ∼ N(0, σ2). Výberovú (náhodnú) hodnotu σ2

vypo�ítame z reziduí vyrovnaných MNŠ z rovnice

( )� −+−

� =−

===

n

iii

n

ii yxBA

nn 1

2

1

220 .ˆˆ

21ˆ

21ˆ εσ (9.13)

Variancia 20σ je tiež mierou tesnosti všetkých bodov k vypo�ítanej regresnej priamke

xBAy ˆˆ+= . Empirické stredné chyby vyrovnaných regresných koeficientov BA ˆ, vypo�ítame z rovníc:

2122211

220ˆ ˆ

aaa

aA −

= σσ , 2122211

110ˆ ˆ

aaa

aB −

= σσ . (9.14)

Pre teoretické reziduá iε ∼ N(0, σ2) aplikujeme t a 2χ rozdelenie

A

A

ˆ

ˆ

σ ∼ t(n-2) ,

B

B

ˆ

ˆ

σ ∼ t(n-2) , (9.15)

( ) � ��

��

�

−+=−

=

n

i

ii yxBAn

1

2

2

2 ˆˆˆ2

σσσ

∼ 2χ (n-2). (9.16)

Ak je známa variancia σ2, celková platnos� lineárnej regresie sa štatisticky testuje rovnicou (9.16).

Ak lineárnou regresiou ur�ené koeficienty BA ˆ, boli štatisticky spo�ahlivo ur�ené (testom koeficienta korelácie r, kap. 9.4) môžu by� použité na predikciu hodnoty yp pre hodnotu xp veli�iny x z intervalu xp ∈(ximin, ximax)

pp xBAy ˆˆˆ += . (9.17)

9.2 Nelineárna regresia

Vo všeobecnosti nelineárna regresia nie je taká jednoduchá ako lineárna regresia. Pri hodnotení empirického polygónu vz�ahov medzi veli�inami xi a yi �asto nachádzame nelineárnu závislos�. Niekedy nelineárny regresný model môžeme transformova� na lineárny model zavedením funk�ných vz�ahov medzi regresnými koeficientami tak, ako si to uvedieme v príkladoch.

64

Príklad 9.1: Predpokladajme, že dve série meraní xi, yi (i = 1, 2, ... n) vyhovujú nasledovnému nelineárnemu regresnému modelu

BAxx

yi

ii +

= , (9.18)

kde A, B sú regresné koeficienty, ktoré je potrebné ur�i�. Rovnicu (9.18) v �itateli a menovateli

vydelíme ix

1, po úprave dostaneme

ii xB

Ay

+=1.

Zavedieme nové veli�iny

ii

ii x

Xy

Y1

,1 == . (9.19)

Rovnica (9.18) sa zredukuje do lineárneho tvaru

BXAYi += , (9.20)

z ktorého vypo�ítame regresné koeficienty BA ˆaˆ .

Príklad 9.2: Iný nelineárny regresný model dvoch sérií meraní xi, yi (i = 1, 2, ... n) je

2

2

Bx

i Aey−

= , (9.21)

kde A a B sú regresné koeficienty, ktoré je potrebné ur�i�. Rovnicu (9.21) na oboch stranách linearizujeme prirodzenými logaritmami a dostaneme

22

1ii x

BnAyn −= �� . (9.22)

Po substitúcii

2ii xX = , ii ynY �= , Ana �= ,

2

1

Bb = , (9.23)

dostaneme lineárny regresný model dvoch nových regresných koeficientov a a b:

ii bXaY −= . (9.24)

Ke� vyrovnaním MNŠ vypo�ítame regresné koeficienty a a b, originálne regresné koeficienty A a B ur�íme z rovníc (9.23)

aeA =ˆ , b

B1ˆ=− . (9.25)

65

Príklad 3: Z �alších typov funkcií, ktoré sa �asto používajú v geodetických aplikáciách sú:

- exponenciálna funkcia

bxaey = , (9.26)

lineárny tvar funkcie je

�+= bxnany �� Y = A + Bx, kde AeanaA == ;ˆ � , B = b, (9.27)

- logaritmická funkcia

xnbay �+= , (9.28)


BXAY += , kde xnX �= a Xex = , (9.29)

-mocninová funkcia

baxy = , (9.30)


nxbnany �� += � Y = A + BX , a = eA , b = B . (9.31)

Príklad 4: Takmer univerzálnym typom regresnej funkcie na vyrovnanie v danom intervale je mocninový rad

nn xAxAxAxAAy +++++= ...3

32

210 . (9.32)

Ak ur�ujeme dva parametre (A0, A1) je to priamka, tri parametre (A0, A1, A2) je kvadratická parabola, štyri parametre kubická parabola.

Optimálny odhad regresných koeficientov iBA ˆa0 . (i = 1, 2, ... n) docielime pomocou vyrovnania MNŠ, �o vyžaduje nadbyto�ný po�et regresných vz�ahov medzi veli�inami x a y ako je po�et regresných koeficientov.

Jednotkovú strednú chybu vypo�ítame zo vz�ahu

knm

−= ��

T

0 , (9.33)

kde k je po�et regresných koeficientov.

Výpo�tom regresných koeficientov vytvoríme interpola�nú funkciu y = f(x).

Spo�ahlivos� interpolácie odhadneme využitím jednotkovej strednej chyby m0. Vytvoríme pásmo spo�ahlivosti interpolácie pri hladine významnosti α s kritickou hranicou tα m0 od regresnej funkcie, ke� tα ur�íme zo Studentovho rozdelenia pre n´ nadbyto�ných regresných vz�ahov.

66

Pásmo interpolácie je v intervale < xmin, xmax >. Extrapolácia nie je spo�ahlivá.

�i použijeme lineárny alebo nelineárny regresný model záleží iba od charakteru vz�ahu medzi veli�inami. Predbežné rozhodnutie je možné urobi� pri vykreslení bodov Pi(xi, yi) pre i = 1, 2, ..., n v rovinnom súradnicovom systéme súradníc a vizuálnom porovnaní regresného polygónu nieko�kými známymi funkciami (priamka, parabola, mocnonový rad, trigonometrická funkcia a pod.). Najvhodnejší tvar regresnej funkcie vyplynie po vyhodnotení korela�ného koeficienta r.

9.3 Priestorová regresná analýza

Pri rôznych technických úlohách sa využíva priestorová regresná analýza. Príkladmi sú: minimalizácia presunu zeminy, ur�enie regresnej roviny na odvodenie náklonu vysokých stavebných objektov, ur�enie priestorovej polohy diskontinuít, výpo�et výšok na digitálnom modeli reliéfu a iné.

Tvary priestorových regresných funkcií sú napr.:

- rovina: yaxaaz 210 ++= , (9.34)

- plocha druhého stup�a priamková ( hyperbolický paraboloid):

yaxayxaaz 3210 +++= , (9.35)

- plocha tretieho stup�a v tvare polynónu:

39

38

27

26

25

243210 yaxaxyayxayaxaxyayaxaaz +++++++++= . (9.36)

Obr. 9.2 . Priestorová poloha roviny (diskontinuity)

67

Príkladom využitia priestorovej regresie v geotechnike je ur�enie priestorovej polohy diskontinuít (puklinových plôch) z výsledkov fotogrametrického vyhodnotenia diskontinuity s po�tom charakteristických bodov n > 3. Cie�om riešenia je ur�i� vyrovnávaciu rovinu v smere niektorej z priestorových osí XYZ a z regresných koeficientov roviny vypo�íta� sklon normály ω a smerník

priemetu σ rádius vektora xyn (obr. 9.2).

Všeobecný tvar roviny, ktorý vyjadrujú reziduá v smere osi Y je

iiiyiyyi yczbxa −++=ε (9.37)

v maticovom zápise

( ) ( ) ( ) += 1,33,1, yA� nny ��(n,1) , (9.38)

kde je

A – matica súradníc charakteristických bodov diskontinuity s �lenmi v st�pcoch xi, zi, 1,

y – st�pcový vektor koeficientov ay, by, cy,

�� - st�pcový vektor s �lenmi – yi, (i = 1, 2, ..., n).

Podmienka yy ��T , bude splnená, ak

y��

T

∂∂

= 0.

St�pcový vektor y ur�íme z rovnice

( ) ( ) ( )( ) ( )nT

nT

n ,31

3,,31,3 AAAy −−= ��(n,1) . (9.39)

Sú�et štvorcov reziduí yy ��T vypo�ítame z rovnice:

yy ��T

( ) =1,1 �� ( ) ( ) ( ) +1,33,,1 yA nT

n �� ( )T

n,1 ��(n,1) . (9.40)

Presnos� aproximácie diskontinuity vyrovnávacou regresnou rovinou charakterizuje jednotková stredná chyba

30 −=

nm y

��T

. (9.41)

Podobne sa ur�ia regresné koeficienty regresných rovín, ktoré aproximujú diskontinuitu v smere osi X a Z. Sklon ω a smerník priemetu rádius vektora σ vypo�ítame z tých koeficientov regresnej roviny, u ktorej jednotková stredná chyba m0j (j = y, x, z) mala minimálnu hodnotu.

Napr. pod�a obr. 9.2 smerník σ priemetu rádius vektora xyn vypo�ítame z koeficientov

regresnej roviny upravenej do úsekového tvaru

68

1=+−

+

y

y

y

yy

b

cz

a

cx

cy

, (9.42)

z rovnice

y

y

y

a

c

carctg

−=−°= ϕσ 90 . (9.43)

Sklon ω rádius vektora xyn diskontinuity vypo�ítame z rovnice

22 1arccos180180

yy

yz

ba

b

++−°=−°= ωω . (9.44)

Znamienko odmocniny v menovateli je vždy opa�né ako u regresného koeficienta cy vyrovnávacej roviny.

Pri aproximácii diskontinuity (roviny) v smere osi X a Z vypo�ítame uhol ϕ a ωz rovníc:

- v smere osi X

x

x

x

cac

−= arctgϕ ,

221arccos

xx

xz

ba

b

++=ω , (9.45)

- v smere osi Z,

z

z

z

cbc

−= arctgϕ ,

1

1arccos

22 ++

−=zz

zba

ω . (9.46)

Uvedený postup výpo�tu sklonu regresnej roviny a smerníka rádius vektora môžeme aplikova� aj na ur�enie náklonov vysokých stavebných objektov z výsledkov nivela�ných meraní. Vtedy použijeme namiesto súradnice v smere osi Z rozdiely výšok pozorovaných bodov medzi dvoma etapovými meraniami.

9.4 Aproximácia bodového radu funkciou trigonometrickej rady (harmonická analýza)

V prírode a technických zariadeniach prebiehajú niektoré javy tak, že s ur�itým argumentom vplyvu ako je napr. �as, teplota, uhol, vlnová d�žka, at�. plynulo narastá ve�kos� meraného argumentu. Po dosiahnutí maxima bodový rad klesá na minimum a opä� sa vracia k pôvodnej hodnote. Po prvej perióde P sa priebeh javu opakuje v nasledujúcich periódach

( ) ( ) ( ) ...2 =+=+== PxfPxfxfy (9.47)

Preto sta�í vyšetri� priebeh javu v jednej perióde. Jej rozsah vn – v0 = P upravíme substitúciou

69

xP

tπ2= . (9.48)

Napr. na rozsah 2π u ro�ného priebehu strednej hodnoty teploty bude doba jedného mesiaca rovná 30° periódy.

Jednoduchý jav, ktorý plynie z jednej prí�iny (napr. chybu z excentricity alidády), je možné vyjadri� krivkou sinusoidy (obr. 9.3)

( )zAyxL ii −+= sin (9.49)

Máme odmeraných n hodnôt �i pri n hodnotách spojitej premennej argumentu Ai. x, y a z sú h�adané tri konštanty vyrovnávacej funkcie, kde x je poradnica sinusoidy, y je amplitúda, z je posun po�iatku sinusoidy oproti po�iatku argumentu Ai.

Ak po�et odmeraných hodnôt �i i > 3 aplikujeme vyrovnanie bodového radu s vyrovnaním MNŠ. Zostavíme rovnicu opráv

( )zAyxvL iiii −+=+= sin� (9.50)

Obr. 9.3 Vyrovnanie bodového radu sinusoidou

Funkcia (9.50) je príliš zložitá na to, aby sme pomocou troch vhodne rozložených bodov na bodovom rade, ur�ili približné hodnoty konštánt. Vhodné je postupova� tak, že si graficky znázorníme priebeh bodového radu. Hodnoty x0, y0 a z0 od�ítame z grafu. Metódou vyrovnania sprostredkujúcich meraní ur�íme opravy dx, dy a dz,

dxxx += 0 , dyyy += 0 , dzzz += 0 . (9.51)

Funkciu (9.50) rozvinieme do Taylorovho radu s �lenmi rozvoja

( ),sin 0000 zAyx i −+=� 1=∂∂

xLi , ( )0sin zAa

yL

iii −==

∂∂

,

( ) iiiii zAyb

zL

�� −=′−−−==∂∂

000 ,cos . (9.52)

Pretvorené rovnice opráv budú ma� tvar

( ) ( ) iiii dzzAydyzAdxv �� −+−−−+= 0000 cossin , (9.53)

70

iiii dzbdyadxv �′−++= . (9.54)

Opravy dx, dy a dz k približným hodnotám x0, y0 a z0 ur�íme známym postupom vyrovnania MNŠ.

Vypo�ítanými hodnotami (9.51) spresníme od�ítané hodnoty z grafu a zopakujeme vyrovnanie. Vyžadovanú presnos� ur�enia konštánt môžeme limitova� porovnaním dvoch po sebe vykonaných výpo�tov. Spravidla nám sta�í jedno opakované vyrovnanie.

Jednotkovú strednú chybu m0 a neznámych konštánt x, y a z vypo�ítame z rovníc

30 −=

nvv

mT

, xxx Qmm 0= , yyy Qmm 0= , zzz Qmm 0= . (9.55)

9.5 Analýza korelácie

Majme rad meraní dvojíc premenných xi, yi. Výsledky meraní môžu ukáza�, že jednej hodnote veli�iny xi bude zodpoveda� viac hodnôt yij (j = 1, 2, ..., n) a naopak jednej hodnote yi bude odpoveda� viac hodnôt xik (k = 1, 2, ..., m). S meniacou hodnotou sa mení stredná hodnota druhej premennej. Takúto závislos� medzi dvoma premennými ozna�ujeme pojmom korela�ná závislos� a taký nefunk�ný vz�ah má názov stochastický (náhodný) alebo štatistický vz�ah dvoch veli�ín. Ak vynesieme graficky odmerané hodnoty xi, yi nedostaneme bodový rad, ale plošný útvar – korela�né pole.

Prí�inou vzniku korela�ného po�a je existencia pôsobenia náhodných faktorov na premennú y a na argument x. Úlohou korela�ného po�tu je ur�i� vzájomný vz�ah medzi premennou y a argumentom x, ktorý vyjadrujeme koeficientom korelácie.

V korela�nom poli dostaneme dve vyrovnávacie priamky pod�a definície vyrovnania MNŠ

( ) .min=yP��T a ( ) .min=xP��

T (9.56)

Funk�né rovnice a rovnice reziduí budú pre prvú funkciu (9.56).

iyyyii xBAy +=+ ε

iiyyyi yxBA −+=ε (9.57)

0=xiε .

Normálne rovnice s použitím váhových koeficientov p majú tvar (rovnice 9.8 a 9.9)

� � � =−+ 0ˆˆ pyBpxAp yy , (9.58)

� � � =−+ 0ˆˆ pxyBpxxApx yy .

Z rovníc vypo�ítame regresné koeficienty yA , yB (napr. elimina�nou metódou, pomocou

determinantu (9.11), alebo maticovým riešením) a stredné chyby vyrovnaných regresných

71

koeficientov AAyA Qmm 0= , BByB Qmm 0= , ke� váhové koeficienty QAA a QBB sa

nachádzajú na diagonále inverznej matice normálnych rovníc a 20 −

=n

m yP��

T.

Ak vydelíme prvú rovnicu (9.58) hodnotou � p a druhú rovnicu hodnotou � px dostaneme

�

�−�

�+ppy

Bppx

A yyˆˆ = 0, (9.59)

��

�� −+

px

pxyB

px

pxxA yy

�� = 0 .

Dosiahli sme, že vyrovnácia priamka prechádza �ažiskom bodov T a tzv. �ažiskom �ažkých bodov U so súradnicami

��=

p

pxxT ,

�

�=ppy

yT , �

�=pxpxx

xU , �

�=pxpxy

yU . (9.60)

Ak sú �ažiská T a U od seba dostato�ne vzdialené, vypo�ítame ich smernice priamky

TU

TUyy xx

yyB

−−

== ˆtgα . (9.61)

Zjednodušenie rovníc (9.58) docielime redukciou súradníc na �ažisko

��

��

�

�

�=�

�=ppy

yppx

xT TT , , ,Tii xxx −=′ ,Tii yyy −=′ vtedy bude 0=� ′=� ′ ypxp .

Rovnica priamky (9.57) po redukcii na �ažisko má posunutý po�iatok do �ažiska, vtedy regresný

koeficient 0ˆ =yA a

,ˆiyyii xBy ′=+′ ε iiyyi yxB ′−′= ˆε . (9.62)

Regresný koeficient By vypo�ítame z druhej rovnice (9.59), ke� do nej dosadíme redukované súradnice na �ažisko

� ′′� ′′

=xxpyxp

B yˆ a xx

xxpyxp

xBy yy ′=′� ′′� ′′

=′=′ αtgˆ . (9.63)

Regresná priamka pre druhú podmienku (9.56) bude

xxBy xx ′=′=′ αtgˆ . (9.64)

Z rovnice (9.64)

yBygx xx ′=′=′ ∗ˆcot α . (9.65)

Regresné koeficienty B v smere osí Y a X sú

� ′′� ′′

=xxpyxp

B yˆ ,

� ′′� ′′

== ∗ yxpyyp

BB

xx

1ˆ . (9.66)

72

Keby všetky dvojice (xi, yi) odpovedali lineárnemu funk�nému vz�ahu (ležali na priamke), obidve regresné priamky by splynuli do jednej priamky. Vtedy by obidve smernice priamok boli rovnaké

a sú�in veli�ín By a ∗xB bol rovný 1:

xy αα tgtg = a ∗= xyxy BBgαα cottg = 1 . (9.67)

Je to len teoretický predpoklad, ktorý v mera�skej praxi prakticky nikdy nenastane, pretože

ú�inkom mera�ských chýb sú�asne nenastane predpoklad, aby 0=yTy�� a 0=x

Tx �� . Preto bude

pomer

∗=== xyx

yy BBB

Br

ˆ

ˆ

tg

tg

xαα

(9.68)

miera tesnosti náhodného vz�ahu veli�ín yi a xi, r sa nazýva koeficient korelácie.

Koeficient korelácie r je odmocnina z podielu smerníc oboch regresných priamok alebo geometrický priemer oboch koeficientov regresie. Koeficient korelácie r vypo�ítame z rovníc (9.66) a vz�ahu (9.68)

� � ′′′′� ′′

=� ′′� ′′

� ′′� ′′

== ∗

yypxxp

yxpyypyxp

xxpyxp

BBr xy . (9.69)

Koeficient korelácie pri rovnakých váhach (p = 1) bude

� ′′+� ′′� ′′

=yyxx

yxr . (9.70)

Koeficient korelácie pre lineárnu koreláciu je vhodné po�íta� zo vz�ahu

� ′′−=

� ′′−=

xxyyr x

Txy

Ty ��

11 . (9.71)

Dôkaz vz�ahu (9.71) nazna�íme pre argument x. Rovnice opráv sú

iii yBxA −+=ε . (9.72)

V maticovom tvare

( ) ( ) ( ) −= 1,22,1, dxD� nn ��(n,1) (9.73)

kde

( )

n

n

x

x

x

1

11

2

1

2,��

=D , ( ) B

A=1,2dx , ��(n,1)

ny

y

y

�

2

1

.

Zostavíme funkciu MNŠ a upravíme:

=��T (dxT DT - ��T) (D dx - ��) = dxT DT Ddx - dxTDT�� - ��T Ddx + ��T

�� . (9.74)

Nájdeme extrém funkcie deriváciou a porovnaním s nulou

( ) TTT

DDdDd�� −=

∂∂

xx

�� = 0. (9.75)

73

Regresné koeficienty BA ˆ, vypo�ítame z rovnice

dx = (DTD)-1 DT ��. (9.76)

V rovnici (9.74) vytkneme dxT a dostaneme

=��T dxT (DT D dx - DT��) + ��T

�� - ��T Ddx . (9.77)

Výraz v zátvorke je rovnica (9.75), ktorá je rovná nule. Zostávajúce �leny v rovnici (9.77) majú význam

��T�� = �= yy

y

y

y

yyy

n

n�

2

1

21 ,..., ,

��TDdx =

B

A

yxy

yxy

yxy

B

A

x

x

x

yyy

nnnn

n ˆ

ˆ

ˆ

ˆ

1

1

... 222

111

2

1

21�

� = = � �+ xyByA ˆˆ .

Ke� súradnice zredukujeme na �ažisko Tii xxx −=′ a Tii yyy −=′ , kde

nx

xT�= a

ny

yT�= , vtedy 0ˆ=A a pod�a rovnice (9.63) je

� ′′� ′′

=xxyx

B .

Sú�et štvorcov opráv vypo�ítame z rovnice (9.77)

( )� ′′� ′′

−� ′′=xx

yxyy

2

��T . (9.78)

Obr. 9.4. Stupne korelácie

Sú�et štvorcov opráv dosadíme do rovnice (9.71) a upravíme

74

=� ′′

�� ′′

� � ′′′′−′′

−=� ′′

−=yy

xxyxyx

yy

yyr 11

��T

� ′′+� ′′

� ′′=

� ′′

�� ′′

� � ′′′′� +′′−′′

=yyxx

yxyy

xxyxyx

yyyy . (9.79)

Dokázali sme tak rovnos� vz�ahov (9.69) a (9.71) na výpo�et koeficienta korelácie r.

Koeficient korelácie nadobúda hodnoty z intervalu 0, ±1. V rozsahu intervalu korelácie hodnotíme korela�né vz�ahy nasledovne (obr. 9.4).

1. r = 0, medzi premennými xi, yi nie je lineárny vz�ah (korelácia). � =′′ 0yx a hodnoty

v bodkovanom grafe (9.4a) sú symetrické k osám redukovaných súradníc ii yx ′′ , . Obidve regresné priamky sú na seba kolmé a stotož�ujú sa s osami X´Y´.

2. r = 1, stochastický vz�ah medzi premennými ii yx ′′ , prechádza na lineárny funk�ný vz�ah a obidve regresné priamky splynú do jednej priamky (obr. 9.4d).

3. 0 < r< 1. Ak sa rozptylový obrazec vz�ahu ii yx ′′ , sústre�uje do I. a III. Kvadrantu, sú�in

� ′′yx je kladný a koeficient regresie nadobúda hodnoty v intervale 0 < r< 1. A naopak, ak je

rozptylový obrazec v II. a IV. kvadrante sú�in, � ′′yx je záporný a koeficient korelácie bude ma� záporné hodnoty v intervale 0 > r > - 1.

Variancia koeficienta korelácie

Každá štatistická charakteristika, teda aj koeficient korelácie má tú vlastnos�, že so zmenšujúcim sa po�tom združených dvojíc (xi, yi) sa zmenšuje aj spo�ahlivos� vypo�ítaných regresných koeficientov BA ˆ, . S výpo�tom koeficienta korelácie r sa zaoberáme aj otázkou akú ve�kú hodnotu výberového koeficienta korelácie považujeme za posta�ujúcu na rozhodnutie, že dve premenné sú v stochastickom (náhodnom) vz�ahu a naopak, že sú v korela�nom vz�ahu. K uvedeným problémom potrebujeme pozna� rozdelenie empirického koeficienta korelácie pri jeho teoretickej hodnote ρ v základnom súbore združených dvojíc (xi, yi).

Variancie koeficienta korelácie vyjadrujeme vz�ahom

( )1

122

2

−−=nr

ρσ , (9.80)

kde 1 vyjadruje funk�ný vz�ah, ke� obidve regresné priamky splynú do jednej priamky,

ρ = E(r) ,

n je po�et dvojíc (xi, yi).

Na testovanie spo�ahlivosti ur�enia koeficienta korelácie používame kritickú hodnotu koeficienta korelácie rα vo výbere zo základného súboru pri hypotéze, že koeficient korelácie (ρ) v základnom súbore je ρ = 0. Kritické hodnoty rα sú uvedené v tab. IX. na posúdenie, že výberový koeficient r vo výbere zo základného súboru s ρ = 0 prekro�í svojou absolútnou hodnotou údaj rα

s pravdepodobnos�ou α, �o zapisujeme

{ } αα => rrP pri E(r) = ρ = 0 .

75

Na praktické využitie je vhodné testovanie rela�nými vz�ahmi

rtr σα< (9.81)

je nepreukázaná korelácia. tα je kritická hodnota, ktorú nájdeme v tabu�ke Studentovho rozdelenia s n-2 stup�ami vo�nosti a hladine významnosti α.

tασr < r< 0,40 malá korelácia (ve�mi vo�ný vz�ah), (9.82)

0,40 < r< 0,85 dobrá korelácia (preukázaná korelácia), (9.83)

40,85 < r< 1 významná korelácia. (9.84)

9.6 Nelineárna korelácia

Ke� sa body na korela�nom grafe zoskupujú okolo krivky použijeme najvhodnejšiu nelineárnu funkciu y = f(x). Koeficient korelácie vypo�ítame pod�a vz�ahu (9.62)

( )� ′′

−=yy

I yxy

��T

12 . (9.85)

Regresný koeficient r2 hodnotí len lineárny vz�ah. Jeho hodnotu ur�ujeme aj v prípade nelineárnej funkcie. Koeficient I sa nazýva tiež aj index korelácie.

9. REGRESNÁ A KORELA NÁ ANALÝZA - svf.utc.sksvf.utc.sk/kgd/skripta/vp2/kap09.pdf · premennými...

Documents

Transcript of 9. REGRESNÁ A KORELA NÁ ANALÝZA - svf.utc.sksvf.utc.sk/kgd/skripta/vp2/kap09.pdf · premennými...