ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

15
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili rozdíl mezi korelační a regresní analýzou. Budeme se teď věnovat pouze lineárnímu vztahu dvou veličin, protože je nejjednodušší a velmi často jej lze použít aspoň přibližně. Dále přijmeme předpoklad, že sledované veličiny jsou normální. V dalším textu se budeme zabývat speciálním případem REGRESNÍ ANALÝZY - metodou lineární regrese.

description

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN. V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili rozdíl mezi korelační a regresní analýzou. Budeme se teď věnovat pouze lineárnímu vztahu dvou veličin , protože je nejjednodušší a velmi často jej lze použít aspoň přibližně. - PowerPoint PPT Presentation

Transcript of ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Page 1: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

V dokumentu 7a_korelacni_a_regresni_analyza jsme řešilirozdíl mezi korelační a regresní analýzou.

Budeme se teď věnovat pouze lineárnímu vztahu dvou veličin,protože je nejjednodušší a velmi často jej lze použít aspoňpřibližně.

Dále přijmeme předpoklad, že sledované veličiny jsou normální.

V dalším textu se budeme zabývat speciálním případemREGRESNÍ ANALÝZY - metodou lineární regrese.

Page 2: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Základy lineární regrese

Regrese je velmi často užívaná statistická metoda, která se zabývá problémem vysvětlení změn jedné veličiny závislostí na jedné nebo více jiných veličinách.

Uvažujme nejjednodušší

případ, kdy vysvětlujeme

veličinu Y lineární závislostí

na jedné veličině X.

Page 3: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Lineární regreseVidíme, že s rostoucí hodnotou veličiny x se zhruba lineárně mění i hodnota Y, body na obrázku kolísají kolem myšlené přímky, kterou bychom mohli naměřenými body proložit.Hodnoty veličiny Yi můžeme vyjádřit jako součet dvou složek:

Yi = β0 + β1xi + εi , kde i = 1,2,…,n (1)

β0, β1 jsou neznámé koeficienty určující lineární závislost

εi náhodná kolísání způsobená nepřesností měření, biologickou variabilitou a dalšími rušivými faktory

Pokud střední hodnoty náhodného kolísání jsou nulové, pak E(εi) = 0 a

rovnici (1) můžeme přepsat

E(Y | X = xi) = E(Yi) = β0 + β1xi (2)

čili střední hodnoty náhodných veličin Yi za podmínky, že veličina X má hodnotu xi, leží na přímce dané rov. (2).

Page 4: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Lineární regreseRovnice (1) a (2) formulují lineární regresní model jako vyjádření naší představy o závislosti veličiny Y na veličině X. - X je vysvětlující proměnná (regresor) - Y je vysvětlovaná proměnná. Neznámé koeficienty β0 , β1jsou parametry regresního modelu a říkáme jim regresní koeficienty.

Odhad regresních koeficientů β0 a β1 z dat je jednou ze základních úloh regresní

analýzy: potřebujeme nalézt takové hodnoty b0, b1, které by určovaly přímku

Ŷi = b0 + b1x1 co nejlépe prokládající naměřená data.

Hodnoty b0 , b1 jsou pak odhady regresních koeficientů β0 , β1

Ŷ je odhadem E( Y|x = xi)

Co nejlepší proložení může být formulováno různými způsoby, nejčastěji se užívá metoda nejmenších čtverců (MNČ) (viz dále).

Page 5: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Lineární regrese - metoda nejmenších čtverců

MNČ znamená, že hledáme takové hodnoty b0 (úsek, který vytíná přímka na ose Y) a b1 (směrnice přímky), aby součet čtverců odchylek

pozorovaných hodnot Yi od hodnot Ŷi Se byl co nejmenší:

Metodu nejmenších čtvercůvysvětluje následující obrázek.Řešíme úlohu, jak volithodnoty b0 a b1, abysoučet plochvyznačených čtvercůbyl co nejmenší.

minˆ1

210

2

1

n

iii

n

iiie xbbYYYS

Page 6: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Nulová hypotéza

Dokazovaná hypotéza o lineární závislosti obou veličin, jejímž modelem je regresní přímka, stojí proti nulové hypotéze, která říká, že mezi veličinami neexistuje žádný vztah a jejich uspořádání lze vysvětlit pouhou náhodou.

Hypotézu nezávislosti veličin H0 modeluje přímka rovnoběžná s osou x protínající osu y ve střední hodnotě a procházející bodem

Pokud bude statistický test významný, zamítáme hypotézu H0

a přijímáme hypotézu o lineární závislosti obou veličin.

Princip testu spočívá v porovnání velikosti regresního a reziduálního rozptylu.

Regresní rozptyl je vypočten pomocí vzdáleností od přímky H0 k regresní přímce, reziduální rozptyl pomocí vzdáleností od regresní přímky k naměřeným hodnotám - viz obrázek.

y yx,

Page 7: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Lineární regrese

pro výpočet Reziduálního rozptylu

pro výpočet Regresního rozptylu

Y – vysvětlovaná proměnná

H0

regresní přímka

X - vysvětlující proměnná

Page 8: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

LINEÁRNÍ REGRESNÍ MODEL - příklad r. 1886 Francis Galton vytvořil model závislosti výšky prvorozených synů

na výšce jejich otců v této práci použil termín REGRESE začal se používat jako název metody

Testujeme hypotézu H0: výška syna nezávisí na výšce otce proti hypotéze H1: výška syna je lineárně závislá na výšce otce cílem je zjistit, zda rozdíly mezi modely je možno vysvětlit pomocí

náhody

Mějme dva matematické modely (v našem případě dvě přímky): první přímka vyjadřuje nezávislost, je rovnoběžná s osou X (H0) druhou přímku (H1) zkonstruujeme pomocí MNČ tak, aby svislé

vzdálenosti pozorovaných hodnot byly od přímky co nejmenší (svislé proto, že za závislou považujeme veličinu Y)

Page 9: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

160 165 170 175 180 185 190 195

160

170

180

190

Výška otce

Výš

ka s

yna

160 165 170 175 180 185 190 195

160

170

180

190

Výška otce

Výš

ka s

yna

Model lineární regrese - vztah výšky otce a syna

x

yx - nezávisle proměnnáy - závisle proměnnái – jednotlivá pozorování

iii εxβy 10

0

reziduum – odchylkaod modelu

Page 10: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

160 165 170 175 180 185 190 195

160

170

180

190

Výška otce

Výš

ka s

yna

160 165 170 175 180 185 190 195

160

170

180

190

Výška otce

Výš

ka s

yna

iix.yx.yi εyβαx

Lineární regreseiiy.xy.xi εxβαy

Co se stane když zaměním x a y ?

minimalizujeme

minimalizujeme

x

y

otec → syn =otec+zkreslení

syn → otec =syn+zkreslení

Můžeme předpokládat kauzalitu?Jakou?

Page 11: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

LINEÁRNÍ REGRESNÍ MODELCílem regresního modelu je porovnat rozdíl mezi - modelem hypotetického rozdělení H0: výška syna nezávisí na výšce otce

- a modelem HA: výška syna je lineárně závislá na výšce otce.

H0 jsme stanovili jako přímku Y = b0 (b1 = 0)

HA je regresní přímka Y = β0 + β1xi + εi

Součet čtverců odchylek závisle proměnné Y od jejího odhadu můžemerozdělit na dvě části:1. variabilitu vysvětlenou regresním modelem (rozdíl mezi HA a H0)

2. a na část, kterou model nevysvětluje, která zbývá, tedy je residuální (rozdíl mezi HA a naměřenými hodnotami - tedy ε)

Analogicky jako u analýzy rozptylu bude testovací statistika podíl součtučtverců odchylek dělených počtem stupňů volnosti.

Page 12: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

pnSSp

SS

Frez

reg

2.

2.

1

LINEÁRNÍ REGRESNÍ MODELTestovací statistika se vypočte jako podíl - čtverců očekávaných odchylek HA - H0 dělený počtem stupňů volnosti

- a čtverců reziduálního rozptylu dělený počtem stupňů volnosti.

počet stupňů volnosti v čitateli vypočteme jako počet parametrů regresního modelu mínus počet parametrů odhadovaných u H0 (p - 1)

počet stupňů volnosti ve jmenovateli jakopočet naměřených hodnot mínuspočet parametrů regresního modelu (n - p)

n … počet měřeníp … počet parametrů regresní přímky: p = 21 … počet odhadovaných parametrů hypotézy H0

Page 13: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Zobrazení vztahu dvou nezávislých spojitých veličin

Dvojice náhodných SPOJITÝCH VELIČIN X a Y. Jejich sdružené rozložení má dvourozměrnou hustotu f(x,y)

Page 14: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Sdružená hustota dvou závislých veličin

Page 15: ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Třírozměrný graf sdružené hustoty (sdruženého rozložení)dvou veličin na předchozím obrázku vyjadřuje závislost obou náhodných veličin.

Průmětu jedné veličiny do roviny říkáme marginální hustota.

Rozložení jedné veličiny např. X pouze u těch objektů, pro které platí Y = y (druhá veličina = konstantě) je tzv. podmíněném rozložení a můžeme si ho představit jako řez celkovým rozložením v bodu Y = y.

Tyto podmíněné funkce hustoty jsou na rozdíl od marginální hustoty obvykle užší a to tím více, čím pevnější je vazba mezi X a Y.