Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese...
Transcript of Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese...
STATISTIKA A ANALÝZA DAT
Jan Picek
Katedra aplikované matematiky
doktorandské studium na EF TUL 2013/2014
KONTAKT
Jan Picek
Katedra aplikované matematikyFakulta prírodovedne-humanitní a pedagogickábudova H (4.patro),Voronežská 13tel. 485 352 290,
konzultacní hodiny:Út 9:00-10:30e-mail: [email protected]
Jan Picek Statistické metody
POŽADAVKY
Požadavky:Zpracování semestrální práce zamerené na využitístatistických metod ve vazbe na téma disertacní práce.
Ústní komisionální zkouška.
Jan Picek Statistické metody
L ITERATURA
ANDEL, J. Statistické metody. 4. vyd. Praha: Matfyzpress, 2007.ISBN 978-80-7378-003-6.
HEBÁK, P. a kol. Vícerozmerné statistické metody, díl 1-3. 2.vyd. Praha: Informatorium, 2007. ISBN 978-80-7333-001-9.
HENDL, J. Prehled statistických metod zpracování dat. Portál:Praha, 2012 (4.vyd.). ISBN 978-80-262-0200-4.
MELOUN, M. a J. MILITKÝ. Kompendium statistickéhozpracování dat. 2. vyd. Praha: Academia, 2006. ISBN80-200-1396-2.
PECÁKOVÁ , I. Statistika v terénních pruzkumech. 2. vyd.Praha: Professional Publishing, 2011. ISBN 978-80-7431-039-3.
REZANKOVÁ, H., D. HÚSEK a V. SNÁŠEJ. Shluková analýzadat. 2. vyd. Praha: Professional Publishing, 2009. ISBN978-80-86946-81-8.
Jan Picek Statistické metody
L ITERATURA
JURECKOVÁ, J. a J. PICEK. Robust statistical methods with R.1st ed. Boca Raton: Chapman & Hall, 2005. ISBN9781584884545.
WARNER, R. M. Applied Statistics: From Bivariate ThroughMultivariate Techniques. 2nd ed. Thousand Oaks: SAGEPublications, 2012. ISBN 978-1412991346.
Jan Picek Statistické metody
L ITERATURA
http://moodle.vsb.cz/vyuka/course/info.php?id=3 Jaroslav Ramík: Statistické metody v marketingu http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html http://kap.fp.tul.cz
Jan Picek Statistické metody
ÚVOD
Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."
Jan Picek Statistické metody
ÚVOD
Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."
I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.
Jan Picek Statistické metody
ÚVOD
Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."
I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.
Príklad c. 1: Naprostá vetšina lidí má nadprumerný pocetnohou
Jan Picek Statistické metody
ÚVOD
Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."
I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.
Príklad c. 1: Naprostá vetšina lidí má nadprumerný pocetnohou
Príklad c. 2: Dve firmy na trhu zabývající se stejnoucinností uvádí prumernou mzdu. První ji má 22 857 Kc adruhá 18 981 Kc.
Jan Picek Statistické metody
ÚVOD
1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000
Jan Picek Statistické metody
ÚVOD
1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857
Jan Picek Statistické metody
ÚVOD
1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857
2. firma :100 delníku ............. 17 0005 adm. pracovníku ............. 30 0002 zástupci reditele ............. 50 0001 reditel ............. 100 000
Jan Picek Statistické metody
ÚVOD
1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857
2. firma :100 delníku ............. 17 0005 adm. pracovníku ............. 30 0002 zástupci reditele ............. 50 0001 reditel ............. 100 000prumer ............. 18 981
Jan Picek Statistické metody
ÚVOD
Opustíme-li prumery, situace muže být ješte zamotanejší
okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21
V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:
5
11= 45, 5% >
3
7= 42, 9%
Ve starší vekové kategorie je to stejné:
6
9= 66, 7% >
9
14= 64, 3%
Jan Picek Statistické metody
ÚVOD
Opustíme-li prumery, situace muže být ješte zamotanejší
okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21
V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:
5
11= 45, 5% >
3
7= 42, 9%
Ve starší vekové kategorie je to stejné:
6
9= 66, 7% >
9
14= 64, 3%
Je podíl žen v okrese A vetší než v okrese B ?
Jan Picek Statistické metody
ÚVOD
Opustíme-li prumery, situace muže být ješte zamotanejší
okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21
V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:
5
11= 45, 5% >
3
7= 42, 9%
Ve starší vekové kategorie je to stejné:
6
9= 66, 7% >
9
14= 64, 3%
Je podíl žen v okrese A vetší než v okrese B ? NE
11
20= 55, 0% >
12
21= 57, 1%
Jan Picek Statistické metody
ÚVOD
Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%
Jan Picek Statistické metody
ÚVOD
Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%
Okres pocet Studenti PodílJablonec 986 2555 38.6%Semily 1009 3479 29.0%Liberec 1614 8680 18.6%
Jan Picek Statistické metody
ÚVOD
Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%
Okres pocet Studenti Podíl Bydlí PodílJablonec 986 2555 38.6% 4196 23.5%Semily 1009 3479 29.0% 3724 27.1%Liberec 1614 8680 18.6% 7724 20.9%
Jan Picek Statistické metody
MERENÉ ZNAKY A M ERÍCÍ ŠKÁLY
Vlastnosti, které jsou podrobovány merení, oznacujemejako znaky. Znak je meren na vhodné zvolené škále,stupnici.
Jan Picek Statistické metody
MERENÉ ZNAKY A M ERÍCÍ ŠKÁLY
Vlastnosti, které jsou podrobovány merení, oznacujemejako znaky. Znak je meren na vhodné zvolené škále,stupnici.
Merení rozdelujeme podle typu:1. Metrické (kardinální)
2. Ordinální
3. Nominální (jmenné)
Jan Picek Statistické metody
DATA : TRÍDENÍ
Predmetem zájmu obvykle není jediný, izolovaný objekt,ale soubor objektu. Pozorování ci merení se podrobujívšichny prvky tohoto souboru. Pro každou zesledovaných vlastností, definujících znak, tak dostávámesoubor údaju odecítaných na príslušných škálách - tj.data x1, . . . , xn.
Jan Picek Statistické metody
DATA : TRÍDENÍ
Predmetem zájmu obvykle není jediný, izolovaný objekt,ale soubor objektu. Pozorování ci merení se podrobujívšichny prvky tohoto souboru. Pro každou zesledovaných vlastností, definujících znak, tak dostávámesoubor údaju odecítaných na príslušných škálách - tj.data x1, . . . , xn.
174, 178, 183, 168, 163, 175, 178, 177, 169, 182, 188,176, 177, 178, 184, 185, 170, 168, 157, 158, 174, 174,173, 171, 168, 170, 172, 174, 176, 179, 179, 188, 186,181, 180, 169, 172, 174, 165, 164, 156, 174, 184, 182,181, 172, 176, 177, 185, 181, 178, 175, 170, 168, 180,183, 183, 181, 180, 173, 175, 177, 179, 164, 161, 172,174, 178, 184, 176, 179, 162, 182, 177.
Jan Picek Statistické metody
DATA : TRÍDENÍ
Trídní rozdelení cetností:Interval absol. relativ. kumul.abs. kumul.rel.〈156, 161) 3 0.04 3 0.04〈161, 166) 6 0.08 9 0.12〈166, 171) 9 0.12 18 0.24〈171, 176) 17 0.23 35 0.47〈176, 181) 21 0.29 56 0.76〈181, 186) 15 0.20 71 0.96〈186, 191) 3 0.04 74 1.00
Jan Picek Statistické metody
DATA : TRÍDENÍ
Pocet a volba tríd:
mnoho × málo
Doporucení:
M = 1 + 3.3 log(n) Stugarsovo pravidlo
M =√n odmocninové pravidlo
Jan Picek Statistické metody
DATA : TRÍDENÍ
155 160 165 170 175 180 185 190
0
5
10
15
20
25
Histogram
Jan Picek Statistické metody
DATA : TRÍDENÍ
Pohlaví Kurák NekurákMuž 300 300Žena 150 250
Známka pocet žáku1 42 83 54 25 1
Jan Picek Statistické metody
DATA : POPIS
Základní úlohou, které reší popis dat, je úlohakondenzace, zhuštení informace v datech obsažené, takže se puvodní primární data zredukují do mnohemmenšího poctu údaju, tzv. charakteristik souboru:
polohy variability (promenlivosti) vzájemného vztahu, souvislosti mezi merenými daty ....
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak
x =1
n
n∑
i=1
xi.
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak
x =1
n
n∑
i=1
xi.
2 výberový medián – "robustní" - není ovlivnen i velkýmizmenami nekolika hodnot.n liché: x = x(n+1
2)
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak
x =1
n
n∑
i=1
xi.
2 výberový medián – "robustní" - není ovlivnen i velkýmizmenami nekolika hodnot.n liché: x = x(n+1
2)
n sudé: x = 12
(
x(n2) + x(n
2+1)
)
.
3 modální hodnota (modus) x – je definován jakonejcetnejší hodnota. Obecne není urcenajednoznacne.
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
setrídená data: x(1) ≤ x(2) ≤ ... ≤ x(n)
156 157 158 161 162 163 164 164 165 168 168
168 168 169 169 170 170 170 171 172 172 172
172 173 173 174 174 174 174 174 174 174 175
175 175 176 176 176 176 177 177 177 177 177
178 178 178 178 178 179 179 179 179 180 180
180 181 181 181 181 182 182 182 183 183 183
184 184 184 185 185 186 188 188
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
α-kvantil xα ( α ∈ (0, 1))xα = x(⌈αn⌉),kde ⌈a⌉ oznacuje a, pokud je to celé císlo, jinak nejbližívyšší celé císlo.
Krome mediánu, což je kvantil pro α = 0.5, se castoužívají i kvartily , x0.25 a x0.75.
Jan Picek Statistické metody
CHARAKTERISTIKY POLOHY
156 157 158 161 162 163 164 164 165 168 168
168 168 169 169 170 170 170 171 172 172 172
172 173 173 174 174 174 174 174 174 174 175
175 175 176 176 176 176 177 177 177 177 177
178 178 178 178 178 179 179 179 179 180 180
180 181 181 181 181 182 182 182 183 183 183
184 184 184 185 185 186 188 188
Jan Picek Statistické metody
CHARAKTERISTIKY VARIABILITY
Jan Picek Statistické metody
CHARAKTERISTIKY VARIABILITY
Rozptyl (variance, disperze)- prumerná kvadratická odchylka od prumeru
s2 =1
n
n∑
i=1
(xi − x)2 =1
n
(
n∑
i=1
x2i − nx2
)
smerodatná odchylka s =√s2
strední chybas√n
variacní koeficientv =
s
x
- definován pouze pro x1, . . . , xn > 0.
Jan Picek Statistické metody
CHARAKTERISTIKY VARIABILITY
prumerná absolutní odchylka
d =1
n
n∑
i=1
|xi − x|
rozpetí R = x(n) − x(1)
mezikvartilové rozpetí RM = x0.75 − x0.25
entropie (pro nominální znak)
h = −r∑
i=1
ni
nlog(ni
n
)
Jan Picek Statistické metody
DALŠÍ CHARAKTERISTIKY
1 Obecný moment k–tého rádu
m′k =
1
n
n∑
i=1
xki , k = 0, 1, . . .
2 Centrální moment k–tého rádu
mk =1
n
n∑
i=1
(xi − x)k, k = 0, 1, . . .
3 šikmost – míra (ne)symetrie
a3 =m3
s3
4 špicatosta4 =
m4
s4
Jan Picek Statistické metody
Prumer je
x =1
n
n∑
i=1
xi = 175.08,
výberový rozptyl
s2 =1
n
n∑
i=1
(xi − xn)2 = 51.72,
smerodatná odchylka
s =√s2 = 7.19,
variacní koeficient
v =s
x= 0.041,
šikmost
a3 =1n
∑n
i=1(xi − x)3
s3= −0.629,
špicatost
a4 =1n
∑n
i=1(xi − x)4
4= 3.065.Jan Picek Statistické metody
CHARAKTERISTIKY - BOX PLOT
c. výška výška otce výška matky váha tuk1. 153.0 178 176 42.5 44.02. 161.0 180 165 61.0 88.03. 163.0 182 170 62.0 69.04. 175.0 180 170 65.5 58.05. 149.0 175 163 54.6 69.56. 171.0 175 160 105.2 120.57. 159.0 187 174 60.7 66.08. 159.0 177 167 58.0 74.09. 162.0 189 175 63.0 49.2
10. 152.5 178 170 46.3 31.711. 162.0 194 168 82.0 80.512. 162.5 183 168 76.4 89.7
Jan Picek Statistické metody
CHARAKTERISTIKY - BOX PLOT
c. výška výška otce výška matky váha tuk13. 161.5 182 180 74.0 85.214. 150.0 176 160 53.1 52.215. 150.5 173 165 52.8 45.316. 163.5 183 170 46.2 30.517. 159.5 180 165 57.2 57.518. 167.5 187 173 65.5 57.519. 167.0 188 164 67.9 48.920. 170.0 180 175 63.3 66.621. 161.0 179 168 64.0 62.422. 160.0 183 171 49.5 31.9
Jan Picek Statistické metody
CHARAKTERISTIKY - BOX PLOT
150
160
170
180
190
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Statistiky ukazují, že 10% dopravních nehod zpusobujíopilí ridici. Z toho plyne, že zbývajících 90% dopravníchnehod je zpusobeno strízlivými ridici. Nemelo by se tedystrízlivým ridicum zakázat rízení vozidel ?
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
(x1, y1), . . . , (xn, yn)
korelacní koeficient:
rx,y =Cx,y
sxsy.
kovariance:
Cx,y =1
n
n∑
i=1
(xi − x) (yi − y) =1
n
(
n∑
i=1
xi yi
)
− xy,
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Korelacní matice (výška, výška otce, výška matky , váha, tuk):
1.00000000 0.38105466 0.17817213 0.58595366 0.336941670.38105466 1.00000000 0.39432681 0.21713439 −0.058101780.17817213 0.39432681 1.00000000 −0.19823197 −0.228841870.58595366 0.21713439 −0.19823197 1.00000000 0.841307990.33694167 −0.05810178 −0.22884187 0.84130799 1.00000000
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Spearmanuv korelacní koeficient
rS = 1− 6
n(n2 − 1)
n∑
i=1
(Ri −Qi)2
Ri a Qi je poradí
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Žák (i) xi yi Ri Qi
1. 2 1 2 22. 4 2 9 63. 3 1 5,5 24. 3 2 5,5 65. 2 2 2 66. 2 3 2 97. 4 2 9 68. 4 4 9 109. 3 1 5,5 2
10. 3 2 5,5 6
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Žák (i) xi yi Ri Qi
1. 2 1 2 22. 4 2 9 63. 3 1 5,5 24. 3 2 5,5 65. 2 2 2 66. 2 3 2 97. 4 2 9 68. 4 4 9 109. 3 1 5,5 2
10. 3 2 5,5 6
rS = 0.266
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Pohlaví Kurák NekurákMuž 300 300Žena 150 250
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Pohlaví Kurák NekurákMuž 300 300Žena 150 250
Míry asociace založeny na
χ2 =r∑
i=1
s∑
j=1
(
nij − ni.nj.
n
)2
ni.nj.
n
napr.
C =
√
χ2
χ2 + n
Jan Picek Statistické metody
CHARAKTERISTIKY VZTAHU
Pohlaví Kurák NekurákMuž 300 300Žena 150 250
C = 0.122
Míry asociace založeny na
χ2 =r∑
i=1
s∑
j=1
(
nij − ni.nj.
n
)2
ni.nj.
n
napr.
C =
√
χ2
χ2 + n
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Príklad: placení školného, dotáži se nekolika vybranných jedincu:
1. 7 osob, 1x ANO, 7x NE
pro je 1
7= 0.143 = 14.3(%)
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Príklad: placení školného, dotáži se nekolika vybranných jedincu:
1. 7 osob, 1x ANO, 7x NE
pro je 1
7= 0.143 = 14.3(%)
Kolik osob do šetrení vybrat ?
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Príklad: placení školného, dotáži se nekolika vybranných jedincu:
1. 7 osob, 1x ANO, 7x NE
pro je 1
7= 0.143 = 14.3(%)
Kolik osob do šetrení vybrat ?
2. 3000 osob, 430x ANO, 2570x NE
pro je 430
3000= 0.143 = 14.3(%)
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Príklad: placení školného, dotáži se nekolika vybranných jedincu:
1. 7 osob, 1x ANO, 7x NE
pro je 1
7= 0.143 = 14.3(%)
Kolik osob do šetrení vybrat ?
2. 3000 osob, 430x ANO, 2570x NE
pro je 430
3000= 0.143 = 14.3(%)
Presnost - tzv. intervalové odhady, kvalita - reprezentativnost
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Intervalový odhad:
1) (0.4%, 57.9%)
2) (13.1%, 15.6%)
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Intervalový odhad:
1) (0.4%, 57.9%)
2) (13.1%, 15.6%)
Základní soubor - úplné šetrení Vzorek - výberové šetrení
Jan Picek Statistické metody
INDUKTIVNÍ STATISTIKA - ÚVOD
Matematická statistika reší dve základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz)
Obvykle predpokládáme, že pro danou situaci známevhodný model (distribucní funkci, hustotu aj.) až nahodnotu parametru. Úlohy jsou pak prevedeny na úvahy otechto parametrech.
Jan Picek Statistické metody
ODHADY
bodový (odhad císlem) intervalový - interval, který s predepsanou
pravdepodobností (1− α) pokrývá hodnotuneznámého parametru
Jan Picek Statistické metody
PRAVDEPODOBNOST
Predmetem teorie pravdepodobnosti je studiumnáhodných deju, tj. takových deju, jejichž výsledek nenípredem jednoznacne urcen a ocekává se pouze, ževýsledek bude jedním z dané množiny možných výsledkuΩ – neprázdná abstraktní množina. Pocet jejích prvkumuže být konecný, spocetný, ale i nespocetný.Náhodnému deji budeme ríkat náhodný pokus .Výsledkem pokusu mohou být císla, císelné vektory,císelné posloupnosti, casový prubeh nejaké funkce nadaném intervalu, ale i libovolný kvalitativní ukazatel.Všechny možné výsledky pokusu ω ∈ Ω nazývámeelementárními jevy . Podmnožiny množiny Ω nazývámejevy
Jan Picek Statistické metody
PRAVDEPODOBNOST
Klasická definice pravd epodobnosti.
Tato definice je použitelná v prípadech, kdy situace jepopsána konecným poctem n ruzných výsledku(elementárních jevu ω), z nichž každý je "stejne možný".Potom
P (A) =m(A)
n,
kde m(A) je pocet elementárních jevu, které tvorínáhodný jev A.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Náhodná velicina
Cíl: matematický popis náhodných jevu ("kvantifikovace"popisu - vyjádrení pomocí reálných císel.)odpovedi v ankete "ano", "ne" – "1", "0","kvalita výrobku" – oznacení 1,2,3, ... pro trídy kvality,Casto je už náš základní prostor jevu cástí R (výsledkymerení, doba bezporuchového provozu, pocet výrobku zasmenu atd.).
Jan Picek Statistické metody
PRAVDEPODOBNOST
Náhodnou veli cinou budeme nazývat zobrazeníX : Ω → R.Náhodná velicina se vyznacuje rozd elenímpravd epodobnosti na R, což není nic jiného než puvodnípravdepodobnost na Ω prevedená na R.Existují dva typy náhodných velicin, náhodná velicinas diskrétním rozdelením pravdepodobnosti a náhodnávelicina se spojitým rozdelením pravdepodobnosti.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Diskrétní rozd elení
Rekneme, že náhodná velicina X je náhodná velicinas diskrétním rozd elením pravd epodobnosti , jestližeexistuje nejvýše spocetne mnoho bodu xj a nejvýšespocetne mnoho kladných císel pj = P (X = xj) > 0,splnujících
∑
j P (X = xj) = 1.
Funkci PX(xj) = P (X = xj) nazývámepravd epodobnostní funkcí .
Jan Picek Statistické metody
PRAVDEPODOBNOST
Rekneme, že náhodná velicina X je náhodná velicinas (absolutn e) spojitým rozd elením , jestliže existujenezáporná reálná funkce fX reálné promenné taková, že
P (a ≤ X < b) =
∫ b
a
fX(x)dx
pro libovolná reálná a, b; a ≤ b.
Funkce fX se nazývá hustotou rozd elenípravd epodobnosti .
Jan Picek Statistické metody
PRAVDEPODOBNOST
Distribu cní funkcí náhodné veliciny X budeme nazývatreálnou funkci reálné promenné, pro kterou platí
FX(x) = P (X < x).
Jan Picek Statistické metody
PRAVDEPODOBNOST
Vlastnosti distribu cní funkce1. 0 ≤ FX(x) ≤ 1 pro všechna reálná x.2. FX je neklesající funkce, tj. FX(x1) ≤ FX(x2) pro
každé x1, x2 ∈ R, x1 < x2.3. Pro libovolná reálná císla a, b ∈ R; a < b platí
P (a ≤ X < b) = FX(b)− FX(a).
4. limx→−∞
FX(x) = 0, limx→∞
FX(x) = 1.
5. FX je zleva spojitá v libovolném bode x ∈ R.
6. Pro libovolné reálné císlo x ∈ R platíP (X = x) = limt→x+ FX(t)− FX(x).
7. Distribucní funkce má nejvýše spocetne mnoho bodunespojitosti.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Císelné charakteristiky
Rozdelení pravdepodobnosti dává úplnou informacio náhodném chování náhodné veliciny.
Pri vyhodnocování pokusu a sledování náhodných jevuvšak casto vystacíme se znalostí jen nekterých zvláštníchcharakteristik, které odráží nejakou duležitou stránkutohoto pokusu resp. náhodného jevu.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Nejduležitejší z takovýchto charakteristik je hodnota,kolem které se kumulují hodnoty náhodné veliciny. Tutohodnotu nazýváme strední hodnotou, nekdy též hovorímeo ocekávané hodnote.
EX =∑
i∈I
xi P (X = xi).
resp.
EX =
+∞∫
−∞
x fX(x) dx.
Jan Picek Statistické metody
PRAVDEPODOBNOST
RozptylKrome strední hodnoty, nejužívanejším momentem jedruhý centrální, tzv. rozptyl (variance) náhodné veli ciny
varX = E(X − EX)2 =∑
i∈I
(xi − EX)2 P (X = xi).
resp.
varX = E(X − EX)2 =
+∞∫
−∞
(x− EX)2 fX(x) dx
Druhou odmocninu z rozptylu nazýváme smerodatnouodchylkou (σ).
Jan Picek Statistické metody
PRAVDEPODOBNOST
Vlastnosti rozptylu a st rední hodnoty.1. varX ≥ 0.
2. varX = EX2 − (EX)2.
3. Necht’ a, b ∈ R a X je náhodná velicina, potom platívar(a+ bX) = b2varX a E(a+ bX) = a+ bEX.
4. Nemusí existovat.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Je-li g funkce, pak
Eg(X) =∑
i∈I
g(xi)P (X = xi).
resp.
Eg(X) =
+∞∫
−∞
g(x) fX(x) dx.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Obecné a centrální momenty
Obecný moment r-tého rádu
µ′r = EXr =
∑
i∈I
xri P (X = xi), r = 1, 2, . . . ,
resp.
µ′r = EXr =
+∞∫
−∞
xr fX(x) dx.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Centrální moment r-tého rádu
µr = E(X − EX)r =∑
i∈I
(xi − EX)r P (X = xi)
resp.
µr = E(X − EX)r =
+∞∫
−∞
(x− EX)r fX(x) dx
Šikmost a špi catost:
α3 = α3(X) =µ3
σ3,
α4 = α4(X) =µ4
σ4(−3)
Jan Picek Statistické metody
PRAVDEPODOBNOST
Kvantilové císelné charakteristiky
Necht’ X náhodná velicina s distribucní funkci FX . Potomfunkce F−1
X daná vztahem
F−1X (α) = inf x ; FX(x) ≥ α 0 < α < 1,
se nazývá kvantilová funkce.
Hodnotám funkce F−1X (α) ríká α-kvantil (nebo 100α%-ní
kvantil).
Jan Picek Statistické metody
PRAVDEPODOBNOST
Mediánem x rozumíme 50%-ní kvantil.
Dolním kvartilem x0.25 rozumíme 25%-ní kv.
Horním kvartilem x0.75 rozumíme 75%-ní kv.
k-tým decilem rozumíme F−1X (k/10) pro k = 1, 2, . . . , 9.
k-tým percentilem rozumíme F−1X (k/100) pro
k = 1, 2, . . . , 99.
mezikvartilové rozp etí x0.75 − x0.25
Jan Picek Statistické metody
PRAVDEPODOBNOST
Používaná diskrétní rozd elení
Jan Picek Statistické metody
PRAVDEPODOBNOST
Alternativní rozdelení X ∼ Alt(p)Necht’ náhodná velicina X nabývá pouze dvou hodnot 0 a1, a to s pravdepodobnostmi
P (X = 1) = p,
P (X = 0) = (1− p),
kde 0 < p < 1.Rozdelení se nekdy oznacuje jako 0 – 1.
EX = p, varX = p(1− p)
Jan Picek Statistické metody
PRAVDEPODOBNOST
Binomické rozdelení X ∼ Bi(n, p)
Necht’ náhodná velicina X nabývá hodnot 0, 1, . . . , ns pravdepodobnostmi
P (X = i) =
(
n
i
)
pi(1− p)n−i, i = 0, 1, . . . , n,
kde 0 < p < 1.
EX = np, varX = np(1− p)
Jan Picek Statistické metody
PRAVDEPODOBNOST
Binomické rozdelení X ∼ Bi(n, p)
Binomickým rozdelením se rídí cetnost nejakého jevu Av n nezávislých pokusech, když v každém pokusu jepravdepodobnost jevu A stále stejná a je rovna p.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Poissonovo rozdelení X ∼ Po(λ)
Necht’ X je náhodná velicina nabývající hodnoti = 0, 1, 2, . . . s pravdepodobnostmi
P (X = i) =λi
i!e−λ,
kde λ > 0 je dané císlo.
EX = var (X)
Jan Picek Statistické metody
PRAVDEPODOBNOST
Poissonovo rozdelení X ∼ Po(λ)
Nejcasteji se používá pro popis pravdepodobnosti poctuudálostí v nejakém casovém intervalu. (pocet telefonníchhovoru, dopravních nehod, príchodu zákazníku doobchodu apod.)
Poissonovo rozdelení je možno také použít místobinomické náhodné veliciny X ∼ Bi(n, p), pricemž n jevelmi velké císlo, p je velmi malé císlo a soucin λ = np jestálý.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Geometrické rozdelení X ∼ Ge(p)
Uvažujme náhodnou velicinu X, která nabývá hodnoti = 0, 1, 2, . . . , a to s pravdepodobnostmi
P (X = i) = p(1− p)i,
kde p ∈ (0, 1) je parametr.
EX =1− p
p, varX = (1− p)p2
Jan Picek Statistické metody
PRAVDEPODOBNOST
Geometrické rozdelení X ∼ Ge(p)
Sledujme výskyt jevu A v nezávislých opakováníchnáhodného pokusu, pricemž pravdepodobnost jevu A jev každém pokusu rovna p. Náhodná velicinas geometrickým rozdelením udává pocet nezávislýchopakování onoho náhodného pokusu pred prvnímvýskytem jevu A.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Hypergeometrické rozdelení X ∼ Hg(N, n,M)
Necht’ N,M a n jsou prirozená císla taková, žeM < N, n < N. Necht’ X nabývá pouze celocíselnýchhodnot i s pravdepodobnostmi
P (X = i) =
(
M
i
)(
N−M
n−i
)
(
N
n
) ,
pro max(0,M + n−N) ≤ i ≤ min(M,n).
EX =nA
N, var (X) =
nA(N − A)
N2
(
1− n− 1
N − 1
)
.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Hypergeometrické rozdelení X ∼ Hg(N, n,A)
Toto rozdelení je možné popsat následující situací.Uvažujme množinu, která obsahuje N objektu, z nichž Mmá jistou vlastnost. Vybereme náhodne z této množiny nobjektu. Potom X oznacuje pocet vybraných objektumající uvažovanou vlastnost.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Spojitá rozd elení
Jan Picek Statistické metody
PRAVDEPODOBNOST
FX(x) =
∫ x
−∞
fX(y) dy pro každé x ∈ R.
Ve všech bodech, kde existuje derivace distribucní funkceFX , platí vztah
dFX(x)
dx= fX(x).
∫ ∞
−∞
fX(x)dx = 1
Jan Picek Statistické metody
PRAVDEPODOBNOST
Pro libovolná reálná císla a, ba ≤ b platí
P (a ≤ X ≤ b) = P (a < X ≤ b) =
P (a ≤ X < b) = P (a < X < b) =∫ b
a
fX(t) dt.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Rovnom erné rozd elení X ∼ R(a, b)
f(x) =
1b−a
pro a < x < b0 pro x ≤ a nebo x ≥ b.
F (x) =
0 x ≤ ax−ab−a
a < x < b1 x ≥ b.
Dále je
EX =(a+ b)
2, var(X) =
(b− a)2
12.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Normální (Gaussovo) rozd elení X ∼ N(µ, σ)
f(x) =1√2πσ
exp
(
−1
2
(x− µ)2
σ2
)
, prox ∈ R,
parametry: µ = EX a σ2 = var(X).
Distribucní funkce - nexistuje žádná explicitní formule.Hodnoty distribucní funkce s parametry 0, 1 velice presnetabelovány.
Jan Picek Statistické metody
PRAVDEPODOBNOST
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
µ=2, σ=1
µ=0, σ=2µ=0, σ=2
µ=0, σ=0.5
µ=0, σ=1
Graf hustoty normalního rozdelení pro ruzné hodnoty parametru µ aσ.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Exponenciální rozd elení X ∼ Exp(c)
f(x) =
ce−cx x ≥ 00 jinak,
FX(x) =
∫ x
−∞
f(t) dt =
1− e−cx x ≥ 00 x < 0.
EX = 1/c, var(X) = 1/c2
Jan Picek Statistické metody
PRAVDEPODOBNOST
Weibullovo rozd elení X ∼ Wb(c, d)Zobecnením exponenciálního rozdelení
F (x) =
1− e−cxd
x ≥ 00 x < 0.
s parametry c, d > 0.
f(x) =
cdxd−1 exp(−cxd) x ≥ 00 x < 0.
Jan Picek Statistické metody
PRAVDEPODOBNOST
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
c=1, d=0.5
c=2, d=1
c=1, d=1
c=1, d=2
Graf hustoty Weibullova rozdelení pro ruzné hodnoty parametru c a d.
Jan Picek Statistické metody
PRAVDEPODOBNOST
Cauchyovo rozd elení
f(x) =1
π· λ
λ2 + (x− θ)2,
parametry θ a λ.
F (x) =1
2+
1
πarctan
(
x− θ
λ
)
.
Toto rozdelení nemá strední hodnotu a rozptyl.
Jan Picek Statistické metody
ODHADY
Matematická statistika reší dve základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz)
Obvykle predpokládáme, že pro danou situaci známevhodný model (distribucní funkci, hustotu aj.) až nahodnotu parametru. Úlohy jsou pak prevedeny na úvahy otechto parametrech.
Jan Picek Statistické metody
ODHADY
Informaci pro statistickou analýzu obdržíme ve forme dat,která považujeme za realizace zkoumaných náhodnýchvelicin. Náhodným výberem rozumíme vektor složenýz nezávislých a stejne rozdelených náhodných velicin.Císlo n je rozsah výberu.Náhodný výber je model pro situace, kdy pozorujeme nnezávislých, “stejných" objektu, nebo opakujemenezávisle n krát tentýž pokus. Náhodná velicina jemodelem pro onu velicinu, kterou na daných objektechzkoumáme.
Jan Picek Statistické metody
ODHADY
"výber" – za rozumnou dobu a s rozumnými nákladyschopni zjistit údaje jen o n vybraných objektech. Nazáklade výberu deláme závery o charakteristikách celéhosouboru.Príklady: namátková ci výberová kontrola výrobku,výzkumy verejného mínení, testování lécebných postupu.Duležitou otázka - reprezentativnost
Jan Picek Statistické metody
ODHADY
Mezi nejpoužívanejší odhady :výb erový prum er
Xn =1
n
n∑
i=1
Xi
a výb erový rozptyl
S2 =1
n− 1
n∑
i=1
(Xi − Xn)2 =
1
n− 1(
n∑
i=1
X2i − nX2
n, )
Jan Picek Statistické metody
ODHADY
Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí
EX = µ, varX =σ2
n
Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí X ∼ N(µ, σ2/n).
Jan Picek Statistické metody
ODHADY
Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí
ES2 = σ2 varS2 = σ4 2n
(n− 1)2
Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí (n− 1)S2/σ2 ∼ χ2
n−1 a X a S2 jsou nezávislé.
Jan Picek Statistické metody
ODHADY
Náhodná velicina Z =∑m
1 Z2j má χ2-rozdelení, když
Z1, Z2, . . . , Zm jsou nezávislé stejne rozdelené veliciny zrozdelení N(0, 1). Pak hustota Z je
gm(z) =1
2m2 Γ(
m2
)e−z2 z
m2−1, pro z ≥ 0,
Γ(p) je gamma-funkce,∫∞
0xp−1e−xdx, pro p celé > 0 je
Γ(p) = (p− 1)!.E(Z) = n, var (Z) = 2n
Jan Picek Statistické metody
ODHADY
Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí
ES2 = σ2 varS2 = σ4 2n
(n− 1)2
Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí (n− 1)S2/σ2 ∼ χ2
n−1 a X a S2 jsou nezávislé.
Jan Picek Statistické metody
ODHADY
Necht’ U, Z jsou nezávislé náhodné veliciny, kde U jenormální N(0, 1) a Z2 má χ2-rozdelení o n stupníchvolnosti. Pak velicina T = U
Z
√n má Studentovo
t-rozdelení o n stupních volnosti dané hustotou
hn(t) =1√
nB(
n2, 12
) ,
(
1 +t2
n
)−n+1
2
−∞ < t < ∞.
Jan Picek Statistické metody
ODHADY
Necht’ U, V jsou dve nezávislé náhodné velicinyo χ2-rozdeleních o n a m stupních volnosti. Rozdeleníjejich podílu
W =U/n
V/m
se pak nazývá F -rozdelení s n a m stupni volnosti a máhustotu
gn,m(z) =n
n2 m
m2 z
n2−1
B(n2,m2 )(m+nz)
n+m2
pro z > 0
gn,m = 0 jinak.
Jan Picek Statistické metody
ODHADY
Teorie bodového odhaduNáhodný výber (reprezentuje data): nezávislé stejnerozdelené náhodné veliciny mají rozdelení z urcité trídyrozdelení F (x, θ), kde θ ∈ Θ ⊂ Rk je neznámý parametr.Uvažujeme tedy náhodný vektor X, jejíž rozdelení závisína parametru θ.
FX(x, θ) =n∏
i=1
F (xi, θ)
Jan Picek Statistické metody
ODHADY
Úkolem je odhad parametru θ. Parametr θ "charakterizujevlastnost, kterou z dat chceme odhadnout."
Odhad je obecne funkcí pozorovaných náhodných velicin,tj. T(X) z Rn to Rk (statistika). Odhad je opet náhodnávelicina (vektor), konkrétní "odhad" aktuální hodnotyparametru θ je hodnota T(X), když x je realizace X.Cíl vybrat funkci statistiku Tn(X), která by "co nejlépe"odhadovala neznámý parametr θ.
Jan Picek Statistické metody
ODHADY
Požadované vlastnosti odhadu:1 Nestrannost (nevychýlenost): pro každé θ platí
Eθ Tn(X) = θ.
2 Konzistence: limn→∞ Tn(X) = θ
3 Eficience (vydatnost): odhad Tn(x) je eficientní, kdyžpro každý jiný odhad T ∗
n(x) mající konecný druhýmoment platí
Eθ(Tn(X)− θ)2 ≤ Eθ(T ∗n(X)− θ)2
tj. pro nestranné odhady
var θ(Tn(X) ≤ var θ(T∗n(X))
Jan Picek Statistické metody
ODHADY
Metody odhadu
Metoda maximální verohodnostiMaximálne verohodným odhadem parametru θ prinamerených hodnotách x1, x2, . . . , xn je hodnota θ0 ∈ Θ,pro kterou je verohodnostní funkce Lθ(x) maximální.Lθ(x) =
∏n
i=1 f(xi, θ) pro spojité, resp.∏
P (Xi = xi, θ)pro diskrétní rozložení pravdepodobnosti.
Jan Picek Statistické metody
ODHADY
Protože logL má maximum v témže bode jako L,prakticky se casto odhad hledá jako rešení verohodnostnírovnice
∂ logLθ(x) / ∂θ = 0.
Maximálne verohodný odhad je konzistentní.
Jan Picek Statistické metody
ODHADY
Momentová metodaPorovnání teoretických a výberových momentu
Jan Picek Statistické metody
ODHADY
Odhady: bodový (odhad císlem) intervalový - interval, který s predepsanou
pravdepodobností (1− α) pokrývá hodnotuneznámého parametru
Jan Picek Statistické metody
ODHADY
Intervalový odhad: model normálního rozdelení
100(1− α)% interval pro µ a neznámé σ2:(
X − tn−1(1− α/2)S√n,X + tn−1(1− α/2)
S√n
)
pro µ a známé σ2:(
X − Φ−1(1− α/2)σ√n,X + Φ−1(1− α/2)
σ√n
)
tn−1(1− α/2), Φ−1(1− α/2) - kvantily (tabulkové hodnoty),α - zvolená (predepsaná) hodnota, obvykle 0.05, 0.01
Jan Picek Statistické metody
ODHADY
Intervalový odhad: model normálního rozdelení
100(1− α)% interval pro σ2:(
(n− 1)S2
χ2n−1(1− α/2)
,(n− 1)S2
χ2n−1(α/2)
)
χ2n−1(α/2) - kvantily (tabulkové hodnoty),
α - zvolená (predepsaná) hodnota, obvykle 0.05, 0.01
Jan Picek Statistické metody
ODHADY
Intervalový odhad: model binomického rozdelení
100(1− α)% interval pro p:
(
m
n− Φ−1(1− α/2)
n
√
m(1− m
n),m
n+
Φ−1(1− α/2)
n
√
m(1− m
n)
Φ−1(1− α/2) - kvantil normálního rozdelení (tabulky), m/nrelativní cetnost "výskytu sledovaného jevu" vevýberovém souboru
Jan Picek Statistické metody
TESTY
Testování hypotéz:
Na základe náhodného výberu x = (X1, . . . , Xn)′, jehož
rozdelení závisí na parametru θ, který patrí doparametrického prostoru Θ, chceme rozhodnout, zda platíurcité tvrzení o náhodné velicine, napríklad, že θ patrí dourcité vlastní podmnožiny θ
∗ prostoru Θ. Toto tvrzenínazýváme (nulová) hypotéza .
Jan Picek Statistické metody
TESTY
Toto tvrzení nazýváme (nulová) hypotéza .
H0 : θ ∈ θ∗.
Protikladné tvrzení v rámci uvažovaného modelu senazývá alternativa , napr.
A : θ /∈ θ∗.
Je-li θ∗ jednobodová, pak mluvíme o jednoduchéhypotéze .
Jan Picek Statistické metody
TESTY
Vlastní test: Na základe náhodného výberuzkonstruujeme testovou statistiku T a urcíme množinuW , která se nazve kritický obor . Nastane-li jevT ∈ W , pak zamítneme hypotézu H0. Pri tomtorozhodování nastane nekterý z následujících prípadu:
1. H0 platí a test ji nezamítá. Rozhodnutí je správné.2. H0 neplatí a test ji zamítá. Rozhodnutí je správné.3. H0 platí a test ji zamítá. Ríká se, že nastala chyba 1. druhu4. H0 neplatí a test ji nezamítá. Ríká se, že nastala chyba 2.
Jan Picek Statistické metody
TESTY
Kriticky obor pritom konstruujeme tak, abypravdepodobnost chyby 1. druhu neprekrocila predemdané císlo α hladina testu . Nejlepší volba kritickéhooboru a testové statistiky je taková, kdy pri dodrženípodmínky na chybu na chybu 1. druhu jepravdepodobnost chyby 2. druhu minimální.
Jan Picek Statistické metody
TESTY
T-test: Model normální rozdelení: nulová hypotéza:H0 : µ = µ0 (predepsané císlo)alternativa: A : µ 6= µ0
Jan Picek Statistické metody
TESTY
Rozhodovací kritérium:
T =X − µ0
S
√n
Je-li |T | ≥ tn−1(1− α/2) zamítám nulovou hypotézu("tvrdím, že správná je alternativa"), v prípade opacnénerovnosti nezamítám nulovou hypotézu ("je správná").
Jan Picek Statistické metody
TESTY
Párový t-test: se používá v situacích, kdy máme nakaždém z n objektu mereny dve veliciny (X1, Y1),. . . , (Xn, Yn). Jednotlivé objekty lze zpravidla pokládat zanezávislé, ale merení na témž objektu nikoli.
Položme Z1 = X1 − Y1, . . . , Zn = Xn − Yn.Predpokládejme, že Zi ∼ N(µ, σ2), i = 1, . . . , n, kdeµ = µ1 − µ2. Jsou-li tyto predpoklady splneny, pak jde otest H : µ = 0 proti alternative A : µ 6= 0. (Úlohaprevedena na jednovýberový t-test.)
Jan Picek Statistické metody
TESTY
Testová statistika:
T =Z
S
√n, kde S2 =
1
n− 1
n∑
i=1
(Zi − Z)2
Je-li |T | ≥ tn−1(1− α/2) zamítám nulovou hypotézu, vprípade opacné nerovnosti nezamítám nulovou hypotézu.
Jan Picek Statistické metody
TESTY
Dvouvýb erový t-test: jako párový test porovnává dveskupiny dat (merení), mužeme ho použít pouze vsituacích, kdy máme skutecne zajištenu nezávislost všechvelicin X1, . . . , Xn, Y1, . . . , Ym. Užijeme-li dvouvýberový ttest v situaci, pro kterou je nezbytný test párový, pak tozpravidla vede k nesmyslným výsledkum. Naproti tomunení hrubou chybou použít párový test v prípade n = m iv situaci, pro kterou je vhodnejší dvouvýberový t-test.
Jan Picek Statistické metody
TESTY
Položme
S2 =1
n+m− 2
(
(n− 1)S2X + (m− 1)S2
Y
)
,
kde
S2X =
1
n− 1
n∑
i=1
(Xi −X)2,
S2Y =
1
m− 1
m∑
i=1
(Yi − Y )2
Jan Picek Statistické metody
TESTY
Testová statistika:
T =X − Y
S
√
nm
n+m.
Je-li |T | ≥ tn+m−2(1− α/2) zamítám nulovou hypotézu (tj.
strední hodnoty jsou ruzné), v prípade opacné nerovnostinezamítám nulovou hypotézu (rovnost stredních hodnot).
Jan Picek Statistické metody
TESTY
Znaménkový test:
Alternativa k t-testu, nepožaduje se normalita. Testuje sehypotéza H : x = x0, tj. medián je roven danému císlu.
Jan Picek Statistické metody
TESTY
POSTUP:1. Vyloucíme z dalšího zpracování pozorování, pro než
Xi = x0 a príslušne snížíme rozsah výberu n.2. Urcíme v kolika prípadech nastal jev Xi > x0. Pocet
techto prípadu oznacíme Z.3. Z je náhodná velicina s binomickým rozdelením
Bi(n, p), kde p = P (Xi > x0).
Jan Picek Statistické metody
TESTY
TESTOVÁ STATISTIKA.
U =Z − n/2√
n/4=
2Z − n
n.
Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(medián není roven císlu x0), v prípade opacné nerovnostinezamítám nulovou hypotézu.
Jan Picek Statistické metody
TESTY
Jednovýb erový Wilcoxonuv test: Test o hodnotemediánu (jako znaménkový test), založen na poradíhodnot.
1. Vyloucíme z dalšího zpracování pozorování, pro nežXi = x0 a príslušne snížíme rozsah n.
2. Urcíme poradí R+i náhodných velicin |Xi − x0|.
3. Test je založen na souctu poradí R+i tech velicin
|Xi − x0|, pro které je Xi − x0 > 0.
Jan Picek Statistické metody
TESTY
TESTOVÁ STATISTIKA.
V =∑
i:xi>x0
R+i
U =V − n(n+1)
4√
n(n+1)(2n+1)24
Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(medián není roven císlu x0), v prípade opacné nerovnostinezamítám nulovou hypotézu.
Jan Picek Statistické metody
TESTY
Dvouvýb erový Wilcoxonuv test: Test o shode hodnotmediánu (obdoba dvouvýberového t-testu), založen naporadí hodnot.
1. Urcíme poradí Ri náhodných velicin ve sloucenémvýberu.
2. Test je založen na souctu poradí Ri tech velicin, kteréjsou v prvním výberu.
Jan Picek Statistické metody
TESTY
TESTOVÁ STATISTIKA.
Vx =∑
xi
Rxi
U =Vx − nx(nx+ny+1)
2√
nxny(nx+ny+1)
12
Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(mediány si nejsou rovny), v prípade opacné nerovnostinezamítám nulovou hypotézu.
Jan Picek Statistické metody