Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese...

136
STATISTIKA A ANALÝZA DAT Jan Picek Katedra aplikované matematiky doktorandské studium na EF TUL 2013/2014

Transcript of Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese...

Page 1: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

STATISTIKA A ANALÝZA DAT

Jan Picek

Katedra aplikované matematiky

doktorandské studium na EF TUL 2013/2014

Page 2: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

KONTAKT

Jan Picek

Katedra aplikované matematikyFakulta prírodovedne-humanitní a pedagogickábudova H (4.patro),Voronežská 13tel. 485 352 290,

konzultacní hodiny:Út 9:00-10:30e-mail: [email protected]

Jan Picek Statistické metody

Page 3: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

POŽADAVKY

Požadavky:Zpracování semestrální práce zamerené na využitístatistických metod ve vazbe na téma disertacní práce.

Ústní komisionální zkouška.

Jan Picek Statistické metody

Page 4: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

L ITERATURA

ANDEL, J. Statistické metody. 4. vyd. Praha: Matfyzpress, 2007.ISBN 978-80-7378-003-6.

HEBÁK, P. a kol. Vícerozmerné statistické metody, díl 1-3. 2.vyd. Praha: Informatorium, 2007. ISBN 978-80-7333-001-9.

HENDL, J. Prehled statistických metod zpracování dat. Portál:Praha, 2012 (4.vyd.). ISBN 978-80-262-0200-4.

MELOUN, M. a J. MILITKÝ. Kompendium statistickéhozpracování dat. 2. vyd. Praha: Academia, 2006. ISBN80-200-1396-2.

PECÁKOVÁ , I. Statistika v terénních pruzkumech. 2. vyd.Praha: Professional Publishing, 2011. ISBN 978-80-7431-039-3.

REZANKOVÁ, H., D. HÚSEK a V. SNÁŠEJ. Shluková analýzadat. 2. vyd. Praha: Professional Publishing, 2009. ISBN978-80-86946-81-8.

Jan Picek Statistické metody

Page 5: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

L ITERATURA

JURECKOVÁ, J. a J. PICEK. Robust statistical methods with R.1st ed. Boca Raton: Chapman & Hall, 2005. ISBN9781584884545.

WARNER, R. M. Applied Statistics: From Bivariate ThroughMultivariate Techniques. 2nd ed. Thousand Oaks: SAGEPublications, 2012. ISBN 978-1412991346.

Jan Picek Statistické metody

Page 6: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

L ITERATURA

http://moodle.vsb.cz/vyuka/course/info.php?id=3 Jaroslav Ramík: Statistické metody v marketingu http://www.studopory.vsb.cz/ http://mathonline.fme.vutbr.cz/ http://home.zcu.cz/ friesl/hpsb/tit.html http://kap.fp.tul.cz

Jan Picek Statistické metody

Page 7: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."

Jan Picek Statistické metody

Page 8: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."

I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.

Jan Picek Statistické metody

Page 9: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."

I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.

Príklad c. 1: Naprostá vetšina lidí má nadprumerný pocetnohou

Jan Picek Statistické metody

Page 10: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Motto: "Vystacím si s prumerem .....", "Co po mne chcete,to je prece výsledek z pocítace ...."

I tak jednoduchý ukazatel, jako je aritmetický prumer,muže mít vlastnosti, které prekvapí.

Príklad c. 1: Naprostá vetšina lidí má nadprumerný pocetnohou

Príklad c. 2: Dve firmy na trhu zabývající se stejnoucinností uvádí prumernou mzdu. První ji má 22 857 Kc adruhá 18 981 Kc.

Jan Picek Statistické metody

Page 11: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000

Jan Picek Statistické metody

Page 12: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857

Jan Picek Statistické metody

Page 13: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857

2. firma :100 delníku ............. 17 0005 adm. pracovníku ............. 30 0002 zástupci reditele ............. 50 0001 reditel ............. 100 000

Jan Picek Statistické metody

Page 14: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

1. firma :10 delníku ............. 15 0002 adm. pracovníci ............. 25 0001 zástupce reditele ............. 40 0001 reditel ............. 80 000prumer ............. 22 857

2. firma :100 delníku ............. 17 0005 adm. pracovníku ............. 30 0002 zástupci reditele ............. 50 0001 reditel ............. 100 000prumer ............. 18 981

Jan Picek Statistické metody

Page 15: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Opustíme-li prumery, situace muže být ješte zamotanejší

okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21

V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:

5

11= 45, 5% >

3

7= 42, 9%

Ve starší vekové kategorie je to stejné:

6

9= 66, 7% >

9

14= 64, 3%

Jan Picek Statistické metody

Page 16: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Opustíme-li prumery, situace muže být ješte zamotanejší

okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21

V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:

5

11= 45, 5% >

3

7= 42, 9%

Ve starší vekové kategorie je to stejné:

6

9= 66, 7% >

9

14= 64, 3%

Je podíl žen v okrese A vetší než v okrese B ?

Jan Picek Statistické metody

Page 17: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Opustíme-li prumery, situace muže být ješte zamotanejší

okres A okres Bkategorie ženy muži celkem ženy muži celkemmladší 5 6 11 3 4 7starší 6 3 9 9 5 14celkem 11 9 20 12 9 21

V mladší vek. kategorii je podíl žen v okrese A vetší než v okrese B:

5

11= 45, 5% >

3

7= 42, 9%

Ve starší vekové kategorie je to stejné:

6

9= 66, 7% >

9

14= 64, 3%

Je podíl žen v okrese A vetší než v okrese B ? NE

11

20= 55, 0% >

12

21= 57, 1%

Jan Picek Statistické metody

Page 18: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%

Jan Picek Statistické metody

Page 19: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%

Okres pocet Studenti PodílJablonec 986 2555 38.6%Semily 1009 3479 29.0%Liberec 1614 8680 18.6%

Jan Picek Statistické metody

Page 20: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ÚVOD

Okres Podíl žáku na gymnáziíchJablonec 38.6%Semily 29.0%Liberec 18.6%

Okres pocet Studenti Podíl Bydlí PodílJablonec 986 2555 38.6% 4196 23.5%Semily 1009 3479 29.0% 3724 27.1%Liberec 1614 8680 18.6% 7724 20.9%

Jan Picek Statistické metody

Page 21: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

MERENÉ ZNAKY A M ERÍCÍ ŠKÁLY

Vlastnosti, které jsou podrobovány merení, oznacujemejako znaky. Znak je meren na vhodné zvolené škále,stupnici.

Jan Picek Statistické metody

Page 22: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

MERENÉ ZNAKY A M ERÍCÍ ŠKÁLY

Vlastnosti, které jsou podrobovány merení, oznacujemejako znaky. Znak je meren na vhodné zvolené škále,stupnici.

Merení rozdelujeme podle typu:1. Metrické (kardinální)

2. Ordinální

3. Nominální (jmenné)

Jan Picek Statistické metody

Page 23: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

Predmetem zájmu obvykle není jediný, izolovaný objekt,ale soubor objektu. Pozorování ci merení se podrobujívšichny prvky tohoto souboru. Pro každou zesledovaných vlastností, definujících znak, tak dostávámesoubor údaju odecítaných na príslušných škálách - tj.data x1, . . . , xn.

Jan Picek Statistické metody

Page 24: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

Predmetem zájmu obvykle není jediný, izolovaný objekt,ale soubor objektu. Pozorování ci merení se podrobujívšichny prvky tohoto souboru. Pro každou zesledovaných vlastností, definujících znak, tak dostávámesoubor údaju odecítaných na príslušných škálách - tj.data x1, . . . , xn.

174, 178, 183, 168, 163, 175, 178, 177, 169, 182, 188,176, 177, 178, 184, 185, 170, 168, 157, 158, 174, 174,173, 171, 168, 170, 172, 174, 176, 179, 179, 188, 186,181, 180, 169, 172, 174, 165, 164, 156, 174, 184, 182,181, 172, 176, 177, 185, 181, 178, 175, 170, 168, 180,183, 183, 181, 180, 173, 175, 177, 179, 164, 161, 172,174, 178, 184, 176, 179, 162, 182, 177.

Jan Picek Statistické metody

Page 25: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

Trídní rozdelení cetností:Interval absol. relativ. kumul.abs. kumul.rel.〈156, 161) 3 0.04 3 0.04〈161, 166) 6 0.08 9 0.12〈166, 171) 9 0.12 18 0.24〈171, 176) 17 0.23 35 0.47〈176, 181) 21 0.29 56 0.76〈181, 186) 15 0.20 71 0.96〈186, 191) 3 0.04 74 1.00

Jan Picek Statistické metody

Page 26: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

Pocet a volba tríd:

mnoho × málo

Doporucení:

M = 1 + 3.3 log(n) Stugarsovo pravidlo

M =√n odmocninové pravidlo

Jan Picek Statistické metody

Page 27: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

155 160 165 170 175 180 185 190

0

5

10

15

20

25

Histogram

Jan Picek Statistické metody

Page 28: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : TRÍDENÍ

Pohlaví Kurák NekurákMuž 300 300Žena 150 250

Známka pocet žáku1 42 83 54 25 1

Jan Picek Statistické metody

Page 29: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DATA : POPIS

Základní úlohou, které reší popis dat, je úlohakondenzace, zhuštení informace v datech obsažené, takže se puvodní primární data zredukují do mnohemmenšího poctu údaju, tzv. charakteristik souboru:

polohy variability (promenlivosti) vzájemného vztahu, souvislosti mezi merenými daty ....

Jan Picek Statistické metody

Page 30: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak

x =1

n

n∑

i=1

xi.

Jan Picek Statistické metody

Page 31: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak

x =1

n

n∑

i=1

xi.

2 výberový medián – "robustní" - není ovlivnen i velkýmizmenami nekolika hodnot.n liché: x = x(n+1

2)

Jan Picek Statistické metody

Page 32: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

1 aritmetický prumer – citlivý na hrubé chyby, pouze prometrický znak

x =1

n

n∑

i=1

xi.

2 výberový medián – "robustní" - není ovlivnen i velkýmizmenami nekolika hodnot.n liché: x = x(n+1

2)

n sudé: x = 12

(

x(n2) + x(n

2+1)

)

.

3 modální hodnota (modus) x – je definován jakonejcetnejší hodnota. Obecne není urcenajednoznacne.

Jan Picek Statistické metody

Page 33: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

setrídená data: x(1) ≤ x(2) ≤ ... ≤ x(n)

156 157 158 161 162 163 164 164 165 168 168

168 168 169 169 170 170 170 171 172 172 172

172 173 173 174 174 174 174 174 174 174 175

175 175 176 176 176 176 177 177 177 177 177

178 178 178 178 178 179 179 179 179 180 180

180 181 181 181 181 182 182 182 183 183 183

184 184 184 185 185 186 188 188

Jan Picek Statistické metody

Page 34: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

α-kvantil xα ( α ∈ (0, 1))xα = x(⌈αn⌉),kde ⌈a⌉ oznacuje a, pokud je to celé císlo, jinak nejbližívyšší celé císlo.

Krome mediánu, což je kvantil pro α = 0.5, se castoužívají i kvartily , x0.25 a x0.75.

Jan Picek Statistické metody

Page 35: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY POLOHY

156 157 158 161 162 163 164 164 165 168 168

168 168 169 169 170 170 170 171 172 172 172

172 173 173 174 174 174 174 174 174 174 175

175 175 176 176 176 176 177 177 177 177 177

178 178 178 178 178 179 179 179 179 180 180

180 181 181 181 181 182 182 182 183 183 183

184 184 184 185 185 186 188 188

Jan Picek Statistické metody

Page 36: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VARIABILITY

Jan Picek Statistické metody

Page 37: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VARIABILITY

Rozptyl (variance, disperze)- prumerná kvadratická odchylka od prumeru

s2 =1

n

n∑

i=1

(xi − x)2 =1

n

(

n∑

i=1

x2i − nx2

)

smerodatná odchylka s =√s2

strední chybas√n

variacní koeficientv =

s

x

- definován pouze pro x1, . . . , xn > 0.

Jan Picek Statistické metody

Page 38: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VARIABILITY

prumerná absolutní odchylka

d =1

n

n∑

i=1

|xi − x|

rozpetí R = x(n) − x(1)

mezikvartilové rozpetí RM = x0.75 − x0.25

entropie (pro nominální znak)

h = −r∑

i=1

ni

nlog(ni

n

)

Jan Picek Statistické metody

Page 39: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

DALŠÍ CHARAKTERISTIKY

1 Obecný moment k–tého rádu

m′k =

1

n

n∑

i=1

xki , k = 0, 1, . . .

2 Centrální moment k–tého rádu

mk =1

n

n∑

i=1

(xi − x)k, k = 0, 1, . . .

3 šikmost – míra (ne)symetrie

a3 =m3

s3

4 špicatosta4 =

m4

s4

Jan Picek Statistické metody

Page 40: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

Prumer je

x =1

n

n∑

i=1

xi = 175.08,

výberový rozptyl

s2 =1

n

n∑

i=1

(xi − xn)2 = 51.72,

smerodatná odchylka

s =√s2 = 7.19,

variacní koeficient

v =s

x= 0.041,

šikmost

a3 =1n

∑n

i=1(xi − x)3

s3= −0.629,

špicatost

a4 =1n

∑n

i=1(xi − x)4

4= 3.065.Jan Picek Statistické metody

Page 41: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY - BOX PLOT

c. výška výška otce výška matky váha tuk1. 153.0 178 176 42.5 44.02. 161.0 180 165 61.0 88.03. 163.0 182 170 62.0 69.04. 175.0 180 170 65.5 58.05. 149.0 175 163 54.6 69.56. 171.0 175 160 105.2 120.57. 159.0 187 174 60.7 66.08. 159.0 177 167 58.0 74.09. 162.0 189 175 63.0 49.2

10. 152.5 178 170 46.3 31.711. 162.0 194 168 82.0 80.512. 162.5 183 168 76.4 89.7

Jan Picek Statistické metody

Page 42: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY - BOX PLOT

c. výška výška otce výška matky váha tuk13. 161.5 182 180 74.0 85.214. 150.0 176 160 53.1 52.215. 150.5 173 165 52.8 45.316. 163.5 183 170 46.2 30.517. 159.5 180 165 57.2 57.518. 167.5 187 173 65.5 57.519. 167.0 188 164 67.9 48.920. 170.0 180 175 63.3 66.621. 161.0 179 168 64.0 62.422. 160.0 183 171 49.5 31.9

Jan Picek Statistické metody

Page 43: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY - BOX PLOT

150

160

170

180

190

Jan Picek Statistické metody

Page 44: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Jan Picek Statistické metody

Page 45: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Statistiky ukazují, že 10% dopravních nehod zpusobujíopilí ridici. Z toho plyne, že zbývajících 90% dopravníchnehod je zpusobeno strízlivými ridici. Nemelo by se tedystrízlivým ridicum zakázat rízení vozidel ?

Jan Picek Statistické metody

Page 46: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

(x1, y1), . . . , (xn, yn)

korelacní koeficient:

rx,y =Cx,y

sxsy.

kovariance:

Cx,y =1

n

n∑

i=1

(xi − x) (yi − y) =1

n

(

n∑

i=1

xi yi

)

− xy,

Jan Picek Statistické metody

Page 47: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Korelacní matice (výška, výška otce, výška matky , váha, tuk):

1.00000000 0.38105466 0.17817213 0.58595366 0.336941670.38105466 1.00000000 0.39432681 0.21713439 −0.058101780.17817213 0.39432681 1.00000000 −0.19823197 −0.228841870.58595366 0.21713439 −0.19823197 1.00000000 0.841307990.33694167 −0.05810178 −0.22884187 0.84130799 1.00000000

Jan Picek Statistické metody

Page 48: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Spearmanuv korelacní koeficient

rS = 1− 6

n(n2 − 1)

n∑

i=1

(Ri −Qi)2

Ri a Qi je poradí

Jan Picek Statistické metody

Page 49: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Žák (i) xi yi Ri Qi

1. 2 1 2 22. 4 2 9 63. 3 1 5,5 24. 3 2 5,5 65. 2 2 2 66. 2 3 2 97. 4 2 9 68. 4 4 9 109. 3 1 5,5 2

10. 3 2 5,5 6

Jan Picek Statistické metody

Page 50: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Žák (i) xi yi Ri Qi

1. 2 1 2 22. 4 2 9 63. 3 1 5,5 24. 3 2 5,5 65. 2 2 2 66. 2 3 2 97. 4 2 9 68. 4 4 9 109. 3 1 5,5 2

10. 3 2 5,5 6

rS = 0.266

Jan Picek Statistické metody

Page 51: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Pohlaví Kurák NekurákMuž 300 300Žena 150 250

Jan Picek Statistické metody

Page 52: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Pohlaví Kurák NekurákMuž 300 300Žena 150 250

Míry asociace založeny na

χ2 =r∑

i=1

s∑

j=1

(

nij − ni.nj.

n

)2

ni.nj.

n

napr.

C =

χ2

χ2 + n

Jan Picek Statistické metody

Page 53: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

CHARAKTERISTIKY VZTAHU

Pohlaví Kurák NekurákMuž 300 300Žena 150 250

C = 0.122

Míry asociace založeny na

χ2 =r∑

i=1

s∑

j=1

(

nij − ni.nj.

n

)2

ni.nj.

n

napr.

C =

χ2

χ2 + n

Jan Picek Statistické metody

Page 54: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Príklad: placení školného, dotáži se nekolika vybranných jedincu:

1. 7 osob, 1x ANO, 7x NE

pro je 1

7= 0.143 = 14.3(%)

Jan Picek Statistické metody

Page 55: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Príklad: placení školného, dotáži se nekolika vybranných jedincu:

1. 7 osob, 1x ANO, 7x NE

pro je 1

7= 0.143 = 14.3(%)

Kolik osob do šetrení vybrat ?

Jan Picek Statistické metody

Page 56: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Príklad: placení školného, dotáži se nekolika vybranných jedincu:

1. 7 osob, 1x ANO, 7x NE

pro je 1

7= 0.143 = 14.3(%)

Kolik osob do šetrení vybrat ?

2. 3000 osob, 430x ANO, 2570x NE

pro je 430

3000= 0.143 = 14.3(%)

Jan Picek Statistické metody

Page 57: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Príklad: placení školného, dotáži se nekolika vybranných jedincu:

1. 7 osob, 1x ANO, 7x NE

pro je 1

7= 0.143 = 14.3(%)

Kolik osob do šetrení vybrat ?

2. 3000 osob, 430x ANO, 2570x NE

pro je 430

3000= 0.143 = 14.3(%)

Presnost - tzv. intervalové odhady, kvalita - reprezentativnost

Jan Picek Statistické metody

Page 58: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Intervalový odhad:

1) (0.4%, 57.9%)

2) (13.1%, 15.6%)

Jan Picek Statistické metody

Page 59: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Intervalový odhad:

1) (0.4%, 57.9%)

2) (13.1%, 15.6%)

Základní soubor - úplné šetrení Vzorek - výberové šetrení

Jan Picek Statistické metody

Page 60: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

INDUKTIVNÍ STATISTIKA - ÚVOD

Matematická statistika reší dve základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz)

Obvykle predpokládáme, že pro danou situaci známevhodný model (distribucní funkci, hustotu aj.) až nahodnotu parametru. Úlohy jsou pak prevedeny na úvahy otechto parametrech.

Jan Picek Statistické metody

Page 61: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

bodový (odhad císlem) intervalový - interval, který s predepsanou

pravdepodobností (1− α) pokrývá hodnotuneznámého parametru

Jan Picek Statistické metody

Page 62: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Predmetem teorie pravdepodobnosti je studiumnáhodných deju, tj. takových deju, jejichž výsledek nenípredem jednoznacne urcen a ocekává se pouze, ževýsledek bude jedním z dané množiny možných výsledkuΩ – neprázdná abstraktní množina. Pocet jejích prvkumuže být konecný, spocetný, ale i nespocetný.Náhodnému deji budeme ríkat náhodný pokus .Výsledkem pokusu mohou být císla, císelné vektory,císelné posloupnosti, casový prubeh nejaké funkce nadaném intervalu, ale i libovolný kvalitativní ukazatel.Všechny možné výsledky pokusu ω ∈ Ω nazývámeelementárními jevy . Podmnožiny množiny Ω nazývámejevy

Jan Picek Statistické metody

Page 63: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Klasická definice pravd epodobnosti.

Tato definice je použitelná v prípadech, kdy situace jepopsána konecným poctem n ruzných výsledku(elementárních jevu ω), z nichž každý je "stejne možný".Potom

P (A) =m(A)

n,

kde m(A) je pocet elementárních jevu, které tvorínáhodný jev A.

Jan Picek Statistické metody

Page 64: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Náhodná velicina

Cíl: matematický popis náhodných jevu ("kvantifikovace"popisu - vyjádrení pomocí reálných císel.)odpovedi v ankete "ano", "ne" – "1", "0","kvalita výrobku" – oznacení 1,2,3, ... pro trídy kvality,Casto je už náš základní prostor jevu cástí R (výsledkymerení, doba bezporuchového provozu, pocet výrobku zasmenu atd.).

Jan Picek Statistické metody

Page 65: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Náhodnou veli cinou budeme nazývat zobrazeníX : Ω → R.Náhodná velicina se vyznacuje rozd elenímpravd epodobnosti na R, což není nic jiného než puvodnípravdepodobnost na Ω prevedená na R.Existují dva typy náhodných velicin, náhodná velicinas diskrétním rozdelením pravdepodobnosti a náhodnávelicina se spojitým rozdelením pravdepodobnosti.

Jan Picek Statistické metody

Page 66: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Diskrétní rozd elení

Rekneme, že náhodná velicina X je náhodná velicinas diskrétním rozd elením pravd epodobnosti , jestližeexistuje nejvýše spocetne mnoho bodu xj a nejvýšespocetne mnoho kladných císel pj = P (X = xj) > 0,splnujících

j P (X = xj) = 1.

Funkci PX(xj) = P (X = xj) nazývámepravd epodobnostní funkcí .

Jan Picek Statistické metody

Page 67: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Rekneme, že náhodná velicina X je náhodná velicinas (absolutn e) spojitým rozd elením , jestliže existujenezáporná reálná funkce fX reálné promenné taková, že

P (a ≤ X < b) =

∫ b

a

fX(x)dx

pro libovolná reálná a, b; a ≤ b.

Funkce fX se nazývá hustotou rozd elenípravd epodobnosti .

Jan Picek Statistické metody

Page 68: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Distribu cní funkcí náhodné veliciny X budeme nazývatreálnou funkci reálné promenné, pro kterou platí

FX(x) = P (X < x).

Jan Picek Statistické metody

Page 69: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Vlastnosti distribu cní funkce1. 0 ≤ FX(x) ≤ 1 pro všechna reálná x.2. FX je neklesající funkce, tj. FX(x1) ≤ FX(x2) pro

každé x1, x2 ∈ R, x1 < x2.3. Pro libovolná reálná císla a, b ∈ R; a < b platí

P (a ≤ X < b) = FX(b)− FX(a).

4. limx→−∞

FX(x) = 0, limx→∞

FX(x) = 1.

5. FX je zleva spojitá v libovolném bode x ∈ R.

6. Pro libovolné reálné císlo x ∈ R platíP (X = x) = limt→x+ FX(t)− FX(x).

7. Distribucní funkce má nejvýše spocetne mnoho bodunespojitosti.

Jan Picek Statistické metody

Page 70: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Císelné charakteristiky

Rozdelení pravdepodobnosti dává úplnou informacio náhodném chování náhodné veliciny.

Pri vyhodnocování pokusu a sledování náhodných jevuvšak casto vystacíme se znalostí jen nekterých zvláštníchcharakteristik, které odráží nejakou duležitou stránkutohoto pokusu resp. náhodného jevu.

Jan Picek Statistické metody

Page 71: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Nejduležitejší z takovýchto charakteristik je hodnota,kolem které se kumulují hodnoty náhodné veliciny. Tutohodnotu nazýváme strední hodnotou, nekdy též hovorímeo ocekávané hodnote.

EX =∑

i∈I

xi P (X = xi).

resp.

EX =

+∞∫

−∞

x fX(x) dx.

Jan Picek Statistické metody

Page 72: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

RozptylKrome strední hodnoty, nejužívanejším momentem jedruhý centrální, tzv. rozptyl (variance) náhodné veli ciny

varX = E(X − EX)2 =∑

i∈I

(xi − EX)2 P (X = xi).

resp.

varX = E(X − EX)2 =

+∞∫

−∞

(x− EX)2 fX(x) dx

Druhou odmocninu z rozptylu nazýváme smerodatnouodchylkou (σ).

Jan Picek Statistické metody

Page 73: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Vlastnosti rozptylu a st rední hodnoty.1. varX ≥ 0.

2. varX = EX2 − (EX)2.

3. Necht’ a, b ∈ R a X je náhodná velicina, potom platívar(a+ bX) = b2varX a E(a+ bX) = a+ bEX.

4. Nemusí existovat.

Jan Picek Statistické metody

Page 74: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Je-li g funkce, pak

Eg(X) =∑

i∈I

g(xi)P (X = xi).

resp.

Eg(X) =

+∞∫

−∞

g(x) fX(x) dx.

Jan Picek Statistické metody

Page 75: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Obecné a centrální momenty

Obecný moment r-tého rádu

µ′r = EXr =

i∈I

xri P (X = xi), r = 1, 2, . . . ,

resp.

µ′r = EXr =

+∞∫

−∞

xr fX(x) dx.

Jan Picek Statistické metody

Page 76: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Centrální moment r-tého rádu

µr = E(X − EX)r =∑

i∈I

(xi − EX)r P (X = xi)

resp.

µr = E(X − EX)r =

+∞∫

−∞

(x− EX)r fX(x) dx

Šikmost a špi catost:

α3 = α3(X) =µ3

σ3,

α4 = α4(X) =µ4

σ4(−3)

Jan Picek Statistické metody

Page 77: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Kvantilové císelné charakteristiky

Necht’ X náhodná velicina s distribucní funkci FX . Potomfunkce F−1

X daná vztahem

F−1X (α) = inf x ; FX(x) ≥ α 0 < α < 1,

se nazývá kvantilová funkce.

Hodnotám funkce F−1X (α) ríká α-kvantil (nebo 100α%-ní

kvantil).

Jan Picek Statistické metody

Page 78: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Mediánem x rozumíme 50%-ní kvantil.

Dolním kvartilem x0.25 rozumíme 25%-ní kv.

Horním kvartilem x0.75 rozumíme 75%-ní kv.

k-tým decilem rozumíme F−1X (k/10) pro k = 1, 2, . . . , 9.

k-tým percentilem rozumíme F−1X (k/100) pro

k = 1, 2, . . . , 99.

mezikvartilové rozp etí x0.75 − x0.25

Jan Picek Statistické metody

Page 79: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Používaná diskrétní rozd elení

Jan Picek Statistické metody

Page 80: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Alternativní rozdelení X ∼ Alt(p)Necht’ náhodná velicina X nabývá pouze dvou hodnot 0 a1, a to s pravdepodobnostmi

P (X = 1) = p,

P (X = 0) = (1− p),

kde 0 < p < 1.Rozdelení se nekdy oznacuje jako 0 – 1.

EX = p, varX = p(1− p)

Jan Picek Statistické metody

Page 81: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Binomické rozdelení X ∼ Bi(n, p)

Necht’ náhodná velicina X nabývá hodnot 0, 1, . . . , ns pravdepodobnostmi

P (X = i) =

(

n

i

)

pi(1− p)n−i, i = 0, 1, . . . , n,

kde 0 < p < 1.

EX = np, varX = np(1− p)

Jan Picek Statistické metody

Page 82: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Binomické rozdelení X ∼ Bi(n, p)

Binomickým rozdelením se rídí cetnost nejakého jevu Av n nezávislých pokusech, když v každém pokusu jepravdepodobnost jevu A stále stejná a je rovna p.

Jan Picek Statistické metody

Page 83: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Poissonovo rozdelení X ∼ Po(λ)

Necht’ X je náhodná velicina nabývající hodnoti = 0, 1, 2, . . . s pravdepodobnostmi

P (X = i) =λi

i!e−λ,

kde λ > 0 je dané císlo.

EX = var (X)

Jan Picek Statistické metody

Page 84: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Poissonovo rozdelení X ∼ Po(λ)

Nejcasteji se používá pro popis pravdepodobnosti poctuudálostí v nejakém casovém intervalu. (pocet telefonníchhovoru, dopravních nehod, príchodu zákazníku doobchodu apod.)

Poissonovo rozdelení je možno také použít místobinomické náhodné veliciny X ∼ Bi(n, p), pricemž n jevelmi velké císlo, p je velmi malé císlo a soucin λ = np jestálý.

Jan Picek Statistické metody

Page 85: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Geometrické rozdelení X ∼ Ge(p)

Uvažujme náhodnou velicinu X, která nabývá hodnoti = 0, 1, 2, . . . , a to s pravdepodobnostmi

P (X = i) = p(1− p)i,

kde p ∈ (0, 1) je parametr.

EX =1− p

p, varX = (1− p)p2

Jan Picek Statistické metody

Page 86: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Geometrické rozdelení X ∼ Ge(p)

Sledujme výskyt jevu A v nezávislých opakováníchnáhodného pokusu, pricemž pravdepodobnost jevu A jev každém pokusu rovna p. Náhodná velicinas geometrickým rozdelením udává pocet nezávislýchopakování onoho náhodného pokusu pred prvnímvýskytem jevu A.

Jan Picek Statistické metody

Page 87: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Hypergeometrické rozdelení X ∼ Hg(N, n,M)

Necht’ N,M a n jsou prirozená císla taková, žeM < N, n < N. Necht’ X nabývá pouze celocíselnýchhodnot i s pravdepodobnostmi

P (X = i) =

(

M

i

)(

N−M

n−i

)

(

N

n

) ,

pro max(0,M + n−N) ≤ i ≤ min(M,n).

EX =nA

N, var (X) =

nA(N − A)

N2

(

1− n− 1

N − 1

)

.

Jan Picek Statistické metody

Page 88: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Hypergeometrické rozdelení X ∼ Hg(N, n,A)

Toto rozdelení je možné popsat následující situací.Uvažujme množinu, která obsahuje N objektu, z nichž Mmá jistou vlastnost. Vybereme náhodne z této množiny nobjektu. Potom X oznacuje pocet vybraných objektumající uvažovanou vlastnost.

Jan Picek Statistické metody

Page 89: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Spojitá rozd elení

Jan Picek Statistické metody

Page 90: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

FX(x) =

∫ x

−∞

fX(y) dy pro každé x ∈ R.

Ve všech bodech, kde existuje derivace distribucní funkceFX , platí vztah

dFX(x)

dx= fX(x).

∫ ∞

−∞

fX(x)dx = 1

Jan Picek Statistické metody

Page 91: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Pro libovolná reálná císla a, ba ≤ b platí

P (a ≤ X ≤ b) = P (a < X ≤ b) =

P (a ≤ X < b) = P (a < X < b) =∫ b

a

fX(t) dt.

Jan Picek Statistické metody

Page 92: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Rovnom erné rozd elení X ∼ R(a, b)

f(x) =

1b−a

pro a < x < b0 pro x ≤ a nebo x ≥ b.

F (x) =

0 x ≤ ax−ab−a

a < x < b1 x ≥ b.

Dále je

EX =(a+ b)

2, var(X) =

(b− a)2

12.

Jan Picek Statistické metody

Page 93: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Normální (Gaussovo) rozd elení X ∼ N(µ, σ)

f(x) =1√2πσ

exp

(

−1

2

(x− µ)2

σ2

)

, prox ∈ R,

parametry: µ = EX a σ2 = var(X).

Distribucní funkce - nexistuje žádná explicitní formule.Hodnoty distribucní funkce s parametry 0, 1 velice presnetabelovány.

Jan Picek Statistické metody

Page 94: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

µ=2, σ=1

µ=0, σ=2µ=0, σ=2

µ=0, σ=0.5

µ=0, σ=1

Graf hustoty normalního rozdelení pro ruzné hodnoty parametru µ aσ.

Jan Picek Statistické metody

Page 95: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Exponenciální rozd elení X ∼ Exp(c)

f(x) =

ce−cx x ≥ 00 jinak,

FX(x) =

∫ x

−∞

f(t) dt =

1− e−cx x ≥ 00 x < 0.

EX = 1/c, var(X) = 1/c2

Jan Picek Statistické metody

Page 96: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Weibullovo rozd elení X ∼ Wb(c, d)Zobecnením exponenciálního rozdelení

F (x) =

1− e−cxd

x ≥ 00 x < 0.

s parametry c, d > 0.

f(x) =

cdxd−1 exp(−cxd) x ≥ 00 x < 0.

Jan Picek Statistické metody

Page 97: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

c=1, d=0.5

c=2, d=1

c=1, d=1

c=1, d=2

Graf hustoty Weibullova rozdelení pro ruzné hodnoty parametru c a d.

Jan Picek Statistické metody

Page 98: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

PRAVDEPODOBNOST

Cauchyovo rozd elení

f(x) =1

π· λ

λ2 + (x− θ)2,

parametry θ a λ.

F (x) =1

2+

1

πarctan

(

x− θ

λ

)

.

Toto rozdelení nemá strední hodnotu a rozptyl.

Jan Picek Statistické metody

Page 99: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Matematická statistika reší dve základní úlohy: odhady (v základním souboru) rozhodovací problémy (testování hypotéz)

Obvykle predpokládáme, že pro danou situaci známevhodný model (distribucní funkci, hustotu aj.) až nahodnotu parametru. Úlohy jsou pak prevedeny na úvahy otechto parametrech.

Jan Picek Statistické metody

Page 100: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Informaci pro statistickou analýzu obdržíme ve forme dat,která považujeme za realizace zkoumaných náhodnýchvelicin. Náhodným výberem rozumíme vektor složenýz nezávislých a stejne rozdelených náhodných velicin.Císlo n je rozsah výberu.Náhodný výber je model pro situace, kdy pozorujeme nnezávislých, “stejných" objektu, nebo opakujemenezávisle n krát tentýž pokus. Náhodná velicina jemodelem pro onu velicinu, kterou na daných objektechzkoumáme.

Jan Picek Statistické metody

Page 101: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

"výber" – za rozumnou dobu a s rozumnými nákladyschopni zjistit údaje jen o n vybraných objektech. Nazáklade výberu deláme závery o charakteristikách celéhosouboru.Príklady: namátková ci výberová kontrola výrobku,výzkumy verejného mínení, testování lécebných postupu.Duležitou otázka - reprezentativnost

Jan Picek Statistické metody

Page 102: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Mezi nejpoužívanejší odhady :výb erový prum er

Xn =1

n

n∑

i=1

Xi

a výb erový rozptyl

S2 =1

n− 1

n∑

i=1

(Xi − Xn)2 =

1

n− 1(

n∑

i=1

X2i − nX2

n, )

Jan Picek Statistické metody

Page 103: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí

EX = µ, varX =σ2

n

Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí X ∼ N(µ, σ2/n).

Jan Picek Statistické metody

Page 104: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí

ES2 = σ2 varS2 = σ4 2n

(n− 1)2

Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí (n− 1)S2/σ2 ∼ χ2

n−1 a X a S2 jsou nezávislé.

Jan Picek Statistické metody

Page 105: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Náhodná velicina Z =∑m

1 Z2j má χ2-rozdelení, když

Z1, Z2, . . . , Zm jsou nezávislé stejne rozdelené veliciny zrozdelení N(0, 1). Pak hustota Z je

gm(z) =1

2m2 Γ(

m2

)e−z2 z

m2−1, pro z ≥ 0,

Γ(p) je gamma-funkce,∫∞

0xp−1e−xdx, pro p celé > 0 je

Γ(p) = (p− 1)!.E(Z) = n, var (Z) = 2n

Jan Picek Statistické metody

Page 106: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Necht’ X1, . . . , Xn je náhodný výber z rozdelení, kterémá strední hodnotu µ a konecný rozptyl σ2. Pak platí

ES2 = σ2 varS2 = σ4 2n

(n− 1)2

Necht’ X1, . . . , Xn je náhodný výber N(µ, σ2). Pakplatí (n− 1)S2/σ2 ∼ χ2

n−1 a X a S2 jsou nezávislé.

Jan Picek Statistické metody

Page 107: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Necht’ U, Z jsou nezávislé náhodné veliciny, kde U jenormální N(0, 1) a Z2 má χ2-rozdelení o n stupníchvolnosti. Pak velicina T = U

Z

√n má Studentovo

t-rozdelení o n stupních volnosti dané hustotou

hn(t) =1√

nB(

n2, 12

) ,

(

1 +t2

n

)−n+1

2

−∞ < t < ∞.

Jan Picek Statistické metody

Page 108: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Necht’ U, V jsou dve nezávislé náhodné velicinyo χ2-rozdeleních o n a m stupních volnosti. Rozdeleníjejich podílu

W =U/n

V/m

se pak nazývá F -rozdelení s n a m stupni volnosti a máhustotu

gn,m(z) =n

n2 m

m2 z

n2−1

B(n2,m2 )(m+nz)

n+m2

pro z > 0

gn,m = 0 jinak.

Jan Picek Statistické metody

Page 109: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Teorie bodového odhaduNáhodný výber (reprezentuje data): nezávislé stejnerozdelené náhodné veliciny mají rozdelení z urcité trídyrozdelení F (x, θ), kde θ ∈ Θ ⊂ Rk je neznámý parametr.Uvažujeme tedy náhodný vektor X, jejíž rozdelení závisína parametru θ.

FX(x, θ) =n∏

i=1

F (xi, θ)

Jan Picek Statistické metody

Page 110: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Úkolem je odhad parametru θ. Parametr θ "charakterizujevlastnost, kterou z dat chceme odhadnout."

Odhad je obecne funkcí pozorovaných náhodných velicin,tj. T(X) z Rn to Rk (statistika). Odhad je opet náhodnávelicina (vektor), konkrétní "odhad" aktuální hodnotyparametru θ je hodnota T(X), když x je realizace X.Cíl vybrat funkci statistiku Tn(X), která by "co nejlépe"odhadovala neznámý parametr θ.

Jan Picek Statistické metody

Page 111: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Požadované vlastnosti odhadu:1 Nestrannost (nevychýlenost): pro každé θ platí

Eθ Tn(X) = θ.

2 Konzistence: limn→∞ Tn(X) = θ

3 Eficience (vydatnost): odhad Tn(x) je eficientní, kdyžpro každý jiný odhad T ∗

n(x) mající konecný druhýmoment platí

Eθ(Tn(X)− θ)2 ≤ Eθ(T ∗n(X)− θ)2

tj. pro nestranné odhady

var θ(Tn(X) ≤ var θ(T∗n(X))

Jan Picek Statistické metody

Page 112: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Metody odhadu

Metoda maximální verohodnostiMaximálne verohodným odhadem parametru θ prinamerených hodnotách x1, x2, . . . , xn je hodnota θ0 ∈ Θ,pro kterou je verohodnostní funkce Lθ(x) maximální.Lθ(x) =

∏n

i=1 f(xi, θ) pro spojité, resp.∏

P (Xi = xi, θ)pro diskrétní rozložení pravdepodobnosti.

Jan Picek Statistické metody

Page 113: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Protože logL má maximum v témže bode jako L,prakticky se casto odhad hledá jako rešení verohodnostnírovnice

∂ logLθ(x) / ∂θ = 0.

Maximálne verohodný odhad je konzistentní.

Jan Picek Statistické metody

Page 114: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Momentová metodaPorovnání teoretických a výberových momentu

Jan Picek Statistické metody

Page 115: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Odhady: bodový (odhad císlem) intervalový - interval, který s predepsanou

pravdepodobností (1− α) pokrývá hodnotuneznámého parametru

Jan Picek Statistické metody

Page 116: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Intervalový odhad: model normálního rozdelení

100(1− α)% interval pro µ a neznámé σ2:(

X − tn−1(1− α/2)S√n,X + tn−1(1− α/2)

S√n

)

pro µ a známé σ2:(

X − Φ−1(1− α/2)σ√n,X + Φ−1(1− α/2)

σ√n

)

tn−1(1− α/2), Φ−1(1− α/2) - kvantily (tabulkové hodnoty),α - zvolená (predepsaná) hodnota, obvykle 0.05, 0.01

Jan Picek Statistické metody

Page 117: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Intervalový odhad: model normálního rozdelení

100(1− α)% interval pro σ2:(

(n− 1)S2

χ2n−1(1− α/2)

,(n− 1)S2

χ2n−1(α/2)

)

χ2n−1(α/2) - kvantily (tabulkové hodnoty),

α - zvolená (predepsaná) hodnota, obvykle 0.05, 0.01

Jan Picek Statistické metody

Page 118: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

ODHADY

Intervalový odhad: model binomického rozdelení

100(1− α)% interval pro p:

(

m

n− Φ−1(1− α/2)

n

m(1− m

n),m

n+

Φ−1(1− α/2)

n

m(1− m

n)

Φ−1(1− α/2) - kvantil normálního rozdelení (tabulky), m/nrelativní cetnost "výskytu sledovaného jevu" vevýberovém souboru

Jan Picek Statistické metody

Page 119: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Testování hypotéz:

Na základe náhodného výberu x = (X1, . . . , Xn)′, jehož

rozdelení závisí na parametru θ, který patrí doparametrického prostoru Θ, chceme rozhodnout, zda platíurcité tvrzení o náhodné velicine, napríklad, že θ patrí dourcité vlastní podmnožiny θ

∗ prostoru Θ. Toto tvrzenínazýváme (nulová) hypotéza .

Jan Picek Statistické metody

Page 120: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Toto tvrzení nazýváme (nulová) hypotéza .

H0 : θ ∈ θ∗.

Protikladné tvrzení v rámci uvažovaného modelu senazývá alternativa , napr.

A : θ /∈ θ∗.

Je-li θ∗ jednobodová, pak mluvíme o jednoduchéhypotéze .

Jan Picek Statistické metody

Page 121: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Vlastní test: Na základe náhodného výberuzkonstruujeme testovou statistiku T a urcíme množinuW , která se nazve kritický obor . Nastane-li jevT ∈ W , pak zamítneme hypotézu H0. Pri tomtorozhodování nastane nekterý z následujících prípadu:

1. H0 platí a test ji nezamítá. Rozhodnutí je správné.2. H0 neplatí a test ji zamítá. Rozhodnutí je správné.3. H0 platí a test ji zamítá. Ríká se, že nastala chyba 1. druhu4. H0 neplatí a test ji nezamítá. Ríká se, že nastala chyba 2.

Jan Picek Statistické metody

Page 122: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Kriticky obor pritom konstruujeme tak, abypravdepodobnost chyby 1. druhu neprekrocila predemdané císlo α hladina testu . Nejlepší volba kritickéhooboru a testové statistiky je taková, kdy pri dodrženípodmínky na chybu na chybu 1. druhu jepravdepodobnost chyby 2. druhu minimální.

Jan Picek Statistické metody

Page 123: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

T-test: Model normální rozdelení: nulová hypotéza:H0 : µ = µ0 (predepsané císlo)alternativa: A : µ 6= µ0

Jan Picek Statistické metody

Page 124: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Rozhodovací kritérium:

T =X − µ0

S

√n

Je-li |T | ≥ tn−1(1− α/2) zamítám nulovou hypotézu("tvrdím, že správná je alternativa"), v prípade opacnénerovnosti nezamítám nulovou hypotézu ("je správná").

Jan Picek Statistické metody

Page 125: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Párový t-test: se používá v situacích, kdy máme nakaždém z n objektu mereny dve veliciny (X1, Y1),. . . , (Xn, Yn). Jednotlivé objekty lze zpravidla pokládat zanezávislé, ale merení na témž objektu nikoli.

Položme Z1 = X1 − Y1, . . . , Zn = Xn − Yn.Predpokládejme, že Zi ∼ N(µ, σ2), i = 1, . . . , n, kdeµ = µ1 − µ2. Jsou-li tyto predpoklady splneny, pak jde otest H : µ = 0 proti alternative A : µ 6= 0. (Úlohaprevedena na jednovýberový t-test.)

Jan Picek Statistické metody

Page 126: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Testová statistika:

T =Z

S

√n, kde S2 =

1

n− 1

n∑

i=1

(Zi − Z)2

Je-li |T | ≥ tn−1(1− α/2) zamítám nulovou hypotézu, vprípade opacné nerovnosti nezamítám nulovou hypotézu.

Jan Picek Statistické metody

Page 127: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Dvouvýb erový t-test: jako párový test porovnává dveskupiny dat (merení), mužeme ho použít pouze vsituacích, kdy máme skutecne zajištenu nezávislost všechvelicin X1, . . . , Xn, Y1, . . . , Ym. Užijeme-li dvouvýberový ttest v situaci, pro kterou je nezbytný test párový, pak tozpravidla vede k nesmyslným výsledkum. Naproti tomunení hrubou chybou použít párový test v prípade n = m iv situaci, pro kterou je vhodnejší dvouvýberový t-test.

Jan Picek Statistické metody

Page 128: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Položme

S2 =1

n+m− 2

(

(n− 1)S2X + (m− 1)S2

Y

)

,

kde

S2X =

1

n− 1

n∑

i=1

(Xi −X)2,

S2Y =

1

m− 1

m∑

i=1

(Yi − Y )2

Jan Picek Statistické metody

Page 129: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Testová statistika:

T =X − Y

S

nm

n+m.

Je-li |T | ≥ tn+m−2(1− α/2) zamítám nulovou hypotézu (tj.

strední hodnoty jsou ruzné), v prípade opacné nerovnostinezamítám nulovou hypotézu (rovnost stredních hodnot).

Jan Picek Statistické metody

Page 130: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Znaménkový test:

Alternativa k t-testu, nepožaduje se normalita. Testuje sehypotéza H : x = x0, tj. medián je roven danému císlu.

Jan Picek Statistické metody

Page 131: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

POSTUP:1. Vyloucíme z dalšího zpracování pozorování, pro než

Xi = x0 a príslušne snížíme rozsah výberu n.2. Urcíme v kolika prípadech nastal jev Xi > x0. Pocet

techto prípadu oznacíme Z.3. Z je náhodná velicina s binomickým rozdelením

Bi(n, p), kde p = P (Xi > x0).

Jan Picek Statistické metody

Page 132: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

TESTOVÁ STATISTIKA.

U =Z − n/2√

n/4=

2Z − n

n.

Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(medián není roven císlu x0), v prípade opacné nerovnostinezamítám nulovou hypotézu.

Jan Picek Statistické metody

Page 133: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Jednovýb erový Wilcoxonuv test: Test o hodnotemediánu (jako znaménkový test), založen na poradíhodnot.

1. Vyloucíme z dalšího zpracování pozorování, pro nežXi = x0 a príslušne snížíme rozsah n.

2. Urcíme poradí R+i náhodných velicin |Xi − x0|.

3. Test je založen na souctu poradí R+i tech velicin

|Xi − x0|, pro které je Xi − x0 > 0.

Jan Picek Statistické metody

Page 134: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

TESTOVÁ STATISTIKA.

V =∑

i:xi>x0

R+i

U =V − n(n+1)

4√

n(n+1)(2n+1)24

Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(medián není roven císlu x0), v prípade opacné nerovnostinezamítám nulovou hypotézu.

Jan Picek Statistické metody

Page 135: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

Dvouvýb erový Wilcoxonuv test: Test o shode hodnotmediánu (obdoba dvouvýberového t-testu), založen naporadí hodnot.

1. Urcíme poradí Ri náhodných velicin ve sloucenémvýberu.

2. Test je založen na souctu poradí Ri tech velicin, kteréjsou v prvním výberu.

Jan Picek Statistické metody

Page 136: Jan Picek - KAP · V mladší vek. kategorii je podíl žen v okrese A vˇ etší než v okrese B:ˇ 5 11 =45,5%> 3 7 =42,9% Ve starší vekové kategorie je to stejné:ˇ 6 9 =66,7%>

TESTY

TESTOVÁ STATISTIKA.

Vx =∑

xi

Rxi

U =Vx − nx(nx+ny+1)

2√

nxny(nx+ny+1)

12

Je-li |U | ≥ Φ−1(1− α/2) zamítám nulovou hypotézu(mediány si nejsou rovny), v prípade opacné nerovnostinezamítám nulovou hypotézu.

Jan Picek Statistické metody