MÁME DATA –A CO DÁL?am-nas.vsb.cz/lit40/BIOSTA/Prezentace/BIO_7_exploracni_analyza.pdf ·...
Transcript of MÁME DATA –A CO DÁL?am-nas.vsb.cz/lit40/BIOSTA/Prezentace/BIO_7_exploracni_analyza.pdf ·...
MÁME DATA – A CO DÁL?
Martina Litschmannová
Obsah:
• Co je to statistika?
• Jak provést statistické šetření?
• Jak analyzovat data?
• Exploratorní (popisná) analýza kategoriálních dat
• Exploratorní (popisná) analýza kvantitativních dat
Google – 3.106 odkazů (čeština), 58.106 odkazů (angličtina)
• Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku,statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project
• Teoretická disciplína, která se zabývá metodami sběru a analýzy dat(matematická statistika vs. aplikovaná statistika)
• Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)
Co je to statistika?
Co vypovídá statistika o jednotlivci?
Lukáš Pavlásek(jednotlivec) skaut občan ČR
• Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti).
• Statistika je nauka o hromadných jevech.
tanečník
Jak provést statistické šetření?
statistické znaky – údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, …)
úplné šetření
= ZÁKLADNÍ SOUBOR
statistická jednotka
výběrové šetření
REPREZENTATIVNÍvýběr
Jak zapsat výsledky statistického šetření?
Standardní datový formát (datová matice)
IDkapacita
po 5 cyklechkapacita
po 100 cyklechvýrobce
1 1946.5 1780.4 A
2 1963.5 1751.4 A3 1934.3 1743.5 B4 1934.8 1727.4 B5 1939.9 1728.8 C6 1925.9 1767.5 C7 2023 1838.7 D8 1952.5 1734.1 A9 1894.7 1688.8 D
• Každý řádek matice obsahuje údaje o jedné statistické jednotce.
• V prvním sloupci (nebo jako popisky řádků) se obvykle uvádí identifikační číslostatistické jednotky (důležité pro jednoznačné spárování s konkrétní statistickou jednotkou, zejména při poskytování anonymizovaných dat zpracovateli).
Jak zapsat výsledky statistického šetření?
Jiná forma zápisu
po 5 cyklech po 100 cyklechVýrobce A Výrobce B Výrobce C Výrobce D Výrobce A Výrobce B Výrobce C Výrobce D
1946,5 2006,5 1881,8 1806,9 1780,4 1654,2 1663,3 1668,41963,5 1991,5 1890,4 1788,1 1751,4 1663,1 1641,1 1641,91934,3 1988,8 1865,7 1775 1743,5 1633,3 1621,5 16201934,8 1975,4 1805,4 1727,4 1642,2 1610,7 1685,81939,9 1998,4 1775,7 1728,8 1656,7 1610,5
Nevýhody:
• Obtížnější analýza pomocí statistického software.• Chybí jednoznačná identifikace příslušných statistických jednotek.
Před vlastní analýzou je velmi vhodné převést data do stand. datového formátu.
Jak analyzovat data?
Exploratorní(popisná) statistika
Exploratorní(popisná) statistika
Statistická indukce
Exploratorní analýza dat
Grafická prezentace a uspořádání dat do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.
Typy statistických znaků (proměnných)
Nominální• varianty jsou ve formátu text nebo číselný kód• o každých dvou variantách lze říci, zda jsou různé• např. škola, fakulta, obor, výrobce, …• Další dělení: dichotomické (alternativní), vícekategoriální (množné)
Ordinální (pořadová)• varianty jsou ve fomátu text, datum nebo číslo• u každých dvou variant lze stanovit jejich pořadí• např. úroveň vzdělání, známka (A, B, …, E), úroveň spokojenosti, …
Intervalové (rozdílové)• varianty jsou v číselném formátu• u každých dvou variant lze určit jejich pořadí a rozdíl• např. teplota ve °C, chyba měření, …
Poměrové • varianty jsou v číselném formátu (pouze kladná čísla + nulový bod)• u každých dvou variant lze určit jejich pořadí, rozdíl a podíl (poměr)• např. teplota v K, velikost chyby měření, …
Kvalitativní
Kvantitativní(numerické, kardinální)Další dělení: diskrétní, spojité
EDA pro kvalitativní znaky
Číselné charakteristiky
+ Modus (název nejčetnější varianty)
TABULKA ROZDĚLENÍ ČETNOSTI
Varianty
𝑥𝑖
Absolutní četnosti
𝑛𝑖
Relativní četnosti
𝑝𝑖
x1 𝑛1 𝑝1 = 𝑛1/𝑛
𝑥2 𝑛2 𝑝2 = 𝑛2/𝑛
⋮ ⋮ ⋮
𝑥𝑘 𝑛𝑘 𝑝𝑘 = 𝑛𝑘 /𝑛
Celkem: 𝑛1+ 𝑛2+⋯+ 𝑛𝑘 = 𝑛 1
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Typ pasažéra Absolutní četnostiRelativní četnosti
(%)
Muž 77 37,37864
Žena 85 41,26214
Dítě 44 21,35922
Celkem: 206 100,00000
1% … 2,06 osob0,00001% ... 0,0000206 osob
0,1% … 0,206 osob
Jak zaokrouhlovat relativní četnost?
Číselné charakteristiky
POZOR na zaokrouhlovací
chybu!
TABULKA ROZDĚLENÍ ČETNOSTI
Typ pasažéra Absolutní četnostiRelativní četnosti
(%)
Muž 77 37,4
Žena 85 41,3
Dítě 44 21,4
Celkem: 206 100,1
Číselné charakteristiky
Dopočet do 100%!
TABULKA ROZDĚLENÍ ČETNOSTI
Typ pasažéra Absolutní četnostiRelativní četnosti
(%)
Muž 77 37,4
Žena 85 41,3
Dítě 44 21,3
Celkem: 206 100,0
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Typ pasažéra Absolutní četnostiRelativní četnosti
(%)
Muž ? 37,4
Žena ? 41,3
Dítě ? 21,3
Celkem: 206 100,0
Relativní četnosti uvádějme vždy pouze jako doplněk absolutních četností, nikoliv samostatně!
Grafické znázornění
A) Sloupcový graf (bar chart)
0
5
10
15
20
25
Výborně Chvalitebně Prospěl Neprospěl
Počet
„…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx
Grafické znázornění
0
5
10
15
20
VýborněChvalitebně
ProspělNeprospěl
Počet
A) Sloupcový graf (bar chart)
Grafické znázornění
0
5
10
15
20
VýborněChvalitebně
ProspělNeprospěl
Počet
A) Sloupcový graf (bar chart)
Grafické znázornění
0
5
10
15
20
VýborněChvalitebně
ProspělNeprospěl
Počet
A) Sloupcový graf (bar chart)
Grafické znázornění
0
5
10
15
20
VýborněChvalitebně
ProspělNeprospěl
Počet
A) Sloupcový graf (bar chart)
Grafické znázornění
0
5
10
15
20
VýborněChvalitebně
ProspělNeprospěl
Počet
A) Sloupcový graf (bar chart)
A) Sloupcový graf (bar chart)
Grafické znázornění
Na co si dát pozor?
• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
A) Sloupcový graf (bar chart)
Grafické znázornění
0
5000
10000
15000
20000
25000
1993 2007
Pro
du
kce
CO
2 (
kg)
na
oso
bu
Sloupcový graf
USA
ČR
Na co si dát pozor?
zdroj dat:http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita
A) Sloupcový graf (bar chart)
Grafické znázornění
Na co si dát pozor?
• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
• Nadbytečné názvy grafu, legendy, …
• Neefektivní nuly
A na co ještě?
0
5
10
15
20
1993 2007
Pro
du
kce
CO
2 (
tun
)n
ao
sob
u
USA ČR
0%
20%
40%
60%
80%
100%
1993 2007
Pro
du
kce
CO
2 (
tun
)n
ao
sob
u(%
ro
ku1
99
3)
USA ČR
10
12
14
16
18
20
1993 2007
USA ČR
90%
92%
94%
96%
98%
100%
1993 2007
USA ČR
Který z grafů je „správný“?
Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný.
Zdroj: Testové příklady určené žákům 9. tříd.
?
Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný.
Zdroj: Testové příklady určené žákům 9. tříd.
241 240
Grafické znázornění
Na co si dát pozor?
• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
• Nadbytečné názvy grafu, legendy, …
• Neefektivní nuly
• Informativní hodnota grafu
A) Sloupcový graf (bar chart)
66; 78%
19; 22%
muž
žena
B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění
66; 78%
19; 22%
muž
žena
B) Prstencový graf
Grafické znázornění
66; 78%
19; 22%
muž
žena
B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění
66; 78%
19; 22%
muž
žena
B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
• Jaký je poměr mezi velikostí výsečí A a C?
• Jaký je poměr mezi velikostí výsečí B a D?
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
Grafické znázornění
Anketa
Jste pro navýšení hodinové dotace Biostatistiky?
TAKHLE NE!!!
B) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
• Nadbytečné názvy grafu
Grafické znázornění
Krevní
skupina
Rh faktorCelkem
Rh+ Rh-
0 38 7 45
A 34 6 40
B 9 2 11
AB 3 1 4
Celkem 84 16 100
Výskyt krevních skupin a Rh faktoru v USA
Procentuální zastoupení krevních skupin v populaci USA
B) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
• Nadbytečné názvy grafu, legendy, …
• Ne vždy je graf přehlednější než tabulka
Grafické znázornění
Určete pravdivost tvrzení:a) Místo otazníku patří 20 %.b) Místo otazníku patří 126 Kč.c) Část C je dvojnásobkem části D.
Co je to A, B, C, D?
Jsou výseče odpovídající variantám B a D stejně velké?
Lze velikosti jednotlivých výsečí charakterizovat v absolutních číslech i v procentech?
Rozdělení četností kvalitativního znaku se znázorňuje kruhovým diagramem, kde různým hodnotám znaku odpovídají kruhové výseče, jejichž plošné obsahy jsou úměrné četnostem. (Prometheus)
Zdroj: Testové příklady určené žákům 9. tříd.
Grafické znázornění
A) Sloupcový graf (bar chart)
B) Výsečový graf – koláčový graf (pie chart)
C) Obrázkové grafy
Obrázkové grafy – užiteční pomocníci?
Srovnání průměrných ročních nástupních platů učitelů středních škol
v ČR (17 244 $) a Irsku (34 604 $)
Obrázkové grafy – užiteční pomocníci?
Srovnání průměrných ročních nástupních platů učitelů středních škol
v ČR (17 244 $) a Irsku (34 604 $)
Několik praktických příkladůaneb
„To přece bylo v novinách…“
Obrázkové grafy – užiteční pomocníci?
(Zdroj: Mf Dnes, 10. 7. 2014:
Zemědělci si rozdělí miliardy. Krávy a vepři se budou mít lépe.
„Úžasná infografika o výdajích státního rozpočtu České republiky v roce 2013“Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/
Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/
Příklad s klobásou
Příklad s klobásou
Souboj vyhledávačů
Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx
Souboj vyhledávačů
Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx
Jak výsledky šetření zobrazit správně?
Jak výsledky šetření zobrazit správně?
Průzkum o představách studentů o budoucím zaměstnání
Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)
Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)
S přesností na setinu procenta…
1000 studentů … 100%10 studentů … 1%0,1 studentů … 0,01%
Proč není součet 100%?
Čemu odpovídá velikost jednotlivých částí prstence?
Průzkum o představách studentů o budoucím zaměstnání
Jak výsledky šetření zobrazit správně?
Co je pro Vás důležité při výběru zaměstnání?(vyberte 3 pro Vás nejdůležitější faktory)
četnost rel. četnost (%)rel. četnost (%) vzhledem
k počtu respondentůplat 692 22 67profesní růst 550 18 53atraktivita pracovní pozice 493 16 48pracovní prostředí 479 16 47work-life balance 443 14 43benefity 234 8 23reputace společnosti 199 6 19celkem 3090 100% ---
Jak výsledky šetření zobrazit správně?
0%
10%
20%
30%
40%
50%
60%
70%
80%
plat profesní růst atraktivitapracovnípozice
pracovníprostředí
work-lifebalance
benefity reputacespolečnosti
rel.
čet
no
stz
10
30
re
spo
nd
en
tů
Co je pro Vás důležité při výběru zaměstnání?
Zdroj: Twitter @strakovka(20. srpna 2015)
Zdroj: Dotyk, týdeník, 34. číslo, 21. 8. 2015, ISSN: 1805-9465
Pozor na logaritmické měřítko!
EDA pro kvantitativní veličinu
Číselné charakteristiky
A) Míry polohy (úrovně)
B) Míry variability
C) Míry šikmosti a špičatosti
Míry polohy
- Odhadují skutečnou populační střední hodnotu na základě výběrového souboru.
- Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrovýmedián a modus.
- Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsoukvantily.
Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě.
Autor neznámý
Ošidný průměr
Aritmetický průměr
ҧ𝑥 =σ𝑖=1𝑛 𝑥𝑖𝑛
Aritmetický průměr
ҧ𝑥 =σ𝑖=1𝑛 𝑥𝑖𝑛
Pozor na ošidnost aritmetického průměru!
Ošidnost průměru
Zdroj: [1]
Ošidnost průměru
Země K
Průměrná produkce kuřat (na osobu): 1,0 (denně)
Ošidnost průměru
„Průměrná rodina má 2,2 dítěte.“Zdroj: [1]
Ošidnost průměru
Ošidnost průměru
• V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže.
$25 000 $27 000 $29 000
$35 000 $37 000 $38 000
Určete průměrný plat obyvatel této vesnice.
($31 830)
• Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000.
$25 000 $27 000 $29 000
$35 000 $37 000 $38 000 $40 000 000
Určete průměrný plat obyvatel této vesnice.
($5 741 571)
Ošidnost průměru
Zdroj: Blesk, 9.4.2013
Ošidnost průměru
Zdroj: Blesk, 12.3.2014
Ošidnost průměru
Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015
Ošidnost průměru
Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015
Ošidnost průměru
-3,0
-1,0
1,0
3,0
5,0
7,0
9,0
11,0
13,0
15,0
17,0
19,0
21,0
-4 000
0
4 000
8 000
12 000
16 000
20 000
24 000
28 000
Q2/13 Q3/13 Q4/13 Q1/14 Q2/14 Q3/14 Q4/14 Q1/15 Q2/15
%Kč
Průměrná měsíční mzda (čtvrtletí - absolutně, meziroční změny)
průměrná hrubá nominální mzda (Kč)average gross nominal wage (CZK)
nominální mzda po očištění od sezónních vlivů (Kč)nominal wage seasonally adjusted (CZK)
růst nominální mzdy (%)nominal wage growth (%)
růst reálné mzdy (%)real wage growth (%)
Aritmetický průměr
ҧ𝑥 =σ𝑖=1𝑛 𝑥𝑖𝑛
Na co si dát pozor?
• Průměr není rezistentní vůči odlehlým pozorováním!
• Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla)
• Geometrický průměr (tempa růstu)
• Vážený průměr
• Průměrování dat na cirkulární škále
Circular Statistics Toolbox
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
a) vzdálenost všech úseků je stejná – 5 km.
A B C D
AB BC CD
Dráha (km) 5 5 5
Rychlost (km/h) 40 50 60
1
A B C D
AB BC CD
Dráha (km) 5 5 5
Rychlost (km/h) 40 50 60
Čas (h) 5/40 5/50 5/60
1
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
a) vzdálenost všech úseků je stejná – 5 km.
A B C D
AB BC CD AD
Dráha (km) 5 5 5
Rychlost (km/h) 40 50 60
Čas (h) 5/40 5/50 5/60
1
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že
a) vzdálenost všech úseků je stejná – 5 km.
A B C D
AB BC CD AD
Dráha (km) 5 5 5 15
Rychlost (km/h) 40 50 60
Čas (h) 5/40 5/50 5/60 5/40 + 5/50 + 5/60
hkmx /7,48
60
1
50
1
40
1
3
60
5
50
5
40
5
15
Harmonický
průměr
1
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
a) vzdálenost všech úseků je stejná – 5 km.
AB BC CD
Dráha (km) 0,15AD 0,25AD 0,60AD
Rychlost(km/h)
40 50 60
1
A B C D
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
AB BC CD
Dráha (km) 0,15AD 0,25AD 0,60AD
Rychlost(km/h)
40 50 60
Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60
1
A B C D
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
AB BC CD AD
Dráha (km) 0,15AD 0,25AD 0,60AD
Rychlost(km/h)
40 50 60
Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60
1
A B C D
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
AB BC CD AD
Dráha (km) 0,15AD 0,25AD 0,60AD AD
Rychlost(km/h)
40 50 60
Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60 0,15AD/40 + 0,25AD/50 + 0,60AD/60
1
A B C D
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
AB BC CD AD
Dráha (km) 0,15AD 0,25AD 0,60AD AD
Rychlost(km/h)
40 50 60
Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60 0,15AD/40 + 0,25AD/50 + 0,60AD/60
1
A B C D
hkmADADAD
ADx /3,53
60
60,0
50
25,0
40
15,0
1
60
60,0
50
25,0
40
15,0
Vážený harmonický průměr
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhlautomobil na celé trase, víte-li, že
b) Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy.
Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. březnatéhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny tétoakcie?
2
Cena akcie (Kč) Koeficient růstu
13. března 952,50
14. března ? ?/952,5
15. března 982,0 982,0/?
01515952
09820982
5952,
,
,
?
,
,
?x Geometrický
průměr
Průměrný denní relativní přírůstek ceny akcie byl 1,5%.
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
2014 8500
2015 9200
2016 9900
celkem -
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 9200
2016 9900
celkem -
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 9200
2016 9900
celkem -
celkový procentuální nárůst =?
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 9200
2016 9900
celkem -
celkový procentuální nárůst =9900
8500− 1 ∙ 100 = 𝟏𝟔, 𝟓 %
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 9200
2016 9900
celkem - 16,5
Jaký je roční procentuální nárůst min. mzdy v letech 2015 a 2016?
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 92009200
8500− 1 ∙ 100
2016 99009900
9200− 1 ∙ 100
celkem - 16,5
Jaký je roční procentuální nárůst min. mzdy v letech 2015 a 2016?
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
2014 8500
2015 9200 8,2
2016 9900 7,6
celkem - 16,5
16,5 % ≠ 8,2 %+ 7,6 %(procentuální hodnoty se nevztahují ke stejnému základu, tj. nemá smysl je sčítat)
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Koef. růstu udává kolikrát se změnila hodnota v časové řadě oproti hodnotě předcházející.
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Všimněte si souvislosti mezi koef. růstu a procentuálním nárůstem…
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Je zřejmé, že 𝑥2016 =𝑥2016
𝑥2015∙ 𝑥2015 =
𝑥2016
𝑥2015∙𝑥2015
𝑥2014∙ 𝑥2014
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Je zřejmé, že 𝑥2016 =𝑥2016
𝑥2015∙ 𝑥2015 =
𝑥2016
𝑥2015∙𝑥2015
𝑥2014∙ 𝑥2014, tj.
𝑥2016
𝑥2014=
𝑥2016
𝑥2015∙𝑥2015
𝑥2014
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Je zřejmé, že 𝑥2016 =𝑥2016
𝑥2015∙ 𝑥2015 =
𝑥2016
𝑥2015∙𝑥2015
𝑥2014∙ 𝑥2014, tj. 𝑘 = 𝑘2015 ∙ 𝑘2016
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
𝑘 = 𝑘2015 ∙ 𝑘2016
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
𝑘 = 𝑘2015 ∙ 𝑘2016 = ത𝑘 ∙ ത𝑘
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
𝒌 = 𝑘2015 ∙ 𝑘2016 = ഥ𝒌 ∙ ഥ𝒌
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
ത𝑘 = 𝑘 = 1,079
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
ത𝑘 = 𝑘 = 1,079
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
Obecně:
𝑘 = 𝑘2 ∙ 𝑘3 ∙ ⋯ ∙ 𝑘𝑛 = ത𝑘𝑛−1 ⇒ ത𝑘 = 𝑛−1 𝑘2 ∙ 𝑘3 ∙ ⋯ ∙ 𝑘𝑛 =𝑛−1
𝑘 =𝑛−1 𝑥𝑛
𝑥1
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
rok(𝒊)
minimální mzda (Kč)(𝒙𝒊)
procentuální nárůst minimální mzdy (%)
koeficienty růstu(𝑘𝑖)
2014 8500
2015 9200 8,2 1,082
2016 9900 7,6 1,076
celkem - 16,5 1,165 (𝑘)
• průměrný koef. růstu je geometrickým průměrem dílčích koeficientů růstu• geom. průměr používáme, když „celek je součinem dílčích částí“• pro výpočet prům. koef. růstu stačí znát první a poslední hodnotu časové řady
ത𝑘 = 𝑛−1 𝑘2 ∙ 𝑘3 ∙ ⋯ ∙ 𝑘𝑛 =𝑛−1
𝑘 =𝑛−1 𝑥𝑛
𝑥1
Určete průměrný roční procentuální nárůst minimální mzdy v letech 2014 až 2016.
2
Výběrové kvantily
100p %-ní kvantil 𝑥𝑝
• odděluje 100p% menších hodnot od zbytku souboru
(100p% hodnot datového souboru je menších než toto číslo.)
Význačné výběrové kvantily
• Kvartily
Dolní kvartil 𝑥0,25
Medián 𝑥0,5
Horní kvartil 𝑥0,75
• Decily – 𝑥0,1; 𝑥0,2; ... ; 𝑥0,9
• Percentily – 𝑥0,01; 𝑥0,02; …; 𝑥0,03
• Minimum 𝑥𝑚𝑖𝑛 a Maximum 𝑥𝑚𝑎𝑥
Kde se s kvantily setkáme v praxi?
Zdroj: https://scio.cz/nsz/vyhodnoceni.asp
• Vyhodnocení Národních srovnávacích zkoušek, …
Kde se s kvantily setkáme v praxi?
• vyhodnocení Národních srovnávacích zkoušek, …• růstové grafy
Růstové grafy
Jak se výběrové kvantily určují?
Jedna z používaných metod:
1. Výběrový soubor uspořádáme podle velikosti.
2. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí 𝑛 (rozsah souboru).
3. 100𝑝%- ní kvantil je roven hodnotě proměnné s pořadím 𝑧𝑝, kde 𝑧𝑝 = 𝑛𝑝 + 0,5.
4. Není-li 𝑧𝑝 celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím 𝑧𝑝 a 𝑧𝑝 .
MN (%)
8,7
7,8
6,8
6,8
7,8
9,7
15,7
6,8
4,9
6,8
V předložených datech určete 0,3 kvantil (30% kvantil).
3
MN (%) MN (%) (seřazeno)
8,7 4,9
7,8 6,8
6,8 6,8
6,8 6,8
7,8 6,8
9,7 7,8
15,7 7,8
6,8 8,7
4,9 9,7
6,8 16
𝑧𝑝 = 𝑛𝑝 + 0,5
3
V předložených datech určete 0,3 kvantil (30% kvantil).
MN (%) MN (%) (seřazeno)
8,7 4,9
7,8 6,8
6,8 6,8
6,8 6,8
7,8 6,8
9,7 7,8
15,7 7,8
6,8 8,7
4,9 9,7
6,8 16
𝑧𝑝 = 𝑛𝑝 + 0,5 ⇒ 𝑧0,3= 10 ∙ 0,3 + 0,5 = 3,5
3
V předložených datech určete 0,3 kvantil (30% kvantil).
MN (%) MN (%) (seřazeno)
8,7 4,9
7,8 6,8
6,8 6,8
6,8 6,8
7,8 6,8
9,7 7,8
15,7 7,8
6,8 8,7
4,9 9,7
6,8 16
𝑧𝑝 = 𝑛𝑝 + 0,5 ⇒ 𝑧0,3= 10 ∙ 0,3 + 0,5 = 3,5
𝑥0,3 =6,8 + 6,8
2= 𝟔, 𝟖
3
V předložených datech určete 0,3 kvantil (30% kvantil).
Míry variability
- Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy.
- Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.
K čemu potřebujeme míry variability?
Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.
K čemu potřebujeme míry variability?
Atlanta, Georgieprům. teplota 16°C
San Diego, Kalifornieprům. teplota 17°C
K čemu potřebujeme míry variability?
Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro
testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou
technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu.
Lze doporučit zavedení nové technologie do výroby?
K čemu potřebujeme míry variability?
Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro
testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou
technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu.
Lze doporučit zavedení nové technologie do výroby?
Výběrový rozptyl
1
1
2
2
n
xx
s
n
ii
Na co si dát pozor?
Rozměr rozptylu je druhou mocninou rozměru proměnné.
Výběrová směrodatná odchylka
1
1
2
2
n
xx
ss
n
ii
Jakou představu o variabilitě dat nám dává sm. odchylka?
Empirické pravidlo 3 sigma
k 𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎
1 0,682
2 0,954
3 0,998
Čebyševova nerovnost: ∀𝑘 > 0: 𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎 > 1 −1
𝑘2
k 𝑃 𝜇 − 𝑘𝜎 < 𝑋 < 𝜇 + 𝑘𝜎
1 >0
2 >0,75
3 >0,89
Variační koeficient
(Směrodatná odchylka v procentech aritmetického průměru)
𝑉 =𝑠
ҧ𝑥∙ 100 (%)
• Čím nižší var. koeficient, tím homogennější soubor.
• 𝑉 > 50 % značí silně rozptýlený soubor.
Proč potřebujeme bezrozměrnou míru variability?Umožňuje srovnání variability proměnných, které mají různé jednotky.
Interkvartilové rozpětí
Užití: např. při identifikaci odlehlých pozorování
𝐼𝑄𝑅 = 𝑥0,75 - 𝑥0,25
Odlehlá pozorování
• ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru.
Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování?
• V případě, že odlehlost pozorování je způsobena:
• hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ...
• důsledky poruch, chybného měření, technologických chyb ...
tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování.
• V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.
Metoda vnitřních hradeb
mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0
Dolní mez vnitřních hradeb
Horní mez vnitřních hradeb
Identifikace odlehlých pozorování
Metoda vnějších hradeb
mpozorováníextrémnímjexIQRxxIQRxx i,i,i 33 750250
Dolní mez vnějších hradeb
Horní mez vnějších hradeb
Identifikace extrémních pozorování
MN (%)
4,9
6,8
6,8
6,8
6,8
7,8
7,8
8,7
9,7
15,7
𝑀𝑁0,5=7,3
𝑀𝑁0,25 = 𝟔, 𝟖
𝑀𝑁0,75 = 8,7
𝐼𝑄𝑅 = 𝑀𝑁0,75 −𝑀𝑁0,25 = 1,9
Vnitřní hradby:Dolní mez: 6,8 − 2,85 = 𝟑, 𝟗𝟓 Horní mez: 8,7 + 2,85 = 𝟏𝟏, 𝟓𝟓
1,5 ∙ 𝐼𝑄𝑅 = 2,85
V předložených datech identifikujte odlehlá pozorování:
4
MN (%)
4,9
6,8
6,8
6,8
6,8
7,8
7,8
8,7
9,7
15,7
𝑀𝑁0,5=7,3
𝑀𝑁0,25 = 𝟔, 𝟖
𝑀𝑁0,75 = 8,7
𝐼𝑄𝑅 = 𝑀𝑁0,75 −𝑀𝑁0,25 = 1,9
Vnitřní hradby:Dolní mez: 6,8 − 2,85 = 𝟑, 𝟗𝟓 Horní mez: 8,7 + 2,85 = 𝟏𝟏, 𝟓𝟓
1,5 ∙ 𝐼𝑄𝑅 = 2,85
V předložených datech identifikujte odlehlá pozorování:
4
Identifikace odlehlých pozorování
𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒
𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 =𝑥𝑖 − ҧ𝑥
𝑠
Je-li 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 > 3, je 𝑥𝑖 odlehlým pozorováním.
Zase nový vzorec?
Identifikace odlehlých pozorování
𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒
𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 =𝑥𝑖 − ҧ𝑥
𝑠
Je-li 𝑧 − 𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒𝑖 > 3, je 𝑥𝑖 odlehlým pozorováním.
Ne, jde jen o jinou podobu pravidla 3𝜎!
Míry šikmosti a špičatosti
Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008
Výběrová šikmost (standardizovaná)
𝑎 =𝑛
𝑛 − 1 𝑛 − 2∙σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 3
𝑠3
𝑎 < −2
ҧ𝑥 < 𝑥0,5 < ො𝑥
Symetrická data Pozitivně zešikmená dataNegativně zešikmená data
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
𝑎 ∈ −2; 2
ҧ𝑥 = 𝑥0,5 = ො𝑥
𝑎 > 2
ҧ𝑥 > 𝑥0,5 > ො𝑥
empirické pravidlo
Výběrová špičatost (standardizovaná)
míra koncentrace kolem průměru
𝑏 =𝑛 𝑛 + 1
𝑛 − 1 𝑛 − 2 𝑛 − 3∙σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 4
𝑠4− 3
𝑛 − 1 2
𝑛 − 2 𝑛 − 3
𝑏 < −2rozdělení plošší než normální r.
𝑏 ∈ −2; 2špičatost odpovídá normálnímu r.
𝑏 > 2rozdělení špičatější než normální r.
Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008
Přesnost číselných charakteristik
Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu,maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, abynejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.
Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 567
Medián 2,675 117,8 13 700
Směrodatná odchylka
0,78 23,71 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 567
Medián 2,675 117,8 13 700
Směrodatná odchylka
0,78 23,71 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 567
Medián 2,675 117,8 13 700
Směrodatná odchylka
0,78 23,71 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
3 platné cifry
u směrodatné
odchylky.
Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 567
Medián 2,675 117,8 13 700
Směrodatná odchylka
0,78 23,71 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
3 platné cifry
u směrodatné
odchylky.
Nejnižší zapsaný řád průměru (jednotky)
neodpovídá nejnižšímu zapsanému řádu směrodatné
odchylky (stovky)+ směr. odch. není zaokrouhlena
nahoru.
Oprava
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 567
Medián 2,68 117,8 13 700
Směrodatná odchylka
0,78 23,71 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
3 platné cifry
u směrodatné
odchylky.
Nejnižší zapsaný řád průměru (jednotky)
neodpovídá nejnižšímu zapsanému řádu směrodatné
odchylky (stovky)+ směr. odch. není zaokrouhlena
nahoru.
Oprava
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 128 14 567
Medián 2,68 118 13 700
Směrodatná odchylka
0,78 241 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Nejnižší zapsaný řád průměru (jednotky)
neodpovídá nejnižšímu zapsanému řádu směrodatné
odchylky (stovky)+ směr. odch. není zaokrouhlena
nahoru.
Správný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C)
Průměr 2,26 127,6 14 600
Medián 2,675 117,8 13 700
Směrodatná odchylka
0,78 23,7 1 300
Grafické znázornění kvantitativní proměnné
Krabicový graf (box plot, resp. box and whiskers plot)
dolní kvartil
horní kvartilmedián
není definováno jednoznačně, v R je to defaultně nastaveno jako max(data)[data<horní mez vnitřních hradeb]
není definováno jednoznačně, v R je to defaultně nastaveno jako min(data)[data>dolní mez vnitřních hradeb]
odlehlá pozorování, tj. defaultně: data ležící vně vnitřních hradeb
boxplot(data)# neboboxplot(data,range = 1.5) # parametrem range lze modifikovat velikost hradeb
0
5
10
15
20
25
30
35
40
45
<2
7,1
; 57
,2>
(57
,2; 8
7,3
>
(87
,3; 1
17
,4>
(11
7,4
; 14
7,4
>
(14
7,4
; 17
7,6
>
Četnost
0
2
4
6
8
10
12
14
16
<2
7,1
; 36
,5>
(45
,9; 5
5,3
>
(64
,7; 7
4,1
>
(83
,5; 9
2,9
>
(10
2,3
; 11
1,7
>
(12
1,1
; 13
0,5
>
(13
9,9
; 14
9,3
>
(15
8,7
; 16
8,1
>
Četnost
Na co si dát pozor?
Histogram
Histogram
0
5
10
15
20
25
30
27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další
Čet
no
st
Data
0
5
10
15
20
25
30
35
40
45
<2
7,1
; 57
,2>
(57
,2; 8
7,3
>
(87
,3; 1
17
,4>
(11
7,4
; 14
7,4
>
(14
7,4
; 17
7,6
>
Četnost
Na co si dát pozor?
MS Excel 2007, funkce Histogram
Výpočetní applet Explorační analýza
Histogram
Posouzení normality dat na základě explorační analýzy
Posouzení na základě číselných charakteristik
• Výběrová šikmost i špičatost blízká nule (v praxi – leží v intervalu −2; 2 )
Posouzení na základě grafických výstupů
• Histogram
• Odhad hustoty pravděpodobnosti
• Odhad distribuční funkce (empirická distribuční funkce)
• Q-Q graf
Histogram
Pozor na zvolené členění - počet tříd!
Odhad hustoty pravděpodobnosti
Empirická distribuční funkce
Q-Q graf – „Jak to funguje?“
výběrový 30% kvantil teoretický 30% kvantil
Pokud jsou data výběrem z daného rozdělení, výběrové a teoretické kvantily by měly být shodné.
Q-Q graf
Q-Q graf
Posuzování normality na základě explorační analýzy
pro vybrané typy výběrových souborů
Q-Q graf ve tvaru S
Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy?
𝑠𝐴 = 36 𝑚𝐴ℎ𝑠𝐷 = 38 𝑚𝐴ℎ
𝑠𝑚𝑎𝑥2
𝑠𝑚𝑖𝑛2 ≅
382
362≅ 1,12 < 2 ⇒
⇒ nepředpokládáme, že výběry pocházejí z populací s různými rozptyly
Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy?
𝑠𝐴 = 36 𝑚𝐴ℎ𝑠𝐵 = 15 𝑚𝐴ℎ
𝑠𝑚𝑎𝑥2
𝑠𝑚𝑖𝑛2 ≅
382
152≅ 5,76 > 2 ⇒
⇒ předpokládáme, že výběry pocházejí z populací s různými rozptyly
Pár tipů pro zpracování domácích úkolů
Výrobce \ Kvalita Vyhovující Nevyhovující CelkemA 45 (62,5%) 27 (37,5%) 72B 32 (49,2%) 33 (50,8%) 65C 28 (46,7%) 32 (53,3%) 60D 52 (71,2%) 21 (28,8%) 73Celkem 157 (58,1%) 113 (41,9%) 270
• „Příliš barviček škodí dobrému dojmu…“• Každá tabulka a každý obrázek musí mít výstižný titulek!• Nezařazujte tabulky a obrázky, na něž se v dalším textu neodkazujete.• Tabulky a grafy by měly být v „myšlenkovém“ souladu.
Výrobce \ Kvalita Vyhovující Nevyhovující CelkemA 45 (62,5%) 27 (37,5%) 72B 32 (49,2%) 33 (50,8%) 65C 28 (46,7%) 32 (53,3%) 60D 52 (71,2%) 21 (28,8%) 73Celkem 157 (58,1%) 113 (41,9%) 270
Tab. 1: Zastoupení různých typů akumulátorů (dle kvality) pro jednotlivé výrobce
Obr. 1: Zastoupení různých typů akumulátorů (dle kvality) pro jednotlivé výrobce
Obr. 2 : Krabicové grafy výrobců
• Každá tabulka a každý obrázek musí mít výstižný titulek!• Standardní součástí grafů je popis os.• Chceme-li grafy používat k vzájemnému porovnávání výsledků, snažíme se používat stejné rozsahy os.
Obr. 2 : Srovnání kapacit akumulátorů po 5 nabíjecích cyklech (mAh) dle výrobců (krabicový graf)
Obr. 3 : Srovnání kapacit akumulátorů po 5 nabíjecích cyklech (mAh) výrobců A a B
• Naučte se grafy efektivně kombinovat!
DĚKUJI ZA POZORNOST!