Štatistické spracovanie a vyhodnotenie dát

50
Štatistické Štatistické spracovanie spracovanie a vyhodnotenie dát a vyhodnotenie dát

description

Štatistické spracovanie a vyhodnotenie dát. Premenné. štatistické jednotky ( Statistical Units ) premenné ( Variables ) nadobúda hodnotu ( Value ) Premenná jednej štatistickej jednotky v jednom časovom okamihu nadobúda práve jednu hodnotu. Príklady:. Intervalová (kardinálna). - PowerPoint PPT Presentation

Transcript of Štatistické spracovanie a vyhodnotenie dát

Page 1: Štatistické spracovanie a vyhodnotenie dát

Štatistické Štatistické spracovanie spracovanie

a vyhodnotenie dát a vyhodnotenie dát

Page 2: Štatistické spracovanie a vyhodnotenie dát

PremennéPremenné štatistické jednotky (štatistické jednotky (Statistical UnitsStatistical Units)) premenné (premenné (VariablesVariables) ) nadobúda hodnotu (nadobúda hodnotu (ValueValue))

Premenná jednej štatistickej jednotky v jednom Premenná jednej štatistickej jednotky v jednom časovom okamihu nadobúda práve jednu hodnotu. časovom okamihu nadobúda práve jednu hodnotu. Príklady:Príklady:

Štatistická jednotkaŠtatistická jednotka PremennáPremenná Hodnota premennejHodnota premennej

študentštudent pohlaviepohlavie mužskémužské

ženažena výška [cm]výška [cm] 166166

učiteľučiteľ školaškola PopradPoprad

vedomostný testvedomostný test predmetpredmet chémiachémia

Page 3: Štatistické spracovanie a vyhodnotenie dát

Intervalová (kardinálna)Intervalová (kardinálna) umožňujú zoradenie objektov, ale aj umožňujú zoradenie objektov, ale aj kvantifikáciu a kvantifikáciu a  porovnanie veľkosti rozdielov medzi nimi. porovnanie veľkosti rozdielov medzi nimi.

Napríklad: výsledky prijímacích testov žiakov, vieme kto bol prvý, Napríklad: výsledky prijímacích testov žiakov, vieme kto bol prvý, druhý, tretí atď. Takisto však vieme určiť, o koľko mal jeden žiak druhý, tretí atď. Takisto však vieme určiť, o koľko mal jeden žiak lepšie výsledky ako druhý. Ak by sme vedeli iba výsledné poradie, lepšie výsledky ako druhý. Ak by sme vedeli iba výsledné poradie, nevieme určiť, o koľko bol prvý lepší ako druhý. nevieme určiť, o koľko bol prvý lepší ako druhý.

Intervalová premenná musí vždy obsahovať jednotku merania Intervalová premenná musí vždy obsahovať jednotku merania a všetky hodnoty premennej v súbore musia byť vyjadrené a všetky hodnoty premennej v súbore musia byť vyjadrené pomocou tejto miery (nie je prípustné, aby niektorí ľudia mali vek pomocou tejto miery (nie je prípustné, aby niektorí ľudia mali vek uvedení v rokoch a iní v mesiacoch). uvedení v rokoch a iní v mesiacoch).

Príklady: vek [roky], výška [cm], hmotnosť [kg], príjem [Sk], obrat Príklady: vek [roky], výška [cm], hmotnosť [kg], príjem [Sk], obrat [Euro], teplota [°C] [Euro], teplota [°C]

PoznámkaPoznámka: Intervalová premenná (napr. vek) rozdelená do : Intervalová premenná (napr. vek) rozdelená do niekoľkých intervalov (vekových kategórií: do 20 rokov, 21–25 niekoľkých intervalov (vekových kategórií: do 20 rokov, 21–25 rokov, 26–30 rokov, atď.) nie je intervalová premenná ale rokov, 26–30 rokov, atď.) nie je intervalová premenná ale poradová.poradová.

Page 4: Štatistické spracovanie a vyhodnotenie dát

Proporcionálna Proporcionálna (pomerová),(pomerová),AbsolútnaAbsolútna Proporcionálna – sme schopní určiť a vecne Proporcionálna – sme schopní určiť a vecne

interpretovať nulu (počiatok) stupniceinterpretovať nulu (počiatok) stupnice– Príklad: meranie teploty v KelvinochPríklad: meranie teploty v Kelvinoch

Absolútna – špeciálny prípad pomerovej škály, Absolútna – špeciálny prípad pomerovej škály, kde sa hodnoty nemenia spojito ale diskrétne po kde sa hodnoty nemenia spojito ale diskrétne po kvantách (dávkach) kvantách (dávkach) – Príklad: počet ľudí v miestnosti, počet vyriešených úloh v Príklad: počet ľudí v miestnosti, počet vyriešených úloh v

testeteste

Page 5: Štatistické spracovanie a vyhodnotenie dát

Poradová (ordinálna)Poradová (ordinálna) umožňuje zoradiť objekty podľa toho, ktoré umožňuje zoradiť objekty podľa toho, ktoré

majú viac a ktoré majú menej kvality majú viac a ktoré majú menej kvality reprezentovanej premennou. reprezentovanej premennou.

neumožňujú povedať „O koľko viac."neumožňujú povedať „O koľko viac."– Príklady: prospech v škole, hodnotenie Príklady: prospech v škole, hodnotenie

zdravotného stavu pacienta, hodnotenie reklamy zdravotného stavu pacienta, hodnotenie reklamy zákazníkom, poradie pretekárov, socio-ekonomický zákazníkom, poradie pretekárov, socio-ekonomický status.status.

PoznámkaPoznámka: V sociálnych vedách je bežné : V sociálnych vedách je bežné používať na analýzu ordinálnych premenných používať na analýzu ordinálnych premenných metódy určené pre intervalové premenné, ak metódy určené pre intervalové premenné, ak počet kategórií ordinálnej premennej je aspoň počet kategórií ordinálnej premennej je aspoň 5.5.

Page 6: Štatistické spracovanie a vyhodnotenie dát

NominálnaNominálna

klasifikuje objekty do konečného počtu klasifikuje objekty do konečného počtu skupín, pričom určovanie poradia skupín skupín, pričom určovanie poradia skupín nemá zmysel. nemá zmysel.

– Príklady: farba, národnosť, krvná skupina, Príklady: farba, národnosť, krvná skupina, vierovyznanie, mesto.vierovyznanie, mesto.

Page 7: Štatistické spracovanie a vyhodnotenie dát

Binárna (dichotomická)Binárna (dichotomická) Špecifický prípad nominálnej úrovne, kde objekt Špecifický prípad nominálnej úrovne, kde objekt

patrí vždy iba do jednej z dvoch možných patrí vždy iba do jednej z dvoch možných kategórií. kategórií.

– Príklady: pohlavie, absolvovanie kurzu (áno / nie), Príklady: pohlavie, absolvovanie kurzu (áno / nie), časový okamih (pred akciou / po akcii).časový okamih (pred akciou / po akcii).

Poznámka: Poznámka: Analýza premenných, ktoré sú merané Analýza premenných, ktoré sú merané na vyššej škále, ako vyžaduje konkrétna na vyššej škále, ako vyžaduje konkrétna štatistická metóda, je síce neefektívna, ale štatistická metóda, je síce neefektívna, ale prípustná. Napr. intervalovú premennú vek prípustná. Napr. intervalovú premennú vek možno ľahko transformovať na binárnu premennú možno ľahko transformovať na binárnu premennú vek nad 30 rokov (áno / nie). Štatistická metóda vek nad 30 rokov (áno / nie). Štatistická metóda sa nesmie použiť na analýzu premennej meranej sa nesmie použiť na analýzu premennej meranej na nižšej škále ako vyžaduje metóda.na nižšej škále ako vyžaduje metóda.

Page 8: Štatistické spracovanie a vyhodnotenie dát

Jednorozmerná Jednorozmerná deskriptívna štatistika – deskriptívna štatistika –

číselné premennéčíselné premenné Na opis číselnej premennej sa Na opis číselnej premennej sa

používajú:používajú:– Histogram– Škatuľový graf– Histogram doplnený o škatuľový graf– Opisné charakteristiky

Page 9: Štatistické spracovanie a vyhodnotenie dát

HistogramHistogramtyp stĺpcového grafu určený na znázornenie rozdelenia typ stĺpcového grafu určený na znázornenie rozdelenia

intervalovej premennej. Graf na osi y zobrazuje početnosti intervalovej premennej. Graf na osi y zobrazuje početnosti hodnôt premennej v intervaloch jej hodnôt na osi x.hodnôt premennej v intervaloch jej hodnôt na osi x.

Page 10: Štatistické spracovanie a vyhodnotenie dát

Škatuľový graf (Box Plot) Škatuľový graf (Box Plot) znázorňuje rozdelenie hodnôt premennej pomocou znázorňuje rozdelenie hodnôt premennej pomocou opisných charakteristíkopisných charakteristík..Horizontálna čiara predstavuje Horizontálna čiara predstavuje mediánmedián (50. percentil), horná hrana škatule (50. percentil), horná hrana škatule

75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje 75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje medzikvartilovémedzikvartilové rozpätie rozpätie (IQR), teda stredných 50 % hodnôt súboru. (IQR), teda stredných 50 % hodnôt súboru.

V najjednoduchšej podobe V najjednoduchšej podobe predstavuje horná čiarka predstavuje horná čiarka maximum a dolná čiarka maximum a dolná čiarka minimum. Horná čiarka však často minimum. Horná čiarka však často znázorňuje 95. percentil a dolná znázorňuje 95. percentil a dolná čiarka 5. percentil. V najzložitejšej čiarka 5. percentil. V najzložitejšej podobe grafu horná čiarka podobe grafu horná čiarka predstavuje 75. percentil + 1,5 × predstavuje 75. percentil + 1,5 × IQR (neextrémne maximum) IQR (neextrémne maximum) a dolná čiarka 25. percentil − 1,5 a dolná čiarka 25. percentil − 1,5 × IQR (neextrémne minimum). × IQR (neextrémne minimum). Odľahlé pozorovania (outliers) Odľahlé pozorovania (outliers) ležiace mimo týchto intervalov ležiace mimo týchto intervalov môžu byť znázornené ako body. môžu byť znázornené ako body. Škatuľový graf možno umiestniť Škatuľový graf možno umiestniť vertikálne alebo horizontálne vertikálne alebo horizontálne (hodnoty premennej budú na osi (hodnoty premennej budú na osi x).x).

Page 11: Štatistické spracovanie a vyhodnotenie dát

Histogram + škatuľový Histogram + škatuľový grafgraf

Page 12: Štatistické spracovanie a vyhodnotenie dát

Dvojrozmerná deskriptívna Dvojrozmerná deskriptívna štatistikaštatistika – číselné – číselné

premennépremenné Na opísanie vzťahu medzi dvoma Na opísanie vzťahu medzi dvoma

číselnými premennými sa používajú:číselnými premennými sa používajú:– BivariačnýBivariačný histogramhistogram– X-Y grafX-Y graf

Page 13: Štatistické spracovanie a vyhodnotenie dát

Bivariačný histogramBivariačný histogrampredstavuje rozšírenie predstavuje rozšírenie histogramuhistogramu a slúži na a slúži na

znázornenie rozdelenia početnosti dvoch znázornenie rozdelenia početnosti dvoch premenných. premenných.

na vertikálnej osi zobrazuje početnosti kombinácie na vertikálnej osi zobrazuje početnosti kombinácie hodnôt premenných v intervaloch ich hodnôt hodnôt premenných v intervaloch ich hodnôt uvedených na osi x a osi y.uvedených na osi x a osi y.

pohlavie vzdelanie

freq

uenc

y

02468

1012

mužské

ženské 4gym8gym

SŠMVŠ

Page 14: Štatistické spracovanie a vyhodnotenie dát

X-Y graf (Scatter Plot)X-Y graf (Scatter Plot) predstavuje základný graf na znázornenie vzťahu predstavuje základný graf na znázornenie vzťahu

medzi dvoma číselnými premennými. medzi dvoma číselnými premennými. Bod na grafe predstavuje objekt, ktorého hodnoty Bod na grafe predstavuje objekt, ktorého hodnoty

premenných sú dané príslušnými súradnicami na premenných sú dané príslušnými súradnicami na osiach x a y. osiach x a y.

V prípade veľkého počtu pozorovaní s totožnými V prípade veľkého počtu pozorovaní s totožnými hodnotami X a Y sa graf stáva nevhodným, pretože hodnotami X a Y sa graf stáva nevhodným, pretože jeden bod nepredstavuje jedno pozorovanie ale jeden bod nepredstavuje jedno pozorovanie ale viacero pozorovaní, ktoré sú "na sebe viacero pozorovaní, ktoré sú "na sebe poukladané".poukladané".

vek

oblú

beno

st c

hém

ie

18 20 22 24 26 280

2

4

6

8

10

Page 15: Štatistické spracovanie a vyhodnotenie dát

Viacrozmerná deskriptívna Viacrozmerná deskriptívna štatistika – číselné štatistika – číselné

premennépremenné Na preskúmanie viacerých číselných Na preskúmanie viacerých číselných

premenných súčasne sa používajú premenných súčasne sa používajú trojrozmerné grafy: trojrozmerné grafy: – X-Y-Z graf, X-Y-Z graf, – Vrstevnicový graf, Vrstevnicový graf, – Povrchový grafPovrchový graf

Page 16: Štatistické spracovanie a vyhodnotenie dát

X-Y-Z graf (3-D Scatter Plot) X-Y-Z graf (3-D Scatter Plot) zobrazuje body v priestore. zobrazuje body v priestore. Súradnice bodov sú dané hodnotami Súradnice bodov sú dané hodnotami

premenných pre dané pozorovanie (objekt).premenných pre dané pozorovanie (objekt).

vek známka z chémie

ob

lúb

en

ost

ch

ém

ie

18 20 22 24 26 28 1 1,4 1,8 2,2 2,6 30

2

4

6

8

10

Page 17: Štatistické spracovanie a vyhodnotenie dát

Jednorozmerná deskriptívna Jednorozmerná deskriptívna štatistika - kategorická štatistika - kategorická

premennápremenná

Na opis kategorickej premennej sa Na opis kategorickej premennej sa používajú:používajú:

Frekvenčná tabuľkaFrekvenčná tabuľka Koláčový grafKoláčový graf Stĺpcový grafStĺpcový graf Kumulatívny stĺpcový grafKumulatívny stĺpcový graf

Page 18: Štatistické spracovanie a vyhodnotenie dát

Frekvenčná tabuľkaFrekvenčná tabuľka zodpovedá jednostupňovému triedeniu. Obsahuje zodpovedá jednostupňovému triedeniu. Obsahuje

triedne početnosti podľa kategórií (tried) jednej triedne početnosti podľa kategórií (tried) jednej premennej. premennej.

Nasledujúci tabuľka obsahuje rozdelenie Nasledujúci tabuľka obsahuje rozdelenie respondentov podľa vzdelania.respondentov podľa vzdelania.

Vzdelanie Početnosť Percento

ZŠ 17 2,7

SŠ bez maturity 83 13,3

SŠ s maturitou 428 68,4

VŠ 98 15,6

Page 19: Štatistické spracovanie a vyhodnotenie dát

Koláčový grafKoláčový graf predstavuje najvhodnejšie grafické znázornenie predstavuje najvhodnejšie grafické znázornenie

percent (relatívnych početností) frekvenčnej percent (relatívnych početností) frekvenčnej tabuľky. Nasledujúci obrázok je zostrojený tabuľky. Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.z horeuvedenej frekvenčnej tabuľky.

Page 20: Štatistické spracovanie a vyhodnotenie dát

Stĺpcový graf Stĺpcový graf

predstavuje najvhodnejšie grafické znázornenie predstavuje najvhodnejšie grafické znázornenie absolútnych početností frekvenčnej tabuľky. absolútnych početností frekvenčnej tabuľky.

Nasledujúci obrázok je zostrojený z horeuvedenej Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.frekvenčnej tabuľky.

Page 21: Štatistické spracovanie a vyhodnotenie dát

Kumulatívny stĺpcový grafKumulatívny stĺpcový graf

predstavuje alternatívu ku koláčovému grafu. predstavuje alternatívu ku koláčovému grafu.

Nasledujúci obrázok je zostrojený Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.z horeuvedenej frekvenčnej tabuľky.

Page 22: Štatistické spracovanie a vyhodnotenie dát

Dvojrozmerná deskriptívna Dvojrozmerná deskriptívna štatistika - kategorické štatistika - kategorické

premennépremenné

Na opisánie vzťahu medzi dvoma Na opisánie vzťahu medzi dvoma kategorickými premennými sa kategorickými premennými sa používajú:používajú:– Kontingenčná tabuľkaKontingenčná tabuľka– Kumulatívny stĺpcový grafKumulatívny stĺpcový graf– Stĺpcový grafStĺpcový graf– 3-D stĺpcový graf3-D stĺpcový graf

Page 23: Štatistické spracovanie a vyhodnotenie dát

Kontingenčná tabuľkaKontingenčná tabuľka je metódou organizovania a analýzy údajov podľa skupín, je metódou organizovania a analýzy údajov podľa skupín,

kategórií alebo tried, ktorá umožňuje ich porovnávanie. kategórií alebo tried, ktorá umožňuje ich porovnávanie. Spája rozdelenie početnosti dvoch premenných Spája rozdelenie početnosti dvoch premenných

a predstavuje rozšírenie jednoduchej frekvenčnej tabuľky. a predstavuje rozšírenie jednoduchej frekvenčnej tabuľky. Číslo v bunke krížovej tabuľky predstavuje počet Číslo v bunke krížovej tabuľky predstavuje počet štatistických jednotiek, ktorých riadková premenná štatistických jednotiek, ktorých riadková premenná nadobúda hodnotu v hlavičke riadku (napr. pohlavie) nadobúda hodnotu v hlavičke riadku (napr. pohlavie) a stĺpcová premenná nadobúda hodnotu v hlavičke stĺpca a stĺpcová premenná nadobúda hodnotu v hlavičke stĺpca (napr. vzdelanie).(napr. vzdelanie).

ZŠ SŠ M VŠ

Muž 5 34 176 62

Žena 12 49 252 36

Page 24: Štatistické spracovanie a vyhodnotenie dát

Kumulatívny stĺpcový grafKumulatívny stĺpcový graf predstavuje najlepší spôsob grafického predstavuje najlepší spôsob grafického

znázornenia vzťahu medzi dvojicou kategorických znázornenia vzťahu medzi dvojicou kategorických premenných. V skutočnosti je to grafické premenných. V skutočnosti je to grafické zobrazenie riadkových alebo stĺpcových percent zobrazenie riadkových alebo stĺpcových percent kontingenčnej tabuľky.kontingenčnej tabuľky.

Page 25: Štatistické spracovanie a vyhodnotenie dát

Stĺpcový grafStĺpcový graf zobrazuje absolútne početnosti kontingenčnej zobrazuje absolútne početnosti kontingenčnej

tabuľky.tabuľky.

Page 26: Štatistické spracovanie a vyhodnotenie dát

3-D stĺpcový graf3-D stĺpcový graf

predstavuje alternatívu k stĺpcovému grafu. predstavuje alternatívu k stĺpcovému grafu. menšia prehľadnosť.menšia prehľadnosť.

Page 27: Štatistické spracovanie a vyhodnotenie dát

Opisné charakteristikyOpisné charakteristiky

Opisná charakteristika predstavuje Opisná charakteristika predstavuje číslo vypočítané podľa príslušného číslo vypočítané podľa príslušného vzorca zo štatistického súboru. vzorca zo štatistického súboru.

Cieľom opisných charakteristík je Cieľom opisných charakteristík je charakterizovať súbor.charakterizovať súbor.– Miery polohyMiery polohy– Miery variabilityMiery variability– Miery tvaruMiery tvaru

Page 28: Štatistické spracovanie a vyhodnotenie dát

Miery polohy (Stredné Miery polohy (Stredné hodnoty)hodnoty)

Aritmetický priemerAritmetický priemer ( (MeanMean)) sa vypočíta ako súčet všetkých sa vypočíta ako súčet všetkých

hodnôt vydelený ich počtom:hodnôt vydelený ich počtom:

n

xx

n

ii

1

Page 29: Štatistické spracovanie a vyhodnotenie dát

Geometrický priemerGeometrický priemer ((Geometric MeanGeometric Mean))

je vhodnejšou mierou polohy je vhodnejšou mierou polohy pre pomerovú pre pomerovú premennúpremennú (špeciálny typ intervalovej premennej (špeciálny typ intervalovej premennej s bodom absolútnej nuly, pod ktorú hodnota s bodom absolútnej nuly, pod ktorú hodnota premennej nemôže klesnúť - napr. hmotnosť, premennej nemôže klesnúť - napr. hmotnosť, výška, vek) s pozitívnou šikmosťou (napr. výška, vek) s pozitívnou šikmosťou (napr. rozdelenie príjmov obyvateľstva). rozdelenie príjmov obyvateľstva).

Geometrický priemer sa často používa v ekonómii Geometrický priemer sa často používa v ekonómii a biológii, keď je premenná skôr súčinom ako a biológii, keď je premenná skôr súčinom ako súčtom mnohých malých efektov (logaritmus súčtom mnohých malých efektov (logaritmus premennej má bližšie k symetrickému premennej má bližšie k symetrickému normálnemu rozdeleniu ako samotná premenná). normálnemu rozdeleniu ako samotná premenná). Vypočíta sa ako Vypočíta sa ako nn-tá odmocnina súčinu všetkých -tá odmocnina súčinu všetkých hodnôt:hodnôt:

n

n

iiG xx

1

Page 30: Štatistické spracovanie a vyhodnotenie dát

Harmonický priemerHarmonický priemer ((Harmonic MeanHarmonic Mean))

Harmonický priemer sa používa na výpočet Harmonický priemer sa používa na výpočet priemernej rýchlosti ak sú vzdialenosti konštantné priemernej rýchlosti ak sú vzdialenosti konštantné a čas premenlivý. a čas premenlivý.

V prípade rôznych vzdialeností a rovnakých časov sa V prípade rôznych vzdialeností a rovnakých časov sa však musí použiť aritmetický priemer. Priemerná však musí použiť aritmetický priemer. Priemerná rýchlosť auta, ktoré išlo 2 hodiny rýchlosťou rýchlosť auta, ktoré išlo 2 hodiny rýchlosťou 90 km/h a ďalšie 2 hodiny 130 km/h sa rovná: 90 km/h a ďalšie 2 hodiny 130 km/h sa rovná: (90+130)/2=110 km/h. Do výpočtu harmonického (90+130)/2=110 km/h. Do výpočtu harmonického priemeru možno zahrnúť iba nenulové hodnoty:priemeru možno zahrnúť iba nenulové hodnoty:

n

i i

H

x

nx

1

1

Page 31: Štatistické spracovanie a vyhodnotenie dát

MediánMedián ( (MedianMedian)) predstavuje strednú hodnotu súboru, ktorý je predstavuje strednú hodnotu súboru, ktorý je

zoradený od najmenšej po najväčšiu hodnotu. zoradený od najmenšej po najväčšiu hodnotu. V prípade párneho počtu hodnôt je medián V prípade párneho počtu hodnôt je medián

aritmetický priemer hodnôt na miestach aritmetický priemer hodnôt na miestach nn/2 /2 a a nn/2+1. Medián, na rozdiel od priemeru, nie je /2+1. Medián, na rozdiel od priemeru, nie je ovplyvnený extrémnymi hodnotami. Medián ovplyvnený extrémnymi hodnotami. Medián predstavuje najpoužívanejší kvantil. predstavuje najpoužívanejší kvantil.

KvantilKvantil súboru je hodnota súboru je hodnota kk-tej časti, ak je súbor -tej časti, ak je súbor rozdelený na rozdelený na nn rovnakých častí (hodnoty sú rovnakých častí (hodnoty sú zoradené od najmenšej po najväčšiu). Okrem zoradené od najmenšej po najväčšiu). Okrem mediánu sa často používajú mediánu sa často používajú kvartilykvartily (delia súbor (delia súbor na 4 časti) a na 4 časti) a percentilypercentily (delia súbor na 100 (delia súbor na 100 častí). Medián je druhý kvartil, resp. 50. percentil.častí). Medián je druhý kvartil, resp. 50. percentil.

Page 32: Štatistické spracovanie a vyhodnotenie dát

ModusModus ( (ModeMode))

predstavuje najčastejšie sa vyskytujúcu predstavuje najčastejšie sa vyskytujúcu hodnotu premennej. hodnotu premennej.

Rozdelenie, ktoré má iba jeden vrchol, Rozdelenie, ktoré má iba jeden vrchol, teda jedno lokálne maximum, ktoré je teda jedno lokálne maximum, ktoré je zároveň globálne, sa nazýva zároveň globálne, sa nazýva unimodálneunimodálne. .

Page 33: Štatistické spracovanie a vyhodnotenie dát

Miery variabilityMiery variability

Variačné rozpätieVariačné rozpätie ( (RangeRange)) sa vypočíta ako rozdiel medzi sa vypočíta ako rozdiel medzi

najväčšou a najmenšou hodnotou najväčšou a najmenšou hodnotou súboru:súboru: R = xmax -

xmin

Page 34: Štatistické spracovanie a vyhodnotenie dát

Medzikvartilové rozpätieMedzikvartilové rozpätie ((Interquartile RangeInterquartile Range))

Predstavuje rozdiel medzi tretím a prvým Predstavuje rozdiel medzi tretím a prvým kvartilom (75. a 25. percentilom), čo kvartilom (75. a 25. percentilom), čo reprezentuje oblasť stredných 50 percent reprezentuje oblasť stredných 50 percent hodnôt premennej. hodnôt premennej.

Táto miera variability nie je ovplyvnená Táto miera variability nie je ovplyvnená extrémnymi hodnotami premennej.extrémnymi hodnotami premennej.

Page 35: Štatistické spracovanie a vyhodnotenie dát

RozptylRozptyl ( (VarianceVariance))

sa rovná priemernému štvorcu odchýlky sa rovná priemernému štvorcu odchýlky hodnoty od priemeru. hodnoty od priemeru.

Čím je rozptyl väčší, tým sa údaje viac Čím je rozptyl väčší, tým sa údaje viac odchyľujú od priemeru. Rozptyl sa vypočíta odchyľujú od priemeru. Rozptyl sa vypočíta podľa vzorca:podľa vzorca:

22

2

1

1

1

2

22 1xx

n

x

n

xxx

ns

n

iin

i

n

ii

i

Page 36: Štatistické spracovanie a vyhodnotenie dát

Štandardná odchýlkaŠtandardná odchýlka ((Standard DeviationStandard Deviation))

Dôsledkom nutného umocňovania je Dôsledkom nutného umocňovania je vypočítaná hodnota rozptylu v štvorcoch vypočítaná hodnota rozptylu v štvorcoch pôvodných jednotiek. pôvodných jednotiek.

Aby sa odstránil neblahý vplyv Aby sa odstránil neblahý vplyv umocňovania, rozptyl sa odmocní, čím sa umocňovania, rozptyl sa odmocní, čím sa vypočíta štandardná odchýlka:vypočíta štandardná odchýlka:

n

ii xx

ns

1

21

Page 37: Štatistické spracovanie a vyhodnotenie dát

Variačný koeficientVariačný koeficient ((Coefficient of VariationCoefficient of Variation))

predstavuje relatívnu mieru variability. Používa sa na predstavuje relatívnu mieru variability. Používa sa na porovnávanie variability medzi súbormi dát porovnávanie variability medzi súbormi dát s odlišnými priemermi. Variačný koeficient výšky s odlišnými priemermi. Variačný koeficient výšky vzorky ľudí bude rovnaký bez ohľadu na to, či výšku vzorky ľudí bude rovnaký bez ohľadu na to, či výšku budeme vyjadrovať v centimetroch alebo metroch. budeme vyjadrovať v centimetroch alebo metroch. Vypočíta sa ako podiel štandardnej odchýlky Vypočíta sa ako podiel štandardnej odchýlky a priemeru.a priemeru.

x

sk

Page 38: Štatistické spracovanie a vyhodnotenie dát

Koeficient disperzieKoeficient disperzie ((Coefficient of DispersionCoefficient of Dispersion))

predstavuje relatívnu mieru variability, ktorá predstavuje relatívnu mieru variability, ktorá je iba málo ovplyvnená extrémnymi je iba málo ovplyvnená extrémnymi hodnotami.hodnotami.

x

xxn

d

n

ii

~

~1

1

Page 39: Štatistické spracovanie a vyhodnotenie dát

Miery tvaruMiery tvaruŠikmosťŠikmosť ( (SkewnessSkewness)) meria smer a stupeň asymetrie rozdelenia meria smer a stupeň asymetrie rozdelenia

premennej a vypočíta sa:premennej a vypočíta sa: 3

1

3

1

1

s

xxn

b

n

ii

Kladná hodnota (pravostranná šikmosť) znamená, že priemer je väčší ako medián, teda väčšina hodnôt je menšia ako priemer.

Záporná hodnota (ľavostranná šikmosť) znamená, že medián je väčší ako priemer a teda väčšina hodnôt je väčšia ako priemer.

Šikmosť rovná 0 znamená symetrické rozdelenie, teda priemer a medián sa rovnajú.

Page 40: Štatistické spracovanie a vyhodnotenie dát

Na horizontálnej osi (x) histogramov sú hodnoty premennej a na vertikálnej osi (y) relatívne početnosti (percentá) hodnôt premennej v príslušných intervaloch na osi x.

Trojuholníkové rozdelenia početností s rovnakým priemerom (10), rozptylom (2) aj špicatosťou (2,4), líšiace sa iba šikmosťou.

Page 41: Štatistické spracovanie a vyhodnotenie dát

ŠpicatosťŠpicatosť ( (KurtosisKurtosis)) meria hustotu chvostov rozdelenia premennej, meria hustotu chvostov rozdelenia premennej,

teda charakterizuje výskyt extrémne vysokých teda charakterizuje výskyt extrémne vysokých a extrémne nízkych hodnôt. a extrémne nízkych hodnôt.

4

1

4

2

1

s

xxn

b

n

ii

Špicatosť rozdelenia sa porovnáva so špicatosťou normálneho rozdelenia, ktorého špicatosť sa rovná 3.

Unimodálne rozdelenia, ktorých špicatosť je väčšia, majú hustejšie chvosty (výskyt extrémnych hodnôt je častejší) ako normálne rozdelenie. Takéto rozdelenia majú vyšší vrchol.

Unimodálne rozdelenia, ktorých špicatosť je menšia ako 3, majú nižšie chvosty, teda výskyt extrémnych hodnôt je menej častý ako u normálneho rozdelenia. Takéto rozdelenia sú plochejšie.

Page 42: Štatistické spracovanie a vyhodnotenie dát

Symetrické rozdelenia s rovnakým priemerom (0) a rovnakým rozptylom (5/3), ktoré sa líšia iba špicatosťou.

Page 43: Štatistické spracovanie a vyhodnotenie dát

Analýza dátAnalýza dát

Medzi premennými existuje vzťah, ak ich Medzi premennými existuje vzťah, ak ich hodnoty vzájomne systematicky korešpondujú.hodnoty vzájomne systematicky korešpondujú.

V V korelačnom výskumekorelačnom výskume neovplyvňujeme premenné, neovplyvňujeme premenné, iba ich meriame a hľadáme vzťahy (korelácie). iba ich meriame a hľadáme vzťahy (korelácie).

V V experimentálnom výskumeexperimentálnom výskume s niektorými s niektorými premennými manipulujeme (nazývajú sa nezávislé premennými manipulujeme (nazývajú sa nezávislé premenné) a potom meriame dopad týchto premenné) a potom meriame dopad týchto manipulácií na ďalšie premenné (nazývajú sa závislé manipulácií na ďalšie premenné (nazývajú sa závislé premenné). Aj v prípade experimentálnych premenné). Aj v prípade experimentálnych výskumov sa skúmajú korelácie medzi výskumov sa skúmajú korelácie medzi manipulovanými premennými a premennými manipulovanými premennými a premennými ovplyvnenými manipuláciou, experimenty však ovplyvnenými manipuláciou, experimenty však môže poskytnúť informácie vyššej kvality. môže poskytnúť informácie vyššej kvality.

Iba experimentálne údaje môžu nezvratne Iba experimentálne údaje môžu nezvratne demonštrovať demonštrovať kauzálny vzťahkauzálny vzťah. .

Page 44: Štatistické spracovanie a vyhodnotenie dát

Korelačné koeficientyKorelačné koeficienty meria silu štatistickej závislosti medzi dvoma meria silu štatistickej závislosti medzi dvoma

číselnými premennými. Pod pojmom číselnými premennými. Pod pojmom korelačný koeficient sa najčastejšie myslí korelačný koeficient sa najčastejšie myslí Pearsonov korelačný koeficientPearsonov korelačný koeficient označovaný ako r (Pearson's product označovaný ako r (Pearson's product moment) z roku 1896, ktorý moment) z roku 1896, ktorý je mierou je mierou lineárnej závislosti dvoch premennýchlineárnej závislosti dvoch premenných. .

Pearsonov korelačný koeficient sa vypočíta:Pearsonov korelačný koeficient sa vypočíta:

yxss

yxxyr

Page 45: Štatistické spracovanie a vyhodnotenie dát

Kovarianciavyjadruje, ako sa súčasne menia hodnoty dvoch premenných.

Kladná hodnota znamená, že sa menia spoločne jedným smerom, záporná hodnota znamená, že sa menia opačným smerom a nula, že sa menia nezávisle.

Vydelením kovariancie štandardnými odchýlkami sa vypočíta Pearsonov korelačný koeficient. Hodnota všetkých korelačných koeficientov sa nachádza v intervale -1; +1.

• -1 znamená dokonalú negatívnu závislosť, • 1 znamená dokonalú pozitívnu závislosť a • 0 nezávislosť X a Y.

V prípade Pearsonovho korelačného koeficientu hodnota −1 znamená, že všetky body v X-Y grafe ležia na klesajúcej priamke, hodnota 1, že ležia na stúpajúcej priamke a hodnota 0, že sú rozptýlené.

Interpretácia veľkosti korelačného koeficientu je veľmi častým problémom. Podľa Cohena (1988) je korelácia pod 0,1 triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká. Korelácia 0,7–0,9 sa často uvádza ako veľmi veľká a 0,9–1 ako takmer dokonalá.

Page 46: Štatistické spracovanie a vyhodnotenie dát

Spearmanov koeficientSpearmanov koeficient

kde d – je diferencia dvojice poradia (xi – yi)kde d – je diferencia dvojice poradia (xi – yi) n – počet poradí.n – počet poradí.Pri počte n < 5 je korelačný koeficient veľmi neistý, a teda má Pri počte n < 5 je korelačný koeficient veľmi neistý, a teda má

malú výrokovú schopnosť. malú výrokovú schopnosť. Hodnoty získané Spearmanovým korelačným koeficientom sa Hodnoty získané Spearmanovým korelačným koeficientom sa

pohybujú ako pri Pearsonovom korelačnom koeficiente od –pohybujú ako pri Pearsonovom korelačnom koeficiente od –1 do 1 vrátane. Interpretujú sa podobne ako v prípade 1 do 1 vrátane. Interpretujú sa podobne ako v prípade Pearsonovho koeficientu, avšak nie sú také citlivé.Pearsonovho koeficientu, avšak nie sú také citlivé.

)1(

61

2

2

nn

dR i

Page 47: Štatistické spracovanie a vyhodnotenie dát

Kontingenčné koeficientyKontingenčné koeficientyPoužívajú sa na určenie sily asociácie riadkovej Používajú sa na určenie sily asociácie riadkovej

a stĺpcovej premennej v kontingenčnej tabuľke. a stĺpcovej premennej v kontingenčnej tabuľke. Ak náhodné premenné nie sú ani metricky, ani Ak náhodné premenné nie sú ani metricky, ani

ordinárne škálované, ich vzájomný vzťah ordinárne škálované, ich vzájomný vzťah nemožno primerane opísať korelačným nemožno primerane opísať korelačným koeficientom. koeficientom.

Ak má každá náhodne premenná iba 2 triedy, Ak má každá náhodne premenná iba 2 triedy, počítame štvorpolíčkový koeficient korelácie, a počítame štvorpolíčkový koeficient korelácie, a to to – koeficient koeficient (ak triedy znakov tvoria pravé (ak triedy znakov tvoria pravé

alternatívy), alebo alternatívy), alebo – tetrachorický koeficient tetrachorický koeficient rrtettet (ak triedy (ak triedy

premenných sú z normálne rozdelených premenných sú z normálne rozdelených súborov), alebo súborov), alebo

– asociačný koeficient asociačný koeficient QQ..

Page 48: Štatistické spracovanie a vyhodnotenie dát

Koeficient Koeficient Náhodná premenná X

Riadkový súčetx1 x2

Náhodná premenná Y

y2 a b (a + b)

y1 c d (c + d)

Stĺpcový súčet (a + c) (b + d)(a + c) + (b + d) =

= (a + b) + (c + d) = n

Koeficient počítame, keď dichotomické triedy premenných tvoria pravé alternatívy umožňujúce jednoznačné priradenie každého prvku (pohlavie, dotazník ´áno – nie´, postoj ´pozitívny – negatívny´).

Koeficient vypočítame podľa vzorca:a, b, c, d sú početnosti v štyroch políčkach tabuľky.

Existuje tiež priama súvislosť medzi a 2. Vyplýva zo vzťahu:

Pomocou 2 -testu môžeme testovať, či existuje súvislosť medzi dvoma náhodnými premennými a ak je to tak, možno použiť na určenie tesnosti súvislosti.

dbcadcba

adbc

;2

2

n

Page 49: Štatistické spracovanie a vyhodnotenie dát

Tetrachorický koeficient Tetrachorický koeficient rrtettet

je odhadom hodnoty korelačného koeficientu je odhadom hodnoty korelačného koeficientu rr, , ktorý opisuje ktorý opisuje súvislosť medzi dvoma súvislosť medzi dvoma premennými, ak sú metricky škálovanépremennými, ak sú metricky škálované. .

rrtettet je tým je tým menej spoľahlivé, čím viac sa odlišuje menej spoľahlivé, čím viac sa odlišuje rozdelenie základných údajov od normálneho rozdelenie základných údajov od normálneho rozdeleniarozdelenia. Keďže exaktný výpočet . Keďže exaktný výpočet rrtet tet je náročný, je náročný, uspokojíme sa s približnými metódami. uspokojíme sa s približnými metódami. Najznámejšia z nich je tzv. formula cosNajznámejšia z nich je tzv. formula cos . .

ad

bc1

180cos

adbc

ad180cos

Page 50: Štatistické spracovanie a vyhodnotenie dát

Asociačný koeficient Asociačný koeficient QQ odporúča staršia štatistická literatúra a mnohé odporúča staršia štatistická literatúra a mnohé

súčasné americké knihy ako charakteristiku súčasné americké knihy ako charakteristiku vzťahov alternatívne delených premenných. vzťahov alternatívne delených premenných. Počítame ho podľa vzorcaPočítame ho podľa vzorca

adbc

adbcQ

Veľkosť koeficientu informuje iba málo spoľahlivo o tesnosti súvislosti medzi kvalitatívnymi triedami znaku.