Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského...

58
Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky a štatistiky Grafická reprezentácia kategoriálnych dát Diplomová práca 2014 Bc. Michaela Cehlárová

Transcript of Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského...

Page 1: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Univerzita Komenského v BratislaveFakulta matematiky, fyziky a informatiky

Katedra aplikovanej matematiky a štatistiky

Grafická reprezentácia

kategoriálnych dát

Diplomová práca

2014

Bc. Michaela Cehlárová

Page 2: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Univerzita Komenského v BratislaveFakulta matematiky, fyziky a informatiky

Katedra aplikovanej matematiky a štatistiky

Grafická reprezentácia

kategoriálnych dát

Diplomová práca

Študijný program: Pravdepodobnosťa matematická štatistika

Študijný odbor: 6211 ŠtatistikaŠkoliace pracovisko: KAMŠ FMFI UK

Vedúci diplomovej práce: doc. Mgr. Ján Mačutek, PhD.

Bratislava 2014

Bc. Michaela Cehlárová

Page 3: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

51798459

Univerzita Komenského v BratislaveFakulta matematiky, fyziky a informatiky

ZADANIE ZÁVEREČNEJ PRÁCE

Meno a priezvisko študenta: Bc. Michaela CehlárováŠtudijný program: pravdepodobnosť a matematická štatistika (Jednoodborové

štúdium, magisterský II. st., denná forma)Študijný odbor: 9.1.10. štatistikaTyp záverečnej práce: diplomováJazyk záverečnej práce: slovenský

Názov: Grafická reprezentácia kategoriálnych dát / Graphical representation ofcategorical data

Cieľ: Vytvorenie analógie Ordovho grafu pre kategoriálne dáta pomocoucharakteristík kvalitatívnej variácie. Aplikácia na dáta z lingvistiky. Nový grafbude použitý na vyhodnotenie zhody medzi modelmi a dátami.

Vedúci: doc. Mgr. Ján Mačutek, PhD.Katedra: FMFI.KAMŠ - Katedra aplikovanej matematiky a štatistikyVedúci katedry: prof. RNDr. Daniel Ševčovič, CSc.

Dátum zadania: 21.11.2012

Dátum schválenia: 21.11.2012 prof. RNDr. Martin Škoviera, PhD.garant študijného programu

študent vedúci práce

Page 4: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Grafická reprezentácia kategoriálnych dát

Michaela CehlárováE-mail: [email protected]

Ján MačutekE-mail: [email protected]

Katedra aplikovanej matematiky a štatistikyFakulta matematiky, fyziky a informatikyUniverzita Komenského v BratislaveMlynská dolina842 48 BratislavaSlovenská republika

ii

Page 5: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Čestné prehlásenie

Vyhlasujem, že som túto diplomovú prácu vypracovala samostatne s použitímuvedenej odbornej literatúry.

Bratislava, 30. 4. 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . .Vlastnoručný podpis

iii

Page 6: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Poďakovanie

Moja srdečná vďaka patrí predovšetkým doc. Mgr. Jánovi Mačutkovi, PhD.za jeho ochotu, podporu, odborné vedenie, cenné rady a pripomienky privypracovávaní tejto diplomovej práce.

iv

Page 7: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Abstrakt

V úvode predstavujeme Ordov graf ako jednu z možností grafickej reprezen-tácie dát. Popisujeme nevýhody Ordovho grafu v prípade kategoriálnych dáta navrhujeme modifikáciu, ktorá odstráni spomenuté nevýhody. Modifiko-vaný Ordov graf aplikujeme na dáta z kvantitatívnej lingvistiky (frekvenciegrafém v slovanských jazykoch). Navyše pre vybrané teoretické rozdeleniapravdepodobnosti (useknuté geometrické, binomické, Estoupovo, useknutézeta a Zipfovo - Mandelbrotovo) odvádzame tie charakteristiky, ktoré súpotrebné na konštrukciu modifikovaného Ordovho grafu. Pre každé z pia-tich spomenutých rozdelení pravdepodobnosti tiež prezentujeme modifiko-vaný Ordov graf.

Kľúčové slová: kategoriálne dáta, Ordov graf, kvalitatívna variancia.

v

Page 8: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Abstract

We introduce the Ord’s graph as one of possibilities for a graphical represen-tation of data. We describe disadvantages of the Ord’s graph for categoricaldata and we propose a modification which eliminates the mentioned disadvan-tages. We apply the modified Ord’s graf to data from quantitative linguistics(grapheme frequencies in Slavic languages). For some discrete distributions(truncated geometric, binomial, Estoup, truncated zeta and Zipf - Mandelb-rot), moreover, we derive the characteristics which are used to construct themodified Ord’s graph. We also present the modified Ord’s graph for eachof the mentioned probability distributions.

Key words: categorical data, Ord’s graph, qualitative variance.

vi

Page 9: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obsah

Úvod 1

1 Ordov graf 3

1.1 Definícia a použitie Ordovho grafu . . . . . . . . . . . . . . . 3

1.2 Ordov graf pre kategoriálne dáta . . . . . . . . . . . . . . . . . 5

2 Modifikácia Ordovho grafu 7

2.1 Charakteristiky kvalitatívnej variancie . . . . . . . . . . . . . 7

2.2 Nahradenie momentov charakteristikamikvalitatívnej variancie . . . . . . . . . . . . . . . . . . . . . . 9

3 Aplikácia rôznych verzií Ordovho grafu na frekvencie grafém

v slovanských jazykoch 10

3.1 Pôvodný Ordov graf . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 Prvotná modifikácia Ordovho grafu . . . . . . . . . . . . . . . 15

3.3 Finálna modifikácia Ordovho grafu . . . . . . . . . . . . . . . 17

3.4 Diskusia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Modifikovaný Ordov graf pre vybrané teoretické rozdelenia

pravdepodobnosti 21

4.1 Useknuté geometrické rozdelenie . . . . . . . . . . . . . . . . . 23

vii

Page 10: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

4.2 Binomické rozdelenie . . . . . . . . . . . . . . . . . . . . . . . 24

4.3 Estoupovo rozdelenie . . . . . . . . . . . . . . . . . . . . . . . 27

4.4 Useknuté zeta rozdelenie . . . . . . . . . . . . . . . . . . . . . 28

4.5 Zipfovo - Mandelbrotovo rozdelenie . . . . . . . . . . . . . . . 29

4.6 Porovnanie modifikovaných grafov prevybrané rozdelenia pravdepodobnosti . . . . . . . . . . . . . . 31

4.7 Aproximácia entropie pomocou repeat rate . . . . . . . . . . . 34

Záver 36

Zoznam použitej literatúry 38

Príloha 1: Zostupne usporiadané frekvencie grafém v jazyko-

vých korpusoch 40

Príloha 2: Histogramy grafém usporiadaných zostupne podľa

frekvencií v jazykových korpusoch 42

viii

Page 11: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Úvod

Táto diplomová práca sa zaoberá problematikou grafickej reprezentácie ka-tegoriálnych dát. Jedným z mnohých spôsobov grafickej reprezentácie dát jeOrdov graf, ktorý je užitočným nástrojom na zamietanie hypotézy dobrejzhody dát s modelom, za predpokladu, že dáta sú kvantitatívne. Pre kate-goriálne dáta však Ordov graf vykazuje určitú nejednoznačnosť. VlastnostiOrdovho grafu a jeho nejednoznačnosť pre kategoriálne dáta popisujeme vKapitole 1.

Hlavným cieľom tejto práce je vytvorenie analógie Ordovho grafu, ktoráby bola vhodná aj pre kategoriálne dáta. Na skonštruovanie analógie je možnépoužiť napríklad charakteristiky kvalitatívnej variancie, ktoré vymenúvamev Kapitole 2. V tej istej kapitole predstavujeme dve modifikácie Ordovhografu. Prvú z nich nazývame prvotnou modifikáciou a vďaka nej sme overili,či je vôbec rozumné uvažovať o modifikácii Ordovho grafu za použitia charak-teristík kvalitatívnej variancie. Druhú modifikáciu Ordovho grafu nazývamefinálnou.

Ďalším z cieľov diplomovej práce je aplikácia na dáta z kvantitatívnej lin-gvistiky. Vybrali sme sadu dát týkajúcu sa frekvencií grafém v slovanskýchjazykoch. Výsledky aplikácie pôvodného a oboch verzií modifikovaného Or-dovho grafu sú ukázané a diskutované v Kapitole 3. Navyše na súradniciachpôvodného aj modifikovaného Ordovho grafu jednotlivých jazykov vykoná-vame analýzu zhlukov, podľa ktorej heuristicky vyhodnocujeme vhodnosťdanej verzie Ordovho grafu.

1

Page 12: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Keďže Ordov graf a rovnako aj jeho modifikácie môžu byť použité naprí-klad na vyhodnotenie (zamietnutie) zhody medzi modelmi a dátami, v Kapi-tole 4 odvádzame teoretické charakteristiky potrebné na konštrukciu finálnejmodifikácie Ordovho grafu a pomocou nich ilustrujeme finálny modifikovanýOrdov graf.

2

Page 13: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Kapitola 1

Ordov graf

1.1 Definícia a použitie Ordovho grafu

Jednou z možností grafickej reprezentácie diskrétnych rozdelení pravdepo-dobnosti je graf, ktorý ukázal J. K. Ord vo svojej práci [9].

Ďalej nech symbol µ označuje prvý počiatočný moment (strednú hodnotu)náhodnej premennej X, teda

µ = E(X). (1.1)

Symbol µ2 označuje druhý centrálny moment (disperziu) náhodnej premennejX

µ2 = V ar(X) = E[(X − µ)2

], (1.2)

a nech symbol µ3 označuje tretí centrálny moment

µ3 = E[(X − µ)3

]. (1.3)

V práci sme sa zaoberali len takými náhodnými premennými, pre ktorévšetky tri spomenuté momenty existujú a sú konečné.

Na Obrázku 1.1 sú znázornené Ordove grafy pre niektoré diskrétne rozde-lenia pravdepodobnosti. Horizontálna os zodpovedá hodnote I a vertikálna

3

Page 14: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

os hodnote S, pričomI =

µ2

µ,

S =µ3

µ2

.

Obr. 1.1: Ordove grafy pre niektoré rozdelenia pravdepodobnosti prevzatý z [14]

Napríklad náhodná premenná X zodpovedajúca Poissonovmu rozdelenius parametrom λ má momenty µ, µ2 a µ3 rovné tomuto parametru λ. TedaI = S = 1. Je zrejmé, že Ordov graf pre Poissonovo rozdelenie je bod (1,1).

Ordov graf sa dá použiť aj na grafickú reprezentáciu dát, ak namiesto mo-mentov použijeme ich výberové ekvivalenty. Vďaka tomu sa Ordov graf stáva

4

Page 15: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

nástrojom na prvé intuitívne rozhodovanie o hypotéze dobrej zhody empi-rických dát s teoretickým rozdelením, len s použitím výberových momentov.Hypotézu dobrej zhody je možné na základe Ordovho grafu jedine zamiet-nuť (nie však prijať), pretože Ordove grafy sa môžu aj pre rôzne rozdeleniapravdepodobnosti pri vhodnej kombinácii parametrov prekrývať. Na základeOrdovho grafu je tiež možné odhadnúť, do akej miery sú si dva rôzne dátovésúbory „podobné“, alebo je možné urobiť klasifikáciu. Z hľadiska výpočtovejnáročnosti je spôsob odhadu rozdelenia dát pomocou výberových momentovvýhodný.

Pre niektoré typy dát môže Ordov graf vykazovať určitú nejednoznačnosť.Ide najmä o také prípady, kde dáta majú kategoriálny charakter.

1.2 Ordov graf pre kategoriálne dáta

Hodnoty kvalitatívneho štatistického znaku (kategórie) nemusia nutne pod-liehať usporiadaniu (napr. farba alebo graféma). Kategórie sa pre účel vý-počtu výberových momentov číslujú prirodzenými číslami. Toto očíslovanievšak nie je jednoznačné. V mnohých prípadoch je možné ľubovoľne permu-tovať kategórie (napr. inventáre grafém v rôznych jazykoch nie sú totožné;okrem toho v slovanských jazykoch sa používa latinka aj cyrilika). Avšak per-mutovaním kategórií dostaneme rôzne hodnoty výberových momentov, ktorésú mierami polohy, variancie a šikmosti, čo demonštruje Obrázok 1.2 a s nímsúvisiaci nasledujúci výpočet.

Pre ľavú časť Obrázka 1.2 máme takéto hodnoty pre výberové ekvivalentymomentov (kvôli prehľadnosti označujeme výberové ekvivalenty momentovrovnako ako prislúchajúce momenty):

µ =1 + 2 + 2 + 2 + 2 + 3

6= 2,

µ2 =(−1)2 + 02 + 02 + 02 + 02 + 12

6=

1

3,

5

Page 16: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obr. 1.2: Príklad, kedy rôzne usporiadanie frekvencií vo frekvenčnej tabuľke vedie

k rôznym hodnotám výberových momentov

µ3 =(−1)3 + 03 + 03 + 03 + 03 + 13

6= 0,

zatiaľ čo pre pravú časť Obrázka 1.2 dostávame

µ =1 + 2 + 3 + 3 + 3 + 3

6=

5

2,

µ2 =(−3

2)2 + (−1

2)2 + (1

2)2 + (1

2)2 + (1

2)2 + (1

2)2

6=

7

12,

µ3 =(−3

2)3 + (−1

2)3 + (1

2)3 + (1

2)3 + (1

2)3 + (1

2)3

6= −1

8.

Poznamenávame, že v niektorých prípadoch sa volí spôsob číslovania ka-tegórií nepriamo úmerný frekvencii danej kategórie.

Pre niektoré typy dát by mohlo byť výhodou, keby štatistiky definujúceOrdov graf boli menej citlivé (prípadne vôbec neboli citlivé) na spôsob uspo-riadania kategórií. Z toho dôvodu v Kapitole 2 navrhujeme modifikáciu Or-dovho grafu pre kategoriálne dáta.

6

Page 17: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Kapitola 2

Modifikácia Ordovho grafu

V predchádzajúcej kapitole sme načrtli nevýhody Ordovho grafu spočíva-júce v jeho nejednoznačnosti pre kategoriálne dáta. Táto nejednoznačnosť jespôsobená citlivosťou Ordovho grafu na spôsob usporiadania kategórií. Modi-fikáciou Ordovho grafu prostredníctvom charakteristík kvalitatívnej variancieje možné túto citlivosť zmierniť, prípadne úplne odstrániť.

2.1 Charakteristiky kvalitatívnej variancie

V ďalšom nech N je počet pozorovaní, K je počet kategórií (rôznych hod-nôt, ktoré pozorovania môžu nadobúdať), fi je absolútna početnosť v i-tejkategórii, fm = maxi∈{1,...,K}fi a fl = mini∈{1,...,K}fi.

V prácach [12] a [13] autor predstavuje viacero mier kvalitatívnej variancie:

MODV R = 1−∑K

i=1(fm − fi)N(K − 1)

(2.1)

meria odchýlky od modusu a je kvalitatívnou analógiou štandardnej od-chýlky, ktorá meria odchýlku od aritmetického priemeru. Ďalšia charakte-ristika,

RANV R = 1− fm − flfm

, (2.2)

7

Page 18: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

je založená na rozsahu frekvencií, pretože jej jadro tvorí rozdiel medzi naj-väčšou a najmenšou frekvenciou. Charakteristika

AVDEV = 1−∑K

i=1 |fi −NK|

2NK

(K − 1)(2.3)

je analógiou priemernej odchýlky, ktorá je definovaná ako aritmetický prie-mer absolútnych rozdielov každej hodnoty od priemernej hodnoty. Nasledujecharakteristika

MNDIF = 1−∑K−1

i=1

∑Kj=i+1 |fi − fj|

N(K − 1), (2.4)

ktorá je analógiou pre priemerný rozdiel každej dvojice frekvencií. Charakte-ristika

V ARNC = 1−∑K

i=1(fi −NK

)2

N2(K−1)K

(2.5)

pripomína disperziu. Ďalšou charakteristikou je

STDEV = 1−

√∑Ki=1(fi −

NK

)2

N2(K − 1) 1K

, (2.6)

ktorá je založená na štandardnej odchýlke, ktorú tu chápeme ako druhú od-mocninu z disperzie, pozri V ARNC (2.5). Na záver

HREL =−∑K

i=1fiN

log fiN

logK(2.7)

môžeme nazvať relatívnou entropiou.

Všetky uvedené charakteristiky nadobúdajú reálne hodnoty medzi 0 a 1.Hodnota 0 indikuje žiadnu varianciu, čo nastáva v prípade, že všetkých N po-zorovaní spadá do tej istej kategórie. Hodnota 1 indikuje naopak maximálnuvarianciu, teda ide o prípad, že v každej kategórii je rovnaký počet pozoro-vaní, a to

N

K. V [12] autor poznamenáva, že ďalšou dôležitou vlastnosťou

predstavených charakteristík je, že ich maximálna a minimálna možná hod-nota nezávisí od magnitúdyK, respektíve N . Všetky uvedené charakteristikysú navyše invariantné vzhľadom na usporiadanie kategórií. To znamená, žezmena usporiadania kategórií nijako neovplyvní hodnoty charakteristík kva-litatívnej variancie. V príklade z Kapitoly 1 by sme pre ľavú časť Obrázka1.2 dostali rovnaké hodnoty charakteristík (2.1) až (2.7) ako pre pravú časť.

8

Page 19: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

2.2 Nahradenie momentov charakteristikami

kvalitatívnej variancie

V článku [2] sme tretí centrálny moment µ3 v Ordovom grafe nahradili en-tropiou H:

H = −K∑i=1

fiN

logfiN, (2.8)

a tým sa zmiernila citlivosť Ordovho grafu na spôsob usporiadania kategórií.V Kapitole 3 takto upravený Ordov graf nazývame prvotný modifikovanýOrdov graf. Jeho aplikáciou na dáta sme získali výsledky uvedené v Kapi-tole 3, ktoré naznačujú, že podobnou modifikáciou by bolo možné citlivosťOrdovho grafu odstrániť úplne, čo je vlastne naším cieľom.

V tejto diplomovej práci sme navrhli nasledovnú modifikácu Ordovhografu. Vo veličinách I a S definujúcich Ordov graf sme nahradili strednúhodnotu µ veličinou MODV R (2.1), disperziu µ2 sme nahradili veličinouSTDEV (2.6) a tretí centrálny moment µ3 sme nahradili veličinou HREL(2.7). Túto modifikáciu nazývame v Kapitole 3 finálnou modifikáciou Or-dovho grafu.

Keďže MODV R, STDEV a HREL sú invariantné vzhľadom na uspo-riadanie kategórií, táto modifikácia Ordovho grafu sa dá použiť aj na grafickúreprezentáciu kategoriálnych dát.

Výber práve týchto troch charakteristík je heuristický. Vyskúšaním mno-hých spôsobov nahradenia momentov charakteristikami uvedenými v Kapi-tole 2 a následnou aplikáciou na dáta z kvantitatívnej lingvistiky sme dostalinajlepšie interpretovateľné výsledky pre uvedený spôsob modifikácie. Pre inésady dát môže byť vhodnejšia modifikácia prostredníctvom iných charakte-ristík kvalitatívnej variancie.

9

Page 20: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Kapitola 3

Aplikácia rôznych verzií Ordovho

grafu na frekvencie grafém

v slovanských jazykoch

Pod pojmom „graféma“ rozumieme najmenšiu funkčnú jednotku segmentál-neho (hláskového) písma.

Grafémy nie sú definované jednoznačne. Existuje viacero spôsobov, ako knim pristupovať. V slovenčine sa vyskytujú 3 digrafy, a to „ch“, „dz“ a „dž“.Digraf je buď považovaný za jednu grafému alebo je chápaný ako dve samos-tatné grafémy (napr. digraf „ch“ je zložený z grafémy „c“ a grafémy „h“. Mysme sa v tejto práci rozhodli pre druhý prístup, ktorý nezohľadňuje existenciudigrafov.

Modifikovaný Ordov graf sme použili na zobrazenie frekvencií grafém v je-denástich slovanských jazykoch:

• bulharčina (BUL),

• chorvátčina (CRO),

• čeština (CZE),

• macedónčina (MAC),

10

Page 21: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

• poľština (POL),

• ruština (RUS),

• srbčina (SRB),

• slovenčina (SVK),

• slovinčina (SLO),

• ukrajinčina (UKR),

• hornolužická srbčina (UPS).

Dáta z ruštiny sme prevzali z [4], zo slovenčiny z [5], zo slovinčiny z [6]a z ukrajinčiny z [3]. Dáta z ostatných jazykov sú výsledkom projektu Mo-dels for Grapheme and Phoneme Frequencies (http://www.peter-grzybek.eu/science/projects#MGPF). Projekt bol realizovaný na univerzite v Grazi v ro-koch 2009-2010. Riešiteľmi projektu boli Peter Grzybek a Ján Mačutek. Dátapochádzajú z jazykových korpusov.

Okrem vymenovaných dát sme mali k dispozícii aj dáta pre bieloruštinu,avšak nezaoberali sme sa nimi z dôvodu, že v bieloruštine platia úplne odlišnépravidlá písania ako v ostatných slovanských jazykoch. Neprízvučné „o“ sanielen vyslovuje ako „a“, ale aj sa píše ako „a“. Preto frekvencia grafémy „a“je nepomerne veľká oproti frekvenciám ostatných grafém. Medzi slovanskéjazyky patrí okrem spomenutých aj dolnolužická srbčina. O nej však nebolik dispozícii žiadne dáta, preto sme ju neskúmali.

Zvyčajne sa skúmané slovanské jazyky geograficky klasifikujú takto:

• východoslovanské jazyky: bieloruština, ruština, ukrajinčina;

• západoslovanské jazyky: čeština, dolnolužická srbčina, poľština, sloven-čina, hornolužická srbčina;

• juhoslovanské jazyky: bulharčina, chorvátčina, macedónčina, srbčina,slovinčina.

11

Page 22: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Pre lepšiu predstavu prikladáme aj Obrázok 3.1:

Obr. 3.1: Mapa slovanských jazykov prebratá z [11]

Spôsob usporiadania grafém je len vecou dohody a tradície. Napríklad in-ventáre grafém v rôznych jazykoch nie sú totožné; okrem toho v slovanskýchjazykoch sa používa latinka aj cyrilika, ktoré majú rôzne štandardné poradiegrafém (graféma „z“ sa v slovenčine nachádza na predposlednom mieste, pri-čom v ruštine jej patrí deviate miesto). Preto sa tieto dáta dajú pokladať zakategoriálne.

Konkrétne hodnoty zostupne zoradených frekvencií grafém pre jednotlivé

12

Page 23: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

slovanské jazyky tvoria Prílohu 1. V Prílohe 2 sú dáta znázornené histogra-mami.

Hodnoty charakteristík potrebných na konštrukciu Ordovho grafu a jehomodifikácií sme vypočítali v softvéri R [10]. Rovnako aj obrázky v tejto kapi-tole boli vykreslené v R. Okrem toho sme pomocou R vykonali nehierarchickúanalýzu zhlukov [7] pre skúmané slovanské jazyky založenú na súradniciachjednotlivých jazykov v Ordovom grafe a v jeho modifikáciách. Príslušné fun-kcie sú implementované v knižnici cluster. Nehierarchickú analýzu zhlukovsme urobili metódami k-means (funkcia kmeans) aj k-medoids (funkcia pam).Pri k-means sme vyskúšali všetky štyri algoritmy implementované vo funkciikmeans (Hartigan-Wong, Lloyd, Forgy a MacQueen). Zhlukovanie všetkýmipoužitými metódami a algoritmami vyšlo pre danú verziu Ordovho grafurovnaké (zhlukovanie v pôvodnom Ordovom grafe, v prvotnom modifikova-nom Ordovom grafe a vo finálnom modifikovanom Ordovom grafe sa všaknavzájom líšia).

3.1 Pôvodný Ordov graf

Z dát sme pre každý z jedenástich skúmaných jazykov vypočítali výberovéekvivalenty pre µ (1.1), µ2 (1.2) a µ3 (1.3). Následne sme pre každý jazykvypočítali

I =µ2

µ(3.1)

aS =

µ3

µ2

. (3.2)

Vypočítané hodnoty sú uvedené v Tabuľke 3.1. Vynesením hodnôt I (3.1)a S (3.2) na horizontálnu a vertikálnu os sme získali pôvodný Ordov grafpre frekvencie grafém v skúmaných slovanských jazykoch, pozri Obrázok 3.2.

Súradnice jazykov v grafe, teda hodnoty I a S, sme podrobili nehierar-chickej analýze zhlukov. Výsledok nehierarchickej analýzy zhlukov s požado-vaným počtom zhlukov 3 je znázornený na Obrázku 3.2.

13

Page 24: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Tabuľka 3.1: Hodnoty charakteristík definujúcich pôvodný Ordov graf

µ µ2 µ3 I S

BUL 7.7500 38.7189 263.5023 4.9960 6.8055

CRO 8.1059 40.3019 239.2973 4.9719 5.9376

CZE 10.5911 65.8561 445.8970 6.2181 6.7708

MAC 7.2635 33.9234 213.3555 4.6704 6.2893

POL 9.7657 54.1712 304.9906 5.5471 5.6301

RUS 8.8595 49.6450 343.4398 5.6036 6.9179

SRB 8.0322 39.8743 241.2740 4.9643 6.0509

SVK 9.9202 64.1760 510.4419 6.4692 7.9538

SLO 7.7820 33.5721 157.6694 4.3141 4.6964

UKR 9.9089 58.1018 379.8860 5.8636 6.5383

UPS 9.9925 62.9536 435.0515 6.3001 6.9107

Obr. 3.2: Nehierarchické zhlukovanie na pôvodnom Ordovom grafe

Tieto zhluky nepripomínajú geografickú klasifikáciu jazykov. Vidno tonajmä na poľštine, ktorá tu bola zaradená medzi juhoslovanské jazyky, čo

14

Page 25: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

nie je lingvisticky zdôvodniteľné. Zhluky sa skôr podobajú na zhluky získanélen na základe počtu rôznych grafém existujúcich v danom jazyku uvedenév Tabuľke 3.2 (Obrázok 3.3).

Tabuľka 3.2: Počet grafém v slovanských jazykoch

BUL CRO CZE MAC POL RUS SRB SVK SLO UKR UPS

30 30 42 31 32 33 30 43 25 34 37

Obr. 3.3: Nehierarchické zhlukovanie na počte grafém v danom jazyku

3.2 Prvotná modifikácia Ordovho grafu

Prvotnú modifikáciu Ordovho grafu a jej aplikáciu na dáta sme publikovaliv článku [2].

Z dát sme pre každý z jedenástich skúmaných jazykov vypočítali µ (1.1),µ2 (1.2) a H (2.8). Následne sme pre každý jazyk vypočítali

I =µ2

µ(3.3)

15

Page 26: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Tabuľka 3.3: Hodnoty charakteristík definujúcich prvotný modifikovaný Ordov

graf

H I S

BUL 2.9527 4.9960 0.0763

CRO 2.9871 4.9719 0.0741

CZE 3.2654 6.2181 0.0496

MAC 2.8878 4.6704 0.0851

POL 3.1702 5.5471 0.0585

RUS 3.0885 5.6036 0.0622

SRB 2.9792 4.9643 0.0747

SVK 3.2117 6.4692 0.0500

SLO 2.9303 4.3141 0.0873

UKR 3.1946 5.8636 0.0550

UPS 3.2051 6.3001 0.0509

Obr. 3.4: Nehierarchické zhlukovanie na prvotnom modifikovanom Ordovom grafe

16

Page 27: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

aS =

H

µ2

. (3.4)

Vypočítané hodnoty H, I a S sú uvedené v Tabuľke 3.3. Ostatné hodnoty(µ a µ2) sú rovnaké ako v Tabuľke 3.1. Vynesením hodnôt I (3.3) a S (3.4)na horizontálnu a vertikálnu os sme získali prvotný modifikovaný Ordov grafpre frekvencie grafém v skúmaných slovanských jazykoch, pozri Obrázok 3.4.

Súradnice jazykov v grafe, teda hodnoty I a S sme rovnako ako v predoš-lej časti podrobili nehierarchickej analýze zhlukov. Výsledok nehierarchickejanalýzy zhlukov s požadovaným počtom zhlukov 3 je znázornený na Obrázku3.4 a približne zodpovedá geografickej klasifikácii.

3.3 Finálna modifikácia Ordovho grafu

Z dát sme pre každý z jedenástich skúmaných jazykov vypočítali MODV R

(2.1), STDEV (2.6) a HREL (2.7). Následne sme pre každý jazyk vypočítali

I =STDEV

MODV R(3.5)

Tabuľka 3.4: Hodnoty charakteristík definujúcich finálny modifikovaný Ordov

graf

MODV R STDEV HREL I S

BUL 0,9100 0,8187 0,8681 0,8997 1,0603

CRO 0,9155 0,8271 0,8782 0,9034 1,0619

CZE 0,9397 0,8506 0,8736 0,9052 1,0271

MAC 0,8971 0,8027 0,8409 0,8948 1,0476

POL 0,9414 0,8626 0,9147 0,9163 1,0604

RUS 0,9179 0,8370 0,8833 0,9120 1,0553

SRB 0,9156 0,8251 0,8759 0,9012 1,0616

SVK 0,9234 0,8330 0,8539 0,9020 1,0251

SLO 0,9353 0,8447 0,9104 0,9031 1,0778

UKR 0,9297 0,8574 0,9059 0,9222 1,0565

UPS 0,9293 0,8472 0,8876 0,9117 1,0477

17

Page 28: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

aS =

HREL

STDEV. (3.6)

Vypočítané hodnoty sú uvedené v Tabuľke 3.4. Vynesením hodnôt I (3.5)a S (3.6) na horizontálnu a vertikálnu os sme získali finálny modifikovanýOrdov graf pre frekvencie grafém v skúmaných slovanských jazykoch, pozriObrázok 3.5.

Súradnice jazykov v grafe, teda hodnoty I a S sme podrobili hierarchickeji nehierarchickej analýze zhlukov.

Výsledok nehierarchickej analýzy zhlukov s požadovaným počtom zhlukov3 je možné vidieť na Obrázku 3.5. Získaná klasifikácia slovanských jazykovopäť približne zodpovedá štandardnej geografickej klasifikácii. Líši sa od nejiba tým, že poľština a hornolužická srbčina sa zaradili medzi východoslovan-ské namiesto západoslovanských. Tento jav môže byť spôsobený aj historic-kými dôvodmi. V minulosti mala poľština silný vplyv na vývoj ukajinčiny ahornolužickej srbčiny. Okrem toho je takto zachovaná „geografická spojitosť“(pozri Obrázok 3.1).

Obr. 3.5: Nehierarchické zhlukovanie na finálnom modifikovanom Ordovom grafe

18

Page 29: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

V hierarchickej analýze zhlukov sme aglomeratívnym (funkcia agnes) a di-vizívnym (funkcia diana) prístupom získali podobne štruktúrované dendro-gramy (Obrázok 3.6 a Obrázok 3.7). Na Obrázku 3.7 je možné pomerne jasneidentifikovať aj zhluky získané nehierarchicky (pozri Obrázok 3.5).

Obr. 3.6: Divizívny dendrogram

Obr. 3.7: Aglomeratívny dendrogram

19

Page 30: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

3.4 Diskusia

V predchádzajúcich troch častiach tejto kapitoly sme prezentovali aplikáciurôznych verzií Ordovho grafu na dáta. V každom z prezentovaných trochprípadov sme na súradniciach jazykov v grafe previedli analýzu zhlukov.

Pôvodným Ordovým grafom sme získali zhluky úzko späté s počtom rôz-nych grafém v jednotlivých jazykoch.

Prvotnou modifikáciou Ordovho grafu sme získali zhlukovanie podobnéobvyklej geografickej klasifikácii slovanských jazykov na južné, východné a zá-padné. Tieto výsledky však vznikli len za zostupného usporiadania frekvenciígrafém pri výpočte výberových momentov. Je možné, že pri inom spôsobeusporiadania grafém sa budú výsledky líšiť.

Pri finálnej modifikácii Ordovho grafu sme získali rovnako dobre interpre-tovateľné výsledky ako pri prvotnej modifikácii a tieto výsledky sú nezávisléod spôsobu usporiadania grafém. Ďalej budeme názvom modifikácia Ordovhografu označovať finálnu modifikáciu Ordovho grafu.

20

Page 31: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Kapitola 4

Modifikovaný Ordov graf pre

vybrané teoretické rozdelenia

pravdepodobnosti

V tejto kapitole odvádzame teoretické hodnoty preMODV R (2.1), STDEV(2.6) a HREL (2.7) a vykresľujeme modifikované Ordove grafy pre vy-brané teoretické diskrétne rozdelenia pravdepodobnosti. V časti 4.6 uvá-dzame obrázky, ktoré porovnávajú modifikované Ordove grafy pre vybranérozdelenia pravdepodobnosti. Zaoberali sme sa týmito rozdeleniami: usek-nuté geometrické, binomické, Estoupovo, useknuté zeta a Zipfovo - Man-delbrotovo. Všetky tieto rozdelenia sa dajú nájsť v [15]. Výber práve týchtorozdelení pravdepodobnosti je odôvodnený ich častými aplikáciami v kvan-titatívnej lingvistike, napríklad vo výskume frekvencií grafém a frekvenciíslov.

Binomické rozdelenie náhodnej premennej X sme používali vo forme pris-pôsobenej tomu, že X nadobúda celočíselné hodnoty z množiny {1, 2, ..., K}.Keďže charakteristika HREL je pre rozdelenia s nekonečným spočítateľnýmnosičom problematická, geometrické a zeta rozdelenie sme uvažovali v usek-nutej podobe. Použitie iných charakteristík kvalitatívnej variancie pri modi-

21

Page 32: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

fikácii Ordovho grafu by umožnilo uvažovať rozdelenia pravdepodobnosti vich klasickej podobe s nekonečným spočítateľným nosičom.

Význam tejto kapitoly spočíva v možnosti prvotného zhodnotenia zhodydát a modelu. Ak modifikovaný Ordov graf pre pozorované dáta leží „ďaleko“od teoretického modifikovaného Ordovho grafu, zhodu dát a modelu pravde-podobne zamietneme. Hypotézy o zhode dát s rôznymi modelmi môžemejedine zamietať, nie prijímať, keďže modifikované Ordove grafy pre rôznerozdelenia sa pri vhodnej voľbe parametrov čiastočne prekrývajú.

Pre účely výpočtu je možné výrazyMODV R (2.1), STDEV (2.6) aHREL(2.7) upraviť nasledovne:

MODV R = 1− Kpm − 1

K − 1, (4.1)

STDEV = 1−√KR− 1

K − 1, (4.2)

HREL =H

logK, (4.3)

kdepm = maxi∈{1,...,K}pi,

symbol R označuje tzv. repeat rate (mieru opakovania)

R =K∑i=1

p2i , (4.4)

ktorej maximálna možná hodnota je 1 a dosahuje sa pre jednobodové (dege-nerované) rozdelenia pravdepodobnosti, a ktorej minimum sa dosahuje prediskrétne rovnomerné rozdelenie. Symbol H označuje entropiu

H = −K∑i=1

pi log pi,

pričom pi je teoretická pravdepodobnosť i-tej kategórie. Preto v častiach 4.1až 4.5 uvádzame pre jednotlivé rozdelenia hodnoty pm, R a H, z ktorýchsa dá jednoducho podľa (4.1), (4.2) a (4.3) dopočítať MODV R, STDEVa HREL a následne aj hodnoty I a S podľa (3.5) a (3.6).

22

Page 33: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

4.1 Useknuté geometrické rozdelenie

Useknuté geometrické rozdelenie definujeme:

P (X = x) =p(1− p)x−1

1− (1− p)K, x = 1, 2, ..., K;

pričom K je počet kategórií a p ∈ (0; 1) je parameter.

Výsledky odvodení charakteristík pre toto rozdelenie sú nasledovné:

pm = P (X = 1) =p

1− (1− p)K,

R =K∑x=1

(p(1− p)x−1

1− (1− p)K

)2

=p2

(p− 1)2[(1− p)K − 1]2

K∑x=1

(1− p)2x =

=p2

(p− 1)2[(1− p)K − 1]2(1− p)2[(1− p)2K − 1]

(1− p)2 − 1=

=p2[(1− p)2K − 1]

[(1− p)K − 1]2[(1− p)2 − 1],

H = −K∑x=1

p(1− p)x−1

1− (1− p)Klog

p(1− p)x−1

1− (1− p)K=

= − p

(p− 1)[(1− p)K − 1]log

(p

(p− 1)[(1− p)K − 1]

) K∑x=1

(1− p)x−

− p log(1− p)(p− 1)[(1− p)K − 1]

K∑x=1

x(1− p)x =

= − p

(p− 1)[(1− p)K − 1]log

(p

(p− 1)[(1− p)K − 1]

)(p− 1)[(1− p)K − 1]

p−

23

Page 34: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

− p log(1− p)(p− 1)[(1− p)K − 1]

(p− 1)[Kp(1− p)K + (1− p)K − 1]

p2=

= log(p− 1)[(1− p)K − 1]

p− Kp(1− p)K + (1− p)K − 1

p[(1− p)K − 1]log(1− p).

Na Obrázku 4.1 jednotlivé krivky reprezentujú modifikovaný Ordov grafpre fixovaný počet kategórií K; K = 3, 4, ..., 20, pričom v rámci jednej krivkyparameter p prebieha celým intervalom (0; 1).

Obr. 4.1: Modifikovaný Ordov graf pre useknuté geometrické rozdelenie

4.2 Binomické rozdelenie

Binomické rozdelenie náhodnej premennej X, ktorej realizácie nadobúdajúhodnoty z množiny {1, ..., K} definujeme:

P (X = x) =

(K − 1

x− 1

)px−1(1− p)K−x, x = 1, 2, ..., K;

pričom K je počet kategórií a p ∈ (0; 1) je parameter.

24

Page 35: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Výsledky odvodení charakteristík pre toto rozdelenie sú nasledovné:

pm =

P (X = Kp) = P (X = Kp+ 1) ak Kp ∈ {1, ..., K − 1}

P (X = bKpc+ 1) inak

=

(K−1Kp

)pKp(1− p)K−1−Kp ak Kp ∈ {1, ..., K − 1}

(K−1bKpc

)pbKpc(1− p)K−1−bKpc inak

=

(K − 1

bKpc

)pbKpc(1− p)K−1−bKpc,

kde bKpc označuje dolnú celú časť čísla Kp. Práve dolná celá časť vo vý-raze pre pravdepodobnosť modusu spôsobuje „skokovitosť“ modifikovanéhoOrdovho grafu na Obrázku 4.2. Pri odvodení pm sme sa opierali o [8].

R =K∑x=1

((K − 1

x− 1

)px−1(1− p)K−x

)2

=K∑x=1

(K − 1

x− 1

)2

p2x−2(1− p)2K−2x,

H = −K∑x=1

(K − 1

x− 1

)px−1(1− p)K−x log

((K − 1

x− 1

)px−1(1− p)K−x

)=

= −K∑x=1

(K − 1

x− 1

)px−1(1− p)K−x log

(K − 1

x− 1

)−

− log pK∑x=2

(K − 1)!

(x− 2)!(K − x)!px−1(1− p)K−x−

− log(1− p)K−1∑x=1

(K − 1)!

(x− 1)!(K − x− 1)!px−1(1− p)K−x =

25

Page 36: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

= −K∑x=1

(K − 1

x− 1

)px−1(1− p)K−x log

(K − 1

x− 1

)−

− (K − 1)p log pK−1∑x=1

((K − 1)− 1

x− 1

)px−1(1− p)(K−1)−x−

− (K − 1)(1− p) log(1− p)K−1∑x=1

((K − 1)− 1

x− 1

)px−1(1− p)(K−1)−x =

= −K∑x=1

(K − 1

x− 1

)px−1(1− p)K−x log

(K − 1

x− 1

)−

− (K − 1)p log p− (K − 1)(1− p) log(1− p).

Obr. 4.2: Modifikovaný Ordov graf pre binomické rozdelenie

Na Obrázku 4.2 jednotlivé krivky reprezentujú modifikovaný Ordov grafpre fixovaný počet kategórií K, K = 3, 5, 7, 9, pričom v rámci jednej krivkyparameter p prebieha celým intervalom (0; 1).

26

Page 37: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

4.3 Estoupovo rozdelenie

Estoupovo rozdelenie definujeme:

P (X = x) =κ

x, x = 1, 2, ..., K;

pričom K je počet kategórií a

κ = H−1K = [Ψ(K + 1) + γ]−1,

kde Hn je n-té harmonické číslo

Hn =n∑

i=1

1

i,

Ψ(x) je digama funkcia v bode x definovaná

d[log Γ(x)]

dx,

Γ(x) je gama funkcia a γ je Euler - Mascheroniho konštanta:

γ = −Ψ(1).= 0.5772.

Uvedené špeciálne funkcie je možné vyhľadať v [1].

Výsledky odvodení charakteristík pre toto rozdelenie sú nasledovné:

pm = P (X = 1) = κ,

R =K∑x=1

(κx

)2= κ2

K∑x=1

1

x2= κ2

(π2

6−Ψ′(K + 1)

),

H = −K∑x=1

κ

xlog

κ

x= −κHK log κ+ κ

K∑x=1

log x

x= − log κ+ κ

K∑x=1

log x

x

Na Obrázku 4.3 jednotlivé body reprezentujú modifikovaný Ordov grafpre fixovaný počet kategórií K; K = 3, 4, ..., 200.

27

Page 38: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obr. 4.3: Modifikovaný Ordov graf pre Estoupovo rozdelenie

4.4 Useknuté zeta rozdelenie

Useknuté zeta rozdelenie definujeme:

P (X = x) =x−a

TK(a), x = 1, 2, ..., K;

pričom K je počet kategórií, a > 1 je parameter a TK(a) =∑K

i=1 i−a.

Výsledky odvodení charakteristík pre toto rozdelenie sú nasledovné:

pm = P (X = 1) =1

TK(a),

R =K∑x=1

(x−a

TK(a)

)2

=1

T 2K(a)

K∑x=1

x−2a =TK(2a)

T 2K(a)

,

H = −K∑x=1

x−a

TK(a)log

x−a

TK(a)=

log TK(a)

TK(a)

K∑x=1

x−a +a

TK(a)

K∑x=1

x−a log x =

28

Page 39: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

= log TK(a) +a

TK(a)

K∑x=1

x−a log x.

Na Obrázku 4.4 jednotlivé krivky reprezentujú modifikovaný Ordov grafpre fixovaný počet kategórií K; K = 3, 4, ..., 20, pričom v rámci jednej krivkyparameter a prebieha celým intervalom (1;∞).

Obr. 4.4: Modifikovaný Ordov graf pre useknuté zeta rozdelenie

4.5 Zipfovo - Mandelbrotovo rozdelenie

Zipfovo - Mandelbrotovo rozdelenie definujeme:

P (X = x) =(b+ x)−a

FK(a, b), x = 1, 2, ..., K;

pričom K je počet kategórií, a ∈ R a b > −1 sú parametre a FK(a, b) =∑Ki=1(b+ i)−a.

Výsledky odvodení charakteristík pre toto rozdelenie sú nasledovné:

29

Page 40: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

pm =

P (X = 1) = (b+1)−a

FK(a,b)ak a ≥ 0,

P (X = K) = (b+K)−a

FK(a,b)ak a < 0,

Obr. 4.5: Modifikovaný Ordov graf pre Zipfovo - Mandelbrotovo rozdelenie

R =K∑x=1

((b+ x)−a

FK(a, b)

)2

=1

F 2K(a, b)

K∑x=1

(b+ x)−2a =FK(2a, b)

F 2K(a, b)

,

H = −K∑x=1

(b+ x)−a

FK(a, b)log

(b+ x)−a

FK(a, b)=

=logFK(a, b)

FK(a, b)

K∑x=1

(b+ x)−a +a

FK(a, b)

K∑x=1

(b+ x)−a log(b+ x) =

= logFK(a, b) +a

FK(a, b)

K∑x=1

(b+ x)−a log(b+ x).

30

Page 41: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Na Obrázku 4.5 zobrazená plocha reprezentuje modifikovaný Ordov grafpre fixovaný počet kategórií K = 5, pričom parameter a prebieha celýmintervalom (−∞,∞) a parameter b prebieha celým intervalom (−1,∞).

4.6 Porovnanie modifikovaných grafov pre

vybrané rozdelenia pravdepodobnosti

V obrázkoch, ktoré tvoria obsah tejto podkapitoly platí:

• čierna farba - useknuté geometrické rozdelenie• červená farba - binomické rozdelenie• zelená farba - Estoupovo rozdelenie• modrá farba - useknuté zeta rozdelenie

Aby sa zachovala prehľadnosť obrázkov, neuvádzame v nich modifikovanýOrdov graf pre Zipfovo - Mandelbrotovo rozdelenie. Vo všetkých obrázkochpočet kategórií K je fixovaný a parametre rozdelení prebiehajú celý svojparametrický priestor.

Obr. 4.6: Modifikované Ordove grafy pre vybrané rozdelenia, K=5

31

Page 42: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obr. 4.7: Modifikované Ordove grafy pre vybrané rozdelenia, K=10

Obr. 4.8: Modifikované Ordove grafy pre vybrané rozdelenia, K=25 a modifiko-

vaný Ordov graf pre frekvencie grafém v slovinčine

32

Page 43: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obr. 4.9: Modifikované Ordove grafy pre vybrané rozdelenia, K=50

Obr. 4.10: Modifikované Ordove grafy pre vybrané rozdelenia, K=100

33

Page 44: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Obr. 4.11: Modifikované Ordove grafy pre vybrané rozdelenia, K=200

Na Obrázku 4.8 sme okrem modifikovaných Ordových grafov pre teore-tické rozdelenia pravdepodobnosti znázornili aj modifikovaný Ordov graf preempirické frekvencie grafém v slovinčine, v ktorej sa vyskytuje 25 rôznychgrafém, teda K = 25. Na obrázku je reprezentovaný fialovou hviezdičkou.Ukazuje sa, že by malo zmysel exaktne testovať zhodu frekvencií grafém vslovinčine s useknutým geometrickým rozdelením. Podobne to platí aj o os-tatných skúmaných jazykoch. Týmto však nevylučujeme iné modely.

4.7 Aproximácia entropie pomocou repeat rate

Pre niektoré rozdelenia pravdepodobnosti môže byť výpočet entropie ob-tiažny. Entropia

H = −K∑i=1

pi log pi,

kde pi = P (X = i), je vlastne funkciou p = (p1, p2, ..., pK) a dá sa aproximo-vať pomocou Taylorovho rozvoja druhého rádu v bode p∗ = ( 1

K, 1K, ..., 1

K), čo

34

Page 45: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

zodpovedá diskrétnemu rovnomernému rozdeleniu:

H(p).= H(p∗) +

∂H(p∗)

∂pT(p− p∗) +

1

2(p− p∗)T ∂

2H(p∗)

∂p∂pT(p− p∗) =

= logK + (1 + logK, ..., 1 + logK)

(p1 −

1

K, ..., pK −

1

K

)T

+

+1

2

(p1 −

1

K, ..., pK −

1

K

)diag(−K, ...,−K)

(p1 −

1

K, ..., pK −

1

K

)T

=

= logK − K

2

K∑i=1

p2i +K∑i=1

pi −1

2= logK − KR− 1

2

Uvedená aproximácia entropie je založená na repeat rate (miera opako-vania (4.4)), ktorá je pre niektoré rozdelenia pravdepodobnosti oveľa jedno-duchšie vyjadriteľná než samotná entropia.

35

Page 46: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Záver

Táto diplomová práca pojednáva o možnosti reprezentácie dát prostredníc-tvom Ordovho grafu. Ordov graf však nie je jednoznačný v prípade, že dátamajú kategoriálny charakter, pretože charakteristiky µ, µ2 a µ3 definované vKapitole 1 sú citlivé na spôsob usporiadania kategórií. Navrhli sme odstrá-niť túto nevýhodu modifikáciou Ordovho grafu. Charakteristiky definujúcepôvodný Ordov graf sme postupne nahradili mierami kvalitatívnej variancie,ktoré sú na rozdiel od momentov invariantné vzhľadom na spôsob usporiada-nia jednotlivých kategórií. Týmto sme odstránili nejednoznačnosť Ordovhografu pre kategoriálne dáta.

Pôvodný, prvotný modifikovaný aj finálny modifikovaný Ordov graf smeaplikovali na kategoriálne dáta z kvantitatívnej lingvistiky. Ide o frekven-cie grafém v jedenástich slovanských jazykoch. Na súradniciach jazykov vpôvodnom, v prvotnom modifikovanom a vo finálnom modifikovanom Ordo-vom grafe sme urobili pomocou softvéru R nehierarchickú analýzu zhlukov.Nehierarchickú analýzu zhlukov sme vykonali metódou k-means aj metódouk-medoids. Pre k-means sme vyskúšali každý zo štyroch implementovanýchalgoritmov. Všetkými spôsobmi sme získali rovnaké zhlukovanie jazykov predanú verziu grafu. Výsledkom analýzy zhlukov v modifikovaných Ordovýchgrafoch, na rozdiel od pôvodného Ordovho grafu, je zhlukovanie pripomí-najúce zvyčajnú geografickú klasifikáciu skúmaných jazykov. Na finálnommodifikovanom grafe sme navyše urobili aj hierarchickú analýzu zhlukov ag-lomeratívnym aj divizívnym prístupom. Z týchto dvoch prístupov odporú-čame skôr aglomeratívny, pretože na dendrograme získanom aglomeratívne

36

Page 47: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

je možné jasnejšie identifikovať zhluky získané nehierarchicky.

Odvodili a vykreslili sme charakteristiky finálneho modifikovaného Or-dovho grafu pre vybrané teoretické rozdelenia pravdepodobnosti. Sú to tieto:useknuté geometrické, binomické, Estoupovo, useknuté zeta a Zipfovo - Man-delbrotovo rozdelenie. Pre niektoré iné rozdelenia pravdepodobnosti môže byťobtiažne vyjadriť entropiu. Pre také prípady navrhujeme použiť nami odvo-denú aproximáciu entropie pomocou repeat rate, keďže repeat rate je častojednoduchšie vyjadriteľná veličina než entropia.

Keďže charakteristiky použité pri modifikácii Ordovho grafu sme vybe-rali heuristicky na základe skúmanej sady dát, ktoré sme mali k dispozícii,nevylučujeme, že pre iné dátové súbory bude výhodnejšie použiť na modi-fikáciu grafu iné z charakteristík vymenovaných v Kapitole 2. Pre výskumfrekvencií grafém a frekvencií slov však odporúčame použiť nami predstavenúfinálnu modifikáciu. Poznamenávame, že pri použití iných charakteristík bybolo možné uvažovať teoretické rozdelenia pravdepodobnosti v ich klasickej(neuseknutej) podobe.

37

Page 48: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Zoznam použitej literatúry

[1] M. Abramowitz - I. A. Stegun. Handbook of Mathematical Functionswith Formulas, Graphs and Mathematical Tables. New York: Dover,1972.

[2] M. Cehlárová. Modifikácia Ordovho grafu a jeho aplikácia na frekvenciegrafém v slovanských jazykoch. Výpočtová štatistika 2013: Prehliadkaprác mladých štatistikov a demografov, Bratislava: Slovenská štatistickáa demografická spoločnosť, str. 18–23, 2013.

[3] P. Grzybek - E. Kelih. Graphemhäufigkeiten im Ukrainischen. Teil I:Ohne Apostroph. Problemi kvantitativnoi lingvistiki. Problems of Qu-antitative Linguistics., Černivci: Ruta, str. 159–179, 2005.

[4] P. Grzybek - E. Kelih - G. Altmann. Graphemhäufigkeiten (Am Beispieldes Russischen). Teil II: Modelle der Häufigkeitsverteilung. Anzeiger fürSlavische Philologie, roč. 32, str. 25–54, 2004.

[5] P. Grzybek - E. Kelih - G. Altmann. Graphemhäufigkeiten im Slowa-kischen. Teil II: Mit Digraphen. Sprache und Sprachen im mitteleuro-päischen Raum. Vorträge der Internationalen Linguistik-Tage, Trnava:Univerzita sv. Cyrila a Metoda, Filozofická Fakulta, str. 641–664, 2005.

[6] P. Grzybek - E. Kelih - E. Stadlober. Graphemhäufigkeiten des Slowenis-chen (und anderer slawischer Sprachen). Ein Beitrag zur theoretischenBegründung der sog. Schriftlinguistik. Anzeiger für Slavische Philologie,roč. 34, str. 41–74, 2006.

38

Page 49: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

[7] A. J. Izenman. Modern Multivariate Statistical Techniques. Springer,2008.

[8] Lord - Nick. Binomial averages when the mean is integer. The Mathe-matical Gazette, roč. 94, str. 331–332.

[9] J. K. Ord. On a system of discrete distributions. Biometrika, č. 3, roč.54, str. 649–656, 1967.

[10] R Core Team. R: A language and Environment for Statistical Com-puting. Vienna, Austria: the R Foundation for Statistical Computing,2006.

[11] Slavic languages map en. Wikimedia Commons [online]. Permanentlink: http://commons.wikimedia.org/w/index.php?title=File:Slavic_languages_map_en.svgb&oldid=103540744.

[12] A. R. Wilcox. Indices of Qualitative Variation, 1967.

[13] A. R. Wilcox. Indices of Qualitative Variation and Political Measure-ment. The Western Political Quarterly, č. 2, roč. 26, str. 325–343, 1973.

[14] G. Wimmer. Diskrétne jednorozmerné rozdelenia pravdepodobnosti.Matfyzpress, 2000.

[15] G. Wimmer - G. Altmann. Thesaurus of univariate discrete probabilitydistributions. STAMM, 1 edition, 1999.

39

Page 50: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Príloha 1: Zostupne usporiadané frekvenciegrafém v jazykových korpusoch

40

Page 51: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

BUL CRO CZE MAC POL RUS SRB SVK SLO UKR UPSi fi fi fi fi fi fi fi fi fi fi fi

1 29388 27171 38098 38604 36113 28592 42808 28624 32036 21401 290002 22733 23148 36127 32271 35590 22798 36871 26825 31891 18331 265953 22483 22695 35344 26599 30010 19708 35466 24531 31122 14506 258034 21551 21581 28157 25867 29265 19308 35352 17070 27150 13897 175835 19457 13239 23922 21211 25569 17347 21377 16645 22905 11953 173966 17495 11710 23226 20975 20019 16664 19743 13915 16088 11696 152027 13367 11598 21615 14781 18616 14475 17448 12821 16084 11548 142138 11600 10957 20532 14020 18579 12418 16771 12736 15221 11191 141679 11366 10046 18925 13262 17326 12399 15824 12583 14668 9518 1208910 8152 9223 18721 11609 17306 11278 15484 12363 14043 8972 1195311 8068 9154 17704 11010 16117 8921 13562 11618 13034 8267 1171912 7652 8495 16490 8316 13728 8130 13497 10908 10517 7359 988513 6947 8457 15052 8091 13663 7273 13392 10007 10514 7336 984514 5907 8056 14440 6857 13302 7073 12169 8158 10216 7295 797315 5347 7437 14366 6821 12587 6663 11212 7442 9568 6935 772116 4693 6638 12629 5283 11312 5243 10592 6800 7446 6065 683817 4608 4435 11825 5016 10924 4885 6321 6374 6413 5003 676518 3719 3667 10763 4395 9581 4781 6086 5834 5361 4856 671819 3571 3628 9309 4274 8879 4266 5301 5791 5055 4168 594920 3545 2705 8503 3182 8129 4223 4122 5215 4608 3986 552721 3310 2262 8352 2633 6672 4055 3985 5210 2606 3526 529222 1849 2259 7905 2323 6221 3881 2728 4210 2554 3205 501923 1489 1473 6457 1469 5874 3136 2669 3546 2463 2930 446824 1468 1378 6417 1225 5380 2739 2312 3160 1675 2425 424725 1353 1335 6001 842 5181 2422 2180 2886 497 2113 363226 1318 1270 4838 724 3721 1913 2021 2850 - 2033 358027 986 1227 4668 500 3647 1709 1568 2665 - 1908 297928 564 570 4214 389 3311 1263 784 2224 - 1861 233729 294 354 4109 82 2146 919 749 2145 - 1525 227130 28 49 3968 59 765 853 37 1793 - 1405 226031 - - 3316 17 543 629 - 1282 - 1399 183132 - - 1868 - 387 52 - 668 - 351 67933 - - 747 - - 0 - 657 - 234 61634 - - 530 - - - - 637 - 76 36035 - - 411 - - - - 559 - - 3536 - - 342 - - - - 536 - - 337 - - 305 - - - - 323 - - 238 - - 180 - - - - 210 - - -39 - - 92 - - - - 79 - - -40 - - 69 - - - - 64 - - -41 - - 17 - - - - 28 - - -42 - - 0 - - - - 6 - - -43 - - - - - - - 0 - - -

41

Page 52: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Príloha 2: Histogramy grafém usporiadanýchzostupne podľa frekvencií v jazykových

korpusoch

42

Page 53: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Bulharčina

Chorvátčina

43

Page 54: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Čeština

Macedónčina

44

Page 55: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Poľština

Ruština

45

Page 56: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Srbčina

Slovenčina

46

Page 57: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Slovinčina

Ukrajinčina

47

Page 58: Grafická reprezentácia kategoriálnych dát - uniba.sk · 2015. 9. 5. · Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky Katedra aplikovanej matematiky

Hornolužická srbčina

48