konspekt 2013 (2)

94
K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013 TÕENÄOSUSTEOORIA JA MATEMAATILINE STATISTIKA (loengukonspekt) Kuldev Ääremaa alates aastast 2013 toimetanud Ants Kaasik Tartu 2013 1

description

konspekt

Transcript of konspekt 2013 (2)

Page 1: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

TÕENÄOSUSTEOORIA JA

MATEMAATILINE STATISTIKA(loengukonspekt)

Kuldev Ääremaaalates aastast 2013 toimetanud Ants Kaasik

Tartu 2013

1

Page 2: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

ProloogKäesolev loengukursus on mõeldud eeskätt majandusteaduskonna üliõpilastele. Kursus koosneb kahest

osast: tõenäosusteooriast ja matemaatilisest statistikast. Tõenäosusteooria on teadus seaduspärast juhuslike sündmuste ja juhuslike protsesside maailmas; matemaatiline statistika on teadus andmete kogumisest, tööt-lemisest ja statistiliselt korrektsete järelduste tegemise meetoditest. Põhiteadmised mõlemast valdkonnast kuuluvad tänapäeval iga spetsialisti teadmiste hulka. Mõlemad teadusharud on väga ulatuslikud, antud kur-suse raames teeme vaid esimesed sammud nendes valdkondades. Tõenäosusteooria on aluseks mitmetele teadusharudele, käesolevas kursuses - matemaatilisele statistikale.

Käesolev kursus on eeldusaineks erinevatele kursustele. Antud kursuses ongi seatud eesmärgiks anda teoreetilised alused teistes kursustes käsitletava mõistmiseks. Teooria ja baasteadmised on alati raskemini omandatavad ning nende tähtsus ilmneb alles nende kasutamisel praktikas, järgnevates kursustes. Kursuses käsitletud mõistete ja seoste ilmestamiseks toome hästi lihtsaid näiteid, et mitte raisata aega keeruliste näidete sisu seletamisele.

Paljudele on selle kursuse põhilised mõisted teada juba koolikursusest. Kuid kuna erinevates koolides käsitletakse tõenäosusteooria ja matemaatilise statistika osa erineva põhjalikkusega, siis kordame üle ka kõik elementaarsed tõed, et muuta kogu kursus tervikuks. See kätkeb endas ka teatud ohtu – tekib arusaam, et kõik ongi väga lihtne ning loengul käimine on vaid aja raiskamine. Alles eksamiks õppides selgub, et te-gelikult on mindud palju kaugemale sellest, mis oli teada varem.

Käesolevas kursuses ei ole toodud keerulisi tõestusi, esitatud tõestused on jõukohased igale üliõpilasele ja aitavad kinnistada arusaamist tõestatava väite olemusest. Paljude aastate kogemusena on muutnud kur-suse sisu ja esitusvorm vastavalt sellele, millised osad on eksamitööde põhjal olnud raskemini mõistetavad, või milledest on valesti aru saadud. Meelega on toodud sisse mõningaid kordusi, et eri osade juures mee -nutada läbitut.

Kirjandust on sellise loengukursuse kohta palju. Rikkaliku loetelu võib leida internetist. Kuid just ma-terjali paljusus teeb kohati raskeks vajaliku osa kätteleidmise ning eri autorite poolt esitatu liitmine tervik-likuks pildiks võib osutuda liialt raskeks. Seepärast on käesolev konspekt koostatud selliselt, et ta sisaldab kõike kursuse edukaks läbimiseks vajalikku. Täiendava kirjandusena võiks kõigepealt veelkord läbi tööta-da keskkoolis õpitu, kasutades näiteks raamatut Mart Miinus: Matemaatika XII klassile. Tallinn, Koolibri 1994.Väga head on ka Tartu Ülikooli kirjastuse väljaandeid:

Ene Tiit, Märt Möls: Rakendusstatistika algkursus. Tartu Ülikooli Kirjastus, 1997.

A.Parring, M.Vähi, E. Käärik: Statistilise andmetöötluse algõpetus. Tartu Ülikooli Kirjastus, 1997.

Neile lisaks ka

Ene Tiit: Tõenäosusteooria lühikursus, AVITA, Tallinn, 1995

Helmo Käerdi: Statistika ja tõenäosusteooria alused. Sisekaitseakadeemia, Tallinn 1999

J.Gurski: Tõenäosusteooria ja matemaatiline statistika. Valgus, Tallinn, 1986

Suhteliselt rikkalik on ingliskeelsete raamatute valik, kuid oma käsitluse põhjalikkuselt ületavad nad

enamasti selles kursuses nõutu. Toome siin vaid ühe viite:

John A. Ingram, Joseph G.Monks Statistics for Business and Economics. Academic Press, 1989

2

Page 3: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

T Õ E N Ä O S U S T E O O R I A..................................................................................................5

SÜNDMUSE TÕENÄOSUS ........................................................................................................6

1 SÜNDMUSE MÕISTE ........................................................................................................6 1.1 Elementaarsündmuste ruum, sündmuste liigitus...................................................6 1.2 Tehted sündmustega.............................................................................................7

2 TÕENÄOSUSE MÕISTE JA OMADUSED........................................................................8 3 TEHTED TÕENÄOSUSTEGA............................................................................................9

3.1 Üksteist välistavate sündmuste summa tõenäosus.................................................9 3.2 Tinglik tõenäosus ja sündmuste korrutise tõenäosus.............................................9 3.3 Sündmuste summa tõenäosus.............................................................................10 3.4 Sündmuse täistõenäosus.....................................................................................10

JUHUSLIK SUURUS..................................................................................................................12

4 DISKREETNE JUHUSLIK SUURUS...............................................................................12 4.1 Diskreetse juhusliku suuruse jaotus ...................................................................13 4.2 Tehted juhuslike suurustega ...............................................................................14 4.3 Juhusliku suuruse arvkarakteristikud..................................................................16

4.3.1 Mood..................................................................................................16 4.3.2 Keskväärtus.........................................................................................16 4.3.3 Dispersioon.........................................................................................17

5 DISKREETSE JUHUSLIKU SUURUSE TEOREETILISI JAOTUSI...............................19 5.1 Diskreetse juhusliku suuruse jaotusi..................................................................19

5.1.1 Ühtlane jaotus.....................................................................................19 5.1.2 Binoomjaotus......................................................................................20 5.1.3 Poissoni jaotus....................................................................................22

6 PIDEV JUHUSLIK SUURUS............................................................................................25 6.1 Juhusliku suuruse jaotusfunktsioon ja tihedusfunktsioon...................................25 6.2 Pideva juhusliku suuruse arvkarakteristikud......................................................27

6.2.1 Kvantiilid............................................................................................27 6.2.2 Keskväärtus.........................................................................................29 6.2.3 Dispersioon.........................................................................................29

7 PIDEVA JUHUSLIKU SUURUSE JAOTUSI...................................................................30 7.1 Pidev ühtlane jaotus............................................................................................30 7.2 Normaaljaotus.....................................................................................................31

7.2.1 Normaaljaotuse definitsioon..............................................................317.2.2. Standardiseeritud normaaljaotus.........................................................327.2.3. 3- σ reegel..........................................................................................357.2.4. Normaaljaotust iseloomustavad tunnused .........................................357.2.5 Tüüpülesanded.....................................................................................367.2.6 Binoomjaotuse lähendamine normaaljaotusega..................................38

7.3 Juhuslike suuruste summa ja ruutude summa jaotus...........................................397.3.1 Juhusliku suuruse summa jaotus .........................................................407.3.2 Juhusliku suuruse ruutude summa jaotus ............................................40

8 TÕENÄOSUSTEOORIA PIIRTEOREEMID...................................................................41 8.1 Tsebõsevi suurte arvude seadus .........................................................................41 8.1 Bernoulli suurte arvude seadus..........................................................................41

M A T E M A A T I L I N E S T A T I S T I K A......................................................................43

9 ÜLDKOGUM JA VALIM..................................................................................................44 9.1 Üldkogumi ja valimi määratlus..........................................................................44 9.2 Üldkeskmine ja üldkogumi ruuthälve ................................................................44

3

Page 4: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

9.3 Valimikeskmine ja valimi ruuthälve..................................................................45 9.4 Valimikeskmine kui juhuslik suurus .................................................................46 9.5 Valimi standardhälve kui juhuslik suurus ..........................................................47

10 ÜLDKOGUMI KARAKTERISTIKUTE PUNKTIHINNANG........................................48 11 ÜLDKOGUMI KARAKTERISTIKUTE VAHEMIKHINNANGUD..............................50

11.1 Üldkeskmise vahemikhinnang ..........................................................................51 11.1.1 Suur valim.........................................................................................51 11.1.2 Väikese valimi juhtum......................................................................54

11.2 Valimi suuruse määramine................................................................................56 11.3 Suhtelise sageduse (protsendi) vahemikhinnang..............................................58

11.3.1 Valimi suuruse määramine suhtelise sageduse hinnangutes .............59 12 HÜPOTEESID..................................................................................................................61

12.1 Hüpoteeside püstitamise põhimõtted ja liigid..................................................61 12.2 Hüpoteeside kontrollimise põhimõtted.............................................................62 12.3 Hüpoteesid üldkeskmise kohta.........................................................................64

12.3.1 Kahepoolsete hüpoteeside kontrollmine ...........................................65 12.3.2 Ühepoolsete hüpoteeside kontrollmine.............................................67 12.3.3 Hüpoteeside kontrollimise koondtabel..............................................68

12.4 Hüpoteesid sageduste kohta.............................................................................69 12.5 Hüpoteesid üldkeskmiste vahe kohta...............................................................71 12.6 Hüpoteesid sageduste vahe kohta.....................................................................74

13 JAOTUSE LEIDMINE.....................................................................................................75 14 TUNNUSTEVAHELISED SEOSED ..............................................................................79

14.1 Kahe tunnuse ühisjaotus ..................................................................................79 14.2 χ2 - test sõltuvuse avastamiseks........................................................................79 14.3 Korrelatiivne sõltuvus.......................................................................................81

14.3.1 Lineaarse korrelatsiooni kordaja......................................................81 14.3.2 Spearmani korrelatsioonikordaja .....................................................84

LISAD............................................................................................................................................85

Standardiseeritud normaaljaotuse tabel..........................................................................................85

Studenti jaotuse täiendkvantiilide tabel ..................................................................................86

χ2 - jaotuse täiendkvantiilide tabel...............................................................................................87

Valemite koondtabel.......................................................................................................................88

4

Page 5: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

T Õ E N Ä O S U S T E O O R I A

Tegelikus elus kohtame sageli nähtusi, kus samades tingimustes kulgeva sama protsessi tu-lemused on erinevad. Selliseid protsesse nimetame juhuslikeks protsessideks. Kõige elementaarsemaks sellise protsessi näiteks on täringu viskamine - kuidas me ka ei püüa visata täpselt ühte moodi, saame enamasti eri kordadel ikka erinevad tulemused. Tegemist on juhus-like faktorite mõjuga, mida me ei suuda viskamisel arvestada.

Tõenäosusteooriaks nimetatakse matemaatika haru, mis uurib juhuslike nähtuste üldisi seaduspärasusi lahus nende konkreetsest olemusest ja annab meetodid nende nähtuste iseloo-mustamiseks. Tõenäosusteooria tekkimise tõukejõuks sai hasartmängudes ilmnevate seadus-pärasuste uurimine. Blaise Pascal'i, Cristian Huygens'i ja Pierre de Fermat tööd 17. sajandi keskel olid tõenäosusteooria alguseks. Sama sajandi teisel poolel jätkas teooria arendamist Jacob Bernoulli.

Tõenäosusteooria on iseseisev teadusharu, mille suurim panus seisneb selles, et temale tu-ginevad paljud teised teadusharud: informatsiooniteooria, demograafia, geneetika, mate-maatiline statistika jne. Meid huvitab peaasjalikult viimane mainituist – matemaatiline statistika.

Tulenevalt nii tõenäosusteooria kui ma matemaatilise statistika ulatuslikkusest kehtib käes-oleva kursuse proloogis öeldu - kursuse eesmärk on tutvustada põhimõisteid, elementaarseid rakendusi ja anda teadmised lihtsamate tulemuste tõlgendamiseks ja sedagi väga piiratud ula-tuses.

5

Page 6: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

SÜNDMUSE TÕENÄOSUS

1 SÜNDMUSE MÕISTE 1.1 Elementaarsündmuste ruum, sündmuste liigitus

Vaadeldava protsessi või läbiviidava katse tulemust nimetame elementaarsündmuseks. Näiteks on täringu viskamisel võimalikud tulemused: „peale jääb ühe täpiga tahk“, „peale jääb kahe täpiga tahk“, jne - kokku kuus erinevat tulemust ehk kuus elementaarsündmust. Eelmises lauses sõnadega „peale jääb tahk ... täpiga“ rõhutasime vaid seda, et sündmuste kä-sitlemisel ei ole oluline kvantitatiivne hinnang tulemusele, vaid ainult see, kas sündmus toi-mus või mitte. Lühiduse mõttes räägime edaspidi täringu korral ikkagi, et saime ühe silma, kaks silma jne.

Tähistame katse tulemusena saadavaid elementaarsündmusi kreeka tähtedega ω1, ω2 ..., ωn

ja kõikide elementaarsündmuste (st katse tulemuste) hulka Ω = {ω1, ω2 ..., ωn}. Kui katse väljundiks on elementaarsündmus ωi, siis ütleme, et toimus elementaarsündmus

ωi. Elementaarsündmustest saame konstrueerida sündmusi. Ütleme, et suvaline elementaar-sündmuste ruumi alamhulk määrab sündmuse . Praktikas huvitavad meid vaid sellised elementaarsündmuste hulgad, millele oskame anda tõlgenduse. Sündmusi tähistame suurte la-dina tähtedega: A, B, C, ... jne, millele tarbe korral lisame indeksi. Mõnikord kasutame sünd-muste tähistamiseks sõnalisi väljendeid, näiteks: "paarisarvuline tulemus", "positiivne eksami hinne" jms.

Ütleme, et sündmus A={ωi1, ωi2,...,ωik} toimub, kui katse tulemuseks on üks sündmust A määravatest elementaarsündmustest. Näiteks kui vaadeldavaks sündmuseks A on "paaris-arvu silmade saamine ühel täringu viskel", siis sündmus ütleme, et sündmus A toimub, kui täringu pealmisel tahul on kas 2, 4 või 6 silma. Teisiti, kui Ω={ω1, ω2, ω3, ω4, ω5, ω6} on tärin-guviskele vastav elementaarsündmuste ruum, siis paarisarvu silmade saamisele vastab elementaarsündmuste hulk A={ω2, ω4, ω6}.

Kogu järgnevas käsitluses eeldame, et meil on määratud elementaarsündmuste ruum ning vaatleme selle alamhulki kui sündmusi. Iga konkreetse elementaarsündmuste ruumi kor-ral saab määrata kindla arvu erinevaid sündmusi. Näiteks, olgu lihtsuse mõttes antud meie elementaarsündmuste ruumis ainult 3 elementi: Ω = {ω1, ω2, ω3}. Selle ruumi põhjal saame konstrueerida kokku 7 erinevat sündmust: A1 = {ω1}, A2 = {ω2}, A3 = {ω3}, A4 = {ω1, ω2}, A5= {ω1, ω3}, A6 = {ω2, ω3}, A7 = {ω1, ω2, ω3}. Tavaliselt lisatakse sellele hulkade hulgale ka tühihulk A8 = Ø = {}, mille korral ei toimunud ühtegi eelpool mainitud elementaarsündmus-tes. Saab näidata, et n elemendilisest elementaarsündmuste ruumist tulenevate erinevate sünd-muste koguarv koos tühihulgale vastava sündmusega on 2n.

Ütleme, et sündmus A = {ω1, ω2, ..., ωk} toimub, kui katse tulemuseks on üks elemen-taarsündmustest, kas ω1 või ω2 või ... või ωk.

Sündmust A nimetatakse kindlaks sündmuseks, kui ta on määratud kogu elementaar-sündmuste ruumil, st A = Ω. Seega katse läbiviimisel sündmus A toimub kindlasti, kuna vas-tavalt elementaarsündmuste ruumi definitsioonile vähemalt üks elementaarsündmus toimub.

Sündmust A = Ø nimetatakse võimatuks sündmuseks. Kuna võimatule sündmusele vas-tav hulk ei sisalda ühtegi elementaarsündmust, siis (igati oodatult!) võimatu sündmus ei saa toimuda.

6

Page 7: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Näide 1.1. Vaatleme eksamit kui juhuslikku katset, millel saadavad hinded kui katse või-malikud väljundid (elementaarsündmused!) moodustavad elementaarsündmuste ruumi Ω = {A, B, C, D, E, F}. Ütleme, et toimus sündmus “üliõpilane sooritas eksami”, kui katse väl-jundiks oli üks hulka {A, B, C, D, E} kuuluvatest elementaarsündmustest ja “ei sooritanud eksamit”, kui väljundiks on {F}.

Toodud näites on sündmused “üliõpilane sooritas eksami” ja “ei sooritanud eksamit” teinesteist välistavad. Selle näite korral saaksime tinglikult sisse tuua ka tühihulga mõiste – üliõpilane ei tulnud eksamile ja seega ta eksamihinnet ei saanud. Paneme tähele, et sellise tõl-genduse juures on üks probleem – tudengi eksamile mitteilmumine ei ole tegelikult võimatu sündmus.

Sündmusi A1, A2 ,... ja An nimetame üksteist välistavaiks, kui ühe toimumine välistab ülejäänute toimumise ehk ühe toimumisel teised toimuda ei saa.

Sündmuse A vastandsündmuseks (tähistame A ), nimetatakse sündmust, mis toimub siis ja ainult siis kui A ei toimu. Lähtudes elementaarsündmuste ruumist, määravad sündmuse A need elementaarsündmused, mille korral A ei toimu, st mis välistavad A toimumise. Kasuta-des tehteid hulkadega võime kirjutada A = Ω \ A, kus „\“ tähistab hulkade lahutamistehet. Siit tulenevalt võime lihtsalt tuletada, et vastandsündmuse vastandsündmus A on see sünd-mus A ise.

Sündmusi A1, A2, ..., An nimetatakse ainuvõimalikeks, kui katse sooritamisel vähemalt üks neist toimub. Ainuvõimalikud sündmused ei pruugi olla üksteist välistavad.

Sündmused A1, A2, ..., An moodustavad sündmuste täieliku süsteemi (täissüsteemi) kui nad on üksteist välistavad ainuvõimalikud sündmused.

Näiteks moodustavad sündmuste täieliku süsteemi täringuviske tulemused, aga ka suvaline hulk, mis koosneb vaid sündmusest ja tema vastandsündmusest.

Kokkuvõtteks võime öelda, et formaalselt on sündmus mingi katse võimalike tulemuste hulk, sündmusega seotakse teda iseloomustav parameeter - toimumine/mittetoimumine. Edas-pidises hakkab meid huvitama kvantitatiivne hinnang sündmuse toimumise võimalikkusele, mida nimetame sündmuse tõenäosuseks.

1.2 Tehted sündmustegaSündmust vaatlesime elementaarsündmuste hulgana elementaarsündmuste ruumis. Hul-

kade korral on defineeritud tehted hulkadega: liitmine, korrutamine ja lahutamine. Iga sellise tehte tulemus on hulk samas elementaarsündmuste ruumis, mis seega määratleb mingi sünd-muse.

Olgu järgnevas A1, A2, ..., An suvalised sama elementaarsündmuste ruumi põhjal määratud sündmused.

Sündmuste A1, A2, ..., An summaks A nimetame sündmust A = A1 U A2 U ... U An.Lähtudes hulkade summa määratlusest, sisaldab hulk A kõiki neid elementaarsündmusi,

mis kuuluvad vähemalt ühte sündmustest Ai. Seega võime öelda, et sündmus A toimub para-jasti siis, kui toimub vähemalt üks sündmustest Ai (i = 1, 2, ..., n).

Sündmuste A1, A2, ..., An korrutiseks A nimetame sündmust A = A1 ∩ A2 ∩ ...∩ An.

7

Page 8: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Lähtudes hulkade ühisosa määratlusest, sisaldab hulk A neid ja ainult neid elementaar-sündmusi, mis kuuluvad kõikidesse sündmustesse Ai. Seega võime öelda, et sündmus A toi-mub parajasti siis, kui toimuvad kõik sündmused Ai (i = 1, 2, ..., n).

Sündmuste Ai ja Aj vaheks nimetame sündmust Ai \ Aj ehk antud sündmus sisaldab ainult neid elementaarsündmusi, mis kuuluvad sündmusesse Ai, ent ei kuulu sündmusesse Aj.

2 TÕENÄOSUSE MÕISTE JA OMADUSED

Sündmusega tõenäosusteoorias me ei seo mingeid arvulisi näitajaid, ei laiust, ei pikkust, ei aega, ei kestvust. Nagu eespool vaatlesime, oli sündmusega seotud vaid üks näitaja – sünd-muse toimumine (sündmus kas toimub või ei toimu). Samas on ilmne, et mõningate sünd-muste toimumise võimalikkus on suurem kui teistel. Näiteks, täringu viskamisel on paaris-arvu silmade saamine oodatavam kui täpselt kahe silma saamine. Järgnevas huvitab meid si-duda sündmuse toimumisega mingi arvuline näitaja, et oleks võimalik võrrelda sündmuse toi-mumise võimalikkust arvude võrdlemise teel.

Arvulist karakteristikut, mis lubab võrrelda eri sündmusi nende toimumise võimalikkuse seisukohalt, nimetame tõenäosuseks.

Kui katsel on n võrdvõimalikk u väljundit Ω = {ω1, ω2 ..., ωn}, ning neist k (k ≤ n) väljundit määravad elementaarsündmuste hulga, mille korral ütleme, et toimub sündmus A, siis nime-tame sündmuse A toimumise tõenäosuseks p(A) arvu

nk=p(A) (2.1)

Vahetult sellest definitsioonist lähtudes võime tõestada järgmised omadused:- kindla sündmuse tõenäosus p(Ω) = 1,- võimatu sündmuse tõenäosus p(Ø) = 0- suvalise sündmuse A tõenäosus asub vahemikus 0 ≤ p(A) ≤ 1

Ülal defineeritud suurust p(A) nimetatakse sündmuse klassikaliseks tõenäosuseks. Peale klassikalise tõenäosuse kasutatakse veel mitmeid tõenäosuse määratlusi, näiteks geomeetrili-ne tõenäosus, statistiline tõenäosus, subjektiivne tõenäosus ja veel mõned. Käesolevas kur-suses neid eraldi ei käsitleta, teen siinjuures vaid kaks lisamärkust:

1) klassikaline tõenäosus on kahe arvu suhe ja sageli väljendatakse seda suhet igapäevae-lus protsentides, st korrutatakse arvuga 100;

2) saab näidata, et piisavalt suure katsete arvu korral läheneb jälgitava sündmuse sagedus tema toimumise tõenäosusele.

Näide 2.1. Tähistagu A sündmust, mis seisneb selles, et kaardipakist (52 kaarti) tõmmatud 3 kaardi hulgas on täpselt kaks kuningat. Milline on selliselt määratud sündmuse A esinemise tõenäosus? Elementaarsündmuste ruumiks on kõikvõimalikud erinevad kaardikolmikud, mida saame moodustada 52 kaardi hulgast. Kokku on selliseid kolmikuid kombinatsioonide arv 52 kaardi hulgast kolme kaupa – seega 3

52Cn = . Ülesande tingimustele vastavalt peab kolmest kaar-dist kaks olema valitud nelja kuninga hulgast, seega on 2

4C võimalust ja igale võimalikule

8

Page 9: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

kuningapaarile vastab võimalus valida kaaslaseks üks kaart 48 mittekuninga hulgast, ehk teisiti 1

48C võimalust. Järelikult on meie poolt vaadeldava sündmuse korral soodsate või-

maluste koguarv 148

24 *CCk = ning sündmuse A tõenäosus 3

52

148

24 *)(C

CCAp = .

3 TEHTED TÕENÄOSUSTEGAEespool defineerisime sündmuste summa ja korrutise mõisted. Vaatame, kuidas leida

selliste liitsündmuste tõenäosusi.

3.1 Üksteist välistavate sündmuste summa tõenäosusTeineteist välistavate sündmuste A ja B summa tõenäosus võrdub nende tõenäosuste sum-

maga: P(A U B) = P(A) + P(B) .

Näide 3Error: Reference source not found.1. Seisnegu sündmus A selles, et täringu viskamisel saadakse 1 punkt ja B selles, et saadakse 2 punkti. Sündmust C = A U B saab vaadelda sündmusena, et täringu viskamisel saadakse kas üks või kaks punkti. Lähtudes ülaltoodust võime kirjutada

P(A U B) = P(A) + P(B) = 1/6 + 1/6 = 1/3. On lihtne üldistada see seaduspära suvalise arvu sõltumatute sündmuste A1, A2, ..., An koh-

ta.

3.2 Tinglik tõenäosus ja sündmuste korrutise tõenäosusSündmuste korrutamise tõenäosuse määratlemisel vaatleme üksteisele järgnevaid sünd-

musi, kus sündmuse iga järgneva sündmuse tõenäosus võib sõltuda sellest, mis enne teda juh-tus.

Olgu meil tegemist kahe teineteisele ajas järgneva sündmusega. Ütleme, et kaks sündmust on sõltumatud, kui ühe toimumine ei mõjuta teise toimumist. Näiteks, täringu järjekordse viske tulemus ei sõltu sellest, milline tulemus saadi eelmisel viskel. Kui aga näiteks on tege-mist loteriiga, millel loositakse välja ainukene võit – auto, siis ilmselt peale juhusliku pileti valimist muutub järgmisena juhuslikult valitud pileti võidu tõenäosus.

Sündmuse A (toimumise) tõenäosust tingimusel, et toimus sündmus B, nimetatakse sünd-muse A tinglikuks tõenäosuseks sündmuse B suhtes ja tähistatakse P(A | B) ja leitakse

valemiga P(B)B)P(A =B)P(A ∩| .

Sellest tingliku tõenäosuse definitsioonist saame eeskirja sündmuste korrutise tõe-näosuse leidmiseks.

Korrutamislause. Kahe sündmuse A ja B korrutise tõenäosuseks P(AB) nimetatakse arvu, mis saadakse ühe sündmuse tõenäosuse korrutamisel teise sündmuse tingliku tõenäosusega esimese suhtes: P(A ∩ B) = P(B) P(A | B).

9

Page 10: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Juhul, kui sündmuse A toimumine ei sõltu B toimumisest (sündmused on sõltumatud), siis loomulikult P(A | B) = P(A) ning korrutamislause võime välja kirjutada kujul:

Seda võrdust kasutatakse sageli ka selleks, et määrata kahe sündmuse sõltuvus või sõltuma-tus, täpsemalt sündmuste sõltumatus defineeritakse seda tüüpi seose abil.

Korrutamislauset on lihtne laiendada ka enam kui kahe sündmuse korrutisele, seda kasutame ka järgnevas näites.

Näide 3.2. Firma korraldas loterii, milles oli 100 pileti hulgas 20 võiduga piletit. Milline on tõenäosus, et esimesena kolm piletit võtnud isik saab kolm võidupiletit?

Lahendus: Olgu A1 - "esimesena valitud pilet on võiduga",A2 - "teisena valitud pilet on võiduga",A3 - "kolmandana valitud pilet on võiduga".

Siis P(A1A2A3) = P(A1) P(A2 | A1) P(A3 | A1A2)= 20/100 x 19/99 x 18/98, mis ongi otsitav tõenäosus.

3.3 Sündmuste summa tõenäosus Eespool vaadeldi üksteist välistavate sündmuste summa tõenäosust. Kasutades sünd-

muste korrutise tõenäosust saame leida sündmuste summa tõenäosuse ka üldjuhul, kui ei eel-data, et sündmused on üksteist välistavad.

Sündmuste A ja B summa tõenäosus on võrdne nende sündmuste tõenäosuste summa ja korrutise tõenäosuse vahega:

P(A U B) = P(A) + P(B) – P(A ∩ B).

P(A ∩ B) = P(B) P(A).

10

Page 11: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Lähtudes korrutamislausest saab selle valemi ka tõestada1, kuid võtame selle kui tõestatud fakti. Illustreerime seda lihtsalt mõistetava näitega.

Näide 3.3. Oletame, et kaks jahimeest näevad hunti ja tulistavad korraga. Olgu jahi-meeste "täpsusklass" selline, et esimene jahimees tabab tõenäosusega 0.8 ja teine tõe-näosusega 0.6. Lihtsuse mõttes eeldame, et ükskõik kumma jahimehe hunti tabav kuul on sur-mav. Milline on tõenäosus, et hunt sai surma?

Lahendus. Siin on tegemist kahe sõltumatu sündmuse summaga: A - "esimene jahimees laskis hundile pihta" ja B - "teine jahimees laskis hundile pihta". Vastavalt toodud valemile saame leida hundi surmasaamise tõenäosuse:

P(A U B) = P(A) +P(B) – P(A ∩ B) = 0,8 + 0,6 – 0,8*0,6 = 1,4 – 0,48 = 0,92Seda ülesannet on võimalik lahendada ka teisiti. Nimelt on sündmus "Hunt sai surma"

vastandsündmuseks sellele, et „Hunt jäi elama“, s.t. mõlemad jahimehed lasksid mööda:P("surnud") = 1 - P("elus") = 1−P A∩B≡1−P A P B = 1-0,2*0,4=0,92

*1Tõestus. Kui vaatleme kahte sündmust A ja B, siis sündmus A toimub kas koos sünd-musega B (seega AB) või koos sündmuse B mittetoimimisega (seega A B ). Analoogiliselt toimub sündmus B kas koos sündmusega A (seega AB) või koos sündmuse A mittetoimumi-sega (seega A B).

Seega A = AB + A B ja B = AB + A B

Kuna mõlemas võrduses on liidetavad teineteist välistavad, siis võime kirjutada:

P(A) = P(AB) + P(A B )

P(B) = P(AB) + P(A B)

Liites võrduse mõlemad pooled, kehtib võrdus

P(A B ) + P(A B)= P(A) + P(B) - 2P(AB)

Analoogilise mõttekäiguga saame, et sündmus A U B toimub parajasti siis, kui toimub üks teineteist välistavatest sündmustest AB, BA või A B . Seega

A U B = AB U A B U A B

ja kasutades ära seda, et nad on üksteist välistavad, saame

P(AUB) =P(AB) +P(A B) +P(A B )

Võttes nüüd kaks tõestatud seost kokku, ongi meil käes tulemus

P(AUB) = P(A) +P(B) - P(AB).

11

Page 12: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

3.4 Sündmuse täistõenäosusVaatleme situatsiooni, kus mingi sündmus saab toimuda ainult koos mingi teise sünd-

musega. Tavaliselt on tegu sellise juhtumiga siis, kui enne katse tegemist tuleb teha valik mit-me erineva katsekeskkonna vahel. Näiteks - kui enne eksamit on võimalik valida mitme õppejõu vahel või kui Hiina sõitmiseks on võimalik valida mitme erineva turismifirma vahel jne.

Sellise situatsiooni võime formaalselt sõnastada järgmiselt. Olgu sündmus A selline, et A võib toimuda koos ühega ja ainult ühega sündmuste täielikku süsteemi moodustavatest sünd-mustest H1, H2, ... , Hn. Leida tõenäosus, et sündmus A toimub.

Lähtudes sündmuse A toodud määratlusest võime ta välja kirjutada liitsündmusenaA= A∩H1 U A∩H2 U ...U A∩Hn.

Kuna probleemi püstituse järgi on sündmused Hi üksteist välistavad, siis on seda ka AHi

ning lähtudes liitmislausest saameP(A) = P(A∩H1) + P(A∩H2) + ...+ P(A∩Hn).

ehk lühemalt kujul

)HP(AP(A)n

1ii∑

=

= ∩

Kasutades nüüd iga liidetava korral korrutamisteoreemi, saame valemi

))H|P(A)(P(HP(A) i

n

1ii ∗= ∑

=,

mida nimetatakse täistõenäosuse valemiks.

Näide 3.4. Oletame, et üliõpilane õppis eksamiks selgeks kogu vajaliku materjali ja võib eksami sooritada positiivsele hindele. Tavaliselt lisandub aga veel teine faktor - õppejõu sub-jektiivne arusaamine üliõpilase teadmistest. Oletame, et eksami andmiseks on üliõpilasel või-malik valida kolme erineva õppejõu (tähistame neid H1, H2 ja H3) vahel. On teada, et üks neist on raske arusaamisega üliõpilase headusest ning sellest tulenevalt sooritatakse eksam üliõpilase heade teadmiste korral tema juures tõenäosusega 0,4; teine õppejõud on vähe tai-bukam ja tema saab aru, kas üliõpilane oskab või ei tõenäosusega 0,7; kolmas õppejõudude saab aru sellest, et üliõpilane teab tõenäosusega 0,9. Leida eksami sooritamise tõenäosus.

Lahendus. On selge, et kui üliõpilasel oleks teada, kes on kes, ei tekiks küsimust kelle juures eksam anda. Praeguses eeldame, et ta seda ei tea ja on sunnitud valima õppejõu juhus-likult. Eksami sooritamise täistõenäosuse võime kirjutada kujul

P(A) = P(H1)P(A|H1) +P(H2)P(A|H2) +P(H3)P(A|H3)Kuna õppejõu valimise tõenäosused on võrdsed, siis P(Hi)=1/3 siis

P(A) = 1/3*0,4 + 1/3*0,7 + 1/3*0,9 =0,67Seega üliõpilase eksami sooritamise tõenäosus on täistõenäosuse valemi põhjal 0,67.

Hindamaks täistõenäosust väljendava summa iga liikme P(Hk)P(A|Hk) panust täistõe-näosuses, vaatleme suhet:

))H|P(A)(P(H

)H|P(A*)P(HA)|P(H

i

n

1ii

kkk

∗=

∑=

,

12

Page 13: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

See suhe annab tingliku tõenäosuse P(Hk |A) selleks, et sündmus A toimus just nimelt koos sündmusega Hk. Seda valemit nimetatakse Bayes'i valemiks.

Näide 3.5. Eeldame, et üliõpilane sai eksamil läbi (vt näide 3.4). Leida tõenäosus, et ta sooritas eksami kolmanda õppejõu juures.

Lahendus. Leiame suhte P(H3 |A)= (1/3*0.9)/0,67= 0,447. Seega - järgmine üliõpilane teab et tõenäosusega 0,447, sooritas eelmine üliõpilane eksami kõige parema õppejõu juures.

Kuna me lähtume sellest, et üliõpilane sai eksamil läbi, siis tõenäosuste summa, et ta sooritas eksami esimese, teise või kolmanda õppejõu juures peab võrduma ühega.

13

Page 14: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

JUHUSLIK SUURUS 4 DISKREETNE JUHUSLIK SUURUS

Juhuslik suurus on suurus, mis sõltuvalt juhusest võib omandada erinevaid väärtusi. Juhus-likuks suuruseks on näiteks: üliõpilaste arv tõenäosusteooria loengul, õhu temperatuur, tele-foniarve suurus kuus, inimese pikkus, firma käive jne. Iga juhusliku suuruse korral on esmane määrata, milliseid väärtusi ta võib omandada, st määrata tema võimalike väärtuste hulk. Näiteks juhuslik suurus "üliõpilaste arv loengul" võib omandada väärtusi {0, 1, 2, ..., n}, kus n on ainele registreerinud üliõpilaste arv; juhuslik suurus "õhu temperatuur" väärtusi vahemi-kus (-80, +60) jne. Juhuslike suuruste liigitamise seisukohalt ei ole oluline mitte see, milliseid konkreetseid väärtusi üks või teine juhuslik suurus võib omandada, vaid see, kas võimalike väärtuste hulk on lõplik või lõpmatu. Nii on ülal toodud näidetes esimesel juhul lõplik arv võimalikke väärtusi, teisel juhul on tegemist reaalarvude vahemikuga, milles on lõpmatu arv erinevaid võimalikke väärtusi.

Juhuslikku suurust nimetatakse diskreetseks juhuslikuks suuruseks, kui ta võib omandada lõpliku või loenduva2 hulga väärtusi: näiteks täringuviskel saadav silmade arv, möödalaskude arv esimese tabamiseni, eksamihinne, loengul olevate üliõpilaste arv jne. Disk-reetse juhusliku suuruse võimalikud väärtused ei pea olema täisarvud, oluline on, et erinevaid võimalikke väärtusi oleks lõplik või loenduv arv.

Juhuslikku suurust nimetatakse pidevaks juhuslikuks suuruseks, kui ta võib omandada lõpmatu hulga väärtusi. Käesolevas kursuses eeldame, et pideva juhusliku suuruse väärtused on reaalarvud mingist reaalarvude vahemikust. Näiteks on pidevaks juhuslikuks suuruseks „arbuusi kaal“, „ühe liitri bensiiniga läbitud vahemaa“, jne.

Eespool kasutasime juhuslike suuruste tähistamiseks tema sisust tulenevat nime: „pikkus“, „arbuusi kaal“ jne. Käsitluse formaliseerimiseks tähistame alljärgnevas juhuslikke suurusi suurte ladina tähtedega X, Y, Z, ... ja nende konkreetseid väärtusi vastavate väikeste tähtede-ga koos indeksitega X = {x1, x2, ..., xn}; Y = {y1, y2, ...}; Z = {z1, z2, ...}.

Juhuslike suuruste kirjeldamisel on oluline leida nende käitumise tõenäosuslik aspekt, mida võime väljendada kahe küsimusega:

1) milline on tõenäosus juhusliku suuruse iga võimaliku väärtuse omandamiseks, 2) milline on tõenäosus, et juhuslik suuruse väärtus asub mingis vahemikus.

Neist esimene küsimus puudutab ainult diskreetseid juhuslikke suurusi, teine aga mõ-lemaid tüüpe.

Juhusliku suuruse igale väärtuse vastava tõenäosuse leidmiseks seotakse väärtus (väärtuste vahemik) teatud sündmusega („juhuslik suurus X omandab väärtuse xi“) ja väärtuste koguhul-gale vastab sündmuste täielik süsteem (vt 1.1). Väärtusele vastava sündmuse tõenäosus loe-takse juhuslikul suurusel selle väärtuse omandamise tõenäosuseks. Diskreetse juhusliku suuruse korral on selline samastamine üsna loomulik, näiteks sündmus "täringu viskamisel

*2Öeldakse, et hulgas on loenduv arv elemente kui selle hulga elementide arv on võrdne mõne naturaal -arvude hulga alamhulga elementide arvuga. Nii näiteks möödalaskude arv esimese tabamuseni võib olla kuitahes suur ja seega ei ole võimaluste arv lõplik, ent kindlasti on möödalaskude arv mingi naturaalarv ja järelikult on võimaluste arv loenduv.

14

Page 15: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

tuleb välja tahk kuue täpiga" vastab juhusliku suuruse "täringuviskel saadavate silmade arv" väärtusele 6. Pideva juhusliku suuruse korral vaadeldakse sündmust kui juhusliku suuruse väärtuse langemist teatud vahemikku ja sellega saadakse sisuliselt vastavus, kus lõplikule arvule sündmustele vastab lõpmatu hulk väärtusi.

4.1 Diskreetse juhusliku suuruse jaotus

Eeskirja P(X), mis diskreetse juhusliku suuruse igale väärtusele seab vastavusse selle väärtuse omandamise tõenäosuse, nimetatakse juhusliku suuruse (tõenäosuste) jaotuseks (ka jaotusseaduseks). Juhusliku suuruse jaotuse võime anda kas tabelina, funktsioonina, diagrammina või muul sarnasel viisil, mis määrab ära vastavuse: „juhusliku suuruse väärtus“ ↔ „ tõenäosus, et juhuslik suurus omandab selle väärtuse“. Tähistame juhusliku suuruse väärtusele xi vastavat tõenäosust p(xi) või lühidalt pi. Seega P(X) = {p(x1), p(x2), ..., p(xn)}.

Näide 4.1. Olgu teada, et laskur tulistab 2 korda ja iga lasu korral tabab märklauda tõe-näosusega 0,8. Leida märklauda tabanud kuulide arvu kui juhusliku suuruse tõenäosuste jaotus.

Lahendus. Olgu X juhuslik suurus "märklauda tabanud kuulide arv", mis vastavalt näitele võib omandada arvulisi väärtusi 0, 1 või 2. Tähistame väärtuste hulga X = {0, 1, 2}. Juhusli-ku suuruse iga väärtuse omandamise tõenäosuse leidmisel lähtume temale vastava sündmuse tõenäosusest. Seega korraldame vastavuse sündmuse ja juhusliku suuruse võimalike väärtuste vahel. Olgu sündmus A - märklauda tabas 0 kuuli, B - tabas 1 kuul ja C - tabas 2 kuuli.

Kasutades sündmuste summa ja korrutise tõenäosuse leidmise eeskirja saame leida:P(A) = 0,2 x 0,2 = 0,04P(B) = 0,2 x 0,8 + 0,8 x 0,2 = 0,32P(C) = 0,8 x 0,8 = 0,64

Juhusliku suuruse tõenäosuste jaotustabeli võime nüüd välja kirjutada kujul:A B C

xi 0 1 2p(xi) 0,04 0,32 0,64

Tavaliselt jaotustabelis sündmusi tähistavat rida välja ei kirjutata, praegusel juhul tegime seda selleks, et rõhutada juhusliku suuruse väärtuste tõenäosuste arvutamist vastavate sünd-muste tõenäosuste kaudu. Kuna sündmused A, B ja C moodustavad sündmuste täieliku süs-teemi (on üksteist välistavad ja üks neist kindlasti toimub), siis peab tõenäosuste summa võrduma ühega.

Näide 4.2. Olgu diskreetne juhuslik suuruse X ={0, 1, 2, 3, 4, 5, 6, 7, 8} jaotus antud tabe-liga:

xi 0 1 2 3 4 5 6 7 8

p(xi) 0,004 0,031 0,109 0,219 0,274 0,219 0,109 0,031 0,004Jaotuse olemusest parema visuaalse ettekujutuse saamiseks koostatakse sageli tabeli alusel

tulpdiagramm. Praegusel juhul saaksime:

15

Page 16: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Siit on visuaalselt näha tõenäosuse muutumine tema võimalike väärtuste korral ning see annab hea ülevaate jaotuse olemusest. Üpris sageli on aga tarvis leida tõenäosus, et juhuslik suurus on väiksem (või suurem) kui mingi ette antud väärtus. Tõenäosuse „väiksem kui“ leid-miseks liidame kõikide eelnevate väärtuste tõenäosused. Selle saame kirjutada valemina

)p(x)xP(X)F(x jii ∑≤

=≤=ij xx

,

kus funktsiooni F(x) nimetatakse jaotusfunktsiooniks. Leiame näite 4.2 põhjal juhusliku suuruse jaotusfunktsiooni väärtused kõikide võimalike

väärtuste korral ja korrastame tulemused tabelisse:

F(0)=

=P(X≤0)

F(1)=

=P(X≤1)

F(2)=

=P(X≤2)

F(3)=

=P(X≤3)

F(4)=

=P(X≤4)

F(5)=

=P(X≤5)

F(6)=

=P(X≤6)

F(7)=

=P(X≤7)

F(8)=

=P(X≤8)

F(x) 0,004 0,035 0,144 0,363 0,637 0,856 0,965 0,996 1,000

Selle tabeli võime esitada jällegi tulpdiagrammina, kus x-teljel on juhusliku suuruse väär-tused ja y-teljel väärtusele vastav tõenäosus.

Tegelikult ei pea jaotusfunktsiooni argumendiks olema vaadeldava juhusliku suuruse või-malik väärtus, selleks võib olla suvaline arv. On ilmne, et jaotusfunktsioon ei saa kahaneda (positiivsete arvude summa). Samuti, et F(x1-ε) = P(X ≤ x1-ε) = 0 ja F(xn) = P(X ≤ xn) = 1, kus ε on kuitahes väike positiivne arv. Praegusel, diskreetse juhusliku suuruse korral tuleneb jaotusfunktsioon väga loogiliselt teadaolevast jaotusest. Oluliseks muutub aga jaotusfunkt-siooni mõiste just pideva juhusliku suuruse korral, kus ta on tegelikult pideva juhusliku suuruse määratlemise põhialus.

Tõenäosuse, et juhuslik suurus on „suurem kui“ mingi arv võime defineerida analoogili-selt, kuid tavaliselt leitakse selline tõenäosus kasutades vastandsündmuse tõenäosust ja seega P(X > x) = 1 - P(X ≤ x).

0

0,2

0,4

0,6

0,8

1

1,2

Jaotusfunktsioon F(x)

Jaotuse tulpdiagramm

16

Page 17: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

4.2 Tehted diskreetsete juhuslike suurustega Diskreetne juhuslik suurus on määratud, kui on teada tema võimalikud väärtused ja ja nen-

de väärtuste esinemise tõenäosused (jaotus), s.t, kui on antud paar (X, P(X)) = {(x i, p(xi)): i=1,2,...}.

Ütleme, et diskreetsed juhuslikud suurused X ja Y on sõltumatud, kui ühe juhusliku suuruse kindla väärtuse omandamise tõenäosus ei sõltu sellest, millise väärtuse omandab teine juhuslik suurus. Sõltumatute juhuslike suuruste korral võime tõenäosuse, et X omandab väärtuse xi ja Y omandab väärtuse yj leida kui

P(X = xi ,Y = yj) = P(X = xi) ∙ P(Y = yj).Edaspidises kasutame tähistustes lühendatud varianti: p(xi , yj) = p(xi)∙p(yj)

Juhuslike suurustega saab teha teha aritmeetilisi tehteid. Näiteks perekonna kuu sissetule-ku leidmiseks peame liitma pere liikmete kuu sissetulekud ja saame uue juhusliku suuruse (kui iga liikme sissetulek on juhuslik suurus). Uue juhusliku suuruse korral on nagu ikka tarvis kõigepealt leida tema võimalikud väärtused ja iga väärtuse tõenäosus, st määrata jaotus.

Vaatlemegi järgnevalt tehteid diskreetsete juhuslike suurustega. Olgu meil antud juhusli-kud suurused X = {x1, x2, ..., xn}; Y = {y1, y2, ..., ym} ning olgu teada ka nende jaotused.

Summa. Kahe juhusliku suuruse (X, P(X)) ja (Y, P(Y)) summaks X+Y loeme juhuslikku suurust (Z, P(Z)) = {(zk, p(zk)}, mille korral

zk = xi + yj (i=1,2,...,n; j=1,2,...,m) ja p(zk) = p(xi,, yj).Kui X ja Y on sõltumatud diskreetsed juhuslikud suurused, siis tulenevalt üksikväärtustele

vastavusse seatavate sündmuste sõltumatusest saame väita, et tõenäosus p(zk) = p(xi)∙p(yj). Sõltuvate juhuslike suuruste korral tuleb arvestada tinglikke tõenäosusi.

Korrutis. Kahe juhusliku suuruse (X, P(X)) ja (Y, P(Y)) korrutiseks X∙Y loeme juhuslik-ku suurust (Z, P(Z)) = {(zk, p(zk)}, mille korral väärtus on zk = xi∙yj (i=1,2,...,n; j=1,2,...,m) ja vastava väärtuse tõenäosus on p(zk) = p(xi,yj).

Samuti nagu summa korral kehtib siingi: kui X ja Y on sõltumatud diskreetsed juhuslikud suurused, siis p(zk) = p(xi)∙p(yj); sõltuvate juhuslike suuruste korral tuleb arvestada tinglikke tõenäosusi.

Vahe. Kahe juhusliku suuruse (X, P(X)) ja (Y, P(Y)) vaheks X-Y loeme juhuslikku suurust (Z, P(Z))={(zk, p(zk)}, kus zk = xi - yj (i=1,2,...,n; j=1,2,...,m) ja p(zk) = p(xi∙xj).

Juhul, kui X ja Y on sõltumatud diskreetsed juhuslikud suurused, siis p(zk) = p(xi)∙p(yj); sõltuvate juhuslike suuruste korral tuleb arvestada tinglikke tõenäosusi.

Toodud tehete korral on oluline jätta meelde üldine tõsiasi - sõltumatute juhuslike suuruste väärtuste vahel teeme vajaliku tehte (liidame, korrutame, lahutame), tulemuse tõenäosuse saamiseks tuleb aga igal juhul lähteväärtuste tõenäosused korrutada. Seda on lihtne selgitada tuginedes sündmustele. Tõepoolest, kui vaadelda väärtustele vastavaid sündmusi, siis iga tehte korral kehtib tulemuses väide “toimub sündmus A (juhuslik suurus X=xi )” ja “toimub

17

Page 18: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

sündmus B (juhuslik suurus Y=yj)” ja seega peame leidma sündmuste A ja B korrutise tõe-näosuse. Teine oluline aspekt on, et erinevate X ja Y väärtuste korral võivad tehte tulemusena saadavad väärtused kokku langeda.

Näide 4.3. Mees ja naine käivad juhutöödel. Saadav päevapalk on mõlemal juhuslik suu-rus, kusjuures mees teenib päevas kas 100, 150 või 200 krooni; naine kas 150 või 250 krooni. Oletame, et nende juhuslike suuruste (mehe ja naise päevateenistus) korral on teada ka iga väärtuse saamise tõenäosus:

Mees: X 100 150 200 Naine: Y 150 250

p(xi) 0,3 0,5 0,2 p(yi) 0,4 0,6

Perekonna päeva sissetuleku, kui juhusliku suuruse, leidmiseks saame lähtudes ülalpool toodud reeglitest koostada jaotustabeli:

Perekond: Z 250 300 350 400 450

p(zi) 0,12 0,2 0,26 0,3 0,12

4.3 Juhusliku suuruse arvkarakteristikudJuhusliku suuruse arvkarakteristikud on analoogilised nendele, mida arvutatakse üld-

statistikas sagedustabeli põhjal. Eriti suur on analoogia diskreetse juhusliku suuruse korral. Allpool defineerime mõisted mood, keskväärtus ja dispersioon, lähtudes jaotustabelist.

4.3.1 MoodDi skreetse juhusliku suuruse moodiks xmo nimetame juhusliku suuruse kõige suurema tõe-näosusega esinevat väärtust. Kuna sama tõenäosusega võib olla mitu väärtust, siis ei ole mood määratud üheselt. Seega väärtus xmo on mood, kui )p(xmax)p(x i

xmo

i

= .

Kui juhuslikul suurusel on üks mood, siis nimetatakse seda unimodaalseks, kui mitu – multimodaalseks

4.3.2 KeskväärtusDiskreetse juhusliku suuruse X={x1, x2, ...} keskväärtuseks EX nimetatakse arvu

∑∈

=Xx

iii

)p(xxEX

Keskväärtust nimetatakse ka matemaatiliseks ootuseks ehk ooteväärtuseks. Selgitame keskväärtuse mõistet näite abil.

Näide 4.4. Kasiino kinkis lasteaiale jõuludeks mänguautomaadi. Seda oli igati lastepärane ja lihtne käsitleda. Lapsel ei pruukinud teha muud, kui lasta automaati üks eurone münt ja kohe pistsid lagendikul sihitult ringi jooksma 7 hunti, 5 ilvest, 4 karu, 3 tiigrit ja 1 lõvi. Suva-

18

Page 19: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

lisel hetkel päästikule vajutades langes üks mänguautomaadi poolt juhuslikult valitud loom jahisaagiks. Kui selleks oli tiiger, maksis automaat mängijale preemiaks 2 eurot, loomade kuninga lõvi püüdmise korral aga 5 eurot. Põhjamaiste ulukite korral sai mängijale osaks sõb-ralik soovitus „Proovi veel”.

Leida lapse mängu võidu keskväärtus (võidu matemaatiline ootus). Lapsed on mängust vaimustuses, sest igaüks neist unistab vahetada oma eurone münt viielise vastu. Aga kuidas näeb välja tegelikkus? Kogu ülesande andmestiku võime koondada järgmisse tabelisse:

Hunt Ilves Karu Tiiger LõviUlukite arv 7 5 4 3 1Uluki tabamise tõenäosus p=k/n 0,35 0,25 0,2 0,15 0,05Tabamise preemia 0 0 0 2 5

Võit mängu lõpul xi -1 -1 -1 1 4

Korrutis xi*p(xi) -0,35 -0,25 -0,2 0,15 0,2

Vastavalt keskväärtuse arvutamise valemile ∑=

=5

1iii )p(xxEX , saame leida võidu keskväär-

tuse EX = -1* 0,35 + (-1)*0,25 + (-1)*0,2 + 1*0,15 + 2*0,2 = -0,45Kokkuvõttes võime öelda, et igati kasulik kingitus – kinkijale! Täiendusena toodud näitele

soovitan analüüsida juhtumit, kui kasiino ühel päeval otsustab maksta ka tiigri eest pree-miaks 7 eurot.

Nagu näha, on diskreetse juhusliku suuruse keskväärtus teatud kaalutud summa, kus kaaludeks on tõenäosused.

Keskväärtuse omadused. Leiame juhusliku suuruse keskväärtuse põhilised omadused, mis on vajalikud kursuse edasistes osades. Nende tõestamisel on oluline arvestada, et disk-reetse juhusliku suuruse tõenäosuste summa üle kõikide võimalike väärtuste võrdub ühega.

1) Ec=c - konstandi keskväärtus on võrdne sama konstandiga: Ec = c (tõestada!)2) E(cX) = cEX (tõestada!)3) E(X+Y) = EX + EY - juhuslike suuruste summa keskväärtus võrdub keskväärtuste

summaga (tõestamata)4) E(X-Y) = EX - EY (tõestuses kasutada ära omadusi 2 ja 3)5) Sõltumatute juhuslike suuruste korrutise keskväärtus võrdub keskväärtuste korruti-

sega E(X•Y) = EX•EY:

∑ ∑∑∑∑ ∑ ⋅====i j

jji

iij

jijii j

jiji EYEX)p(yy)p(xx))p(yp(xyx)y,p(xyxE(XY)

4.3.3 DispersioonKõrvuti juhusliku suuruse keskväärtusega on juhusliku suuruse iseloomustamisel oluline

hinnata ka tema väärtuste hajuvust keskväärtuse suhtes. Hajuvuse määratlemiseks võib kasu-tada mitmesuguseid hinnanguid, kuid levinuimaks on dispersioon ja standardhälve.

Juhusliku suuruse dispersiooniks nimetatakse arvu: DX = E(X-EX)2.

19

Page 20: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Kasutades keskväärtuse definitsiooni saame diskreetse juhusliku suuruse korral disper-siooni kirjutada kujul: ∑=

ii

2i )p(xEX) - (xDX .

Dispersiooni korral kasutatakse summaarse hajuvuse hindamiseks hälvete ruutude sum-mat, et keskväärtuse suhtes erimärgilised hälbed summas ei kustutaks üksteist. Ruuthälbe kasutamisel on aga puuduseks see, et hälbe mõõtmiseks kasutatav ühik on samuti ruudus. Nimelt, kui näiteks meie juhuslik suurus on mõõdetav meetrites, siis dispersioon (ruuthälve) avaldub ruutmeetrites. Selle vältimiseks võetakse praktikas kasutusele ruutjuur dispersioonist.

Arvu DX = σ nimetatakse juhusliku suuruse standardhälbeks.Vaatleme dispersiooni mõningaid edaspidises olulisi omadusi. Seejuures eeldame, et ju-

huslikud suurused X ja Y on sõltumatud.1) Dc = 0 (tõestada)2) D(cX) = E(E(cX) - cX)2 = E(c2(EX-X)2) = c2E(EX-X)2 = c2DX3) DX = E(X-EX)2 = E(X2 -2XEX +(EX)2) = EX2 - 2EXEX + E(EX)2 = EX2 - (EX)2 4) D(X + Y) = E(X + Y)2 - (E(X+Y))2 = EX2 + 2 EX EY + EY2 - (EX)2 – 2 EX EY - (EY)2 =

=EX2 - (EX)2 + EY2 - (EY)2 = DX +DY (teise võrduse juures kasutasime sõltumatust)5) D(X - Y) = E(X - Y)2 - (E(X-Y))2 = EX2 – 2 EX EY + EY2 - (EX)2 + 2 EX EY - (EY)2 =

=EX2 - (EX)2 + EY2 -(EY)2 = DX +DY

20

Page 21: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

5 DISKREETSE JUHUSLIKU SUURUSE TEOREETILISI JAOTUSIDiskreetne juhuslik suurus on antud oma võimalike väärtuste loeteluga ja eeskirjaga, mis

igale väärtusele seab vastavusse selle väärtuse omandamise tõenäosuse. Kui võimalikud väär-tused ja/või vastavust korraldav eeskiri on teatud kindla kujuga, siis on meil tegemist vastavat liiki (teoreetilise) jaotusega. Iga sellise liigi korral saame enamasti leida lihtsad valemid jaotuse arvkarakteristikute (siin käsitleme vaid keskväärtust ja dispersiooni) leidmiseks.

Käesolevas paragrahvis vaatleme diskreetse juhusliku suuruse enamlevinud jaotusi, mil-leks on ühtlane jaotus, binoomjaotus ja Poissoni jaotus.

5.1 Diskreetse juhusliku suuruse jaotusi 5.1.1 Ühtlane jaotus

Ütleme, et diskreetne juhuslik suurus X = {x1, x2, ..., xn} on ühtlase jaotusega, kui kõikide väärtuste esinemistõenäosused on võrdsed, st p(xi) = p(xj) iga i, j = 1, 2, ..., n korral. Kuna

kõikide väärtuste tõenäosuste summa peab võrduma ühega: 1 = )xp( i

n

1=i∑ , siis lähtudes defi-

nitsioonis antud väärtuste tõenäosuste võrdsusest on lihtne järeldada, et iga väärtuse tõenäo-sus p(xi) = 1/n.

Ühtlase jaotuse graafik tulpdiagrammina näeb välja selline:

x1 x2 xn . . . .

p(xi)

Ühtlase jaotuse keskväärtus: ∑∑ ∑== =

=⋅=⋅=n

1ii

n

1i

n

1iiii x

n1

n1x)p(xxEX on tegelikult väärtuste

aritmeetiline keskmise.

Dispersioon:2n

1ii

n

1i

2i

22 xn1x

n1(EX)EXDX

−=−= ∑∑

==

, on ruutkeskmise ja aritmeetilise

keskmise ruudu vahe.

Näide 5.1. Leida täringuviskel saadavate silmade arvu keskväärtus.Lahendus. EX=1/6(1+2+3+4+5+6)=3,5.

21

Page 22: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

5.1.2 BinoomjaotusOlgu juhusliku suuruse X võimalikeks väärtusteks naturaalarvud X = {0, 1, 2, ..., n}. Rõ-

hutamaks fakti, et tegu on täisarvudega, võtame kasutusele sümboli k = 0, 1, ..., n.Ütleme, et juhuslik suurus X on binoomjaotusega, kui tema iga väärtuse X = k tõenäosus on antud valemiga knkk

n p)(1pCk)P(n, −−= , kus p on reaalarv vahemikus nullist üheni: 0 ≤ p ≤ 1. Sobivus. Selleks, et see tõenäosuse arvutamise eeskiri võiks üldse olla juhusliku suuruse tõe-näosuse jaotuseks, peab kõikidele väärtustele vastavate tõenäosuste summa võrduma ühega. Näitame, et ülal toodud valemi korral see kehtib.

Lähtume Newtoni binoomvalemist, mille üldkuju on: ∑=

−=+n

0k

knkkn

n yxCy)(x .

See võrdus kehtib suvaliste reaalarvuliste väärtuste x ja y korral. Praegusel juhul, võttes x = p ja y = 1-p, võime kõikide väärtuste tõenäosuste summa kirjutada kujul

1p))(1(pp)(1pCk)P(n,n

0k

nknkkn

n

0k=−+=−= ∑∑

=

=,

mis tõestabki väite.

Keskväärtus. Vastavalt diskreetse juhusliku suuruse keskväärtuse definitsioonile võime bi-noomjaotusega juhusliku suuruse keskväärtuse kirjutada kujul:

∑∑=

=

−=⋅=n

0k

knkkn

n

0kp)(1pkCp(k)kEX (5.1)

Osutub, et seda valemit saab tunduvalt lihtsustada. Selleks lähtume jällegi Newtoni bi-noomvalemist võttes x = p ja y = 1-p = q ning sellise tähistuse tulemusena võime Newtoni bi-noomvalemi kirjutada:

k-nkkn

n

0=k

n qp= q)+(p C∑ .

Edasi teeme järgmised tehted:1) võtame võrduse mõlemalt poolelt tuletise muutuja p järgi ning saame:

qpCk= q)+(pn k-n1-kkn

n

0=k

1-n ∑2) korrutame mõlemaid pooli suurusega p:

qpCk= q)+(ppn k-nkkn

n

0=k

1-n ∑Arvestades nüüd, et p+q =1, saame võrduse vasakul pool tulemuseks np ja paremal pool

keskväärtuse EX arvutamise valemi binoomjaotuse korral (5.1). Kokkuvõtte saime binoom-jaotusega juhusliku suuruse keskväärtuse leidmiseks lihtsa avaldise:

EX = np.

Dispersioon. Saab näidata, et binoomjaotuse dispersioon avaldub samuti lihtsa avaldisenaDX=npq.

22

Page 23: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Selle tõestus on suhteliselt lihtne, asjasthuvitatute jaoks toon selle joonealuse märkusena*1 Rakendatavus. Binoomjaotus on kahe parameetriga jaotus (nendeks on n ja p), mida tähista-takse B(n,p). Väidet, et juhuslik suurus X on binoomjaotusega kirjutame kujul X ~ B(n, p). Binoomjaotuse tuletamisel me ei sidunud teda mitte mingi konkreetse juhtumiga - binoom-jaotus on teoreetiline jaotus. Kerkib loomulik küsimus, millised juhuslikud suurused on jaotu-nud binoomjaotuse järgi?

Üldjuhul on binoomjaotusega tegemist, kui juhuslik suurus X={0, 1, …, n} rahuldab järgmisi tingimusi:

- juhuslikuks suuruseks X=k on sündmuse esinemise kordade arv: 0, 1, ..., n katse-seerias pikkusega n;

- igal katsel vaadeldav sündmus toimub tõenäosusega p, mis on muutumatu kõikide n katse korral ja katsete tulemused on sõltumatud.

Näide 5.2. Oletame, et üliõpilaste teadmiste kontrollimiseks koostati test, mis sisaldab neli küsimust, millele saab vastata kas “jah” või “ei”. Testi sooritanuiks loetakse kõik need üliõpilased, kes vastasid õigesti ära 3 või 4 küsimust. Üks üliõpilane ei teadnud ainet ja vastas kõikidele küsimustele juhuslikult. Leida õigete vastuste arvu jaotus ja tõenäosus, et üliõpilane sooritas testi edukalt.

Lahendus. Tegemist on neljast katsest koosneva katseseeriaga, milles iga katse korral arvab üliõpilane õige vastuse ära tõenäosusega p=0,5, seega tegu on binoomjaotusega B(n,p)=B(4, 0.5). Kasutades ülal toodud valemit saame leida jaotustabeli

Õigete vastuste arv xi 0 1 2 3 4)p-(1pC = i)(P(n,=)xP( i-nii

ni 0.0625 0.25 0.375 0.25 0.0625

Siit on kerge leida, et testi sooritamise tõenäosus antud tingimustel on küllaltki suur:P(X≥3) = 0,25 + 0,0625 = 0,3125

ja seega ligikaudu iga kolmas ainet mittetundev üliõpilane sooritab testi.Leida iseseisvalt, mis juhtub, kui üliõpilane kirjutab kõikidele küsimustele vastuseks

"jah"?

*1 Asjasthuvitatud võivad saadud tulemust kontrollida. Tõestamiseks võtame ülal saadud võrdusest

qpCk= q)+(ppn k-nkkn

n

=0k

1-n ∑ veelkord tuletise p järgi. Saame

qpCk= q)+(p1)p-n(n +q)+(pn k-n1-kkn

2n

=0k

2-n1-n ∑ .

Korrutades nüüd mõlemaid pooli suurusega p on tulemuseks :

qpCk= q)+(pp1)-n(n +q)+(pnp k-nknk

2n

=0k

2-n21-n ∑ .

Arvestades seoseid qpCk= EX k-nkkn

2n

=0k

2 ∑ ja p+q = 1, saame EX2 = np + n(n-1)p2

Teiselt poolt vastavalt dispersiooni omadustele võime kirjutada

DX = EX2 - (EX)2 = np +n(n-1)p2 - n2p2 = np + n2p2 - np2 - n2 p2 = np(1-p) = npq,

mis annabki tõestatava tulemuse.23

Page 24: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

5.1.3 Poissoni jaotus

Definitsioon ja omadusedÜtleme, et täisarvulisi väärtusi omav juhuslik suurus k = 0, 1, 2, ... on Poissoni jaotusega,

kui iga väärtuse tõenäosus on leitav valemiga ek!λ= p(k) λ-

k

, kus jaotuse parameeter λ > 0 on

konstant. Jaotuse parameetril on oma kindel tähendus, mis selgub allpool.

Sobivus. Näitame kõigepealt, et toodud valem ek!λ= p(k) λ-

k

sobib üldse juhusliku suuruse

tõenäosuse jaotuse andmiseks, st kõikide väärtuste tõenäosuste summa võrdub ühega:

∑∞

=

=0k

1p(k) .

Tõepoolest, on teada eλ määratlus summana ∑∞

=

=0k

k!λe . Seega saame väga lihtsalt

1eek!λee

k!λ

0k

λλ

0k

kλλ

k

=⋅==∑ ∑∞

=

−∞

=

−− .

Keskväärtus. Leiame Poissoni jaotusega juhusliku suuruse X keskväärtuse:

Seega - jaotuse parameeter λ ei ole midagi muud kui Poissoni jaotusega juhusliku suuruse keskväärtus.

Kasutades valemit DX = EX2 - (EX)2 saame leida, et Poissoni jaotusega juhusliku suuruse dispersioon on samuti DX = λ.

Kokkuvõttes saime, et Poissoni jaotuse kasutamiseks on vaja teada vaid ühte parameetrit λ, mis on nii jaotuse keskväärtuseks kui ka dispersiooniks. Poissoni jaotus on ühe parameet-riga jaotus ja teda tähistatakse P(λ)3.

Rakendatavus. Millised juhuslikud suurused alluvad Poissoni jaotusele?

*3Mõtleme korraks ka jaotuse parameetrite tähendusele. Kui me teame nt binoomjaotuse pa-rameetreid n ja k siis on jaotus täielikult kirjeldatud. Jaotuse parameetrite arv ongi mõistetav kui minimaalne komplekt infot, mis jaotuse ära kirjeldab. Poissoni jaotusel oli ainult üks pa-rameeter, samuti ühtlasel jaotusel (väärtuste hulga suurus), binoomjaotusel aga kaks. Suva-lisel diskreetsel jaotusel on parameetreid ühe võrra vähem kui väärtusi (sest kui väärtuste tõe-näosused summeeruvad üheks siis saame ühe väärtuse tõenäosuse ülejäänud väärtuste tõe-näosuste abil alati leida).

λee λ= 1)!-(k

λeλ = e1)!-(kλ = ek!

λk = EX λλ1-k

1=k

λ-λ-k

1=k

λ-k

0=k

=−∞∞∞

∑∑∑

24

Page 25: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Vaatleme juhuslike sündmuste voogu ajas ning seame eesmärgiks leida kindlas ajava-hemikus toimuvate sündmuste arvu tõenäosus. Selliseid protsesse, kus ülesande püstitus vastab toodud sõnastusele, on tegelikkuses küllaltki palju. Näiteks kosmoselaeva tabavate meteoriitide arv, järjekorras seisvate inimeste arv, serverile saabuvate pöördumiste arv, jne. Mitte iga sündmuste vooga seotud sündmuse toimumiste arv kui juhuslik suurus ei allu Pois-soni jaotusele. Poissoni jaotusega on tegemist juhul, kui vaadeldav protsess rahuldab järgmisi tingimusi:

- juhuslikuks suuruseks on vaadeldavas ajavahemikus toimuvate sündmuste arv,- sündmuse toimumine teatud ajavahemikus ei sõltu selle ajavahemiku algus- ja

lõppmomendist (protsess on statsionaarne),- kaks sündmust ei toimu samaaegselt (protsess on harilik),- sündmuste toimumise arv vahemikus ei sõltu nende arvust eelmises vahemikus

(protsess on järelmõjuta).Praktilises elus selliseid kõiki nõudeid täielikult rahuldavaid ideaalseid protsesse ei

esine, kuid teatud lähendusega saame paljusid juhuslikke suurusi lugeda jaotunuks Poissoni jaotuse järgi.

Näide 5.3. Oletame, et meil on tegemist teenindusasutusega, kus iga kliendi teenin-damiseks kulub 15 minutit. Kaheksa tunnise tööpäeva jooksul külastab seda asutust keskmi-selt 20 inimest. Leida tõenäosus, et korraga on asutuses üle kahe kliendi.

Üle kahe kliendi on asutuses parajasti siis, kui 15 minuti jooksul tuleb rohkem kui kaks inimest. Keskmiselt tuleb 15 minuti jooksul (vaadeldav ajavahemik) 20 / 4*8 = 0,625 klienti, st λ = 0,625 ja tegemist on Poissoni jaotusega P(λ) = P(0,625).

Seega leiame tõenäosuse, et tuleb üle kahe kliendi:P(k>2)= 1 - P(k=0) - P(k=1) - P(k=2) ==1- (0.6250e-0.625 )/1- (0.6251e-0.625 )/1-(0.6252e-0.625 )/2=

=1 – 0.535 – 0,335 - 0.105 = 0.026Seega üle poolte külastajatest tulevad kontorisse kui seal pole ühtegi külastajat ja vaid

2,6% külastajaist näeb enda ees vähemalt kahte inimest.Oletame nüüd, et päevas külastab seda asutust mitte 20 vaid 40 inimest. Kuidas muutuvad

vastavad tõenäosused? Leiame λ = 40 / 32 = 1,25.

132,0224,0358,0286,012!

625,0-1!

625,0-0!

625,0-1

2)p(k-1)p(k-0)p(k-1= 2)p(k652,02652,01652,00

=−−−=⋅⋅⋅=

====>−−− eee

Seega, antud tingimustel teenindatakse alla kolmandiku külastajaist kohe, kuid 13% näeb enda ees vähemalt kahte külastajat ja peab ootama.

Poissoni piirteoreem Binoomjaotuse rakendamisel võivad tekkida arvutuslikud raskused. Oletame näiteks, et

meil on antud katsete kordamiste arv n=160 ja vaadeldav sündmus võib esineda tõenäosusega

25

Page 26: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

0,005. Selleks, et leida tõenäosust, kus vaadeldav sündmus esineb täpselt 2 korda, peame

leidma 9950. 0050.158! 2!

160!=P(160,2) 1582

Kuigi siin saab teha mõningaid lihtsustusi, on selle avaldise väärtuse leidmine ikkagi piisavalt suur töö.

Teoreem. Kui juhuslik suurus X on binoomjaotusega B(n,p), siis katsete arvu piiramatul suurendamisel on binoomjaotus lähendatav Poissoni jaotusega P(λ), kus λ=n·p.

Poissoni jaotus lähendab binoomjaotust küllalt hästi just sündmuse toimumise väikeste tõenäosuste korral (p≤0,1) korral, kusjuures eeldatakse ikka piisavalt suurt katsete arvu. See tuleneb Poissoni jaotuse olemusest: üksikute sündmuste voog, mille korraga esinemise tõe-näosus on väike. Poissoni piirteoreemi võime kirjutada kujul:

ek!

)(np= P(np) p)B(n, np-k

≈ .

Näide 5.4. Lennufirma andmeil on keskmiselt 200 reisija hulgas üks reisija imikuga. Len-nukis on 160 reisijakohta ja kaks istet imikutele. Lihtsuse mõttes eeldame, et kõik reisija-kohad on alati täidetud. Leida tõenäosus, et imiku kohtadest tuleb puudus.

See on tüüpiline binoomjaotuse juhtum (p=1/200=0,005; n=160; k>2), kuid ülesande lahendamine binoomjaotust kasutades on arvutuslikult ebamugav. Minnes üle Poissoni jaotusele saame leida

P(x=0) = e -λ = e-0.8 = 0,449; P(x=1) = λe -λ = 0.8e-0.8 = 0,359 P(x=2) =0.5 λ2 e -λ = 0.8e-0.8 = 0,143

Otsitav tõenäosus avaldub vahena:

P(“imikuistmetest tuleb puudus”) = 1-(0,449+0,359+0,143) = 0,049. Seega küllaltki harva, vaid 5% juhtudest tuleb imikuistmetest puudus.

26

Page 27: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

6 PIDEV JUHUSLIK SUURUSJuhuslikku suurust nimetatakse pidevaks juhuslikuks suuruseks, kui ta võib omandada

väärtusi mingist reaalarvude vahemikust: b)}(a,x:{xX ∈= , kus a ja b on reaalarvud ning eeldame a < b. Kuna suvalises reaalarvude vahemikus on lõpmata palju erinevaid väärtusi, siis ei ole pideva juhusliku suuruse võimalike väärtuste hulk piiratud ja üldjuhul on mingi konkreetse väärtuse omandamise tõenäosus võrdne nulliga4. Just väärtuste hulga lõpmatusest tulenevalt on pideva juhusliku suuruse käsitlemisel vaja teistsugust lähenemist.

6.1 Juhusliku suuruse jaotusfunktsioon ja tihedusfunktsioonJuhusliku suuruse X jaotusfunktsiooniks F(x) nimetatakse funktsiooni, mis annab tõe-

näosuse, et juhuslik suurus X on väiksem funktsiooni argumendi väärtusest x. Seega tulene-valt definitsioonist:

F(x) = P(X≤x).Üldjuhul võib juhuslik suurus X omandada kõiki reaalarvulisi väärtusi:

)},(x:{xX ∞− ∞∈= . Sellest tulenevalt saab tõestada jaotusfunktsiooni järgmised omadused:1. 0F(x)lim

x=

− ∞→

Omaduse tõestamiseks läheme üle sündmuse tõenäosusele ja saame 0P(Ø))P(X x)P(XlimF(x)lim

xx==− ∞≤=≤=

− ∞→− ∞→ ,

kuna tegu on võimatu sündmusega – ükski arv ei saa olla väiksem kui -∞.2. 1F(x)lim

x=

∞→

Analoogiliselt esimese omaduse tõestamisele kirjutame ( ) 1ΩP)P(Xx)P(XlimF(x)lim

xx==∞≤=≤=

∞→∞→ ,

sest väide, et X ≤ ∞ on alati tõene.3. Jaotusfunktsioon on mittekahanev, st suvalise kahe arvu a ja b korral, kui a < b,

F(b) ≥ F(a). Tõestamiseks seome vaadeldavad arvuvahemikud sündmustega:

olgu A sündmus, et X ≤ a, B sündmus,et a < X ≤ b ja C sündmus, et X ≤ b.

Kerge on näha, et kolme sündmuse vahel kehtib seos C = AUB. Kuna sündmused A ja B on teineteist välistavad, saame liitmislause põhjal P(C) = P(AUB )=P(A) + P(B). Arvestades nüüd sündmuste A, B ja C tähendusi, võime kirjutada: P(X≤b)=P(X≤a)+P(a < X ≤ b) ja läh-tudes jaotusfunktsiooni definitsioonist on meil tulemus F(b) = F(a) + P(a < X ≤ b). Kuna tõe-näosus on alati mittenegatiivne, siis saamegi siit F(b) ≥ F(a).

1. Kui a < b, siis P(a < X ≤ b) = F(b) - F(a). See tuleneb vahetult eelmise omaduse tõestusest.

*4Seetõttu pideva juhusliku suuruse X korral P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = P(a ≤ X ≤ b)27

Page 28: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Tegelikult võime jaotusfunktsiooni defineerida ka esitatu suhtes vastupidiselt, lähtudes tõestatud omadustest.

Definitsioon. Iga funktsioon, mis rahuldab omadusi 1-3 sobib mingi juhusliku suuruse jaotusfunktsiooniks.

Seda definitsiooni kasutame hiljem selleks, et kontrollida, kas antud funktsioon sobib üld-se jaotusfunktsiooniks, kas ta aga võiks sobida vaadeldavale juhuslikule suurusele tuleb kontrollida kasutades vastavaid meetodeid (vt. osa 12).

Diskreetse juhusliku suuruse korral oli jaotusfunktsioon määratud kui argumendist väikse-

mate väärtuste tõenäosuste summa: )p(x)xP(X)F(x jii ∑≤

=≤=ij xx

. Olemuselt midagi sarnast

saame määratleda ka pideva jaotuse korral, kuid siin on tegu lõpmatult väikeste osade sum-maga.

Eeldades jaotusfunktsiooni pidevust kirjutame välja suhte: Δx

F(x)Δx)F(x −+. Minnes üle

piirväärtusele saame leida funktsiooni f(x) kui jaotusfunktsiooni tuletise:

f(x)(x)FΔx

F(x)Δx)F(xlim0Δx

=′=−+→

Integreerides võrrandi f(x)(x)F =′ mõlemaid pooli, võib saadud võrduse kirjutada kujul:

∫∞−

=x

f(x)dxF(x) (6.1)

Üldjuhul võime öelda: kui leidub selline funktsioon f(x), et kehtib võrdus (6.1), siis seda funktsiooni nimetatakse juhusliku suuruse X tihedusfunktsiooniks ehk lühidalt tiheduseks.

Tihedusfunktsioonil f(x) on järgmised omadused:1) f (x) ≥ 0 . Tuleneb sellest, et jaotusfunktsioon F(x) on mittekahanev (murru lugeja

ei ole negatiivne) ja Δx

F(x)Δx)F(xlim(x)Ff(x)0Δx

−+=′=→

avaldub kahe positiiv-

se arvu suhtena.2) 0f(x)lim

x=

− ∞→ ja 0f(x)limx

=∞→ . Kuna piirsituatsioonis on jaotusfunktsioon konstantne

F(-∞)=0 ja F(∞)=1, siis ka tema kasvukiirust väljendav funktsioon f(x) läheneb nulli-le.

3) ∫∞

∞−

= 1f(x)dx . Tõestus: ∫∫∞−

∞→

∞−∞→

===x

xx1F(x)limf(x)dxlimf(x)dx

4) dx f(x) = b) X P(ab

a∫≤< . Tõestus: Tulenevalt jaotusfunktsiooni ja integraali omadustest

∫∫∫∞−∞−

=−=−=≤<b

a

ab

f(x)dxf(x)dxf(x)dxF(a)F(b)b)XP(a

Kuna jaotusfunktsioon ja tihedusfunktsioon on omavahel analüütiliselt seotud, siis piisab juhusliku suuruse kirjeldamiseks ükskõik kumma teadmisest. Järgnevas kasutame nende va-helist seost kujul:

∫∞−

=x

f(x)dxF(x) või f(x)(x)F =′ .

28

Page 29: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Nagu jaotusfunktsiooni korralgi, võime tihedusfunktsiooni kohta väita: iga funktsioon, f(x) mis rahuldab omadusi 1-3 sobib mingi juhusliku suuruse jaotusfunktsiooniks.

Jaotusfunktsiooni ja tihedusfunktsiooni omadused näitavad, et ainult teatud kindla kujuga funktsioonid saavad väljendada juhusliku suuruse tõenäosuse jaotust. Visuaalse pildi saamiseks jaotusfunktsiooni ja tihedusfunktsiooni kujust soovitan lugejal, lähtudes nende omadustest, visandada nende funktsioonide graafikud.

Jaotusfunktsioon (tihedusfunktsioon) kirjeldab täielikult juhusliku suuruse käitumist tõe-näosuslikust aspektist. Teades jaotust saame leida vastused paljudele küsimustele, näiteks: milline on juhusliku suuruse vahemikku langemise tõenäosus, kui tihedalt on väärtused koondunud oma keskväärtuse ümber, milline on juhusliku suuruse oodatav väärtus jne. Seega – me oskaksime kõike seda leida, kui vaid teaksime juhuslikule suurusele X vastavat tihedus-funktsiooni f(x) või jaotusfunktsiooni F(x). Näiteks on juhuslikuks suuruseks üliõpilase ku-lutused raamatutele, inimese jala suurus, inimese sissetulek, tööealiste inimeste arv jne, jne. Teades nende juhuslike suuruste jaotusfunktsiooni on võimalik leida näiteks tõenäosuse, et inimese sissetulek on mingis vahemikus, kui paljude inimeste sissetulek on teatud vahemikus, kui palju üliõpilasi kulutab raamatutele rohkem kui x krooni jne. Kuidas aga leida vajalik jaotusfunktsioon? Osutub, et on võimalik leida terved sarnaselt käituvate juhuslike suuruste pered, milles juhuslikud suurused käituvad analoogiliselt ja nende jaotusfunktsioonid erine-vad üksteisest vaid parameetrite väärtuste poolest. Sellest tulenevalt määratletakse teatud tüüpjaotused ja püütakse iga uuritava juhusliku suuruse korral määrata, millise tüüpilise situa-tsiooni (teoreetilise jaotuse) alla saab teda viia.

Teoreetiliste jaotuste kirjeldamisel ja kasutamisel on vaja teada mõningaid juhuslikke suurusi iseloomustavaid karakteristikuid, mis tulenevad jaotusfunktsioonist (tihedusfunkt-sioonist). Enne kui vaadelda konkreetseid teoreetilisi jaotusi, käsitleme pidevat juhuslikku suurust iseloomustavaid parameetreid.

6.2 Pideva juhusliku suuruse arvkarakteristikud 6.2.1 Kvantiilid

Juhusliku suuruse väärtust xme, mille korral jaotusfunktsioon omandab väärtuse ½ nimeta-takse mediaaniks. Seega mediaani korral kehtib F(xme)=P(X≤xme) = ½. Seega määrab me-diaan teatud keskmise, nn mediaankeskmise. Näiteks, kui vaadeldav juhuslik suurus X on töötaja palk, siis väärtus xme näitab seda arvu, millest vähem saavad pooled töötajad (keskmi-ne palk kui aritmeetiline keskmine on hoopis midagi muud).

Mediaani korral otsime juhusliku suuruse sellist väärtust, mille korral jaotusfunktsioon omandab väärtuse ½. Praktikas, juhusliku suuruse käitumise kirjeldamisel pakuvad sageli huvi ka teised fikseeritud väärtused, mille korral on vastavale punktile antud oma nimi:

F(x)=P(X≤x) = 1/4 - punkt x on alumine kvartiilF(x)=P(X≤x) = 3/4 - punkt x on ülemine kvartiilF(xk)=P(X≤xk) = k/10 - punkt xk on k-s detsiil (k=1, 2 , ..., 9)

Mõisted mediaan, kvartiil ja detsiil on hästi tuntud üldstatistikas ja siinjuures me nendel eraldi ei peatu. Tegelikult kasutame neid vaid illustreerivate mõistetena, et tuua sisse nende üldistus – kvantiili mõiste. Nimelt on kõiki need mõisted määratletud lähtudes kindlalt ette

29

Page 30: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

antud tõenäosusest ning otsitakse juhusliku suuruse väärtust, mille korral jaotusfunktsioon omandab selle tõenäosuse.

Seega võime teha üldistuse: arvu xα , mille korral jaotusfunktsioon omandab väärtuse α, nimetatakse juhusliku suuruse α-kvantiiliks. Lähtudes jaotusfunktsiooni tähendusest (tõenäo-sus, et juhuslik suurus on väiksem vaadeldavast arvust) võime kirjutada nagu eespoolgi:

F(xα)=P(X≤xα) = α . Seega kvantiil xα on juhusliku suuruse väärtus, millest väiksemaid väärtusi omandab ju-

huslik suurus tõenäosusega α 5 . Matemaatiliselt võime α-kvantiili defineerida järgmiselt: kui F(x) on jaotusfunktsioon, siis

võrrandi F(xα) = α lahendit xα nimetatakse α-kvantiiliks. Vastavatel α väärtustel saame siit kõik ülalvaadeldud erijuhud. Lähtudes sellest matemaatilisest definitsioonist, võime kvantiili leidmiseks kasutada pöördfunktsiooni mõistet:

xα = F-1(α). Kuna jaotusfunktsioon on tihedusfunktsiooniga üksüheselt seotud, siis võime kvantiili de-

fineerida ka lähtudes tihedusfunktsioonist. Lähtudes valemist (6.1), kasutades tihedusfunkt-

siooni, võime α-kvantiili välja kirjutada kui võrrandi αf(x)dx)F(xαx

α == ∫∞−

lahendi xα. Sellist

tõlgendust on mugav kasutada kvantiili xα tähenduse graafiliseks kujutamiseks:

Kvantiili mõistega on tihedalt seotud täiendkvantiili mõiste. Nimelt, juhusliku suuruse X α-täiendkvantiiliks αx nimetatakse arvu, mille korral kehtib võrdus

ααα =−=> )(1)( xFxXP .Seega - täiendkvantiil on juhusliku suuruse väärtus, millest suuremaid väärtusi omandab

juhuslik suurus tõenäosusega α (0 ≤ α ≤ 1).Kujutades ühel ja samal joonisel (vt allpool) α-kvantiili xα ja 1-α täiendkvantiili α−1x on

kerge veenduda, et kvantiil ja täiendkvantiil on teineteise kaudu avaldatavad:

xαxα1

=−

(6.2)

Vaata esitatud seost järgneval joonisel

*5Pidevate juhuslike suuruste korral on iga üksikväärtuse tõenäosus üldjuhul null

x

f(x) Viirutatud pindala suurus = α

Kvantiil xα

30

Page 31: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

6.2.2 KeskväärtusPideva juhusliku suuruse keskväärtus on analoogiline diskreetse juhusliku suuruse kesk-

väärtusega, ainult et definitsioonis peame summeerimise asemel kasutama integreerimist ja üksikväärtuse tõenäosuse asemel kasutame tihedusfunktsiooni.

Definitsioon. Kui f(x) on pideva juhusliku suuruse X tihedusfunktsioon, siis arvu EX, mis

avaldub kujul ∫∞

∞−

= x·f(x)dxEX nimetatakse pideva juhusliku suuruse keskväärtuseks.

Näide 6.3. Olgu

>

≤≤−

<

=

bxkui0,

bxakui,ab

1axkui0,

f(x) juhusliku suuruse X tihedusfunktsioon.

Leida juhusliku suuruse X keskväärtus.

Lahendus. Arvutame: 22

1a-b

1·)(·f2 bax

abdxxdxxxEX

b

a

b

a

+=−

=== ∫∫∞

∞−

Pideva juhusliku suuruse keskväärtuse omadused on samad, mis diskreetse juhusliku suuruse keskväärtuse korralgi. Nende tõestamisel tuleb lähtuda pideva juhusliku suuruse keskväärtuse definitsioonist, eelnevalt on tarvis aga sisse tuua tehted pidevate juhuslike suurustega. Käesolevas kursuses me neid aga ei käsitle.

6.2.3 DispersioonJuhusliku suuruse dispersiooniks nimetatakse arvu:

DX = E(X-EX)2.Kasutades pideva juhusliku suuruse keskväärtuse definitsiooni, saame valemi kujul:

dxf(x)EX)(xDX 2∫∞

∞−

−=

Saab näidata, et pideva juhusliku suuruse dispersiooni omadused on samad, mis diskreetse juhusliku suuruse korralgi.

α 1-α

x

xα= x1-α

φ(x)

P(X<xα)= α

P(X>x1-α)= 1-α

31

Page 32: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

7 PIDEVA JUHUSLIKU SUURUSE JAOTUSI 7.1 Pidev ühtlane jaotus

Kõige lihtsamaks pideva juhusliku suuruse jaotuseks on pidev ühtlane jaotus, mis on sar-nane diskreetse ühtlase jaotusega. Juhuslik suurus X on lõigul [a, b] ühtlase jaotusega, kui lõigu jaotamisel suvaliseks arvuks võrdse pikkusega osadeks on igasse osalõiku sattumise tõenäosused võrdsed.

Juhusliku suuruse X pidevaks ühtlaseks jaotuseks lõigul [a, b] nimetatakse jaotust, mille tihedusfunktsioon avaldub kujul:

>

≤≤−

<

=

bxkui0,

bxakui,ab

1axkui0,

f(x)

kus a ja b on suvalised reaalarvud.On kerge veenduda, et selle funktsiooni korral on täidetud tihedusfunktsiooni omadused 1-

3 (vt punkt 6.1) ja seega saab toodud funktsioon olla tihedusfunktsiooniks (soovitan lugejal välja joonistada selle funktsiooni graafik). Kui juhuslik suurus X on pideva ühtlase jaotusega, siis kirjutame X ~ U(a,b).

Leiame pideva ühtlase jaotuse jaotusfunktsiooni, keskväärtuse ja dispersiooni.

Jaotusfunktsioon: abaxt

ab1dt

ab1f(t)dtF(x)

x

a

x x

a −−=

−=

−== ∫ ∫

∞−

Keskväärtus: 2

ba2

)a(bab

12x

ab1dx

ab1xf(x)dxxEX

22b

a

2 +=−−

=−

=−

== ∫∫∞

∞−

∞−

Dispersioon. Lähtume valemist DX = EX2 – (EX)2 ning leiame kõigepealt:

3baba

3)a(b

ab1

3x

ab1dx

ab1xf(x)dxxEX

2233b

a

3222 ++=−

−=

−=

−== ∫∫

∞−

∞−

Edasi, kasutades juba arvutatud EX väärtust saame:

12)b-(a =

12b-2ab-a =

12a3-6ab-b3-b4+4ab+a4 =

4)a+(b-

3b+ab+a = DX

2222222222

Näide 7.1. Tramm sõidab iga 15 minuti tagant. Ma ei pea meeles trammi peatusest väl-jumisaegu ja lähen alati trammi ootama juhuslikult. Kui kaua ma pean keskmiselt trammi oo-tama?

Lahendus. Selle lahendamiseks ei pea õppima tõenäosusteooriat ja igaüks võib tulemuse peast öelda. Antud juhul saame aga kontrollida, kas meie teoorias saadud tulemus peab paika.

Ilmselt on tegu pideva ühtlase jaotusega X ~ U(0; 15). Tihedusfunktsioonil on kuju

>

≤≤

<

=

15,0

150,151

0,0

)(

xkui

xkui

xkui

xf

ja ooteaja keskväärtus EX= 7,5 minutit.

32

Page 33: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

7.2 Normaaljaotus 7.2.1 Normaaljaotuse definitsioon

Normaaljaotuseks nimetatakse reaalarvulise juhusliku suuruse jaotust, mille tihedus-

funktsioon avaldub kujul 2

2

2σμ)(x

e2πσ

1(x)−−

=ϕ , kus jaotuse parameeter σ > 0 ja μ on reaal-

arv.Normaaljaotuse uurimisel lähtume samast skeemist nagu eelpool toodud jaotuste korralgi:

näitame, et toodud funktsioon sobib tihedusfunktsiooniks ning leiame jaotuse keskväärtuse ja dispersiooni. Nende omaduste tõestused ei ole rasked, kuid nõuavad mõningaid lisateadmisi ning selle kursuse raames toome vastavad tõestused vaid joonealuse märkusena*2.

Tihedusfunktsioon φ(x) on positiivne ja integraal temast võrdub ühega

1dxe2πσ

1(x)dx 2

2

2σμ)(x

== ∫∫∞

∞−

−−∞

∞−

ϕ

Normaaljaotuse keskväärtus μ...dxex2πσ

1EX 2

2

2σμ)(x

==⋅= ∫∞

∞−

−−

Normaaljaotuse dispersioon 22σμ)(x

2 σ...dxex)(μ2πσ

1DX 2

2

==⋅−= ∫∞

∞−

−−

Nagu näha, on normaaljaotusel kaks parameetrit μ ja σ , milledel on kindel sisuline tähendus. Normaaljaotus on kahe parameetriga jaotus, mida tähistatakse N(μ,σ). Normaal-jaotuse tihedusfunktsiooni uurimisel võime teha kindlaks järgmised omadused:

*2 Toodud kolme omaduse tõestamisel kasutame Poissoni integraali π=∫∞

∞−

− dte t 2.

1. 122

21)(

22

2

2

)(

=== ∫∫∫∞

∞−

−∞

∞−

−−∞

∞−

dtedxedxx tx

πσσ

πσϕ σ

µ

, kus tegime muutujavahetuse σµ 2

) - (x = t

ning sellest tulenevalt saime ka dt2 = dx σ .

2.Keskväärtus

µπ

σπ

µσµππσ

σµ

=⋅+⋅=⋅+=⋅= ∫∫∫∫∞

∞−

−∞

∞−

−∞

∞−

−∞

∞−

−−

dtetdtedtedxexEX tttx

2222

2)2(12

1 2)(

kuna sümmeetriline integraal paaritust funktsioonist et t- 2 võrdub nulliga.

3. Dispersioon =⋅=⋅−= ∫∫∞

∞−

−∞

∞−

−−

dtetdxexDX tx

22

22

2)(

2

222)(

21

πσσσµ

πσσµ

Edasi kasutame ositi integreerimise reeglit udv - uv =vdu ∫∫ ning valides konkreetsel juhul 2

; tevtu −−== ning sellest tulenevalt 2

2; ttedvdtdu −== .

Tehes vastavad asendused saame edasi ∫∫∞

∞−

−∞

∞−

−∞

∞−

− =+⋅−=⋅= 222

222)2(2 σ

πσ

πσ dtetetdttet ttt , kuna

esimene liidetav võrdub nulliga (nimetajas on e astmes lõpmatus).33

Page 34: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

1) tihedusfunktsiooni graafik on sümmeetriline sirge x = μ suhtes (näidata!),2) moodiks on punkt x = μ (näidata!),3) asümptoodiks on x-telg

Tuginedes nendele omadustele võime joonistada välja normaaljaotuse tihedusfunktsiooni graafiku kuju:

Sellel graafikul on iseloomulik kuju ja sellist graafikut nimetatakse Gaussi kõveraks.

7.2.2. Standardiseeritud normaaljaotusSuure osa matemaatilise statistika ülesannete korral on vaja leida vaadeldava juhusliku

suuruse mingisse vahemikku langemise tõenäosust, seega – leida tõenäosus P(a < X ≤ b), kus a ja b on ülesande püstitusest tulenevad arvud. Tulenevalt jaotusfunktsiooni F(x) omadusest 4 (vt 6.1) saame leida P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a) = F(b) – F(a). Seega – peame osaka-ma leida tõenäosust P(-∞ < X ≤ x), kus x tähistab meile vajalikku juhusliku suuruse X väär-tust.

Olgu meil nüüd tegemist normaaljaotusega. Lähtudes normaaljaotuse definitsioonist saame selle tõenäosuse välja kirjutada kujul:

dxe2πσ

1dx(x)F(x)P(Xx

2σμ)(xx2

2

∫∫∞−

−−

∞−

===< ϕ)x (7.1)

Siin funktsiooni F(x) argument x on integraali ülemine raja, kuid jätame selle samuti ka integraali aluse funktsiooni argumendiks. See ei tekita segadust, kuna määratud integraali väärtuse leidmine toimub kahes etapis – kõigepealt leitakse integraali alusele funktsioonile vastav algfunktsioon ja seejärel leitakse tema väärtus kasutades määratud integraali rajasid. Kahjuks ei ole lihtsa, elementaarfunktsioonides avalduva algfunktsiooni leidmine aga antud eksponentfunktsiooni korral võimalik ning seetõttu otsitakse mitmesuguseid lihtsustusi. Tõsi, praktilistes arvutustes ei ole tänapäeval selle integraali väärtuse leidmise lihtsustamine oluli-ne, kuna „käsitsi“ arvutamise aeg on möödas. Protseduur normaaljaotusega juhusliku suuruse X~N(μ,σ) jaoks vajalike tõenäosuste leidmiseks on olemas loomulikult kõikides statistilise andmetöötluse pakettides, aga samuti ka tabelarvutussüsteemides. Näiteks tabelarvutussüstee-mis Excel on vastav protseduur

P(X≤x)= NORMDIST(x; μ; σ; true) tabelarvutussüsteemis OpenOffice on see analoogiline

P(X≤x)= NORMDIST(x; μ; σ; 1)

φ(x)

x EX

34

Page 35: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

erinedes vaid tõeväärtuse andmise poolest.Üsna sageli on tarvis lahendada ka pöördülesannet – leida juhusliku suuruse X väärtus xα,

mille korral tõenäosus, et ta omandab sellest arvust väiksemaid väärtusi on α. Seega leida an-tud tõenäosusele α vastav kvantiil: P(X<xα) = α. Ülaltoodud tabelarvutussüsteemides saame seda kirjutada protseduuriga:

xα = NORMINV(α; μ; σ).Kuigi me ei oska valemit (7.1) väljendada elementaarfunktsioonides vältides integraali

leidmist, saame teda lihtsustada sellisel määral, et tema väärtus on siiski leitav ka ilma arvuti-ta. Selline lihtsustus – üleminek nn Laplace'i funktsioonile on oluline nii järgnevas mate-maatilise statistika osa käsitlemisel, kuid võimaldab ka mainitud integraali väärtuste leidmist lihtsate tabelite abil.

Teeme integraalis (7.1) muutujavahetuse σ

μxz −= . Sellel muutujavahetusel on teatud

sisuline tähendus: teisendusega x - μ nihutatakse koordinaattelgede alguspunkt vaadeldava ju-husliku suuruse keskväärtusele vastavasse punkti μ (seega uute telgede nullpunkt ühtib punk-tiga μ vanades koordinaattelgedes). Jagamine arvuga σ muudab skaalat, võttes seal kasuta-tavaks mõõduühikuks standardhälbe.

Otsitava tõenäosuse P(X<x) saame nüüd välja kirjutada kujul:

(z)dze2π1dxe

2πσ1dx(x)F(x)P(X

z2

x2σ

μ)(xx 2

2

2

Φ=====< ∫∫∫∞−

∞−

−−

∞−

z

)x ϕ

Sellist teisendust nimetatakse normaaljaotuse standardiseerimiseks ning ning funktsiooni Φ(z) standardiseeritud normaaljaotuse jaotusfunktsiooniks (ka Laplace'i funktsiooniks).

Standardiseeritud normaaljaotuse tihedusfunktsiooni 2z2

e2π1(z)

−=ϕ graafik on normaal-

jaotuse graafik, mis on sümmeetriline funktsioonitelje suhtes, keskväärtusega punktis z = 0 ning argumenttelje ühikuks on standardhälve σ: Seega võime kirjutada Z ~ N(0,1).

Meie jaoks on edaspidises oluline teada üleminekut:

−==≤

σμxΦF(x)x)P(X

Normaaljaotuse standardiseerimine ei teinud jaotusfunktsiooni (Laplace'i funktsiooni) väärtuste arvutamist oluliselt lihtsamaks, ikkagi on tarvis leida integraal astmefunktsioonist ja ta ei ole avaldatav elementaarfunktsioonide kaudu. Praktikas saadakse kasu aga sellest, et normaaljaotuse parameetrid (keskväärtus μ ja standardhälve σ) „seotakse kokku“ uues muutu-jas z ning kasutades Laplace'i funktsiooni kui integraali väärtuste leidmise ligikaudseid mee-todeid võime iga z korral leida Φ(z) väärtuse. Osutub aga, et argumendi z väärtusi tasub vaadata vaid vahemikus (-5, +5), kuna vahemikust välja jäävate väärtuste korral võime võtta nad konstantseteks: Φ(z>5) ≈ 1 ja Φ(z<-5) ≈ 0. Argumendi ja sellele vastava funktsiooni väärtused on esitatavad leheküljele mahtuva tabeliga (selline tabel on toodud ka käesoleva konspekti lõpus), leitavad aga ka protseduuriga P(Z ≤ z) = NORMSDIST(z,) tabelarvutussüs-teemides.

Edaspidises kasutame palju standardiseeritud normaaljaotuse kvantiile ja täiendkvantiile. Tuletan meelde, et kvantiile vaadeldakse alati seoses mingi kindla tõenäosusega, tähistame

35

Page 36: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

selle tähega α. Sel juhul on α-kvantiil juhusliku suuruse kui tihedusfunktsiooni argumendi väärtus zα., millest väiksemaid väärtusi omandab juhuslik suurus Z tõenäosusega α. Täiend-kvantiil seevastu on väärtus, millest suuremaid väärtusi omandab juhuslik suurus Z tõe-näosusega α. Visuaalse ettekujutuse saamiseks vastavatest suurustest sobib järgnev joonis:

Jooniselt on lihtne näha, et tulenevalt tihedusfunktsiooni sümmeetriast funktsioonitelje suhtes on α-kvantiil ning vastav α-täiendkvantiil omavahel seotud võrdusega

αα zz −= (7.2)

mida edaspidises korduvalt kasutame. Samuti, lähtudes sümmeetriast ja sellest, et P(X≤z)=Φ(z) väljendub joonisel tihedusfunktsiooni graafiku aluse pindalaga, on kerge näha, et suvalise punkti z korral kehtib võrdus:

Φ(z)=1-Φ(-z) (7.3)

Seega saime tulemuseks: tõenäosus, et normaaljaotusega juhuslik suurus X ~ N(μ,σ) on väiksem arvust x, leitakse valemiga:

−==≤

σμxΦF(x)x) P(X

Sellest tulenevalt saame normaaljaotusega juhusliku suuruse X vahemikku [a,b) lange-mise tõenäosuse leida valemiga:

−−

−=−=≤<

σμaΦ

σμbΦF(a)F(b)b)XP(a

Näide 7.2. Olgu mingil maal, mingis ülikoolis tudengi lõunasöögi keskmine maksumus kuus on normaaljaotusega juhuslik suurus, keskväärtusega 50 krooni ja standardhälbega 15, st X~N(50, 15). Leida tõenäosus, et juhuslikult valitud tudengi lõunasöögi keskmine maksumus kuus ei ületa 20 krooni.

Lahendus. Tulenevalt jaotusfunktsiooni tähendusest F(x)=P(X<x), võime vahetult välja kirjutada: P(X≤20) = F(20) = Φ((20-50)/15) = Φ(-2). Kasutades vastavat tabelit või mingit tabelarvutusfunktsiooni6 saame leida Φ(-2) = 0,0228.

Seega tõenäosus, et juhuslikult valitud üliõpilase lõunasöök ei maksa üle 20 krooni on 0,0228, ehk teisiti öeldes - 2,28 % üliõpilastest ei kuluta lõunasöögile üle 20 krooni.

*6 Näiteks Excelis tuleks kirjutada valem =NORMDIST(20;50;15;TRUE)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-5 -4 -3 -2 -1 0 1 2 3 4 5-zα

P(Z<-zα)=α

P(Z>zα)=α

36

Page 37: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

7.2.3. 3- σ reegelVastavalt jaotusfunktsiooni omadustele on juhusliku suuruse X vahemikku (a, b) lange-

mise tõenäosus P(a < X ≤ b) = F(b) - F(a). Eeldades, et juhuslik suurus X on jaotunud nor-

maaljaotuse järgi, saame )σ

μ-aΦ( - )σ

μ-bΦ( = b)XP(a ≤< .

Normaaljaotuse standardiseerimisel läksime üle uuele skaalale, kus mõõtühikuks standard-hälbe. Kasutades eespool toodud valemit anname sellele skaalale iseloomustuse, leides milli-ne osa tõenäosusest langeb keskväärtusest täisarv kordse ühiku kaugusele.

Matemaatiliselt kirja panduna lahendame ülesande: leida tõenäosuse, et normaaljaotusega juhuslik suurus X ~ N(μ, σ) hälbib oma keskväärtusest vähem kui ühe-, kahe või kolme standardhälbe (ühiku) võrra. Seega leiame tõenäosused:1σ korral, kui a = μ - σ , b = μ + σ saame

P(μ – σ < X < μ + σ) = Φ((μ + σ – μ )/σ) – Φ((μ – σ – μ)/σ)= =Φ(1) - Φ(-1) = 0,8413 – 0,1587 = 0,6826

2σ korral, kui a = μ - 2σ , b = μ+ 2σ saame P(μ – 2σ < X < μ + 2σ) =Φ((μ + 2σ – μ) /σ) – Φ((μ – 2σ - μ) /σ)= =Φ(2) - Φ(-2) = 0,9772 – 0,0228 = 0,9544

3σ korral, kui a = μ - 3σ , b = μ + 3σ saame P(μ – 3σ < X < μ + 3σ) =Φ((μ + 2σ – μ)/ σ) – Φ(( μ – 2σ – μ)/ σ)==Φ(3) - Φ(-3) = 0,9987 – 0,0013 = 0,9974

Nendest võrdustest kõige huvipakkuvam on viimane, mida sõnastatakse 3σ-reeglina: nor-maaljaotusega juhuslik suurus praktiliselt ei hälbi oma keskväärtusest rohkem kui kolmekord-se standardhälbe võrra.

7.2.4. Normaaljaotust iseloomustavad tunnused Millised juhuslikud suurused on normaaljaotusega? Normaaljaotusega juhusliku suuruse

tunnused saame sõnastada, kui vaatleme tihedusfunktsiooni omadusi ja 3σ reeglit. Olulisteks tunnusteks on:

- normaaljaotusega juhusliku suuruse väärtused on sümmeetrilised keskväärtuse suhtes,

- normaaljaotusega juhusliku suuruse väärtused on koondunud keskväärtuse ümber ja ei erine keskväärtusest praktiliselt rohkem kui kolmekordse standardhälbe võr-ra,

- juhusliku suuruse tihedusfunktsioonil on Gaussi kõverale sarnanev kuju.Neid kolme tingimust võime praktikas kontrollida konkreetsete andmete põhjal, leides

kõigepealt keskväärtuse kui aritmeetilise keskmise, hinnates seejärel sagedustabeli sümmeet-riat ja väärtuste hajuvust. Allpool, järgmises punktis lähtume aga vastupidisest – eeldame normaaljaotust ja tulenevalt oma intuitiivsest ettekujutusest juhusliku suuruse kohta määrame parameetrid.

37

Page 38: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

7.2.5 TüüpülesandedNagu eespool ütlesime, võimaldab juhusliku suuruse jaotusfunktsiooni (tihedusfunkt-

siooni) teadmine lahendada mitmesuguseid tõenäosuse arvutamisega seotud ülesandeid selle juhusliku suuruse kohta. Siinkohal lähtume normaaljaotusest, st vaatleme juhtu X ~ N(μ, σ), kuid kõikide ülesannete korral võime teha eelduse, et tegemist on mingi teise jaotusega.

Kõikide ülesannete lahendused põhinevad sisuliselt valemil F(a)F(b)b)XP(a −=≤< . Eri ülesannete korral varieeritakse aga sellega, mis on antud ja mis on otsitav. Ülesannete vi-suaalseks ilmestamiseks kasutame toodud valemi tihedusfunktsioonil põhinevat esitust

∫∫∫ =−=−=≤<∞−∞−

b

a

ab

(x)dx(x)dx(x)dxF(a)F(b)b)XP(a ϕϕϕ

kus otsitavat tõenäosust tähistav pindala on toodud joonisel viirutatud:

Võimalike probleemipüstituste näitamiseks lähtume samast ülesandest ning sõnastame eri-nevaid ülesandeid.

Näide 7.2. On kindlaks tehtud, et inimese inteligentsi indeks IQ on normaaljaotusega ju-huslik suurus X ~ N(125, 10).

A. Leida tõenäosus, et juhuslikult valitud inimese IQ on a) väiksem kui 110, b) suurem või võrdne 130.

Lahendus: a) 067,0)5,1()10

125110(F(110)110)P(X =−Φ=−Φ==<

Vastus. Tõenäosus, et juhuslikult valitud inimese IQ on alla 110 on 0,067

b) 0,69Φ(0,5))10

125130Φ(130)P(X1130)P(X ==−=<−=≥

Vastus. Tõenäosus, et juhuslikult valitud inimese IQ on üle 130 on 0,69

B. Mitme protsendi inimeste IQ asub vahemikus 115-135? Teisiti – milline on tõenäosus, et juhuslikult valitud inimese IQ asub selles vahemikus?

φ(x)

a μ b

P(X<110)φ(x)

110 125X

P(X≥130)φ(x)

130125X

P(115<X<135)φ(x)

135125X

11538

Page 39: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Lahendus:

0,6820,1590,8411)Φ(Φ(1))10

125115Φ()10

125135Φ(F(115)-F(135)135)XP(115 =−=−−=−−−==<<

Vastus. Antud jaotuse korral ~68% inimeste IQ on vahemikus 115-135.

C. Leida millisest arvust on 90% inimeste IQ väiksem?Lahendus: See on eelnevatega võrreldes pöördülesanne: teame tõenäosust ja soovime leida millisel juhusliku suuruse väärtusel on täidetud etteantud tingimus P(X<x0,9)=0,9. See viib meid kvantiili mõiste juurde – tarvis on leida normaaljaotuse N(125, 10) 0,9-kvantiil.

0,9)10

125Φ()F()P(X 9,0

9,09,0 =−

==<x

xx edasi saame 28,1(0,9)Φ10

125 1-9,0 ==−x

ning siit x0,9 = 125+10•1,28=137,8Vastus. 90% inimeste IQ on alla 137,8 punkti.

D. Leida millisest indeksi väärtusest on 5% inimeste IQ suurem?Lahendus: Kui eelmises ülesandes oli tarvis leida kvantiil, siis praegusel juhul tuleb leida

täiendkvantiil. Kasutades kvantiili ja täiendkvantiili vahelist seost: xαxα1

=− , võime selle

ülesande taandada eelmisele juhule. Nimelt – 0,05-täiendkvantiili asemel leiame 0,95-kvantiili.

E. Leida, millisesse IQ vahemikku kuulub 50% inimestest.Lahendus: Sellisel kujul ei ole see ülesanne üheselt lahenduv, kuna selliseid vahemikke

võib olla mitu. Seetõttu antakse seda tüüpi ülesannetes mingi lisatingimus. Olgu praegusel ju-hul selleks näiteks – leida keskväärtuse suhtes sümmeetriline vahemik, kuhu kuulub 50% inimestest. Juhusliku suuruse vahemikku (x1, x2) langemise tõenäosus α on määratud valemi-

ga α)σ

μ-xΦ( - )σ

μ-xΦ( = )x<X<P(x 2121 = . Praegusel juhul on otsitavateks vahemiku ots-

punktid x1 ja x2 . Arvestades lisatingimust (sümmeetrilised keskväärtuse suhtes) võime kirju-tada x1 = μ – ε ja x2 = μ + ε ning toodud valemis jääb ainukese tundmatuna sisse otsitavate väärtuste erinevus keskväärtusest ε.

1-)σ

Φ(2))σ

Φ(-(1-)σ

Φ()σ

Φ(-)σ

Φ(

μ-)(Φ( - )σ

μ-)(Φ( = ε)μ<X<ε-P(μ

εεεεε

εµεµ

==−=

=−++

Lahendatavas ülesandes oli antud σ = 10 ja vahemikku langemise tõenäosus on 0,25.

Asendame need väärtused saadud valemisse: 0,51-)10

Φ(2 =εja siit leiame häl-

be keskväärtuse suhtes 7,60,6710ε);20,51(Φ

10ε 1 =⋅=+= − .

Vastus. Poolte inimeste IQ on keskväärtuse suhtes sümmeetrilises vahemi-kus 125 ± 6,7.

P(X<x0,9

)=0,9φ(x)

x0,9

=137,8125X

115

P(118,3<X<131,7)=0,5φ(x)

x=131,7X

118,7

39

Page 40: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

7.2.6 Binoomjaotuse lähendamine normaaljaotusegaEespool diskreetsete juhuslike suuruste käsitlemisel leidsime, et kui vaadeldava sündmuse

esinemise tõenäosus on väike, siis vastavalt Poissoni piirteoreemile (5.1.3) saab binoom-jaotust lähendada Poissoni jaotusega. Osutub aga, kui sündmuse esinemise ja mitteesinemise kordade arvu tõenäosused on ligikaudu võrdsed, võib binoomjaotuse ligikaudseks arvu-tamiseks kasutada normaaljaotust. Nimelt kehtivad Laplace’i lokaalne ja integraalne piirteo-reem.

Nende teoreemide järgi on binoomjaotus B(n,p) lähendatav normaaljaotusega, kus nor-maaljaotuse keskväärtus ja standardhälve on määratud binoomjaotusega: )npqN(np, .

Praktikas arvestatakse, et lähendamisel saadakse piisav täpsus juhul kui on täidetud tingi-mused: np ≥ 5 ja n(1-p) ≥ 5. Seega, kui sündmuse esinemise tõenäosus p on ligikaudu 0,5, siis annab normaaljaotuse kasutamine binoomjaotuse asemel juba väikeste katsete arvu korral häid tulemusi. Sageli soovitatakse tulemuse täpsuse suurendamiseks kasutada veel parandus-koefitsienti 0,5, mille kasutamisel tõenäosuse P(x1≤X≤x2) asendatakse modifitseeritud tõe-näosusega P(x1-0,5≤X≤x2+0,5).

Laplace'i lokaalne piirteoreem . Tõenäosus, et n sõltumatu katse tulemusena, milles iga-ühes sündmus toimub tõenäosusega p, toimub sündmus täpselt k korda on piisavalt suure katsete arvu korral ligikaudu võrdne:

2x2

enpq2π

1k)P(n,−

⋅≅ , kus npq

npkx −= .

Laplace'i integraalne piirteoreem. Tõenäosus, et n sõltumatu katse tulemusena, milles iga ühes sündmus toimub tõenäosusega p, toimub sündmus vähemalt k1 korda ja ülimalt k2

korda on piisavalt suure katsete arvu korral ligikaudu võrdne:

)npq

npkΦ()npq

npkΦ()k:kP(n, 1221

−−−=

Nii Laplace'i lokaalse kui ka integraalse teoreemi sisuline tõlgendus on väga lihtne. Kui vaadelda binoomjaotuse jaotusdiagrammi, siis ühendades diagrammi tulpade keskpunktid pi-deva joonega, saame normaaljaotuse tihedusfunktsiooni graafikuga üsna sarnase joone. Laplace'i teoreemides vaadeldakse seda ainult teisipidi: lähtudes vastavate parameetrite järgi joonistatud normaaljaotuse tihedusfunktsiooni graafikust seatakse igale väärtusele vastavusse tihedusfunktsiooni väärtus kohtadel k = 0, 1, 2, ..., n.

Näide 7.3. Oletame, et tegemist on katseseeriaga, mis koosneb 50 katsest. Meid huvitav sündmus võib igal katsel toimuda tõenäosusega p=0.2. Leida tõenäosus, et vaadeldav sünd-mus

a) toimub täpselt 10 korda,b) toimub 10-15 korda.

Lahendus. See on tüüpiline binoomjaotuse ülesanne, mida on kasulik lahendada tuginedes Laplace'i lokaal- ja integraalteoreemile.

40

Page 41: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Leiame kõigepealt abisuurused:

83,288,02,050 ==⋅⋅=npq ja 083,2

2,05010 =⋅−=−npq

npk

Tõenäosuse, et vaadeldav sündmus toimub katse 50 kordsel kordamisel täpselt 10 korda

leiame Laplace'i lokaalteoreemi põhjal: 0,141e2π2,83

1P(50,10) 0 ==

Tõenäosuse, et otsitav sündmus toimub 10-15 korda leiame Laplace'i integraalteoreemi järgi

0,46Φ(0)Φ(1,77))2,83

1010Φ()2,83

1015Φ(

)npq

npkΦ()npq

npkΦ()k:kP(n, 1221

≅−=−−−=

=−−−=

Vastus. Tõenäosus, et vaadeldav katse toimub katseseerias täpselt 10 korda on ligikaudu 0,141 ja tõenäosus, et ta toimub 10-15 korda on ligikaudu 0,46.

7.3 Juhuslike suuruste summa ja ruutude summa jaotusEespool me käsitlesime teoreetilisi jaotusi. Iga teoreetilise jaotuse korral määrasime juhus-

liku suuruse võimalikud väärtused, jaotusfunktsiooni ja arvkarakteristikud. Iga teoreetilise jaotuse korral püüdsime kirjeldada, milliste reaalsete protsesside korral vaadeldakse protsessiga kaasnevat juhuslikku suurust. Praktikas on lugu enamasti vastupidine, st on olemas mingi reaalne protsess, mis „genereerib“ juhusliku suuruse väärtusi ning juhusliku suuruse kohta hinnangute andmiseks peame teadma tema jaotust. Väite „juhuslik suurus on mingi jaotusega F“ tõestamist üldjuhul vaatleme kursuse lõpuosas (vt §13), kuid teatud juhtu-del tuleneb jaotuse liik aga juhusliku suuruse saamise viisist. Juhislik suurus ei ole alati seotud mingi protsessi või katse läbiviimisega, vaid ta lihtsalt on olemas – näiteks inimese pikkust saame vaadelda juhusliku suurusena, leida tema jaotuse ja kõik arvkarakteristikud.

Nagu juba eespool vaatlesime, võime juhuslike suuruste vahel teha aritmeetilisi tehteid. Tulemuseks on jällegi juhuslik suurus, millel saame määrata jaotuse ning arvkarakteristikud. Järgnevalt vaatleme käesoleva kursuse matemaatilise statistika osas vaja minevaid juhuslike suurusi:

a) juhuslike suuruste summat n

X...n

Xn

Xn

X...XXX n21n21 +++=+++= ja

b) juhuslike suuruste ruutude summat Yv = (X1)2 + (X2)2 + ... + (Xv)2.

7.3.1 Juhusliku suuruse summa jaotus Olgu X1, X2, ..., Xn juhuslikud suurused ning leiame nende aritmeetilise keskmise

nX...

nX

nX

nX...XXX n21n21 +++=+++= , mis on samuti juhuslik suurus. On selge, liide-

tavaid juhuslikke suurusi ei saa me valida päris suvaliselt, liites näiteks kokku telefoni nu-mbri, juuste arvu, vanaema pensioni suuruse jne. Aritmeetilise keskmise leidmisel on mõtet, kui eeldame liidetavate arvude „ühist päritolu“, väljendades seda nõuetega keskväärtusele, standardhälbele ja jaotusele.

41

Page 42: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Tsentraalne piirteoreem. Kui ühesuguse jaotusega sõltumatud juhuslikud suurused X1, X2, ..., Xn on ühise keskväärtusega μ ja dispersiooniga σ2, siis nende juhuslike suuruste arit-

meetilise keskmise Xn1 = X i

n

1=i∑ jaotus liidetavate arvu n kasvamisel läheneb normaal-

jaotusele.

Paneme tähele, et liidetavate juhuslike suuruste Xi korral me ei nõua mingit konkreetset jaotust, vaid ainult seda, et neil peab olema sama jaotus, sama keskväärtus ja sama standard-hälve. Mida suurem on liidetavate arv, seda täpsemalt kirjeldab aritmeetilise keskmise käitu-mist normaaljaotus. Piisavalt hea lähend saadakse üldiselt juba siis, kui liidetavate arv ületab 60 piiri.

Erijuhul, kui liidetavate juhuslike suuruste eeldatav ühine jaotus on normaaljaotus, seega Xi ~ N(μ,σ), siis on aritmeetiline keskmine normaaljaotusega ka väikese liidetavate arvu kor-ral. See tuleneb sellest, et normaaljaotusega juhuslike suuruste liitmisel saame ikka normaal-

jaotusega juhusliku suuruse, seega on aritmeetiline keskmine Xn1 = X i

n

1=i∑ sellistel tingi-

mustel alati normaaljaotusega.

7.3.2 Juhusliku suuruse ruutude summa jaotus 1 Standardse normaaljaotusega sõltumatute juhuslike suuruste X 1, X2 , ... , Xv ruutude sum-

ma Y = (X1) 2 +(X 2) 2 + ... + (X v) 2 on χ 2 -jaotusega ( hii-ruut jaotusega) *3 juhuslik suurus : Y ~ χ2(v). Liidetavate arv v on χ2 - jaotuse parameeter, mida nimetatakse vabadusastmete arvuks.

Paneme tähele, et liidetavad juhuslikud suurused peavad olema standardse normaal-jaotusega Xi ~ N(0,1). χ2 - jaotust kasutatakse matemaatilises statistikas dispersiooni kohta tehtavate hinnangute leidmisel, sõltuvuse kindlaks tegemisel ja mujal.

*3 Lähtudes eespool kasutatud jaotuse defineerimise viisist võime määratleda: pidev juhuslik suurus Y on hii–

ruut jaotusega Y ~ χ2(v), kui tema tihedusfunktsioon on antud valemiga 2

2

12

)2

(2)(

y

v

v

ev

yy−

Γ=ϕ , kus

∫∞

−−=Γ0

1)( dttex xt ja v on täisarvuline parameeter. Saab näidata, et χ2 - jaotuse keskväärtus EX = v ja dis-

persioon DX = 2v. Alljärgnevas võime aga hii-ruut jaotuse definitsiooni ära unustada. Meid huvitavad vaid χ2-

jaotuse täiendkvantiilid, mille leidmiseks kasutame vastavat tabelit.42

Page 43: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

8 TÕENÄOSUSTEOORIA PIIRTEOREEMIDTõenäosusteooria piirteoreemid loovad seose tegelikkuses esinevate juhuslike protsesside-

ga määratud juhuslike suuruste karakteristikute ja teoreetiliste jaotuste parameetrite vahel. Piirteoreemid on rakendatavad juhuslike suuruste jada korral ning nad näitavad jada koondu-mist teatud näitaja (jaotusfunktsiooni, tõenäosuse, keskväärtuse) järgi. Tegelikult me eespool, punktis 7.3.1 juba vaatlesime ühte piirteoreemi, nn tsentraalset piirteoreemi, mis väljendas koondumist jaotusfunktsiooni järgi. Allpool käsitleme veel kahte piirteoreemi, millel on prak-tikas suur tähtsus. Lähtudes esituse lihtsustamise püüdest on teoreemid toodud mitte eriti ran-ges sõnastuses.

8.1 Tsebõsevi suurte arvude seadus Kui X1, X2, ...,Xn on ühise keskväärtusega μ ja dispersiooniga σ2 sõltumatud juhuslikud

suurused, siis kehtib 1εμn

SPlim n

n=

<−

∞→, kus Sn on juhuslike arvude summa X = S i

n

1=in ∑ ja ε

on kuitahes väike arv.Teisiti öeldes - samatüübiliste juhuslike suuruste aritmeetiline keskmine läheneb nende ju-

huslike suuruste ühisele keskväärtusele. Juhusliku suuruse keskväärtus on kindlal viisil defi-neeritud arvuline väärtus. Keskväärtuse leidmiseks peab diskreetse juhusliku suuruse korral teadma tema võimalike väärtuste loetelu ja nende omandamise tõenäosusi; pideva juhusliku suuruse korral on aga tarvis teada tihedusfunktsiooni. Praktikas ei ole alati võimalik kasutada neid keskväärtuse definitsioone ning siin tulebki appi Tsebõševi suurte arvude seadus, mis võimaldab keskväärtuse ligikaudset hindamist.

Kokkuvõttes: juhusliku suuruse keskväärtuseks võib võtta juhuslike suuruste summa arit-meetilise keskmise, kui aritmeetiline keskmine on leitud piisavalt suure liidetavate arvu kor-ral. Näiteks, kui juhusliku suurusena vaatleme kutsealuste pea ümbermõõtu, siis selle juhusli-ku suuruse keskväärtuse saame leida mõõtes ära piisavalt suure hulga kutsealuste pea ümber-mõõte ja leides saadud arvude aritmeetilise keskmise. See keskväärtus ei aita meid veel määrata kui palju ja millistes suurustes mütse peame varuma.

8.2 Bernoulli suurte arvude seadusKui n ühesuguse katse tulemusena vaadeldav sündmus A toimub k korda, siis

1εpnkPlim

n=

<−

∞→, kus ε on kuitahes väike arv ja p on sündmuse A toimumise tõenäosus

ühel katsel.Teisiti öeldes – katse kordamisel lõpmatult palju arv kordi läheneb sündmuse toimimise

sagedus sündmuse esinemise tõenäosusele.Bernoulli suurte arvude seadus tuleneb Tsebõševi suurte arvude seadusest ja on tema eri-

juht. Selle näitamiseks oletame, et juhuslikud suurused X1, X2, ...,Xn võivad omandada vaid väärtusi 0 ja 1 (seega erijuht üldisest). Olgu iga juhusliku suuruse korral väärtuse 1 oman-damise tõenäosus ühesugune ja tähistame P(Xi = 1) = p. Sel juhul on juhusliku suuruse kesk-väärtus EXi = p ja dispersioon DXi = p(1-p). Tõlgendame vaadeldavat juhuslikku suurust Xi

43

Page 44: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

selliselt, et ta omandab väärtuse 1, kui toimub meid huvitav sündmus, ja 0 - kui sündmust ei toimu. Sellisel juhul tähendab summa Sn = X1 + X2 + ... + Xn sündmuse toimumise kordade

arvu k ja jagatisnS n on sündmuse toimumise suhteline sagedus katse kordamisel n korda.

Pannes saadud tulemused Tsebõsevi suurte arvude seadusse, saamegi Bernoulli suurte arvude seaduse.

Bernoulli suurte arvude seadus annab võimaluse koguda andmeid vaadeldavate sündmuste esinemise sageduste kohta ning koostada vastavad jaotustabelid. Näiteks, elektroonikakauplus peab arvestust tootjatehaste kaupa, mitu ühikut tuuakse remonti müüdud asjade kohta. Piisavalt suurte müügikoguste korral võib selle müügistatistika põhjal, tuginedes Bernoulli suurte arvude seadusele väita, et tõenäosusega p(A) tuuakse tehase A toodang remonti, tõe-näosusega p(B) – tehase B toodang jne.

Selline sageduse ja tõenäosuse sidumine on niivõrd loomulik, et võib isegi tekitada sega-dust. Nii näiteks päris üks üliõpilane: „Kui mul on plaanis visata münti 20 korda. Oletame, et peale 15. viset on kull tulnud välja 9 korda ja kiri 6 korda. Kuna kulli ja kirja väljatulemise tõenäosused on võrdsed, siis peab järgmise 5 viske korral kull tulema välja 1 kord ja kiri 4 korda“.

Kuidas see on seotud Bernoulli suurte arvude seadusega?

44

Page 45: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

M A T E M A A T I L I N E S T A T I S T I K A

Matemaatiline statistika on matemaatika haru, mis käsitleb statistiliste andmete kogumist, töötlemist ja nende põhjal järelduste tegemist. Statistilised andmed on katse-, vaatlus-, mõõt-mis- ja küsitlusandmed või muud eksperimendi läbiviimisel saadud andmed. Matemaatiline statistika sisaldab endas mitmeid teooriaid, mis vaatlevad statistiliste andmestike käsitlemise eri aspekte: katsete ja vaatluste läbiviimine (katseplaneerimise teooria), statistiliste hüpoteesi-de kontrollimine (hüpoteeside teooria), mudelite parameetrite määramine (hinnangute teooria), tunnustevaheliste seoste avastamine ja kirjeldamine (korrelatsioonanalüüs, kom-ponentanalüüs, faktoranalüüs ja kanooniline analüüs), tunnuse väärtuste prognoosimine (reg-ressioonanalüüs, dispersioonanalüüs, kovariatsioonanalüüs), objektide eristamine ja rühmi-tamine (diskriminantanalüüs, klasteranalüüs), ajas muutuvate juhuslike nähtuste uurimine (aegridade teooria) jpt.

Matemaatilise statistika põhiülesandeks on valimi põhjal järelduste tegemine üldkogumi kohta. Seda kõikide ülalmainitud teooriate korral. Käesolevas kursuses lähtume samuti va-limist ning valimi statistikute põhjal anname hinnangu üldkogumi teatud karakteristikutele. Toome sisse kahte liiki hinnangud – punktihinnang ja vahemikhinnang. Vahemikhinnang on aluseks ka hüpoteeside tõestamisel üldkogumi karakteristikute või üldkogumi tunnuste vahe-liste seoste kohta. Nagu eessõnas öeldud, tahame jõuda asja olemuseni, st vaadelda meetodi saamist ja olemust, jättes rakendusliku külje põhiliselt edasiste kursuste ülesandeks.

9 Error: Reference source not foundÜLDKOGUM JA VALIM 9.1 Üldkogumi ja valimi määratlus

Üldkogum. Üldkogum on mingil printsiibil määratletud, vaatluse alla võetav objektide koguhulk, näiteks kõikide Eesti üliõpilaste hulk, kõikide Scania tüüpi busside hulk, raamatu-kogu kõikide raamatute hulk jne.

Tunnus. Iga objekti iseloomustavad temal mõõdetud tunnused, näiteks üliõpilaste korral: sissetulek kuus, telefoniarve suurus, televiisori olemasolu, pikkus, kaal jne. Üldkogumi iga objekti tunnuste väärtused on täpselt määratud (üliõpilase A sissetulek kuus – 300 eurot, telefoniarve – 16 eurot, televiisor - „ei ole“ jne).

Tunnuse jaotus. Iga arvulist tunnust võib vaadelda kui juhuslikku suurust, mis omandab väärtusi kindlast vahemikust (näiteks pikkus 100 – 250 cm). Iga tunnuse, kui juhusliku suuruse, korral saame leida tema jaotuse. Jaotusfunktsiooni (tihedusfunktsiooni) kuju määrab juhuslikule suurusele vastava teoreetilise jaotuse tüübi (normaaljaotus, eksponentjaotus, jne). Üldjuhul ei ole jaotuse tüüp teada ja tuleb määrata vastavate meetodite abil. Erijuhul võib tunnuse jaotus olla teada, näiteks leitud eelnevate uuringutega.

Karakteristik. Üldkogumi iga tunnuse korral võib leida seda tunnust iseloomustavad karakteristikud, näiteks keskmine väärtus, hajuvus keskmise väärtuse suhtes, sümmeetria kordaja, mediaan jne. Kõik karakteristikud arvutatakse kindlate eeskirjade järgi ja nende väär-tused on konkreetse üldkogumi korral üheselt määratud arvulised suurused.

Valim on üldkogumist valitud objektide hulk. Valimi tegemise eesmärk on hinnata meid huvitavaid üldkogumi karakteristikuid valimi abil. Üldkogumi hindamiseks kasutatav valim

45

Page 46: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

peab olema piisavalt suur ja koostatud juhuslikult, st üldkogumi iga objekt võib sattuda üld-kogumisse võrdse tõenäosusega. Viimane tingimus on praktiliselt täidetud piisavalt suurte üldkogumite korral, kus ühe objekti võtmine valimisse praktiliselt ei muuda teiste objektide valimisse sattumise tõenäosust ja kasutatakse objekti juhuslikkusel põhinevat valikut. Väikes-te üldkogumite korral tuleb arvestada mitmeid erisusi. Näiteks – kas juba valimisse valitud objekt saab teistkordselt sattuda valimisse, jne. Siin tulevad mõningad täpsustused kasuta-tavatesse valemitesse, kuid käesolevas loengus me lähtume põhiliinist ja neid ei käsitle.

Hinnang. Hinnang on valimi põhjal arvutatud arvuline väärtus (punktihinnang) või väär-tuste vahemik (vahemikhinnang), mis seatakse vastavusse üldkogumi karakteristikuga. Reeg-lina ei ole saadud hinnang täpne, mistõttu kasutamisel tuleb arvestada tema võimaliku vea suurust ja tõenäosuslikku hinnangut täpsusele.

Milliseid üldkogumi karakteristikuid soovitakse hinnata, sõltub uurimise eesmärgist. See-juures võib püstitatud ülesandeks olla ühe tunnuse karakteristikute (keskväärtus, dispersioon, sümmeetria, jne) leidmine, kahe tunnuse vahelise sõltuvuse kindlaks tegemine, ühe tunnuse väärtuste prognoosimine teiste põhjal jne. Eri probleeme käsitlevad matemaatilise statistika eri harud. Käesolevas kursuses käsitleme mõningaid neist ja vaatleme erinevaid metoodikaid tulemuse saavutamiseks.

9.2 Üldkeskmine ja dispersioonOlgu N objekti, mis moodustavad üldkogumi ja võtame vaatluse alla ühe, objekte iseloo-

mustava arvulisi väärtusi omava tunnuse. Tavaelus on tunnusel nimi, olgu selleks siis „sisse-tulek“, „pikkus“, „laius“ või muud sarnast. Meie tähistame tunnuse tähega X. Kui me mõõ-dame selle tunnuse väärtuse kõikidel üldkogumi objektidel, saaksime tema väärtuste jada: X = {x1, x2, ..., xN}, kus xi tähistab i-nda objekti vaadeldava tunnuse väärtust. Selle tunnuse osas iseloomustavad üldkogumit tunnuse teatud karakteristikud, näiteks tunnuse keskmine väärtus (näiteks, keskmine palk), tunnuse maksimaalne väärtus (kõige suurem palk), tunnuse mediaan (millisest summast vähem saavad palka pooled inimesed) jne. Kuna alljärgnevas kä-sitluses lähtume alati ühest nn. vaadeldavast tunnusest, siis enamasti jätame selle tekstis rõhu-tamata ja räägime üldkogumist kui kõikidel objektidel mõõdetud tunnuse väärtuste hulgast.

Näiteks, olgu üldkogumiks Tartu ülikooli üliõpilaste koguhulk. Igal üliõpilasel võime mõõta terve rea tunnuseid: kulutused raamatutele aastas, aasta sissetulek, üliõpilase pikkus, hinne tõenäosusteoorias, laste arv jne. Alljärgnevas vaatleme juhtu, kus uurimise alla võe-takse vaid üks tunnus, näiteks kulutused raamatutele. Seega võime vaadelda üldkogumit (selle tunnuse osas) kui statistilist rida, kus iga arv vastab ühe üliõpilase kulutustele. Üldistus-te tegemiseks on vaja seda rida kui tervikut iseloomustavaid näitajaid: milline on keskmine kulutus, milline on maksimaalne kulu raamatutele, milline on hajuvus keskmisest kulust jne.

Käesoleva kursuse raames ei jõua me vaadelda kõikvõimalikke näitajaid, vaid piirdume üldkogumi (vaadeldava tunnuse!) uurimisel kahe karakteristikuga: üldkeskmine ja disper-sioon ehk ruuthälve üldkeskmise suhtes. Need karakteristikud defineeritakse järgmiste vale-mitega:

üldkeskmine: xN1 =μ i

N

1=i∑ ja dispersioon: μ)-x(N

1 = σ i2

N

1=i

2 ∑ .

46

Page 47: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Suurust σ nimetatakse standardhälbeks (ehk vaadeldava tunnuse standardhälbeks üldkeskmise suhtes üldkogumis).

9.3 Valimikeskmine ja dispersioonNagu näha, ei ole meie poolt defineeritud üldkeskmine mitte midagi muud kui tunnuse

väärtuste aritmeetiline keskmine (näiteks keskmine kulu raamatutele), standardhälve iseloo-mustab aga tunnuse väärtuste hajuvust üldkeskmise suhtes (kas eri üliõpilaste kulutused on väga erinevad). Nii üldkeskmine kui ka tema standardhälve on kindla üldkogumi korral ühe-selt määratavad arvulised väärtused (arvkarakteristikud). Praktikas huvitab meid just nende kui „tõeste“ väärtuste leidmine. Kui üldkogum on väike, siis ei valmista nende leidmine raskusi ja kõik arvutatud väärtused on absoluutselt täpsed. Sageli on üldkogum aga kas liiga suur või ajas pidevalt muutuv ning vajalike näitajate leidmine vahetult üldkogumi põhjal raske või võimatu. Seetõttu tehakse üldkogumist väljavõte (valim) ja arvutatakse valimi tea-tud statistilised näitajad (statistikud) ning saadud tulemused võetakse üldkogumi arvkarak-teristikute väärtuste hinnangute aluseks. Enamasti kasutatakse üldkogumi karakteristikute hi-ndamiseks valimi põhjal analoogilisi arvutusvalemeid nagu üldkogumiski, kus vajalikud arvutused tehakse vaid valimisse sattunud objekte arvestades. Alati see aga nii ei pruugi olla ja seetõttu vaatleme allpool hindamisvõimalusi täpsemalt.

Olgu üldkogumi põhjal tehtud n objektist koosnev valim X = {x1, x2, ..., xn}, kus xi (i = 1,..., n) on valimisse valitud i-ndal objektil mõõdetud tunnuse väärtus. Defineerime va-limikeskmise ja dispersiooni alljärgnevalt:

valimikeskmine: x n1 = X i

n

1=i∑ ja valimidispersioon: )X-x(

1-n1 = s i

2n

1=i

2 ∑ ,

kus s on valimi(keskmise) standardhälve.Üldkogumist saab teha mitmeid erinevaid valimeid. Kui üldkeskmine μ ja tema standard-

hälve σ on antud üldkogumi korral üheselt määratud arvulised suurused, siis valimikeskmine X ja valimi standardhälve s on üheselt määratud vaid iga konkreetse valimi korral, üldjuhul sõltub nende väärtus saadud valimist. Selleks, et valimi põhjal saaks üldse anda hinnanguid üldkogumile, on nõutav, et valim oleks juhuslik. See tähendab, et valimisse kuuluvad objek-tid valitakse juhusliku protsessi tulemusena, kus igal üldkogumi objektil on võrdne võimalus sattuda valimisse. Kuna valim on juhuslik, siis on nii valimikeskmine, valimi standardhälve kui ka teised valimi põhjal arvutatud väärtused juhuslikud suurused (nende väärtused sõltu-vad sellest, millised üldkogumi elemendid sattusid valimisse).

Selleks, et valimi põhjal leitud juhuslike suuruste alusel võtta vastu mingitki otsustust, peame kindlaks tegema vastava juhusliku suuruse iseloomu: tema jaotuse ja arvkarakteristi-kud.

9.4 Valimikeskmine kui juhuslik suurus Valimikeskmist kasutatakse üldkeskmise hindamisel. Kuna valimikeskmine X on juhus-

lik suurus, siis saab loomulikult ka tema põhjal tehtud hinnang olla vaid teatud täpsusega hi-nnanguks. Hinnangu täpsuse määratlemiseks on tarvis teada valimikeskmise kui juhusliku suuruse põhiparameetreid: keskväärtust, dispersiooni ja jaotust (jaotus- või tihedusfunkt-

47

Page 48: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

siooni). Paneme tähele, et meil on tegu valemina antud juhusliku suurusega x n1 = X i

n

1=i∑ ning

tema arvkarakteristikute leidmiseks peame rakendama keskväärtuse ja dispersiooni leidmise eeskirja sellele valemile tervikuna.

Valimikeskmise keskväärtus. Vastavalt diskreetse juhusliku suuruse keskväärtuse defi-nitsioonile saame tema (valimikeskmise) keskväärtuse )XE( leida järgmiselt

∑∑==

==n

1ii

n

1ii Ex

n1)x

n1E(XE

Kuna xi on üldkogumi suvaline element elementide hulgast {x1, x2, ..., xN}, siis eeldusel, et iga üldkogumi elemendi valimisse sattumise tõenäosus on ühesugune p(xi)=1/N. Tulenevalt keskväärtuse definitsioonist ning kasutades üldkeskmise definitsiooni, võime iga valimisse sattunud elemendi keskväärtuse Exi arvutada:

∑∑==

=⋅=⋅=N

1kkk

N

1kki μ

N1x)p(xxEx (9.1)

Paneme selle tulemuse ülemisse valemisse ja saame valimikeskmise keskväärtuse:

μμn1Ex

n1XE

n

1i

n

1ii === ∑∑

==(9.2)

Kokkuvõttes - valimikeskmise keskväärtus on võrdne üldkeskmisega.

Valimikeskmise dispersioon. Vaatame nüüd teist, valimikeskmist kui juhuslikku suurust iseloomustavat arvkarakteristikut – dispersiooni. Valimikeskmise X dispersiooni )XD( saame leida valemiga:

nσnDx

n1)x

n1D()XD(

2

2

2n

1ii2

n

1ii =⋅=== ∑∑

==, (9.3)

kus xi tähistab suvalist valimisse sattunud üldkogumi elementi. Toodud valemis kasutasime nagu ülalpoolgi ära seda, et kuna iga üldkogumi element võib sattuda valimisse võrdse tõe-näosusega 1/N, siis

σ = )μ - x( N1 = )xp()μ - x( = )xp()Ex - x( = )Ex - xE( = Dx 22

k

N

1=kk

2k

N

1=kk

2kk

N

1=k

2iii ∑∑∑ (9.4)

Tavaliselt tähistatakse valimikeskmise dispersiooni 2Xσ)XD( = . Saadud tulemuse (9.3) võime

sõnastada järgmiselt: valimikeskmise dispersioon sõltub üldkogumi dispersioonist ja väheneb valimi mahu kasvades. Tegelikkuses on see igati ootuspärane ja loogiline tulemus.

Kokkuvõttes saime tulemused

μXE = ja nσσ

22X = .

Suurust nσσX = nimetatakse valimikeskmise standardveaks.

Valimikeskmise jaotus. Leidmata on veel kolmas valimikeskmist kui juhuslikku suurust iseloomustav näitaja – tema jaotus.

Paneme tähele, et nende definitsioonist, on üldkeskmine ja üldkogumi standardhälve määratud kogu vastava tunnuse jaoks tervikuna. Valimikeskmise X keskväärtuse ja disper-

48

Page 49: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

siooni leidmisel saime vahetulemused (9.1) ja (9.4), mis näitavad, et suvalise valimisse vali-tud elemendi xi keskväärtus on võrdne üldkeskmisega μEx i = ning dispersioon üldkogumi dispersiooniga σ = Dx 2

i . Seega on valimikeskmine X sama keskväärtuse ja dispersiooniga määratud juhuslike

arvude aritmeetiline keskmine. Vastavalt tsentraalsele piirteoreemile (vt. 7.3.1) on va-limikeskmine kui aritmeetiline keskmine piisavalt suure liidetavate arvu korral (piisavalt suu-

re valimi korral) jaotunud normaaljaotuse järgi: )n

σ,N(μ)σ,XN(E~X X = . Erijuhul, kui

vaadeldav tunnus X on normaaljaotusega, on valimikeskmine X , kui normaaljaotusega ju-huslike suuruste summa, jaotunud normaaljaotuse järgi ka väikeste valimite korral.

9.5 Valimi standardhälve kui juhuslik suurus

Nagu valimikeskmine X , nii on ka valimi standardhälve )X-x( 1-n

1 = s i2

n

1=i∑ juhuslik

suurus ning me võime leida tema, kui juhusliku suuruse, karakteristikud. Käesolevas kursuses huvitab meid vaid tema keskväärus.

Saab näidata (vt joonealune märkus), et kui üldkogumil on lõplik dispersioon σ2, siis statistiku s2 keskväärtuseks on samuti σ2, st

22 σ=Es .*6

Toodud tõestusest on näha, et see tulemus kehtib ainult juhul, kui murru nimetaja on n-1, mitte n.

*6 Tõestamiseks teisendame kõigepealt valimi standardhälbe valemit:

])-Xn(-)-x([1)-(n

1 =] )-Xn(+)-X2n(-)-x([1)-(n

1 =

= ))-X(+)-X)(-x2(-)-x((1)-(n

1 = ))-X(-)-x((1)-(n

1 = s

22i

n

=1i

222i

n

=1i

2i

2i

n

=1i

2i

n

=1i

2

µµµµµ

µµµµµµ

∑∑

∑∑

Edasi võime kirjutada

222 ][ σσσµµ =−=∑ n])-XnE(-)-xE([1)-(n

1 = Es 22i

n

=1i

2

mida oligi tarvis tõestada. Toodud tõestusest selgub ühtlasi, miks on valimi standardhälve definitsioonis jagatud suurusega n-1.

49

Page 50: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

10 ÜLDKOGUMI KARAKTERISTIKUTE PUNKTIHINNANGÜldkogumi tunnuse karakteristiku punktihinnanguks nimetatakse valimi põhjal teatud

eeskirjade järgi arvutatud väärtust. Kuna valim on juhuslik, siis arvutatud väärtus on samuti juhuslik. Sellist väärtust nimetatakse üldkogumi karakteristiku hinnanguks. Üldiselt võib punktihinnangu leida erinevate arvutuseeskirjade järgi, kusjuures eri eeskirjade järgi saadavad tulemused on enamasti erinevad. Vaatleme lihtsat näidet: oletame, et bensiini 95 keskmise maksumuse leidmiseks tehti küsitlus 12-nes tanklas ja saadi järgmised hinnad:

1,24; 1,20; 1,22; 1,26; 1,19; 1,22; 1,24; 1,24; 1,25; 1,26; 1,20; 1,22Hinnangu bensiiniliitri keskmise maksumuse kohta võime saada mitmel viisil. 1) Kasutades üldkeskmise ( liitri keskmise hinna) leidmiseks valimikeskmist, saame

x n1 = X i

n

=1i∑ =(1,24+1,2+1,22+1,26+1,19+1,22+1,24+1,24+1,25+1,26+1,2+1,22)/12=1,228

2) Kasutades hinnanguks poolt maksimaalse ja minimaalse hinna summast, saameŶ=(1,19+1,26)/2=1,22

3) Kasutades saadud variatsioonrea kahe keskmise väärtuse poolsummat, saameŽ=(1,22+1,24)/2=1,23

Antud juhul on tulemused peaaegu võrdsed, kuid nad ei pruugi seda alati olla. Tekib küsi-mus, kas on olemas reeglid sobiva hinnangu valimiseks? Millist hinnangut lugeda sobivaks?

Efektiivse punktihinnangu mõiste. Üldkogumi karakteristiku hinnangut nimetatakse efek-tiivseks hinnanguks, kui hinnang on nihketa ja hinnangu standardhälve väheneb valimi mahu kasvades.

Valimi põhjal arvutatud juhusliku suuruse väärtust nimetatakse üldkogumi karakteristiku nihketa hinnanguks, kui selle juhusliku suuruse keskväärtus on võrdne hinnatava karak-teristikuga.

Kui vaatleme nüüd ülaltoodud kolme erinevat hinnangut, kus hinnatavaks suuruseks on üldkeskmine μ, siis esimesel juhu jaoks tõestasime, et μ = XE . Teise ja kolmanda juhu jaoks

sellist võrdust üldjuhul tõestada ei saa ning EŶ ≠ μ ja EŽ ≠ μ. Seega võime väita, et va-limikeskmine on üldkeskmise nihketa hinnanguks.

Hinnangu sobivuse teiseks näitajaks on hinnangu hajuvus, mida iseloomustatakse hinnan-gu standardhälbega. Mida väiksem on hajuvus hinnatava karakteristiku suhtes, seda parem on kasutatav hinnang. Üldiselt nõutakse, et hinnangu hajuvuse saab teatud tingimustel teha kuitahes väikeseks.

Kasutades üldkeskmise hinnanguna valimikeskmist, on hajuvus määratud valimikesk-

mise standardveaga nσσX = . Sellest valemist on näha, et valimi mahu suurendamisega

(n→∞), saab muuta hajuvuse kuitahes väikeseks.

Nihketa hinnangut, mille standardviga läheneb nullile, nimetatakse efektiivseks punktihi-nnanguks. Tuginedes ülalöeldule võime öelda, et valimikeskmine on üldkeskmise efektiiv-seks hinnanguks.

50

Page 51: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

11 ÜLDKOGUMI KARAKTERISTIKUTE VAHEMIKHINNANGUD

Punktihinnang annab uuritava suuruse kohta üheselt määratud väärtuse, mida on lihtne kasutada. Punktihinnanguid kasutatakse näiteks mitmesuguste küsitluse korral: mitu protsenti inimesi toetab ühte või teist erakonda, milline on toidukorvi keskmine maksumus, kui palju raha kulutab üliõpilane keskmiselt raamatute ostmiseks jne. On täiesti selge, et saadud hi-nnang on ligikaudne ja on oluline teada, milline on hinnangu täpsus. Täpsuse arvesse võtmata jätmine annab võimaluse tulemustega mängimiseks. Näiteks, kui ühe erakonna pooldajate protsent muutus ühe protsendipunkti võrra, siis saab sellest kirjutada pikki artikleid ja otsida põhjendusi poolt ja vastu. Tegelikkuses võis põhjus olla vaid selles, et mõlemad tulemused jäid hinnanguvea piiridesse ja mingit sisulist muutust ei toimunudki.

Punktihinnangut on küll mugav kasutada, kuid ta ei pruugi olla eriti usaldusväärne. Roh-kem informatsiooni sisaldab vahemikhinnang. Vahemikhinnangu korral leitakse vahemik, millesse hinnatav karakteristik kuulub ning antakse hinnang usaldatavusele.

Näide 11.1 Toidule ühes nädalas tehtavate kulutuste suuruse uurimiseks küsitleti juhusli-kult 64 toidukaupade ostjat ja saadi euro täpsusega järgmised vastused:

104; 141; 106; 25; 98; 93; 36; 145; 129; 77; 96; 6; 16; 84; 83; 32; 116; 47; 112; 79; 111; 132; 61; 100; 103; 104; 74; 109; 166; 39; 157; 84; 116; 122; 111;118; 50; 154; 98; 120; 79; 42; 77; 71; 131; 115; 52; 150; 76; 81; 75; 119; 115; 138; 87; 1; 103; 106; 74; 45; 50; 90; 80; 104

Selle valimi järgi tahetakse hinnata, kui palju inimene ühe nädala jooksul toidupoes kesk-miselt kulutab. Kulutuste tegeliku suuruse saamiseks peaksime me küsitlema kõiki inimesi sõltuvalt meie uuringule pandud piiridest, kas siis Eestis, Euroopas või kogu maakeral. Punk-

tihinnangu korral on vastuse saamine lihtne. Leiame valimikeskmise x n1 = X i

n

1=i∑ = …= 90,86

ja ühe euro täpsusega väidame, et inimene kulutab toidule nädalas 91 eurot. Ilmselt on tõde (üldkeskmise tegelik väärtus) kusagil 91 euro ümbruses. Arvesse võttes võimalikku viga või-me selle punktihinnangu kujundada vahemikhinnanguks joonisel näidatud viisil:

Vahemikhinnangu korral seataksegi eesmärgiks määrata vahemik, mis teatud tõe-näosusega sisaldaks hinnatavat karakteristikut.

Olgu w üldkogumi karakteristik, millele tahame anda hinnangut. Juhuslikku v ahemikku ( a, b ), mis üldkogumi hinnatavat karakteristikut w sisaldab tõenäosusega β , nimetatakse usal -

91

ε ε

Tõenäosusega β asub kulu keskmine selles vahemikus

a b

51

Page 52: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

dusvahemikuks . Tõenäosust β – nimetatakse usaldusnivooks ja arve a ja b usalduspii - rideks.

Usalduspiirid määravad usaldusvahemiku laiuse b – a. Hinnangu veaks ε nimetatakse poolt usaldusvahemiku laiusest: ε = (b-a)/2.

Enamasti püstitatakse usaldusvahemiku leidmise ülesanne selliselt: leida usaldusvahemik, millesse üldkogumi uuritav karakteristik w kuulub usaldusnivool β. Usaldusnivoo väärtus antakse uuringus ette ja sõltub uuringu olulisusest, enamasti võetakse β >0,9. Kehtib ilmne seos – mida suurema usaldatavusega tahame anda hinnangut, seda laiem on usaldusvahemik, st seda suurem on hinnangu viga.

Kui tõenäosus, et vahemik (a,b) sisaldab uuritav karakteristikut on β , siis järelikult tõe-näosusega 1- β = α vahemik seda ei sisalda, st tõenäosusega α me teeme vea. Suurust α nime-tatakse olulisusnivooks ning sageli antaksegi ette just olulisusnivoo väärtus. Mida väiksema olulisusnivoo anname ette, seda kindlamalt soovime, et meie poolt leitud usaldusvahemik sisaldaks tegelikku väärtust.

11.1 Üldkeskmise vahemikhinnang Eelnev vahemikhinnangu kohta käiv jutt kehtib suvalise hinnatava karakteristiku korral.

Konkreetsed vahemikhinnangu leidmise eeskirjad on aga tarvis tuletada iga karakteristiku (üldkeskmine, dispersioon, mediaan, jne) korral eraldi.

Olgu hinnatavaks karakteristikuks üldkeskmine μ ning püstitame ülesande selliselt: leida (usaldus)vahemik üldkeskmise hinnangule olulisusnivool α .

Üldkeskmise usaldusvahemiku leidmisel lähtume tema punktihinnangust (valimikeskmi-sest) ja kasutame ära valimikeskmise kui juhusliku suuruse keskväärtuse, dispersiooni ja jaotuse. Kuna valimikeskmise jaotus on üldjuhul määratud vaid suurte valimite korral (vt. osa 9.4), siis vaatame ka hinnangu leidmist kahes osas.

11.1.1 Suur valimOlgu antud mingi valim X = {x1, x2, ..., xn}, mille korral eeldame, et valimimaht on

piisavalt suur (n>60). Valimikeskmise X kohta teame kolme tõsiasja (vt. 9.4):1. teame, et valimikeskmise X keskväärtus on võrdne üldkeskmisega: µ = XE ;2. teame, et valimikeskmise X standardhälve Xσ on seotud üldkogumi standardhäl-

bega ja avaldub kujul nX

σσ =

3. teame, et valimikeskmise X on (ligikaudu) normaaljaotusega juhuslik suurus:

)n

σ,N(μ)σ,N(μ~X X = .

Neid kolme tõdemust kasutame allpool üldkeskmise vahemikhinnangu leidmisel.

Püstitame ülesande: leida keskväärtuse suhtes sümmeetriline vahemik, kus va-limikeskmine X , kui juhuslik suurus, asub tõenäosusega 1- α.

52

Page 53: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

See on tavaline juhusliku suuruse vahemikku langemise tõenäosuse leidmise ülesanne, mille saame kirjutada tingimusega:

α1ε)XEXP( −=<− ,

kus otsitavaks suuruseks on hinnangu viga ε.Kuna juhusliku suuruse X keskväärtus on μ = XE , siis võime saadud tingimuse välja

kirjutada kujul:α1ε)μXP( −=<− .

Arvestades absoluutväärtuse märkide tähendust võime öelda, et juhuslik suurus X ei erine konstandist µ rohkem kui suuruse ε võrra, ehk

α1ε))μXε)P((με)μXP( −=+<<−=<− (11.1)

See on lihtne vahemikku langemise tõenäosuse leidmise ülesanne, kus otsitavaks on va-hemiku laius. Sellist probleemi käsitlesime punktis 7.2.5 näidisülesandes E. Praegusel juhul me aga ei asenda valemisse konkreetseid arve, vaid jääme üldise sümboolika juurde kuni ülesande lahendamise lõpuni.

Tulenevalt sellest, et meie poolt vaadeldav juhuslik suurus X on normaaljaotusega, saame analoogiliselt viidatuga kirjutada:

−−

=

−−−

−+=+<<−XXXX σεΦ

σεΦ

σμεμΦ

σμεμΦε))(μXε)P((μ ,

kus kasutasime vahemiku otspunktide väärtusi: a = μ + ε ja b = μ – ε. Kasutades standardi-seeritud normaaljaotuse korral kehtivat valemit Φ(-z) = 1-Φ(z) (valem 7.3) võime saadud tu-lemust edasi lihtsustada:

Probleemi püstituse tingimuste järgi võrdub juhusliku suuruse X vaadeldavasse vahemikku langemise tõenäosus väärtusega 1-α ja seega saame:

Selles võrduses on ainukeseks otsitavaks suuruseks hinnangu viga ε. Avaldame hinnangu vea ja kasutades kvantiili mõistet (vt. 6.2.1) avaldame:

2α1X

2α1

1

X

zσεz)2α(1Φ

σε

−−

− ⋅==−= .

Saadud valemit võime juba kasutada hinnangu vea leidmiseks olulisusnivool α. Olulisusni-voo seostamiseks hinnangu veaga tähistatakse ε asemel εα . Samuti, kasutades kvantiili ja täiendkvantiili vahelist seost γγ zz =−1 (vt. 6.2.1), saame hinnangu vea lõppkujuks:

Xz σε αα ⋅=2

Nüüd ei jäägi muud üle, kui lähtudes püstitatud ülesande matemaatilisest kujust(valem 11.1) kirjutada, et tõenäosusega 1-α asub valimikeskmine X vahemikus

1σε2Φ

σεΦ

σεΦ...ε))(μXε)P((μ

XXX

=

−−

==+<<−

ασ

εεµεµ −=−

Φ==+<<− 112...))()((

X

XP

53

Page 54: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Xα/2Xα/2 σzμXσzμ ⋅+<<⋅− . (11.2)Aga tegelikult ei huvita meid mitte see, kus asub valimikeskmine, vaid see, kus asub üld-

keskmine. Lihtne on näha, lahutades võrratuse 11.2 kõikidest liikmetest μ)X( + ja korrutades tulemust (-1)- ga, saame:

Xα/2Xα/2 σzXμσzX ⋅+<<⋅− . (11.3)Kokkuvõttes saime tulemuse: piisavalt suure valimimahu korral kehtib olulisusni-

vool α, et meie poolt konstrueeritud juhusliku vahemiku otspunktid langevad üldkesk-misest erinevatele pooltele ehk juhuslik vahemik sisaldab ka üldkeskmist.

Valemi tuletamisel me eeldasime, et meil on teada valimikeskmise standardhälve Xσ . Te-

gelikkuses me seda aga ei tea ega saagi teada. Eespool punktis 9.4 leidsime, et valimikesk-

mise standardhälve on avaldatav kujul nσσX = , kus σ on üldkogumi standardhälve ning

seega omandab valem(11.3) kuju:

nσzXμ

nσzX α/2α/2 ⋅+<<⋅− (11.3)’

Kahjuks on üldkogumi standardhälve σ enamasti teada teada vaid erandjuhtudel, kui tema leidmiseks (hindamiseks) on läbi viidud eraldi uuringud. Osutub aga, et kui tegu on suure va-limiga, siis võime, tulemust oluliselt kahjustamata üldkogumi standardhälve σ asemel kasuta-

da valimi standardhälvet )X-x( 1-n

1 = s i2

n

1=i∑ , kusjuures väärtus s on valimi põhjal alati lei-

tav. Seega saame üldkeskmise vahemikhinnangu valemi (11.3) põhikujuks:

nszXμ

nszX α/2α/2 ⋅+<<⋅− (11.3)’’

Viimasest kahest valemist on näha, et valimi mahu kasvades hinnangu viga väheneb, seega mida suurem valim, seda täpsema tulemuse saame.

Üldkeskmise vahemikhinnangu valemi tuletamisel lähtusime sellest, et valimikeskmine X kui juhuslik suurus on normaaljaotusega. Vastavalt tsentraalsele piirteoreemile on see nõue piisavalt suure valimi korral alati täidetud sõltumata tunnuse jaotusest. Siiski on olemas ka üks erijuht; kui vaadeldav tunnus ise on normaaljaotusega, on valimikeskmine X normaal-jaotusega ka väikeste valimite korral (vt osas 9.4).

Näide 11.2 Pöördume uuesti näites 11.1 toodud andmete juurde ning leiame toidule teh-tud keskmise kulu vahemikhinnangu.

Vahemikhinnangu leidmisel antakse ette usaldusnivoo, st tõenäosus, millega üldkeskmine asub tu-lemuseks saadud vahemikus. Olgu hetkel nõutavaks usaldusnivooks 1-α = 0,95, mis on tavaline väär-tus seda laadi uuringutes.Lahendus. Tegemist on piisavalt suure valimiga (n > 60) ning üldkogumi standardhälvet me ei tea. Seega osutub sobivaks valem (11.3)’’. Leiame

54

Page 55: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

1) valimikeskmine x n1 = X i

n

=1i∑ = …= 90,86

2) valimi standardhälve )X-x( 1-n

1 = s i2

n

=1i∑ =…=37,33

3) valimi standardviga 67,4833,37 ===

ns

4) leiame normaaljaotuse usaldusnivoole vastava normaaljaotuse täiendkvantiili: 1-α = 0,95; α = 0,05; α/2 = 0,025 ja standardiseeritud normaaljaotuse tabelitest leiame

96,1975,0025,0 == zz .

Paneme nüüd saadud arvud valemisse (10.2)'' ning saame vahemikhinnangu 67,496,186,9067,496,186,90 ⋅+<<⋅− µ

ehk ümardatult: 81,7 < μ < 100,1Nagu näeme, asub antud katseandmetest tulenevalt nädalase toidukorvi tegelik maksumus

küllaltki laias vahemikus ning vahemiku keskpunkti kasutamine (punktihinnang) võib viia ekslikele tulemustele.

Kuidas muutub vahemikhinnang usaldusnivoo kasvades? On loogiline eeldada, et mida suurema usaldatavusega (suuremal usaldusnivool) soovime saada tulemust, seda laiemaks „venib“ usaldusvahemik. Selle kinnitamiseks vaatleme usaldusvahemikku erinevatel usaldus-nivoodel. Olgu nendeks 0,5; 0,9; 0,95 ja 0,99 ja korrastame saadud tulemused alljärgnevasse tabelisse:

Usaldusnivoo (1-α) 0,5 0,9 0,95 0,99Valimikeskmine X 90,86 90,86 90,86 90,86

Valimi standardhälve s 37,33 37,33 37,33 37,33Täiendkvantiil

2αz

0,68 1,65 1,96 2,58Standardviga Xσ 4,66 4,66 4,66 4,66Hinnangu viga αε 3,17 7,69 9,13 12,02Usaldusvahemik 87 - 94 83 - 98 81 - 100 78 - 103

Toodud näites saime suhteliselt laia usaldusvahemiku tänu sellele, et valimi maht oli kül-laltki väike. Kuidas mõjustada tulemuse täpsust, vaatame allpool punktis 11.3.1.

11.1.2 Väikese valimi juhtumEelmises punktis nägime, et kui tegu on väikese valimiga, kuid vaadeldav tunnus on normaal-

jaotusega, ning me teame üldkogumi standardhälvet σ, siis täiendavaid probleeme ei teki - üldkesk-mise hinnanguks võime kasutada valemit (11.3)'. Enamasti me aga üldkogumi standardhälvet ei tea ning tema asendamine valimi standardhälbega võib anda valed usalduspiirid.

Kuna selline ülesanne, kus tegu on väikese valimiga ja üldkogumi standardhälvet ei tea, on küllalt -ki tüüpiline, siis leiti sellele ligikaudne lahend. Nimelt, ühel juhul, kui uuritav tunnus on normaal -jaotusega, võib normaaljaotuse asemel kasutada nn. Studenti jaotust. Studenti jaotuse „töötas välja“ inglise matemaatik William Gosset just sellise juhu tarvis. Meie poolt vaadeldava ülesande kontekstis

55

Page 56: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

(valem (11.3)'') suurendab Studenti jaotus normaaljaotuse täiendkvantiili α/2z väärtust ning seda

sõltuvalt valimi mahust n. Mida väiksem on valimi maht, seda suurem on Studenti jaotuse täiend-kvantiili väärtus ja seda laiemad usalduspiirid saadakse. Seega, väikese valimi korral, kui uuritav tun-nus on jaotunud normaaljaotuse järgi ja me ei tea üldkogumi standardhälvet, kasutatakse üldkeskmise hindamisel valemit:

nst+X <μ <

nst-X 1nα/2,1nα/2, ⋅⋅ −− , (11.4)

kus s on valimi põhjal arvutatud valimikeskmise standardhälve ja 1nα/2,t − Studenti jaotuse täiendkvantiil olulisusnivool α valimi mahu n korral. Valimi mahu kasvamisel läheneb Studenti jaotuse täiendkvantiili väärtus normaaljaotuse täiendkvantiili väärtusele ning alates mahust ~60, võime lugeda nad võrdseiks. Studenti jaotuse täiendkvantiilide tabel on toodud käesoleva konspekti lõpus, täiendkvantiilide leidmise funktsioon on reeglina lisatud ka kõiki-de tabelarvutusprogrammide statistikafunktsioonide loetellu (näiteks Excelis on see TINV(α, n-1)= 1nα/2,t − ).

Näide 11.3. Võtame eelmise näite ja oletame, et küsitleti ainult 25 inimest. Kuna me ei tea üldkogumi standardhälvet σ, siis saame leida usalduspiirid vaid juhul kui uuritav tunnus (ostu rahakulu toidule) on normaaljaotusega. Kuidas kontrollida seda, et tunnus on normaal-jaotusega, vaatame hiljem, praeguse näite korral oletame, et on tegu normaaljaotusega. Seega küsitluse tulemusel saime ostu suurused:104 141 106 25 98 93 36 145 129 77 96 6 16 84

83 32 116 47 112 79 111 132 61 100 103

Nõutakse leida ostu keskmise usaldusvahemik usaldusnivoodel 0,5; 0,9; 0,95 ja 0,99.Lahendus. Usaldusvahemiku arvutamisel lähtume valemist (11.4)’’. Leiame

1) valimikeskmine x n1 = X i

n

=1i∑ = …= 85,3

2) valimi standardhälve )X-x( 1-n

1 = s i2

n

=1i∑ =…=39,2

3) valimi standardviga 84,75

2,3925

=== s X

σ

Korrastame nüüd tulemused erinevate usaldusnivoode korral tabelisse:Usaldusnivoo (1-α) 0,5 0,9 0,95 0,99Valimikeskmine X 85,3 85,3 85,3 85,3

Standardhälve s 39,2 39,2 39,2 39,2

t-jaotuse täiendkvantiil 2

αt 0,68 1,71 2,06 2,8

Standardviga Xσ 7,84 7,84 7,84 7,84Hinnangu viga αε 5,33 13,40 16,15 21,95Usaldusvahemik 80 - 91 71 - 99 69 - 102 63 - 108

56

Page 57: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Võrreldes eelmise näitega, kus küsitlesime 64 inimest, suurenevad valimimahu kasvades usalduspiirid – tulemuse täpsus on väiksem.

Üldkeskmise vahemikhinnangu valemid võime koondada järgmisse tabelisse: Tunnuse jaotusNormaaljaotus Teadmata

Suur valimn≥60

σ teada nz+X < <

nz-X /2/2

σµσαα ⋅⋅

σ ei ole teada ns

z+X < < n

sz-X /2/2 ⋅⋅ αα µ

Väike valimn<60

σ teada nz+X < <

nz-X /2/2

σµσαα ⋅⋅

σ ei ole teada nst+X < <

nst-X nn ⋅⋅ −− 1,2/1,2/ αα µ Ei käsitle antud kursuses

Tabel 11.1

11.2 Valimi suuruse määraminePunktis 11.1 nägime, et hinnangu viga ε sõltub kahest tegurist: ülesande püstitamisel ette

antud usaldusnivoost 1-α ja valimi suurusest n. Seejuures valimi mahu kasvades viga väheneb. Usaldusnivoo ja valimi suurus on uurija valida, teised parameetrid (jaotus ja standardhälve) tulenevad uuritava tunnuse olemusest.

Sageli püstitatakse ülesanne selliselt: leida uuritava karakteristiku hinnang usaldusnivool 1-α , mille korral viga ei ületa ε ühikut .

Nõutava täpsuse saame tagada vaid piisavalt suure mahuga valimi kasutamisel. Seega on meil tegemist ülesandega: leida valimimaht, mille korral olulisusnivool α hinnatav karak - teristik ei erine tegelikust väärtusest rohkem kui lubatava vea ε α võrra.

Oletame, et tegemist on üldkeskmise hinnanguga. Kõik selle võimalikud erijuhud, mille korral oskame anda hinnangu, on toodud tabelis 11.1. Sõltuvalt lähtetingimustest võime eristada kahte alamjuhtu:

1) tunnuse standardhälve σ on teada 2) kasutame valimi standardhälvet s.

Esimesel juhul avaldub hinnangu viga εα, kujul: n

z /2σ

ε αα = ning siit on kerge leida va-

limi maht: 2

2/

σα

αz n , mis annab minimaalse nõutavat täpsust tagava vajaliku valimi-

mahu.

Teisel juhul, kui kasutame valimi standardhälvet )X-x(n

= sn

ii

2∑=− 11

1 , avaldub hinnan-

gu viga valemiga )s*z( = n 2/2

εα . Selle valemi kasutamisel on aga otsitavaks suuruseks

57

Page 58: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

olev valimi maht n mõlemal pool võrdusmärki, kuna ka standardhälbe leidmisel mängib rolli suurus n.

Ilusat matemaatilist lahendust sellele probleemile ei ole. Praktikas kasutatakse valimi mahu määramiseks „vea ja eksituse“ meetodit. Kõigepealt koostatakse nn. proovivalim, mille maht määratakse suvaliselt: olgu selleks n0. Proovivalimi korral leitakse tema standardhälve s0 = s(n0 ) ja arvutatakse sellest tulenev valimimaht n1:

2

1

εα)ns(*z = n 0

/2 või 2

1

εα)ns(*t = n 0

/2

Kui osutub, et leitud väärtus n1 on väiksem kui proovivalimi maht n0, siis arusaadavalt on proovivalimi suurus piisav. Kui aga n1>n0, see tähendab, et proovivalim oli väike, tuleb valimit suurendada. Seega tuleb üldkogumist valida täiendavalt n1-n0 elementi. Kogu protsessi korratakse seni, kuni mingil sammul nõutav valimi maht on väiksem vajalikust, st ni+1<ni.

Valimi mahu leidmisel eeldasime, et üldkogum on piisavalt suur või lõpmatu. Seega kunagi ei teki olukord, kus valimisse tuleb võtta rohkem objekte kui neid on üldkogumis neid üldse on. Lõplike, väikese objektide arvuga üldkogumite korral (näiteks majandusteaduskon-na II kursuse üliõpilased, üle miljonieurolise käibega ettevõtted Eestis jne) on mõttekas mitte teha valimit, vaid uurida tervet üldkogumit ja saada hinnangute asemel täpsed tulemused. Kui mingil põhjusel ei ole üldkogumi analüüs siiski võimalik, tuleb ikkagi piirduda valimi põhjal tehtavate hinnangutega. Valimi vajaliku mahu määramisel kõlbavad ülaltoodud hinnangud,

kui neid korrutada koefitsiendiga n+N

N , kus N on üldkogumi maht ja n – leitud valimi

maht.Üldiselt kehtib valimi mahu määramisel põhireegel - mida suurem on valim, seda

põhjalikumat analüüsi saab teha, kuid majanduslikest kaalutlustest lähtudes - mida väiksem on valim, seda odavam on uuringut läbi viia.

Näide 11.4. Võtame uuesti käsile näite 11.3 ja leiame, mitut inimest on tarvis küsitleda, et saada hinnangut 10 euro täpsusega usaldusnivool 0,95.

Lahendus: 6510

2,39*06,222

2/

2

2/ =

=

=

= st t n

εεσ

α

α

α

α

Seega – tarvis on küsitleda vähemalt 65 inimest. Kuna meil 25 inimese küsitlusandmed on juba olemas, siis on täiendavalt tarvis küsitleda veel 40 inimest. Pärast nende inimeste küsit-lemist tuleb uuesti ümber arvutada valimi maht, et veenduda, kas täpsustunud valimikeskmise ja standardhälbe korral valimi maht on ikka piisav.

Võrdleme nüüd näidete 11.2 ja 11.3 tulemusi usaldusnivool 0,95. Näite 11.3 korral küsit-lesime 25 inimest, mis on vähem kui on vajalik selleks, et viga jääks 10 euro piiresse ning saime tulemuse: „keskmine maksumus“ = 85,5 ± 16,15. Näites 10.2 küsitlesime 64 inimest, seega peaaegu vajaliku täpsuse saamiseks nõutavat inimeste arvu n=65 ning saime tulemuse: „keskmine maksumus“ = 90,8 ± 9,13.

58

Page 59: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

11.3 Suhtelise sageduse (protsendi) vahemikhinnangEespool vaadeldud üldkeskmise hinnang (keskmine palk, keskmine reisijate arv, kesk-

mine loengult puudutud tundide arv, keskmine televiisori vaatamise tundide arv, jne)on prak-tikas üks sagedamini kasutamist leidvatest hinnangutest. Kuid peaaegu sama tihti tahetakse hinnata ka mingi sündmuse toimumise suhtelist sagedust, toetusprotsenti, teatud omadustega toote osakaalu jms. Seega – tahetakse teada sündmuse toimumise suhtelist sagedust, mis võib olla väljendatud ka protsendina. Suhtelise sageduse hindamise üldpõhimõtted on samad mida kasutasime üldkeskmise hindamisel: koostatakse valim ja valimi põhjal saadud sageduse põhjal antakse hinnang suhtelisele sagedusele üldkogumis. Hindamisvalemi tuletamisel saame tegelikult ära kasutada enamuse eelnevas saadud tulemustest, kui vaatleme sagedust üldkeskmise erijuhuna.

Üldkeskmise hindamiseks saime valemi (11.3):

XX zXzX σµσ αα ⋅+<<⋅− 2/2/ ,mida soovime ära kasutada suhtelise sageduse vahemikhinnangu valemi saamisel.

Üldkeskmise hinnangu leidmisel me eeldasime, et uuritav tunnus on arvuline ja võib omandada suvalisi arvulisi väärtusi. Vaatleme nüüd juhtu, kus uuritav tunnus omandab vaid väärtusi 0 ja 1: }1,0{=ix . Sellisel juhul võime üldkeskmisele ning ja üldkogumi standard-hälbele anda tõlgenduse, mis sobib meie eesmärgiga – seostada need suhtelise sagedusega. Tehtud eeldustel on üldkogumi vaadeldav tunnus X = {x1, x2, ..., xN} nullide ja ühtede jada ning üldkeskmise definitsiooni järgi (vt 9.2) abil:

pNNx

N1μ 1

N

1ii === ∑

=,

kus N1 on tunnuste arv, mille väärtus on 1 (summas liidame kokku N1 ühte) ja N on objektide arv üldkogumis. Suhe N1/N on vaadeldava tunnuse väärtuse „1“ omandamise suhteline sagedus üldkogumis. Eristamaks suhtelise sageduse hindamisvalemeid üldkeskmise vale-mitest tähistame suhtelise sageduse tähega p.

Vastavalt üldkogumi standardhälbe definitsioonile avaldub praegusel juhul üldkogumi standardhälve (vt 9.2): p)p(1σ −= . Tavaliselt tähistatakse 1-p=q, ning saame valemi

pqσ = *7

Seega saime, et väärtusi 0 ja 1 omava tunnuse korral vastab üldkogumis üldkesk-misele μ üldkogumi suhteline sagedus p ja standardhälve avaldub suhtelise sageduse kaudu kujul pq=σ .

*7 Tõepoolest,

pq = p)-p(1 = p + p2 - p = )N + N2p - p(NN1

=

= )x + pxp(N1 = )x-(p

N1 =

2211

i

N

=1ii

N

=1i

2N

=1i

2i

N

=1i

2

2

2

*

2 ∑∑−∑∑σ

kus teisenduses kasutasime sageduse p määratlust p=N1/N ja sellest tulenevat võrdust N1=p*N. 59

Page 60: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Vaatleme analoogilisi suurusi valimi korral. Olgu ülalkirjeldatud üldkogumist tehtud va-lim: X = {x1, x2, ..., xn}, mis analoogiliselt üldkogumiga on tunnuse väärtuste 0 ja 1 jada. Va-

limikeskmise võime kirjutada kujul ∑=

===n

1i

1i p

nnx

n1X , kus n1 on valimis väärtust „1“

omavate elementide arv. Suhteline sagedus p kui valimikeskmine on juhuslik suurus, mille

1) keskväärtus (arvestades ülalpool kasutusele võetud tähistust):

pμxn1E =pE XE i

n

1=i

≡=

≡ ∑2) dispersioon

npq

nσXDσσ

22p

2X ===≡

Kuna sageduse korral on tegemist üldkeskmise hindamise erijuhuga, siis asendades leitud väärtused üldkeskmise hindamise valemisse ja saame:

pα/2pα/2 σz+p< p < σz-p .

Ilmselt ei ole siin mõtet vaadelda juhtu kui üldkogumi standardhälve on teada:

npq σσ pX =≡ , kuna siis me võime hinnatava väärtuse p leida sellest samast valemist. Kui

üldkogumi standardhälve ei ole teada, kasutame arvutustes valimi põhjal arvutatud lähend-

väärtusi: nqp σσ pX =≡ ning saame sageduse hindamiseks valemi

nqpz+p< p <

nqpz-p /2/2 αα

Väikeste valimite korral me saime anda hinnangu vaid siis, kui uuritav tunnus on normaal-jaotusega. Kahendväärtusi omav tunnus seda ei ole ja seega ei kõlba siinjuures ka Studenti jaotus. Väikeste valimite korral kasutatakse hinnangu leidmisel eritabeleid, mida me siin-kohal ei vaatle.

Näide 11.5. Poliitik palus hinnata oma toetajaskonna suurust usaldusnivool 0,95. Selleks küsitleti 400 inimest, kellest 225 ütles, et “toetan” ja 175 ütlesid “ ei toeta”. Leida hinnang poliitikut toetavate inimeste protsendile.

Lahendus.1) 0.56=225/400 = p 0.44 = q

2) 0.025 = 400

0.44*0.56 = nqp = σp

3) Tähistagu Ip usaldusvahemikku: Ip=(0.56 ± 1.96*0.025) = (0.56 ± 0.05) Seega - usaldusnivool 0.95 toetab poliitikut 51-61% inimestest.

60

Page 61: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

11.3.1 Valimi suuruse määramine suhtelise sageduse hinnangutes Nagu üldkeskmise hinnangu korralgi, saab ka sageduse hinnangus leida valimi suuruse,

mis usaldusnivool 1-α tagab, et usalduspiirid jäävad etteantud lubatavast veast ε väiksemaks.

Selleks lähtume veahinnangust nqp*z /2ααε = ja siit leiame

ε α

α2

2/2 qp*z = n . Sageli võetakse

korrutise q*p tegeliku väärtuse asemel tema võimalik maksimaalne väärtus, mis saavuta-takse juhul 5,0 = p . See annab küll vajalikust veidi suurema valimi, kuid võimaldab kohe

uurimise algul määrata valimi suuruse. Seega, sageduse vahemikhinnangute korral võime lei-

da valimimahu arvutades: 4ε

z =n

2

.

Näide 11.6. Mitut inimest on näite 11.5 korral tarvis küsitleda, et saada vastus usaldusni-vool 95% veaga ±5%.

Leiame 384 = 0.05*0.05

0.5*0.5*961. = n2

. Seega küsitlesime praeguse ülesandepüstituse 16

inimest korral rohkem kui seda hädapärast tarvis oleks olnud.

Lubatava vea vähendamine suurendab küsitletavate hulka märgatavalt, näiteks soovides tu-lemust, mis samal usaldusnivool ei ületaks 3% viga, peaksime küsitlema 1100 inimest.

61

Page 62: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

12 HÜPOTEESID 12.1 Hüpoteeside püstitamise põhimõtted ja liigid

Kõik siiani tehtud järeldused üldkogumi karakteristikute kohta olid hinnangud karakteristi-kute arvulistele väärtustele. Selliseid hinnanguid tegime lähtudes vajalikust usaldusnivoost ja lubatavast veast. Sageli ei huvita meid aga mitte niivõrd parameetrite konkreetsed arvulised väärtused, kuivõrd nendel väärtustel põhinev otsustus.

Hüpoteese võime püstitada mingi konkreetse karakteristiku kohta, olgu selleks siis üld-keskmine, standardhälve, keskmiste vahe, sagedus või mõni teine karakteristik, aga samuti ka väga mitmete teistsuguste väidete tõestamiseks või ümberlükkamiseks, näiteks – kas tunnuste vahel on seos, kas tunnus on jaotunud eeldatava jaotuse järgi jne.

Käesolevas osas vaatleme hüpoteeside püstitamist üldkogumi parameetrite kohta. Hüpo-teeside püstitamise olemuse võib sõnastada selliselt.

1. On olemas üldkogum, millel on meid huvitava karakteristiku väärtus w, mida me aga ei tea.

2. Teeme oletuse, et selle karakteristiku väärtus on meie poolt eeldatavas suhtes oleta-tava arvuga w0, st on võrdne arvuga w0, on arvust w0 suurem (w > w0) või väiksem (w < w0). Oletatav väärtus w0 on mingil määral meie veendumus.

3. Moodustame valimi (kontrollvalimi) ja arvutame valimi statistiku kui üldkogumi vaadeldava karakteristiku w hinnangu. Sõltuvalt sellest, millises suhtes on valimi põh-jal arvutatud statistik meie poolt pakutud arvuga w0 võime anda hinnangu oma väitele, st kas w = w0 , w > w0 või w < w0.

Selgitame seda lihtsa näite varal. Suitsetamine on paha harjumus, millega sageli alustatakse suhteliselt noorelt. Olgu näiteks

eeldatav ohtlik iga keskmiselt kusagil 14. eluaasta juures. Selle väite kohta võime püstitada järgmised teesid:

1) regulaarse suitsetamise algus on keskmiselt 14-aastaselt;2) regulaarse suitsetamise algas keskmiselt pärast 14. eluaastat ja 3) regulaarse suitsetamise algas keskmiselt enne 14. eluaastat.

Paneme tähele, et meie väited on praegu tehtud üldkeskmise kohta. Püstitatud teeside tõestamiseks peame tegema valimi, st küsitlema teatud arvu suitsetajaid. Sama valimi põhjal saame kontrollida kõikide väidete paikapidavust või paikapidamatust, kuid seda ikkagi üks-haaval. Selleks vaadeldakse iga väitega kõrvuti tema vastandit ning teatud reeglite järgi otsustatakse, millist väidet lugeda tõeseks.

Iga konkreetse väite korral vaadeldakse hüpoteeside teoorias teineteist välistavate hüpo-teeside paare, millest üks tähistab tõestatavat väidet, nn alternatiivset hüpoteesi – H1 ja teine temale vastupidist situatsiooni, nn nullhüpoteesi - H0. Seega, lähtudes ülaltoodust saame väl-ja kirjutada hüpoteeside paarid:A. H0 : w = 14 B. H0 : w ≤ 14 C. H0 : w ≥ 14

H1: w ≠ 14 H1 : w > 14 H1: w < 14

62

Page 63: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Siin w tähistab muutujat „regulaarse suitsetamise alguse keskmine iga“ ja w0 = 14 on meie poolt arvatav väärtus. Üldjuhul võime hüpoteeside liigid koos nimedega kirjutada välja kujul:

H0 : w = w0 A. Kahepoolne hüpotees: H1: w ≠ w0

H0 : w ≤ w0B. Hüpotees „suurem“: H1: w > w0

H0 : w ≥ w0 C. Hüpotees „väiksem“:H1: w < w0

Nagu eespool öeldud, tehakse hüpoteeside kontrollimiseks valim ja leitakse valimi vastav karakteristik. Kuna valim on juhuslik, on juhuslik ka valimi vastav karakteristik, millega võrdleme oma arvamust. On täiesti võimalik, et üks valim kinnitab püstitatud teesi, kuid tehes uue valimi, võime saada vastupidise tulemuse. Seepärast tuleb jällegi tehtav otsustus siduda tõenäosusega, st anda hinnang õigeks peetava väite tõesusele.

Hüpoteeside püstitamisel ja kontrollimisel lähtutakse sellest, et nullhüpotees H0 näitab ala-ti „kehtivat olukorda“ ja kasutades valimist saadud tulemusi me peame tõestama alternatiivse hüpoteesi H1. Seepärast räägitaksegi, et tehtud valimi põhjal saame tõestada alternatiivse hü-poteesi või kui seda ei saa, siis ütleme – „me jääme nullhüpoteesi juurde“. Nagu näha, ei ole võrdus w = w0 tõestatav hüpotees ning väidet „suitsetamine algas keskmiselt 14 aastaselt“ me otseselt tõestada ei saa. Küll saame aga tõestada, et „valim ei kinnita, et suitsetamise algus erineks meie poolt arvatavast 14 aastast“.

Nullhüpoteesi ja alternatiivse hüpoteesi erinevat tähendust tuleb meeles pidada hüpoteesi-de püstitamisel – esmalt tuleb paika panna see, mida tahame tõestada (hüpotees H1) ja seejärel tema vastuväide - H0. Ilus analoogia tekib siin ka nn „süütuse presumptsiooniga“ – tuleb läh-tuda põhimõttest, et inimene on alati süütu, alles ümberlükkamatute tõendite korral (meil on selleks üldkogumist võetud valim), võime väita vastupidist.

12.2 Hüpoteeside kontrollimise põhimõttedA. Kahepoolne hüpotees. Olgu üldlevinud arvamuse järgi hinnatava parameetri

väärtus w = w0 . Meie arvates see nii ei ole ja me tahame selle eksiarvamuse kummutada tõestades alternatiivse hüpoteesi. Seega on tegemist kahepoolsete hüpoteeside paariga:

H0 : w = w0 H1: w ≠ w0

Hüpoteeside kontrollimiseks võtame üldkogumist valimi ja leiame valimi põhjal kontrolli-tavale karakteristikule vastava statistiku X (kui kontrollitavaks suuruseks on üldkeskmine, siis on kontrollstatistikuks valimikeskmine X , kui kontrollitavaks on suhteline sagedus, siis on selleks suhteline sagedus valimis jne).

On loogiline, et kui hüpoteeside kontrollimiseks arvutatud statistik X ei erine meie poolt oletatavast väärtusest w0 oluliselt, st ε<− 0wX , kus ε on mingi väike suurus, siis on usutav väide w = w0 ja on loomulik jääda nullhüpoteesi juurde. Kui aga osutub, et leitud statistik X

63

Page 64: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

ei ole meie poolt arvatavale väärtusele küllalt lähedal: ε≥− 0wX siis nullhüpotees usutav ei ole ja tuleks lugeda kehtivaks alternatiivne hüpotees H1.

Arvestades, et statistik X on juhuslik suurus, võime seda situatsiooni kujutada joonisel selliselt:

Lubatav erinevus ε on loomulik siduda mingi tõenäosusega ja vaadelda teda sõltuvuses sellest tõenäosusest. Seega – leitakse vahemik )( 0 αε±w millesse juhuslik suurus X langeb mingi tõenäosusega. See on sisuliselt usaldusvahemiku leidmise ülesanne (vt 11.1) ning lu-batav kõrvalekalle εα leitakse usaldusnivool 1-α tingimusest αε α −=<− 1)( 0wXP . Loo-mulikult tuleb arvestada juhusliku suuruse X jaotust ja vajalikke arvkarakteristikuid.

H0 : w ≤ w0B. Hüpotees „suurem“:

H1: w > w0 Selle hüpoteesipaari korral on alternatiivne ehk sisukas hüpotees väide, et vaadeldav üld-

kogumi karakteristik w on suurem meie poolt arvatavast väärtusest w0. On loomulik, et kui valimi põhjal hüpoteesi kontrollimiseks arvutatud statistik X on väiksem oletatavast väärtu-sest w0, siis pole meil mingeid tõendeid väitmaks, et tegelik väärtus on suurem kui w0. Ilmselt ei saa sisuka hüpoteesi tõestuseks lugeda ka veel seda, kui statistik X ületab pakutavat väär-tust w0 väga vähe – mitte rohkem kui mingi väikese suuruse ε võrra. Kui aga statistik X on suurem kui lubatav juhuslik kõrvalekalle ε, st mingil usaldusnivool 1-α kehtib: )( 0 ε+≥ wX , siis võime väita, et koostatud valim tõestas vaadeldaval usaldusnivool alternatiivse hüpoteesi H1.

Toodud arutelu võib ilmestada joonisega:

w0

w0+ε

αw0-ε

α

X

jääme H0 juurdeH

1H

1

64

Page 65: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Lubatava kõrvalekalde suurus ε määratakse jällegi sõltuvalt ette antud usaldusnivoost 1-α. Kõrvalekalle εα, mille korral jääme veel nullhüpoteesi juurde leitakse tingimusest

αε α −=<− 1)( 0wXP .

C. Hüpotees „väiksem“: 01

00

::

wwHwwH

<≥

Selle hüpoteesipaari korral on tõestatavaks väide, et üldkogumi vaadeldav karakteristik w on väiksem meie poolt arvatavast väärtusest: H1: w < w0 . On loomulik, et kui valimi põhjal hüpoteesi kontrollimiseks arvutatud statistik X on suurem oletatavast väärtusest w0, siis pole meil tõendeid väitmaks, et tegelik väärtus on väiksem kui w0. Ilmselt ei saa sisuka hüpoteesi tõestuseks lugeda ka veel seda, kui statistik X ei ole piisavalt palju väiksem meie poolt arva-tavast väärtusest. Seega, hüpoteesi H1 loeme tõestatuks, kui tõenäosusega 1- α kehtib

)ε(wX 0 −≤ . Joonisel võime seda situatsiooni kirjeldada järgmiselt:

Lubatav kõrvalekalde suurus ε määratakse jällegi sõltuvalt ette antud tõenäosusest 1-α. Kõrvalekalle εα, mille korral jäädakse veel nullhüpoteesi juurde leitakse tingimusest

α1)εXP(w α0 −=<− . Sobiva εα väärtuse leiame allpool vahetult sellest valemist tulenevalt.

Kokkuvõttes võime saadud tulemused koondada tabelisse:Hüpotees Kehtib hüpotees εα leitakse valemist

AH0: w=w0

H1: w≠w0

H0, kui ε<− 0wX

H1, kui ε≥− 0wXαε α −=<− 1)( 0wXP

BH0: w≤w0

H1: w>w0

H0, kui )( 0 αε+< wX

H1, kui )( 0 αε+≥ wX αε α −=<− 1)( 0wXP

CH0: w≥w0

H1: w<w0

H0, kui )( 0 αε−> wX

H1, kui )( 0 αε−≤ wX αε α −=<− 1)( 0 XwP

Tabel 12.1

w0 +εw0

X kehtib H1jääme H0 juurde

w0- ε

X

kehtib H1 jääme H0 juurde

w0

65

Page 66: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

12.3 Hüpoteesid üldkeskmise kohtaEespool me leidsime üldised tingimused hüpoteeside kontrollimiseks. Lähtudes nendest

tingimustest saame leida hüpoteeside kontrollimise eeskirjad üldkogumi iga karakteristiku jaoks, arvestades selle karakteristiku omapära.

Vaatleme järgnevas üldkeskmise kohta tehtavaid hüpoteese. Tähistagu alljärgnevas: μ – üldkeskmist, μ0 – meie poolt oletatavat väärtust ja kontrollvalimi põhjal arvutatud statistik X≡ X - valimikeskmist.

Punktis 9.4 näitasime, et μXE = ja ilma uuritavale tunnusele lisatingimusi panemata on piisavalt suure kontrollvalimi korral (valimi maht > 60) vastavalt tsentraalsele piirteoreemile valimikeskmine X jaotunud normaaljaotuse järgi. Nullhüpoteesi järgi μ = μ0, järelikult eel-dame siis ka, et 0μXE = .

12.3.1 Kahepoolsete hüpoteeside kontrollmine

Vaatleme hüpoteesipaari 01

00

::

µµµµ

≠=

HH

. Eelmises punktis saime, et lubatav kõrvale-

kalle εα, mille korral jääme usaldusnivool 1-α nullhüpoteesi juurde, on leitav tingimusest: α1)εμXP( α0 −=<− . Võrrandi lahendamise käik on samasugune, nagu ta oli üldkeskmise

usaldusvahemiku leidmisel (vt 11.1), kuid kordame seda siinjuures siiski. Leiame kõrvalekal-de εα, millest väiksemate erinevuste korral leitud valimikeskmise X ja kontrollitava väärtuse μ0 vahel jääme nullhüpoteesi juurde.

Tehtud eeldusel, et kontrollvalim piisavalt suur, on juhuslik suurus X normaaljaotusega ja vahemikku langemise tõenäosuse leidmisel võime kasutada Laplace'i funktsiooni:

α11)σε(2Φ)

σεΦ()

σεΦ()εμXεP(μ

X

α

X

α

X

αα0α0 −=−=−−=+<<−

Edasi saame 21)( α

σε α −=Φ

X ning sarnaselt punktis 11.1 tehtuga avaldame

2/1 )

21( α

α ασε z

X=−Φ= − , kus z /2α on standardiseeritud jaotuse täiendkvantiil. Otsitav suurus

εα avaldub kujul Xz σε αα 2/= .Pannes saadud εα väärtuse ülaltoodud kahepoolse hüpoteesi kontrolltingimusse

α0 εμX <− (vt tabel 12.1), saame välja kirjutada tulemuse:

– nullhüpoteesi juurde jääme siis, kui kehtib võrratus: α/2X

0 zσ

μX<

− ja

– võtame vastu alternatiivse hüpoteesi, kui: α/2X

0 zσ

μX≥

−.

66

Page 67: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Enamasti tuuakse sisse veel lisatähistus X

0

σμXZ −= , kus valimi andmete põhjal arvutatud

suurust Z nimetatakse teststatistikuks või kontrollstatistikuks. Kasutades teststatistikut Z, saime kokkuvõttes tulemuse et kahepoolsete hüpoteeside kontrollimisel:

– jääme nullhüpoteesi juurde, kui z |Z| α/2< ja– võtame vastu alternatiivse, kui z |Z| /2α≥ .

Teststatistiku Z leidmisel kasutatakse valimikeskmise standardhälvet Xσ . Meenutame (vt

11.1), et juhul kui on teada üldkogumi standardhälve σ, siis leiame nX

σσ = ; enamasti me

seda aga ei tea ja piisavalt hea hinnangu saame, kui kasutame valimi standardhälvet s ning sel

juhul arvestame, et ns

X =σ .

Näide 12.1. Pikaajalise katsetamise käigus on selgunud, et 10-12 aastaste õpilaste intel-ligentsuse testi IQ keskmine näitaja on 110 palli. Seda testi kasutati ühes väikeses koolis 80 õpilase hindamiseks ja saadi keskmiseks 108,2 = X . Seejuures arvutati ka valimi standard-hälve s=9,4. Kas olulisusnivool 0.05 võime väita, et selle kooli õpilaste intelligentsustase eri-neb keskmisest?

Lahendus. Lähtudes hüpoteeside püstitamise põhimõttest, me nullhüpoteesiga peame väit-ma, et ei ole olulist erinevust selle kooli õpilaste ja õpilaste üldise keskmise IQ vahel. Seega

H0 : μ = 110saame kahepoolsete hüpoteeside paari:

H1: μ ≠ 110

Olulisusnivoole α=0,05 vastab täiendkvantiil 961 = z /2 ,α . Leiame teststatistiku Z

1,71- = s

n*110)-(108.2 = Z .

Kuna teststatistiku absoluutväärtus on väiksem kui vastav täiendkvantiil: 96,1025,02/ ==< zzZ α , siis jääme nullhüpoteesi juurde. Seega, väike erinevus tulemustes ei

luba veel väita kontrollitava kooli õpilaste erinevat intelligentsust. Rõhutame siinjuures, et kahepoolse hüpoteesiga me kontrollime intelligentsustaseme erinevust, mitte seda kas see on suurem või väiksem.

Nagu näeme, põhineb hüpoteeside kontrollimine kahe väärtuse võrdlemisel – ühelt poolt teststatistik Z, mille väärtus sõltub valimi keskmisest ja standardhälbest, teiselt poolt täiendkvantiil, mille väärtus sõltub nõutavast olulisusnivoost. Vaatame veelkord toodud näidet ja nõuame hinnangut olulisusnivool 0,1. Sel juhul teststatistiku väärtus on sama, täiendkvantiil 65,1025,02/1,02/ === zzzα ning kuna |-1,71| > 1,65, siis võtame vastu al-ternatiivse hüpoteesi – tehtud valim näitab, et selle kooli õpilaste IQ erineb keskmisest.

Kumba tulemust lugeda õigeks? Erinevatele olulisusnivoodele vastavad erineva pik-kusega vahemikud, mille korral jäädakse nullhüpoteesi juurde. Juhul α = 0,05 on selleks εα = 1,96∙s ja juhul α = 0,1 on selleks εα = 1,65∙s . Vaatame seda situatsiooni joonisel:

67

Page 68: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Arvestame, et valimikeskmine, mille põhjal teeme otsustuse on juhuslik suurus ja võib omandada erinevaid väärtusi. Näeme, et suurema olulisusnivoo korral α = 0,1 me loobume nullhüpoteesist kiiremini ja võtame vastu alternatiivse hüpoteesi. Meenutame, et olulisusni-vood võisime tõlgendada teatud tüüpi vea tõenäosusena. Kui tegelikkuses on aga õige nullhü-potees, seega oletus μ=μ0, siis võttes vastu alternatiivse hüpoteesi me teeme vea.

Situatsiooni, kus tegelikkuses kehtib nullhüpotees, kuid meie võtame vastu alternatiivse hüpoteesi, nimetatakse esimest liiki veaks. Ülaltoodud näite korral tähendaks see seda, et kuigi tegelikult ei ole laste intelligentsitasemetes erinevust, näitab meie testi tulemus, et eri-nevus on olemas.

Üldiselt võib olla ka teisipidi – tegelikult kehtib alternatiivne hüpotees, on olemas erine-vus, kuid meie katsetulemused nõuavad nullhüpoteesi juurde jäämist. Sel juhul räägitakse teist liiki veast.

Jooniselt võib näha, et mida väiksem on olulisusnivoo, seda suurem on vahemik mille kor-ral jääme nullhüpoteesi juurde. Seega seda väiksema tõenäosusega teeme esimest liiki vea; seda väiksema tõenäosusega saame toodud näites väita, et vaadeldava kooli laste intel-ligentsitase ei küüni keskmiseni. Siit tuleneb ka hüpoteeside juures kasutatav terminoloogia – me peame tõestama erinevuse (ei võrdu, on suurem, on väiksem) või jääma nullhüpoteesi juurde. Sageli tuuakse siinjuures eelnevalt esitatud näide kohtust: me eeldame kaebealuse süütust ja peame tõestama tema süüdioleku.

Nagu näeme, juhib nullhüpoteesi juurde jäämist ja alternatiivse hüpoteesi vastuvõtmist va-limi põhjal koostatud teststatistik Z. Selleks, et mitte katsetada erinevaid olulisusnivoosid, lähenetakse hüpoteeside kontrollimisele ka teisipidi. Koostatud valimi põhjal leitakse kontrollstatistik Z ning määratakse olulisusnivoo, mis vastab teststatistiku väärtusele. Sellist olulisusnivoo väärtust nimetatakse olulisustõenäosuseks.

Kasutades normaaljaotuse täiendkvantiilide tabeleid, saab ülaltoodud näite korral leida, et olulisustõenäosus on 0,088. Seega võime väita, et olulisusnivoo α = 0,088 on pöördepunkt, mille ületamisel korral loetakse tõestatuks alternatiivne hüpotees. Mingis mõttes võib olu-lisustõenäosust tõlgendada kui valimi põhjal leitud hinnangut nullhüpoteesi usutavusele, täp-semalt see väljendab tõenäosust saada selline või „veelgi äärmuslikum valim“ nullhüpoteesi kehtides.

12.3.2 Ühepoolsete hüpoteeside kontrollmine

H0 : μ ≤ μ0Hüpotees „suurem“ on antud paarina:

vastab α=0,1

vastab α=0,05

μ0

μ0+εα μ0-εα

X jääme H0 juurde

H1 H1

68

Page 69: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

H1: μ > μ0

Nagu ülalpool analüüsisime siis juhul, kui valimikeskmine on väiksem kui meie oletatav väärtus µ 0 X < , ei saa valim kummutada nullhüpoteesi. Nii ei ole näite 12.1 andmete põhjal

mõtet hakata tõestame et vaadeldava kooli õpilaste keskmine IQ on suurem üldisest keskmi-sest. Tabelis 12.1 leidsime, et nullhüpoteesi juurde jääme tingimusel )( 0 αε+< wX , seega üldkeskmise juhul on tingimus

)ε(μX α0+< (12.1)ning raja εα, mis määrab ülemineku nullhüpoteesilt alternatiivsele hüpoteesile olulisusni-

vool α saame leida valemist α1 = )ε )μ - XP(( α0 −< .

Paragrahvi alguses seadsime eelduseks, et tegemist on suure kontrollvalimiga ja sellest tu-lenevalt on valimikeskmine jaotunud normaaljaotuse järgi. Siis võime leida tõenäosuse

α1 = )ε < )μ - XP(( α0 − avaldada kujul:

ασε

σµεµ

εµ ααα −=Φ=

−+Φ=+< 1)()()( 00

0XX

XP

Analoogiliselt kahepoolsete hüpoteeside kontrollivalemi tuletamisega

αα α

σε z

X

=−Φ= − )1(1 ning siit hinnang rajale αα σε zX ⋅= .

Asendades leitud εα valemisse (12.1) saame ασµ zX X ⋅+< 0 . Kirjutame selle võrratuse

natukene teisel kujul, saame kriteeriumi, et nullhüpoteesi juurde jääme, kui ασµ zX

X

<− 0

ehk arvestades tähistust ZX

X

=−

σµ 0 omandab kriteerium väga lihtsa kuju: z Z α< .

H0 : μ ≥ μ0Hüpotees „väiksem“ on antud paarina:

H1: μ < μ0

On arusaadav, et kui μX 0> , siis valim ei kummuta nullhüpoteesi. Kui aga μ X 0≤ ,

siis kerkib küsimus sellest, kas valimikeskmine on oletatavast üldkeskmisest piisavalt palju väiksem, et võtta vastu alternatiivne hüpotees. Nullhüpoteesi juurde jäämise tingimuseks saime punktis 12.2: ε - μ X α0≥ . Lähtudes tõenäosusest α 1= )ε-μ XP( α0 −> võime kirjuta-

da:

α1)σεΦ()

σεΦ(1)

σμεμΦ(1)ε(μXP(1))ε(μXP(

X

α

X

α

X

0α0α0α0 −==−−=−−−=−<−=−≥ .

Nagu eespool tegime, saame siit kergesti välja kirjutada võrduse αα σε zX ⋅= ja nullhü-

poteesi juurde jäämise tingimusest ασµ zX X ⋅−≥− 0 ehk ασµ zX

X

<−− 0 . Kasutades ülal-

pool toodud tähistust Z, võime nullhüpoteesi juurde jäämise tingimuse kirjutada ülejäänutega analoogilisel kujul:

αzZ <−

69

Page 70: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Näide 12.2. Detaili valmistamise aeg on normi järgi 35 sekundit. Meister väidab, et tema poolt pakutud täiustuse korral aeg lüheneb. Selle väite kontrollimiseks tehti 70 katset ning saadi X = 32,5 ja s=10,2. Kas katse tulemused kinnitavad meistri väidet?

Lahendus. Meistri väite kontrollimiseks püstitame hüpoteesid. Nullhüpoteesiks valime si-tuatsiooni, mis väidab, et midagi muutunud ei ole - aeg ei lühenenud.

35 :H 35 :H

1

0

<−=

µµ paremaksmuutu ei

Leiame kontrollstatistiku 05,22,10

70)355,32(0 −=⋅−=−=X

XZσ

µ . Sellele vastav olulisus-

tõenäosus α = 0,02, mis on piisavalt väike selleks, et võtta vastu alternatiivne hüpotees.

12.3.3 Hüpoteeside kontrollimise koondtabelTuletame veelkord meelde, et ülalpool käsitletus eeldasime valimikeskmise kui juhus-

liku suuruse normaaljaotust. See on täidetud juhul, kui hüpoteeside kontrollimiseks koostatud kontrollvalim on piisavalt suur. Sel juhul võisime ilma suurema eksimuseta võtta üldkogumi standardhälbe asemel kasutusse valimi standardhälbe: n

snX ≈= σσ . Kui on tegemist

väikeste valimitega ja uuritav tunnus on normaaljaotusega, siis võime teha sellise asenduse, kuid samas kasutama normaaljaotuse täiendkvantiili asemel Studenti täiendkvantiili (võrdle üldkeskmise usaldusvahemiku leidmisega osas 11.1)

Kokkuvõttes saame tulemused koondada tabelisse:

kus X

XZ

σµ 0−

= - on teststatistik, αz - on standardse normaaljaotuse täiendkvantiil

ja 1, −ntα - on Studenti jaotuse täiendkvantiil olulisusnivool α ja vabadusastmete arvuga n-1.

12.4 Hüpoteesid sageduste kohtaKui uurimise objektiks on üldkogumi tunnus, mis omandab vaid väärtusi "0" ja "1", siis

üldkeskmine tähendab sisuliselt väärtuse "1" esinemise suhtelist sagedust. Suhtelise sageduse

Suur valim Väike valimHüpotees Kehtib hüpotees Kehtib hüpotees

AH0: μ=μ0

H1: μ≠μ0

H0, kui 2/αzZ <

H1, kui 2/αzZ ≥

H0, kui 1,2/ −< ntZ α

H1, kui 1,2/ −≥ ntZ α

BH0: μ≤μ0

H1: μ>μ0

H0, kui αzZ <

H1, kui αzZ ≥

H0, kui 1, −< ntZ α

H1, kui 1, −≥ ntZ α

CH0: μ≥μ0

H1: μ<μ0

H0, kui αzZ <−

H1, kui αzZ ≥−

H0, kui 1, −<− ntZ α

H1, kui 1, −≥− ntZ α

Tabel 12.2

70

Page 71: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

usaldusvahemiku leidmist käsitlesime eespool punktis 11.3. Seal tõime sisse järgmised tä-histused ja leidsime järgmised seosed:

➢ üldkeskmine (st. suhteline sagedus üldkogumis): μ = p➢ üldkeskmise dispersioon: σ2 = p·q➢ valimikeskmine (st. suhteline sagedus valimis): p = X

➢ valimikeskmise dispersioon: npq =

nσ = σ

22X

Selles osas tegeleme sageduse kohta käivate hüpoteesidega. Tähistame meie poolt arvatava sageduse väärtust sümboliga p0. Kuna lähtume sellest, et see väärtus on õige, siis tu-

leneb temast ka valimikeskmise dispersioon nqp = σ 002

X , kus q0=1-p0.

Nagu ülalpool öeldud, on sageduse korral tegemist üldkeskmise erijuhuga. Suurte va-limite korral on valimikeskmine X (praegu p ) tsentraalse piirteoreemi kohaselt jaotunud normaaljaotusega ning peab paika kõik, mis eespool oli öeldud üldkeskmise hüpoteeside kor-ral. Normaaljaotuse α - täiendkvantiiliga (või α/2-täiendkvantiiliga) võrreldav teststatistik Z asendub ülaltoodud tähistusi arvestades teststatistikuga kujul:

00

00 )()(qp

nppXZX

−=−=σ

µ .

Hüpoteeside kontrollimiseks saame tabeli:

Kui hüpoteesides üldkeskmise kohta saime väikese kontrollvalimi korral kasutada Studenti jaotuse täiendkvantiile, siis sageduse hindamisel seda teha ei saa.

Näide 12.3. Muudatuste tegemiseks töökorralduses küsitleti 120 töölist. Nendest 65 ütles "pooldan muudatusi". Kas olulisusnivool α = 0.05 võime väita, et üle poolte töölistest pooldab muudatusi?

Lahendus. Kontrollitav sagedus p0 = 0,5 ning tahame teada, kas tehtud valim tõestab väite p > 0,5. Saame hüpoteesid:

H0: p ≤ 0,5 (las olla nii nagu on)H0: p > 0,5 (enamus pooldab muudatusi)

Suur valimHüpotees Kehtib hüpotees

AH0: p = p0

H1: p ≠ p0

H0, kui 2/αzZ <

H1, kui 2/αzZ ≥

BH0: p ≤ p0

H1: p > p0

H0, kui αzZ <

H1, kui αzZ ≥

CH0: p ≥ p0

H1: p < p0

H0, kui αzZ <−

H1, kui αzZ ≥−

71

Page 72: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Leiame sageduse valimis: 0.54=12065=p ning teststatistiku väärtuse

876,05,05,0

120)5,054,0()(

00

0 =⋅

−=−=qp

nppZ

Kuna 65,105,0 =z siis teststatistik Z on väiksem täiendkvantiilist ja me jääme nullhüpo-teesi juurde - ei saa väita, et enamik toetab muudatusi.

Suhteline sagedus toodud näites 0.54=12065=p on siiski kindlalt üle poole ning tule-

museks saadud väide, et üle poole ei toeta muudatusi on tavainimesele arusaamatu. Milles on asi?

Vaatame, kuidas valimi suurendamine mõjutab vastuvõetavat otsust. Võtame esialgse näite ja oletame, et 120 töölise asemel küsitleti 200 inimest, kusjuures "jah/ei" proportsioon jäi

samaks – 0,54. Sel juhul teststatistik 1.13=2000.50.50.5-0.54 =z ⋅

⋅ ning kuna 1.13 < 1.65, siis jää-

me ikkagi nullhüpoteesi juurde. Suurendades veelgi küsitletavate arvu, küsitledes 500 inimest, siis sama "jah/ei" pro-

portsiooni korral saame tulemuseks Z = 1,78. Seega Z > 1.65, siis peame vastu võtma al-ternatiivse hüpoteesi.

Intuitiivselt võttes on tulemus arusaadav – mida suurem on valim, seda usaldatavam on tu-lemus. Iga valimi korral saame leida olulisustõenäosuse (vt 12.3.1), mille korral võetakse vastu alternatiivne hüpotees. Lahendatud ülesande korral näitab valimimahu ja olulisustõe-näosuse vahelist seost tabel:

Valimi maht

Teststatistik Z Olulisustõenäosus

120 0,88 0,19200 1,13 0,13500 1,78 0,04

Arvestades seda, et suurema valimi korral on tulemus alati täpsem, siis võime toodud näite

põhjal teha ka järelduse – mida väiksem on olulisustõenäosus, seda usaldatavam on üleminek alternatiivsele hüpoteesile.

Sellest näitest saame veel ühe tõdemuse, mida kasutatakse praktikas. Nimelt, me ei pea ette andma olulisusnivood, vaid otsustame nullhüpoteesi või alternatiivse hüpoteesi vahel lähtudes olulisustõenäosusest: piisavalt väikese olulisustõenäosuse korral võtame vastu al-ternatiivse hüpoteesi. Milline on see piisavalt väike suurus, seda teooria ette öelda ei saa, see sõltub uuritavast probleemist. Enamiku tavaülesannete korral võetakse olulisustõenäosuse väärtuseks 0,05.

Siin on hea märkida ka usaldusvahemiku ja hüpoteeside kontrollimise duaalsust – sama valimi korral on lõppjäreldus alati sama. Kui leiame üldkeskmisele usaldusvahemiku

72

Page 73: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

olulisusnivool α ning see ei sisalda nullhüpoteesis väljapakutud väärtust (w0 või p0) siis samal olulisusnivool läbi viidud hüpoteeside kontroll käsib vastu võtta alternatiivse hüpoteesi. Vastupidi, kui leiame üldkeskmisele usaldusvahemiku olulisusnivool α ning see usaldusvahe-mik hõlmab ka nullhüpoteesis väljapakutud väärtust (w0 või p0) siis (samal olulisusnivool läbi viidud) hüpoteeside kontroll nõuab nullhüpoteesi juurde jäämist.

12.5 Hüpoteesid üldkeskmiste vahe kohtaKüllaltki sageli on praktikas ülesandeid, kus tuleb võrrelda kahte üldkogumit nende min-

gite parameetrite osas. Käesolevas kursuses piirdume vaid kahe parameetri - üldkeskmise ja mingi väärtuse suhtelise sageduse vaatlemisega. Näiteks võib püstitada ülesande teha kind-laks kas meeste palk erineb naiste palgast, on ta suurem või väiksem; kas kahe pakkeauto-maadi poolt pakitud kotid erinevad keskmise kaalu poolest; kas spordiga tegelevad inimesed on tervemad kui mittetegelevad jne.

Sõnastame selle ülesande matemaatiliselt. Olgu antud kaks üldkogumit X ja Y, millel on üldkeskmised μX ja μY. Üldkeskmiste tegelikke väärtusi me ei tea. Kui teaksime, taanduks kogu probleem vaid kahe arvu võrdlemisele. Vaatleme probleemi natukene üldisemalt, kus me ei vaatle ainult võrdust, vaid anname hinnangu ka üldkeskmiste erinevusele. Seega taha-me anda ka hinnangu suhetele:

μX – μY = D või μX – μY > D või μX – μY < D,

kus D on mingi arvatav erinevuse suurus. Üldkeskmiste oletatava erinevuse või mitteerinevuse tõestamiseks püstitame hüpoteeside

paarid: A: H0: μX - μY = D B: H0: μX - μY ≤ D C: H0: μX -μY ≥ D H1: μX – μY ≠ D H1: μX - μY > D H1: μX -μY < D

Kuna üritame alati tõestada alternatiivset hüpoteesi H1, siis võiksime nullhüpoteesis kirju-tada ka võrduse H0: μX - μY = D kõikide hüpoteesitüüpide korral, kuid jääme antud juhul siis-ki ülaltoodud kuju juurde.

Hüpoteeside kontrollimiseks teeme kummastki üldkogumist piisavalt suured sõltumatud valimid 7 suurustega n1 ja n2 ning leiame valimikeskmised X ja Y , mis on juhuslikud suurused. Vastavalt tsentraalsele piirteoreemile (osa 7.3.1) on piisavalt suurte valimite korral juhuslikud suurused X ja Y normaaljaotusega. Toome sisse uue juhusliku suuruse

Y-XW = . Saab näidata, juhuslik suurus W on normaaljaotusega, keskväärtusega

YX μμEW −= ja standardhälbega 2

2Y

1

2X

YXW nσ

nσσσ +=≡ − .

Seega oleme taandanud probleemi üldkeskmiste vahe kohta püstitatud hüpoteeside prob-leemi osas 12.3 käsitletud juhule suure valimimahu korral. Tuginedes sellele võime vahetult välja kirjutada:

*7 Valimid on sõltumatud, kui nad ei sisalda samu objekte ning objekti valik ühte valimisse ei mõjusta objek-ti valimist teise

73

Page 74: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Hüpoteesi kuju Kehtivuse tingimus

A H0: μX - μY = DH1: μX - μY ≠ D

H0, kui 2/αzZ < H1, kui 2/αzZ ≥

B H0: μX - μY ≤ DH1: μX - μY > D

H0, kui αzZ < H1, kui αzZ ≥

C H0: μX - μY ≥ DH1: μX - μY < D

H0, kui αzZ <− H1, kui αzZ ≥−

Siin YXσ

D)YX(Z−

−−= ning YXσ − arvutatakse ülaltoodud valemi põhjal, kui on teada üldko-

gumite standardhälbed või valemi 2

2Y

1

2X

YX ns

nsσ +=− abil, kus sX ja sY on vastavate valimite

standardhälbed.Tuletan meelde, et me eeldasime suuri valimeid. Kui kasvõi üks valimitest ei ole piisavalt

suur, saame vaadelda vaid juhtu, kus tunnused on normaaljaotusega ja enam-vähem sama standardhälbega. Muutub uue juhusliku suuruse Y-XW = standardhälbe arvutamise eeskiri ja hüpoteeside kontrollimisel peame normaaljaotuse asemel kasutama Studenti jaotust. Kuna üldine lähenemine on osaga 12.3 sarnane, siis toome siinjuures ära vaid lõpptulemuse, mille vormistame alljärgneva tabelina.

Seejuures väikeste valimite korral (eeldusel, et üldkogumid on normaaljaotusega ja enam-vähem võrdsete dispersioonidega) leiame valimikeskmiste vahe standardhälbe YXσ − , siis

2

2

1

2

)( ns

ns pp

YX+=

−σ , kus

2-n+n1)-n(s+1)-n(s = s

21

22Y1

2X2

p

Märgime siinjuures, et üsna sageli huvitab vaid üldkeskmiste omavaheline suhe: μX = μY

või μX < μY või μX > μY. See on erijuht eelnevast, kus eeldatava erinevuse suurus on võetud võrdseks nulliga: D = 0. Siin viitame veel ühele tihti kasutatavale väitele: juhul kui tõesta-takse hüpotees H1: μX ≠ μY

siis öeldakse, et vaadeldavad kogumid (millest tehti valimid) ei ole vastaval olulisusnivool statistiliselt eristatavad üldkeskmise mõttes.

Näide 12.4. Kaalujälgijad tegutsesid kahe eri metoodika järgi. Poole aasta möödudes hi-nnati, kas kasutatud metoodikate tulemuses on olulist erinevust. Selleks tehti kummagi me-toodika järgi tegutsenud inimeste hulgast valimid (kumbki 60 inimest) ja leiti keskmine kaalu

Suur valim Väike valim

Hüpotees Kehtib hüpotees Kehtib hüpotees

AH0: μX - μY = D0

H1: μX - μY ≠ D0

H0, kui 2/αzZ < H1, kui 2/αzZ ≥

H0, kui ftZ ,2/α< H1, kui ftZ ,2/α≥

BH0: μX - μY ≤ D0

H1: μX - μY > D0

H0, kui αzZ < H1, kui αzZ ≥

H0, kui ftZ ,α< H1, kui ftZ ,α≥

CH0: μX - μY ≥ D0

H1: μX - μY < D0

H0, kui αzZ <− H1, kui αzZ ≥−

H0, kui ftZ ,α<− H1, kui ftZ ,α≥−

kus f = min(n1–1, n2–1)ja

YXσD-)YX(Z

−=

74

Page 75: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

vähenemine: X = 10 kg ja Y = 11 kg, kusjuures arvutati ka s1 = 5 ja s2 = 6. Kas metoodi-

kates on erinevust?Lahendus. Püstitame hüpoteesid: H0: μX = μY

H1: μX ≠ μY

Arvutame teststatistiku 1=

6036+

6025

1 =

ns+

ns

)Y-X(=σ

)Y-X(=Z

2

22

1

21)X-X( 21

Nii olulisusnivool 0,05 ( , )/zα 2 1 96= kui ka olulisusnivool 0.1 ( , )/zα 2 1 68= nõuavad and-med nullhüpoteesi juurde jäämist - ei saa väita erinevuse eksisteerimist kahe metoodika tule-muste vahel.

12.6 Hüpoteesid sageduste vahe kohtaSageli on praktikas tarvis hinnata suhtelise sageduse (protsendi) muutusi, st. anda hinnang

suhteliste sageduste vahele. Näiteks on tavaline, et antakse hinnanguid erakondade poolehoid-jate protsendi muutumisele, reklaamikampaania mõjule jne. Nagu eespool vaatlesime (osa 11.3), on sagedus üldkeskmise erijuht (tunnus omandab vaid väärtusi 0 ja 1) ning põhimõtte-liselt saame suurte valimite korral kasutada kõiki üldkeskmise kohta toodud hinnanguid. Arvestades aga tunnuse eripära omandavad nii püstitatavad hüpoteesid kui ka kasutatavad valemid veidi teistsuguse kuju. Laskumata täpsetesse selgitustesse toome siinjuures vaid tä-histused ja protsentide vahe kohta püstitatud hüpoteeside kontrollimise koondtabeli.

Olgu antud kaks üldkogumit ning nendes arvutatud tunnuse väärtuse „1“ suhtelised sagedused p1 ja p2. Olgu esimesest üldkogumist tehtud valim suurusega n1 ning selle põhjal

arvutatud suhteline sagedus 1

11 n

mp = ; teise valimi korral 2

22 n

mp = . Hüpoteeside kontrollimiseks

arvutatakse kahe kogumi ühine standardhälve: )n1

n1)(p-(1ps

21p += kus

21

21

nnmmp

++= .

Hüpoteeside kontrollimise tabel kahe kogumi suhteliste sageduste võrdlemisel on:Hüpotees Kehtib hüpotees

AH0: p1 = p2

H1: p1 ≠ p2

H0, kui 2/αzZ p <

H1, kui 2/αzZ p ≥

BH0: p1 = p2

H1: p1 > p2

H0, kui αzZ p <

H1, kui αzZ p ≥

CH0: p1 = p2

H1: p1 < p2

H0, kui αzZ p <−

H1, kui αzZ p ≥−

kus

pp s

ppZ 21 −=

Näide 12.5. Oletame, et enne reklaamikampaaniat oli erakonna Liberaalid pooldajaid 100 küsitletu põhjal 20%. Pärast kampaaniat oli toetajaid 24%. Kas olulisusnivool 5% võime väi-ta, et pooldajate arv suurenes?

Lahendus. Tahame näidata, et pooldajate arv suurenes. Seega püstitame hüpoteesid:

75

Page 76: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

H0: p1 = p2

H1: p1 < p2

Arvutame: 0,2p1 = , 24,02 =p , 0,22200

2420p =+= ,

0,060,01)0,78(0,01*0,22)n1

n1)(p-(1ps

21p =+=+=

ning teststatistik Zp = (0,2-0,24/0,06) = -0,67. Olulisusnivoole 0,05 vastab normaaljaotuse täiendkvantiil 1,65z0,05 = ja kuna -Zp=

0,67 < 1,65 siis jääme nullhüpoteesi juurde. Seega – kuigi „silmaga nähtavalt“ tõusis toetajate hulk 4% võrra, ei saa sellest siiski teha

järeldust kampaania edukusest. Probleemseisneb selles, et antud juhul oli 100 küsitletut liiga vähe usaldusväärseks erinevuse tõestamiseks.

76

Page 77: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

13 JAOTUSE LEIDMINE

Senises käsitluses eeldasime, et ülesannet lahendama asudes me teame, millise jaotusega on parajasti vaadeldav juhuslik suurus. Näiteks eeldasime, et telefoniarve suurus on normaal-jaotusega, kosmoselaeva tabanud meteoriitide arv on Poissoni jaotusega jne. Kuidas aga tege-likkuses teha kindlaks, millise jaotusega on juhuslik suurus? Praktikas on juhuslik suurus an-tud mingi oma väärtuste hulgaga (näiteks valimisse võetud üliõpilaste telefoniarved). Võib kohe väita, et ei ole sellist meetodit, mille korral, lähtudes uuritava juhusliku suuruse väär-tustest, saab vahetult tuletada tema jaotuse. Jääb üle üks tee – püstitada oletus jaotuse kohta, teha valim ja vaadata, kas meie oletus sobib või ei. See on tüüpiline hüpoteeside püstitamise ja kontrollimise skeem.

Teeme seda ja püstitame hüpoteesid: H0: F = F0(Q)

H1: F ≠ F0(Q)kus nullhüpoteesiga H0 ütleme, et juhusliku suuruse jaotus F on meie arvates F0 parameetrite hulgaga Q. Tehes valimi tahame veenduda, kas valim viib meid alternatiivse hüpoteesi F ≠ F0(Q) juurde või ei.

Üldjuhul antakse juhusliku suuruse jaotus eeskirjaga (funktsiooniga), mis määrab tema va-hemikku langemise tõenäosuse. Nii et praegusel juhul me ei saa piirduda lihtsalt arvude võrd-lemisega, nagu tegime eespool hüpoteeside kontrollimisel, vaid peame võrdlema juhusliku suuruse vahemikku langemise sagedusi eeldatava jaotuse F0(Q) korral vahemikku langemise sagedustega valimis. Seega – omavahel on tarvis võrrelda väärtuste tabeleid. Kui erinevus nende vahel on küllaltki väike, võib arvata, et nullhüpoteesis antud jaotus kirjeldab piisavalt hästi juhuslikku suurust, igal juhul valim seda ei kummuta.

Kust võtta oletatav jaotuse kuju? Ilmselt mängib siin suurt rolli uurija kogemus, aga samu-ti võib mõtteid suunata ka juhusliku suuruse väärtuste saamise protsessi olemus (viiteid vas-tavat juhuslikku suurust genereerivale protsessile tõime iga vaadeldava teoreetilise jaotuse juures). Iga eeldatav teoreetiline jaotus on seotud mingite parameetrite hulgaga Q, näiteks normaaljaotusel keskväärtus ja standardhälve. Oletatavas jaotuses parameetrite leidmisel või-me kasutada valimit, kui meil kusagilt ei ole võtta paremat oletust.

Jaotuse kohta käivate hüpoteeside kontrollimiseks on mitmeid meetodeid. Meie vaatleme siinkohal vaid ühte, χ2-statistikul põhinevat meetodit (hii-ruut-testi), mis sobib järelduste te-gemiseks piisavalt suurte (n ≥ 30) valimite põhjal.

Kuidas võrrelda väärtuste hulki – oletatava väärtuse järgi arvutatuid valimi põhjal leitutega ja millal võime väita, et erinevus on piisavalt suur alternatiivse hüpoteesi vastuvõtmiseks. Siin on olemas täielik sarnasus eelmistes osades vaadeldud hüpoteeside püstitamise ja tõestamisega – tabelite põhjal leitav väärtuste erinevus on juhuslik suurus ning kui me teame tema jaotust, saame vajaliku olulisusnivoo korral leida arvu (täiendkvantiili), mille ületamisel peame vastu võtma alternatiivse hüpoteesi.

Selgitame seda täpsemalt. Olgu meil oletatav jaotus F0(Q) ja tehtud kontrollvalim. Nende põhjal moodustame sagedustabeli, millesse kanname objektide arvu tunnuse väärtusvahe-mikes eeldatava jaotuse järgi ja sageduse kontrollvalimis. Seega vaatleme tabelit:

77

Page 78: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Vahemik 1: X≤x1 2: x1<X≤x2 ... j: xj-1<X≤xj ... K: xk-1<X≤xk

Tõenäosus F0(Q) järgi p1=P(X≤x1) p2=P(x1<X≤x2) ... pj=P(xj-1<X≤xj) ... pk=P(xk-1<X≤xk)Sagedus eeldatava jaotuse

korral: ei=pj·n e1=p1·n e2=p2·n ... ei=pj·n ... ek=pk·n

Suhteline sagedus valimi põhjal

v1=S(X≤x1) v2=S(x1<X≤x2) ... vj=S(xj-1<X≤xj) ... vk=S(xk-1<X≤xk)

Tähistused ej ja vj võtsime kasutusele, kuna selliselt on nad olemas mitmetes õpikutes ja neid võiks tõlgendada kui e – eeldatav väärtus ja v – valimist saadud väärtus. On selge, et eeldatava ja valimist saadud sageduste vahet isaloomustav summa

∑=

−=k

i i

ii

eevh

1

2)( on juhuslik suurus. Oma olemuselt väljendab see just seda, mida soovisime

leida – hinnangut tabeli vastavate ridade erinevusele. Saab näidata, et see juhuslik suurus on nn χ2 - jaotusega*8, ning teda saab kasutada hüpoteeside kontrollimisel teststatistikuna. Selle olemust me siinjuures selgitama ei hakka.

Tähistades nüüd χ2 -jaotuse täiendkvantiili olulisusnivool α tähega f,hα , võime sõnastada:

hüpoteeside kontrolli tingimused järgmiselt:- jääme nullhüpoteesi H0 juurde, kui h < f,hα ja

- võtame vastu alternatiivse hüpoteesi H1, kui h ≥ f,hα , kus χ2-jaotuse täiendkvantiil f,hα on vabadusastmete arvuga f=k-d-1 ja d on valimi põhjal hi-nnatud jaotuse parameetrite arv.

Jaotuse kontrollimisel χ2-testiga peavad olema täidetud teatud lisatingimused nii valimi mahu kui ka klassidesse jaotamise osas. Nimelt,

• valimimaht n peab olema üle 30,• keskmine objektide arv klassis peab statistilise jaotuse korral olemal vähemalt 5

objekti 5≥kn ,

• teoreetilise jaotuse järgi arvutades peab igas klassis olema vähemalt 5 objekti: ei ≥ 5,• teoreetilise jaotuse järgi arvutatud klassid peavad olema ligikaudu võrdsed: ei ≈ ej.

Näide 13.1. Oletame, et tahame teha kindlaks doktorikraadi kaitsjate vanuselise jaotuse.

Küsitleme 37 kraadi kaitsnud isikut (valim) ja koondame tulemused järgmisse tabelisse.

isiku vanus ≤23 24 25 26 27 28 29 30 31 32 33 34 35 36 ≥37

isikute arv vi 1 1 3 5 4 4 1 3 4 2 3 2 1 2 1 37Nende andmete põhjal saame leida valimikeskmise

29,5=37

1*37+....3*25+1*24+1*23=X +

*8 χ2 -jaotuse olemust me ei vaatle, võtame teadmiseks vaid, et tema väärtused on samuti nagu normaal-jaotuse korralgi tabuleeritud ning seotud teststatistiku võrreldavate paaride arvuga.

78

Page 79: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

ja valimi standardhälbe 7,3...1

)( 2

==−

−=

∑n

Xxs i

i .

Võimaliku jaotuse kohta idee saamiseks esitame andmed graafikul:

Selle joonise põhjal on väga raske ennustada, mis jaotusega on tegemist. Võib teha vaid ühe järelduse - vaadeldava isikute hulga kohta on meie väärtuste (vaadeldavate vanuste) arv liiga suur. Vähendame seda jaotades vanused rühmadesse (klassidesse) ja leiame kraadikaits-jate arvu vastavas klassis. Võttes näiteks intervalliks ühe aasta asemel kolm aastat, on tabel oluliselt selgem:

xi 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37vi 1 1 3 5 4 4 1 3 4 2 3 2 1 2 1 37vi 5 13 8 7 4 37

Joonistades nüüd tabeli põhjal graafiku, saame juba jaotuse prognoosimiseks küllaltki sel-ge pildi:

Vaadates seda graafikut võib oletada, et tegu on normaaljaotusega. Kontrollime seda, arvestades ülalpool leitud valimikeskmist ja valimi standardhälvet. Seega saame kontrollitava hüpoteesidepaari:

H0: F = N(29,5; 3,7) H1: F ≠ N(29,5; 3,7)

Kuna vastavalt tehtud eeldusele on tegemist normaaljaotusega N(29.5, 3.7), siis saame lei-da ka arvud ei , mis näitavad, kui palju kraadikaitsjaid 37-st küsitletust oleks pidanud jaotu-sest tulenevalt olema vastavas vanusevahemikus.

0.11=(-1.21)=)3.7

29.5-25(=25)<P(X ΦΦ

02468

101214

23-25 26-28 29-31 32-34 35-37

vi

0123

456

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

is ikute arv vi

79

Page 80: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Siin esimese vahemiku võtsime mitte 23-24, vaid lülitasime vahemiku koosseisu ka kõik 23 aastast nooremad. Samuti tegime ka viimase vahemikuga, vaadeldes teda kui 35 aastat ja rohkem. Sellega saime väikese ebatäpsuse, kuid antud juhul ei ole see oluline. Läbiviidud arvutuste tulemusena saame tabeli:

xi 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37vi 1 1 3 5 4 4 1 3 4 2 3 2 1 2 1 37vi 5 13 8 7 4 37

P(xi<X<xi+1) 0.11 0.23 0.32 0.23 0.11 1ei=n*pi 4.07 8.51 11.8 8.51 4.07 36.96Hüpoteeside kontrollimiseks arvutame teststatistiku:

096,4...)(

1

2

==−

= ∑=

k

i i

ii

eev

h ,

kus k=5 on praegusel juhul võrreldavate väärtuste (klasside) arv.Valides olulisusnivooks α = 0,1 ja arvestades vabadusastmete arvu f = 5-2-1 = 2 saame χ2-

jaotuse tabelist leida täiendkvantiili f,hα väärtuse 605,4h 2;1,0 = .Kuna 4,605=h<4,096=h f,α , siis antud valimi korral on erinevus normaaljaotusest liiga

väike selleks, et nullhüpoteesi ümber lükata ja me ei saa väita, et andmed ei pärineks vas-tavast normaaljaotusest.

0.23=0.13-(-0.41)=0.11-)3.7

29.5-28(=F(25)-F(28)=28)<XP(25 ΦΦ≤

0.32=0.34-(0.41)=0.34-)3.7

29.5-31(=F(28)-F(31)=31)<XP(28 ΦΦ≤

0.11=0.89-1=F(34)-1=X)P(34 ≤

80

Page 81: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

14 TUNNUSTEVAHELISED SEOSED 14.1 Kahe tunnuse ühisjaotus

Üldkogumi igal objektil on palju erinevaid tunnuseid. Eelmistes paragrahvides me valisi-me ühe tunnuse ja tegelesime selle tunnuse uurimisega - leidsime tema keskmise, standard-hälbe, jaotuse jms. Sageli on aga vaja uurida kahe või enama tunnust nende koosmõju sei-sukohalt, näiteks: seos keskmise hinde ja palga vahel pärast ülikooli lõpetamist, seos inimese iseloomutüübi ja laste arvu vahel, seos reklaamikampaania maksumuse ja valituks osutunud saadikute arvu vahel jne.

Allpool piirdume vaid kahe tunnuse vaheliste seoste uurimisega. Kõigepealt kirjeldame lahendatavat ülesannet matemaatiliselt. Olgu võetud vaatluse alla

kaks tunnust X ja Y oma võimalike väärtustega X = {x1, x2, ..., xn} ja Y = {y1, y2, ..., ym}. Tunnuste X ja Y ühissagedustabeliks nimetame tabelit, mis iga väärtuste paari (xi, yj) korral näitab selle esinemissagedust pij vaadeldavas kogumis:

Y/ X x1 x2 ... xn

y1 p11 p12 ... p1n

y2 p21 p22 ... p2n

... ... ... ... ...ym pm1 pm2 ... pmn

Kogumiks on kas üldkogum või valim. Viimasel juhul tahame kõik valimi põhjal tehtud järeldused kanda üle üldkogumile.

Kahe tunnuse vahelise seose uurimisel huvitavad meid eelkõige järgmised küsimused:1) kas kahe tunnuse vahel on olemas seos,2) kuidas väljendada seose tugevust arvuliselt,3) kuidas prognoosida ühe tunnuse väärtusi teise tunnuse põhjal.

Otsime nendele küsimustele vastuseid allpool, kasutades enamasti ära eespool saadud tule-musi.

14.2 χ2 - test sõltuvuse avastamiseksOlgu vaatluse all kaks tunnust, mille kohta tahame kindlaks teha, kas nende vahel on

olemas mingi statistiline sõltuvus. Näiteks, kas on olemas sõltuvus üliõpilaste materiaalse olukorra ja õppeedukuse vahel, kas on olemas sõltuvus firma edukuse ja juhtkonna haridus-taseme vahel, jne. Kuna tunnuste uurimisel lähtume ühisest sagedustabelist, siis ei ole oluline, kas tegemist on arvuliste või mittearvuliste tunnustega. Pideva tunnuse korral moodustame väärtusklassid ja vaatleme sagedusi vastavates väärtusklassides.

Eespool kasutasime χ 2 - testi ühe tunnuse jaotuse kindlaks tegemisel, kus võrdlesime va-limi väärtuste esinemissagedusi nendega, mis oleks pidanud olema tulenevalt eeldatavast teo-reetilisest jaotusest. Kahe tunnuse vahelise sõltuvuse kindlaks tegemine on tegelikult sarnane ülesanne: võrreldakse valimi põhjal leitud sagedusi teoreetiliste sagedustega. Teoreetilised sagedused leitakse eeldusel, et tunnuste vahel seost ei ole (seose puudumise korral on tegu ühtlase jaotusega, kus iga paari esinemissagedus on proportsionaalne vastavate väärtustega objektide esinemisega valimis).

81

Page 82: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Seega püstitame hüpoteesid:H0 : tunnuste vahel ei ole seost (nad on sõltumatud)H1 : tunnuste vahel on seos (nad on sõltuvad)

Hüpoteeside kontrollimiseks kasutatakse χ 2 - jaotusel põhinevat h-statistikut, mis vaadel-

daval juhul avaldub kujul: e

)e-v(=hji,

2ji,ji,

ji,∑ . Jääme nullhüpoteesi juurde, kui teststatistik

on väiksem kui olulisusnivool α määratud täiendkvantiil: fα,hh < , kus vabadusastmete arv

f=(ridade arv-1)*(veergude arv -1) ja võtame vastu sisuka hüpoteesi vastupidisel juhul.

Näide 14.1. Oletame, et tahame leida, kas Tartu linnas on olemas sõltuvus palgataseme ja elukoha vahel. Olgu võimalikud palgatasemed: kõrge, keskmine ja madal ning võimalikud elukohad Supilinn, Veeriku, Annelinn ja Ropka. Küsitlustulemused koondame järgmisse ta-belisse.

Kõrge Keskmine Madal KokkuAnnelinn 42 28 16 86Veeriku 21 6 9 36Supilinn 8 10 25 43Ropka 14 10 11 35Kokku 85 54 61 200

Tabelis on toodud küsitlusest saadud vastavate väärtuspaaride sagedused. Kui seost kahe tunnuse vahel ei oleks, siis näiteks Annelinnas elavate kõrgepalgaliste inimeste arv oleks pro-

portsionaalne kõrgepalgaliste inimeste arvuga küsitletute hulgas, seega 8620085

11 ∗ = e . Üldju-

hul saame elemendi eij arvutamiseks valemi nvr = e ji

ij⋅

, kus ri on vastava rea elementide sum-

ma ja vj on veeru elementide summa.Kasutades seda arvutusreeglit leiame eeldatavad väärtused ja täiendame tabelit:

Kõrgevi,1 ei,1

Keskminevi 2 ei 2

Madalvi 3 ei 3

Kokku

Annelinn 42 36,55 28 23,22 16 26,23 86Veeriku 21 15,3 6 9,72 9 10,98 36Supilinn 8 18,28 10 11,61 25 13,12 43Ropka 14 14,88 10 9,45 11 10,68 35Kokku 85 54 61 200

Tabeli põhjal leiame nüüd teststatistiku 26,53...=e

)e-v(=h

ji,

2ji,ji,

ji,

=∑ . Valime olulisusni-

voo α=0,05, millele vastab täiendkvantiil 12,6h 60,05, = . Seega 60,05,hh > ja peame vastu võt-

ma alternatiivse hüpoteesi: antud andmete põhjal on olemas seos sissetuleku ja elukoha vahel.See oli sõltuvuse avastamise test, kui on tarvis leida ka sõltuvuse arvulist suurust ja

suunda, kasutatakse korrelatsioonanalüüsi.

82

Page 83: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

14.3 Korrelatiivne sõltuvus Eespool vaatlesime, χ 2 - testi seose (sõltuvuse) avastamiseks kahe tunnuse vahel.

Seose leidmiseks vaatlesime tunnuste väärtuste kõikvõimalikke paare ja nende koosesinemise sagedusi. Ülesande sellises käsitluses ei häirinud meid asjaolu, et mõlemad tunnused võisid omandada mittearvulisi väärtusi. Läbiviidud analüüsi tulemusena võtsime vastu alternatiivse hüpoteesi „sõltuvad“ või siis jäime nullhüpoteesi "sõltumatud" juurde. Kuigi varieerides olu-lisusnivooga võime kaudselt hinnata ka sõltuvuse tugevust, on arvuliste tunnuste korral või-malik tuletada ka täpsemaid, sealhulgas arvulisi hinnanguid sõltuvuse tugevusele.

14.3.1 Lineaarse korrelatsiooni kordajaTunnuste vahelise sõltuvuse arvulise suuruse määramiseks on mitmeid meetodeid.

Üheks enimkasutatavaks on Pearsoni lineaarse korrelatsiooni kordaja, millel on ka korrektne “tõenäosusteoreetiline tagamaa". Selle kordaja arvutamiseeskirja oskame tuletada ka oma se-niste teadmiste põhjal. Asjast huvitatute tarbeks on see peenemas kirjas toodud mittekohus-tusliku osana.

Olgu antud juhuslikud suurused X ja Y. Kui X ja Y on teineteisest sõltumatud, siis näitasime eespool, et nen-

de summa dispersioon võrdub dispersioonide summaga: D(X+Y) = DX + DY.

Kui juhuslikud suurused on teineteisest sõltuvad, siis saame:

D(X+Y) = E(X+Y - E(X+Y))2 =E((X-EX)+ (Y-EY))2 =

=E(X-EX)2+2E((X-EX)(Y-EY))+E(X-EX)2=

=DX + DY + 2 E((X-EX)(Y-EY))

Liiget E((X-EX)(Y-EY)) nimetatakse kovariatsiooniks ja kirjutatakse

cov(XY) = E((X-EX)(Y-EY))

Juhuslike suuruste X ja Y kovariatsioonil on järgmised omadused:1. Kui juhuslikud suurused X ja Y on sõltumatud, siis cov(X,Y) = 0.

Tõepoolest: cov (X,Y) = E((X-EX)(Y-EY))= E(XY-YEX - XEY + EX EY =EXY-EYEX -E XEY + EX EY = 02. Kui suurused X ja Y on lineaarses sõltuvuses, st Y=aX+b, siis cov( )XY DX DY= ⋅ .

Tõepoolest, kuna EY = aEX + b, siis Y-EY = aX + b - aEX -b = a(X-EX) ning cov (X,Y) = aE(X-EX) 2 = a

DX, ja teiselt poolt DY = D(aX +b) = a2 DX kust saame DXDYa = , mille asendamine valemisse cov

(X,Y) =a DX annab tulemuseks DYDX=Y)cov(X, ⋅Kovariatsiooni väärtus võib olla nii positiivne kui ka negatiivne. Lähtudes kovariatsiooni definitsioonist näe-

me, et positiivse kovariatsiooni korral on prevaleerivad muutujate samasuunalised muutused, negatiivse korral

aga erisuunalised (ühe suuruse kasvamisele vastab teise kahanemine).

Silmas pidades nii kovariatsiooni definitsiooni kui ka omadusi võib kovariatsiooni vaadelda sõltuvuse mõõ-duna juhuslike suuruste X ja Y vahel, mis omandab väärtuse 0 sõltumatuse korral kuni DY*DX± lineaarse

sõltuvuse korral.

Sõltuvuse mõõtühikuna ei kasutata aga kovariatsiooni otseselt, vaid ta normeeritakse väärtusega DY*DX ning saadud näitajat

DYDXEYYEXXE

DYDXYXYXr

⋅−−=

⋅= )))(((),cov(),( (14.1)

83

Page 84: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

nimetatakse korrelatsioonikordajaks.Arvestades kovariatsiooni omadusi võime väita: korrelatsioonikordaja näitab juhuslike suuruste X ja Y vahelist lineaarset sõltuvust ning muutub vahemikus [-1, -1].

Vaatleme objektide kogumit, millel on mõõdetud kahe tunnuse väärtused. Tunnuste vas-tavate väärtuste koos esinemise võib välja kirjutada kas ülalpool toodud viisil ühissagedusta-belina või lihtsalt vastavate paaride jadana (koos kordustega):

X x1 x2 .... xn

Y y1 y2 .... yn

Tunnuseid vaadeldakse juhuslike suurustena, kusjuures tunnused võivad olla teineteisest sõltuvad. Sõltuvuse tugevuse hindamiseks võib kohaldada ülalpool tuletatud lineaarse kor-relatsioonikordaja valemit (14.1) Tähistades X = EX ja Y = EY ning arvestades, et vaadelda-vas paaride hulgas on iga paari kogumis esinemise tõenäosus p(x i, yi) = 1/n, saab korrela-tsiooni arvutamiseks valemi kirjutada kujul:

)Y-y( )X-x(

)Y-y)(X-x( = Y)r(X,

2i

n

=1i

2i

n

=1i

ii

n

=1i

∑∑

∑(14.2)

Suurust r(X,Y) nimetatakse lineaarse korrelatsiooni kordajaks ehk Pearsoni korrelatsiooni-kordajaks. Lineaarse korrelatsiooni kordaja hindab tunnustevahelise lineaarse seose tugevust ja suunda. Lineaarse seose korral kirjutatakse tunnuste vaheline seos lineaarse võrrandiga kujul Y=aX+b, kus a ja b on arvulised konstandid, mille leidmist vaatleme punktis 14.4.

Tulenevalt korrelatsioonikordaja leidmisel lähtealuseks olevast valemist (14.1), võib kor-relatsioonikordaja omandada vaid väärtusi vahemikust [-1 , 1], kus negatiivsed väärtused näi-tavad pöördvõrdelise seose olemasolu, positiivsed väärtused aga võrdelise sõltuvuse olemas-olu. Väärtus r(X,Y)= 0 näitab lineaarse sõltuvuse puudumist.

Kui me korrelatsioonikordaja leidmisel võtame aluseks üldkogumi, siis näitab valemi (14.2) järgi arvutatud korrelatsioonikordaja lineaarse korrelatsiooni suurust kahe selle üldko-gumi tunnuse vahel. Enamasti on aga üldkogum tema terviklikuks käsitlemiseks liiga suur ja nagu ikka, kasutame valimit. Valimi põhjal arvutatud korrelatsioonikordaja on üldkogumi korrelatsioonikordaja hinnanguks. Nagu kõikide teiste üldkogumi parameetrite hindamise korral, nii ka vaadeldaval juhul, saab anda hinnangu saadud tulemuse täpsusele, st saab leida tõenäosuse P(|r-ρ|<ε)=1-αkus ρ tähistab üldkogumi korrelatsioonikordajat ja r – valimi põhjal leitud korrelatsiooni-kordajat.

Sageli ei taheta teada mitte korrelatsioonikordaja suurust, vaid hinnata kas lineaarse kor-relatsioonisõltuvuse on olemas ja määrata tema suund. Sel juhul püstitatakse hüpoteesid:

A. H0 :ρ=0 ei ole korrelatiivset sõltuvustH1: ρ≠0 on korrelatiivne sõltuvus

B. H0 :ρ≤0 ei ole positiivset korrelatiivset sõltuvust H1: ρ>0 on positiivne korrelatiivne sõltuvus

84

Page 85: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

C. H0 :ρ≥0 ei ole negatiivset korrelatiivset sõltuvust H1: ρ<0 on negatiivne korrelatiivne sõltuvus

Püstitatud hüpoteeside kontrollimisel kasutatakse erilist nn. Fischeri jaotust. Käesolevas kursuses ei ole aga mõtet sisse tuua veel ühte jaotuse tabelit, kuna praktikas abistab selliste hüpoteeside kontrollimisel ikkagi vastav statistika tarkvarapakett, mis leiab olulisustõe-näosuse, mille korral lugeda tõestatuks alternatiivne hüpotees.

Lineaarne korrelatsioonikordaja ei ole "kõikvõimas" vahend seose tugevuse määramiseks. Alati tuleb silmas pidada, et ta on vaid lineaarse seose näitaja ja ta võib anda seose puudu-mise, kuigi tunnuste vahel on mingi teise funktsiooniga avaldatav seos või on andmekogumil mingi raskesti arvestatav eripära (näiteks objektid üldkogumis on jaotunud mitmesse rühma). Toome allpool näite, kus lineaarne korrelatsioonikordaja ei kirjelda tunnustevahelist seost adekvaatselt.

Näide 14.2.*9 Olgu katsealustel hiirtel mõõdetud pikkus ja kaal antud tabelina:Kaal 11 10 10,6 9,8 10,2 11,5 15,9 10,2 11,6 10,6 12,1 11,1 10,5Pikkus 22 25 23 20 20 28 36 23 22 25 25 22 21

Arvutades selle põhjal korrelatsioonikordaja saame r(X,Y) = 0,87 ning võime väita, et pik-kus ja kaal on positiivselt küllaltki hästi koreleerunud.

Vaatleme esitatud andmeid graafikul:

0

10

20

30

40

0 5 10 15 20

KaalPikkus

Näeme, et võrreldes teistega on üks hiir oma pikkuse ja kaalu poolest erandlik. Ilmselt mõ-justab ta ka korrelatsioonikordaja üldhinnangut tugevasti. Jätame selle hiire (15,9; 36) oma valimist välja ja arvutame ülejäänute korral korrelatsioonikordaja. Seega vaatleme tabelit:

Kaal 11 10 10,6 9,8 10,2 11,5 10,2 11,6 10,6 12,1 11,1 10,5Pikkus 22 25 23 20 20 28 23 22 25 25 22 21

Arvutades nüüd korrelatsioonikordaja saame r(X,Y)= 0,47. Seega meie seose tugevus vähenes tunduvalt.

Veelgi ilmekama näite võime tuua, kui eeldama tunnustevahelist mittelineaarset seost (näiteks ruutseost Y=aX2+b). Kuigi sel juhul on tunnuste vahel seos olemas, näitab Pearsoni korrelatsioonikordaja seose puudumist ja seda õigusega – lineaarset seost ju ei ole.

*9 Näide on võetud raamatust A-M. Parring, M.Vähi, E.Käärik. Statistilise andmetöötluse algõpetus. Tartu Ülikooli Kirjastus, 1997

85

Page 86: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

14.3.2 Spearmani korrelatsioonikordaja Kõrvuti lineaarse korrelatsioonikordajaga kasutatakse veel mitmeid teisi korrelatsiooni-

kordajaid: Spearmani, Kendalli jpt. Allpool vaatlema Spermani korrelatsioonikordajat e. astakkorrelatsioonikordajat.

Spermani korrelatsioonikordaja korral võetakse otseste mõõtmistulemuste asemel kasutusele astakud. Astak on mõõdetava tunnuse järjekorranumber vastava mõõtmistulemuse järjestatud reas. See vähendab erindite osakaalu – ükskõik kui suur on ka erindi vastava tun-nuse väärtus, Spermani korrelatsioonikordaja arvutamises suureneb ta eelmisega võrreldes vaid ühe võrra.

Näide 14.3. Vaatleme veelkord hiirte uurimise näidet 14.2 ja leiame tema astakkorrelatsiooni kordaja. Arvutuste tulemused koondame tabelisse:

Jrk Kaal PikkusKaalu astak

Pikkuse astak

1 11 22 4 32 10 25 2 53 10,6 23 5 44 9,8 20 1 15 10,2 20 3 16 11,5 28 7 67 15,9 36 10 78 10,2 23 3 49 11,6 22 8 310 10,6 25 5 511 12,1 25 9 512 11,1 22 6 313 10,5 21 4 2

Lineaarne korrelatsioonikordaja astakute vahel on r(X,Y) = 0,62.Kui mõõtmistulemused on kõik erinevad, saab lineaarse korrelatsiooni kordaja arvutamist

lihtsustada ja Spearmani korrelatsioonikordaja leida valemist:

)1(

))()(61),( 2

2

−−

∑nn

yastak-x(astak = YXr

ii

n

=1iS

Vaadeldava näite korral saame tulemuseks rs(X,Y) = 0,78. Nagu näha, on saadud tulemused ülaltoodud lihtsa näite korral erinevad. Võrreldes

lineaarse korrelatsioonikordaja ja Spearmani korrelatsioonikordaja olemust peame meeles: kui lineaarne korrelatsioonikordaja mõõdab tunnuste vahelise lineaarse seose tugevust, siis Spearmani korrelatsioonikordaja mõõdab tunnuste vahelise monotoonse seose tugevust.

Nagu mainitud, on tunnustevahelise korrelatsiooni kordajaid palju. Millist neist valida, sõltub uuritavate andmete sisulisest analüüsist. Sageli aitab sellele kaasa graafiline pilt, mis näitab andmetekogumi struktuurilist iseärasust.

86

Page 87: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

LISAD

Standardiseeritud normaaljaotuse tabel

x 0 1 2 3 4 5 6 7 8 9-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,42470,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83891,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86211,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88301,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90151,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91771,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93191,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94411,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95451,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96331,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97061,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97672,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98172,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98572,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98902,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99162,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99362,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99522,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99642,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99742,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99812,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,00,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 1,0000

Normaaljaotusega juhusliku suuruse X~N(0, 1) jaotusfunktsiooni väärtused- 3

, 0- 2

,5- 2

,0- 1

, 5- 1

,0- 0

,50 , 0 0 ,5 1 ,0 1 , 5 2 ,0 2 , 5 3 ,0

Φ(x)x

87

Page 88: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Studenti jaotuse täiendkvantiilide tabel

0,2 0,15 0,1 0,05 0,025 0,02 0,01 0,0051 1,963 1,963 3,078 6,314 12,706 15,894 31,821 63,6562 1,061 1,386 1,886 2,920 4,303 4,849 6,965 9,9253 0,978 1,250 1,638 2,353 3,182 3,482 4,541 5,8414 0,941 1,190 1,533 2,132 2,776 2,999 3,747 4,6045 0,920 1,156 1,476 2,015 2,571 2,757 3,365 4,0326 0,906 1,134 1,440 1,943 2,447 2,612 3,143 3,7077 0,896 1,119 1,415 1,895 2,365 2,517 2,998 3,4998 0,889 1,108 1,397 1,860 2,306 2,449 2,896 3,3559 0,883 1,100 1,383 1,833 2,262 2,398 2,821 3,25010 0,879 1,093 1,372 1,812 2,228 2,359 2,764 3,16911 0,876 1,088 1,363 1,796 2,201 2,328 2,718 3,10612 0,873 1,083 1,356 1,782 2,179 2,303 2,681 3,05513 0,870 1,079 1,350 1,771 2,160 2,282 2,650 3,01214 0,868 1,076 1,345 1,761 2,145 2,264 2,624 2,97715 0,866 1,074 1,341 1,753 2,131 2,249 2,602 2,94716 0,865 1,071 1,337 1,746 2,120 2,235 2,583 2,92117 0,863 1,069 1,333 1,740 2,110 2,224 2,567 2,89818 0,862 1,067 1,330 1,734 2,101 2,214 2,552 2,87819 0,861 1,066 1,328 1,729 2,093 2,205 2,539 2,86120 0,860 1,064 1,325 1,725 2,086 2,197 2,528 2,84521 0,859 1,063 1,323 1,721 2,080 2,189 2,518 2,83122 0,858 1,061 1,321 1,717 2,074 2,183 2,508 2,81923 0,858 1,060 1,319 1,714 2,069 2,177 2,500 2,80724 0,857 1,059 1,318 1,711 2,064 2,172 2,492 2,79725 0,856 1,058 1,316 1,708 2,060 2,167 2,485 2,78726 0,856 1,058 1,315 1,706 2,056 2,162 2,479 2,77927 0,855 1,057 1,314 1,703 2,052 2,158 2,473 2,77128 0,855 1,056 1,313 1,701 2,048 2,154 2,467 2,76329 0,854 1,055 1,311 1,699 2,045 2,150 2,462 2,75630 0,854 1,055 1,310 1,697 2,042 2,147 2,457 2,75031 0,853 1,054 1,309 1,696 2,040 2,144 2,453 2,74432 0,853 1,054 1,309 1,694 2,037 2,141 2,449 2,73833 0,853 1,053 1,308 1,692 2,035 2,138 2,445 2,73334 0,852 1,052 1,307 1,691 2,032 2,136 2,441 2,72835 0,852 1,052 1,306 1,690 2,030 2,133 2,438 2,72436 0,852 1,052 1,306 1,688 2,028 2,131 2,434 2,71937 0,851 1,051 1,305 1,687 2,026 2,129 2,431 2,71538 0,851 1,051 1,304 1,686 2,024 2,127 2,429 2,71239 0,851 1,050 1,304 1,685 2,023 2,125 2,426 2,70840 0,851 1,050 1,303 1,684 2,021 2,123 2,423 2,70441 0,850 1,050 1,303 1,683 2,020 2,121 2,421 2,70142 0,850 1,049 1,302 1,682 2,018 2,120 2,418 2,69843 0,850 1,049 1,302 1,681 2,017 2,118 2,416 2,69544 0,850 1,049 1,301 1,680 2,015 2,116 2,414 2,69245 0,850 1,049 1,301 1,679 2,014 2,115 2,412 2,69046 0,850 1,048 1,300 1,679 2,013 2,114 2,410 2,68747 0,849 1,048 1,300 1,678 2,012 2,112 2,408 2,68548 0,849 1,048 1,299 1,677 2,011 2,111 2,407 2,68249 0,849 1,048 1,299 1,677 2,010 2,110 2,405 2,68050 0,849 1,047 1,299 1,676 2,009 2,109 2,403 2,67851 0,849 1,047 1,298 1,675 2,008 2,108 2,402 2,67652 0,849 1,047 1,298 1,675 2,007 2,107 2,400 2,67453 0,848 1,047 1,298 1,674 2,006 2,106 2,399 2,67254 0,848 1,046 1,297 1,674 2,005 2,105 2,397 2,67055 0,848 1,046 1,297 1,673 2,004 2,104 2,396 2,66856 0,848 1,046 1,297 1,673 2,003 2,103 2,395 2,66757 0,848 1,046 1,297 1,672 2,002 2,102 2,394 2,66558 0,848 1,046 1,296 1,672 2,002 2,101 2,392 2,66359 0,848 1,046 1,296 1,671 2,001 2,100 2,391 2,66260 0,848 1,045 1,296 1,671 2,000 2,099 2,390 2,660

>60 0,842 1,036 1,282 1,645 1,960 2,054 2,326 2,576

indeks (a või a /2)f

t-jaotuse täiendkvantiilid

88

Page 89: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

χ2 - jaotuse täiendkvantiilide tabel

f \ tn 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01 0.0051 0.00 0.00 0.00 0.02 2.71 3.84 5.02 6.63 7.88

2 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60

3 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84

4 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86

5 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75

6 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55

7 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28

8 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95

9 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59

10 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19

11 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.76

12 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30

13 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82

14 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32

15 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80

16 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27

17 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72

18 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16

19 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58

20 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00

21 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40

22 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80

23 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18

24 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56

25 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93

26 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29

27 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.65

28 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99

29 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34

30 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

40 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77

50 29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.49

60 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95

70 45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.43 104.21

80 53.54 57.15 60.39 64.28 96.58 101.88 106.63 112.33 116.32

90 61.75 65.65 69.13 73.29 107.57 113.15 118.14 124.12 128.30

100 70.06 74.22 77.93 82.36 118.50 124.34 129.56 135.81 140.17

89

Page 90: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Valemite koondtabel

A. Üldised teadmised

1. Kombinatsioonid: )!(!

!mnm

nnm

mnC −

=

=

2. Ruutvõrrandi: ax2+bx+c=0 lahend a

acbbx2

42 −±−=

3. Arvu e avaldised lõpmatu summana ∑∑∞

=

=

==00 !!

1k

k

ke

ke

kλλ

;

4. Kahaneva geomeetrilise jada summa q

aS

−=

10 , kus a0 esimene liige ja q – tegur

B. Sündmus ja tema tõenäosus

1. p(A)=nk

; kn

kn

kn

C

CCAp

2

2

1

1)( = , kus A on sündmus, et n-elemendilisest hulgast, mis sisaldab n1

üht liiki ja n2 teist liiki elementi (n1+n2=n), valitakse k elementi, milles on antud jaotus elementide liikide järgi: k1 esimest ja k2 teist liiki elementi (k1 + k2=k).

2. )(1)( ApAp −= .3. Sündmuste summa tõenäosus: p(AUB)=p(A)+p(B)-p(AB) ja korrutise tõenäosus: p(AB)=

p(A|B)p(B). Kui sündmused A ja B on sõltumatud, siis p(A|B)=p(A).

4. Täistõenäosus: ))H|P(A)(P(HP(A) i

n

1ii ∗= ∑

= ))H|P(A)(P(H

)H|P(A)P(HA)|P(H

i

n

1ii

kkk

∗=

∑=

C. Juhuslik suurus

1. ∑∈

=Xx

iii

)p(xxEX ; DX = E(X-EX)2 ; ∑ −=i

i2

i )p(x)x(EXDX ; DX = EX2 - (EX)2 ).

2. ∫∞

∞−

= x·f(x)dxEX ; dxf(x)x)(EXDX 2∫∞

∞−

−=

3. F(x)=P(X≤x); P(a<X≤b)=F(b)-F(a)

4. knkkn p)(1pCk)P(n, −−= ,

5. ek!λ= P(k) λ-

k

, EX = λ; DX = λ

6. ek!)(np p)B(n, np-

k

7. : e 2

2

2σμ)(x

2πσ1(x)

−−=ϕ ; EX = μ ja DX = σ2; F(x)=Φ((x-μ)/σ)

8. e 2npqnp)(k

n

2

npq2π1(k)P

−−≅ ;

−−

−=npq

npkΦnpq

npkΦ)k;(kP 1221n .

90

Page 91: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

D. Statistilised hinnangud

1. Üldkogum: xN1 =μ i

N

1=i∑ ; μ)-x(N

1 = σ i2

N

1=i

2 ∑

2. Valim: x n1 = X i

n

1=i∑ )X-x(

1-n1 = s i

2n

1=i

2 ∑ μ= XE ns

nσ = σX ≈

3. Üldkeskmise μ usalduspiiride leidmine

Tunnuse jaotus

Normaaljaotus Teadmata

Suur valim

n≥60

σ teadan

z+X < < n

z-X /2/2σµσ

αα ⋅⋅

σ ei ole teada n

sz+X < <

ns

z-X /2/2 ⋅⋅ αα µ

Väike valim

n<60

σ teadan

z+X < < n

z-X /2/2σµσ

αα ⋅⋅

σ ei ole teada n

st+X < < n

st-X nn ⋅⋅ −− 1,2/1,2/ αα µ

Ei käsitle antud kursuses

σ - üldkogumi standardhälves– valimi standard-hälve

2/αz -normaal-

jaotuse täiendkvantiil

ft ,2/α - Studenti

jaotuse täiendkvantiil1-α – usaldusnivoo,α – olulisusnivoo

Valimi maht:2

2/

=

εσ

α

αz n või

2

α

α

εs*z = n /2

4. Üldkeskmiste vahe usalduspiirid :Tunnuse jaotus

Normaaljaotus Teadmata

Suur valimn1,n2 ≥60

σ1 ja σ2 on teada

σ1 ja σ2 ei ole teada

Väike valimn1,n2 <60

σ1 ja σ2 ei ole teada

Ei saa lei-da

σ1 ja σ2 - üldkogumite standardhälbeds1 ja s2 – valimite standardhäl-bed

2/αz -normaaljaotuse täiend-

kvantiilft ,2/α - Studenti jaotuse

täiendkvantiil

f=n1+n2-23:3/1 2

122 ≤≤ ss

2)1()1(

21

222

211

−+⋅−+⋅−=

nnsnsnsp

2

22

1

21

221 )(

21 nnzXXI σσ

αµµ +±−=−

2

22

1

21

221 )(

21 ns

nszXXI +±−=− αµµ

21;2

2111)(

21 nnstXXI pf

+⋅±−=− αµµ

91

Page 92: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

6. Sageduse vahemikhinnang: nqpz+p< p <

nqpz-p α/2α/2

ja valimi maht 2

α

2α/2

εzn qp* =

E. Hüpoteesid

1. Üldkeskmise kohta püstitatud hüpoteeside kontrollimine:Suur valim Väike valim

Hüpotees Kehtib hüpotees Kehtib hüpotees

AH0: μ=μ0

H1: μ≠μ0

H0, kui 2/αzZ <

H1, kui 2/αzZ ≥

H0, kui 1,2/ −< ntZ α

H1, kui 1,2/ −≥ ntZ α

BH0: μ≤μ0

H1: μ>μ0

H0, kui αzZ <

H1, kui αzZ ≥

H0, kui 1, −< ntZ α

H1, kui 1, −≥ ntZ α

CH0: μ≥μ0

H1: μ<μ0

H0, kui αzZ <−

H1, kui αzZ ≥−

H0, kui 1, −<− ntZ α

H1, kui 1, −≥− ntZ α

kus X

XZ

σµ 0−

=

nX

σσ = või n

sX

z - normaaljaotuse täiendkvantiilt - Studenti jaotuse täiendkvantiil1-α -usaldusnivoo

2. Hüpoteesid üldkeskmiste erinevuse kohtaSuur valim Väike valim

Hüpotees Kehtib hüpotees Kehtib hüpotees

A

H0: μX -μY

= D0

H1: μX -μY≠ D0

H0, kui 2/αzZ <

H1, kui 2/αzZ ≥H0, kui ftZ ,2/α≤

H1, kui ftZ ,2/α>

B

H0: μX -μY

≤D0

H1: μX -μY >D0

H0, kui αzZ < H1, kui αzZ ≥

H0, kui ftZ ,α≤ H1, kui ftZ ,α>

C

H0: μX -μY

≥ D0

H1: μX -μY <D0

H0, kui αzZ <− H1, kui αzZ ≥−

H0, kui ftZ ,α<− H1, kui ftZ ,α≥−

kus f = n1 + n2 – 2

)YX(

0D)YX(Z−

−−=σ

z - normaaljaotuse täiendkvantiil

t - Studenti jaotuse täiendkvantiil

1-α -usaldusnivoo

Valimikeskmiste vahe standardhälve arvutatakse:

a) kui on teada üldkogumite standardhälbed σX ja σY, siis 2

2Y

1

2X

)YX( nσ

nσσ +=−

b) kui valimid suured, üldkogumite standardhälbed σX ja σY, ei ole teada, kuid eeldatakse

enam-vähem võrdseiks, siis 2

2Y

1

2X

)YX( ns

nsσ +=−

92

Page 93: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

c) kui valimid on väikesed, üldkogumid normaaljaotusega, enam-vähem võrdsed disper-sioonid, siis

2

2p

1

2p

)YX( ns

ns

σ +=−

, kus 2-n+n

1)-n(s+1)-n(s = s21

22Y1

2X2

p

3. Hüpoteesid sageduse kohta:Suur valim

Hüpotees Kehtib hüpotees

AH0: p=p0

H1: p≠p0

H0, kui 2/αzZ <

H1, kui 2/αzZ ≥

BH0: p≤p0

H1: p>p0

H0, kui αzZ < H1, kui αzZ ≥

CH0: p≥p0

H1: p<p0

H0, kui αzZ <− H1, kui αzZ ≥−

kus

00

0

qpn)pp(Z −=

z - normaaljaotuse täiendkvantiil1-α -usaldusnivoo

4. Hüpoteesid sageduste erinevuse kohtaHüpotees Kehtib hüpotees

AH0: p1 =p2

H1: p1≠p2

H0, kui 2/αzZ p <

H1, kui 2/αzZ p ≥

BH0: p1 ≤p2

H1: p1>p2

H0, kui αzZ p < H1, kui αzZ p ≥

CH0: p1 ≥p2

H1: p1<p2

H0, kui αzZ p <− H1, kui αzZ p ≥−

kus p

21p s

ppZ −=

)n1

n1)(p(1ps

21p +−=

21

21

nnmmp

++=

1

11 n

mp = ja 2

22 n

mp =

6. Hüpoteesid seose olemasolu kohta

93

Page 94: konspekt 2013 (2)

K. Ääremaa & A. Kaasik. Tõenäosusteooria ja matemaatiline statistika 2013

Hüpoteesid Kehtib hüpo-tees

H0: seos puudubH1: on seos

H0, kui fhh ,α<

H1, kui fhh ,α≥

vij -vaatlusest tulenev suhteline sagedus

eij– eeldusest tulenev suhteline sagedus

f = (ridade arv-1)*(veergude arv -1)

7. Hüpoteesid jaotuse kontrollimiseksHüpoteesid Kehtib hüpotees

H0: F=F0

H1: F ≠ F0

H0, kui fhh ,α<

H1, kui fhh ,α≥

vij -vaatlusest tulenev suhteline sagedus

eij– eeldusest tulenev suhteline sagedus

f=k-d-1 (d on vaadeldava jaotuse valimilt hinnatud para-meetrite arv)

F. Seosekordajad1. Lineaarse korrelatsiooni kordaja:

DYDXEY))EX)(YE((X

DYDXY)cov(X,Y)r(X,

⋅−−=

⋅=

ehk )Y-y( )X-x(

)Y-y)(X-x( = Y)r(X,

2i

n

1=i

2i

n

1=i

ii

n

1=i

∑∑

2. Spearmani astakkorrelatsiooni kordaja:

1)n(n

))yastak(-)x(astak(61 = r 2

2ii

n

1=iS −

−∑ , kus astak on muutuja vastava väärtuse järjekorranu-

m-ber tema väärtuste järjestatud tabelis.

3. Regressioonisirge y=bx + a kordajate hinnangud: XbYa −= ja ∑

=

=

−−= n

1i

2i

n

1iii

)X(x

)Y)(yX(xb

e)e-v(

=hji,

2ji,ji,

ji,∑

∑=

−=k

1i i

2ii

e)e(vh

94