biostatika - SKRIPTA

download biostatika - SKRIPTA

of 115

Transcript of biostatika - SKRIPTA

(BIO)STATISTIKA skripta

studij: Prehrambena tehnologija i Biotehnologija

pripremila: dr.sc. Iva Franji c

1

Sadraj z1 DESKRIPTIVNA STATISTIKA 1.1 1.2 Graki prikaz podataka . . . . . . . . . . . . . . . . . . . . . c Srednje vrijednosti uzorka . . . . . . . . . . . . . . . . . . . . 1.2.1 1.2.2 1.2.3 1.3 1.3.1 1.3.2 1.3.3 1.4 1.5 Aritmetika sredina uzorka . . . . . . . . . . . . . . . . c Medijan uzorka . . . . . . . . . . . . . . . . . . . . . . 4 4 9 9 9

Uzoraki mod . . . . . . . . . . . . . . . . . . . . . . . 10 c Raspon uzorka . . . . . . . . . . . . . . . . . . . . . . 11 Interkvartil . . . . . . . . . . . . . . . . . . . . . . . . 11 Uzoraka varijanca i uzoraka standardna devijacija . . 12 c c

Mjere disperzije ili varijabiliteta . . . . . . . . . . . . . . . . . 11

Mjere lokacije . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Mjere oblika . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 20

2 OSNOVNE VJEROJATNOSNE DISTRIBUCIJE 2.1 2.2 2.3 2.4 Nezavisni dogadaji. Uvjetna vjerojatnost.

Sluajni pokus i vjerojatnost . . . . . . . . . . . . . . . . . . . 20 c . . . . . . . . . . . 25 Bayesova formula . . . . . . . . . . . . . . . . . . . . . . . . . 28 Diskretne sluajne varijable . . . . . . . . . . . . . . . . . . . 30 c 2.4.1 2.4.2 2.4.3 2.4.4 Binomna razdioba Poissonova razdioba . . . . . . . . . . . . . . . . . . . . 37 . . . . . . . . . . . . . . . . . . . 43 Hipergeometrijska razdioba . . . . . . . . . . . . . . . 41 Aproksimacija binomne razdiobe Poissonovom . . . . . 46 Normalna razdioba . . . . . . . . . . . . . . . . . . . . 51 Aproksimacija binomne razdiobe normalnom . . . . . . 55 Eksponencijalna razdioba . . . . . . . . . . . . . . . . 56 58

2.5

Neprekidne sluajne varijable . . . . . . . . . . . . . . . . . . 47 c 2.5.1 2.5.2 2.5.3

3 PROCJENA PARAMETARA 3.1 3.1.1

Pouzdani intervali za oekivanje normalne populacije . . . . . 60 c Varijanca poznata . . . . . . . . . . . . . . . . . . . . . 60

2

3.1.2 3.2

Varijanca nepoznata . . . . . . . . . . . . . . . . . . . 63

Pouzdani intervali za oekivanje populacije na osnovi velikih c uzoraka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2.1 Pouzdan interval za parametar p binomne razdiobe . . 66 68

4 TESTIRANJE STATISTICKIH HIPOTEZA 4.1 4.1.1 4.1.2 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.2.1

Test o oekivanju normalno distribuirane populacije . . . . . . 69 c Varijanca poznata . . . . . . . . . . . . . . . . . . . . . 69 Varijanca nepoznata . . . . . . . . . . . . . . . . . . . 72 Test o proporciji . . . . . . . . . . . . . . . . . . . . . 75

Testovi o oekivanju na osnovi velikih uzoraka . . . . . . . . . 75 c Usporedba oekivanja dviju normalno distribuiranih populacija c (t-test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Usporedba proporcija . . . . . . . . . . . . . . . . . . . . . . . 80 Usporedba varijanci dviju normalno distribuiranih populacija (F-test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Usporedba oekivanja vie normalno distribuiranih populacija c s (jednofaktorska analiza varijance ANOVA) . . . . . . . . . . 85 2 - test o prilagodbi modela podacima . . . . . . . . . . . . . 89 2 - test nezavisnosti dviju varijabli . . . . . . . . . . . . . . . 95 2 - test homogenosti populacija . . . . . . . . . . . . . . . . . 99 104

5 LINEARNI REGRESIJSKI MODEL 5.1 5.2

Linearna regresija . . . . . . . . . . . . . . . . . . . . . . . . . 104 Test koreliranosti dviju varijabli . . . . . . . . . . . . . . . . . 112

3

1

DESKRIPTIVNA STATISTIKA

Prilikom opaanja ili eksperimentiranja, panja istraivaa redovito je usz z z c mjerena na jednu ili vie veliina. Ako se promatra samo jedna veliina, s c c oznaimo ju s X, onda je rezultat jednog mjerenja jedan realan broj x. c Viestrukim ponavljanjem mjerenja veliine X dobiva se konani niz brojeva s c c x1 , x2 , . . . , xn kao rezultat n ponovljenih mjerenja koji nazivamo realizacija od X. Veliina X obino se naziva statistiko obiljeje, a dobiveni niz broc c c z jeva x1 , x2 , . . . , xn statistiki podaci o promatranom statistikom obiljeju c c z X.

1.1

Graki prikaz podataka c

Primjer 1 Neka X oznaava broj dobiven bacanjem igrae kocke. Kocku smo c c bacali 20 puta i dobiveni su sljedei podaci: 1, 3, 1, 6, 2, 6, 4, 6, 3, 3, 4, 3, 1, 4, 4, 1, 4, 5, 3, 5. c statistiko obiljeje X = broj na kocki c z ImX = {1, 2, 3, 4, 5, 6} skup svih vrijednosti koje X moe poprimiti z s c z u naem primjeru, ImX je diskretan, tj. konaan skup, pa kaemo da je X diskretno obiljeje z obiljeje moe biti numeriko ili nenumeriko z z c c nenumeriko obiljeje nazivamo i kategorija; npr. spol, boja i slino; c z c moemo mu pridijeliti neku numeriku vrijednost, ali tada nema smisla z c raunati npr. aritmetiku sredinu podataka! c c svakom elementu ai ImX moemo pridruiti broj fi frekvencija z z (uestalost) pojavljivanja elementa ai u nizu podataka c broj fri = fi : relativna frekvencija od ai n (n je broj ponavljanja pokusa, u ovom primjeru n = 20)

Prikaimo podatke u TABLICI FREKVENCIJA z 4

ai fi fri 1 2 3 4 5 6 4 1 5 5 2 34 20 1 20 5 20 5 20 2 20 3 20

% = 0.2 = 0.05 = 0.25 = 0.25 = 0.1 = 0.15 20% 5% 25% 25% 10% 15% 100%

20 1.00

GRAFICKI PRIKAZ PODATAKA POMOCU STUPCASTOG DIJAGRAMA (BAR - CHART)5

4

3

2

1

0 1 2 3 4 5 6

Stupasti dijagram moe se crtati i tako da ukupna povrina stupia bude c z s c jednaka 1, to je bolje zbog usporedbe, npr. za razliite n: s c0.25

0.20

0.15

0.10

0.05

0.00 1 2 3 4 5 6

5

HORIZONTALNI STUPCASTI DIJAGRAMestice petice etvorke trojke dvojke jedinice 0.05 0.10 0.15 0.20 0.05 0.2 0.25 0.30 0.1 0.25 0.25 0.15

STRUKTURNI KRUG (PIE CHART) -ako imamo relativno malo razliitih vrijednosti koje statistiko obiljeje c c z moe poprimiti z

5 25 trojki

dvojki

20

jedinica

15 25 etvorki 10 petica

estica

HISTOGRAM: Nacrtajmo histogram za podatke iz Primjera 1. svaka 2 susjedna stupia se dodiruju i svaki ima teite u vrijednosti c zs visina fi ili fri s c s povrina svakog stupia jednaka je relativnoj frekvenciji pa je povrina ispod cijelog grafa jednaka je 1 nema smisla za nenumerike vrijednosti c

6

0.25

0.20

0.15

0.10

0.05

0.00 1 2 3 4 5 6

Primjer 2 Mjerena je visina (u metrima) 30 20-ogodinjaka. Dobiveni su s podaci: 1.85, 1.88, 1.78, 1.72, 1.80, 1.72, 1.75, 1.72, 1.79, 1.82, 1.69, 1.76, 1.60, 1.78, 1.76, 1.74, 1.70, 1.86, 1.72, 1.75, 1.69, 1.79, 1.83, 1.79, 1.65, 1.76, 1.59, 1.68, 1.74, 1.86. statistiko obiljeje X = visina neprekidno statistiko obiljeje (poprima c z c z vrijednosti iz nekog intervala) podatke najprije moramo svrstati u razrede: 1. odredimo xmin i xmax : xmin = 1.59, xmax = 1.88 2. izaberemo adekvatan broj razreda (okvirno: n) k = 6 c s 3. odredimo zajedniku irinu razreda: c= xmax xmin 1.88 1.59 = = 0.0483 c=0.05 k 6

(uvijek zaokruujemo na vie!) z s 4. odredimo razrede (tj. lijevi prag razreda): I1 , ..., Ik pritom I1 I2 ... Ik mora obuhvaati sve podatke c Ii = [ai,1 , ai,2 ], ai,2 = ai+1,1 Ii+1 = [ai+1,1 , ai+1,2 ]

7

RAZREDI I1 = [1.585, 1.635] I2 = [1.635, 1.685] I3 = [1.685, 1.735] I4 = [1.735, 1.785] I5 = [1.785, 1.835] I6 = [1.835, 1.885]

fi fri = fi /n fri /c 2 2 7 9 6 4 30 0.067 0.067 0.233 0.3 0.2 0.133 1 1.34 1.34 4.66 6 4 2.66 20

Nacrtajmo histogram za ove podatke. Sirina stupia vie nije proizvoljna c s (sada je jednaka irini razreda, tj. c=0.05), pa da bi suma povrina svih s s pravokutnika (odnosno povrina ispod grafa) bila jednaka 1, na ordinatu s ucrtavamofri c

a ne fri . Naime, 20 c = 20 0.05 = 1.6 5 4 3 2 1

1.635

1.685

1.735

1.785

1.835

1.885

STEM AND LEAF DIJAGRAM

stem leaf 1.5 1.6 9 0 5899 2224024 8596865996 023 5866

stem leaf 1.5 1.6 1.7 1.8 9 90958 82252968640259964 5802636

1.6

1.7 1.7 1.8 1.8

8

1.21.2.1

Srednje vrijednosti uzorkaAritmetika sredina uzorka c

Aritmetika sredina uzorka je broj c x := 1 (x1 + x2 + . . . + xn ). n

Ako je ImX = {a1 , a2 , . . . , ak } i pritom se ai u uzroku ponavlja fi puta, tada 1 x= fi ai , n = fi . n i=1 i=1k k

- ima smisla samo za numerike podatke c Primjer 3 Izraunajte x za podatke iz Primjera 2. c Rjeenje: s x = 1 (1.59 + 1.60 + 1.65 + 1.68 + 2 1.69 + 4 1.72 + 1.70 + 2 1.74 + 2 1.75 30 +3 1.76 + 2 1.78 + 3 1.79 + 1.80 + 1.82 + 1.83 + 1.85 + 2 1.86 + 1.88) 52.57 = 1.75 30

1.2.2

Medijan uzorka

uredimo podatke (sortiramo ih po veliini): x(1) x(2) . . . x(n) c c ima smisla samo za numerike podatke Medijan uzorka je broj za koji vrijedi da je 50% svih podataka manje od ili jednako njemu i 50% svih podataka vee od ili jednako njemu. c Ako je broj podataka neparan, tj n = 2k 1, k N, tada je m = x(k) . Za paran n (n = 2k), vrijedi m= x(k) + x(k+1) . 2 9

Openito, m = x( n+1 ) . Vrijedi c2

x( p ) = x(k+ r ) q q x( p ) := x(k) + q

) r( x(k+1) x(k) q

Primjer 4 Nadite medijan uzorka za podatke iz Primjera 1. Rjeenje: s Sortiramo podatke po veliini: c

11112333334444455666 n = 20 = 2 10 x(10) + x(11) 3+4 m= = = 3.5 2 2

1.2.3

Uzoraki mod c

Mod je ona vrijednost statistikog obiljeja koja se u uzorku javlja s nac z jveom frekvencijom. c koristan kod statistikih obiljeja koja nisu numerika, pa nema aritc z c metike sredine c BIMODALNI UZORAK: uzorak u kojem postoje 2 vrijednosti s jednakom frekvencijom UNIMODALNI UZORAK: uzorak u kojem postoji samo jedan mod Ako svi podaci imaju istu frekvenciju pojavljivanja u uzorku, tada uzorak nema mod. Primjer 5 Nadite mod za podatke iz Primjera 1 i 2. Rjeenje: s u Primjeru 1: mod = 3 & mod=4 bimodalan uzorak u Primjeru 2: mod = 1.72

10

1.31.3.1

Mjere disperzije ili varijabilitetaRaspon uzorka

Neka je x(1) x(2) . . . x(n) uredeni niz podataka. Broj d = x(n) x(1) naziva se raspon uzorka. Primjer 6 Odredite raspon uzorka iz Primjera 2. Rjeenje: s d = 1.88 1.59 = 0.29

1.3.2

Interkvartil

Donji kvartil qL je ona vrijednost uzroka za koju vrijedi da je 25% svih podataka manje ili jednako od nje i 75% svih podataka vee ili jednako od c nje. qL = x( n+1 )4

Gornji kvartil qU je ona vrijednost uzroka za koju vrijedi da je 75% svih podataka manje ili jednako od nje i 25% svih podataka vee ili jednako od c nje. qU = x( 3(n+1) )4

Interkvartil: dq = qU qL Primjer 7 Odredite interkvartil za podatke iz Primjera 2. Rjeenje: s qL = x( n+1 ) = x( 30+1 ) = x(7+ 3 ) = x(7) +4 4 4

) 3( x(8) x(7) 4

3 = 1.70 + (1.72 1.70) = 1.715 1.72 4 11

qU = x( 3(n+1) ) = x( 93 ) = x(23+ 1 ) = x(23) +4 4 4

) 1( x(24) x(23) 4

= 1.79 + dq

1 (1.80 1.79) = 1.7925 1.79 4 = qU qL = 1.79 1.72 = 0.07

Uredenu petorku (x(1) , qL , m, qU , x(n) ) zovemo karakteristina petorka c uzorka. Pomou nje crtamo tzv. box and whisker dijagram, odnosno c dijagram pravokutnika. Primjer 8 Nacrtajte box and whisker dijagram za podatke iz Primjera 2. x(1) = 1.59, qL = 1.72, m = 1.75, qU = 1.79, x(30) = 1.88, dq = 0.07

1.60

1.65

1.70

1.75

1.80

1.85

1.3.3

Uzoraka varijanca i uzoraka standardna devijacija c c

Uzoraka varijanca: c 1 s = (xi x)2 n 1 i=1n 2

Uzoraka standardna devijacija: c s = + s2 12

Vrijedi: s2 =n n 1 1 2 (xi x)2 = (x 2xi x + x2 ) n 1 i=1 n 1 i=1 i ( n ) ( n ) n n 1 1 x2 2 x xi + x2 = x2 2n2 + n2 x x = n 1 i=1 i n 1 i=1 i i=1 i=1 ( n ) 1 = x2 n2 x n 1 i=1 i

Ovaj oblik formule je puno praktiniji za raunanje. c c Ako se u uzroku x1 , x2 , . . . , xn vrijednosti a1 , a2 , . . . , ak pojavljuju s frekvencijom f1 , f2 , . . . , fk , onda vrijedi: 1 1 s2 = (ai x)2 fi = n 1 i=1 n1k

(

k i=1

) fi a2 n2 x i

Primjer 9 Izraunajte uzoraku varijancu s2 i uzoraku standardnu devic c c jaciju s za podatke iz Primjera 2. Rjeenje: s s2 = 1 n12

( k i=1

) fi a2 n2 x i =

1 [ (1.592 + 1.602 + 1.652 + 1.682 + 2 1.692 29

+ 1.70 + 4 1.722 + 2 1.742 + 2 1.752 + 3 1.762 + 2 1.782 + 3 1.792 ] + 1.802 + 1.822 + 1.832 + 1.852 + 2 1.862 + 1.882 ) 30 1.752 0.0051 s = + s2 = 0.071

Zadatak 1 U tablici su dane teine 100 studenata PBF-a. Nacrtajte hisz c togram, nadite aritmetiku sredinu, medijan te interkvartil ovog uzorka.

13

teina (kg) broj studenata z 60 62 63 65 66 68 69 71 72 74 Rjeenje: s0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 62.5

sredina razreda 61 64 67 70 73

fri 0.18 0.42 0.27 1

fri /c 0.06 0.14 0.09 0.334

5 18 42 27 8 100

0.05 0.017

0.08 0.027

65.5

68.5

71.5

74.5

Aritmetika sredina: c x= 1 (61 5 + 64 18 + 67 42 + 70 27 + 73 8) = 67.45 100

Medijan: U prva 2 razreda upada 5+18=23 podataka, a u prva 3 razreda 5+18+42=65 podataka, to znai da se medijan nalazi negdje unutar 3.razreda, s c tj. 65.5 m 68.5. Medijan dobivamo interpolacijom: m = 65.5 + 27 27 (68.5 65.5) = 65.5 + 3 = 67.43 42 42

Vrijednost medijana moe se oitati i sa histograma - medijan je apscisa koja z c odgovara liniji koja dijeli histogram na 2 dijela jednake povrine. s Interkvartil : Najprije moramo odrediti donji i gornji kvartil. Postupak je slian kao kod odredivanja medijana - donji kvartil nalazi se negdje unutar c 3.razreda tj. 65.5 qL 68.5, dok se gornji kvartil nalazi unutar 4.razreda

14

(budui prva 3 razreda sadre 65, a prva 4: 5+18+42+27=92 podatka), tj. c z 68.5 qU 71.5. Imamo: qL = 65.5 + 2 2 (68.5 65.5) = 65.5 + 3 = 65.643 42 42 10 10 qU = 68.5 + (71.5 68.5) = 68.5 + 3 = 69.61 27 27 dq = qU qL = 69.61 65.643 = 3.967

Zadatak 2 Izmjeren je kapacitet na 485 istovrsnih kondenzatora. Rezultati mjerenja su dani sljedeom tablicom frekvencija (podaci su u F zaokrueni c z na dvije decimale). (1) Nacrtajte histogram. (DZ) (2) Kako bi procijenili aritmetiku sredinu i varijancu uzroka? c (3) Kako bi procijenili medijan te gornji i donji kvartil? i 1 2 3 4 5 6 7 8 9 razred 19.58 19.62 19.63 19.67 19.68 19.72 19.73 19.77 19.78 19.82 19.83 19.87 19.93 19.97 19.98 20.02 fi 3 5 5 20 35 74 83 70 54 27 12 2 3 485 15 ai di fi di fi d2 i 108 125 80 180 140 74 0 83 280 486 432 300 72 147 fri Fi

19.60 6 18 19.65 5 25 19.70 4 20 19.75 3 60 19.80 2 70 19.85 1 74 19.90 19.95 20.00 20.05 20.10 20.15 20.20 20.25 0 1 2 3 4 5 6 7 0 83 140 162 108 60 12 21

0.006 0.006 0.010 0.016 0.010 0.026 0.041 0.067 0.072 0.139 0.153 0.292 0.190 0.482 0.171 0.653 0.144 0.797 0.111 0.908 0.056 0.964 0.025 0.989 0.004 0.993 0.006 0.999

19.88 19.92 92

10 20.03 20.07 11 20.08 20.12 12 20.13 20.17 13 20.18 20.22 14 20.23 20.27

319 2507

Rjeenje: s

Budui imamo uzorak veliine n = 485, c c

1 n1

u formuli za s2

1 priblino je jednak n . Dovoljno je, dakle, uzeti: z

1 1 s = fi (i x)2 gdje je x = a fi ai n i=1 n i=1k k 2

Nadalje, irina razreda je c = 0.05. Denirajmo: s di := ai a0 ai = a0 + c di , c

gdje je a0 referentna vrijednost aritmetikog niza a1 , . . . , ak . Za a0 se obino c c uzima vrijednost s najveom frekvencijom. Dakle, a0 je mod (ili jedan od). c U ovom zadatku a0 = 19.90. Imamo: 1 1 1 x = fi ai = fi (0 + c di ) = a n i=1 n i=1 nk k k 1 fi di , = a0 + c d, gdje je d = n i=1

( a0

k i=1

fi + c

k i=1

) fi di

s2 =

[ k ] k k 1 2 2 1 2 2 1 2 = fi (c(di d)) = c fi (di d) = . . . = c fi di d2 n i=1 n i=1 n i=1 Iz podataka dobivamo da je 319 = 0.658 x = 19.90 + 0.05 0.658 = 19.93 F d= 485 ( ) 1 2 2 2 s = 0.05 2507 0.658 = 0.012 s = 0.11 F 485 Kod odredivanja medijana, te donjeg i gornjeg kvartila pomoi e nam c c graf kumulativnih relativnih frekvencija koji je prikazan na donjoj slici. Za kumulativne relativne frekvencije Fj vrijedi: Fj =j i=1

1 1 fi (i x)2 = a fi (0 + c di a0 c d)2 a n i=1 n i=1k k

fri , j = 1, . . . , k 16

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

19.575 19.625 19.675 19.725 19.775 19.825 19.875 19.925 19.975 20.025 20.075 20.125 20.175 20.225 20.275

Medijan m je x-koordinata toke (m, 0.5) na grafu kumulativnih relac tivnih frekvencija. Ta toka lei na pravcu odredenom tokama (a7 , F7 ) = c z c (19.925, 0.482) i (a8 , F8 ) = (19.975, 0.653) pa medijan moemo izraunati z c linearnom interpolacijom: 1 F8 F7 F7 = (m a7 ) 2 a8 a7 1 0.653 0.482 0.482 = (m 19.925) m = 19.93 F 2 0.05 Slino se mogu izraunati donji qL i gornji kvartil qU . Njima su na grafu c c pridruene, redom, toke (qL , 0.25) i (qU , 0.75): z c 1 F6 F5 F5 = (qL a5 ) qL = 19.86 F 4 a6 a5 3 F9 F8 F8 = (qU a8 ) qU = 20.01 F 4 a9 a8

1.4

Mjere lokacije

Medijan, te gornji i donji kvartil spadaju u mjere lokacije. Tu su jo i: s DECILI: k-ti uzoraki decil je broj c Dk = x( k(n+1) ) , k = 1, 2, . . . , 9 10 17

(k/10 podataka je manje ili jednako njemu) c PERCENTILI: k-ti uzoraki percentil je broj Pk = x( k(n+1) ) , k = 1, 2, . . . , 99 100 (k% podataka je manje ili jednako njemu) decili su specijalni sluaj percentila: D1 = P10 , D2 = P20 , . . . , D9 = P90 c

1.5

Mjere oblika

Slino kao to se denira uzoraka varijanca, moe se denirati uzoraki c s c z c k-ti centralni moment, k N: 1 k = (xi x)k n 1 i=1n

Specijalno, 1 1 n x n x n x 1 = (xi x) = xi = =0 n 1 i=1 n 1 n=1 n1 n1 n1n n

2 = s2

1 3 = (xi x)3 n 1 i=1n

Primjer 10 Promatrajmo uzorak: 1, 2, 4, 5. Srednja vrijednost tog uzorka je x = 1 (1 + 2 + 4 + 5) = 3. 4 S druge strane, 3.centalni moment tog uzorka je ) 1( 3 = (1 3)3 + (2 3)3 + (4 3)3 + (5 3)3 = 0 3 Odavde moemo zakljuiti da kada je uzorak simetrian s obzirom na aritz c c metiku sredinu, 3.centalni moment 3 = 0. c Koecijent asimetrije uzorka (skewness) deniran je s: )3 ( )3 n ( k 3 1 xi x 1 ai x 3 = 3 = = fi s n 1 i=1 s n 1 i=1 s Vrijedi: 18

(i) 3 = 0 uzorak je SIMETRICAN (ii) 3 > 0 uzorak je POZITIVNO ASIMETRICAN (iii) 3 < 0 uzorak je NEGATIVNO ASIMETRICAN

19

2

OSNOVNE VJEROJATNOSNE DISTRIBUCIJE

2.1

Sluajni pokus i vjerojatnost c

Sluajni pokus je pokus s vie (moguih) ishoda. c s c Ishode sluajnog pokusa zovemo dogadajima. c Dogadaje koje ne moemo razloiti na jednostavnije zovemo elemenz z tarnim dogadajima. c Matematiki, dogadaji su podskupovi skupa elementarnih dogadaja. Primjer 11 Bacamo simetrinu kocku. Kolika je vjerojatnost da je pao c paran broj? Rjeenje: s Oznaimo s skup svih elementarnih dogadaja, tj. skup c

svih moguih ishoda pokusa kojeg radimo. || je kardinalni broj skupa c (ukupan broj njegovih lanova). Tada je: c = {1, 2, 3, 4, 5, 6}, || = 6

Oznaimo s A dogadaj iju vjerojatnost elimo izraunati (dogadaje uvijek c c z c oznaavamo velikim tampanim slovom; kreemo od poetka abecede), tj. c s c c A = {na kocki je pao paran broj}. Ako nije paran, kakav jo broj moe biti? Neparan, naravno. Oznaimo: s z c B = {na kocki je pao neparan broj}. Budui 3 elementarna ishoda daju paran broj, tj. A = {2, 4, 6} i isto tako c 3 elementarna ishoda daju neparan broj, tj. B = {1, 3, 5}, jasno je da se dogadaji A i B pojavljuju s jednakom vjerojatnou, odnosno vrijedi: sc 1 P (A) = P (B) = . 2 20

Uoimo jo neto: dogadaji A i B su komplementarni ili suprotni - medusobno c s s se iskljuuju (AB = ) a zajedno pokrivaju sve ishode koji se mogu pojaviti c (A B = ). Piemo: B = Ac . s Denicija 1 Neka je prostor (skup) elementarnih dogadaja i P() partitivni skup od (skup svih podskupova od ). Vjerojatnost je funkcija P : P() R koja svakom dogadaju A P() pridruuje broj P (A) tako z da vrijedi: (P1) (P2) (P3) P (A) 0, A P()

P () = 1 ( ) P Ai = P (Ai ), Ai P() tako da Ai Aj = , i = ji=1 i=1

Uredenu trojku (, P(), P ) zovemo vjerojatnosni prostor. Vjerojatnosni prostor je matematiki model za promatrani sluajni pokus. c c Svojstva vjerojatnosti: (1) P () = 0 (2) A B P (A) P (B)

(3) P (Ac ) = 1 P (A) (4) P (A B) = P (A) + P (B) P (A B) Dokaz od (3): Znamo da je P () = 1. Imamo: P () = P (A Ac ) = P (A) + P (Ac ) = 1 P (Ac ) = 1 P (A).(P 3)

LAPLACEOV MODEL VJEROJATNOSTI: Neka je = {1 , . . . , m }, m N. Pretpostavimo da su svi elementarni dogadaji jednako vjerojatni, tj. da je P (i ) =1 . m

Tada je vjerojatnost

21

dogadaja A, A , jednaka: 1 1 |A| 1 P (A) = P (i ) = = 1 = |A| = m m A m || A Ai

broj povoljnih elementarnih dogadaja = ukupan broj elementarnih dogadaja Zadatak 3 Bacamo 2 simetrine kocke. Kolika je vjerojatnost da zbroj na c te 2 kocke bude jednak 7? Rjeenje: s Odredimo najprije prostor elementarnih dogadaja .

= {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), . . . , (6, 6)} = {(i, j) : 1 i, j 6} || = 6 6 = 36

Zanima nam vjerojatnost dogadaja A = {zbroj na 2 kocke jednak 7}. Budui su svi elementarni dogadaji jednako vjerojatni, moemo primijeniti c z Laplaceov model raunanja vjerojatnosti. Potrebno je prebrojati koliko je c elementarnih dogadaja povoljno za dogadaj A. Dakle, zanimaju nas oni elementarni dogadaji, tj. ishodi, koji kad se dogode - dogodi se i A. Imamo: A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} |A| = 6

Vjerojatnost dogadaja A raunamo kao kvocijent odgovarajuih kardinalnih c c brojeva: = P (A) = |A| 6 1 = = || 36 6

Zadatak 4 Rijeite Primjer 14 primjenom Laplaceovog modela vjerojatnosti. s Zadatak 5 U kutiji se nalazi 20 kuglica od kojih je 12 crnih i 8 bijelih. Kolika je vjerojatnost da od 5 odabranih (na sluajan nain izvuenih) kuglica c c c tono 3 budu crne i 2 budu bijele ako c a) kuglice ne vraamo c b) kuglice vraamo? c 22

Rjeenje: s c a) Pretpostavimo prvo da kuglice ne vraamo. Dogadaj iju vjerojatnost c elimo izraunati je z c A = {izvukli smo 3 crne i 2 bijele kuglice}. Broj naina na koji od 20 kuglica moemo izabrati njih 5, a da nam c z ( ) pritom nije vano koliko je izvueno crnih a koliko bijelih, je 20 . Zapravo, z c 5 (20) imamo || = 5 . Broj naina na koji od ukupno 12 crnih kuglica moemo izabrati njih 3 c z (12) je 3 . Analogno, broj naina na koji od ukupno 8 bijelih kuglica moemo c z (8) izabrati 2 je 2 . Ako istovremeno izvuemo 3 crne i 2 bijele kuglice, dogodit c (12) (8) e se dogadaj A. Imamo: |A| = 3 2 c Vjerojatnost dogadaja A je: (12) (8) 12! 8! P (A) = 3(20) 2 = 3!9!20!2!6! =5 5!15! 121110 87 2 32 2019181716 5432

= 0.39732

b) Pretpostavimo sada da kuglice vraamo. Bitna razlika u odnosu na c prethodni sluaj je to je sada vjerojatnost da izvuemo crnu kuglicu u c s c svakom izvlaenju ista jer kuglice vraamo pa svaki put izvlaimo iz istog c c c skupa. U prethodnom sluaju, vjerojatnost da izvuemo crnu kuglicu se c c smanjuje iz izvlaenja u izvlaenje budui u kutiji svaki put (kad izvuemo c c c c crnu kuglicu) ostaje sve manje crnih kuglica. Vjerojatnost da (u jednom izvlaenju) izvuemo jednu crnu kuglicu (oznaimo c c c taj dogadaj s B) je: (12)1 P (B) = (20) = 1

12 3 = = 0.6 20 5

Dogadaj da je izvuena bijela kuglica (oznaimo taj dogadaj s C) komc c plementaran je dogadaju B. Zbroj vjerojatnosti komplementarnih dogadaja jednak je 1, pa odatle lako izraunamo vjerojatnost od C: c P (C) = P (B c ) = 1 P (B) = 1 23 2 3 = = 0.4 5 5

Naravno, P (C) moemo izraunati i direktno, slino kao to smo izraunali z c c s c P (B): (8)1 P (C) = (20) = 1

8 2 = = 0.4 20 5

Ostalo je izraunati P (A). Kako kuglice vraamo, postoji uredaj pri c c njihovom izlaenju - zna se koja (i kakva) je bila prva, koja druga, koja trea c c itd. Tu nam se otvara mogunost izbora: koja po redu je bila svaka od 3 c izvuene crne kuglice? Prva, trea i peta? Druga, etvrta i peta? Druga, c c c trea i etvrta? Sve su to naime razliiti elementarni dogadaji. Dakle, od c c c 5 mjesta (u poretku izvlaenja) moramo izabrati 3 na kojima su bile crne c () c kuglice (na preostala 2 su onda bijele). To moemo uiniti na 5 naina. z c 3 Vjerojatnost da u jednom izvlaenju bude izvuena crna kuglica je, kao to c c s3 znamo, 5 . Sljedee izvlaenje je nezavisno od prethodnog, pa je vjerojatnost c c ( 3 )2 3 da smo izvukli 2 crne kuglice jednaka 3 5 = 5 i analogno, vjerojatnost da 5 ( 3 )3 smo ih izvukli 3 je 5 . U preostala 2 izvlaenja morao se dogoditi suprotan c

dogadaj, odnosno morala je biti izvuena bijela kuglica, vjerojatnost ega je c c ( 2 )2 . Uzmemo li sve do sad reeno u obzir dobivamo: c 5 ( ) ( )3 ( )2 5 3 2 P (A) = = 0.3456 3 5 5 Zadatak smo mogli rijeiti i tako da razmatramo izvlaenje bijelih kuglica, s c odnosno da biramo mjesta na koja su dole 2 izvuene bijele, to je mogue s c s c (5) uiniti na 2 naina. Sada bi komplementaran dogadaj bio izvlaenje crne c c c kuglica i tako bi dobili: ( ) ( )2 ( )3 5 2 3 P (A) = 2 5 5 to zbog simetrije binomnih koecijenata oito daje isti rezultat kao gore. s c Primjer 5 odgovara izboru sluajnog uzorka bez, odnosno s vraanjem. c c Hipergeometrijska razdioba opisuje biranje sluajnog uzorka bez vraanja, c c a binomna razdioba opisuje biranje s vraanjem. O te dvije razdiobe vie c s emo rei neto kasnije. c c s

24

2.2

Nezavisni dogadaji. Uvjetna vjerojatnost.

Denicija 2 Za dogadaje A i B kaemo da su nezavisni ako vrijedi: z P (A B) = P (A) P (B), gdje A B predstavlja dogadaj kada se istovremeno dogode A i B. Zadatak 6 Promatramo obitelj s 3 djece i dogadaje A = { u obitelji su djeca oba spola } B = { u obitelji nema vie od 1 djevojice }. s c Jesu li dogadaji A i B nezavisni? Rjeenje: s li denicija. Odredimo najprije skup svih elementarnih dogadaja: = {MMM, MMZ, MZM, ZMM, ZZM, ZMZ, MZZ, ZZZ}. Prirodno je pretpostaviti da je svih 23 = 8(= ||) mogunosti kombinacija c djece (po spolu i po starosti) jednako vjerojatno. Izraunajmo najprije P (A) i P (B). Sto su povoljni elementarni dogadaji c za A? Svi oni, koji pripadaju , i koji opisuju obitelji s bar jednom djevojicom c odnosno bar jednim djeakom. Dakle, c A = \{ MMM, ZZZ } pa je P (A) = 1 Slino vidimo da je c B = { MMM, MMZ, MZM, ZMM } pa je () 1+ 3 1 4 1 = . P (B) = = 8 8 2 25 2 3 = . 8 4 Da bismo odgovorili na ovo pitanje, potrebno je provjeriti vrijedi

Dogadaj A B opisuje istovremeno dogadanje dogadaja A i B, to znai s c da obitelj mora imati djecu oba spola i pritom najvie jednu djevojicu - to s c s znai zapravo tono jednu djevojicu! - pa stoga c c c A B = {MMZ, MZM, ZMM} = B\{M M M } a odatle slijedi 3 P (A B) = . 8 Kako je 3 1 3 = = P (A B) 4 2 8 time smo pokazali da su dogadaji A i B - u ovom sluaju - nezavisni. c P (A) P (B) = No, vrijedi li to openito, odnosno za obitelji s proizvoljnim brojem djece? c Pokazuje se da za obitelji s 2 ili 4 djece ova 2 dogadaja nisu nezavisna! Dokazat emo to za sluaj obitelji s 4 djece; samostalno to pokuajte uiniti c c s c za sluaj obitelji s 2 djece. Imamo: c 2 7 P (A) = 1 4 = , 2 8 () 1+ 4 5 1 P (B) = = 4 2 16 (4 ) 1 P (A B) = 14 = . 2 4

Konano, kako je c P (A) P (B) = 7 5 35 1 = = = P (A B), 8 16 128 4

zakljuujemo da dogadaji A i B nisu nezavisni! c Pretpostavimo da znamo da se dogodio dogadaj B. Utjee li to na vjeroc jatnost dogadaja A? Denicija 3 Vjerojatnost dogadaja A uz uvjet da se dogodio dogadaj B zovemo uvjetna vjerojatnost, oznaavamo s P(A|B) i deniramo s: c P (A|B) = P (A B) . P (B)

26

Dogadaj B pritom na neki nain postaje novi skup svih elementarnih dogadaja, c tj. novi . Pretpostavimo da su dogadaji A i B nezavisni. Tada P (A|B) = P (A B) P (A) P (B) = = P (A). P (B) P (B)

Dakle, ako su dogadaji nezavisni, onda uvjet da se dogodio jedan od njih ne utjee na vjerojatnost dogadanja onog drugog. Vrijedi i obrat - ukoliko c vrijedi gornji identitet, tada su dogadaji nezavisni. Naime, P (A B) = P (A) P (A B) = P (A) P (B) P (B) dogadaji A i B su nezavisni P (A|B) = P (A) Zadatak 7 Dvije prijateljice, Mirjana i Silvija, sretnu se u gradu. Mirjana kae Silviji da ima 2 djece i da je jedno od njih sin. Koja je vjerojatnost, sa z Silvijinog gledita, da je drugo Mirjanino dijete ki ako Silvija otprije: s c a) znamo samo da je jedno dijete sin, b) zna da je sin starije dijete. Rjeenje: s Denirajmo najprije prostor elementarnih dogadaja: = {MM, MZ, ZM, ZZ}. Zanima nas vjerojatnost dogadaja: A = {jedno dijete je sin, drugo je ki} = {MZ, ZM}. c Jasno je da je P (A) = uvjet da se dogodio B = {jedno dijete je sin} = {MM, MZ, ZM}, odnosno C = {starije dijete je sin} = {MM, MZ}. Moramo izraunati P (A|B) i P (A|C). Uoimo da je c c A B = A = {MZ, ZM} i A C = {MZ}. 272 4 1 = 2 . No, nas zanima uvjetna vjerojatnost od A uz

Sada P (A|B) = P (A B) = P (B)2 4 3 4

2 = , 3

P (A|C) =

P (A C) = P (C)

1 4 2 4

=

1 2

Kako je P (A|C) = P (A), moemo zakljuiti da su dogadaji A i C medusobno z c nezavisni. S druge strane, P (A|B) = P (A), to znai da su dogadaji A i B s c nisu medusobno nezavisni.

2.3

Bayesova formula

Dogadaji H1 , H2 , . . . Hn ine potpun sistem dogadaja ako je: c 1) P (Hi ) > 0 za i = 1, 2, . . . , n 2) Hi Hj = za i = j, i, j = 1, 2, . . . , n n 3) Hi = i=1

Elemente potpunog sistema dogadaja H1 , H2 , . . . , Hn nazivamo hipoteze. Vano! Hipoteze se uzajamno iskljuuju (svojstvo 2) i tono jedna od njih se z c c mora dogoditi (svojstvo 3), u svakom izvodenju pokusa. Formula potpune vjerojatnosti Neka je {H1 , H2 , . . . , Hn } potpun sistem dogadaja i neka je A proizvoljan dogadaj. Tada vrijedi: P (A) =n i=1

P (Hi ) P (A|Hi )

Neka je zadan potpun sistem dogadaj {H1 , H2 , . . . , Hn }. Pretpostavimo da je pokus izveden i da se kao njegov ishod pojavio dogadaj A. Vjerojatnosti P (Hi ) bile su poznate prije izvodenja pokusa. Koliku vjerojatnost imaju hipoteze Hi (i = 1, . . . , n) nakon izvodenja pokusa? Odgovor na to pitanje daje Bayesova formula.

28

Bayesova formula Neka je {H1 , H2 , . . . , Hn } potpun sistem dogadaja i neka je A dogadaj takav da je P (A) > 0. Tada za svaki i = 1, 2, . . . , n vrijedi P (Hi ) P (A|Hi ) P (Hi |A) = n j=1 P (Hj ) P (A|Hj ) Dokaz. Primjenom denicije uvjetne vjerojatnosti slijedi P (Hi |A) = i s druge strane P (A|Hi ) = P (A Hi ) P (A Hi ) = P (Hi ) P (A|Hi ). P (Hi ) P (Hi A) P (A)

Primjenimo ovo pa iz gornje jednakosti dobivamo P (Hi |A) = P (Hi A) P (Hi ) P (A|Hi ) = n P (A) j=1 P (Hj ) P (A|Hj ) 2 Spoznaja da se dogodio dogadaj A mijenja nae uvjerenje o mogunosti s c pojavljivanja hipoteza H1 , H2 , . . . , Hn . Vrijedi:n i=1 n i=1

P (Hi |A) =

P (Hi ) P (A|Hi ) n j=1 P (Hj ) P (A|Hj )

n P (A) 1 P (Hi )P (A|Hi ) = = n =1 P (A) j=1 P (Hj )P (A|Hj ) i=1

Zadatak 8 Pri obradi jednoga pacijenta sumnja se na 2 bolesti, H1 i H2 . U danim uvjetima njihove su vjerojatnosti dane s P (H1 ) = 0.6 i P (H2 ) = 0.4. Radi preciziranja dijagnoze obavlja se odredena pretraga na pacijentu, iji su c rezultati pozitivna ili negativna reakcija. U sluaju bolesti H1 vjerojatnost c pozitivne reakcije je 0.9, a negativne 0.1, a u sluaju bolesti H2 i pozitivna i c negativna reakcija imaju vjerojatnost 0.5. Pretraga je obavljena 2 puta i oba puta reakcija je bila negativna. Kolike su vjerojatnosti svake od bolesti poslije ovih pretraga? Koja hipoteza je vjerodostojnija? 29

Rjeenje: s

Skup {H1 , H2 } je potpun sistem dogadaja - dogadaji H1 i H2

c medusobno se iskljuuju a jedan se mora dogoditi. Denirajmo dogadaj A: A = { pretraga je napravljena 2 puta i oba puta reakcija je bila negativna} Zelimo izraunati P (H1 |A) = vjerojatnost da pacijent ima bolest H1 ako c znamo da se dogodio A, te P (H2 |A) = vjerojatnost da pacijent ima bolest H2 ako znamo da se dogodio A. To emo uiniti koristei Bayesovu formulu. c c c Treba nam P (A|H1 ) = vjerojatnost da se dogodio A ako pacijent ima bolest H1 i P (A|H2 ) = vjerojatnost da se dogodio A ako pacijent ima bolest H2 . Razumno je pretpostaviti da su 2 napravljenje pretrage nezavisne jedna od druge pa imamo P (A|H1 ) = 0.1 0.1 = 0.01 P (A|H2 ) = 0.5 0.5 = 0.25 Primjenom Bayesove formule dobivamo: P (H1 ) P (A|H1 ) 0.6 0.01 P (H1 |A) = 2 = 0.06 0.6 0.01 + 0.4 0.25 j=1 P (Hj ) P (A|Hj ) P (H2 ) P (A|H2 ) 0.4 0.25 P (H2 |A) = 2 = 0.94 0.6 0.01 + 0.4 0.25 j=1 P (Hj ) P (A|Hj ) ili, jednostavnije, P (H2 |A) = 1 P (H1 |A) 0.94 Zakljuujemo da dobiveni rezultati pretraga daju jak razlog da se pretc postavi bolest H2 ! Hipoteza H2 je vjerodostojnija.

2.4

Diskretne sluajne varijable c

Sluajna varijabla je funkcija X koja elementarnim dogadajima pridruuje c z brojeve. Dakle, X : R. Oznaimo s ImX skup svih razliitih vrijednosti koje sluajna varijabla c c c X moe poprimiti. Kaemo da je zadan zakon razdiobe ili distribucija z z 30

sluajne varijable X ako je zadan skup ImX = {a1 , a2 , a3 , . . .}, te niz brojeva c pi 0 tako da 1) pi = P (X = ai ) 2) i=1

pi = 1

Zakon razdiobe zapisujemo u obliku tablice: ( ) a1 a2 a3 . . . X p1 p2 p3 . . . Budui je skup svih vrijednosti koje sluajna varijabla moe poprimiti c c z ImX = {a1 , a2 , a3 , . . .} diskretan (prebrojiv) skup, kaemo da je X diskretna z sluajna varijabla. c Denicija 4 Neka je X : R sluajna varijabla. Funkcija gustoe c c vjerojatnosti od X je funkcija pX : ImX [0, 1] denirana s pX (ai ) := P (X = ai ) = pi Denicija 5 Funkcija distribucije sluajne varijable X je funkcija FX : c R [0, 1] denirana s FX (x) := P (X x), Vrijedi FX (x) = ai x

x R.

pX (ai ).

c Zadatak 9 Sluajna varijabla zadana je razdiobom ( ) 2 1 0 1 2 X 0.1 0.2 0.2 0.3 0.2 Odredite funkciju distribucije te sluajne varijable, te nacrtajte njen graf. c Izraunaj vjerojatnost dogadaja |X| 1. c 31

Rjeenje: s

Funkciju distribucije moramo promatrati po intervalima. Kren-

imo od x , 2, tj. x < 2. U ovom sluaju: c FX (x) = P (X x) = 0 budui sluajna varijabla X ne moe poprimiti vrijednost x strogo manju od c c z -2. Dalje, neka je x [2, 1. Tada: FX (x) = P (X x) = P (X = 2) = 0.1 budui je -2 jedina vrijednost unutar intervala , 1 (drugim rijeima: c c jedina vrijednost manja od x) koju X moe poprimiti, a vjerojatnost da se z to dogodi znamo jer je dan zakon razdiobe od X. Neka je x [1, 0. Tada: FX (x) = P (X x) = P (X = 2) + P (X = 1) = 0.1 + 0.2 = 0.3 budui su -2 i -1 jedine vrijednosti unutar intervala , 0 koje X moe c z poprimiti. Dalje zakljuujemo analogno c ako je x [0, 1 : FX (x) = P (X = 2) + P (X = 1) + P (X = 0) = 0.1 + 0.2 + 0.2 = 0.5 ako je x [1, 2 : FX (x) = P (X = 2) + P (X = 1) + P (X = 0) + P (X = 1) = 0.1 + 0.2 + 0.2 + 0.3 = 0.8 te konano, ako je x [2, + : c FX (x) = P (X = 2) + P (X = 1) + P (X = 0) + P (X = 1) + P (X = 2) = 0.1 + 0.2 + 0.2 + 0.3 + 0.2 = 1 Tako smo dobili: 32

0, x < 2 0.1, 2 x < 1 0.3, 1 x < 0 FX (x) = 0.5, 0x 0, jedino rjeenje je = 2. c s X P (2), E [X] = = 2 P (X 4) = 1 P (X < 4) = 1 P (X 3) = 1 P (X = 0) P (X = 1) P (X = 2) P (X = 3) 20 2 21 2 22 2 23 2 =1 e e e e 0! ( 1! 2! 3! ) 4 19 = 1 e2 1 + 2 + 2 + = 0.143 = 1 e2 3 3 2k 2 P (X = k) = e k!

44

Zadatak 19 Pretpostavimo da je 220 greaka rasporedeno sluajno unutar s c knjige od 200 stranica. Odredite vjerojatnost da dana stranica knjige sadri: z a) niti jednu greku s b) tono jednu greku c s c) barem dvije greke s Rjeenje: s Denirajmo sluajnu varijablu X koja broji greke na pojedinoj c s

stranici. Ona ima Poissonovu distribuciju. Kako bi odredili njenu funkciju gustoe, potreban nam je parametar . Znamo da je taj parametar jednak c oekivanom ili prosjenom broju dogadaja (= broj greaka) koji se dogode u c c s jednoj jedinici (= na jednoj stranici). Stoga = 220 = 1.1 200 k (1.1)k 1.1 e = e , k! k! k = 0, 1, 2, . . . (5)

pX (k) = P (X = k) =

Pomou ovako denirane sluajne varijable, dogadaj pod a) moemo zapisati c c z kao X = 0, dogadaj pod b) kao X = 1, a dogadaj pod c) kao X 2. Vjerojatnosti tih dogadaja raunamo uvrtavanjem odgovarajuih k u (5). c s c Dobivamo: a) b) c) (1.1)0 1.1 e = e1.1 = 0.333 0! (1.1)1 1.1 P (X = 1) = e = 0.366 1! P (X 2) = 1 P (X = 0) P (X = 1) = 1 0.333 0.366 = 0.301 P (X = 0) =

Prethodni zadatak lijepo ilustrira zato se Poissonova distribucija naziva s i zakon rijetkih dogadaja. Dogadaji da na stranici nema niti jedne greke s (X = 0) i da je na stranici tono jedna greka (X = 1) - dakle rijetki c s dogadaji (u smislu malog broja greaka) - imaju veu vjerojatnost nego s c s dogadaj da su stranici 2 ili 3 ili 4 ili 5 ili . . . ili n ili . . . greaka (X 2).

45

2.4.4

Aproksimacija binomne razdiobe Poissonovom

binomna razdioba B(n, p) moe se aproksimirati Poissonovom razdiobom z P(np). Aproksimacija je to bolja to je parametar n vei, a parametar p s c manji. Zadatak 20 Kolika je vjerojatnost da medu 200 ljudi bude barem 4 ljevaka, ako ljevaka ima prosjeno 1%? c Rjeenje: s Denirajmo sluajnu varijabu X koja broji ljevake. Ona ima c

binomnu razdiobu s parametrima n = 200 (promatramo 200 ljudi, tj. 200 puta ponavljamo pokus) i p = 1/100 (to je vjerojatnost uspjeha, odnosno s vjerojatnost da je izabrani ovjek ljevak). Njena funkcija gustoe zadana je c c s: )( )k ( )200k 1 200 99 P (X = k) = , k 100 100 Zanima nas kolika je P (X 4): ( 0 k 200.

P (X 4) = 1 P (X = 0) P (X = 1) P (X = 2) P (X = 3) ( )( )0 ( )200 ( ) ( )1 ( )199 200 1 99 200 1 99 =1 0 100 100 1 100 100 ( )( )2 ( )198 ( ) ( )3 ( )197 200 1 99 200 1 99 = ... 2 100 100 3 100 100 Dobiveni izrazi nisu ba praktini za raunanje. Tu e nam pomoi aproksis c c c c macija Poissonovom razdiobom: B(n, p) P (np) 1 =2 100 2k 2 e , P (X = k) = k! = n p = 200 Sada dobivamo: P (X 4) = 1 P (X = 0) P (X = 1) P (X = 2) P (X = 3) 20 2 21 2 22 2 23 2 = 1 e e e e 0! 1! ) 2! 3! ( 4 2 = 1 1+2+2+ e = 0.143 3 46

k = 0, 1, 2, . . .

Zadatak 21 Stroj proizvodi 99.8% ispravnih i 0.2% neispravnih proizvoda. Kolika je vjerojatnost da u uzorku od 500 proizvoda vie od 3 budu neiss pravna? Rjeenje: s Denirajmo sluajnu varijabu X koja broji neispravne proizvode. c

X ima binomnu razdiobu: X B(500, 0.002). Nas zanima P (X > 3) = 1 P (X = 0) P (X = 1) P (X = 2) P (X = 3) Direktno koritenje binomne razdiobe ponovo bi dovelo do nezgrapnih izraza. s Iskoristimo stoga aproksimaciju Poissonovom razdiobom: = n p = 500 0.002 = 1 1k 1 1 P (X = k) = e = , k! k! e Slijedi: P (X > 3) = 1 1 1 1 1 8 =1 = 0.019 0! e 1! e 2! e 3! e 3e

k = 0, 1, 2, . . .

2.5

Neprekidne sluajne varijable c

Za sluajnu varijablu X kaemo da je neprekidna ako vrijedi sljedee: c z c (i) ImX je interval u R (ii) postoji nenegativna funkcija fX : R R tako da za svaka dva broja a, b (a < b) vrijedi P (a X b) =a b

fX (t)dt

47

-2

1

Funkciju fX zovemo funkcija gustoe od X. Vjerojatnost da vrijednost c sluajne varijable X upadne u interval [a, b] jednaka je dakle povrini ispod c s grafa funkcije gustoe na tom intervalu. Ako je na gornjoj slici prikazana c funkcija gustoe od X, tada je P (2 X 1) jednaka osjenanoj povrini. c c s Funkcija distribucije FX od X denirana je s: x FX (x) := P (X x) = fX (t)dt

(6)

Vrijedi: P (a X b) = FX (b) FX (a) Navedimo jo dva svojstva neprekidne sluajne varijable: s c (1) Za svaki broj a R je P (X = a) = lim P (a X b) = limba ba a b

(7)

fX (t)dt =a

a

fX (t)dt = 0

(2)

fX (t)dt = P ( < X < ) = 1

to znai da je ukupna povrina ispod grafa funkcije gustoe jednaka 1. s c s c Matematiko oekivanje od X denirano je s: c c E [X] = t fX (t)dt,

(8)

48

a za varijancu vrijedi relacija kao i kod diskretnih sluajnih varijabli c Var [X] = E [X 2 ] (E [X])2 gdje je sada E [X ] = 2

(9)

t2 fX (t)dt.

(10)

Openito, za g : R R vrijedi c E [g(X)] =

g(t) fX (t)dt.

Zadatak 22 Funkcija gustoe neke sluajne varijable X dana je grafom. c c Odredite analitiki prikaz od fX (x), FX (x), te izraunajte Var[X] i P (|X| c c 1).

-3

-2

-1

1

2

3

4

Rjeenje: s

Da bi neka funkcija bila funkcija gustoe, mora zadovoljavati: c 1 ) fX (t) 0, t R + 2) fX (t)dt = 1

Prvo svojstvo dana funkcija oito zadovoljava, a iz drugog svojstva slijedi da c povrina dva trokuta sa slike - to je povrina ispod grafa zadane funkcije s s s mora biti jednaka 1. Oznaimo li nepoznatu visinu na y-osi s v, slijedi: c 1v 3v + =1 2 2 v= 1 2

1 Toke (1, 1 ) i (0, 0) jednoznano odreduju pravac y = x , a toke (0, 2 ) i c c c 2 2

(3, 0) pravac y = 1 x , pa smo tako dobili analitiki prikaz funkcije gustoe: c c 2 6

49

0, x, 2 fX (x) = 1 x, 2 6 0,

x < 1 1 x < 0 0x3 x3

Sljedei korak je odrediti funkciju distribucije FX (x). Prisjetimo se njene c denicije (6). Imamo: x 1 : FX (x) = 1 x 0 : FX (x) = x

fX (t)dt = fX (t)dt =

x

x

1

0dt = 0 0dt +

x

(

1

t 2

)

1 t2 dt = 2 2

x 1

1 1 = (x2 1) = (1 x2 ) 4 4 1 x 0 x 3 : FX (x) = fX (t)dt = 0dt +

) ) x( 1 t t dt + dt 2 2 6 1 0 x 1 t2 0 1 1 1 t2 x 1 1 = + t = + x x2 2 2 1 2 6 2 0 4 2 12 0 ) x 1 0( ) 3( t 1 t x 3 : FX (x) = fX (t)dt = 0dt + dt + dt 2 2 6 1 0 x 3 9 1 t2 0 1 1 t2 3 1 3 =1 + 0dt = + t = + 2 2 1 2 6 2 0 4 2 12 0 30

(

pa slijedi:

0, 1 (1 x2 ), 4 FX (x) = 1 (3 + 6x x2 ), 12 1,

x 1 1 x 0 0x3 x3

Kolika je varijanca zadane sluajne varijable X? Izraunat emo je koc c c ristei (9). Najprije izraunajmo oekivanje E[X] pomou (8). c c c c ( ) + 1 0 t E[X] = t fX (t)dt = t 0dt + t dt 2 1 ) 3 ( + 1 t + t dt + t 0dt 2 6 0 3 1 t2 3 1 t3 3 1 9 27 7 1 t3 0 + = + = = 2 3 1 2 2 0 6 3 0 6 4 18 12 50

Nadalje, E[X 2 ] raunamo pomou (10): c c ( ) + 1 0 t 2 2 2 2 E[X ] = t fX (t)dt = t 0dt + t dt 2 1 ( ) 3 + 1 t 2 + t dt + t2 0dt 2 6 0 3 4 0 3 3 1 t 1 t 1 t4 3 1 27 81 5 = + = + = 2 4 1 2 3 0 6 4 0 8 6 24 4 Sada, prema (9), imamo: 5 Var[X] = 4 ( 7 12 )2 = 131 144

Preostalo je jo izraunati P (|X| 1) = P (1 X 1). Primjenom s c (7) dobivamo: P (|X| 1) = P (1 X 1) = FX (1) FX (1) 1 2 FX (1) = (3 + 6 1 12 ) = 12 ( 3 ) 1 FX (1) = 0 ili FX (1) = (1 1) = 0 4 2 2 P (|X| 1) = FX (1) FX (1) = 0 = 3 3

2.5.1

Normalna razdioba

Denicija 12 Kaemo da neprekidna sluajna varijabla X ima normalnu z c razdiobu s parametrima i 2 ako joj je funkcija gustoe zadana s: c2 1 (x) 2 2 fX (x) = e 2

(11)

Oznaka: X N (, 2 ) Vrijedi: 1. fX (x) > 0, x R ImX = R 51

(t)2 1 2. E [X] = t e 22 dt 2 (t)2 (t)2 1 1 2 e 22 dt = (t ) e 2 dt + 2 2 2 1 y2 = y e 2 dy + 1 = 0 + = 2 budui je podintegralna funkcija u poslijednjem integralu neparna. c (t)2 1 2 (t )2 e 22 dt = 2 3. Var [X] = E [(X ) ] = 2

Iz 2. i 3. vidimo da parametri i 2 zapravo predstavljaju oekivanje, c odnosno varijancu od X. Normalna razdioba je invarijantna na ane transformacije, tj. ako je X N (, 2 ) i a, b R, a = 0 tada je Y = aX + b N (a + b, a2 2 ) Zato svakoj normalno distribuiranoj sluajnoj varijabli X N (, 2 ) moemo c z pridruiti standardiziranu sluajnu varijablu z c X := X E [X] X = N (0, 1) X

koja je takoder normalno distribuirana ali s parametrima 0 i 1. Funkciju distribucije jedinine normalne razdiobe N (0, 1) oznaavamo s c c (x). Imamo: 1 (x) = 2 i vrijedi (x) = 1 (x). Zadatak 23 Neka je zadana sluajna varijabla X N (0, 1). Odredite vjeroc jatnosti dogadaja: a) X 1 b) X 1 c) 0 X 1 d) 1 X 2. x

e 2 dt,

t2

xR

52

Rjeenje: s a) b) c) d) P (X 1) = (1) = 0.84134 P (X 1) = 1 P (X < 1) = 1 P (X 1) = 1 (1) = 0.15866 P (0 X 1) = (1) (0) = 0.84134 0.5 = 0.34134 P (1 X 2) = (2) (1) = (2) (1 (1)) = 0.97725 1 + 0.84134 = 0.81859

Zadatak 24 Neka je zadana sluajna varijabla X N (2, 4). Odredite vjeroc jatnosti dogadaja: a) X 4, Rjeenje: s X N (2, 4) X = X X 2 = N (0, 1) 2 b) 0 X 4.

a)

b)

P (X 4) = 1 P (X < 4) = 1 P (X 4) = 1 FX (4) ( ) 42 =1P X = 1 (1) = 1 0.84134 = 0.15866 2 ) ( 02 X 2 42 P (0 X 4) = FX (4) FX (0) = P 2 2 2 = P (1 X 1) = (1) (1) = (1) (1 (1)) = 2 0.84134 1 = 0.68268

Zadatak 25 Sluajna varijabla X mjeri odstupanje aviona od sredine dozvolc jenog koridora. Ona je normalno distribuirana, s oekivanjem 100m i stanc dardnom devijacijom 200m. Ako je avion upravljen da leti sredinom koridora, nadite vjerojatnost da: a) avion leti kroz koridor irine 500m s b) iznad tog koridora.

53

Rjeenje: Sluajna varijabla X mjeri odstupanje aviona od sredine koridora. s c Vrijedi: X N (100, 2002 ) a) Ako elimo da avion leti sredinom koridora irine 500m, tada on od sredine z s tog koridora moe odstupati najvie 250m prema gore ili prema dole pa z s imamo: 250 100 250 100 P (250 X 250) = P X 200 200 = (0.75) (1.75) = (0.75) 1 + (1.75) = 0.77337 1 + 0.95994 = 0.73331 b) Ako je avion iznad koridora, tada je X 250. P (X 250) = 1 P (X < 250) = 1 P (X 250) = ( ) 250 100 =1 = 1 (0.75) = 1 0.77337 = 0.22663 200 ( )

Zadatak 26 Sluajna varijabla X ima normalnu razdiobu N (2, 4). Izraunajte c c uvjetnu vjerojatnost: P (1 X 1 | 0 < X < 3). Rjeenje: s P (A B) P (B) P (A B) = P (1 X 1, 0 < X < 3) = P (0 < X 1) P (0 < X 1) P (1 X 1 | 0 < X < 3) = P (0 < X < 3) ( 02 ) 12 P 2 0 f (x) = 0, x0 Oznaka: X Exp() Pogledajmo kako izgleda njena funkcija distribucije F (x). Za x 0, oito c F (x) = 0, budui je tada c F (x) = x

f (t)dt =

x

0dt = 0.

Pretpostavimo sada da je x > 0. Tada: x 0 x F (x) = f (t)dt = 0dt + et dt = 0 et 0

x 0

= 1 ex

Funkcija distribucije F (x) sluajne varijable s eksponencijalnom razdiobom c je dakle: { F (x) = Oekivanje i varijanca: c E[X] = t f (t)dt = 0

1 ex , x > 0 0, x0 dt = lim (M + 0 t M

t e

t

M

t et dt +0 0 M

=

u=t

dv = et dtM 0

du = dt v = et ( M 1 = lim M et M + e 1 1 = 0 (0 1) =

= lim )

M +

te

e

t

) dt

= lim

1 1 lim (eM 1) M + eM M +

Var[X] = E[X 2 ] (E[X])2 = . . . =

1 2

56

Zadatak 28 Vrijeme ispravnog rada nekog uredaja je sluajna varijabla disc tribuirana po eksponencijalnom zakonu s oekivanjem 2 mjeseca. Kolika je c vjerojatnost da e uredaj pokvariti u tijeku: c a) prvog mjeseca b) drugog mjeseca c) drugog mjeseca, ako je poznato da u tijeku prvog mjeseca nije bio u kvaru. Rjeenje: s 1 1 =2 = 2 Sluajna varijabla X koja mjeri vrijeme ispravnog rada uredaja (izraeno u c z [1] mjesecima) ima razdiobu X Exp 2 . Njena funkcija distribucije je E[X] = FX (x) = 1 ex/2 , x > 0 Dogadaj pod a) moemo izraziti kao {X 1}, dogadaj pod b) kao {1 X z 2} a dogadaj pod c) kao {1 X 2 | X 1}. Izraunajmo vjerojatnosti c tih dogadaja: a) b) c) P (X 1) = FX (1) = 1 e1/2 = 0.393 P (1 X 2) = FX (2) FX (1) = 1 e1 (1 e1/2 ) = 0.239 P (1 X 2 , X 1) P (1 X 2) P (1 X 2 | X 1) = = P (X 1) 1 P (X 1) FX (2) FX (1) 0.239 = = = 0.393 1 FX (1) 1 0.393

57

3

PROCJENA PARAMETARA

Neka je X statistiko obiljeje koje izuavamo. Cilj statistike analize je c z c c da se na osnovi uzorka iz populacije izvedu odredeni zakljuci o distribuciji c obiljeja X. z Kako izabrati uzorak? Recimo da elimo raditi ispitivanje o zeevima z c (npr.duljini njihovih uiju) u nekoj umi. Populacija iz koje izabiremo uzos s rak su svi zeevi koji ive u toj umi. Uzorak zeeva biramo na sluajan nain. c z s c c c Dvije su razliite mogunosti da to uinimo: nakon to ulovimo zeca i izmc c c s jerimo mu duinu uiju, moemo ga pustiti i tako omoguiti da ga jo (bar) z s z c s jednom ulovimo te da on ude u uzorak (bar) dva puta. Druga mogunost je c da ga zadrimo dok ne izaberemo cijeli uzorak kako taj isti zec ne bi uao u z s uzorak vie od jednog puta. s Sluajni uzorak kojeg uzimamo tako da svaki lan populacije moe ui u c c z c uzorak vie od jednog puta zovemo jednostavni sluajni uzorak s pons c avljanjem (sluaj kada zeeve putamo natrag u umu), a ukoliko svaki lan c c s s c populacije moe ui u uzorak tono jednom tada se radi o jednostavnom z c c sluajnom uzorku bez ponavljanja (sluaj kada zeeve ne putamo prije c c c s nego izaberemo ostatak uzorka). Bitna razlika izmedu ove dvije vrste biranja uzroka je u tome to je u s jednom sluaju populacija konana a u drugom beskonana. Naime, ako uzc c c imamo uzorak s vraanjem, tada moemo uzeti uzorak proizvoljne veliine, c z c vee ak i od ukupnog broja lanova same populacije. To je dakako u sluaju c c c c uzimanja uzorka bez vraanja, nemogue. S druge strane, esto se promac c c traju konane populacije koje su dovoljno velike da ih s aspekta statistike c c analize moemo smatrati beskonanim. z c Pretpostavimo da je X sluajna varijabla s konanim oekivanjem = c c c E [X] i varijancom 2 = Var [X]. Promatramo sluajni uzorak koji se sasc toji od n nezavisnih jednako distribuiranih sluajnih varijabli X1 , X2 , . . . , Xn c s distribucijom jednakom distribuciji mjerenog statistikog obiljeja. Zelimo c z procijeniti i 2 na osnovu uzorka. Pretpostavimo najprije da je X N (, 2 ). To onda znai i da c 58

Xi N (, 2 ), i = 1, 2, . . . n. Oznaimo s c 1 (12) Xn := (X1 + X2 + . . . + Xn ) n c s aritmetiku sredinu uzorka. Xn je sluajna varijabla pa pokuajmo odredc iti njenu razdiobu. Ona e naslijediti normalnu razdiobu budui je doc c bivena kao zbroj nezavisnih sluajnih varijabli koje su sve normalno disc tribuirane, no s kojim parametrima? Imamo: [ ] n ] = E 1 (X1 + X2 + . . . + Xn ) = 1 (E[X1 ] + E[X2 ] + . . . + E[Xn ]) E[X n n 1 1 = ( + . . . + ) = n = (13) n n budui su sve Xi jednako distribuirane, s oekivanjem . Nadalje, budui su c c c Xi i medusobno nezavisne imamo: [ ] 1 Var[Xn ] = Var (X1 + X2 + . . . + Xn ) (14) n 1 1 2 = (Var[X1 ] + Var[X2 ] + . . . + Var[Xn ]) = 2 n 2 = n2 n n Konano, imamo da je c Xn N ( 2 , n ) .

Pokazuje se da svojstva (13) i (14) vrijede i ako X, odnosno Xi , imaju neku drugu razdiobu (dakle, ne nuno normalnu) s oekivanjem i varijanz c 2 com . Svojstvo (13) je zapravo provjera da je Xn nepristran procjenitelj. Iz (14) lagano slijedi da jen

lim Var[Xn ] = 0

(15)

to je zapravo provjera da je Xn konzistentan procjenitelj. Zbog tih s lijepih svojstava, Xn je dobar izbor za procjenitelja od . Kae se i da je z Xn tokasti procjenitelj za . c Slino se moe pokazati da je uzoraka varijanca: c z c2 Sn

1 := (Xi Xn )2 n 1 i=1n

59

2 nepristran i konzistentan procjenitelj za varijancu 2 . Kae se i da je Sn z

tokasti procjenitelj za 2 . c Problem tokastih procjenitelja je to je teko odrediti pouzdanost njic s s hove procjene. Zato je nekad zgodno i potrebno promatrati intervalne procjene. Denicija 14 Neka su Ln = l(X1 , . . . , Xn ) i Dn = d(X1 , . . . , Xn ) sluajne c varijable (statistike), funkcije sluajnog uzorka X1 , . . . , Xn . c Kaemo da je [Ln , Dn ] (1 ) 100% pouzdan interval za parametar z ako vrijedi P (Ln Dn ) 1 , 0, 1

3.1

Pouzdani intervali za oekivanje normalne popuc lacije

3.1.1

Varijanca poznata

Neka je X sluajna varijabla s nepoznatim oekivanjem i poznatom varic c jancom 2 . imamo sluajni uzorak veliine n : X1 , . . . , Xn c c (1 ) 100% pouzdan interval za dobit emo ako promatramo c uzoraku distribuciju statistike Xn (aritmetika sredina uzorka): c c ( Xn N 2 , n )

(ona je normalno distribuirana ako je X normalno distribuirana i aproksimativno je normalna ako smo u uvjetima Centralnog graninog teoc rema) Xn = Xn n N (0, 1) Xn = 2n

60

Vrijedi: (z ) = 1 2 i nadalje: P (z Xn z ) = 1 2 2 n X z ) = 1 P (z 2 2 ( P n

2

Xn z Xn + z 2 2 n n

) =1

(1 ) 100% pouzdan interval za oekivanje normalne populacije c (varijanca poznata) Xn z n Xn + z 2 2 n

Zadatak 29 Vrijeme trajanja neke vrste elektronskih cijevi je normalno distribuirana sluajna varijabla X s nepoznatim oekivanjem i standardnom c c devijacijom = 40h. a) Uzet je uzorak od 30 elektronskih cijevi za koji je dobiveno prosjeno vric jeme trajanje od 780h. Nadite 99% pouzdan interval za oekivanje vremena c trajanja ove vrste elektronskih cijevi. b) Koliki uzorak treba uzeti da bi se s vjerojatnou 0.99, sredina uzorka x sc razlikovala od sredine manje od 10h? Rjeenje: s X N (, 402 ) a) n = 30, = 0.01 1 0 (z ) = 0 (z0.005 ) = = 0.495 z0.005 = 2.58 2 2 99% pouzdan interval za oekivanje: c 40 x30 z0.005 = 780 2.58 = 780 18.84 n 30 61 x30 = 780,

761.16 798.84

b)

P (|Xn | < 10) = 0.99,

n =? ) ( n 10 10 X < P (10 < Xn < 10) = P < ( n n n

) 10 n 10 n =P = 0.99 < Xn < 40 40 ( ) ( ) ( ) ( ) n n n n = 0.99 2 = 1.99 = 0.995 4 4 4 4 n = 2.58 n = 10.32 n = 106.5 4 = n 107, tj. treba uzeti uzorak duljine bar 107. Moemo razmiljati i ovako: (1 )100% pouzdani interval za oekivanje je: z s c Xn z Xn + z 2 2 n n a odatle: z Xn z |Xn | z 2 2 2 n n n Kako nas zanima P (|Xn | < 10) = 0.99, traeni n moemo odrediti iz z z uvjeta: z = z0.005 < 10. 2 n n Odatle dobivamo: z0.005 2.58 40 n > = = 10.32 n > 106.5024 10 10 n 107

Zadatak 30 (DZ) Neka maina proizvodi kugline leajeve. Promjer kuglinog s c z c leaja je normalna sluajna varijabla X s varijancom 1. Duine 9 sluajno z c z c odabranih kuglinih leajeva bile su c z 20.1, 19.9, 20.0, 19.8, 19.7, 20.2, 20.1, 23.1, 22.8. Odredite 95% pouzdan interval za matematiko oekivanje sluajne varijable c c c X. 62

3.1.2

Varijanca nepoznata

Neka je X N (, 2 ), i 2 nepoznati elimo nai (1 ) 100% pouzdan interval za z c imamo sluajan uzorak veliine n : X1 , . . . , Xn c c Xn : aritmetika sredina uzorka c2 varijancu 2 procijenimo pomou Sn c 2 Sn

1 = (Xi Xn )2 n 1 i=1n

2 (Sn je nepristran i konzistentan procijenitelj za 2 )

standardiziranu varijablu Xn n Xn = aproksimativno zapisujemo pomou procjene za 2 : c Xn Tn := n Sn Statistika Tn ima Studentovu ili t-distribuciju s (n 1) stupnjeva slobode : Tn t(n 1) Vrijedi: ( ) P t (n 1) Tn t (n 1) = 1 2 2 ( ) n X P t (n 1) Sn t (n 1) = 1 2 2 ( P n

Sn Sn Xn t (n 1) Xn + t (n 1) 2 2 n n

) =1

(1 ) 100% pouzdan interval za oekivanje normalne populacije c (varijanca nepoznata) S Xn t (n 1) n Xn + t (n 1) n 2 263S n n

Napomena: Za n , Studentova razdioba po distribuciji konvergira jedininoj normalnoj razdiobi. Za broj stupnjeva slobode n 1 30 moemo c z aproksimativno uzeti da je t(n 1) N (0, 1) Zadatak 31 NASA testira komponente svojih raketa. Recimo da NASA eli z procijeniti srednje vrijeme trajanja neke mehanike komponente koritene c s u raketi Columbia. Zbog ogranienja trokova, u simuliranim uvjetima c s svemira mogu testirati samo 10 komponenti. Dobiveni su podaci za vrijeme trajanja tih komponenti (u satima): x10 = 1173.6, s10 = 36.3. Procijenite oekivanje vijeka trajanja tih mehanikih komponenti s 95% pouzdanim interc c valom (pretpostavite da je vrijeme trajanja mehanikih komponenti normalno c distribuirano). Rjeenje: s 1 = 0.95 = 0.05 = 0.025 2

t0.025 (9) = 2.262 s10 36.3 x10 t0.025 (9) = 1173.6 2.262 = 1173.6 25.97 n 10 1147.63 1199.57

Zadatak 32 (DZ) U svrhu istraivanja utjecaja toksinih tvari koje lui z c c jedna vrsta plijesni na kukuruz, biokemiar u 9 ekstrakata plijesni mjeri c koliinu toksinih supstanci u mg. Dobiveni su rezultati: 1.2, 0.8, 0.6, 1.1, c c 1.2, 0.9, 1.5, 0.9, 1.0. Uz pretpostavku da su podaci iz normalne distribucije, procijenite 98% pouzdan interval za oekivanje te populacije. c

3.2

Pouzdani intervali za oekivanje populacije na osc novi velikih uzoraka

pretpostavimo da je zadan sluajni uzorak X1 , X2 , . . . , Xn velike duljine c (n ) za X openito nepoznate razdiobe, ali konane varijance c c 64

neka je parametar oekivanja i 2 varijanca c elimo konstruirati aproksimativni pouzdani interval za z prema Centralnom graninom teoremu, c Xn D n N (0, 1), nadalje, zbog konzistentnosti, Sn , pa Xn D n N (0, 1), Sn Dakle, za velike n (n ) vrijedi Xn Sn

n

n

n N (0, 1)

D

pa se (1 )100% pouzdani interval konstruira kao u sluaju normalne popc ulacije s poznatom varijancom (za Sn )

(1 ) 100% pouzdan interval za oekivanje populacije c na osnovi velikih uzoraka S Xn z n Xn + z n 2 2S n n

Zadatak 33 Zoolog eli procijeniti oekivanu koliinu eera u krvi odredene z c c s c ivotinjske vrste nastale nakon ubrizgavanja odredene koliine adrenalina. z c Dobivena srednja vrijednost uzorka od 55 ivotinja je 126.9 mg/100 ml uz z standardnu devijaciju uzorka od 10.5 mg /100 ml. Odredite 90% pouzdan interval za oekivanje. c Rjeenje: s s55 = 10.5 = 0.05 1 = 0.9 = 0.1 2 0.9 0 (z0.05 ) = = 0.45 z0.05 = 1.65 2 10.5 126.9 1.65 = 126.9 2.34 55 = 124.56 129.24 65 n = 55, x55 = 126.9,

3.2.1

Pouzdan interval za parametar p binomne razdiobe

Traimo (1 )100% pouzdani interval za proporciju p z X B(n, p), P =X n

E[X] = np,

Var[X] = npq, q = 1 p

= X je nepristrani procjenitelj od p, tj. E[P ] = p [ ] X 1 1 E[P ] = E = E[X] = np = p n n n [ ] X 1 1 pq = 2 Var[X] = 2 npq = Var[P ] = Var n n n n ( pq ) X = P N p, n X p X = pq N (0, 1)n

Imamo: P (z X z ) = 1 2 2 X p P (z pq z ) = 1 2 2 ( P X z 2n

pq p X + z 2 n

pq n

) =1

Za veliki n, dobit emo dovoljno dobre rezultate ako zamijenimo p s X = p : c

X z 2

X(1X) n

p X + z 2

X(1X) n

Zadatak 34 Uzorak od 100 kuanstava nekog grada pokazao je da se u 55% c kuanstava bar jedan lan koristi Internetom. c c c a) Nadite 95% pouzdan interval za omjer kuanstava u tom gradu koja se slue Internetom. z b) Koliko kuanstava treba uzeti da bi s vjerojatnou od 0.95 mogli tvrditi c sc da se najmanje 50% kuanstava slui Internetom? c z

66

Rjeenje: s a) p = x = 0.55, n = 100 = 0.025 2

1 = 0.95 = 0.05

z = z0.025 = 1.96 2 p(1 p) 0.55 0.45 p z = 0.55 1.96 = 0.55 0.09751 2 n 100 = 0.4525 p 0.6475

b)

n =? ( P

0.55 1.96

) 0.55 0.45 0.55 0.45 p 0.55 + 1.96 = 0.95 n n

elimo da vrijedi: p 0.5 pa odatle z 0.55 0.45 0.9751 0.5 0.05 0.55 1.96 n n n 19.502 n 380.328 = n 381

67

4

TESTIRANJE STATISTICKIH HIPOTEZA

Mnoge praktine situacije u vezi sa sluajnim pojavama zahtijevaju da se c c donesu odluke tipa DA ili NE. Npr. pri praenju procesa proizvodnje nekog c proizvoda treba, na temelju rezultata mjerenja x1 , . . . , xn statistikog obiljeja c z X, donijeti odluku o tome da li proces proizvodnje osigurava ili ne osigurava zahtjevanu kvalitetu. Pretpostavlja se, dakako, da obiljeje X, koje karakterz izira kvalitetu pojedinog proizvoda (koliina odredenog sastojka npr.) ima c sluajni karakter. c Teorijski gledano, rije je o tome da se na temelju n mjerenja sluajne c c varijable X, odnosno na temelju vrijednosti (x1 , . . . , xn ) sluajnog uzorka c (X1 , . . . , Xn ), donese odluka o prihvaanju (DA) ili odbacivanju (NE) odredene c pretpostavke o svojstvima sluajne varijable X. Takva pretpostavka zove se c statistika hipoteza, a postupak donoenja odluke o prihvaanju ili odbacic s c vanju statistike hipoteze zove se testiranje. c Primjer 12 Zelimo testirati da li je oekivanje trajanja neke vrste arulja c z jednako npr. 1000h. Deniramo H0 : = 1000h H1 : = 1000h H0 je nulta hipoteza, a H1 alternativna hipoteza. Budui iz alternativne c hipoteze slijedi da moe biti > 1000h ili < 1000h, kaemo da je H1 z z dvostrana alternativna hipoteza. Ponekad je zgodnije imati jednostranu alternativnu hipotezu. Npr. H0 : = 1000h H1 : > 1000h ili H1 : < 1000h 68

Testiranje hipoteze (odnosno provjeru da li je ona istinita ili nije) provodimo na sljedei nain: uzmemo sluajni uzorak, izraunamo vrijednost odgoc c c c varajue test-statistike, te na osnovu njene vrijednosti odluujemo o istinic c tosti hipoteze. Prilikom donoenja odluke o istinitosti hipoteze, postoji mogunost pogreke, s c s tj. krive odluke. To je jedan od razloga zato se nikad ne kae prihvaamo s z c hipotezu, ve ne moemo ju odbaciti. Dvije su vrste moguih pogreaka: c z c s pogreka 1.vrste: odbacili smo nultu hipotezu ako je ona istinita s pogreka 2.vrste: nismo odbacili nultu hipotezu ako je ona neistinita s H0 istinita pogreka 1.vrste s H0 neistinita pogreka 2.vrste s

ne odbacujemo H0 odbacujemo H0

= P(pogreka 1.vrste)= P(odbacujemo H0 | H0 istinita) nivo sigs nikantnosti ili razina znaajnosti c = P(pogreka 2.vrste)= P(ne odbacujemo H0 | H0 neistinita) s 1-=P(odbacujemo H0 | H0 neistinita) snaga testa

4.1

Test o oekivanju normalno distribuirane popuc lacije

4.1.1

Varijanca poznata poznata

neka je X N (, 2 ),

imamo sluajni uzorak veliine n : (X1 , , Xn ) c c z c elimo testirati da li je oekivanje jednako nekom unaprijed zadanom broju 0 . Nulta hipoteza je H0 : = 0 . Za alternativnu moemo uzeti z bilo koju od sljedee tri: c H1 : = 0 ili H1 : > 0 ili H1 : < 0

69

u sva 3 sluaja koristimo istu test-statistiku: c Z= Xn 0 n

Ako je nulta hipoteza H0 : = 0 istinita, tada je E[X] = 0 , odnosno Z N (0, 1) Promotrimo redom sluajeve razliitog izbora alternativne hipoteze: c c 1. H0 : = 0 H1 : = 0 Ako je H0 : = 0 istinita, tada P (z Z z ) = 1 2 2 to je vjerojatnost da prihvatimo H0 ako je ona istinita. S druge strane, s P ((Z < z ) (Z > z )) = 2 2 je vjerojatnost da ne prihvatimo H0 ako je one istinita. Dakle, ako je Z < z ili Z > z odbacujemo H0 2 2 ako je z Z z ne moemo odbaciti H0 z 2 2

z

2

z

2

2.

H 0 : = 0 H 1 : > 0 70

H0 odbacujemo ako je Z > z

z

(ne z , nego z !!! Kritino podruje povrine je cijelo na desnoj strani) c c s 2 3. H 0 : = 0 H 1 : < 0 H0 odbacujemo ako je Z < z

z

Zadatak 35 Poznato je da napon u elektrinoj mrei od 220 volti ima norc z malnu distribuciju sa standarnom devijacijom od 6 volti. Ako je 16 nezavisnih mjerenja dalo rezultate: 208, 216, 215, 228, 210, 224, 212, 213, 224, 218, 206, 209, 208, 218, 220, 206, s razinom znaajnosti 0.01 provjerite pretpostavku da je dolo do pada sredc s njeg napona u elektinoj mrei. c z Rjeenje: s X N (, 62 ), n = 16

71

Postavljamo hipoteze: H0 : = 220 H1 : < 220 Nulta hipoteza je da je srednja vrijednost napona jednaka 220 (odnosno da je vea od te vrijednosti), dakle da nije dolo do pada napona, dok je alterc s nativna da je srednja vrijednost napona manja od 220, odnosno da je dolo s do pada napona, to je tvrdnja za koju elimo provjeriti da li vrijedi. Kad s z bismo kao alternativnu hipotezu uzeli H1 : = 220, u sluaju odbacivanja c nulte hipoteze H0 : = 220, mogli bismo zakljuiti samo da srednji napon c nije jednak 220, no ne bismo znali je li on vei ili manji od te vrijednosti. c Xn 0 Raunamo vrijednost test-statistike: Z = c n 0 = 220, x16 = 214.6875 214.6875 220 z= 16 = 3.54167 6 z = z0.01 = 2.325 = z < z0.01 = odbacujemo nultu hipotezu H0 , tj. dolo je do pada napona! s 4.1.2 Varijanca nepoznata nepoznata

neka je X N (, 2 ),

imamo njen sluajni uzorak veliine n : (X1 , , Xn ) c c elimo testirati da li je oekivanje jednako nekom unaprijed zadanom z c broju 0 koristimo test-statistiku: T = Xn 0 n Sn

Ako je nulta hipoteza H0 : = 0 istinita, tada je T t(n 1) 72

1. H0 : = 0 H1 : = 0 Nultu hipotezu H0 odbacujemo ako je T > t (n 1) ili T < t (n 1) 2 2

t

2

n 1 t

2

n 1

2. H0 : = 0 H 1 : > 0 H0 odbacujemo ako je T > t (n 1)

t n 1

3. H0 : = 0 H 1 : < 0 73

H0 odbacujemo ako je T < t (n 1)

t n 1

Zadatak 36 Tvornica tvrdi da je prosjean vijek trajanja baterija iz te tvorc nice 21.5 sati. Na sluajnom uzorku od 6 baterija iz te tvornice laboratoric jskim mjerenjima vijeka trajanja dobivene su vrijednosti od 19, 18, 22, 20, 16, 25 sati. S razinom znaajosti = 0.05, testirajte da li dobiveni uzorak c indicira krai prosjean vijek trajanja baterija. c c Rjeenje: s 0 = 21.5, n = 6, = 0.05

H0 : = 21.5 H1 : < 21.5 Treba nam vrijednosti test-statistike: T = Xn 0 n t(n 1) Sn

1 x6 = (19 + 18 + 22 + 20 + 16 + 25) = 20 6 ( 6 ) 6 1 2 50 1 (xi x6 )2 = xi 6 x2 = 6 = 10 s2 = 6 5 i=1 5 i=1 5 20 21.5 t= 6 = 1.162 10 t0.05 (5) = 2.015 t > t0.05 (5) Nultu hipotezu H0 ne moemo odbaciti, tj. ne moemo zakljuiti da uzorak z z c indicira krai prosjeni vijek trajanja baterija. c c 74

4.2

Testovi o oekivanju na osnovi velikih uzoraka cpopulacije

NE pretpostavljamo da sluajni uzorak uzimamo iz normalno distribuirane c

iz Centralnog graninog teorema za n slijedi da test-statistika c Z= Xn 0 H0 n N (0, 1) Sn

osnovna hipoteza je ponovo oblika H0 : = 0 za neki unaprijed zadani broj 0 svodi se na testiranje oekivanja normalno distribuirane populacije uz c2 Sn jer Sn 2 kad n

4.2.1

Test o proporciji

Pogledajmo kako izgleda test za oekivanje na osnovi velikih uzoraka u sluaju c c kada imamo binomno distribuiranu populaciju. promatramo statistiko obiljeje X B(n, p) c z elimo testirati da li je proporcija p jednaka nekom unaprijed zadanom z broju p0 . Nulta hipoteza je H0 : p = p0 . Za alternativnu moemo uzeti bilo koju od sljedee tri: z c H1 : p = p0 ili H1 : p > p0 ili H1 : p < p0

u sva 3 sluaja koristimo istu test-statistiku: c Z= gdje je X = P Promotrimo redom sluajeve razliitog izbora alternativne hipoteze: c c 75 X p0 p0 (1 p0 ) n N (0, 1)

1. H0 : p = p 0 H1 : p = p0 Nultu hipotezu H0 odbacujemo ako je 2. H0 : p = p 0 H1 : p > p 0 H0 odbacujemo ako je 3. H0 : p = p 0 H1 : p < p 0 H0 odbacujemo ako je Z < z Z > z Z > z 2 ili Z < z 2

c s z s Zadatak 37 Proizvoda tvrdi da njegove poiljke sadre najvie 7% defektnih proizvoda. Uzet je sluajni uzorak od 200 komada iz jedne poiljke i bilo je c s 11 defektnih. Da li biste prihvatili tvrdnju proizvodaa uz razinu znaajnosti c c 0.05? Rjeenje: s Postavljamo hipoteze: H0 : p = 0.07 H1 : p < 0.07 Kada bi za alternativnu hipotezu postavili H1 : p = 0.07, u sluaju odbacic vanja nulte hipoteze mogli bi zakljuiti samo da proporcija defektnih nije c 0.07, a to moe znaiti da je vea, ali i da je manja od te vrijednosti to je z c c s jo bolje. Izraunajmo vrijednost odgovarajue test-statistike: s c c 11 0.055 0.07 x200 = p = = 0.055 = z = 200 = 0.83 200 0.07 0.93 z = z0.05 = 1.65 z > z0.05 76

Nultu hipotezu H0 ne moemo odbaciti, tj. ne moemo zakljuiti da poiljke z z c s sadre manje od 7% defektnih proizvoda. z

4.3

Usporedba oekivanja dviju normalno distribuiranih c populacija (t-test)

c z c pretpostavimo da mjerimo isto statistiko obiljeje X na dvije razliite populacije pretpostavimo da je u obje populacije X normalno distribuirana sluajna c varijabla s jednakom varijancom 2 X (1) : statistiko obiljeje X za populaciju 1, c z X (2) : statistiko obiljeje X za populaciju 2, c z iz svake populacije uzimamo uzorak: X1 , X2 , . . . , Xn1 za X (1) duljine n1 X1 , X2 , . . . , Xn2 za X (2) duljine n2 elimo testirati sljedeu nultu hipotezu z c H0 : 1 = 2 u odnosu na neku od jednostranih alternativa H1 : 1 < 2 ili H1 : 1 > 2(2) (2) (2) (1) (1) (1)

X (1) N (1 , 2 ) X (2) N (2 , 2 )

ili u odnosu na dvostranu alternativu H1 : 1 = 2 u svim sluajevima koristimo istu test-statistiku c T = X1 X2 1 1 S + n1 77

1 n2

gdje su

n1 1 (1) X1 = X , n1 i=1 i

n2 1 (2) X2 = X , n2 i=1 i

S2 =

( ) 1 2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2

2 2 za S1 , S2 uzorake varijance uzoraka 1 i 2. S 2 se interpretira kao c

zajednika varijanca uzoraka 1 i 2. Ako je H0 istinita, tada je c T t(n1 + n2 2) 1. H0 : 1 = 2 H1 : 1 = 2 Nultu hipotezu H0 odbacujemo ako T > t (n1 + n2 2) ili T < t (n1 + n2 2) 2 2 2. H0 : 1 = 2 H1 : 1 > 2 Nultu hipotezu H0 odbacujemo ako T > t (n1 + n2 2) 3. H0 : 1 = 2 H1 : 1 < 2 Nultu hipotezu H0 odbacujemo ako T < t (n1 + n2 2) 78

Zadatak 38 Ista vrsta jabuka uzgaja se u Slavoniji i u Zagorju. Na sluajan c nain izabrano je 7 slavonskih stabala te je izmjeren njihov prinos (u kg): 28, c 26, 33, 29, 31, 27, 28; prinos sa 10 zagorskih stabala bio je: 36, 25, 21, 29, 30, 36, 27, 28, 30, 37. Uz razinu znaajnosti 0.01, testirajte hipotezu da c jabuke u Zagorju daju vei prinos, ako je poznato da je prinos normalna c sluajna varijabla. Moemo li, uz istu razinu znaajnosti, zakljuiti da se c z c c prinosi jabuka u Slavoniji i Zagorju razlikuju? Rjeenje: s n1 = 7, Postavljamo hipoteze H0 : 1 = 2 H1 : 1 < 2 Koristimo test-statistiku T = X1 X2 1 1 S + n11 n2

n2 = 10

t(n1 + n2 2)

1 x1 = (28 + 26 + 33 + 29 + 31 + 27 + 28) = 28.857 7 1 x2 = (36 + 25 + 21 + 29 + 30 + 36 + 27 + 28 + 30 + 37) = 29.9 10 ( ) n 1 x2 n2 x s2 = n 1 i=1 i 1 1 34.855 = 5.81, s2 = 240.9 = 26.767 2 6 9 6 5.81 + 9 26.767 (n1 1)s2 + (n2 1)s2 2 1 = = 18.3842 s2 = n1 + n2 2 7 + 10 2 s = 4.2877 28.857 29.9 t= = 0.4936 1 1 4.2877 7 + 10 s2 = 1 t (n1 + n2 2) = t0.01 (15) = 2.602 t > t0.01 (15) 79

Ne moemo odbaciti H0 , tj. ne moemo zakljuiti da jabuke u Zagorju daju z z c vei prinos. c Ako elimo testirati da li su prinosi razliiti, moramo postaviti hipoteze z c H0 : 1 = 2 H1 : 1 = 2 Tada nam treba t (n1 + n2 2) = t0.005 (15) = 2.949 2 Kako je t > t0.005 (15) (i oito t < t0.005 (15)) ponovo ne moemo odbaciti nultu hipotezu, tj. ne c z moemo zakljuiti da se prinosi jabuka razlikuju. z c

4.4

Usporedba proporcijaobiljeje X z X (1) : sluajna varijabla koja reprezentira X u populaciji 1 c X (2) : sluajna varijabla koja reprezentira X u populaciji 2 c

promatramo dvije populacije i neko njihovo Bernoullijevo statistiko c

pripadni parametri (vjerojatnosti uspjeha): p1 , p2 sa p1 i p2 oznaimo procjenitelje od p1 i p2 na bazi uzorka iz svake od c populacija duljine n1 i n2 (uzorci su medusobno nezavisni), te sa p= n 1 p 1 + n 2 p2 n1 + n2

procjenu zajednike vjerojatnosti uspjeha c koristimo test-statistiku p1 p2 1 Z= 1 p(1 p) + n1 801 n2

za velike uzorke, tj. kada min(n1 , n2 ) +, vrijedi Z N (0, 1) 1. H 0 : p 1 = p2 H1 : p1 = p2 Nultu hipotezu H0 odbacujemo ako Z > z 2 2. H 0 : p 1 = p2 H1 : p 1 > p 2 Nultu hipotezu H0 odbacujemo ako Z > z 3. H 0 : p 1 = p2 H1 : p 1 < p 2 Nultu hipotezu H0 odbacujemo ako Z < z Zadatak 39 Uzorci od 300 glasaa iz upanije A i 200 glasaa iz upanije c z c z B pokazali su da e 56% i 48% ljudi, redom, glasati za nekog odredenog c kandidata. S razinom znaajnosti 0.05, testirajte hipotezu da c a) postoji razlika medu upanijama z b) tog kandidata vie vole u upaniji A. s z ili Z < z 2

81

Rjeenje: s n1 = 300, n2 = 200, a) H 0 : p 1 = p2 H1 : p1 = p2 n1 p1 + n2 p2 300 0.56 + 200 0.48 = = 0.528 n1 + n2 500 11 300

p1 = 0.56 p2 = 0.48

p=

0.56 0.48 z= 0.528 0.472 z = z0.025 = 1.96 2 z < z0.025

= 1.751 200

+

= Ne moemo odbaciti nultu hipotezu, tj. ne moemo zakljuiti da postoji z z c razlika medu upanijama. z b) H 0 : p1 = p 2 H 1 : p1 > p 2 z > z0.05

z = z0.05 = 1.64

= Odbacujemo nultu hipotezu, tj. moemo zakljuiti da kandidata vie z c s vole u upaniji A. z

4.5

Usporedba varijanci dviju normalno distribuiranih populacija (F-test)2 X (2) N (2 , 2 )

2 neka je X (1) N (1 , 1 ),

imamo sluajne uzorke veliine ni od Xi , i = 1, 2 c c 82

X1 , X2 , . . . , Xn1 za X (1) duljine n1 X1 , X2 , . . . , Xn2 za X (2) duljine n2 test- statistika(2) (2) (2)

(1)

(1)

(1)

2 S1 F = 2 F (n1 1, n2 1) S2

ima Fisherovu ili F-distribuciju sa parom stupnjeva slobode (n1 1, n2 1). Vrijedi f1 (n1 , n2 ) = 2 1 f (n2 , n1 ) 2

1.

2 2 H0 : 1 = 2 2 2 H1 : 1 = 2

Nultu hipotezu H0 odbacujemo ako F > f (n1 1, n2 1) ili F < f1 (n1 1, n2 1) 2 2

f1

2

f n1 1,n2 1 2

2.

2 2 H0 : 1 = 2 2 2 H1 : 1 > 2

83

f n1 1,n2 1

Nultu hipotezu H0 odbacujemo ako F > f (n1 1, n2 1)

3.

2 2 H0 : 1 = 2 2 2 H1 : 1 < 2

Nultu hipotezu H0 odbacujemo ako F < f1 (n1 1, n2 1)

f1

n1 1,n2 1

Zadatak 40 Iz dva 3.razreda neke srednje kole izabrano je, na sluajan s c nain, po 10 uenika i izmjerena je njihova teina (zna se da je teina norc c z z malno distribuirana), a podaci su dani u tablici. Uz razinu znaajnosti 0.02, c testirajte hipotezu da su varijance jednake. 3a: 57 60 63 59 62 60 58 56 54 62 3b: 58 62 60 56 63 58 61 57 53 61 84

Rjeenje: s2 2 H 0 : 1 = 2 2 2 H1 : 1 = 2

x1 = 59.1, x2 = 58.9 ) ( 10 1 2 s2 = x x n2 = 8.322, 1 9 i=1 i

s2 = 9.433 2

s2 8.322 f= 1 = = 0.8822 2 s2 9.433 f (n1 1, n2 1) = f0.01 (9, 9) = 5.35 2 f1 (n1 1, n2 1) = f0.99 (9, 9) = 2 f0.99 (9, 9) < f < f0.01 (9, 9) Ne moemo odbaciti nultu hipotezu, tj. ne moemo zakljuiti da se varijance z z c u ova dva uzorka razlikuju. 1 1 = = 0.1869 f (n2 1, n1 1) f0.01 (9, 9) 2

4.6

Usporedba oekivanja vie normalno distribuiranih c s populacija (jednofaktorska analiza varijance ANOVA)

ANOVA-u koristimo za usporedbu vie od dvije normalno distribuirane s populacije (za usporedbu tono dvije normalno distribuirane populacije c koristimo t-test!) neka su X11 , X12 , . . . , X1n1 za X (1) N (1 , 2 ) X21 , X22 , . . . , X2n2 za X (2) N (2 , 2 ) . . . . . . Xk1 , Xk2 , . . . , Xknk za X (k) N (k , 2 ) k nezavisnih sluajnih uzoraka, svaki za normalno distribuirano obiljeje c z X reprezentirano s X (i) za i-tu populaciju iz koje je uzet uzorak duljine ni (i = 1, 2, . . . , k) 85

pretpostavljamo da su varijance od X (i) jednake (u svim populacijama) elimo testirati nultu hipotezu z H0 : 1 = 2 = . . . = k , tj. hipotezu da nema razlike u oekivanjima medu populacijama; alc ternativna hipoteza je onda naravno da razlika postoji, odnosno da se bar dvije populacije razlikuju po oekivanjima c za test-statistiku treba nam sljedee, za i = 1, 2, . . . k: c 1 Xi = (Xi1 + . . . + Xini ) ni ni 1 2 (Xij Xi )2 Si = ni 1 j=1 ukupna aritmetika sredina svih podataka: ci 1 1 Xij = X= ni Xi , n i=1 j=1 n i=1

k

n

k

n=

k i=1

ni

suma kvadrata odstupanja srednjih vrijednosti uzoraka od ukupne sredine (= suma kvadrata u odnosu na tretman) SST =k i=1 k i=1

ni (Xi X)2 =

ni Xi2 nX 2

suma kvadrata pogreaka sni k k i )2 = SSE = (Xij X (ni 1)Si2 i=1 j=1 i=1 2 Xij k i=1 ni k i=1 j=1

=

ni Xi2

srednjekvadratno odstupanje medu uzorcima (zbog razlike u tretmanima) M ST = 86 SST k1

srednjekvadratna pogreka s M SE = konano, test-statistika je c F = Ako je H0 istinita, tada je F F (k 1, n k) nultu hipotezu odbacujemo ako F f (k 1, n k) M ST M SE SSE nk

f k 1,n k

ANOVA tablica: izvor stupnjevi rasipanja zbog razlike medu tretmanima zbog greke s pritom je SS = k1 nk n1 slobode

suma kvadrata SST SSE SS

srednjekvadratno odstupanje M ST M SE

vrijednost test-statistike F

ni k i=1 j=1

(Xij X)2

87

Zadatak 41 Pivovara koristi 3 razliite linije punjenja limenki piva. Sumc nja se da se srednji neto sadraj limenki razlikuje od linije do linije. Na z sluajan nain bira se 5 limenki sa svake linije i mjeri se njihov neto sadraj. c c z z Testirajte postoji li znaajna razlika izmedu sredina neto sadraja po linijama c uz razinu znaajnosti 0.05. c linija 1 2 3 Rjeenje: s 3.633 3.615 3.645 sadraj z 3.651 3.627 3.63 u 3.66 3.636 3.627 dcl 3.645 3.654 3.63 3.63 3.624 3.633

Potrebno je provjeriti postoji li razlika izmedu sredina neto

sadraja po linijama. Budui imamo 3 populacije (=linije), t-test nam ne z c moe pomoi, ve moramo provesti ANOVA-u. Krenimo redom: z c c k = 3, x1 = n1 = n2 = n3 = 5, n=3 i=1

ni = 15

3.633 + 3.651 + 3.66 + 3.645 + 3.654 = 3.6486 5 3.615 + 3.627 + 3.636 + 3.63 + 3.624 x2 = = 3.6264 5 x3 = 3.633 3 5 3 3 1 1 1 x= xij = n i xi = xi = 3.636 15 i=1 j=1 15 i=1 3 i=1 SST =3

ni Xi2 nX 2 = 52 Xij k i=1

3 i=1

x2 152 = 0.0013 i x3 5 i=1 j=1

SSE =

i=1 ni k i=1 j=1

ni Xi2 =

x2 5 ij

3 i=1

x2 = 0.00086 i

M ST =

0.0013 SST = = 0.00065 k1 2 0.00086 SSE = = 0.000072 M SE = nk 15 3 i konano dobivamo vrijednost test-statistike: c M ST 0.00065 f= = = 9.02778 M SE 0.000072 88

Iz tablice za F-razdiobu potrebno je oitati: c f (k 1, n k) = f0.05 (2, 12) = 3.89 Kako je f > f0.05 (2, 12) vidimo da je vrijednost test-statistike upala u kritino podruje to znai da c c s c nultu hipotezu o jednakosti oekivanja moramo odbaciti. Zakljuujemo stoga c c da postoji znaajna razlika medu sredinama neto sadraja po linijama. c z ANOVA tablica: izvor stupnjevi rasipanja zbog tretmana zbog greke s slobode 2 12 14 suma kvadrata 0.0013 0.00086 0.00216 srednjekvadratno odstupanje 0.00065 0.000072 9.02778 vrijednost test-statistike

4.7

2 - test o prilagodbi modela podacima

test-statistika je openito c H=k (fi f )2 i i=1

fi

gdje su fi eksperimentalne, a fi = npi teorijske frekvencije. ako vrijedi H0 , tada za velike n (n ) H 2 (k r 1) gdje 2 (m) oznaava 2 razdiobu s m stupnjeva slobode. c pritom je k = (konaan) broj razreda u tablici c r = broj nepoznatih parametara 89

nultu hipotezu da se radi o odredenoj razdiobi odbacujemo ako H 2 (k r 1)

2 k r 1

Zadatak 42 Proizvoda tvrdi da je 5% njegovih proizvoda prve klase, 92% c druge i 3% tree klase. U sluajnom uzorku od 500 proizvoda nadeno je c c 40 proizvoda prve, 432 druge i 28 tree klase. Uz razinu znaajnosti 0.05, c c testirajte hipotezu da je proizvoda u pravu. c Rjeenje: s Proizvoda tvrdi da njegovi proizvodi imaju neku distribuciju, c

odnosno razdiobu. Govori li istinu, provjerit emo 2 - testom. Duljina uzorka c je n = 500. Kako bismo izraunali vrijednost odgovarajue test-statistike trec c baju nam teorijske frekvencije. Njih raunamo po formuli fi = npi gdje je pi c odgovarajua vjerojatnost, odnosno u ovom sluaju odgovarajua proporcija. c c c Tako je p1 = Formirajmo tablicu: i 1 3 fi 40 28 500 fi5 = 25 100 92 500 100 = 460 3 500 100 = 15 (fi fi )2 fi

5 , 100

p2 =

92 , 100

p3 =

3 . 100

9 1.7 11.27 21.97

2 432 500

500

90

Suma poslijednjeg stupca u tablici daje nam vrijednost traene testz statistike: h=3 (fi f )2 i i=1

fi

= 21.97

Tablina vrijednost s kojom ju moramo usporediti kako bismo donijeli odluku c o istinitosti nulte hipoteze je 2 (k r 1). je zadana (=0.05), k = 3 (ukupan broj razreda), a r = 0 (nije bilo nijednog nepoznatog parametra pa nita nije bilo potrebno procijenjivati). Dakle, s 2 (k r 1) = 2 (2) = 6.0 0.05 Kako je h > 2 (2), 0.05 to znai da je vrijednost test-statistike upala u kritino podruje, moramo s c c c odbaciti nultu hipotezu. Drugim rijeima, odbacujemo tvrdnju proizvodaa, c c tj. on nije u pravu. Zadatak 43 Pet novia, s istom ali nepoznatom vjerojatnou p da padne cc sc pismo, bacaju se 100 puta (rezultati su dani u tablici). Uz razinu znaajnosti c 0.01, testirajte hipotezu da broj pisama koji se dobije u jednom bacanju predstavlja binomnu sluajnu varijablu. c broj pisama xi frekvencija Rjeenje: s fi 0 1 2 3 4 5

3 16 36 32 11 2

Potrebno je provjeriti imaju li dani podaci binomnu distribuciju.

Pokus koji izvodimo (ponavljamo ga 100 puta, dakle n = 100) je bacanje novia 5 puta a uspjeh je palo je pismo. Sluajna varijabla X broji cc c pisma. Parametar n binomne distribucije je stoga jednak 5. Parametar p nije zadan te moramo ga procijeniti. Oprez! mali n sada oznaava i duljinu c uzorka i parametar distribucije, no to su razliite stvari i razliite vrijednosti c c pa treba na to pripaziti. Parametar p jednak je vjerojatnosti uspjeha u jednom bacanju novia. cc Njegovu procjenu dobijemo tako da ukupan broj palih pisama podijelimo sa 91

ukupnim brojem bacanja novia. Novi je ukupno baen 5 100 = 500 puta cc cc c (100 pokusa a svaki se sastoji od 5 bacanja). Ukupan broj pisama raunamo c pomou dane tablice: c 0 3 + 1 16 + 2 36 + 3 32 + 4 11 + 5 2 = 238. Konano, c 238 = 0.476 500 Sljedei korak je izraunati teorijske frekvencije fi = npi . c c p= gustoe sluajne varijable X B(5, 0.476) je c c ( ) 5 pi := pX (i) = P (X = i) = (0.476)i (0.524)5i , i pa dobivamo f0

Funkcija

= 100 p0

f1 = 100 p1 f2 = 100 p2 f3 = 100 p3 f4 = 100 p4 f5 = 100 p5

( ) 5 (0.476)0 (0.524)5 = 100 0 ( ) 5 = 100 (0.476)1 (0.524)4 1 ( ) 5 = 100 (0.476)2 (0.524)3 2 ( ) 5 = 100 (0.476)3 (0.524)2 3 ( ) 5 = 100 (0.476)4 (0.524)1 4 ( ) 5 = 100 (0.476)5 (0.524)0 5

= 3.95054 = 17.9433 = 32.6 = 29.613 = 13.45 = 2.4436

Uoimo da je teorijska frekvencija prvog i poslijednjeg razreda < 5. Stoga c emo te razrede spojiti s njima susjednim razredima. Ukoliko bi tako opet c dobili razred ija je teorijska frekvencija strogo manja od 5, postupak bi c ponovljali dok ne bi dobili razred s (ukupnom) teorijskom frekvencijom > 5. Sada formiramo tablicu:

92

i 2 3

fi 36 32 100

fi 32.6 29.613 13.45 + 2.4436 = 15.8936 100

(fi fi )2 fi

1 3 + 16 = 19 3.95054 + 17.9433 = 21.89384 0.3825 0.3546 0.1924 0.5268 1.4563

4 11 + 2 = 13

Vrijednost test-statistike je dakle h = 1.4563. Konaan broj razreda k = 4, a broj procijenjenih parametara r = 1. Iz c tablice oitavamo c 2 (k r 1) = 2 (2) = 9.2 0.01 Kako je h < 2 (2), 0.01 dakle vrijednost test-statistike nije ula u kritino podruje, ne moemo s c c z odbaciti nultu hipotezu, odnosno ne moemo zakljuiti da se ne radi o biz c nomnoj distribuciji. Zadatak 44 Anketirano je 100 studenata i dobiven je prosjean broj njic hovih odlazaka u kazalite tijekom godine. S nivoom signikantnosti 0.05, s testirajte hipotezu da se radi o uzorku iz populacije s normalnom distribucijom. broj posjeta broj studenata Rjeenje: s [0, 2 [2, 4 [4, 6 [6, 8 [8, 10 [10, 12 [12, 14 5 10 20 33 18 10 4 .

Normalna distribucija ima 2 parametra - oekivanje i varijancu c

2 . Kako nijedan od njih nije zadan, moramo ih procijeniti, pa odmah slijedi da je r = 2. Procjenitelj za oekivanje je = x a za varijancu 2 = s2 . c n U tablici su dani sortirani podaci. Vidimo da je 5 studenata ilo u s kazalite 0 ili 1 put ali ne znamo koliko tono od tih 5 je ilo 0 a koliko s c s

93

1 put. Treba nam predstavnik tog razreda - uzimamo sredinu razreda. Sada 1 5 + 3 10 + 5 20 + 7 33 + 9 18 + 11 10 + 13 4 = 6.9 ) 100 ) ( n ( k 1 1 x x 2 = s2 = x2 n2 = a2 fi n2 n n 1 i=1 i n 1 i=1 i =x= no kako je n = 100 velik moemo umjesto s n 1 dijeliti s n: z 2 = 12 5 + 32 10 + 52 20 + 72 33 + 92 18 + 112 10 + 132 4 6.92 = 7.95 100

Postavljamo (nultu) hipotezu da sluajna varijabla X koja broji odlaske u c kazalite ima distribuciju s X N (6.9, 7.95) Sljedei korak je odrediti teorijske frekvencije fi = 100 pi . Imamo c ) ( 0 6.9 2 6.9 X < p1 = P (0 X < 2) = P 7.95 7.95 = 0 (1.74) 0 (2.45) = 0 (2.45) 0 (1.74) = 0.4928572 0.4591 = 0.0338 f1 = 3.38 ( ) 2 6.9 4 6.9 = P (2 X < 4) = P X < 2.82 2.82 = 0 (1.03) 0 (1.74) = 0 (1.74) 0 (1.03)

p2

= 0.4591 0.3485 = 0.1106

f2 = 11.06

p3 = P (4 X < 6) = P (1.03 X < 0.32) = 0 (0.32) 0 (1.03) = 0.223 = 0 (0.39) 0 (0.32) = 0.2772 = 0 (1.10) 0 (0.39) = 0.2126 = 0 (1.8) 0 (1.1) = 0.09974 94 f3 = 22.3

p4 = P (6 X < 8) = P (0.32 X < 0.39) f4 = 27.72

p5 = P (8 X < 10) = P (0.39 X < 1.10) f5 = 21.26

p6 = P (10 X < 12) = P (1.1 X < 1.8) f6 = 9.97

p7 = P (12 X < 14) = P (1.8 X < 2.52) = 0 (2.52) 0 (1.8) = 0.03006 f7 = 3

Budui je f1 < 5 i f7 < 5, spojit emo prva dva i posljednja dva razreda, pa c c

e tako ostati ukupno 5 razreda. Dakle, k = 5. Formiramo tablicu: c i fi (fi fi )2 fi

1 15 14.44

2 20 22.3

3 33

4 18

5 14

100

fi

27.72 21.26 12.97

0.022 0.237 1.006 0.499 0.082 1.8465 (fi f )2 i i=1

Vrijednost test-statistike je prema tome h= a 2 (k r 1) = 2 (2) = 6, 0.05 pa kako je h < 2 (2), nultu hipotezu ne moemo odbaciti, odnosno ne z 0.05 moemo zakljuiti da se ne radi o uzorku iz normalno distribuirane popuz c lacije. Zadatak 45 (DZ) Biljeen je broj etvorki rodenih u nekoj upaniji tijekom z c z 70 godina. Podaci su dani u tablici. Uz razinu znaajnosti 0.05, testirajte c hipotezu da su podaci uzeti iz populacije s Poissonovom distribucijom. broj rodenih etvorki c broj godina Napomena: = x 0 1 2 3 4 5 6 fi = 1.846,

14 24 17 10 2 2 1

4.8

2 - test nezavisnosti dviju varijabli

Neka je (X1 , Y1 ), (X2 , Y2 ), . . . (Xn , Yn ) sluajni uzorak za dvodimenzionalno c diskretno statistiko obiljeje (X, Y ) i neka je pritom: c z ImX = {a1 , . . . , ar } ImY = {b1 , . . . , bs } Im(X, Y ) = {(ai , bj ) : 1 i r, 1 j s} 95

Nadalje, fij : frekvencija od (ai , bj ) u uzorku fi : (marginalna) frekvencija od ai u uzorku gj : (marginalna) frekvencija od bj u uzorku Vrijedi: fi =

s j=1

fij ,

gj =

r i=1

fij

Kontingencijska frekvencijska tablica: \ X Y b1 b2 . . . a1 a2 . . . ar Oznaimo: c

bs

f11 f12 . . . f1s f1 f21 f22 . . . f2s f2 . . . . . . . . . . . . . . . fr1 fr2 . . . frs fr g1 g2 ... gs n

pij = P (X = ai , Y = bj ) pi = P (X = ai ) qj = P (X = bj ) Hipoteze su: H0 : pij = pi qj , i, j

tj. X i Y su nezavisne sluajne varijable c H1 : i, j takvi da pij = pi qj Uz H0 , procjene za pi i qj su: pi = fi , n 96 qj = gj n

Oekivane vrijednosti fij od fij uz H0 su: c fij = n pi qj = n

fi gj fi gj = n n n

Koristimo test-statistikur s (fij fij )2 H= fij i=1 j=1

Ako je H0 istinita, tada H 2 ((r 1)(s 1)) Hipotezu o nezavisnosti odbacujemo ako H 2 ((r 1)(s 1)) s c Zadatak 46 U cilju ispitivanja sklonosti potroaa proizvodu A uzet je uzorak na temelju kojeg su dobiveni podaci dani u tablici. Moete li na osnovu z ovih podataka zakljuiti da sklonost potroaa proizvodu A NE ovisi o njic s c hovom dohotku, uz razinu znaajnosti 0.05? c mjeseni dohodak c 3000 3000 5000 5000 7000 7000 Rjeenje: s 70 165 195 170 sklonost potronji s 17 56 85 42 21 28 26 25

anketiranih kupaca u kn stalno kupuju povremeno kupuju ne kupuju

Oznaimo s X sluajnu varijablu koja mjeri visinu dohotka, a s c c

Y onu koja mjeri sklonost potronji. Postavljamo hipoteze: s H0 : X i Y su nezavisne sluajne varijable c H1 : X i Y su zavisne sluajne varijable c Provest emo 2 -test o nezavisnosti dviju varijabli. Potrebno je izraunati c c teorijske frekvencije fij za i = 1, 2, 3, 4, j = 1, 2, 3, no pogledajmo najprije

kolike su marginalne frekvencije fi i gj : 97

mjeseni dohodak stalno kupuju povremeno kupuju ne kupuju c 3000 3000 5000 5000 7000 7000 Sada dobivamo: f11 =

f1 = 108 f2 = 249 f3 = 306 f4 = 237 n = 900

70 165 195 170 g1 = 600

17 56 85 42 g2 = 200

21 28 26 25 g3 = 100

f1 g1 108 600 = = 72 n 900 108 200 f1 g2 = = 24 n 900 f1 g3 108 100 = = 12 n 900 249 600 f2 g1 = = 166 n 900 f2 g2 249 200 = = 55.3 n 900

f31 =

f3 g1 306 600 = = 204 n 900 f3 g2 306 200 = = 68 n 900 f3 g3 306 100 = = 34 n 900 f4 g1 237 600 = = 158 n 900 f4 g2 237 200 = = 52.67 n 900

f12 =

f32 =

f13 =

f33 =

f21 =

f41 =

f22 =

f42 =

f23 =

f2 g3 249 100 f4 g3 237 100 = = 27.67 f43 = = = 26.3 n 900 n 900

Da bismo lake izraunali vrijednost test-statistike, zgodno je, radi pres c glednosti, u tablici eksperimentalnim frekvencijama pridruiti odgovarajue z c teorijske: mjeseni dohodak stalno kupuju povremeno kupuju ne kupuju c 3000 3000 5000 5000 7000 7000 70/72 165/166 195/204 170/158 98 17/24 56/55.3 85/68 42/52.67 21/12 28/27.67 26/34 25/26.3

Preostalo je izraunati vrijednost test-statistike: c4 3 (fij fij )2 h= = 18.532 fij i=1 j=1

Iz tablice oitavamo: c 2 ((r 1)(s 1)) = 2 ((4 1)(3 1)) = 2 (6) = 12.6, 0.05 0.05 pa kako je h > 2 (6) 0.05 vidimo da je vrijednost test-statistike upala u kritino podruje. c c Nultu

hipotezu o nezavisnosti stoga odbacujemo i zakljuujemo da su visina mjesenog c c dohotka (sluajna varijabla X) i sklonost potronji (sluajna varijabla Y ) c s c medusobno zavisne.

4.9

2 - test homogenosti populacijapopulacijama

zanima nas razdioba istog diskretnog statistikog obiljeja u raznim c z

na osnovi nezavisnih uzoraka uzetih iz tih populacija, testiramo osnovnu hipotezu da su razdiobe od X u tim populacijama jednake, tj. da su populacije homogene obzirom na X m : broj populacija koje promatramo X (i) : sluajna varijabla koja predstavlja X u i-toj populaciji ( i = c 1, . . . , m); vrijedi ( X(i)

a1 p1(i)

a2 p2(i)

...

ak(i)

)

. . . pk

nulta hipoteza j