Statistika - Sve

114
1 STATISTIKA ECTS: 5 bodova (tjedno opterećenje: 2 sata predavanja + 2 sata vježbi) Cilj kolegija: Osposobiti studenta za primjenu statističkih metoda radi utvrđivanja, analiziranja i praktičnog primjenjivanja zakonitosti promatranih pojava u pomorskom prometu. Sadržaj predavanja: 1. Osnovni pojmovi 2. Uređivanje podataka 3. Srednje vrijednosti statističkog niza 4. Mjere disperzije 5. Mjere asimetrije i mjere zaobljenosti 6. Osnovni pojmovi vjerojatnosti 7. Teorijske distribucije 8. Metoda uzoraka 9. Procjena parametara 10. Testiranje hipoteza o parametru 11. Usporedba parametara osnovnih skupova 12. Hi–kvadrat test 13. Regresijska analiza 14. Linearna korelacija 15. Modeli vremenskih serija Literatura: Šošić, I. (2006): Primijenjena statistika (2. izdanje), Školska knjiga, Zagreb, Šošić, I. (2000): Uvod u Statistiku (11. izdanje), Školska knjiga, Zagreb Provjere znanja: 3 kolokvija (svaki 25% završne ocijene) 3 seminarska rada (ukupno 25% završne ocjene) Pravo potpisa: Prisutnost na nastavi 73% (11/15) Nastavnik: mr.sc. Željka Domijan

Transcript of Statistika - Sve

Page 1: Statistika - Sve

1

STATISTIKA ECTS: 5 bodova (tjedno opterećenje: 2 sata predavanja + 2 sata vježbi)

Cilj kolegija: Osposobiti studenta za primjenu statističkih metoda radi utvrđivanja, analiziranja i praktičnog primjenjivanja zakonitosti promatranih pojava u pomorskom prometu.

Sadržaj predavanja:

1. Osnovni pojmovi 2. Uređivanje podataka 3. Srednje vrijednosti statističkog niza 4. Mjere disperzije 5. Mjere asimetrije i mjere zaobljenosti 6. Osnovni pojmovi vjerojatnosti 7. Teorijske distribucije 8. Metoda uzoraka 9. Procjena parametara 10. Testiranje hipoteza o parametru 11. Usporedba parametara osnovnih skupova 12. Hi–kvadrat test 13. Regresijska analiza 14. Linearna korelacija 15. Modeli vremenskih serija Literatura:

� Šošić, I. (2006): Primijenjena statistika (2. izdanje), Školska knjiga, Zagreb, � Šošić, I. (2000): Uvod u Statistiku (11. izdanje), Školska knjiga, Zagreb

Provjere znanja:

� 3 kolokvija (svaki 25% završne ocijene) � 3 seminarska rada (ukupno 25% završne ocjene) Pravo potpisa: Prisutnost na nastavi 73% (11/15) Nastavnik: mr.sc. Željka Domijan

Page 2: Statistika - Sve

2

populacija

uzorak

1. UVOD

1. Što je statistika? Statistika je znanstvena disciplina koja se bavi metodama prikupljanja i analiziranja podataka, te izvođenjem zaključaka na temelju tih podataka. Deskriptivna statistika uključuje metode uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja statističkih podataka te izračuna različitih statističko-analitičkih veličina. Inferencijalna statistika bavi se metodama koje omogućavaju procjenu karakteristika populacije ili donošenje odluka o populaciji, zasnovanih na generaliziranju rezultata iz statistike uzorka. Većina metoda zasnovana je na teoriji vjerojatnosti.

1.2. Statistički skup Statistički skup predstavlja skup elemenata kojim se ispituje jedno ili više svojstava (obilježja, varijabli) čije se vrijednosti mijenjaju od elementa do elementa. Podaci o danoj varijabli za svaki element statističkog skupa tvore skup podataka koji se naziva statističkom populacijom (osnovnim skupom). S obzirom na broj elemenata populacija može biti konačna i beskonačna. Podskup osnovnog skupa je uzorak. U statističkom istraživanju statistički skupovi se definiraju pojmovno, prostorno i vremenski.

Page 3: Statistika - Sve

3

1.3. Statistička obilježja (varijable) Statistička obilježja (varijable) su opće karakteristike elemenata statističkog skupa po kojima su elementi jedni drugima slični ili se međusobno razlikuju. Varijable se dijele na kvalitativne i kvantitativne. Kvantitativne varijable mogu biti kontinuirane i diskretne. Kontinuirane varijable dobivaju se mjerenjem pa mogu poprimiti bilo koju vrijednost iz nekog intervala. Diskretne varijable dobivaju se brojanjem i poprimaju konačan broj vrijednosti. Kvalitativne varijable mogu biti nominalne i redoslijedne. Nominalne varijable dane su opisno u obliku atributa (kategorija) ili prostornih (zemljopisnih) jedinica. Redoslijedne

(ordinalne) varijable fluktuiraju prema intenzitetu ili rangu.

1.4. Računalni programski paketi u statistici Razvojem računalne tehnike obrada i analiza podataka u statistici je znatno olakšana. Brojnim korisnicima danas su na raspolaganju grupe statističkih programa dizajnirane u obliku programskih paketa. Među najpopularnije spadaju SAS, SPSS, STATISTICA i MINITAB. Računala se javljaju gotovo u svakoj fazi statističke djelatnosti: pohranjivanje i manipuliranje podataka, grafičko i tabelarno prikazivanje, provođenje izračuna, modeliranje i simuliranje. Veći broj statističkih procedura deskriptivne i inferencijalne statistike dostupan je u različitoj programskoj potpori, primjerice u EXCEL-u.

Vježbe 1. Pogledajte stranice na navedenim adresama imajući na umu potrebe za različitim statističkim podacima:

Page 4: Statistika - Sve

4

A B C D E F G H I0001 2 30 2 1 45 1 11 6 120002 1 61 3 3 90 5 17 35 150003 2 21 1 1 0 1 12 1 00004 2 27 1 1 40 1 12 2 50005 1 50 2 2 72 2 14 28 60006 1 32 2 3 65 1 14 7 70007 1 45 2 4 80 3 12 20 30008 2 28 4 2 38 1 15 4 20009 1 23 1 1 32 6 16 1 0

www.dsz.hr www.hnb.hr www.kgh.hr www.census.gov www.unctad.org www.worldbank.org 2. Pogledajte publikaciju Statistički ljetopis Državnog zavoda za statistiku. Proučite metodološka objašnjenja koja se odnose na podatke o registru poslovnih subjekata, stanovništvu, zaposlenosti, plaćama, investicijama, transportu i komunikacijama i drugim područjima. 3. Koristeći se programskom potporom EXCEL-a unesite podatke iz odabrane tablice i pohranite ih u datoteku odabranog imena. Pomoću opcija Help proučite način unosa i editiranja statističkih podataka u programskoj potpori EXCEL-a. 4. Ispituju se obilježja radne snage (u dobi od 15 i više godina) na temelju uzorka 7550 kućanstava. Među varijablama (obilježjima) u istraživanju su i sljedeće:

(1) Spol (1 - muški, 2 - ženski) (2) Navršene godine života (3) Bračno stanje (1 – neoženjen / neudana, 2 – oženjen / udana, 3 – rastavljen / rastavljena, 4 – udovac / udovica) (4) Broj članova kućanstva (5) Veličina stana (u m2) (6) Položaj u zanimanju (1 – zaposlenik, osoba koja prima plaću, 2 – vlasnik bez zaposlenika, 3 – vlasnik - suvlasnik, 4 - pomažući član domaćinstva, 5 – nije aktivna osoba, umirovljenik, primatelj invalidnine, stipendije i sl., 6 – bez zanimanja) (7) Broj godina školovanja (8) Radni staž (navršene godine) (9) Udaljenost od mjesta na kojemu se obavlja posao (u km)

Protumačite sadržaj niže navedenog dijela matrice prikupljenih podataka:

Page 5: Statistika - Sve

5

2. STATISTIČKI NIZOVI Jedna od prvih zadaća deskriptivne statistike jest organizacija i prikaz prikupljenih podataka. Uređenjem statističkih podataka nastaju statistički nizovi. Uređeni podaci prikazuju se statističkim tabelama i grafičkim prikazima koji daju prve informacije o strukturi pojave predočene statističkim nizom. Elementarna analiza podataka u sklopu deskriptivne statistike provodi se pomoću relativnih brojeva (postoci, proporcije i sl.)

2.1. Niz kvantitativnih podataka Kvalitativni niz nastaje uređenjem podataka o modalitetima nominalne ili rang varijable. Broj podataka istog oblika varijable naziva se frekvencijom (fi). Zbroj frekvencija jednak je opsegu statističkog skupa. Relativna frekvencija (pi ) omjer je frekvencije i ukupnog broja podataka (zbroja frekvencija). Nizovi kvalitativnih podataka prikazuju se površinskim grafikonima: uspravnim i položenim stupcima, strukturnim krugovima i polukrugovima, razdijeljenim stupcima i sl. Primjer 2.1

Raspolažete sljedećim podacima:

Studenti sveučilišnih studija u RH školske godine 2000/2001.

Studijsko područje Broj studenata Od toga studentice prirodne znanosti 2367 1285 tehničke znanosti 18398 5252 medicinske znanosti 4693 3079 biotehničke znanosti 3334 1416 društvene znanosti 40048 26445 umjetničke akademije 997 559

Izvor : Statistički ljetopis RH, 2001, str.435 a) Kojoj vrsti pripada niz u tabeli? Niz studenata prema studijskom području prikažite jednostavnim stupcima. Uz grafikon navedite sve potrebne oznake.

Page 6: Statistika - Sve

6

Studenti sveu čilišnih studija u RH prema studijskom podru čju školske godine 2000/2001.

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

Prirodneznanosti

Tehničkeznanosti

Medicinskeznanosti

Biotehničkeznanosti

Društveneznanosti

Umjetničkeakademije

Studijsko podru čje

Bro

j stu

dena

ta

Struktura studenata prema spolu i studijskom podru čju u RH školske godine 2000/2001

0%

20%

40%

60%

80%

100%

Prirodneznanosti

Tehničkeznanosti

Medicinskeznanosti

Biotehničkeznanosti

Društveneznanosti

Umjetničkeakademije

Studentice Studenti

Studentice

Tehničke znanosti

14%

Medicinske znanosti

8%

Biotehničke znanosti

4%

Umjetničke akademije

1%

Prirodne znanosti

3%

Društvene znanosti

70%

Studenti

Društvene znanosti

44%

Medicinske znanosti

5%

Tehničke znanosti

41%

Umjetničke akademije

1%

Prirodne znanosti

3%

Biotehničke znanosti

6%

Studenti po spolu i studijskim podru čjima u RH školske godine 2000/2001.

b) Izračunajte relativni udjel (postotak) studentica u ukupnom broju studenata po studijskim područjima. Strukturu studenata po spolu i studijskim područjima prikažite razdijeljenim stupcima. c) Usporedite obujam i strukturu studenata po spolu i studijskim područjima proporcionalnim strukturnim krugovima.

� a) Nominalni niz. b) c)

Page 7: Statistika - Sve

7

Ukupan broj studentica (38.036 ili 100%) predstavljen je površinom kruga. Sektori kruga (si)

računaju se pomoću izraza 360×=N

fs i

i . Radijusi: rž = 2,2 cm, rm = 2 cm

2.2. Niz kvalitativnih podataka Uređenjem kvantitativnih podataka nastaju numerički nizovi. Način uređivanja numeričkih nizova ovisi o broju podataka, te da li je numerička varijabla diskretna ili kontinuirana. Grupiranje i prikaz diskretnih podataka Pojedinačne vrijednosti numeričke varijable prikazuju se dijagramom stablo-list (Stem-and-Leaf Diagram, ili S-L dijagram) Primjer 2.2

Intervjuirano je 75 slučajno odabranih građana. Na pitanje: "Koliko puta ste proteklog mjeseca svibnja koristili prijevoz gradskim autobusom?" prikupljeni su sljedeći odgovori:

2, 47, 22, 3, 52, 0, 28, 50, 11, 31, 22, 59, 27, 24, 52, 55, 21, 24, 31, 1, 6, 17, 10, 30, 31, 42, 27, 4, 14, 29, 7, 23, 21, 44, 2, 30, 3, 43, 27, 64, 49, 25, 51, 19, 45, 38, 51, 23, 5, 29, 24, 7, 30, 6, 21, 55, 51, 20, 18, 41, 26, 30, 21, 57, 33, 60, 24, 9, 23, 5, 46, 51 12, 10, 22.

Rezultate intervjua prikažite tabelarno i grafički.

Prikupljeni podaci su neuređeni. Brz način uređenja podataka postiže se uporabom dijagrama stablo- list. On osigurava ispis pojedinačnih podataka uređenih po veličini, od najmanjeg do najvećeg. Popis prvih znamenki brojeva tvori stupac koje zovemo "stablo" (Stem). S desne strane nasuprot vodećoj znamenci (u "stablu") ispisuje se posljednja znamenka broja što tvori "list" (leaf). "Stem" "Leaf" Broj putnika (fi)

0 0,1,2,2,3,3,4,5,5,6,6,7,7,9 14 1 0,0,1,2,4,7,8,9 8 2 0,1,1,1,1,2,2,2,3,3,3,4,4,4,4,5,6,7,7,7,8,9,9 23 3 0,0,0,0,1,1,1,3,8 9 4 1,2,3,4,5,6,7,9 8 5 0,1,1,1,1,2,2,5,5,7,9 11 6 0,4 2

Page 8: Statistika - Sve

8

Kod manjeg broja kvantitativnih podataka S-L dijagram omogućuje brzi način grupiranja podataka u razrede i određivanja veličine razreda. Tabela distribucije frekvencija s razredima i njen grafički prikaz dobiveni su pomoću MS Excela.

Kod velikog broja podataka, broj razreda (k) se aproksimira izrazom Nlog,k ×33+1≈ ,

gdje je N = ukupan broj podataka. Veličina razreda (∆x) određuje se izrazom k

x-x= x minmax∆

gdje je: xmax = najveća, a xmin = najmanja vrijednost u nizu, k = broj razreda. Grupiranje i prikaz kontinuiranih podataka Granice razreda su prave ako je donja granica tekućeg razreda jednaka gornjoj granici prethodnog razreda. U protivnom riječ je o nominalnim granicama koje treba pretvoriti u prave. Primjer 2.3 Mjerenjem su prikupljeni sljedeći podaci o visini studenata

171.4, 168.9, 183.7, 192.0, 158.2, 167.4, 178.2, 165.3, 183.8, 162.8, 173.5, 156.3, 188.2, 175.8, 171.3, 168.7, 164.7, 177.2, 163.5, 179.2, 169.4, 173.1, 168.4, 156.8, 180.3, 176.0, 179.4, 168.3, 178.3, 173.9, 174.0, 177.6, 169.4, 172.1, 173.6, 168.0, 191.1, 180.4, 163.7, 170.6

Podatke prikažite tabelarno i grafički.

Page 9: Statistika - Sve

9

Distribucija studenata po visini

0

1

2

3

4

5

6

7

8

9

10

155-160 160-165 165-170 170-175 175-180 180-185 185-190 190-195

visina (u cm)

broj

stu

den

ata

Visina Broj studenata (u cm) fi

155 - 160 3 160 - 165 4 165 - 170 9 170 - 175 9 175 - 180 8 180 - 185 4 185 - 190 1 190 - 195 2 Ukupno 40

Za grafički prikaz distribucije frekvencija s razredima koristi se histogram.

Vježbe: 1. Vrijeme od dana primitka narudžbe do dana isporuke posebne vrste brodskog motora bilo je kako slijedi (u danima):

145, 177, 117, 125, 185, 154, 140, 182, 132, 131, 140, 156, 161, 141, 200, 136, 157, 164, 123, 192

Konstruirajte S-L dijagram. 2. Provedena je anketa o dnevnoj potrošnji stranih turista u Republici Hrvatskoj tijekom kolovoza 2010. godine. Prosječni dnevni troškovi anketiranih turista bili su kako slijedi:

100 600 100 500 100 150 400 170 2000 100 400 300 1500 100 1300 500 100 200 250 400 500 800 700 1400 220 510 180 800 250 100 1500 380 2600 1000 800 250 500 250 1000 1500 250 500 700 100 100 100 1500 200 100 500 600 100 250 150 1000 500 1600 2000 350 100 200 200 100 100 150 500 100 2000 150 1500 100 200 800 1100 400 700 300 200 2400 100 1500 600 200 200 200 400 300 300 500 200 600 500 800 100 200 300 300 500 800 200 300 300 800 1000 1500 1800 200 250 100 200 2000 100 200 100 260 500 500 150 1000 1250

a) Formirajte distribuciju frekvencija i prikažite je u tabeli b) Distribuciju frekvencija prikažite površinskim grafikonom.

Page 10: Statistika - Sve

10

3. SREDNJE VRIJEDNOSTI

3.1. Aritmetička sredina (prosječna vrijednost)

a) Jednostavna sredina (pojedinačni, negrupirani podaci)

N

x

N

xxxxxx

N

ii

N

14321 ==+++++

=K

, gdje je N = broj vrijednosti

Primjer 3.1

Izračunajte aritmetičku sredinu niza: 105, 100, 110, 112, 108, 100, 104, 115, 96, 120

10710

1070

10

12096115104100108112110100105∑

1 ==+++++++++== =

N

x

x

N

ii

b) Vagana ili ponderirana sredina (grupirani podaci, distribucije frekvencija s razredima)

N

xf

x

k

iii∑

1== , ∑

1=

=k

iifN

Primjer 3.2

Test iz statistike sadrži pet zadataka. Broj riješenih zadataka 43 studenta bio je ovakav:

Broj riješenih zadataka 0 1 2 3 4 5 Broj studenata 3 7 12 16 3 2

Izračunajte prosječan broj riješenih zadataka.

Page 11: Statistika - Sve

11

Broj riješenih zadataka Broj studenata

xi fi xi·fi

0 3 0 1 7 7 2 12 24 3 16 48 4 3 12 5 2 10

Ukupno 43 101

3488243

101

1

1 ,

f

xf

xk

ii

k

iii

===

=

= riješena zadatka po studentu

Primjer 3.3

Nezaposlene osobe prijavljene u Hrvatskom zavodu za zapošljavanje krajem 1999. godine:

Navršene godine života Broj osoba

15 - 19 67.170 20 - 24 48.482 25 - 29 119.819 30 - 39 82.263 40 - 49 10.604

50 i više 13.392

Izračunajte prosječnu starost nezaposlenih osoba

� Godine života Broj osoba Prave granice Razredne sredine

fi xi xi·fi

15 - 19 67.170 15 - 20 17,5 1.175.475,0 20 - 25 48.482 20 - 25 22,5 1.090.845,0 25 - 29 119.819 25 - 30 27,5 3.295.022,5 30 - 39 82.263 30 - 40 35 2.879.205,0 40 - 49 10.604 40 - 50 45 477.180,0

50 i više 13.392 50 - (65) 57,5 770.040,0

Ukupno 341.730 9.687.767,5

349228730341

57676879

1

1 ,.

,..

f

xf

xk

ii

k

iii

===

=

= godina

Page 12: Statistika - Sve

12

� Aritmetička sredina posjeduje sljedeća svojstva:

• Vrijednost aritmetičke sredine nalazi se između najmanje i najveće vrijednosti niza za koji je izračunana. • Zbroj odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine jedak je nuli • Zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine sredine minimalan je

3.2. Mod (vrijednost koja se najčešće pojavljuje u nizu) U Primjeru 3.1 mod je 100. U Primjeru 3.2 mod je 3 jer je najveći broj studenata ima 3 riješena zadatka. Mod distribucije frekvencija s razredima

i)c-b()a-b(

)a-b(LM O ×

++= 1

gdje je: L1 = donja granica razreda s najvećom frekvencijom b = najveća frekvencija a = frekvencija ispred nje c = frekvencija iza najveće frekvencije i = veličina razreda (= L2 – L1) Primjer 3.4

Na osnovi podataka iz Primjera 3.3 izračunajte vrijednost moda distribucije i objasnite njegovo značenje.

� Prave granice razreda Broj osoba Veličina razreda Korigirane frekvencije

fi ii fci

15 - 20 67.170 5 67.170 20 - 25 48.482 5 48.482 25 - 30 119.819 5 119.819 30 - 40 82.263 10 41.131,5 40 - 50 10.604 10 5.302

50 - (65) 13.392 15 4.464

Ukupno 341.730

Page 13: Statistika - Sve

13

Mo ( )

( ) ( ) 3775,27=5×1.131,54-19.8191+48.482-119.819

48.482-119.819+25=

Najčešća dob nezaposlenih osoba bila je (zaokruženo) 27 godina.

3.3. Medijan (srednja vrijednost koja niz uređen po veličini dijeli na dva jednaka dijela) U Primjeru 3.1 podaci poredani po veličini su: 96, 100, 100, 104, 105, 108, 110, 112, 115, 120.

5106=2

108+105= ,M e

U Primjeru 3.2 broj podataka je neparan. (43). Medijan je broj riješenih zadataka studenta s rednim brojem 22 (= 43/2 = 21,5), pa je Me = 2 riješena zadatka.

Broj riješenih zadataka Broj studenata Kumulativni niz

xi fi manje od

0 3 3 1 7 10 2 12 22 3 16 38 4 3 41 5 2 43

Ukupno 43

U tabeli student pod rednim brojem 22 nalazi se u kumulativnoj frekvenciji 22 pa je medijan 2 riješena zadatka. Medijan distribucije frekvencija s razredima

if

f-N

LMmed

1

e ×2+=∑

1

gdje je: N = zbroj frekvencija fmed = frekvencija medijalnog razreda i = veličina medijalnog razreda Σ f1 = zbroj svih frekvencija ispred medijalnog razreda L1 = donja granica medijalnog razreda

Page 14: Statistika - Sve

14

Poligon kumulativnih frekvencija

0

50

100

150

200

250

300

350

15 20 25 30 35 40 45 50 55 60 65

Godine starosti

Kum

ulat

ivni

bro

j oso

ba

(u ti

sućam

a)

N/2

� Medijalni razred je onaj čija kumulativna frekvencija prvi put uključuje vrijednost N/2. U Primjeru 3.3 za izračun medijana formira se kumulativni niz „manje od“

Prave granice razreda Broj osoba Kumulativni niz Veličina razreda

fi manje od ii

15 - 20 67.170 67.170 5 20 - 25 48.482 115.652 5 25 - 30 119.819 235.471 5 30 - 40 82.263 317.734 10 40 - 50 10.604 328.338 10

50 - (65) 13.392 341.730 15

Ukupno 341.730

865170=2

730341=

2.

.N, te se nalazi u kumulativnoj frekvenciji 235.471. Medijalni razred je

25-30 godina.

L1 = 25 Σ f1 = 115.652 fmed = 119.819 i = 5

304027=5×819119

652115865170+25= ,

.

.-.M e godina

Medijan je (zaokruženo) 27 godina, prema tome prva polovica nezaposlenih osoba imala je 27 i manje godina, a druga polovica bila je starija od 27 godina. Medijan se može grafički odrediti pomoću poligona kumulativnih frekvencija.

Page 15: Statistika - Sve

15

Medijan se ubraja među kvantile. Kvantili su vrijednosti varijable koje dijele niz uređen po veličini na jednake dijelove. Decili raščlanjuju niz na deset jednakih dijelova, a percentili na sto dijelova. Kvantili koji dijele niz na četiri jednaka dijela nazivaju se kvartilima. Načini određivanja ovih kvantila analogni su onima za određivanje medijana.

Kvartili distribucije frekvencija s razredima

Prvi ili donji kvartil (Q1) if

N

LQvark

×+=∑ 1

11

f-4

Drugi kvartil (Q2) = Me

Treći ili gornji kvartil (Q3) if

f-N

LQvark

1

×4

3

+=∑

13

gdje je fkvar = frekvencija medijalnog razreda i = veličina kvartilnog razreda Σ f1 = zbroj svih frekvencija ispred kvartilnog razreda L1 = donja granica kvartilnog razreda

� Donji kvartil je 25-ti percentil, medijan je 50-ti percentil, gornji kvartil je 75-ti percentil

Vježbe 1. U servisu brodskih motora registriran je broj dana od primitka do predaje popravljenog motora. Podaci su sljedeći:

1, 2, 2, 1, 1, 3, 2, 0, 3, 2, 1, 4, 0, 3, 3, 2, 4, 1, 0, 1, 1, 2, 1, 5, 2

Izračunajte: aritmetičku sredinu niza, mod , medijan i kvartile. 2. Broj dana zadržavanja jedrilica na suhom doku u marini prikazan je S-L dijagramom

# 11 7 1 12 3,5 2 13 1,2,2,6 4 14 0,0,1,5 4 15 4,6,7 3 16 1,4 2 17 5,7 2 18 2,5 2

Page 16: Statistika - Sve

16

x i f i

500 36550 77600 22700 14750 11800 3

Razredi f i

0 - 5 1235 - 10 15810 - 15 2615 - 25 9

Razredi f i

0,5 - 0,9 791,0 - 1,4 681,5 - 1,9 302,0 - 2,9 143,0 - 4,9 115,0 - 7,9 4

Potrošnja turista Broj anketiranih100-400 63

400-700 23700-1000 101000-1300 71300-1600 91600-1900 21900-2200 42200-2500 12500-2800 1

x i

1721343540414250505355

Izračunajte: a) Prosječan broj dana zadržavanja jedrilica na suhom doku b) Mod, medijan i kvartile c) Komentirajte dobivene rezultate. 3. Za svaki od navedenih numeričkih nizova odredite aritmetičku sredinu, mod i medijan

a) b) d) c) 4. Anketa o dnevnoj potrošnji stranih turista iz zadataka 2 (predavanje2.) dala je sljedeću distribuciju

a) Na temelju podataka iz tabele izračunajte prosječnu potrošnju i kvartile. b) Dobivene rezultate usporedite s rezultatima dobivenim iz originalnih podataka.

Page 17: Statistika - Sve

17

4. MJERE DISPERZIJE

4.1. Raspon varijacije (razlika između najveće i najmanje vrijednosti)

minmax xxR −=

U Primjeru 3.1 xmax = 120, xmin = 96 R = 120 −−−−96 = 24 Raspon varijacije distribucije frekvencija s razredima

R = gornja granica posljednjeg razreda - donja granica prvog razreda. U Primjeru 3.3 xmax = 65, xmin = 15 R = 65 −−−−15 = 50

4.2. Interkvartil (razlika između gornjeg i donjeg kvartila)

13 QQI Q −=

Primjer 4.1

Provedena je anketa među studentima o satima provedenom na internetu tijekom mjeseca listopada. Prikupljeni su sljedeći podaci: 5, 9, 14, 15, 16, 17, 18, 21, 22, 23, 24, 27, 28, 31, 34, 37, 37, 39, 40, 40, 41, 43, 44, 45, 47, 48, 53, 57, 59, 63.

Izračunajte srednje vrijednosti, raspon varijacije i interkvartile. Izračunate vrijednosti prikažite pomoću B-W dijagrama (Box-and-Whisker diagram)

N = 30 xmax = 63 xmin = 5 Σ xi = 997

x = 33,2333 Mo = 40 Me = 36,5 Q1 = 21 Q3 = 44

minmax xxR −= = 63 – 5 = 58

13 QQI Q −= = 44 – 21 = 23

Page 18: Statistika - Sve

18

B – W dijagram

4.3. Varijanca (sredina kvadrata odstupanja vrijednosti numeričke varijable od sredine)

( ) ( ) ( ) ( )

N

xx

N

xxxxxx

N

ii

N

1

222

22

12 =

−=

−++−+−=

Primjer 4.2

Izračunajte varijancu niza 19, 15, 13, 12, 11

145

70

5

1112131519 ==++++=x

( ) ( ) ( ) ( ) ( )8

5

40

5

14111412141314151419 222222 ==−+−+−+−+−=σ

Za izračun varijance može se koristiti sljedeći izraz.

( )

N

xNxN

ii∑

1

22

2 =

−=σ

Page 19: Statistika - Sve

19

Varijanca distribucije frekvencija s razredima

( )

N

xxfk

iii∑

1

2

2 =

−=σ ∑

1=

=k

iifN

Primjer 4.3

Na temelju podataka iz Primjera 3.3 izračunajte varijancu

� Navršene godine Broj osoba Razredne sredine

(prave granice) fi xi xi·fi ( )2xxf ii −

15 - 20 67.170 17,5 1175475 7.906.234,6 20 - 25 48.482 22,5 1090845 1.658.713,8 25 - 30 119.819 27,5 3295022,5 86.403,6 30 - 40 82.263 35 2879205 3.638.765,6 40 - 50 10.604 45 477180 2.939.954,7

50 - (65) 13.392 57,5 770040 11.380.118,9

Ukupno 341.730 9687767,5 27.610.191,2

===

=

=

341730

59687767

6

1

6

1 ,

f

xf

x

ii

iii

28,3492 godina

( )

341730

227610191

6

1

6

1

2

2 ,

f

xxf

ii

iii

=−

=

=

=σ = 80,7953

Za izračun može se koristiti sljedeći izraz

N

fxxfk

i

k

iiii∑ ∑

= =

−= 1 1

22

2σ ∑

1=

=k

iifN

4.4. Standardna devijacija (prosječno odstupanje vrijednosti numeričke varijable od njezine sredine)

2= σσ U Primjeru 4.2 8=σ = 2,8284

U Primjeru 4.3 0795380= ,σ = 8,9886 godina

Page 20: Statistika - Sve

20

4.5. Koeficijent varijacije (omjer standardne devijacije i aritmetičke sredine pomnožen sa sto)

100×=x

U Primjeru 4.2 σ = 2,8284 =x 14 10014

82842100 ×=×= ,

xV

σ= 20,20

U Primjeru 4.3 σ = 8,9886 =x 28,3492 100349228

98868 ×=,

,V = 31,7068

Vježbe 1. Mjereno je vrijeme (u minutama) rješavanja zadataka iz statistike. Rezultati su sljedeći:

15, 25, 22, 31, 20, 24, 19, 17, 18, 18, 29, 28, 21, 10, 20, 17, 20, 33, 16, 38, 40, 30, 24, 22, 27

a) Odredite prosječno vrijeme rješavanja zadataka i nacrtajte dijagram odstupanja vrijednosti varijable od aritmetičke sredine.

b) Izračunajte vrijednost raspona varijacije, interkvartila i standardne devijacije. c) Nacrtajte B-W dijagram. 2. U tabeli su podaci o osuđenim punoljetnim osobama u Republici Hrvatskoj tijekom 2000. godine za kazneno djelo protiv sigurnosti platnog prometa i poslovanja .

Dob Broj osoba 18 - 20 23 21 - 24 63 25 -29 108 30 - 39 236 40 - 49 192 50 - 59 74

60 i više 25

a) Izračunajte prosječnu dob osuđenih osoba. Koliko je odstupanje od prosjeka b) Odredite dob koja niz dijeli na dva jednaka dijela. Koja je najčešća dob osuđenih osoba c) Koliki su kvartili i interkvartil d) Prikažite distribuciju poligonom kumulativnih frekvencija i označite položaj izračunanih

srednjih vrijednosti

Page 21: Statistika - Sve

21

5. MJERE ASIMETRIJE I ZAKRIVLJENOSTI

5.1. Mjere asimetrije (nagnutost distribucije na lijevu ili desnu stranu s obzirom na vrh distribucije) a) Koeficijent asimetrije

33

3 =σµ

α

gdje je: =3µ treći moment oko sredine

=σ standardna devijacija

� Momenti oko sredine definiraju se izrazom

( )

N

xxN

i

ri

r

1=

−=µ r = 0, 1, 2, 3, 4, …

za grupirane podatke i distribuciju frekvencija:

( )

1

1k

ii

k

i

nii

n

f

xxf

=

=

−=µ

( )0

1

1

1 =−

= =

N

xxN

ii

µ ,

( )21

2

2

σµ =−

= =

N

xxN

ii

U simetričnoj distribuciji 0=3α . U pozitivno ili negativno asimetričnim distribucijama 3α poprima vrijednosti iz intervala ± 2. b) Pearsonova mjera asimetrije

( )σ

MxS e

k

−×=

3 odnosno

( )σ

MxSk

0−=

Page 22: Statistika - Sve

22

U simetričnoj distribuciji kontinuirane varijable 0MMx e == . U pozitivno ili negativno

asimetričnim distribucijama Sk poprima vrijednosti iz intervala ± 3. c) Bowleyeva mjera asimetrije

13

31 2

QQ

MQQS e

kQ −−+

=

U simetričnim distribucijama 0231 =−+ eMQQ . U pozitivno asimetričnim distribucijama

( )eMQ −3 > ( )1QM e − , a u negativno asimetričnim ( )eMQ −3 <.( )1QM e − . Mjera kQS

poprima vrijednosti iz intervala ± 1. Primjer 5.1

U Primjeru 3.3 349228,x = ; 377527= ,M o ; 304027= ,M e ; =1Q 21,8834; =3Q 32,5317; =σ 8,9886.

Izračunajte vrijednost koeficijenta asimetrije α3 te Pearsonove i Bowleyeve mjere asimetrije.

� Navršene godine Broj osoba Razredne sredine

(prave granice) fi xi ( )3- xxf ii

15 - 20 67.170 17,5 - 85.776.213,73 20 - 25 48.482 22,5 - 9.702.126,49 25 - 30 119.819 27,5 - 73.372,77 30 - 40 82.263 35 24.200.751,60 40 - 50 10.604 45 48.952.636,72

50 - (65) 13.392 57,5 331.739.723,11

Ukupno 341.730 309.341.398,43

Treći moment oko sredine je:

( )

==−

=

=

=

341730

43309341398

6

1

6

1

3

3

,

f

xxf

ii

iii

µ 905,22166

Koeficijent asimetrije je: =98868

22166905== 33

33 ,

,

σµ

α 1,2465.

Distribucija je pozitivno simetrična (α3 > 0). Vrijednost Pearsonove mjere asimetrije je

Page 23: Statistika - Sve

23

( ) ( ) =−×=−

=98868

30402734922833

,

,,

σ

MxS e

k 1,2465

Distribucija je srednje pozitivno asimetrična (0 < Sk < 3) Vrijednost Bowleyeve mjere asimetrije je:

=−

×−+=−

−+=

883421531732

30402725317328834212

13

31

,,

,,,

QQ

MQQS e

kQ -0,0181

Raspored središnjih 50% podataka je blago negativno asimetričan( )eMQ −3 <.( )1QM e − .

� Koeficijent asimetrije pruža najvjerniju sliku o asimetriji. Izravna usporedba stupnja asimetrije mjerena izračunanim pokazateljima nije moguća jer se oni temelje na različitim principima.

5.2. Mjera zaobljenosti (zaobljenost modalnog vrha, kurtoza) Koeficijent zaobljenosti

44

4= σµ

α

Kod normalne distribucije α4 = 3. Ako vrh šiljatiji nego kod normalne distribucije α4 > 3. Kod tupog oblika distribucije α4 poprima vrijednosti između 1,8 i 3, dok je kod U-distribucije α4 < 1,8. Primjer 5.1

U Primjeru 3.3 ( 349228,x = ; =σ 8,9886) izračunajte vrijednost koeficijenta zaobljenosti.

Navršene godine Broj osoba Razredne sredine

(prave granice) fi xi ( )4- xxf ii ⋅

15 - 20 67.170 17,5 930.602.139,36 20 - 25 48.482 22,5 56.749.547,22 25 - 30 119.819 27,5 62.307,17 30 - 40 82.263 35 160.954.685,62 40 - 50 10.604 45 815.101.224,75

50 - (65) 13.392 57,5 9.670.482.801,41

Ukupno 341.730 11.633.952.705,52

Page 24: Statistika - Sve

24

Četvrti moment oko sredine je:

( )==

−=

=

=

341730

5251163395270

6

1

6

1

4

4

,

f

xxf

ii

iii

µ 34.044,2826

Koeficijent zakrivljenosti je: =98868

282634044== 44

44 ,

,

σµ

α 5,2152

Distribucija je šiljatija od normalne (α4 > 3).

Vježbe 1. Za sljedeći numerički niz:

72, 65, 89, 56, 74, 45, 23, 65, 53, 89, 78, 84, 98, 24, 31, 63, 45, 32, 31, 23

a) Odredite vrijednost koeficijenta asimetrije 3α , Pearsonove i Bowleyeve mjere ovog niza b) Nacrtajte dijagram s točkama i na njemu naznačite položaj aritmetičke sredine. c) Nacrtajte B-W dijagram. 2. Zadana je sljedeća distribucija frekvencija

Granice razreda Frekvencije 15 - 20 96 20 - 25 272 25 -35 504 35 - 45 483 45 - 55 175 55 - 65 38

a) Kolika je vrijednost koeficijenta zaobljenosti distribucije? b) Izračunajte vrijednost koeficijenta asimetrije, Pearsonove i Bowleyeve mjere asimetrije c) Koliki je koeficijent varijacije i interkvartil? d) Prikažite distribuciju poligonom frekvencija i označite položaj aritmetičke sredine,

medijana i moda.

Page 25: Statistika - Sve

25

6. OSNOVNI POJMOVI VJEROJATNOSTI

6.1. Definicije vjerojatnosti Slučajni pokus je proces (postupak mjerenja, opažanja) čiji rezultat ovisi o slučajnosti i ne može se unaprijed predvidjeti. Primjerice bacanje kocke može se shvatiti kao izvođenje slučajnog pokusa (uvjeti: kocka je pravilna, bacanje se može ponavljati, postoji više rezultata, rezultati su neizvjesni). Rezultat pokusa naziva se ishodom (npr. kod jednokratnog bacanja kocke dobiven je broj 4). Prostor događaja S je skup od svih mogućih ishoda pokusa. Za pravilnu kocku prostor elementarnih događaja je {1, 2, 3, 4, 5, 6}.

Slučajni događaj ili slučajni uzorak je podskup prostora događaja. Primjerice prostor slučajnog događaja da se pri bacanju kocke dobije neparni broj je podskup {1,3,5}. Određivanje vjerojatnosti nastupa slučajnih događaja temelji se na klasičnoj i statističkoj definiciji. Klasična definicija polazi od pretpostavke da slučajni pokus ima konačan broj jednako mogućih ishoda. Vjerojatnost nastupa događaja A jednaka je omjeru broja za njega povoljnih ishoda m i ukupnog broja ishoda n, tj,

( )n

mAP =

Tako računana vjerojatnost naziva se i vjerojatnost a priori jer je unaprijed poznat broj svih povoljnih ishoda i ukupno mogućih. Statistička vjerojatnost (vjerojatnost a posteriori) je granična vrijednost relativne frekvencije povoljnog ishoda događaja A ako se broj ponavljanja pokusa izvedenih u istim uvjetima povećava u beskonačnost, tj.

( )n

mAP

x lim=∞→

gdje je: m = broj povoljnih ishoda u pokušajima n = ukupan broj pokušaja

Page 26: Statistika - Sve

26

S

S

S

A

S

A A'

a) Vennovi dijagrami Siguran događaj obuhvaća sve događaje. Vjerojatnost sigurnog događaja je: P(S) = 1 Događaj A je nemoguć ako je A=∅ (prazan skup). Vjerojatnost nemogućeg događaja je: P(∅∅∅∅) = 0

Slučajni događaj A predstavljen je krugom. Vjerojatnost događaja A je: 0 ≤ P(A) ≤ 1 Komplement slučajnog događaja A jest događaj A' koji sadrži sve elemente prostora uzoraka S koji ne čine događaj A. Vjerojatnost da neće nastupiti događaj A je :

P(A') = 1 −−−− P(A) Ako su slučajni događaji A i B definirani na skupu S, tada je njihova unija (A ∪ B) događaj koji nastane ako nastane događaj A, ili događaj B, ili oba. Istodobni nastanak događaja A i B jest je događaj A ∩ B, a tvore ga elementi njihova presjeka.

Page 27: Statistika - Sve

27

S

A B

Međusobno isključivi događaji u jednom izvođenju pokusa ne mogu nastati istovremeno. Vjerojatnost da će nastupiti događaj A ili događaj B je: P(A ∪∪∪∪ B) = P(A) + P(B) Za događaje koji se međusobno ne isključuju vjerojatnost nastupa barem jednog od njih je: P(A ∪∪∪∪ B) = P(A) + P(B) −−−− P(A ∩∩∩∩ B)

Događaji su neovisni ako u jednom pokusu mogu nastati istodobno. Vjerojatnost da će nastupiti događaj A i događaj B je: P(A ∩∩∩∩ B) = P(A) × P(B) Primjer 6.1

Prostor događaja S su brojevi od 1 do 20. Slučajni pokus: iz skupa S bira se jedan broj. Kolika je vjerojatnost da je to: a) paran broj, b) broj djeljiv sa 3. Vjerojatnosti prikažite pomoću Vennovog dijagrama

� A = {parni brojevi} B = {brojevi djeljivi sa 3}. A∩B = {parni brojevi i brojevi djeljivi sa 3} A∪B = {parni brojevi ili brojevi djeljivi sa 3}

Page 28: Statistika - Sve

28

( ) 50=20

10= ,AP

( ) 30=20

6= ,BP

( ) ( ) ( ) 150=20

3=×=∩ ,BPAPBAP

( ) ( ) ( ) ( ) 6501503050P ,,,,BABPAPBAP =−+=∩−+=∪

Vjerojatnost dobivanja broja koji nije paran i nije djeljiv sa 3 je: ( ) 35065011 ,,BAP =−=∪−

b) Stabla vjerojatnosti Stabla vjerojatnosti su dijagrami koji po granama pokazuju različite razine vjerojatnosti. Događaji se zapisuju s lijeva na desno po redoslijedu pojavljivanja. Vjerojatnosti ishoda na kraju (tj. vjerojatnost da su se dogodila sva tri događaja, A i B i C) računa se na način da se pomnože vjerojatnosti ovih događaja po granama. Na bilo kojoj razini, zbroj vjerojatnosti po vertikali mora iznositi 1. C B Nije C C Nije B Nije C C B Nije C C Nije B Nije C Primjer 6.2 Košarkaški tim igra 2/5 utakmica kod kuće. Ako igraju na domaćem terenu vjerojatnost da pobijede je 0,7 a ako igraju u gostima vjerojatnost da pobijede je samo 0,5. Izračunajte vjerojatnost da će dobiti sljedeću utakmicu bez obzira gdje igraju.

Stablo vjerojatnosti izgleda ovako

A

Nije A

A i B i C se pojavljuju

Page 29: Statistika - Sve

29

Pobijediti Kod kuće Izgubiti Pobijediti U gostima Izgubiti

0,4

0,6

0,7

0,3 0,5

0,5

A i B P(B/A) B P(A ∩ B) A P(A) Nije B B Nije A Nije B

Događaj "pobijediti" je zadan: {pobijediti} = {kod kuće i pobijediti} ili {u gostima i pobijediti}

P(pobijediti) = 0,4 × 0,7 + 0,6 × 0,5 = 0,58

6.2. Uvjetna vjerojatnost Vjerojatnosti često ovise o pojavljivanju ili nepojavljivanju prethodnog događaja. Takve vjerojatnosti nazivamo uvjetnim. Pojavljivanje događaja A može utjecati da pojavljivanje događaja B bude nemoguće, manje vjerojatno, više vjerojatno ili sigurno. Primjerice, bacanjem dvije pravilne kocke zbroj dobivenih brojeva ne može biti 11 ukoliko na prvoj kocki nisu dobiveni brojevi 5 ili 6. Vjerojatnost događaja B uz uvjet da se dogodio događaj A označava se sa P(B/A), pa vjerojatnosti na desnim granama stabla vjerojatnosti mogu biti uvjetne vjerojatnosti. Množenjem vjerojatnosti po gornjim granama dobiva se: ( ) ( ) ( )BAPA/BPAP ∩=×

Ako su događaji povezani s "i" vjerojatnosti se pomnože.

Ako su događaji povezani s "ili" vjerojatnosti se zbrajaju.

Page 30: Statistika - Sve

30

0,7 P (= pobijedio) K ∩∩∩∩ P

0,4 K 0,3 I (= izgubio) 0,5 P (= pobijedio) G ∩∩∩∩ P 0,6 G 0,5 I (= izgubio)

Odatle slijedi: ( )( )

( )AP

BAPA/BP

=

Primjer 6.3 U Primjeru 6.2 košarkaški tim igra 2/5 utakmica kod kuće (K). Vjerojatnost da pobijedi na domaćem terenu je 0,7 a kad igra u gostima (G) je 0,5. Ako je prošlu utakmicu pobijedio, izračunajte vjerojatnost da je tim igrao kod kuće.

� Vjerojatnost da tim pobijedi P(P) je:

P(P) = P(K∩P) + P(G∩P) = 0.4 × 0,7 + 0,6 × 0,5 = 0,28 + 0,30 = 0,58

Uvjetna vjerojatnost da je igrao kod kuće (K) uz uvjet da je pobijedio (P) je

48280=580

280=

= ,,

,

)P(P

)PK(P)P/K(P

Ako su događaji A i B nezavisni, tada događaj B neće biti uvjetovan događajem A, stoga P(B/A) mora biti jednaka P(B)

( )( )

)B(P)A(P

)A(P)B(P

)A(P

ABPA/BP =

×=

=

Vježbe 1. Pokus se sastoji u jednom bacanju triju pravilnih novčića. Odredite sve članove prostora uzorka.

Page 31: Statistika - Sve

31

2. Zaposlenik osiguravajućeg društva namjerava tijekom dana posjetiti dva potencijalna kupca životnog osiguranja. Posjet završava ili ne završava sklapanjem ugovora o osiguranju. Može li se posjet zaposlenika smatrati slučajnim događajem? Ako je odgovor potvrdan, navedite sve članove prostora uzorka. 3. Zadan je prostor uzorka S = {3, 8, 11, 17, 25, 29}. Na tom prostoru definirani su događaji: A = {3, 17, 29} i B = {11, 17, 25}.

a) Prikažite događaj A i B Vennovim dijagramom b) Odredite vjerojatnost nastanka događaja A∪B, A∩B 4. Zadane su ove vjerojatnosti za događaje A i B: P(A) = 0,30; P(B) = 0,45; P(A∩B) =0,25.

a) Da li su događaji međusobno isključivi? b) Da li su neovisni? c) Odredite vjerojatnost događaja A∪B. 5. Žara sadrži 5 zelenih kuglica, 4 plave i 3 crvene kuglice. Kolika je vjerojatnost da se slučajno izabere:

a) jedna kuglice crvene boje b) da se ne izabere zelena kuglica c) da se izabere zelena i plava kuglica 6. Događaji A i B su međusobno isključivi, s ovim vjerojatnostima nastanka: P(A) = 0,3 P(B) = 0,2. Odredite ove vjerojatnosti: P(A'), P(B'), P(A∪B), P(A/B), P(B/A). 7. Zadane su vjerojatnosti nastanka događaja: P(A) = 0,30; P(B) = 0,75; P(A∩B) =0,25. Izračunajte vjerojatnosti nastanka ovih događaja: P(A'), P(B'), P(A∪B), P(A'∪B'), P(A/B), P(B/A). 8. Strojevi A1, A2 i A3,izrađuju isti proizvod. U ukupnoj proizvodnji prvi stroj sudjeluje sa 40%, drugi sa 35% i treći sa 25%. Stroj A1 radi približno konstantnim škartom od 2%, stroj A2 sa 3% i stroj A3 sa 4% škarta. Ako se slučajno izabere jedan proizvod, kolika je vjerojatnost da će biti neispravan? Ako je izabran neispravan proizvod, kolika je vjerojatnost da je proizveden na stroju A3? 9. Ispituje se učestalost kupnje proizvoda A tijekom jednog mjeseca. Anketirano je 1000 osoba. Grupirani podaci dani su u tabeli.

Broj nabavljenih proizvoda 0 1 2 3 4 5 6 Broj anketiranih osoba 40 100 170 310 180 150 50

Kolika je vjerojatnost da slučajno izabrani anketirani potrošač: a) ne kupuje proizvod, b) da kupuje 2 ili 3 proizvoda, c) da u tijeku mjeseca nabavi 5 i manje proizvoda?

Page 32: Statistika - Sve

32

7. TEORIJSKE DISTRIBUCIJE

7.1 Slučajna varijabla i distribucije vjerojatnosti Slučajna varijabla X numerička je funkcija koja svakim ishodu slučajnog pokusa pridružuje realan broj. Slučajna varijabla je diskretna ako poprima konačan broj vrijednosti ili prebrojivo mnogo njih. Kontinuirana slučajna varijabla poprima bilo koju vrijednost iz nekog intervala. Distribucija vjerojatnosti diskretne slučajne varijable je skup uređenih parova različitih vrijednosti te varijable i pripadajućih vjerojatnosti.

{ xi, p(xi)}, i = 1, 2, …, k

Funkcija distribucije definira se izrazom:

( ) ( )∑≤

=ixx

ii xpxF

Distribucija vjerojatnosti kontinuirane slučajne varijable opisuje razdiobu vjerojatnosti na intervalu vrijednosti varijable. Funkcija distribucije ( )xXF ≤ ili ( )xF kontinuirane slučajne varijable je oblika:

( ) ( )dxxfxFx

∫∞−

=

Očekivana vrijednost slučajne varijable definira se na sljedeći način:

( ) ( )∑

1

k

iii xpxXE

=

= , ako je varijabla X diskretna

( ) ( )∫∞

∞−

= dxxxfXE , ako je varijabla X kontinuirana

Varijanca slučajne varijable X, čija je očekivana vrijednost ( ) µ=XE , dana je izrazom:

( ) ( ) ( ) ( )∑

1

222k

iii xpµxµXEXV

=

−==−= σ , ako je varijabla X diskretna

( ) ( ) ( ) ( )dxxfµxµXEXV i∫∞

∞−

−==−= 222 σ , ako je varijabla X kontinuirana

Page 33: Statistika - Sve

33

7.2. Teorijske distribucije diskretne slučajne varijable a) Binomna distribucija Definira se u svezi s Bernoullijevim pokusima. Bernoullijev pokus ima sljedeća obilježja: (1) pokus ima dva ishoda (uspjeh, neuspjeh), (2) u svakom ponavljanju pokusa vjerojatnost ishoda uspjeh jednaka je p i ne mijenja se od pokusa do pokusa. Vjerojatnost ishoda neuspjeh jednaka je q = 1 −−−− p , (3) pokusi su neovisni. Ako je n broj ponavljanja Bernoullijeva pokusa, p vjerojatnost ishoda uspjeh, a X (slučajni) broj ishoda uspjeh, varijabla X je binomna slučajna varijabla. Slučajna varijabla X ravna se prema binomnoj distribuciji ako je njezina distribucija vjerojatnosti dana izrazom:

( ) xnxqpx

nxp -

= , x = 0, 1, 2, …, n

odnosno

( ) ( )n-xxqp

!xnx!

n!xp

−= , x = 0, 1, 2, …, n

skraćeno B(n; p). Očekivana vrijednost distribucije je ( ) npXE ==µ , a varijanca je

npq=2σ . Distribucija je simetrična (za p ≠ 0,5). S porastom n-a, binomna distribucija se približava normalnoj distribuciji. Primjer 7.1

Varijabla X ravna se po binomnoj distribuciji B(5; 0,4). a) Kako glasi funkcija vjerojatnosti i funkcija distribucije? b) Kolika je vjerojatnost da slučajna varijabla distribuirana prema funkciji pod (a) poprimi vrijednosti: x = 0; x ≤ 2; ; x ≤ 5, x > 3; 3 ≤ x ≤ 5; 3< x ≤ 5?

� a) Binomna distribucija, n = 5, p =0,4. Ona glasi: ( ) xx

xxp -56,04,0

5

= , x = 0, 1, 2, …, 5.

xi 0 1 2 3 4 5

p(xi) 0,0778 0,2592 0,3456 0,2304 0,0768 0,0102

F(xi) 0,0778 0,3370 0,6826 0,9130 0,9898 1,0000 b) p(0) = 0,0778 p(x ≤ 2) = p(0) + p(1) + p(2) = 0,6826

p(x ≤ 5) = 1 p(x > 3) = 1 – p(x ≤ 3) = 1 – 0,913 = 0,087

Page 34: Statistika - Sve

34

p(3 ≤ x ≤ 5) = p(3) + p(4) + p(5) = 0,3174 p(3< x ≤ 5) = p(4) + p(5) = 0,087 b) Poissonova distribucija Ako je p vrlo maleno, tj ako je p < 0,1 a n ≥ 50 tada se binomne vjerojatnosti mogu izračunati aproksimativno pomoću funkcije

( )!

-

x

exp

xλλ

= , λ > 0, x = 0, 1, 2, …

gdje je λ ≈ np: Σ p(x) = 1, e = baza prirodnih logaritama 2,71828… Ta teorijska distribucija zove se Poissonova distribucija. Poissonova distribucija je granični slučaj binomne distribucije. Očekivana vrijednost Poissonove distribucije je ( ) µλ ==xE , a varijanca je λσ =2 .

Standardna devijacija je µλσ == .

7.3. Teorijske distribucije kontinuirane slučajne varijable a) Normalna (Gaussova) distribucija Normalna distribucija najvažnija je statistička distribucija. Ima oblik zvona, unimodalna je, proteže se od - ∞ < x < + ∞, simetrična je pa je 0=3α , očekivana vrijednost (aritmetička sredina) jednaka je medijanu i modu, mjera je zaobljenosti 3=4α . Funkcija vjerojatnosti normalne distribucije je

( )2

2

1

2

1

−−= σ

µ

πσ

x

exf

gdje je: σ = standardna devijacija π = konstanta 3,14159 e = baza prirodnih logaritama 2,71828 µ = očekivana vrijednost S obzirom da očekivana vrijednost i standardna devijacija ovise o mjernim jedinicama varijable X, uvodi se standardizirana (jedinična) normalna distribucija. Ako je slučajna

Page 35: Statistika - Sve

35

varijabla normalno distribuirana sa sredinom µ i standardnom devijacijom σ , tada je

varijabla σ

µ−= XZ distribuirana po standardiziranoj normalnoj distribuciji:

( )2

2

1

2

1 zezf

−=

π, - ∞ < Z < + ∞,

Normalna distribucija označava se s N (µ,σ2), a standardizirana (jedinična) normalna distribucija s N (0, 1). Jedinična normalna distribucija je tabelirana. U tablici distribucije vjerojatnosti navedene su površine koje predočuju vjerojatnost da slučajna varijabla poprimi vrijednost iz intervala zZ ≤≤0 . Normalna distribucija je simetrična, pa su tablične vrijednosti dane samo za pozitivne vrijednosti varijable Z . Primjer 7.2

Slučajna varijabla X distribuirana je po normalnoj distribuciji N (0; 1). Odredite vjerojatnost da varijabla poprimi vrijednost iz intervala a) –1,774 < Z < 0 b) –2,118 < Z < 1,88 c) Z > –1,668 d) Z > 1,683 e) Z < 2,445 f) Z < –2,039 g) 1,121 < Z < 2,975

a) P(–1,774<Z<0) = P(0<Z<1,774) = 0,4619 b) P(–2,118<Z<1,88) = P (–2,188<Z<0) + P(0<Z<1,88) = 0,4829 + 0,4699 = 0,9528 c) P(Z > –1,668) = P(–1,668<Z<0) + P(Z>0) = 0,4523 + 0,5 = 0,9523

Page 36: Statistika - Sve

36

d) P(Z>1,683) = P(Z>0) – P(0<Z<1,683) = 0,5 – 0,4538 = 0,0462 e) P(Z < 2.445) = P(Z<0) + P(0<Z<2,445) = 0,5 + 0,4928 = 0,9928 f) P(Z<–2,039) = P(Z<0) − P(–2,039<Z<0) = 0,5 −0,4792 = 0,0208 g) P(1,121<Z<2,975) = P (0<Z<2,975) − P(0<Z<1,121) = 0,4985 – 0,3688 = 0,1297 Primjer 7.3

Varijabla X ravna se po normalnoj distribuciji N (33; 82). Kolika je vjerojatnost da slučajna varijabla poprimi vrijednost manju od 20.

62518

3320,

σ

µXz −=−=−=

( ) ( )625120 ,ZPXP −<=<

= P(Z<0) – P(–1,625<Z<0) = 0,5 – 0,4479 = 0,0521 P(X < 20) = 5,21%

U programskoj potpori EXCEL-a binomna distribucija i pripadajuća funkcija distribucije određuju se na temelju opcija Insert ⇒ fx function ⇒ Statistical ⇒ BINOMDIST, i to za danu vrijednost varijable x i za parametre n i p. Ako se ne utvrđuje vrijednost kumulativne frekvencije , u odgovarajuće polje upiše se false.

Page 37: Statistika - Sve

37

Vježbe 1. Neka je X varijabla čije vrijednosti predočuju broj ishoda glava pri jednom bacanju triju pravilnih novčića

a) Prikažite tabelarno distribuciju vrijednosti slučajne varijable X te pripadajuću funkciju distribucije

b) Kolika je očekivana vrijednost slučajne varijable te varijanca, standardna devijacija i koeficijent varijacije?

2. Zadana je binomna distribucija B(7; 0,5). Prikažite tabelarno njezine vrijednosti i pripadajuće vrijednosti funkcije distribucije. Odredite očekivanu vrijednost, varijancu, standardnu devijaciju, koeficijent asimetrije i koeficijent zaobljenosti distribucije. 3. Slučajna varijabla pripada normalnoj distribuciji sa sredinom 100 i standardnom devijacijom 20.

a) Izračunajte standardizirane vrijednosti z za ove vrijednosti varijable X: 90, 80, 40, 120, 140, 160, 125, 170.

b) Odredite vjerojatnosti: P(80<X<120), P(60<X<140), P(40<X<160), P(40<X<125), P(X<170).

4. Na burzi sadašnja cijena dionice tvrtke “Marina” iznosi 720 kuna. Prema predviđanjima brokera tijekom godine cijena dionice biti će normalno distribuirana varijabla sa sredinom µ = 700 kuna i standardnom devijacijom σ = 20 kuna. Pod pretpostavkom da je predviđanje točno, izračunajte vjerojatnost da za godinu dana cijena te dionice neće biti niža od sadašnje. 5. Distribucija proizvoda prema težini normalna je oblika.15,87% proizvoda ima težinu manju od 27 grama, a 2,28 % proizvoda ima težinu veću od 36 grama.

a) Kolika je aritmetička sredina distribucije, standardna devijacija i koeficijent varijacije? b) Kolika je vjerojatnost da je slučajno izabrani proizvod težak između 25,5 i 31,5 grama?

Page 38: Statistika - Sve

38

8. METODA UZORAKA Statističko istraživanje konačnih skupova s vrlo velikim brojem jedinica i beskonačnih skupova provodi se pomoću metode uzoraka. Pojava koja se želi ispitati tom metodom zove se populacija ili osnovni skup, a njezin dio koji se u tu svrhu ispituje zove se uzorak. Da bi zaključci na osnovi uzorka bili što točniji, uzorak mora biti reprezentativan. Osnovne zadaće metode uzoraka su: • procjenjivanje nepoznatih parametara • ispitivanje pretpostavki o parametrima, osobitostima jedne ili više populacija Parametar je brojčana karakteristika populacije. On je funkcija svih njezinih vrijednosti. Procjenjuje li se parametar na temelju uzorka, funkcija vrijednosti uzorka naziva se procjeniteljem. Pomoću procjenitelja i vrijednosti iz uzorka parametar se procjenjuje brojem ili intervalom. Dobivene vrijednosti nazivaju se procjenama. S obzirom na način izbora jedinica u uzorak, razlikuje se namjerni uzorak od slučajnog uzorka. U namjerni uzorak izabiru se jedinice prema odluci istraživača (anketara). Među namjerne uzorke spadaju prigodni uzorak i kvotni uzorak. Slučajni uzorak izabire se tako da svaki član populacije ima vjerojatnost izbora u uzorak veću od nule. Slučajni uzorci iz konačnih skupova mogu biti: jednostavni slučajni uzorak, stratificirani uzorak i uzorak skupina. Kad se iz populacije od N elemenata izabire uzorak od n elemenata (n < N) tako da svaki element ima jednaku vjerojatnost izbora, takav uzorak zove se jednostavni slučajni

uzorak. Izbor jedinica u uzorak iz konačnog stvarnog skupa provodi se pomoću tablica slučajnih brojeva ili pomoću odgovarajućeg računalnog programa koji generira slučajne brojeve. Ponekad se primjenjuje sistemski izbor jedinica u uzorak. U tom slučaju izračunava se korak izbora: N / n, a zatim određuje slučajni početak. Kada u statističkim skupovima postoji znatan stupanj varijabilnosti obilježja jedinica tada se umjesto jednostavnog slučajnog uzorka primjenjuje stratificirani uzorak. Postupku izbora uzorka prethodi razvrstavanje elemenata osnovnog skupa u podskupove (stratume) koji se međusobno ne preklapaju. Dobiveni stratumi imaju manji stupanj varijabilnosti nego osnovni skup. Stratificirani uzorak nastaje slučajnim izborom elemenata osnovnog skupa iz stratuma. Kod istraživanja beskonačnih skupova za primjenu metode uzoraka u njihovu ispitivanju potrebno je poznavati oblik i svojstva distribucije populacije.

Page 39: Statistika - Sve

39

Sampling-distribucija je teorijska distribucija vjerojatnosti procjenitelja parametra. Svaka sampling-distribucija izvire iz koncepta ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa. Kako je procjenitelj parametra funkcija uzorka, različiti uzorci dovode do različitih vrijednosti procjena. Prema tome, procjenitelj je varijabla koja se naziva sampling-varijablom zato što se mijenja od uzorka do uzorka. Sampling-varijabla je slučajna varijabla jer se uzorci izabiru tako da svaka jedinica, odnosno uzorak ima određenu vjerojatnost izbora. Za sampling-distribuciju je važno kakva je oblika i koja su joj statistička svojstva (očekivana vrijednost, standardna devijacija i sl.) a) Sampling-distribucija aritmetičkih sredina • Ako je slučajni uzorak veličine n izabran iz normalno distribuiranog osnovnog skupa sa sredinom µ i standardnom devijacijom σ , aritmetička sredina uzorka X slučajna je varijabla koja se ravna po normalnoj distribuciji s očekivanom vrijednosti µ i standardnom devijacijom

Xσ . Standardna devijacija sampling-distribucije sredina

još se naziva standardnom greškom sredine.

• Ako je slučajan uzorak veličine n > 30 izabran iz normalno distribuiranog osnovnog skupa sa sredinom µ i standardnom devijacijom σ, aritmetička sredina uzorka X slučajna je varijabla koja se približno ravna po normalnoj distribuciji ( )

x,XN σ

Standardizirana varijabla Xσ

µXZ

−= je slučajna varijabla raspoređena po jediničnoj

normalnoj distribuciji.

• Ako je slučajni uzorak veličine n ≤ 30 izabran iz normalno distribuiranog osnovnog

skupa a sredinom µ i standardnom devijacijom σ, varijabla Xσ

µXt

−= slučajna je

varijabla koja pripada Studentovoj (t) distribuciji s (n − 1) stupnjem slobode

� U tablici t-distribucije u predstupcu je naveden broj stupnjeva slobode od 1 do 29. Broj stupnjeva slobode (ν, df, ss) jednog pokazatelja definira se kao broj neovisnih opažanja n umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj, tj. k-ndf ==ν . U zaglavlju tablice označene su vjerojatnosti 0,1; 0,05; 0,025; 0,01 i 0,005. U brojčanom dijelu tablice nalaze se kritične vrijednosti koje će t premašiti za broj stupnjeva slobode koji se očitava u istom retku s vjerojatnošću označenom u zaglavlju za isti stupac. Primjerice, za 10 stupnjeva slobode postoji vjerojatnost 0,1 da će t premašiti 1,372. Budući da je Studentova distribucija simetrična to je ista vjerojatnost, tj. 0,1 da će t biti manje od –1,372, ili vjerojatnost je 0,8 da će se t nalaziti između –1,372 i +1,372. Isto tako za 20 stupnjeva slobode vjerojatnost je 0,95 da će se t nalaziti između ± 2,086.

Page 40: Statistika - Sve

40

b) Sampling-distribucija proporcija Sampling-distribucija proporcija p za dovoljno velik uzorak približno je normalna oblika, s očekivanom vrijednosti p i standardnom devijacijom (standardnom greškom procjene)

pσ . Procjenitelj proporcije osnovnog skupa je n/mp = . Uzorak je velik ako ispunjava

ove uvjete: 5≥np ili 5≥nq . c) Sampling-distribucija varijanci Ako slučajni uzorak potječe iz normalno distribuiranog osnovnog skupa, sampling-distribucija varijanci 2σ ima oblik χ

2- distribucije s (n − 1) stupnjem slobode.

Procjenitelj varijance osnovnog skupa je ( )∑

1

22 1

1 n

ii xX

=

−−

Očekivana vrijednost navedenog procjenitelja jednaka je varijanci osnovnog skupa.

� U tablici 2χ – distribucije (hi-kvadrat) u predstupcu je naveden broj stupnjeva slobode od 1 do 30. U zaglavlju su označene vjerojatnosti od 0,995 do 0,005. U brojčanom dijelu tablice nalaze se kritične vrijednosti koje će hi-kvadrat premašiti za broj stupnjeva slobode koji se očitava u istom retku s vjerojatnošću označenom u zaglavlju za isti stupac. Primjerice, za 10 stupnjeva slobode postoji vjerojatnost 0,1 da će hi-kvadrat premašiti 15,9871. Primjer 8.1

Numerička varijabla X broj je jednakih proizvoda koje je nabavilo četvero potrošača. Njezine su vrijednosti 2, 4, 5, 9 i one čine osnovni skup. Svaki element skupa, odnosno svaki uzorak veličine n = 2, ima jednaku vjerojatnost izbora. a) Izračunajte aritmetičku sredinu i standardnu devijaciju osnovnog skupa. b) Navedite sve moguće uzorke veličine 2 iz navedenog skupa. Pretpostavite da se izbor provodi s ponavljanjem. Za svaki uzorak izračunajte aritmetičku sredinu. Uredite vrijednosti aritmetičkih sredina uzoraka, tj. formirajte sampling-distribuciju uzoraka. c) Za dobivenu sampling-distribuciju odredite očekivanu vrijednost i standardnu devijaciju d) Čemu je jednaka očekivana vrijednost sampling-distribucije sredina?

�Provodi li se izbor uzoraka s ponavljanjem, standardna devijacija sampling-distribucije

sredina dana je izrazom nx

σσ = . Koristeći se ovim izrazom provjerite točnost izračunane

standardne devijacije sampling distribucije sredina.

Page 41: Statistika - Sve

41

Aritmetičke sredine uzoraka

ix ( )ixp

2 0,0625 3 0,1250

3,5 0,1250 4 0,0625

4,5 0,1250 5 0,0625

5,5 0,1250 6,5 0,1250 7 0,1250 9 0,0625

Vrijednosti varijable elemenata u uzorku

Aritmetičke sredine

uzoraka ix 2 , 2 2 2 , 4 3 4 , 2 3 2 , 5 3,5 5 , 2 3,5 2 , 9 5,5 9 , 2 5,5 4 , 4 4 4 , 5 4,5 5 , 4 4,5 4 , 9 6,5 9 , 4 6,5 5 , 5 5 5 , 9 7 9 , 5 7 9 , 9 9

a) ( ) 5=9+5+4+24

1=

1= ∑

1=

N

iix

( ) 564

261∑

1

22 ,µxN

N

ii ==−=

=

σ =56= ,σ 2,54951

b) mogući uzorci veličine n = 2 s ponavljanjem i njihove pripadajuće sredine: Broj mogućih uzoraka s ponavljanjem je 16. Budući da je vjerojatnost izbora svakoga slučajnog uzorka veličine n = 2 jednaka, iznosi 1/16 (= 0,0625) Sampling distribucija uzoraka je:

Page 42: Statistika - Sve

42

ix ( )ixp ( )ii xpx × ( ) ( )2-× µii xxp

2 0,0625 0,1250 0,5625 3 0,1250 0,3750 0,5000

3,5 0,1250 0,4375 0,2813 4 0,0625 0,2500 0,0625

4,5 0,1250 0,5625 0,0313 5 0,0625 0,3125 0,0000

5,5 0,1250 0,6875 0,0313 6,5 0,1250 0,8125 0,2813 7 0,1250 0,8750 0,5000 9 0,0625 0,5625 1,0000

Ukupno 1,0000 5,0000 3,2500

c) Očekivana vrijednost sampling distribucije je:

( ) ( ) µ==×=∑=

510

1i

ii xpxXE

Varijanca i standardna devijacija sampling-distribucije sredina jesu:

( )[ ] ( ) ( ) =−×=−==∑

10

1

222

iiix

xxpXE µµσ 3,25 =253= ,x

σ 1,80278

d) Standardna devijacija osnovnog skupa je =σ 2,54951

Standardna devijacija sampling distribucije sredina je: =2

549512==

,

nx

σσ 1,80278

što je u skladu s rezultatom dobivenim pomoću sampling-distribucije.

� Standardna devijacija sampling distribucije predočuje mjeru disperzije aritmetičkih sredina uzoraka u odnosu prema aritmetičkoj sredini populacije i naziva se standardnom greškom aritmetičke sredine. Standardna devijacija sampling-distribucije sredina uzoraka izabranih bez ponavljanja, dana je izrazom

1−−×=

N

nN

nx

σσ

Faktor 1−

−N

nN u izrazu za standardnu grešku procjene naziva se faktorom korekcije za

konačne osnovne skupove. Jednak je jedan za beskonačne skupove, aproksimativno je

jedan kad je f < 0,05 . Veličina f naziva se frakcijom izbora N

nf = .

Page 43: Statistika - Sve

43

Primjer 8.2

Populacija ima aritmetičku sredinu 200 i standardnu devijaciju 25. Kolika je vjerojatnost da se aritmetička sredina slučajnog uzorka od 100 elemenata nađe između: a) 195 i 205 b) 197,5 i 202,5?

� a) n = 100, Sampling-distribucija aritmetičkih sredina uzoraka je približno normalna sa

sredinom µ = 200 i standardnom greškom 52=100

25== ,

nx

σσ

( ) ( ) 9544,022205195

205195 =<<−=

−<−<−=<< ZPσ

µ

σ

µX

σ

µPXP

xxx

b) ( ) ( ) 6826,0115,2025,197

5,2025,197 =<<−=

−<−<−=<< ZPσ

µ

σ

µX

σ

µPXP

xxx

Vježbe 1. Osnovni skup sastoji se od podataka o radnom stažu devetoro zaposlenih. Njihov je rani staž izražen u godinama:

Zaposleni: A B C D E F G H I Radni staž: 10 8 7 6 5 4 4 2 2

a) Izračunajte aritmetičku sredinu i standardnu devijaciju osnovnog skupa. b) Izaberite iz osnovnog skupa bez ponavljanja sve uzorke veličine n = 2. Formirajte

sampling-distribuciju aritmetičkih sredina. Odredite očekivanu vrijednost i standardnu devijaciju (standardnu grešku) distribucije. Standardnu grešku izračunajte izravno, primjenom odgovarajuće formule.

c) Ponovite postupak (b) za n = 3 i n = 4. d) Dobivene sampling-distribucije (b) i (c) usporedite linijskim grafikonom. 2. Osnovni skup sastoji se od ovih šest vrijednosti xi: 3, 4, 5, 6, 9, 12 a) Izračunajte varijancu osnovnog skupa b) Formirajte moguće uzorke bez ponavljanja n = 3. Za svaku uzorak odredite vrijednost

varijance c) Kako glasi sampling-distribucija varijanci (svaki uzorak ima jednaku vjerojatnost izbora) d) Odredite očekivanu vrijednost sampling distribucije varijanci. Usporedite tu veličinu s

varijancom osnovnog skupa utvrđenom pod (a)

e) Korigirajte varijance uzoraka faktorom N

N

n

n 1

1

−⋅−

, a zatim izračunajte očekivanu

vrijednost sampling-distribucije varijanci.

Page 44: Statistika - Sve

44

9. PROCJENA PARAMATARA Procjenjivanje nepoznatih parametara temelji se na podacima koji tvore slučajni uzorak i na uporabi odgovarajućeg procjenitelja (estimator). Parametar se procjenjuje brojem i intervalom. Primjena procjenitelja na podacima iz uzorka dovodi do procjene (statistic, estimate). Procjenjivanje intervalom sastoji se u određivanju granica raspona varijacije u kojemu se prema nekom kriteriju očekuje da će se naći nepoznati parametar.

9.1. Procjena aritmetičke sredine Podloga za procjenjivanje aritmetičke sredine osnovnog skupa (µ ) je slučajni uzorak veličine n članova te odgovarajuća funkcija vrijednosti iz uzorka (procjenitelj). Ako je (x1, x2, …, xn) slučajni uzorak, procjenitelj aritmetičke sredine osnovnog skupa µ brojem je aritmetička sredina uzorka, tj.

xˆ =µ , ∑=

=n

iix

nx

1

1

Kad je uzorak izabran iz normalno distribuiranog osnovnog skupa s nepoznatom sredinom i nepoznatom standardnom devijacijom, sampling-distribucija sredina uzoraka ravna se po normalnoj distribuciji, tj. ( )2~

x,Nx σµ . Ako je uzorak dovoljno velik (n > 30) sampling-

distribucija sredina približno je normalna oblika. Iz svojstva normalne distribucije slijedi:

( ) ( )ασσ −=+<<− 122 xα/xα/ zxµzxP

gdje je P oznaka za vjerojatnost, x je aritmetička sredina uzorka, 2/zα je koeficijent

pouzdanosti i ovisi o razini pouzdanosti. x

σ je standardna greška procjene sredine

(standardna devijacija sampling distribucije). xα/zxL σ21 −= je donja granica intervala

pouzdanosti (povjerenja), a x/xL σα 22 z+= gornja granica intervala pouzdanosti procjene

aritmetičke sredine. Interval se tumači: s vjerojatnošću 100 ·(1–α) % očekuje se da će se između navedenih granica naći nepoznata aritmetička sredina osnovnog skupa.

Page 45: Statistika - Sve

45

αααα/2 = 0,025 0,475 0,475

Z0,025=1,96

αααα/2 = 0,025

Z0,025=-1,96 0

Procjenjuje li se aritmetička sredina samo brojem, nije moguće donijeti sud o preciznosti procjene niti zaključivati o razini pouzdanosti s kojom se ona može upotrijebiti. Preciznost procjene uočava se samo ako se primjenjuje intervalni procjenitelj. Ona se očituje, za danu razinu pouzdanosti, na udaljenosti granica (tj. na širini intervala). Što je interval procjene uži to je preciznost procjene veća. Ako je x aritmetička sredina malog slučajnog uzorka (n ≤ 30) uzorka izabranog iz normalno distribuiranog osnovnog skupa ( )2σµ ,N s nepoznatom standardnom devijacijom i nepoznatom aritmetičkom sredinom, interval pouzdanosti za aritmetičku sredinu osnovnog skupa na odabranoj razini pouzdanosti je:

( ) ( )ασµσ −=+<<− 122 xα/xα/ txtxP

Interval izvire iz oblika sampling-distribucije sredina malih uzoraka koja ima oblik Studentove distribucije. Koeficijent pouzdanosti t određuje se pomoću Studentove distribucije prema broju stupnjeva slobode (n – 1) i za vjerojatnost 2/α . Primjer 9.1

Intervalni je procjenitelj aritmetičke sredine osnovnog skupa velikim slučajnim uzorkom ( ) ( )ασµσ −=+<<− 122 xα/xα/ zxzxP .

a) Koliki je koeficijent pouzdanosti 2/zα ako ( )α−1 iznosi 0,95. Skicirajte postupak

određivanja koeficijenta. b) Uz koju se razinu pouzdanosti provodi postupak intervalne procjene aritmetičke sredine osnovnog skupa pomoću velikog uzorka, ako je koeficijent pouzdanosti 2,17.

� a) Procjena je na razini 95%. Koeficijent pouzdanosti je ( )α−1 = 0,95 ; α = 0,05; α /2 = 0,025

02502 = ,/ zzα .

Površina između 0 i z jest: 0,5 – 0,025 = 0,4750 U tablici toj površini pripada vrijednost varijable z = 1,96 pa je 961=0250 ,z , .

b) 172=2 ,z /α . Pripadajuća je površina 0,4850. Razina pouzdanosti je:

α /2 = 0,5 – 0,4850 = 0,0150; α = 0,03; ( )α−1 = 0,97 ili 97%. Primjer 9.2

Odredite vrijednosti standardne greške procjene aritmetičke sredine osnovnog skupa:

Page 46: Statistika - Sve

46

a) procjenjuje se sredina konačnog skupa od 125.768 članova pomoću slučajnog izbora veličine 1.250 članova. Standardna devijacija skupa iznosi 64. b) Procjenjuje se sredina konačnog skupa pomoću slučajnog uzorka veličine 600 formiranog izborom svakog 10. člana skupa. Varijanca skupa iznosi 100.

� a) N = 125768; n = 1250; 00990=

125768

1250== ,

N

nf

σ = 64; f < 0,05

810191=1250

64== ,

nx

σσ

b) n = 600; 10=600

=N

n

N; N = 6000; 10== ,

N

nf ; f > 0,05

100=2σ ; 10=σ .

38733016000

6006000

600

10

1,

N

nN

nx=

−−=

−−×= σσ

Primjer 9.3

Ispituje se prosječno trajanje pozivnih telefonskih razgovora preko telefonske centrale jednog poduzeća. Trajanje (u minutama) 10 slučajno odabranih razgovora iz evidencije od 8967 razgovora bilo je sljedeće:

xi: 2 1 1 2 3 4 2 1 1 3

Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom aritmetičkom sredinom i nepoznatom standardnom devijacijom. Odredite granice u kojima se može očekivati da obuhvaćaju prosječno trajanje razgovora za osnovni skup. Pouzdanost je procjene: 95% i 90%.

� N = 8967; n =10;

8967

10==

N

nf = 0,0011 f < 0,05

Aritmetička sredina uzorka: 210

201

11

=== ∑=

n

ixn

x minute

Procjenitelj varijance i standardne devijacije osnovnog skupa:

( )

9

10

1

1

2

2 =−

−= =

n

xxˆ

n

ii

σ , 3

10=

9

10=σ

Page 47: Statistika - Sve

47

Standardna greška procjene aritmetičke sredine osnovnog skupa: 3

1=

103

10

==n

ˆx

σσ

Za uzorak n ≤ 30 izabran iz normalno distribuiranog osnovnog skupa interval procjene s pouzdanosti 100·(1-α) u općem obliku je:

( ) ( )ασµσ −=+<<− 122 xα/xα/ txtxP

Koeficijent pouzdanosti t određuje se pomoću tablica t distribucije. Za pouzdanost procjene 95%:

(1-α) = 0,95; α = 0,05; α /2 = 0,025; n =10; df = 9; ( ) 2622=90250 ,t ,

95%-tni interval pouzdanosti procjene prosječnog trajanja razgovora osnovnog skupa iznosi:

95,03

1262,22

3

1262,22 =

⋅+<<⋅− µP

( ) 95075422461 ,,,P =<< µ

Za pouzdanost procjene 90% koeficijent pouzdanosti je ( ) 8331=9050 ,t , pa je interval procjene:

90,03

1833,12

3

1833,12 =

⋅+<<⋅− µP

( ) 900=6112<<3891 ,,,P µ

U programskoj potpori EXCEL-a (Tools ⇒ Data Analysis ⇒ Descriptive Statistics) dio ispisa je:

Trajanje pozivnih razgovora Mean 2 Standard Error 0,333333333 Standard Deviation 1,054092553 Sample Variance 1,111111111 Confidence Level (95,0%) 0,754052386

[Napomena: U navedenom ispisu Standard Error jest standardna greška, Standard Deviation je procjena standardne devijacije, Sample Variance je procjena varijance populacije, Confidence Level (95%) je greška procjene na razini 95% pouzdanosti (umnožak koeficijenta pouzdanosti i standardne greške procjene)] Određivanje veličine uzorka

Kod sampling-distribucije sredina ( )2~x

,Nx σµ , planirana veličina greške koja se tolerira

pri procjeni je: d =[x/z σµ α 2+ ] µ− ,

x/zd σα 2=

Page 48: Statistika - Sve

48

Ako se uzorak izabire iz beskonačnog osnovnog skupa na razini pouzdanosti 100·(1-α) % i utvrđena je greška procjene d, tada je izraz za određivanje veličine uzorka:

nzd /

σα 2= ,

2

2/

=d

zn

σα

Ako se slučajni uzorak izabire iz konačnog osnovnog skupa i frakciji izbora je manja od 5% za izračun veličine uzorka koristi se gornji izraz. Ako je frakcija zbora veća od 5% koristi se faktor korekcije, pa je veličina uzorka izračunana gornjim izrazom tek

prethodni rezultat koji se označava sa: 2

2/0

=d

zn

σα

Konačna veličina uzorka dobiva se izrazom:

N

nn

n0

0

1+= ,

9.2. Procjena totala osnovnog skupa Total T je zbroj vrijednosti numeričke varijable konačnog osnovnog skupa. Taj parametar povezan je s aritmetičkom sredinom osnovnog skupa, µ. Ako konačni skup ima N članova, tada je µNT = .

Procjenitelj totala osnovnog skupa pomoću slučajnog uzorka brojem je: xN T = . Standardna greška procjene totala osnovnog skupa je:

xTNσσ =

Intervalna procjena totala konačnog osnovnog skupa na odabranoj razini pouzdanosti je:

( ) ( )ασσ −=+<<− 122 Tα/Tα/ zTTzTP , xT

Nσσ =

9.3. Procjena proporcije osnovnog skupa Proporcija konačnog osnovnog skupa je parametar koji predočuje omjer članova skupa s određenim oblikom obilježja M i opsega skupa N, odnosno N/Mp = . Procjenitelj proporcije osnovnog skupa brojem je: n/mp =

Page 49: Statistika - Sve

49

gdje je m broj članova uzorka s određenim oblikom obilježja, a n veličina uzorka. Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne distribucije s ovim svojstvima:

E [ p ] = p, n

pqp =σ

1−=

n

qppσ

Sampling-distribucija proporcija svih uzoraka veličine n približno ima oblik normalne distribucije ako je n > 30. Očekivana vrijednost te sampling-distribucije je proporcija osnovnog skupa p, a standardna greška procjene pσ . Intervalna procjena proporcije osnovnog skupa na odabranoj razini pouzdanosti je:

( ) ( )ασσ −=+<<− 122 pα/pα/ zppzpP gdje je p procjena proporcije brojem (odnosno proporcija uzorka), 2/zα je koeficijent

pouzdanosti procjene, pσ je standardna greška procjene proporcije. Interval se tumači: s vjerojatnošću 100 ·(1-α) % očekuje se da će se proporcija osnovnog skupa naći između izračunanih granica. Granice intervala procjene proporcije osnovnog skupa pomoću dovoljno velikog uzorka izabranog iz konačnog skupa bez ponavljanja izračunavaju se na isti način kao kod procjene pomoću uzorka iz beskonačnog osnovnog skupa. Razlika se pojavljuje pri računanju standardne greške procjene proporcije. Za veliki uzorak izabran iz konačnog

osnovnog skupa uz f >0,05 standardna greška procjene proporcije je:

−−

−=

11 N

nN

n

qppσ

Primjer 9.4

Ispituje se raspoloženje birača prema kandidatu stranke. U biračkom popisu navedeno je 6000 građana. Iz popisa je slučajnim izborom izabrano 196 birača, od kojih je njih 138 izjavilo da će glasovati za kandidata stranke na predstojećim izborima. a) Procijenite proporciju osnovnog skupa brojem b) Izračunajte granice u kojima se može očekivati proporcija svih birača kandidata stranke na predstojećim izborima.razina pouzdanosti je 90%.

� a) n =196, m =138 704080=

196

138== ,

n

mp

Procjena proporcije birača u osnovnom skupu za kandidata stranke iznosi 0,70408, tj. 70,4%.

Page 50: Statistika - Sve

50

b) Interval pouzdanosti procjene proporcije osnovnog skupa:

( ) ( )ασσ −=+<<− 122 pα/pα/ zppzpP

Osnovni skup je konačan (N = 6000), frakcija odabira je 032670=6000

196== ,

N

nf < 0,05

Razina pouzdanosti je 90%, koeficijent pouzdanosti 641=050 ,z , i standardna greška procjene

proporcije je 0326901196

295920704080

1,

,,

n

qpp =

−×=

−=σ

Interval procjene je: ( ) 900032690641704080032690,641,704080 ,,,,p,P =×+<<×−

( ) 900=757690<<650470 ,,p,P

Zaključak: na razini pouzdanosti od 90% može se očekivati da će za navedenog kandidata glasovati između 65,05% i 75,77% biračkog tijela. Određivanje veličine uzorka Kod sampling-distribucije proporcija ( )2

p,N~p σµ , planirana veličina greške koja se

tolerira pri procjeni je: d = [ p/zp σα 2+ ] p− , p/zd σα 2=

Ako se uzorak izabire iz beskonačnog osnovnog skupa na razini pouzdanosti 100·(1-α) % i utvrđena je greška procjene d, tada je izraz za određivanje veličine uzorka:

n

pqzd / 2= α ,

2

2/

=

d

pqzn α

Ako se slučajni uzorak izabire iz konačnog osnovnog skupa i frakciji izbora je manja od 5% za izračun veličine uzorka koristi se gornji izraz. Ako je frakcija zbora veća od 5% koristi se faktor korekcije, pa je veličina uzorka izračunana gornjim izrazom tek

prethodni rezultat 0n . Konačna veličina uzorka dobiva se izrazom:

N

nn

n0

0

1+=

9.4. Procjena varijance (standardne devijacije) osnovnog skupa Varijanca, odnosno standardna devijacija najvažnija je mjera disperzije. Ona upućuje na stupanj varijabilnosti numeričke varijable. Ako su na raspolaganju vrijednosti numeričke varijable iz uzorka, varijanca osnovnog skupa procjenjuje se brojem ili intervalom.

Page 51: Statistika - Sve

51

Nepristrani procjenitelj varijance osnovnog skupa brojem pomoću vrijednosti iz slučajnog uzorka dan je izrazom:

( )

11

2

2

−=∑

=

n

xxˆ

n

ii

σ

Ako su podaci iz uzorka grupirani, vrijednosti xi ponderiraju se frekvencijama fi.

Procjenitelj standardne devijacije brojem je: 2= σσ ˆˆ Sampling-distribucija varijanci ima oblik 2χ -distribucije. Intervalna procjena varijance osnovnog skupa na odabranoj razini pouzdanosti :

( ) ( )( )

( )αχ

σσχ

σαα

−=

−<<−

−−−

1ˆ1ˆ1

21;2/1

22

21;2/

2

nn

nnP

a intervalna procjena standardne devijacije:

( ) ( )( )

( )αχ

σσ

χσ

αα

−=

⋅−<<

⋅−

−−−

1ˆ1ˆ1

21;2/1

21;2/ nn

nnP

Kod velikih uzoraka gdje je n ≥ 100, sampling distribucija varijanci približno je normalna oblika, pa se granice intervala mogu definirati pomoću te distribucije.

Vježbe 1. Odredite vrijednost koeficijenta pouzdanosti za intervalnu procjenu aritmetičke sredine osnovnog skupa pomoću velikog uzorka i ove razine pouzdanosti:

(1-α) 0,80 0,90 0,94 0,96 0,98 0,99 2. Izračunajte vrijednost standardne greške procjene aritmetičke sredine osnovnog skupa ako su zadani ovi uvjeti: a) Uzorak 64 člana bira se iz konačnog osnovnog skupa od 1000 članova sa standardnom

devijacijom 9. b) Standardna devijacija osnovnog skupa iznosi 10, izabire se uzorak 20 članova uz interval

izbora 250. c) Uzorak veličine n = 100 izabire se iz normalno distribuiranog beskonačnog osnovnog

skupa ( )210,N µ .

Page 52: Statistika - Sve

52

3. Brodarska tvrtka ispituje učestalost otkaza rezervacija na cruiser-ima. Na slučajan način izabrano je 36 dana jednog razdoblja: Na temelju informacija u računalnom sustavu tvrtke utvrđen je broj otkaza rezervacija u danima izabranim u uzorak. Podaci iz uzorka su sljedeći:

Broj otkaza, xi 0 1 2 3 4 5 6 Broj dana, fi 6 11 7 5 3 2 2

a) Procijenite brojem prosječan broj otkaza rezervacija na cruiser-ima b) Odredite granice 95%-tnog intervala procjene aritmetičke sredine. 4. Ispituje se prosječna vrijednost mjesečnih računa korisnika kartice lanca supermarketa. Pomoću odgovarajućeg programa za računalo izabran je slučajni uzorak računa ispostavljenih za listopad 2011. Na temelju podataka iz uzorka formirana je ova distribucija frekvencija:

Vrijednost (u kn) 100-150 150-200 200-250 250-500 500-1000 Broj računa 69 37 40 32 18

a) Izračunajte aritmetičku sredinu uzorka. b) Odredite granice 95%-tnog intervala procjene aritmetičke sredine skupa. 5. Kolika je procjena proporcije osnovnog skupa brojem i koje su granice intervala procjene proporcije osnovnog skupa ako su zadane ove veličine: a) n = 2500; p = 0,4; (1−α) = 0,94; osnovni skup beskonačan

b) n = 1341; p = 0,65; (1−α) = 0,94; N = 16431

c) n = 864; p = 0,4; (1−α) = 0,95; f < 0,05 6. U slučajnom uzorku 300 vozača na cesti prvog reda između dva grada ustanovljeno je da njih 175 neispravno upotrebljava svjetla u tijeku noćne vožnje. a) Kolika je procjena proporcije vozača koji se neispravno koriste svjetlima u tijeku noćne

vožnje između dva grada? b) Odredite granice pripadajućeg intervala procjene proporcije osnovnog skupa. Razina je

pouzdanosti 90%. 7. Kolika je vrijednost procjene standardne devijacije i koje su granice intervala procjene standardne devijacije osnovnog skupa za ove slučajeve: a) n = 29; (1−α) = 0,95; σ = 35,75 b) n = 20; (1−α) = 0,99; σ = 260,6 8. U slučajni uzorak izabrana su 64 studenta. Izmjerena je njihova visina. Prosječno odstupanje od prosječne visine studenata u uzorku iznosi 2,5 cm. Odredite granice 95%-tnog intervala procjene standardne devijacije osnovnog skupa. Koje bi granice bile kad bi uzorak bio veličine 25?

Page 53: Statistika - Sve

53

10. TESTIRANJE HIPOTEZA O PARAMATARU Statistička hipoteza je tvrdnja o veličini parametra čija se vjerodostojnost ispituje pomoću slučajnog uzorka. Postupak kojim se donosi odluka o prihvaćanju ili neprihvaćanju tvrdnje naziva se testiranjem statističkih hipoteza. Svaki postupak testiranja polazi od nulte hipoteze i alternativne hipoteze. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte hipoteze. Odluka o prihvaćanju ili neprihvaćanju nulte hipoteze donosi se na temelju vrijednosti iz slučajnog uzorka pa sud koji proizlazi iz nje nije kategoričan. U postupku odlučivanja mogu se pojaviti: greška tipa I (kada se odbaci istinita nulta hipoteza) i greška tipa II (kada se prihvati lažna nulta hipoteza).

Nulta hipoteza je Odluka

istinita

lažna

Prihvatiti nultu hipotezu

odluka ispravna

greška tipa II

Odbaciti nultu hipotezu

greška tipa I

odluka ispravna Vjerojatnost odbacivanja istinite nulte hipoteze (greška tipa I) označava se s αααα i naziva se razinom signifikantnosti (značajnosti). Vjerojatnost prihvaćanja lažna nulte hipoteze (greška tipa II) označava se s ββββ. Vjerojatnost odbacivanja lažne nulte hipoteze (1 − β ) naziva se snagom statističkog testa.

10.1. Testiranje hipoteze o aritmetičkoj sredini osnovnog skupa Testiranje hipoteze o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa provodi se pomoću slučajnog uzorka veličine n članova. Ako je uzorak velik (n > 30) test je pomoću velikog uzorka (z –test). Kad je uzorak malen (n ≤ 30) test je pomoću malog uzorka (t-test). Postupak testiranja je :

• određivanje sadržaja nulte i alternativne hipoteze • identificiranje izraza za testnu veličinu i izračunavanje njezine vrijednosti • odabir razine signifikantnosti i određivanje kritičnih granica (granice) koje dijele područje prihvaćanja nulte hipoteze od područja njezina odbacivanja • donošenje zaključka o ishodu testa.

Page 54: Statistika - Sve

54

Test o aritmetičkoj sredini osnovnog skupa može biti dvosmjeran (na dvije granice) ili jednosmjeran (na gornju ili na donju granicu). Temelj testa je sampling-distribucija sredina. Ako je nulta hipoteza istinita i ako uzorak ima više od 30 članova, sampling-distribucija sredina uzoraka približno je oblika normalne distribucije, tj. ( )2~

x,Nx σµ ,

bez obzira kako je raspoređen osnovni skup. Nepoznata je aritmetička sredina osnovnog skupa µ , a njezina je pretpostavljena veličina 0µ .

Vrsta testa Nulta

hipoteza Alternativna

hipoteza Područje prihvaćanja

nulte hipoteze Područje odbacivanja

nulte hipoteze

dvosmjeran

00 µµ =KH

01 µµ ≠KH

| z| 2< /zα

| z| 2> /zα

jednosmjeran, na gornju granicu

00 µµ ≤KH

01 µµ >KH

αzz <

αzz >

jednosmjeran, na donju granicu

00 µµ ≥KH

01 µµ <KH

αzz −>

αzz −<

Test-veličina je empirijski z-omjer:

x

xz

σµ0−

=

gdje je x aritmetička sredina uzorka, 0µ je pretpostavljena vrijednost aritmetičke

sredine osnovnog skupa, x

σ je standardna greška (tj. standardna devijacija sampling-

distribucije sredina). Odluka o prihvaćanju ili odbacivanju nulte hipoteze donosi se usporedbom test-veličine z s teorijskom vrijednošću koeficijenta signifikantnosti, koji ovisi o vjerojatnosti α a određuje se pomoću površina ispod normalne krivulje. Odluka se donosi alternativno pomoću kritičnih granica izraženih u mjernim jedinicama varijable. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su:

xα/zc σµ 201 −= , x/zc σµ α 202 +=

Nađe li se aritmetička sredina uzorka između navedenih granica, prihvatit će se nulta hipoteza. Ako je aritmetička sredina uzorka manja od donje ili veća od gornje kritične granice, odbacuje se nulta hipoteza na razini signifikantnosti α.. Kod jednosmjernog testa na gornju granicu (test na desnoj strani) kritična granica je

xzc σµ α+= 02 . Nulta hipoteza se prihvaća kao istinita ako je aritmetička sredina uzorka

manja od kritične vrijednosti, a odbacuje se ako je veća od te granice. Odluka o jednosmjernom testu na donju granicu (test na lijevoj strani) donosi se pomoću granice

xzc σµ α−= 01 . Aritmetička sredina uzorka veća od donje granice upućuje na prihvaćanje

Page 55: Statistika - Sve

55

nulte hipoteze, a vrijednost sredine manja od donje kritične granice na njezino odbacivanje. Kad se testiranje hipoteze o pretpostavljenoj aritmetičkoj sredini osnovnog skupa temelji na Studentovoj distribuciji kao sampling-distribuciji sredina, test veličina je empirijski t-omjer:

x

xt

σµ0−

=

Ako je nulta hipoteza istinita, test-veličina pripada Studentovoj (t) distribuciji s (n − 1) stupnjem slobode. Oblici hipoteza i način odlučivanja prikazani su u tabeli.

Vrsta testa Nulta

hipoteza Alternativna

hipoteza Područje prihvaćanja

nulte hipoteze Područje odbacivanja

nulte hipoteze

dvosmjeran

00 µµ =KH

01 µµ ≠KH

| t| 2< /tα

| t| 2> /tα

jednosmjeran, na gornju granicu

00 µµ ≤KH

01 µµ >KH

αtt <

αtt >

jednosmjeran, na donju granicu

00 µµ ≥KH

01 µµ <KH

αtt >

αtt <

Primjer 10.1

Odredite koeficijent signifikantnosti za test o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa pomoću slučajnog uzorka ako je: a) test dvosmjeran, n = 231, α = 0,01; 0,05 i 0,10 b) test jednosmjeran, n = 852, α = 0,05 c) test je dvosmjeran, uzorak 24 člana izabran je iz normalno distribuiranog osnovnog skupa s nepoznatom standardnom devijacijom, razina signifikantnosti 5%. Kolika bi bila vrijednost koeficijenta ako bi test bio jednosmjeran?

� a) 30>n α = 0,01 58,2005,02/ == zzα

α = 0,05 96,1025,02/ == zzα

α = 0,10 65,105,02/ == zzα

b) α = 0,05 na desnom kraku: 651== 050 ,zz ,α ili na lijevom kraku: 651050 ,z , −=−

c) α = 0,05; 30<n (t-distribucija) df = n − 1 = 24 − 1 = 23 0692== 02502 ,tt ,/α

Za jednosmjeran test: 05,0tt =α df = 23 714,105,0 =t 714,105,0 −=− t

Primjer 10.2

Zadani su ovi uvjeti za provođenje testova o pretpostavljenoj sredini osnovnog skupa:

Page 56: Statistika - Sve

56

a) 00 = µµKH ; 01 ≠µµKH ; 500=0µ ; 49=σ ; 441=n ; osnovni skup beskonačan;

050= ,α b) 00 ≤µµKH ; 01 > µµKH ; 2000=0µ ; 196=σ ; 784=n ; 050< ,f ; 050= ,α

c) 00 ≥µµKH ; 01 < µµKH ; 1500=0µ ; 164=σ ; 820=n ; 100= ,f ; 010= ,α

d) 00 ≤µµKH ; 01 > µµKH ; 50=0µ ; 252 =σ ; 26=n ; 050< ,f ; 050= ,α Za svaki od navedenih slučajeva odredite (standardiziranu) kritičnu vrijednost i vrijednosti granica koje dijele područje prihvaćanja od područja odbacivanja nulte hipoteze

� a) dvosmjeran, 30>n ; 961±=±=± 02502 ,zz ,/α ;

42667495441

4996150020201 ,,

nzµzc α/xα/ =×−=×−=−= σσµ

57333504441

4996150020202 ,,

nzµzc α/xα/ =×+=+=+= σσµ

b) jednosmjeran, n > 30; 651== 050 ,zz ,α

552011=784

196×651+2000=×+=+= 002 ,,

n

ˆzzc

x

σµσµ αα

c) jednosmjeran, n > 30; 332010 ,zz ,α −=−=− ; 100== ,N

nf 8200=

10

820=

,N

33980148718200

8208200

820

1643321500

1001 ,,N

nN

nzµzc αxα =

−−××−=

−−××−=−= σσµ

d) jednosmjeran, n < 30; 7081== 050 ,tt ,α ; df =25 5=25== 2σσ ˆˆ

67483,5126

5708150

ˆ002 =×+=×+=+= ,

nttc

x

σµσµ αα

Primjer 10.3

Prema standardu, prosječna trajnost žarulja od 75 W iznosi 2000 sati s prosječnim odstupanjem 250 sati. Iz serije žarulja izabran je (f < 0,05) slučajni uzorak 64 žarulje. Ispitivanjem je ustanovljeno da je prosječna trajnost žarulja u uzorku 1935 sati. Može li se prihvatiti pretpostavka da je uzorak izabran iz osnovnog skupa kojemu je aritmetička sredina prema standardu? Testirajte na razini signifikantnosti 5%.

� Hipoteze glase: 2000=0 µKH ; 0002≠1 µKH

Test veličina (empirijski z-omjer): 082

64

2502000193500 ,

n

xxz

x

−=−=−

=−

= σµ

σµ

Page 57: Statistika - Sve

57

Razina signifikantnosti: α = 0,05. Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: 22 << // zzz- αα ,

961== 02502 ,zz ,/α 961961 ,z, <<−

Odluka: empirijski z omjer manji je od teorijske (kritične) vrijednosti, tj. 961082 ,, −<− pa se na danoj razini signifikantnosti odbacuje 0H . Prema tome, ne prihvaća se pretpostavka da je

uzorak izabran iz skupa žarulja s prosječnom trajnošću 2000 sati. Oduka se alternativno donosi pomoću kritičnih granica:

75193864

250961200020201 ,,

nzµzc α/xα/ =×−=×−=−= σσµ sati

25206164

250961200020202 ,,

nzzc /x/ =×+=+=+= σµσµ αα sati

Kako je aritmetička sredina uzorka manja 1935=x sati manja od donje kritične granice, ne prihvaća se 0H .

Primjer 10.4

Radi povećanja proizvodnosti rada jedne vrste automatskih strojeva predložena je njihova preinaka. Prema proračunima, preinaka je poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120. Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosječan broj operacija po satu u provedenom ispitivanju iznosio je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2307600. Do kojeg se zaključka dolazi na temelju provedenog ispitivanja. Vjerojatnost odbacivanja istinite nulte hipoteze iznosi 5%.

� n = 144 125=x ,

Page 58: Statistika - Sve

58

( )0698120

143

1251442307600

11

21

22

1

2∑∑

,n

xnx

n

xx

ˆ

n

ii

n

ii

=×−=−

−=

−= ==σ

672481=144

0698120== ,

,

n

ˆx

σσ

Hipoteze glase: 120≤0 µKH , 120>1 µKH

Test veličina (empirijski z-omjer): 992672481

1201250 ,,σ

µxz

x

=−=−

=

Razina signifikantnosti: 050= ,α Test je jednosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: αzz <

651=050 ,z , 651< ,z

Odluka: empirijski z-omjer veći je od teorijske (kritične) vrijednosti, tj. 2,99>1,65. Odbacuje se 0H na danoj razini signifikantnosti.

Alternativno do zaključka se dolazi pomoću kritične granice: 76122=672481×651+120=+= 02 ,,,zc

xσµ α

Aritmetička sredina uzorka je 125 i veća je od gornje granice, pa se ne prihvaća H0. Odstupanje aritmetičke sredine uzorka naviše je značajno pa se prihvaća pretpostavka da je preinaka strojeva gospodarski opravdana. Teorijska razina signifikantnosti predočuje odabranu vjerojatnost odbacivanja istinite nulte hipoteze. Empirijska razina signifikantnosti (p–vrijednost) jest vjerojatnost odbacivanja istinite nulte hipoteze izračunana pomoću podataka iz uzorka. U postupku donošenja odluke u testu p-vrijednost rabi se ovako: • ako je p-vrijednost veća od α , prihvaća se nulta hipoteza • ako je p-vrijednost manja od α , prihvaća se alternativna hipoteza.

Page 59: Statistika - Sve

59

10.2. Testiranje hipoteze o proporciji osnovnog skupa Postupak testiranja hipoteze o pretpostavljenoj vrijednosti proporcije osnovnog skupa pomoću velikog uzorka provodi se u koracima koji su svojstveni svakom statističkom testu.

Test o proporciji osnovnog skupa je dvosmjeran (na dvije granice) ili jednosmjeran (na gornju, odnosno gornju granicu). Temelj testa je sampling-distribucija proporcija. Ako je nulta hipoteza istinita i ako je uzorak dovoljno velik, sampling distribucija približno je oblika normalne distribucije, tj. ( )2

0 p,pN~p sσ . Nepoznata je proporcija osnovnog skupa

p, a njena pretpostavljena veličina 0p .

Vrsta testa Nulta

hipoteza Alternativna

hipoteza Područje prihvaćanja

nulte hipoteze Područje odbacivanja

nulte hipoteze

dvosmjeran

00 = ppH K

01 ≠ppH K

| z| 2< /zα

| z| 2> /zα

jednosmjeran, na gornju granicu

00 ≤ppH K

01 > ppH K

αzz <

αzz >

jednosmjeran, na donju granicu

00 ≥ppH K

01 < ppH K

αzz −>

αzz −<

Test-veličina je empirijski z-omjer:

p

ppz

σ0−

=

gdje je p proporcija uzorka, 0p je pretpostavljena vrijednost proporcije osnovnog

skupa, pσ je standardna greška (standardna devijacija sampling-distribucije proporcija).

Standardna greška proporcije računa se polazeći od nulte hipoteze kao istinite. Odluka o prihvaćanju ili odbacivanju nulte hipoteze donosi se usporedbom test-veličine z s teorijskom vrijednosti koeficijenta signifikantnosti, koji ovisi o vjerojatnosti α a određuje se pomoću površina ispod normalne krivulje. Odluka o testu donosi se alternativno pomoću kritičnih granica. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su:

p/zpc sσα 201 −= , p/zpc σα 202 +=

Test veličina je proporcija uzorka p . Nađe li se proporcija uzorka između navedenih granica, prihvatit će se nulta hipoteza. Ako je proporcija uzorka manja od donje ili veća od gornje kritične granice, odbacuje se nulta hipoteza na razini signifikantnosti α.

Page 60: Statistika - Sve

60

Kod jednosmjernog testa na gornju granicu (test na desnoj strani) kritična granica je

pzpc σα+= 02 . Nulta hipoteza se prihvaća kao istinita ako je proporcija uzorka manja

od kritične vrijednosti, a odbacuje se ako je veća od te granice. Odluka o jednosmjernom

testu na donju granicu (test na lijevoj strani) donosi se pomoću granice pzpc σα−= 01 .

Proporcija uzorka veća od donje granice upućuje na prihvaćanje nulte hipoteze, a vrijednost proporcije manja od donje kritične granice na njezino odbacivanje. Primjer 10.5

a) Proporcija slučajnog uzorka 400 članova izabranoga iz beskonačnog osnovnog skupa iznosi 0,49215. Može li se prihvatiti pretpostavka da uzorak potječe iz osnovnog skupa s proporcijom 0,51? Testira se na razini signifikantnosti 5%.

b) Testira se nulta hipoteza da je proporcija osnovnog skupa jednaka 0,7 a pripadajuća alternativna hipoteza sadrži tvrdnju da je proporcija veća od 0,7. Proporcija slučajnog uzorka veličine 676 članova jest 0,72. Uzorak je izabran iz osnovnog skupa opsega 11265 članova. Do koje se odluka dolazi provedbom testa? Razina signifikantnosti je 5%.

a) n = 400, 510=0 ,p 492150= ,p

Hipoteze glase: 510=0 ,pH K 510≠1 ,pH K

Test veličina (empirijski z-omjer): p

ppz

σ0−

=

00 1 pq −= , ( )

024990400

510151000 ,,,

n

qpp =−×==sσ

710024990

510492150,

,

,,z −=−=

Razina signifikantnosti: 050= ,α . Test je dvosmjeran, kritične vrijednosti za prihvaćanje nulte hipoteze su: 22 // zzz αα <<− ,

961== 02502 ,zz ,/α 961961 ,z, <<−

Odluka: empirijski z-omjer veći je od donje, a manji od gornje teorijske (kritične) vrijednosti, tj. –1,96 < –0,71< 1,96. Prihvaća se 0H na danoj razini signifikantnosti. Prema tome prihvaća se pretpostavka da je uzorak izabran iz skupa s proporcijom 0,51.

Odluka se alternativno donosi pomoću ovih kritičnih granica: 461010024990961510201 ,,,,zpc pα/ =×−=−= σ

558990=024990×961+510=+=202 ,,,,zpc p/σα

Page 61: Statistika - Sve

61

Proporcija uzorka 492150= ,p nalazi se između gornje i donje granice prihvaćanja 0H , pa se

prihvaća nulta hipoteza. b) n = 676, N = 11265 f = n / N = 676/11265 = 0,06 f > 0,05

700=0 ,p 720= ,p

Hipoteze glase: 700≤0 ,pH K , 700>1 ,pH K

Test veličina (empirijski z-omjer): p

ppz

σ0−

=

00 1 pq −= , 017090111265

67611265

676

300700

100 ,

,,

N

nN

n

qpp =

−−××=

−−×=sσ

171017090

700720,

,

,,z =−=

Razina signifikantnosti: 050= ,α . Test je jednosmjeran, kritično područje za prihvaćanje nulte hipoteze su: αzz < ,

651== 050 ,zz ,α 651< ,z

Odluka: empirijski z-omjer manji je od gornje teorijske (kritične) vrijednosti, tj. 1,17<1,65 pa se prihvaća 0H na danoj razini signifikantnosti. Prema tome prihvaća se pretpostavka da je uzorak izabran iz skupa s proporcijom 0,70.

Odluka se alternativno donosi pomoću ovih kritičnih granica: 72820,001709,065,170,0ˆ2/02 =×+=+= pzpc σα

Proporcija uzorka 720= ,p manja je od gornje granice prihvaćanja nulte hipoteze, pa se prihvaća nulta hipoteza.

Vježbe 1. Slučajan uzorak ima 27 jedinica i izabran je iz normalno distribuiranog osnovnog skupa s pretpostavljenom sredinom 50 i nepoznatom standardnom devijacijom. Na temelju

vrijednosti iz uzorka dobivene su ove veličine: 1296=∑

27

1=iix , 64808=∑

27

1=

2

iix .

a) Kako glase hipoteze za dvosmjerni test o pretpostavljenoj sredini osnovnog skupa? Provedite test na razini signifikantnosti 4%. Skicirajte postupak.

b) Kako glase hipoteze za jednosmjerni test o pretpostavljenoj sredini na donju granicu (na lijevu stranu). Provedite test. Razina signifikantnosti je 4%. Skicirajte postupak.

Page 62: Statistika - Sve

62

Odluku donesite najprije na temelju standardizirane test veličine, a zatim korištenjem kritičnih granica. 2. U tijeku pokusne proizvodnje stroj proizvodi prosječno 625 proizvoda po smjeni, s prosječnim odstupanjem 30 proizvoda. Mjerenje rada stroja provedeno je za 45 smjena. Potvrđuje li pokusna proizvodnja navod dobavljača da stroj izrađuje više od 620 proizvoda po smjeni? Testira se na razini signifikantnosti 5%. 3. Fast-food restorani oglašavaju dostavu gotove hrane. U oglasu se navodi da će se naručena roba isporučiti za najviše 60 minuta od primitka narudžbe. Na temelju slučajnog uzorka 100 narudžbenica izračunano je prosječno vrijeme potrebno za dostavu koje iznosi 58 minuta, s prosječnim odstupanjem 5 minuta. Može li se na temelju rezultata iz uzorka zaključiti da je vrijeme isporuke dulje od onoga oglašavanoga. Razina signifikantnosti je 5%. 4. Provedite dvosmjeran test o pretpostavljenoj proporciji osnovnog skupa 0,55 na temelju slučajnog uzorka veličine 625 izabranoga iz beskonačnog osnovnog skupa. Proporcija uzorka je 0,53. razina signifikantnosti je 5%. Napišite kako glase hipoteze. Odluku donesite pomoću standardizirane test veličine i kritičnih granica (proporcija). Skicirajte postupak testiranja. 5. Nulta hipoteza sadrži tvrdnju da je proporcija osnovnog skupa jednaka 0,25 (ili veća), a alternativna hipoteza suprotnu tvrdnju. Proporcija slučajnog uzorka (n = 1000) izabranog iz konačnog skupa s frakcijom izbora manjom od 5% iznosi 0,22. Do koje odluke se dolazi u postupku testiranja ako je razina signifikantnosti 3%. Napišite kako glase hipoteze. Odluku donesite pomoću standardizirane test veličine i kritične granice (proporcije). Skicirajte postupak testiranja. 6. U proizvodnji jedne vrste proizvoda tolerira se škart u omjeru 1:12. Kontrolom 300 slučajno odabranih proizvoda pronađeno ih je 39 neispravnih. Nalazi li se proporcija neispravnih proizvoda utvrđenih kontrolom u granicama tolerancije. 050= ,α . 7. Financijska služba poduzeća analizira uzroke slabog toka gotovine. Pretpostavlja se da je jedan od uzroka neredovitost plaćanja po ispostavljenim fakturama. Služba pretpostavlja da više od 75% komitenata plaća u roku duljem od 60 dana. Iz skupa od 64289 neplaćenih faktura izabran je uzorak veličine 238, među kojima je s rokom prekoračenja duljim od 60 dana pronađeno njih 195. Do kojih se rezultata dolazi na temelju rezultata iz uzorka? Razina signifikantnosti je 4%.

Page 63: Statistika - Sve

63

11. USPOREDBA PARAMETARA OSNOVNIH SKUPOVA U sklopu inferencijalne statistike ispituju se parametri dvaju ili više osnovnih skupova. Postupci se temelje na slučajnim uzorcima izabranim iz tih skupova. Uzorci su nezavisni ako se opažanja ili mjerenja odabranog obilježja provode na različitim jedinicama izabranim u uzorak iz dvaju nepovezanih skupova ili iz dvaju stratuma jednog skupa. Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem ili mjerenjem odabrane varijable na istim jedinicama statističkog skupa izabranim u uzorak u različitim vremenskim trenucima.

11.1. Procjena razlike aritmetičkih sredina dvaju osnovnih skupova Neka vrijednosti 1,2111 1

,,, nxxx K čine uzorak iz osnovnog skupa 1S , s aritmetičkom

sredinom 1µ i standardnom devijacijom 1σ , a vrijednosti 2,2212 2,,, nxxx K uzorak iz

osnovnog skupa 2S , s aritmetičkom sredinom 2µ i standardnom devijacijom 2σ . Postupak procjene nepoznate razlike aritmetičkih sredina dvaju skupova 21 µD −= µ pomoću velikih nezavisnih uzoraka temelji se na sampling-distribuciji procjenitelja razlike sredina uzoraka 21 XXD −= . Ako nezavisni veliki uzorci potječu iz osnovnih skupova s nepoznatim sredinama i poznatim varijancama 2

1σ i 22σ , sampling-distribucija

procjenitelja razlike oblika je normalne distribucije ili približno takva oblika. Ta sampling-distribucija ima očekivanu vrijednost jednaku D i standardnu devijaciju

21-xxσ ,

koja se naziva standardnom greškom razlike sredina, to jest:

[ ] DXXE =−=− 2121 µµ ; 2

22

1

21

- 21 nnxx

σσσ +=

Procjena razlike aritmetičkih sredina intervalom na razini pouzdanosti 100 (1-α) % :

( )( ) ( )ασµµσ αα −=+<−<−−−

1ˆˆ2121

2/212/ xxxxzDzDP

gdje je D razlika sredina nezavisnih uzoraka, 2/zα je koeficijent pouzdanosti procjene,

koji ovisi o razini pouzdanosti i određuje se pomoću površina normalne distribucije,

21 -xxσ je standardna greška razlike sredina.

Page 64: Statistika - Sve

64

Kod velikih uzoraka ako varijance skupova nisu poznate, standardna greška razlike utvrđuje se pomoću procjena varijanci:

2

22

1

21

21 n

ˆ

n

ˆx-x

σσσ +=

( )

11

1

211

21

1

−=∑

=

n

xxˆ

n

ii

σ , 1

11

1

1

n

xx

n

ii∑

== ; ( )

12

1

222

22

2

−=∑

=

n

xxˆ

n

ii

σ , 2

12

2

2

n

xx

n

ii∑

==

Procjenjuje li se razlika sredina pomoću malih uzoraka izabranih iz normalno distribuiranih osnovnih skupova s različitim sredinama i jednakim varijancama, procjenitelj razlike sredina brojem je 21 XXD −= . Distribucija procjenitelja razlike sredina oblika je t- distribucije s ( )221 −+ nn stupnja slobode, pa je interval procjene na temelju uzorka:

( )( ) ( )ασµµσ αα −=+<−<−−−

1ˆˆ2121

2/212/ xxxxtDtDP

Ako su varijance osnovnih skupova međusobno jednake ( )22

221 σσσ == , standardna

greška razlike aritmetičkih sredina je:

21

21

21-

1121 nn

nn

nnxx

+⋅=+= σσσ

Ako su uzorci izabrani iz normalno distribuiranih skupova s jednakim nepoznatim varijancama, zajednička se varijanca procjenjuje kombiniranjem podataka iz oba uzorka:

( ) ( )

221

1

222

1

211

2

21

−+

−+−=

∑∑==

nn

xxxxˆ

n

ii

n

ii

σ

a standardna greška razlike sredina je:

( ) ( )

−+−+−

=21

21

21

222

211

2

1121 nn

nn

nn

ˆnˆnx-x

σσσ

Koeficijent pouzdanosti t vrijednost je Studentove distribucije za ( )221 −+ nn stupnja slobode i vjerojatnost 2/α .

Page 65: Statistika - Sve

65

Primjer 11.1

Aritmetička sredina uzorka veličine 100 elemenata iz osnovnog skupa A je 120, a aritmetička sredina uzoraka veličine 64 iz skupa B iznosi 115. Uzorci su nezavisni i potječu iz beskonačnih skupova. Varijanca skupa A iznosi 40, a varijanca skupa B 36. a) Procijenite brojem razliku aritmetičkih sredina skupova A i B b) U kojim granicama se očekuje da će se nalaziti razlika aritmetičkih sredina skupova. Pouzdanost procjene je 95%.

� a) 1001 =n , 1201 =x , 402

1 =σ ; 642 =n , 1152 =x , 3622 =σ

Procjena razlike sredina brojem: 511512021 =−=−= xxD

b) ( )α−1 = 0,95 α = 0,05 α /2 = 0,025 02502 = ,/ zzα =1,96

( )( ) 9502121

0250210250 ,zDzDPx-x,x-x, =+<−<− σµµσ

Standardna greška razlike sredina: 98107064

36

100

40

2

22

1

21

21,

nnx-x=+=+=

σσσ

Granice intervala procjene razlike aritmetičkih sredina:

( )( )( )( ) 950922906077103

95098107096159810709615

21

21

,,,P

,,,µµ,,P

=<−<=×+<−<×−

µµ

S vjerojatnosti 0,95 očekuje se da će razlika sredina skupova A i B biti između 3,07710 i 6,92290.

11.2. Test hipoteza o razlici sredina dvaju osnovnih skupova Testiranje hipoteza o razlici sredina dvaju osnovnih skupova pomoću velikih i malih

nezavisnih uzoraka temelji se na sadržaju nulte i alternativne hipoteze. Postupci testiranja jednaki su onima pri testiranju hipoteze o jednom parametru osnovnog skupa.

Vrsta testa

Nulta hipoteza

Alternativna hipoteza Područje prihvaćanja

nulte hipoteze

Područje odbacivanja

nulte hipoteze

dvosmjeran

0010 DH =− µµK

0211 ≠DH µµ −K

| z| 2< /zα

| z| 2> /zα

jednosmjeran, na gornju granicu

0210 ≤DH µµ −K

0211 DH >− µµK

αzz <

αzz >

jednosmjeran, na donju granicu

0210 ≥DH µµ −K

0211 DH <− µµK

αzz −>

αzz −<

Page 66: Statistika - Sve

66

Test-veličina je empirijski z-omjer:

( )21

021

x-xσ

Dxxz

−−=

gdje je 21 xx −

σ standardna greška razlike (tj. standardna devijacija sampling-distribucije

razlika aritmetičkih sredina uzoraka) a izračunava se na isti način kao i za procjenu. Odluka se donosi usporedbom empirijske testne veličine s teorijskom vrijednosti standardizirane normalne distribucije. Alternativno odluka za dvosmjeran test donosi se pomoću kritičnih granica:

21 -201 xx/zDc σα−= 21-2/02 xx

zDc σα+=

Testna veličina je razlika aritmetičkih sredina uzoraka 21 xxD −= Ako razlika aritmetičkih sredina uzoraka pada između kritičnih granica, kao istinita prihvatit će se nulta hipoteza na razini signifikantnosti α. U protivnome, nulta hipoteza se neće prihvatiti. Za jednosmjerne testove određuje se kritična granica koja razdvaja područje prihvaćanja od područja odbacivanja nulte hipoteze. Kritična granica za test na donju granicu je

2101 xxzDc

−−= σα , a za test na donju granicu je

21-02 xxzDc σα+= .

Hipoteze o razlici sredina dvaju osnovnih skupova testiraju se i pomoću malih nezavisnih uzoraka. Oblici hipoteza za test razlike sredina imaju isti, već navedeni oblik. Ako je nulta hipoteza istinita i ako su nepoznate varijance normalno distribuiranih osnovnih skupova međusobno jednake, tada je test veličina empirijski t-omjer:

( )21

021

xx

Dxxt

−−=

σ ,

( ) ( )

−+−+−

=21

21

21

22

211

2

1121 nn

nn

nn

ˆnˆnx-x

σσσ

t-omjer pripada Studentovoj (t) distribuciji s ( )221 −+ nn stupnjeva slobode. Odluka se donosi usporedbom empirijskog t-omjera s teorijskom vrijednosti Studentove distribucije. Alternativno, odluka se donosi pomoću kritičnih granica. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su:

21-201 xx/tDc σα−= 21 -2/02 xx

tDc σα+=

Page 67: Statistika - Sve

67

Kritična je granica za test na donju granicu 2101 xx

tDc−

−= σα , a za test na gornju

granicu 21 -02 xx

tDc σα+= .

� Ako je 0=0D , riječ je o testu hipoteze da je razlika aritmetičkih sredina dvaju

skupova jednaka nuli, odnosno da su aritmetičke sredine skupova međusobno jednake. Testna veličina u tom slučaju je:

21-

21

xx

xxz

σ−

=

Kad je riječ o testu hipoteze o jednakosti sredina dvaju osnovnih skupova, kritične granice za dvosmjeran test su:

21 -21 xx/zc σα−= 21 -22 xx/zc σα+= ,

a za jednosmjeran

21 -1 xxzc σα−= odnosno

21-2 xx

zc σα+= .

Odluka se donosi usporedbom testne veličine i vrijednosti kritične granice. Primjer 11.2

Iz dvaju osnovnih skupova izabran je po jedan uzorak. Uzorci su nezavisni, prvi veličine 100, a drugi 36 članova. Aritmetička sredina uzorka izabranog iz prvog osnovnog skupa iznosi 40, a aritmetička sredina uzorka iz drugog skupa 32. Prvi je osnovni skup raspoređen po distribuciji s aritmetičkom sredinom i varijancom oblika ( )251 ,N µ , a drugi ( )161 ,N µ . Može li se prihvatiti pretpostavka da je razlika aritmetičkih sredina osnovnih skupova jednaka 10? Testira se na razini signifikantnosti 5%.

� 1001 =n , 401 =x , 252

1 =σ ; 362 =n , 322 =x , 1622 =σ ; 10=0D

Hipoteze glase: 10010 =− µµH K , 01≠211 µµ −KH

Test veličina (empirijski z-omjer): ( )

21

021

x-x

Dxxz

σ−−

=

83333036

16

100

25

2

22

1

21

x- 21,

nnx=+=+=

σσσ ( )

402833330

103240,

,z −=−−=

Razina signifikantnosti: α = 0,05.

Page 68: Statistika - Sve

68

# Metoda 1 Metoda 2 #1 9 1 9 13 1,1,0 2 0,1,1,1,1,1,1,1,1,1 107 3,3,2,2,2,2,2 2 2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3 19

12 5,5,5,5,5,5,4,4,4,4,4,4 2 4,4,4,4,5 510 7,7,7,7,7,6,6,6,6,6 22 9,8 2

Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: 22 // zzz αα <<− ,

961== 02502 ,zz ,/α 961961 ,z, <<−

Odluka: empirijski z omjer manji je od teorijske (kritične) vrijednosti, tj. 961402 ,, −<− pa se na danoj razini signifikantnosti odbacuje 0H . Prema tome, ne prihvaća se pretpostavka da su uzorci izabrani iz skupova kojima je razlika aritmetičkih sredina jednaka 10. Oduka se alternativno donosi pomoću kritičnih granica:

8,366670,833331,961021-201 =×−=−=

xx/zDc σα

6333311=833330×961+10=+=21-202 ,,,zDc

xx/ σα

Kako je razlika aritmetičkih sredina uzoraka manja 83240210 =−=−= xxD manja od donje

kritične granice, ne prihvaća se 0H . Primjer 11.3

U sklopu studija rada ispituje se razlika proizvodnosti rada radnika koja se postiže dvjema obrazovnim metodama. 70 radnika podijeljeno je u dvije skupine. U prvoj skupini je 35 slučajno izabranih radnika od njih 70, a u drugoj preostalih 35. Poslije završenog obrazovanja mjerena je proizvodnost radnika i to utroškom vremena za obavljanje iste radnje. Rezultati mjerenja (u minutama) proizvodnosti radnika obrazovanih prvom i drugom metodom prikazani su dvostrukim S-L dijagramom.

Može li se prihvatiti pretpostavka da nema razlike u prosječnoj proizvodnosti radnika obrazovanih navedenim metodama. Testira se na razini signifikantnosti 5%.

=1n 35 35

385

1

11

1

1

==∑

=

n

xx

n

ii

=24,371429 ( )

=−

=−

−=∑

=

135

17143188

11

1

211

21

1

,

n

xxˆ

n

ii

σ 5,53445

=2n 35 ===∑

=

35

779

2

12

2

2

n

xx

n

ii

22,25714 ( )

=−

=−

−=∑

=

135

6857156

12

1

222

22

2

,

n

xxˆ

n

ii

σ 1,66723

Page 69: Statistika - Sve

69

=+=+=35

667231

35

534455

2

22

1

21

21

,,

n

ˆ

n

ˆx-x

σσσ 0,4536103

Hipoteze glase: =− 010 µµH K 0 ≠211 µµ −KH 0

Test veličina (empirijski z-omjer): =−=−=45361030

257142237142924

21

21

,

,,xxz

x-xσ

4,661018

Razina signifikantnosti: α = 0,05. Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: 22 // zzz αα <<− ,

961== 02502 ,zz ,/α 961961 ,z, <<−

Odluka: empirijski z omjer veći je od teorijske (kritične) vrijednosti, tj. 96,166102,4 > pa se

na danoj razini signifikantnosti odbacuje 0H . Prema tome, ne prihvaća se pretpostavka da nema razlike u prosječnoj proizvodnosti radnika obrazovanih navedenim metodama Oduka se alternativno donosi pomoću kritičnih granica:

=−=21-21 xx/zc σα − 0,889076

=+=21-2/2 xx

zc σα 0,889076

Kako je razlika aritmetičkih sredina uzoraka manja =−= 210 xxD 2,11429 veća od gornje

kritične granice, ne prihvaća se 0H .

U programskoj potpori EXCEL-a (Tools ⇒ Data Analysis ⇒⇒⇒⇒ z-Test: Two Sample for Means) dio ispisa je:

z-Test: Two Sample for Means

Metoda 1 Metoda 2 Mean 24,3714286 22,25714286 Variance 5,53445 1,66723 Observations 35 35 Hypothesized Mean Difference 0 z 4,66101808 P(Z<=z) one-tail 1,5732E-06 z Critical one-tail 1,64485363 P(Z<=z) two-tail 3,1465E-06 z Critical two-tail 1,95996398

Page 70: Statistika - Sve

70

11.3. Procjena razlike proporcija i test hipoteze o razlici proporcija Neka su 1n i 2n dovoljno veliki nezavisni uzorci izabrani iz osnovnih skupova s proporcijama 1p i 2p i neka su 1p i 2p proporcije uzoraka. Sampling-distribucija razlika proporcija približno je normalna oblika s očekivanom vrijednosti koja je jednaka razlici proporcija osnovnih skupova. Standardna devijacija te distribucije jednaka je standardnoj greški razlike

21 ˆ-ˆ ppσ . Nepristrana procjena razlike proporcija osnovnih

skupova brojem jest razlika proporcija uzoraka, tj. ( )21 pp − . Kad je sampling distribucija razlika približno normalna oblika, intervalna procjena, uz pouzdanost

( )α−1100 % je:

( ) ( ) ( )[ ] ( )ασσ αα −=+−<−<−− −− 12121 22121221 pp/pp/ zppppzppP

Standardna greška razlike proporcija je:

+=

21ˆ-ˆ

11ˆˆ

21 nnqpppσ

21

2211

21

21 ˆˆˆ

nn

pnpn

nn

mmp

++=

++= , pq −= 1 ;

1

11ˆ

n

mp = ,

2

22ˆ

n

mp =

U praksi se najčešće testira hipoteza o jednakosti proporcija dvaju osnovnih skupova, odnosno hipoteza da je razlika proporcija osnovnih skupova jednaka nuli. Hipoteze na test i način donošenja odluka navedeni su u tablici

Vrsta testa

Nulta hipoteza

Alternativna hipoteza

Područje prihvaćanja

nulte hipoteze

Područje odbacivanja

nulte hipoteze

dvosmjeran

0210 =− ppH K

0≠211 ppH −K

| z| 2< /zα

| z| 2> /zα

jednosmjeran, na gornju granicu

0≤210 ppH −K

0211 >− ppH K

αzz <

αzz >

jednosmjeran, na donju granicu

0≥210 ppH −K

0211 <− ppH K

αzz −>

αzz −<

Test-veličina je empirijski z-omjer:

( )21-

21 0

pp

ppz

σ−−

=

Odluka se donosi usporedbom empirijske testne veličine s teorijskom vrijednosti standardizirane normalne distribucije na uobičajen način.

Page 71: Statistika - Sve

71

Primjer 11.3

Iz dvaju osnovnih skupova izabrani su nezavisni uzorci veličine 100=1n i 200=2n . Broj

članova s određenim modalitetom obilježje u prvom uzorku je 50=1m , a u drugom 75=2m .

a) Izračunajte vrijednost proporcija uzoraka 1p i 2p . b) Procijenite brojem i 95%-tnim intervalom razliku proporcija osnovnih skupova c) Testirajte hipotezu da je razlika proporcija osnovnih skupova jednaka 0,02. Razina signifikantnosti 5%.

� a) Proporcije uzoraka: 5,0

100

50ˆ

1

11 ===

n

mp 375,0

200

75ˆ

2

22 ===

n

mp

b) Procjena razlike proporcija brojem: 125037505021 ,,,pp =−=−

Procjena intervalom: ( ) ( ) ( )[ ] ( )ασσ αα −=+−<−<−− −− 1

2121 22121221 pp/pp/ zppppzppP

Uz pouzdanost 95%, koeficijent pouzdanosti 02502 = ,/ zzα =1,96

Standardna greška razlike proporcija:

+=

21ˆ-ˆ

11ˆˆ

21 nnqpppσ

41667,0200100

7550ˆ

21

21 =++=

++

=nn

mmp 58333041667011 ,,pq =−=−=

06038,0200

1

100

158333,041667,0

21 ˆ-ˆ =

+×=ppσ

Interval procjene razlike proporcija:

( )( ) 95006038096112500603809611250 21 ,,,,pp,,,P =×+<−<×−

( )( ) 95,024334,000666,0 21 =<−< ppP c) Hipoteze glase: 020210 ,ppH =−K , ,020≠211 ppH −K

Test veličina (empirijski z-omjer): ( ) ( )

741060380

020375050

21-

021 ,,

,,,Dppz

pp

=−−=−−

Razina signifikantnosti: α = 0,05.

Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: 22 // zzz αα <<− ,

961== 02502 ,zz ,/α 961961 ,z, <<−

Odluka: empirijski z omjer pada u područje prihvaćanja nulte hipoteze, tj 961741961 ,,, <<− pa se na danoj razini signifikantnosti prihvaća pretpostavka da su uzorci izabrani iz osnovnih skupova kojima je razlika proporcija jednaka 0,02.

Page 72: Statistika - Sve

72

Vježbe

1. Služba za prihvat prtljage zračne kompanije pomoću uzorka procjenjuje razliku u težini prtljage muških i ženskih putnika. U slučajnom uzorku 144 putnice izmjerena je prosječna težina prtljage 21,5 kg, s prosječnim odstupanjem 2,5 kg. Prosječna težina prtljage putnika izabranih u slučajni uzorak veličine 121 iznosila je 18 kg, s prosječnim odstupanjem 1,8 kg. Procijenite brojem i 95%-tnim intervalom pouzdanosti razliku prosječnih težina prtljage muških i ženskih putnika.

2. U tvorničkom pogonu dva automatska stroja proizvode isti proizvod. Ispituje se njihova proizvodnost mjerena brojem izrađenih proizvoda pa radnom satu. Mjerenja u slučajno izabranim razdobljima rada strojeva (broj proizvoda po satu) bila su sljedeća:

Stroj I 55 47 50 44 52 55 57 49 60 52 58 Stroj II 43 47 51 49 48 53 46 47 55 47 50

a) Prikažite podatke o radu strojeva dvostrukim S-L dijagramom b) Procijenite brojem i intervalom razliku u prosječnoj proizvodnosti rada strojeva. Razina

pouzdanosti intervalne procjene je 95%.

3. Proizvođač baterija tipa 3R12 tvrdi da se njihova kakvoća bitno ne mijenja ni nakon šestomjesečnog skladištenja računajući od dana proizvodnje. Da bi se testirala tvrdnja proizvođača, izabran je uzorak od 40 baterija neposredno nakon što su proizvedene. Prosječan vijek trajanja tih baterija bio je 584 sata, s prosječnim odstupanjem 49 sati. Nakon šest mjeseci izabran je uzorak 35 uskladištenih baterija. njihova je prosječna trajnost bila 558 sati, s prosječnim odstupanjem 57 sati. Može li se prihvatiti tvrdnja proizvođača? Razina signifikantnosti je 3%.

4. U uzorku 1.000 gledatelja TV postaje Ch1 zabavni program redovito prati njih 410. U uzorku 500 gledateljica 52% njih redovito prati taj zabavni program. a) Može li se prihvatiti pretpostavka da zabavni program prate u jednakoj proporciji

gledatelji i gledateljice? Vjerojatnost greške tipa I iznosi 0,05 b) Može li se prihvatiti pretpostavka da je proporcija gledateljica veća od proporcije

gledatelja za više od 15%? Testira se na razini signifikantnosti 5%: c) U kojim se granicama može očekivati da će se naći proporcija gledatelja (žena i

muškaraca) zabavnog programa? Pouzdanost procjene 96%.

5. Ispituje se proporcija tekućih računa s negativnim saldom većim od dopuštenog u dvije poslovnice Pomorske banke. Analitička služba pretpostavlja da je proporcija takvih računa u drugoj poslovnici manja od proporcije u prvoj poslovnici. U uzorku 562 računa prve poslovnice 75 ih je s nedopuštenim prekoračenjem, a u uzorku veličine 462 računa druge poslovnice 44 računa su s nedopuštenim prekoračenjem. Što se može zaključiti o pretpostavci analitičke službe? Testira se na razini 10% signifikantnosti.

Page 73: Statistika - Sve

73

12. HI-KVADRAT TEST Testiranje hipoteza o parametrima osnovnih skupova pomoću uzorka temelji se na određenim teorijskim pretpostavkama. Često se, primjerice, pretpostavlja da slučajni uzorak potječe iz normalne ili neke druge distribucije poznatih općih karakteristika. Da bi se ispitala pretpostavka o obliku distribucije populacije iz koje potječe uzorak rabi se 2χ -test (hi-kvadrat test). Testira se hipoteza o distribuciji osnovnog skupa s

pretpostavljenim parametrima. Test veličina temelji se na empirijskom 2χ koji ovisi o razlikama među očekivanim frekvencijama prema modelu navedenom u nultoj hipotezi i empirijskim frekvencijama distribucije. Provedba 2χ -testa o obliku distribucije populacije počiva na slučajnom uzorku n članova koji predočuju oblike kvantitativne ili kvalitativne varijable. Postupku testiranja prethodi razvrstavanje n podataka iz uzorka prema načelu iscrpnosti i isključivosti u k grupa., čime se dolazi do empirijske distribucije, odnosno statističkog niza. Slijedi izbor modela – teorijske distribucije s kojom se uspoređuje empirijska distribucija.. Ako parametri teorijske distribucije nisu poznati, procjenjuju se uporabom podataka iz uzorka. Na temelju pretpostavljene distribucije osnovnog skupa računaju se očekivane frekvencije koje se uspoređuju s empirijskim frekvencijama. Test polazi od ovih hipoteza:

K0H distribucija osnovnog skupa je specificiranog oblika

K1H distribucija osnovnog skupa nije specificiranog oblika

Test- veličina je empirijski 2χ , koji je predočen izrazom:.

( ) ( ) ( ) ( )k

kk

i

ii

e e

ef

e

ef

e

ef

e

ef 22222

1

2112 −

++−

++−

+−

= LLχ

( )∑

=

−=

k

i i

ii

e

ef

1

22χ

gdje je: fi = apsolutne frekvencije, ei = očekivane frekvencije prema distribuciji navedenoj u nultoj hipotezi. Ako je nulta hipoteza istinita, test veličina izračunana pomoću podataka iz dovoljno velikog uzorka približno distribuirana prema 2χ - distribuciji s ( )1−− gk stupnjeva slobode, gdje je k broj grupa (članova statističkog niza), g je broj procijenjenih

Page 74: Statistika - Sve

74

parametara distribucije osnovnog skupa. Kada su parametri predstavljene distribucije poznati, 0=g . Odluka se donosi usporedbom test-veličine 2χ s teorijskom vrijednosti ( )12 −− gkαχ ,

gdje je α odabrana razina signifikantnosti, a ( )1−− gk broj stupnjeva slobode. Nulta se hipoteza prihvaća ako je empirijski 2χ jednak teorijskoj vrijednosti 2χ -distribucije ili manji od nje, a ne prihvaća kad je empirijski 2χ veći od teorijske vrijednosti 2χ -distribucije.

�Da bi primjena testa bila valjana, potrebno je da broj podataka bude dovoljno velik i da očekivane frekvencije nisu suviše male. Kriterij je:

• uzorak je dovoljno velik ako je 30≥n • sve očekivane frekvencije (ei) jednake 2 i veće, te ako ih je najmanje 50% jednako 5 i veće.

Nekad se primjenjuje sljedeći kriterij:

• sve očekivane frekvencije (ei) moraju biti veće od 5, ako je broj stupnjeva slobode jednak 1. Ako se u distribuciji očekivanih frekvencija nađu manje od onih koje propisuje primijenjeno pravilo, pristupa se spajanju susjednih grupa, čime se mijenja i broj stupnjeva slobode. Primjer 12.1

Ispituje se učestalost zastoja strojeva na jednoj proizvodnoj liniji po radnoj smjeni. Analizom 400 radnih smjena dobiveni su rezultati:

Broj zastoja 0 1 2 3 4 5 6 Broj smjena 35 115 130 75 30 10 5

Može li se prihvatiti pretpostavka da se učestalost zastoja po smjeni ravna po binomnoj distribuciji? Testira se na razini signifikantnosti 5%.

� Binomna distribucija: ( ) xnxqp

xxp −

=

6, =x 0, 1, 2, …, 6

Procjena parametra p: pnx = , n

xp =

Page 75: Statistika - Sve

75

2400

6551043037521301115035

1

1 =×+×+×+×+×+×+×==∑

=

=k

ii

k

iii

f

xfx

3333306

2,

n

xp === 66667,033333,01ˆ1ˆ =−=−= pq

Pretpostavljena binomna distribucija s procijenjenim parametrima:

( ) xx

xxp −××

= 666667,033333,0

6, =x 0, 1, 2, …, 6

Očekivane frekvencije: ( )ii xpe 400= .

Broj zastoja Broj smjena xi fi p(xi) ei = n·p(xi) (fi - ei) (fi - ei)

2 (fi - ei)2/ei

0 35 0,0878 35,118 − 0,118 0,0138 0,00039 1 115 0,2634 105,351 9,649 93,0960 0,88367 2 130 0,3292 131,687 − 1,687 2,8468 0,02162 3 75 0,2195 87,790 − 12,790 163,5887 1,86341 4 30 0,0823 32,921 − 2,921 8,5312 0,25914 5 10 0,0165 6,584+0,549 7,867 61,8939 8,67745 6 5 0,0014 * * * *

Ukupno 400 1,0000 392,8673 0,000 11,70569 * Očekivana frekvencija posljednje grupe (0,5487) manja je od 2, stoga je treba pribrojiti prethodnoj očekivanoj frekvenciji (6,5841). Razlika 7,8673 dobivena je ovako: (10+5) – (6,584+0,549)=7,867. Test-veličina (empirijski hi-kvadrat) je: =2χ 11,70569 Hipoteze glase:

K0H distribucija osnovnog skupa ravna se prema binomnoj distribuciji

K1H distribucija osnovnog skupa ne ravna se prema binomnoj distribuciji Razina signifikantnosti: α = 0,05. Broj stupnjeva slobode ( ) =−−= 1gkdf 6 – 1 – 1= 4 jer je procijenjen jedan parametar, a dvije su posljednje numeričke grupe spojene u jednu.

( ) ( ) == 4205,0

2 χχα df 9,48773

Odluka: empirijski hi-kvadrat (11,70569) veći je od teorijske vrijednosti (9,48773) i pada u područje odbacivanja nulte hipoteze. Na danoj razini signifikantnosti ne prihvaća se pretpostavka da uzorak potječe iz osnovnog skupa koji se ravna prema binomnoj distribuciji.

Page 76: Statistika - Sve

76

Primjer 12.2

Promatra se broj prometnih nezgoda pa danima u jednom gradu: rezultati promatranja navedeni su u tabeli:

Broj nezgoda 0 1 2 3 4 Broj dana 44 37 15 3 1

Može li se prihvatiti pretpostavka da je distribucija nezgoda po danima raspoređena po Poissonovoj distribuciji s parametrom λ =0,9? Testira se na razini 1% signifikantnosti.

� Poissonova distribucija:

!

9,0)(

9,0

x

exp

x−

= , =x 0, 1, 2, …

Očekivane frekvencije: ( )ii xpe 100=

Broj nezgoda Broj smjena

xi fi p(xi) ei = n·p(xi) (fi - ei) (fi - ei)2 (fi - ei)

2/ei 0 44 0,40657 40,657 3,343 11,1759 0,27488 1 37 0,36591 36,591 0,409 0,1671 0,00457 2 15 0,16466 16,466 − 1,466 2,1494 0,13053 3 3 0,04940 4,940+1,346 − 2,286 5,2244 0,83116 ≥ 4 1 0,01346 * * * *

Ukupno 100 1,00000 100 0,000 1,24114 * Očekivana frekvencija posljednje grupe (1,346) manja je od 2, stoga je treba pribrojiti prethodnoj očekivanoj frekvenciji (4,940). Razlika − 2,2857 dobivena je ovako: (3+1) – (4,94+1,346)= − 2,286 Test-veličina (empirijski hi-kvadrat) je: =2χ 1,24114 Hipoteze glase:

K0H distribucija osnovnog skupa ravna se prema Poissonovoj distribuciji

K1H distribucija osnovnog skupa ne ravna se prema Poissonovoj distribuciji Razina signifikantnosti: α = 0,01. Broj stupnjeva slobode ( ) =−−= 1gkdf 4 – 0 – 1= 3 jer je parametar pretpostavljene distribucije poznat, a dvije su posljednje numeričke grupe spojene u jednu.

( ) ( ) == 3201,0

2 χχα df 11,34487

Odluka: empirijski hi-kvadrat (1,24114) manji je od teorijske vrijednosti (11,34487) i pada u područje prihvaćanja nulte hipoteze. Na danoj razini signifikantnosti prihvaća se pretpostavka da uzorak potječe iz osnovnog skupa koji se ravna prema Poissonovoj distribuciji.

Page 77: Statistika - Sve

77

Kod testiranja hipoteze o distribuciji kontinuirane varijable osnovnog skupa, preporučuje se provesti postupak formiranja razreda distribucije frekvencija na temelju podataka iz uzorka tako da svakom razredu pripadne približno jednaka očekivana frekvencija. Primjer 12.3

Mjerenjem brzine vozila na jednoj dionici prometnice dobiveni su sljedeći podaci (u km/h):

Brzina vozila 50-60 60-70 70-80 80-90 90-100 100-110 110-120 120-130 Broj vozila 3 6 15 21 12 4 2 1

Može li se prihvatiti pretpostavka da je distribucija brzine vozila oblika normalne distribucije? Testira se na razini signifikantnosti 5%.

� Normalna distribucija ( )2,σµN je distribucija kontinuirane slučajne varijable.

Aritmetička sredina uzorka: ===

=

=

64

5380

8

1

8

1

ii

iii

f

xf

x 84,0625

Varijanca uzorka:

( )2817202

63

7512743

1

-∑

8

1

2

2 ,,

n

xxf

ˆ iii

==−

= =σ

Neprostrana procjena standardne devijacije: 2226,142817,202ˆ ==σ

Brzina vozila

(prave granice) fi p(xi) ei = n·p(xi) (fi - ei) (fi - ei)2 (fi - ei)

2/ei do 70 9 0,1612 10,3168 -1,3168 1,7340 0,1681 70-80 15 0,2263 14,4832 0,5168 0,2671 0,0184 80-90 21 0,2741 17,5424 3,4576 11,9550 0,6815 90-100 12 0,2255 14,432 -2,432 5,9146 0,4098

100 i više 7 0,1129 7,2256 -0,2256 0,0509 0,0070 Ukupno 64 1,0000 64 1,2849

Vjerojatnost da normalno distribuirana slučajna varijabla poprimi vrijednost u granicama

prvog razreda: ( ) 1612,03388,05,02226,14

0625,847070 =−=

−<=< ZPXP

drugog razreda: ( ) ( ) 2263,01125,03388,0286,0989,08070 =−=−<<−=<< ZPXP

trećeg razreda: ( ) 2741,01616,01125,0)417,0286,0(9080 =+=<<−=<< ZPZP

četvrtog razreda: ( ) 2255,01616,03871,0)121,1417,0(10090 =−=<<=<< ZPZP

petog razreda: ( ) 1129,03871,05,0)121,1(100 =−=<=< ZPZP

Page 78: Statistika - Sve

78

Test-veličina (empirijski hi-kvadrat) je: =2χ 1,2849

Hipoteze glase:

K0H distribucija osnovnog skupa ravna se prema normalnoj distribuciji

K1H distribucija osnovnog skupa ne ravna se prema normalnoj distribuciji

Razina signifikantnosti: α = 0,05. Broj stupnjeva slobode ( ) =−−= 1gkdf 5 – 2 – 1= 2 jer distribucija ima 5 razreda, a 2 parametra pretpostavljene distribucije su procijenjena,

( ) ( ) == 2205,0

2 χχα df 5,99146

Odluka: empirijski hi-kvadrat (1,2849) manji je od teorijske vrijednosti (5,99146) i pada u područje prihvaćanja nulte hipoteze. Na danoj razini signifikantnosti prihvaća se pretpostavka da uzorak potječe iz osnovnog skupa koji se ravna prema normalnoj distribuciji.

Vježbe

1. Kontrolor prilazi automatu u jednakim vremenskim razmacima i redovito pregledava uzorak od 10 proizvoda, utvrđujući broj loših proizvoda u uzorku. Nakon 60 obilazaka kontrolor je dobio sljedeće podatke:

Broj loših proizvoda 0 1 2 3 4 5 Broj obilazaka 5 15 18 16 4 2

Može li se prihvatiti pretpostavka da je osnovni skup iz kojeg potječu podaci oblika binomne distribucije? Testira se na razini signifikantnosti 5%

2. U jednoj telefonskoj centrali bilježe se pogrešni spojevi po minutama. Motrenjem tijekom 50 minuta dobiveni su sljedeći podaci

Broj pogrešnih spojeva 0 1 2 3 4 5 6 Broj minuta 7 15 12 9 4 2 1

Može li se prihvatiti pretpostavka da navedeni podaci potječu iz osnovnog skupa koji se raspoređuje prema Poissonovoj distribuciji s parametrom 2 pogrešna spoja u minuti. Testira se na razini signifikantnosti 5%

3. Uzorak od 60 domaćinstava dao je ovu dnevnu potrošnju mesa u kg:

Dnevna potrošnja mesa 0-0,3 0,3-0,6 0,6-0,9 0,9-1,2 1,2-1,5 1,5-1,8 Broj domaćinstava 7 15 12 9 4 1

Može li se prihvatiti pretpostavka da mjerenja dnevne potrošnje mesa u domaćinstvima potječu iz normalno distribuiranog osnovnog skupa Testira se na razini signifikantnosti 1%.

Page 79: Statistika - Sve

79

13. REGRESIJSKA ANALIZA Regresijska analiza sastoji se u primjeni različitih metoda ispitivanja ovisnosti jedne varijable o drugoj varijabli ili više njih. Osnova analize je regresijski model. Regresijski model je algebarski model kojim se analitički izražava statistički odnos među pojavama.

13.1. Model jednostavne linearne regresije Model jednostavne regresije sadrži zavisnu (regresand ili output) i jednu nezavisnu (regresorsku ili input) varijablu. Prvi korak u analizi odnosa među dvjema pojavama sastoji se u crtanju dijagrama rasipanja. Prema rasporedu točaka donosi se prvi sud o obliku, smjeru i jakosti veze među varijablama.

Page 80: Statistika - Sve

80

Opći oblik modela jednostavne linearne regresije je ( ) eXfY += . Funkcionalni dio modela je ( ) XXf βα += . Varijabla e izražava nesistemske utjecaje na zavisnu varijablu i model čini statističkim. Regresijska analiza provodi se na temelju n parova vrijednosti varijabli X i Y, pa se model predočuje sustavom n jednadžbi

iii eβ xy ++= α , , n, , i K21= Jednadžba pravca (funkcionalni dio modela) određen je ako su poznati parametri α i β . Neka su a i b procjene parametara i procjene nepoznatih vrijednosti varijable e jednake ui (rezidualna odstupanja). Model linearne regresije s procijenjenim parametrima je:

iii uyy += ˆ , , n, , i K21=

odnosno

iii ubxay ++= , n, , i K21= Do procjena a i b dolazi se primjenom metode najmanjih kvadrata. Ona se sastoji u traženju onih procjena parametara za koje rezidualni zbroj kvadrata postiže minimum. Primjenom postupka minimalizacije dolazi se do sustava normalnih jednadžbi čije je rješenje :

=

=

⋅−

⋅⋅−=

n

ii

n

iii

xnx

yxnyxb

1

22

1 , xbya ⋅−=

gdje je n

yy

n

ii∑

== 1 i n

xx

n

ii∑

== 1

Model bxay +=ˆ naziva se linearnom regresijskom jednadžbom s procijenjenim parametrima. Parametar a je konstantni član (vrijednost regresijske funkcije ako je vrijednost nezavisne varijable jednaka nuli). Parametar b je regresijski koeficijent (predočuje iznos linearne promjene regresijske vrijednosti za jedinično povećanje vrijednosti varijable X). Regresijske vrijednosti

ii bxay +=ˆ , , n, , i K21=

predočuju procjene vrijednosti zavisne varijable za dane stvarne vrijednosti nezavisne varijable. Razlike vrijednosti zavisne varijable Y i regresijskih vrijednosti ( y ) čine rezidualna odstupanja ( iii yyu ˆ−= ).

Page 81: Statistika - Sve

81

Kupaci i tjedna prodaja

40

50

60

70

80

90

100

110

120

130

400 500 600 700 800 900 1000 1100

Broj kupaca (xi)

Tje

dna p

roda

ja (000

kn)

Primjer 13.1

Uprava lanca prodavaonica želi da razvije model za predviđanje tjedne prodaje. Razmotreno je više regresorskih varijabli i odlučeno da se koristi samo jedna (broj kupaca) za predviđanje zavisne varijable (tjedna prodaja). U 20 prodavaonica prikupljeni su sljedeći podaci:

Prodavaonica

Broj kupaca

Tjedna prodaja (u tisućama kuna) Prodavaonica

Broj kupaca

Tjedna prodaja (u tisućama kuna)

1 907 112 11 679 76,3

2 926 110,5 12 872 94,3

3 506 68,4 13 924 94,6

4 741 92,1 14 607 76,4

5 789 94,2 15 452 69,2

6 889 100,8 16 729 89,5

7 874 94,5 17 794 93,3

8 510 67,3 18 844 102,3

9 529 72,4 19 1010 117,7

10 420 61,2 20 621 74,1

a) Konstruirajte dijagram rasipanja b) Procijenite vrijednosti parametara regresijskog modela pretpostavivši da među varijablama postoji linearna statistička veza. Regresijsku funkciju prikažite u dijagramu rasipanja. c) Izračunajte regresijske vrijednosti i vrijednosti rezidualnih odstupanja.

� a)

b) n =20, 15,73120

146231 ===∑

=

n

xx

n

ii

055,8820

1,17611 ===∑

=

n

yy

n

ii

Page 82: Statistika - Sve

82

Kupaci i tjedna prodaja s regresijskim pravcem

40

50

60

70

80

90

100

110

120

130

400 500 600 700 800 900 1000 1100

Broj kupaca (xi)

Tjedna

pro

daja

(000

kn)

Prodavaonica Broj kupaca Tjedna prodaja (000 kn) xi yi xi

2 xi·yi 1 907 112,0 822649 101584 2 926 110,5 857476 102323 3 506 68,4 256036 34610,4 4 741 92,1 549081 68246,1 5 789 94,2 622521 74323,8 6 889 100,8 790321 89611,2 7 874 94,5 763876 82593 8 510 67,3 260100 34323 9 529 72,4 279841 38299,6 10 420 61,2 176400 25704 11 679 76,3 461041 51807,7 12 872 94,3 760384 82229,6 13 924 94,6 853776 87410,4 14 607 76,4 368449 46374,8 15 452 69,2 204304 31278,4 16 729 89,5 531441 65245,5 17 794 93,3 630436 74080,2 18 844 102,3 712336 86341,2 19 1010 117,7 1020100 118877 20 621 74,1 385641 46016,1

Ukupno 14623 1761,1 11306209 1341279

2

1

22

1

731,152011306209

88,055731,15201341279

×−××−=

−=∑

=

=n

ii

n

iii

xnx

yxnyxb = 0,0873

24,2324,2256731,150,087355088 ≈=×−=−= ,xbya

Linearna regresijska jednadžba: ii x,,y 087302324 += , i = 1, 2, 3, …, 20

Page 83: Statistika - Sve

83

Broj kupaca Tjedna prodaja

(000 kn) Regresijske vrijednost

Rezidualna odstupanja

Relativna rezidualna odstupanja (u%)

ix iy iy iu rel,iu

907 112,0 103,4111 8,5889 7,67 926 110,5 105,0698 5,4302 4,91 506 68,4 68,4038 -0,0038 -0,01 741 92,1 88,9193 3,1807 3,45 789 94,2 93,1097 1,0903 1,16 889 100,8 101,8397 -1,0397 -1,03 874 94,5 100,5302 -6,0302 -6,38 510 67,3 68,7530 -1,4530 -2,16 529 72,4 70,4117 1,9883 2,75 420 61,2 60,8960 0,3040 0,50 679 76,3 83,5067 -7,2067 -9,45 872 94,3 100,3556 -6,0556 -6,42 924 94,6 104,8952 -10,2952 -10,88 607 76,4 77,2211 -0,8211 -1,07 452 69,2 63,6896 5,5104 7,96 729 89,5 87,8717 1,6283 1,82 794 93,3 93,5462 -0,2462 -0,26 844 102,3 97,9112 4,3888 4,29 1010 117,7 112,4030 5,2970 4,50 621 74,1 78,4433 -4,3433 -5,86

14623 1761,1 1761,1879 -0,0879 -

Relativna rezidualna odstupanja: 100×−

=i

iirel,i y

yyu , , n, , i K21=

Statističko-analitičke veličine za prosudbu reprezentativnosti regresije temelje se na raščlanjivanju zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezina prosjeka. Odstupanje zavisne varijable Y od njezine aritmetičke sredine Y za pojedinu točku ( ii y,x ) može se raščlaniti: ( ) ( ) ( )iiii yyyyyy −+−=− .

c)

Page 84: Statistika - Sve

84

Navedenih raščlambi ima koliko i parova vrijednosti, odnosno n. Kvadriranjem izraza i zbrajanjem članova dolazi se do jednadžbe:

( ) ( ) ( )∑ ∑∑= ==

−+−=−n

i

n

iiii

n

ii yyyyyy

1 1

22

1

2

Zbroj kvadrata empirijskih vrijednosti zavisne varijable od njezine aritmetičke sredine (ukupni zbroj kvadrata, ST ) rastavlja se na dvije komponente. Prva komponenta je zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable (zbroj kvadrata protumačen modelom, SP). Druga komponenta je neprotumačeni dio zbroja kvadrata ili zbroj kvadrata rezidualnih odstupanja (SR). Varijanca regresije je aritmetička sredina kvadrata rezidualnih odstupanja:

( )

n

yyn

iii

y

∑=

−= 1

2

Standardna devijacija je: 2yy σσ = . Koeficijent varijacije je: 100×=

yV y

y

σ.

Specifičan pokazatelj reprezentativnosti regresije je koeficijent determinacije regresije:

( )

( )∑

=

=

−=

n

ii

n

ii

yy

yyr

1

2

1

2

2

Koeficijent determinacije je proporcija modelom protumačenoga dijela zbroja kvadrata u ukupnom zbroju kvadrata. On se kreće u granicama između nule i jedan. Model je reprezentativniji što je koeficijent determinacije bliži jedinici. Analiza modela jednostavne regresije u sklopu deskriptivne statistike svodi se na određivanje analitičkog izraza i prosudbi njegove kakvoće, pri čemu se odstupanja od funkcionalnog dijela ne specificiraju. Primjena načela inferencijalne statistike u svezi je s regresijskim modelom u kojemu je varijabla e slučajna varijabla određenih svojstava. Varijabla e je u kombinaciji s funkcionalnim dijelom modela, pa je i zavisna varijabla također slučajna varijabla. Za fiksne vrijednosti nezavisnih varijabli u (teorijski) ponovljenim realizacijama zbog prisutnosti slučajne varijable e generiraju se različite vrijednosti zavisne varijable. Stoga se empirijske vrijednosti zavisne varijable smatraju uzorkom iz (zamišljenog, beskonačnog) osnovnog skupa, a sam polazni model modelom osnovnog skupa.

Page 85: Statistika - Sve

85

Polazni model osnovnog skupa (populacije) je:

iii exy ++= βα , , n, , i K21=

Teorijske pretpostavke za analizu modela su:

Svojstva zavisne varijable Y Svojstva slučajne varijable e

(1)

[ ] iii xxyE βα +=

[ ] 0=ieE , ∀i

(2) ( ) 2σ=ii xyvar ( ) 2σ=ievar

(3) ( ) ,y,ycov ji 0= ji ≠ ( ) 0=ji e,ecov

(4) iy ∼ ( )2σβα ,xN i+ ie ∼ ( )20 σ,N

Slučajna varijabla e zove se greška relacije, jer bi model bio deterministički kad bi svaka njezina vrijednost bila jednaka nuli. Njezina prisutnost izražava efekte nepredvidivih utjecaja na zavisnu varijablu i efekte izostavljenih varijabli iz modela. Neka n vrijednosti zavisne varijable Y čine uzorak iz beskonačno velikog osnovnog skupa, i neka su α i β procjene nepoznatih parametara, a ie procjene nepoznatih vrijednosti

varijable e. Model uzorka je:

iii exˆˆy ++= βα , , n, , i K21=

odnosno, iii eyy += , ii xˆˆy βα += , , n, , i K21= Procjene grešaka relacije ie zovu se rezidualna odstupanja.

Izrazi za procjenu nepoznatih parametara brojem su:

=

=

−=

n

ii

n

iii

xnx

yxnyxˆ

1

22

1β , xˆyˆ βα −= .

Procjena β zove se regresijski koeficijent, a procjena α konstantni član.

Izrazi za procjenu varijance osnovnog skupa, standardne devijacije i koeficijenta varijacije su:

( )

21

2

2

−=∑

=

n

yyˆ

n

iii

σ , 2σσ ˆˆ = , 100y

ˆV

σ=

Page 86: Statistika - Sve

86

Ako su ispunjene polazne pretpostavke u analizi modela, sampling-distribucija procjenitelja parametara poznatog je oblika. Dani oblik sampling-distribucije omogućuje da se formiraju intervalne procjene parametara i donese sud o preciznosti procjena i njihovoj pouzdanosti. Kad je varijanca normalno distribuiranog osnovnog skupa poznata, intervalna procjena parametra β je:

ββ σββσβ ˆˆ zˆzˆ +<<−

Kad varijanca normalno distribuiranog osnovnog skupa nije poznata, sampling-distribucija procjenitelja parametra β oblika je Studentove distribucije s (n − 2) stupnja slobode, pa je intervalna procjena parametra β :

ββ σββσβ ˆˆ tˆtˆ +<<−

Standardna greška procjene (standardna devijacija sampling-distribucije regresijskih koeficijenata) je

∑=

−=

n

ii

ˆ

xnx

ˆ

1

22

2σσ β , ( )

21

2

2

−=∑

=

n

yyˆ

n

iii

σ

Intervalna procjena parametra α (varijanca normalno distribuiranog skupa je poznata):

αα σαασα ˆˆ zˆzˆ +<<−

odnosno (varijanca normalno distribuiranog skupa nije poznata):

αα σαασα ˆˆ tˆtˆ +<<−

Standardna greška procjene je:

−=

=

=n

ii

n

ii

ˆ

xnxn

1

22

1

22σσ α

Regresijski model s procijenjenim parametrima rabi se za predviđanje (prognozu) razine zavisne varijable. Predviđanje se provodi brojem i intervalom. Prognostička vrijednost izračunava se uvrštenjem pretpostavljene vrijednosti nezavisne varijable u regresijsku jednadžbu

ff xˆˆy βα +=

Sampling-distribucija procjenitelja zavisne varijable oblika je Studentove distribucije s

Page 87: Statistika - Sve

87

(n − 2) stupnja slobode, pa je prognostički interval zavisne varijable za pretpostavljenu vrijednost nezavisne varijable fx oblika:

ff yffyf tyYty σσ +<<−

Standardna greška procjene je: ( )∑

=−

−++=

n

ii

f

y

xnx

xx

f

1

22

21

1σσ

Analiza varijance za model jednostavne regresije oslanja se na raščlambu zbroja kvadrata odstupanja empirijskih vrijednosti zavisne varijable od njezine aritmetičke sredine. S formalnog stajališta jednaka je dekompoziciji predočenoj za model jednostavne regresije u sklopu deskriptivne statistike.

( ) ( ) ( )∑ ∑∑= ==

−+−=−n

i

n

iiii

n

ii yyyyyy

1 1

22

1

2

U razvijenom obliku zbrojevi kvadrata dani su jednadžbama:

2

1

22 yny)yy(STn

iii

n

ii

−=−= ∑∑==

2

11

2 ynyxˆyˆ)yy(SP i

n

ii

n

iii

n

ii

−+=−= ∑∑∑===

βα

( ) i

n

ii

n

ii

n

i

n

iiii yxˆyˆyyySR ∑∑∑ ∑

=== =

−−=−=111 1

22 βα

Procjene varijance i komponenti (sredine kvadrata, mean squares) određuju se tako da se pojedini zbrojevi kvadrata podijele pripadajućim stupnjevima slobode. Veličine za analizu varijance predočeni su u tabeli analize varijance (ANOVA, Analysis of Variance).

Izvor varijacija

Stupnjevi slobode

Zbroj kvadrata

Sredina kvadrata

Protumačen modelom

1

2)yy(SP i

n

ii

−=∑=

SP / 1

Rezidualna odstupanja

n−2

( )∑=

−=n

iii yySR

1

2

SR / (n−2)

Ukupno

n−1

2)yy(ST i

n

ii

−=∑=

--

Page 88: Statistika - Sve

88

Veličine u tabeli analize varijance primjenjuju se u različitim postupcima. Primjerice, rezidualna sredina kvadrata procjena je varijance osnovnog skupa, omjer protumačenog i ukupnog zbroja kvadrata je koeficijent determinacije, F-omjer je test veličina u postupku testiranja hipoteza o značajnosti regresije, itd. U praksi se testira hipoteza o značajnosti parametra uz nezavisnu varijablu. Nulta hipoteza sadrži tvrdnju da je parametar osnovnog skupa 0=β , a alternativna hipoteza da je parametar osnovnog skupa 0≠β . Ako je nulta hipoteza istinita i ako su ispunjene pretpostavke o modelu, test veličina

( )( )

21

2 1

2

1

σ

/yy

n/SR

/SPF

n

ii∑

=

−=

−=

pripada F-distribuciji sa [ ]21 −n, stupnjeva slobode. Odluka se donosi usporedbom empirijskog F-omjera s teorijskom vrijednosti F-distribucije za razinu signifikantnosti α i broj stupnjeva slobode [ ]21 −n, . Nulta hipoteza se prihvaća ako je empirijski F-omjer manji od teorijske vrijednosti F-distribucije, u protivnom se ona ne prihvaća. Odluka se ekvivalentno donosi na temelju p-vrijednosti (nulta hipoteza se prihvaća ako je p-vrijednost veća od α )

13.2. Jednostavna krivolinijska regresija Odnosi među dvjema pojavama mogu biti nelinearni. Model kojim se izražavaju ti odnosi naziva se modelom jednostavne krivolinijske regresije. Neki od njih lineariziraju se prikladnom transformacijom varijabli, te se analiziraju na isti način kao i model jednostavne linearne regresije. Najčešće se provodi logaritamska transformacija nezavisne i zavisne varijable ili obiju varijabli, zatim recipročna transformacija nezavisne ili zavisne varijable, i tome slično. Pregled odabranih transformacija koje se odnose na funkcionalni dio modela prikazan je u tabeli. Oblik modela Transformacije varijabli Linearizirani oblik modela

xey βα=

yln

xlnyln βα += βαxy =

xlog,ylog

xloglogylog βα += xy αβ=

ylog

βα logxlogylog +=

xlogy βα +=

xlog

xlogy βα +=

xy

βα += 1

y

1 x

yβα +=1

Page 89: Statistika - Sve

89

Proizvodnja i prosje čni troškovi

0

200

400

600

800

1000

1200

1400

1600

1800

0 10 20 30 40 50 60 70

proizvodnja (u tisućama komada)

pros

ječ

ni tr

oško

vi

Proizvodnja i prosje čni troškovi (logaritamske vrijednosti)

2,7

2,75

2,82,85

2,92,95

3

3,05

3,13,15

3,2

1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8

log (proizvodnja)

log

(tro

škov

i)

Primjer 13.2

Proizvodnja proizvoda u tisućama komada (varijabla X) i prosječni troškovi proizvodnje (varijabla Y) iznose:

iy 550 580 620 700 750 815 895 997 1195 1541

ix 60 54 50 45 36 32 25 23 18 10

a) Konstruirajte dijagram rasipanja s aritmetičkim mjerilima na osima, te s logaritamskim transformiranim vrijednostima varijabli. b) Procijenite parametre regresijskog modela: iii xy εα β= , , n, , i K21= . Kako glasi jednadžba s procijenjenim parametrima? Izračunajte regresijske vrijednosti. c) Odredite sve elemente u tabeli ANOVA d) Izračunajte ove veličine: . βσσ ˆ,r,r,ˆ 22

e) Odredite granice 95%-tnog intervala procjene parametra β .

� a) b) Logaritamski oblik modela osnovnog skupa: iii εlogxlogβ logylog ++= α

Model uzorka: iii εlogxlog βˆlogylog ++= α

xi yi log xi log yi log xi·log yi log2xi iy log iy

60 550 1,77815 2,74036 4,87278 3,16182 2,74872 560,68289 54 580 1,73239 2,76343 4,78735 3,00119 2,77538 596,17838 50 620 1,69897 2,79239 4,74419 2,88650 2,79485 623,51849 45 700 1,65321 2,84510 4,70355 2,73311 2,82151 662,99195 36 750 1,55630 2,87506 4,47447 2,42208 2,87797 755,03885 32 815 1,50515 2,91116 4,38173 2,26548 2,90777 808,67018 25 895 1,39794 2,95182 4,12647 1,95424 2,97023 933,75591 23 997 1,36173 2,99870 4,08341 1,85430 2,99133 980,23691 18 1195 1,25527 3,07737 3,86294 1,57571 3,05335 1130,71545 10 1541 1,00000 3,18780 3,18780 1,00000 3,20208 1592,49632 353 8643 14,93912 29,14319 43,22468 22,85442 29,14319 8644,28533

Page 90: Statistika - Sve

90

Izvor varijacije Stupnjevi slobode Suma kvadrata Sredina kvadrata Protumačen regresijom Rezidualna odstupanja

1 8

0,1822 0,001969

0,1822 0,00024651

Ukupno 9 0,1841 -

Procjena varijance regresije 0,0002461 Procjena standardne devijacije regresije 0,01569 Koeficijent determinacija 0,9893 Korigirani koeficijent determinacije 0,9880

∑ ∑

∑ ∑∑

= =

= ==

−=

n

i

n

iii

n

i

n

ii

n

iiii

xlogn

xlog

ylogxlogn

ylogxlogˆ

1

2

1

2

1 11

1

1

β =

10

93912148544222

10

143192993912142246843

2,,

,,,

×−= − 0,58261

−= ∑∑

=

=n

ii

n

ii

xlogn

ˆn

ylogˆlog

1

1 1 βα = ( )

10

9391214582610

10

1431929 ,,

, −− =3,78469

Jednadžba s procijenjenim parametrima: xlog,,ylog 582610784693 −=

Jednadžba u nelogaritamskom obliku: 582610 019646091 ,x,y −= c)

d) Korigirani koeficijent determinacije, 2r računa se pomoću koeficijenta determinacije, a u njegovom računanju uzima se u obzir i broj stupnjeva slobode odnosno veličina uzorka:

( )22 12

11 r

n

nr −

−−−=

e) Granice intervala procjene parametra: ( ) 950,tˆtˆP ˆˆ =+<<− ββ σββσβ

( ) 95002141030625826100214103062582610 ,,,,,,,P =×+−<<×−− β ( ) 950533230631980 ,,,P =−<<− β

U sklopu potpore EXCEL-a nalazi se program za regresijsku analizu (Tools ⇒ Data Analysis ⇒ regression … izbor zavisne i nezavisne varijable …lokacija podataka … izbor mjesta ispisa ...) Ako je riječ o regresijskim modelima koji se lineariziraju, potrebno je provesti transformaciju varijabli. U tu svrhu se rabe odgovarajuće funkcije (Insert ⇒ fx

Function ⇒ Math&Trig ⇒ ..ln…log10) Primjenom EXCEL-a dobivaju se ovi rezultati:

Page 91: Statistika - Sve

91

SUMMARY OUTPUT

Regression StatisticsMultiple R 0,994640116R Square 0,98930896Adjusted R Square 0,98797258Standard Error 0,015687055Observations 10

ANOVAdf SS MS F Significance F

Regression 1 0,182173334 0,182173334 740,29018 3,5876E-09Residual 8 0,001968669 0,000246084Total 9 0,184142003

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 3,784691563 0,032371617 116,9138856 3,202E-14 3,71004248 3,859340647log x -0,58261313 0,021413086 -27,20827412 3,588E-09 -0,631991792 -0,53323446

RESIDUAL OUTPUT

Observation Predicted log y Residuals Standard Residuals1 2,748717305 -0,008354615 -0,564886652 2,775376219 -0,011948226 -0,8078640393 2,794849338 -0,002457649 -0,1661707734 2,821508253 0,023589787 1,5949933535 2,877969298 -0,002908035 -0,1966230726 2,907771429 0,003386179 0,2289521967 2,970233365 -0,01841033 -1,2447909348 2,991331052 0,007364106 0,4979146449 3,053353325 0,02401458 1,623715177

10 3,202078437 -0,014275799 -0,965239902

Vježbe 1. Procjenjuju se parametri modela iii exy ++= βα , i = 1, 2,…, n. Postupak se provodi

na temelju 12 parova vrijednosti varijable X (prodajna cijena u eurima po kg) i potrošnja proizvoda po stanovniku (zavisna varijabla, u kg). Potrošnja i cijene za 12 područja jednog tržišta dane su u tabeli:

Potrošnja 63,9 63,4 56,1 62,1 77,6 80,1 82,0 85,4 84,6 80,5 81,4 85,2 Cijena 67,2 73,3 79,5 76,3 60,4 59,7 59,0 56,8 58,7 65,6 66,4 63,8

a) Napravite dijagram rasipanja. Što se zaključuje na temelju tog prikaza? b) Kako glasi linearna regresijska jednadžba s procijenjenim parametrima? c) Izračunajte regresijske vrijednosti, rezidualna odstupanja i relativna rezidualna odstupanja. d) Odredite sve elemente u tabeli ANOVA e) Kolika je procjena varijance, standardne devijacije, koeficijenta varijacije, koeficijenta

determinacije i korigiranog koeficijenta determinacije?

Page 92: Statistika - Sve

92

f) Odredite granice intervala procjene (pouzdanost 95%) parametra β, parametra α, očekivane vrijednosti varijable Y za vrijednost nezavisne varijable =0x 59,0.

2. Zaduženja poslovnih banaka kod Centralne banke (zavisna varijabla, u mlrd. eura) i prosječna eskontna stopa (nezavisna varijabla, u %) bili su:

Godina 1994. 1995. 1996. 1997. 1998. 1999. 2000. 2001 2002. Zaduženje 353 380 448 521 601 624 705 790 840 Eskontna stopa 3,11 3,29 3,90 4,37 4,52 4,34 5,00 5,25 6,01

a) Konstruirajte dijagram rasipanja. b) Odnos zaduženja i eskontne stope predočuje se modelom jednostavne linearne jednadžbe,

kako glasi model osnovnog skupa?

c) Izračunajte ove vrijednosti: 22 r,r,V,ˆ,,ˆ,,ˆ ˆˆ σσβσα βα .

d) Odredite granice 95%-tnog intervala procjene parametara uz regresorsku varijablu. e) Procijenite brojem i 95%-tnim intervalom opseg zaduženja poslovnih banaka kod

Centralne banke ako je eskontna stopa 7%. f) Napravite tabelu ANOVA i interpretirajte rezultate regresijske analize. 3. Ulaganja u reklamu u tisućama eura (varijabla X) i ostvarena prodaja u tisućama komada (varijabla Y) iznose:

xi 370 200 350 150 230 100 400 266 340 280 yi 71,0 30,0 87,7 25,0 38,0 23,8 89,0 50,0 65,0 61,0

a) Konstruirajte dijagram rasipanja s originalnim vrijednostima varijabli, a zatim s logaritamskim vrijednostima varijable Y i originalnim vrijednostima varijable X.

b) Procijenite parametre regresijskog modela: ix

iiey εα β ⋅= , i = 1, 2,…, n.

c) Izračunajte ove vrijednosti: 22 r,r,V,ˆ,,ˆ,,ˆ ˆˆ σσβσα βα .

d) Napravite tabelu ANOVA i interpretirajte rezultate regresijske analize. e) Procijenite brojem i 95%-tnim intervalom prodaju ako ulaganja u reklamu iznose 90 tisuća

komada. 4. Na temelju 18 parova vrijednosti varijabli „osobna potrošnja“ (zavisna varijabla) i „raspoloživi dohodak“ (nezavisna varijabla) procijenjeni su parametri linearnog regresijskog modela. Regresijski koeficijent je 0,80348, a njegova standardna greška 0,07253. Vrijednost je konstantnog člana 439,213.

a) Kako glasi model osnovnog skupa, a kako linearna regresijska jednadžba s procijenjenim parametrima?

b) Može li se prihvatiti pretpostavka da varijabla „raspoloživi dohodak“ u modelu nije signifikantna? Testirajte na razini 5% signifikantnosti. Primijenite t-test. Pokažite da se do istog zaključka dolazi uporabom F-testa.

Page 93: Statistika - Sve

93

14. LINEARNA KORELACIJA Korelacijska analiza sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakosti statističke veze među pojavama. Ako je povezanost po obliku linearna, govori se o linearnoj korelaciji. Polazna veličina za mjerenje jakosti i smjera povezanosti dviju pojava je kovarijanca. Po definiciji, kovarijanca je prvi mješoviti moment numeričkih varijabli X i Y. Ako se raspolaže parovima njihovih vrijednosti (xi, yi), i = 1, 2, …, n, kovarijanca je:

( ) ( )( )yyxxn

Y,Xcov i

n

ii, −−== ∑

=111

ili u razvijenom obliku:

yxyxn

n

iii, ⋅−= ∑

=111

1µ , ∑=

=n

iix

nx

1

1, ∑

=

=n

iiy

ny

1

1

Ako parovi vrijednosti (xi, yi), i = 1, 2,…, n čine uzorak, procjenitelj kovarijance osnovnog skupa je:

( )( )yyxxn

ˆ i

n

ii, −−

−= ∑

=111 1

odnosno, ( )∑=

⋅⋅−−

=n

iii, yxnyx

111 1

Kovarijanca je jednaka nuli ako su sve vrijednosti barem jedne varijable međusobno jednake, pa je i varijanca (standardna devijacija) te varijable jednaka je nuli. Kovarijanca je veća od nule (pozitivna) ako postoji tendencija da iznadprosječne vrijednosti jedne varijable dolaze s iznadprosječnim vrijednostima druge varijable, i obrnuto. Postoji li tendencija da iznadprosječne vrijednosti jedne varijable prate ispodprosječne vrijednosti druge varijable, kovarijanca je manja od nule (negativna). Budući da je kovarijanca simetrična s obzirom na oznake varijabli, svejedno je koja će se varijabla označiti s X a koja s Y. Kovarijanca ovisi o mjernim jedinicama varijabli X i Y pa se njome prosuđuje postojanje kovarijacija među pojavama. Za mjerenje stupnja povezanosti pojava koristi se

Page 94: Statistika - Sve

94

kovarijanca standardiziranih vrijednosti varijabli X i Y, to jest Pearsonov koeficijent korelacije ili produkt moment formula:

yx

rσσ

µ11= , 11 ≤≤− r

Ovaj izraz može se razviti na više načina, a jedan od njih je:

⋅−

⋅−

⋅⋅−=

∑∑

==

=

n

ii

n

ii

n

iii

ynyxnx

yxnyx

r

1

22

1

22

1

Koeficijent poprima vrijednosti iz zatvorenog intervala od minus do plus jedan. Prve ocjene o stupnju i smjeru povezanosti varijabli mogu se donijeti na temelju dijagrama rasipanja.

Page 95: Statistika - Sve

95

Vrijeme za reklame i prodaja

100

150

200

250

300

350

300 400 500 600 700 800 900

Vrijeme za reklame (minuta)

Pro

daja

(tis

uća

kom

ada)

Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna korelacija među pojavama, vrijednost plus jedan da je potpuna i pozitivna smjera, a vrijednost minus jedan da je potpuna i negativnog smjera. Što je koeficijent po apsolutnoj vrijednosti bliži jedinici, veza je uža. Vrlo mala vrijednost koeficijenta ne mora nužno značiti da je slaba veza među pojavama, povezanost može biti uska ali krivolinijska. Primjer 14.1

Prikupljeni su sljedeći mjesečni podaci:

xi 352 373 411 441 462 490 529 577 641 692 743 801 yi 166 153 177 201 216 208 227 238 268 268 274 302

Varijabla X predočuje ukupno vrijeme za reklame na nacionalnoj televiziji u minutama, a varijabla Y prodaju proizvoda u tisućama komada.

a) Konstruirajte dijagram rasipanja b) Izračunajte vrijednost kovarijance kao deskriptivno-statističke veličine. Odredite vrijednost procijenjene kovarijance osnovnog skupa. c) Izračunajte vrijednost Pearsonova koeficijenta korelacije. Što zaključujete ne temelju dobivenog rezultata.

� a)

b) 542,6666712

65121 ===∑

=

n

xx

n

ii

224,8333312

26981 ===∑

=

n

yy

n

ii

Page 96: Statistika - Sve

96

ix iy xxi − yyi − ( )( )yyxx ii −− ( )2xxi − ( )2yyi −

352 166 -190,66667 -58,83333 11217,55556 36353,77778 3461,36111 373 153 -169,66667 -71,83333 12187,72222 28786,77778 5160,02778 411 177 -131,66667 -47,83333 6298,05556 17336,11111 2288,02778 441 201 -101,66667 -23,83333 2423,05556 10336,11111 568,02778 462 216 -80,66667 -8,83333 712,55556 6507,11111 78,02778 490 208 -52,66667 -16,83333 886,55556 2773,77778 283,36111 529 227 -13,66667 2,16667 -29,61111 186,77778 4,69444 577 238 34,33333 13,16667 452,05556 1178,77778 173,36111 641 268 98,33333 43,16667 4244,72222 9669,44444 1863,36111 692 268 149,33333 43,16667 6446,22222 22300,44444 1863,36111 743 274 200,33333 49,16667 9849,72222 40133,44444 2417,36111 801 302 258,33333 77,16667 19934,72222 66736,11111 5954,69444 6512 2698 0,00000 0,00000 74623,33333 242298,66667 24115,66667

Kovarijanca: ( )( ) 333337462312

11

111 ,yyxx

n i

n

ii, ×=−−= ∑

=

µ = 6218,61111

Procjena kovarijance osnovnog skupa:

( )( )yyxxn

ˆ i

n

ii, −−

−= ∑

=111 1

1µ ==11

333337462,6783,93939

c) Pearsonov koeficijent korelacije: yx

rσσ

µ11=

( )==

−=

12

67242298,6662

n

xxixσ 142,09699

( )==

−=

12

724115,66662

n

yyiyσ 44,829; =

×=

44,829142,09699

6218,61111r 0,97622

Između opsega prodaje i reklamnog vremena postoji pozitivna uska korelacija Koeficijent linearne korelacije također je jednak drugom korijenu koeficijenta

determinacije, a predznak koeficijenta korelacije uvijek je jednak predznaku regresijskog koeficijenta, tj.

( )

( )∑

=

=

−=

n

ii

n

ii

yy

yyr

1

2

1

2

, βsign sign y=

Vrijede jednakosti: x

y

ˆ

ˆrˆ

σσ

β = , y

x

ˆ

ˆˆrσσβ= .

Page 97: Statistika - Sve

97

Coefficients Standard ErrorIntercept 57,70243 12,13095X Variable 1 0,30798 0,02163

Regression StatisticsMultiple R 0,97622R Square 0,95301Adjusted R Square 0,94831Standard Error 10,64478Observations 12

Primjer 14.2

Na osnovi podataka iz Primjera 14.1 odredite linearnu regresijsku jednadžbu s procijenjenim parametrima i standardne pokazatelje.

Regresijska jednadžba s procijenjenim parametrima: x,,y 3079807024357 +=

6447810,ˆ =σ

9530102 ,r =

9483102 ,r = 976220,r = 1309512,ˆ =ασ

021630,ˆ =βσ Koeficijent korelacije osnovnog skupa označava se s ρ . Koeficijent linearne korelacije r procjenitelj je koeficijenta korelacije osnovnog skupa brojem. Za procjenu koeficijenta korelacije osnovnog skupa pomoću uzoraka koristi se isti izraz kao za izračun koeficijenta linearne korelacije r u sklopu deskriptivne statistike. Sampling-distribucija procjenitelja ovisi o veličini uzorka n i parametru ρ . Za izračun granica ( )α-1100 % -tnog intervala pouzdanosti rabi se transformacijski izraz (Fisherov):

( )ααα −=

−+

−+<<

−−

−+

131

1

2

1

31

1

2

1 22

n

z

r

rlnZ

n

z

r

rlnP //

gdje je: r = koeficijent korelacije uzorka, 2/zα = koeficijent pouzdanosti, a određuje se

na uobičajen način pomoću površina ispod jedinične normalne distribucije. Vrijednosti su navedenih granica tabelirane, a do granica procjene koeficijenta korelacije osnovnog skupa dolazi se inverznom interpolacijom, čemu služe posebne tablice.

U programskoj potpori EXCEL-a Fisherove transformacije određuju se na temelju opcija Insert ⇒ fx function ⇒ Statistical ⇒ FISHER, i to za danu vrijednost r. Do granica procjene koeficijenta korelacije osnovnog skupa ρ dolazi se opcijom FISHERINV.

Testiranje hipoteze o koeficijentu korelacije osnovnog skupa temelji se na odgovarajućoj sampling-distribuciji. Ako uzorak potječe iz osnovnog skupa koji se ravna prema normalnoj distribuciji s koeficijentom korelacije 0=ρ , test veličina je:

Page 98: Statistika - Sve

98

21

2

r

nrt

−=

i pripada Studentovoj distribuciji s (n − 2) stupnja slobode. Odluka se donosi kao u svakom t-testu, usporedbom izračunane i kritične (teorijske) vrijednosti Studentove distribucije. Test može biti dvosmjeran i jednosmjeran. Ako je parametar ρ bilo koji broj iz intervala njegove varijacije, test hipoteze o pretpostavljenoj vrijednosti provodi se pomoću jedinične normalne distribucije.

Sampling-distribucija Z veličine (Fisherove transformacije) r

rlnZ

−+=

1

1

2

1 aproksimativno

je oblika normalne distribucije sa sredinom ρρµ

−+=

1

1

2

1lnZ i standardnom devijacijom

3

1

−=

nZσ . Test veličina, pisana u razvijenom obliku, za slučaj kada je pretpostavljena

vrijednost koeficijenta korelacije osnovnog skupa 0ρ jest

( )

−+

−+−=

0

0

1

1

2

1

1

1

2

13

ρρ

lnr

rlnnz

Odluka se donosi usporedbom test-veličine s odgovarajućom vrijednosti jedinične normalne distribucije.

Primjer 14.3

Analizom opsega prodaje jednog proizvoda (varijabla Y, u tisućama komada) 2011. godine i prosječnog broja stanovnika te godine (varijabla X, u tisućama) na 17 segmenata tržišta dobivena je regresijska jednadžba x,y 6250250+= . Koeficijent determinacije je 0,8464. Zbroj kvadrata odstupanja zavisne varijable od njezine aritmetičke sredine iznosi 9765,625. Zbroj kvadrata odstupanja vrijednosti nezavisne varijable od njezine aritmetičke sredine iznosi 21160. a) Koliki je koeficijent linearne korelacije? b) Odredite granice 95%-tnog intervala procjene koeficijenta linearne korelacije osnovnog skupa. c) Testirajte hipotezu da je koeficijent linearne korelacije osnovnog skupa jednak nuli. Alternativnom hipotezom pretpostavite da je koeficijent korelacije osnovnog skupa veći od nule. Razina signifikantnosti je 5% d) Odredite sve elemente u tabeli ANOVA e) Odredite granice 95%-tnog intervala procjene parametra β . f) Ako se pretpostavi da će na jednom segmentu tržišta broj stanovnika biti 500 tisuća, kolika je prognostička vrijednost prodaje?

Page 99: Statistika - Sve

99

a) =2r 0,8464

Koeficijent linearne korelacije: 846402 ,rr == = 0,92

b) Granice 95%-tnog intervala procjene koeficijenta korelacije osnovnog skupa:

( )ααα −=

−+

−+<<

−−

−+

131

1

2

1

31

1

2

1 22

n

z

r

rlnZ

n

z

r

rlnP //

n = 17, ( ) 9501 ,=−α 050,=α 9610250 ,z , = r = 0,92

9503179201

9201

2

1

3179201

9201

2

1 02500250 ,z

,

.lnZ

z

,

,lnP ,, =

−+

−+<<

−−

−+

( ) 9501128206521 ,,Z,P =<<

( )9712078770 ,,P << ρ

c) Hipoteze glase: 00 ≤ρKH , 01 >ρKH

Test veličina (empirijski t-omjer): 0915599201

217920

1

222

,,

,

r

nrt =

−=−

−=

Razina signifikantnosti: 050= ,α Test je jednosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: αtt < ,

df = 15, 7531050 ,t , = 7531,t >

Odluka: empirijski t-omjer veći je od teorijske (kritične) vrijednosti, tj. 9,09155 >1,753. Ne prihvaća se 0H na danoj razini signifikantnosti.

d) Izvor varijacije Stupnjevi slobode Zbroj kvadrata Sredina kvadrata

protumačen modelom rezidualna odstupanja

1 15

8265,625 1500,000

8265,625 100,000

ukupno 16 9765,625 -

( ) 62597651

2 ,yySTn

i

=−=∑=

846402 ,ST

SPr == SP = 8265,625 SR = ST− SP = 1500

e)

( )=

−=

−=∑

=

221

2

2

n

SR

n

yyˆ

n

iii

σ 100 06875021160

100

1

22

2

,xnx

ˆn

ii

ˆ ==−

=∑

=

σσ β

x,y 6250250+= ( ) 950,tˆtˆP ˆˆ =+<<− ββ σββσβ 0250,t (15) =2,131

( ) 9500687501312625006875013126250 ,,,,,,,P =×+<<×− β

( ) 950771510478490 ,,,P =<< β

f) x = 500 55625006250250 ,,y =×+= tisuća komada.

Page 100: Statistika - Sve

100

Vježbe 1. Dane su ove vrijednosti varijabli:

xi 14 6 8 2 12 2 9 11 yi 6 4 5 1 5 3 4 6

a) Konstruirajte dijagram rasipanja. b) Izračunajte vrijednost kovarijance kao deskriptivno-statističke veličine. c) Izračunajte vrijednost Pearsonova koeficijenta korelacije. d) Kako glasi linearne regresijska jednadžba s procijenjenim parametrima? e) Pokažite da je koeficijent linearne korelacije jednak umnošku regresijskog koeficijenta i

omjera odgovarajućih standardnih devijacija varijabli. 2. Analizira se odnos dviju pojava modelom jednostavne regresije. Točke u dijagramu rasipanja protežu se od donjeg lijevog kuta prvog kvadranta koordinatnog sustava prema gornjem desnom kutu sustava. Zbroj opaženih vrijednosti varijable X (nezavisne varijable) iznosi 520, a njezina aritmetička sredina 52. Zbroj opažanja vrijednosti Y (zavisne varijable) iznosi 430. Omjer standardnih devijacija varijabli X i Y jednak je jedan. Zbroj kvadrata odstupanja opaženih vrijednosti zavisne varijable od regresorskih vrijednosti te varijable jednak je 408, a zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable jednak je 392.

a) Koliki je koeficijent linearne korelacije? b) Odredite granice 95%-tnog intervala procjene koeficijenta korelacije osnovnog skupa c) Odredite sve elemente u tabeli ANOVA d) Testirajte hipotezu da je koeficijent korelacije osnovnog skupa jednak nuli. e) Kako glasi model regresije s procijenjenim parametrima? f) Kolika je procjena standardne devijacije regresije? 4. Trgovačko poduzeće ima 136 prodavaonica na malo. Ukupan promet svih prodavaonica tijekom godine bio je 527,2 milijuna eura. Za ostvarenje tog prometa utrošeno je 24819 tisuća

sati. ii

i yx∑=

136

1

=105474,8; ∑=

136

1

2

iix =2335,97; ∑

=

136

1

2

iiy =4836570.

a) Procijenite vrijednost koeficijenta linearne korelacije brojem i 95%-tnim intervalom. b) Kako glasi jednadžba linearne regresije s procijenjenim parametrima? Zavisna varijabla –

promet, nezavisna – radni sati. c) Izračunajte vrijednost standardne greške konstantnog člana i regresijskog koeficijenta. d) Koliki je koeficijent determinacije i korigirani koeficijent determinacije, te procjena

standardne devijacije osnovnog skupa i koeficijenta varijacije? e) Napišite regresijsku jednadžbu s procijenjenim parametrima i standardne pokazatelje. f) Procijenite brojem i 90%-tnim intervalom pouzdanosti vrijednost zavisne varijable

osnovnog skupa ako je empirijska vrijednost nezavisne varijable 143 tisuće radnih sati.

Page 101: Statistika - Sve

101

15. MODELI VREMENSKIH SERIJA Vremenska serija predstavlja niz kvantitativnih podataka koji su prikupljani u pravilnim vremenskim intervalima. Razlikuju se intervalni niz od trenutačnog vremenskog niza. Intervalni niz nastaje zbrajanjem vrijednosti pojave po intervalima vremena i ima svojstvo kumulativnosti. Trenutačni niz sastoji se od kronološki uređenih vrijednosti koje su u svezi s odabranim vremenskim točkama. Modelima se opisuje razvoj pojava u vremenu. U modeliranju polazi se od raščlambe serije na komponente koje očituju tipične oblike kovarijacije pojave s vremenom. Te komponente su: trend, ciklična, sezonska i slučajna (rezidualna) komponenta. Komponenta trenda pokazuje dugoročnu (sekularnu) tendenciju kretanja pojave u vremenu. Izražava se nekom funkcijom vremena. Prema obliku te funkcije trend je linearni, parabolični, eksponencijalni, itd. Ciklična komponenta predstavlja periodične varijacije pojave u trajanju od 2 ili više godina (ciklusi). Na relativno kratkom vremenskom intervalu ona se teško identificira pa se kod kratkih vremenskih serija ne razdvaja od komponente trenda. Sezonska komponenta može se uočiti u serijama mjesečnih ili kvartalnih podataka. Predstavlja periodične oscilacije pojave u razdoblju od jedne godine. Za mnoge pojave sezonska kretanja su u pravilu lako uočljiva. Trend, ciklična i sezonska komponenta determinističke su komponente i daju se izraziti nekom funkcijom vremena. Međutim, na razvoj vremenske pojave utječu i nesistemski faktori. Javljaju se slučajne varijacije ("noise") ili povremeno neki poseban događaj uzrokuje ekstremne vrijednosti pojave ("outlier"). Takve iregularne promjene, koje ne očituju neku pravilnost, predstavljaju slučajnu (stohastičku) komponentu. Svaka vremenska serija ne mora sadržavati sve navedena komponente. Uostalom, stacionarne vremenske serije ne sadrže trend, njihova razina pojave ne mijenja se s vremenom, nemaju prisutne striktno periodične varijacije i njihove varijance ne ovise o vremenu. Model temeljen na standardnoj dekompoziciji može biti aditivan, multiplikativan ili mješovit. Opći oblik aditivnog modela je:

eSCTY +++=

Page 102: Statistika - Sve

102

gdje Y predočuje empirijsku seriju, T vrijednost trenda, C vrijednost ciklične komponente, a S i e vrijednosti sezonske i slučajne komponente. U ovom modelu sve komponente se zbrajaju i izražene su u istim mjernim jedinicama kao i vrijednosti serije. Kako se trend i ciklična komponenta često ne razdvajaju model se može predočiti izrazom: eSTY ++= . Opći oblik multiplikativnog modela je:

εIITY S ⋅⋅=

U ovom modelu trend-ciklus komponenta izražena je u mjernim jedinicama pojave, a sve ostale komponente dane su u relativnom iznosu (indeksi nepomnoženi sa sto). Multiplikativni model se logaritamskom transformacijom svodi se na aditivni, tj.

εIlogIlogTlogYlog S ++=

Ako serija sadrži negativne vrijednosti ili nulu, ovaj model se ne može primijeniti pa se rabi mješoviti (pseudoaditivni) model

( )1−++= εIITTY S

gdje su vrijednosti varijable Y vrijednosti serije, T je trend-ciklus komponenta izražena u mjernim jedinicama vrijednosti serije, a sezonska i iregularna komponenta ( εI,I S ) u

relativnom iznosu.

13.1. Modeli trenda Modelima trenda statistički se opisuje dugoročna kovarijacija pojave s vremenom. Ako se pretpostavi da serija ne sadrži periodične komponente model trenda u općem obliku je

eTY += ili εITY ⋅= ili εTY =

gdje je T komponenta trenda predočena nepoznatom funkcijom vremena f(X), a e i ε su nepoznata odstupanja od trenda s obilježjima slučajnih varijabli. Statistička analiza modela trenda provodi se metodama regresijske analize. Pri tome je pristup sa stajališta deskriptivne ili inferencijalne statistike. Oblici modela koji se relativno često pojavljuju dani su u tabeli. U navedenim izrazima ty

su vrijednosti vremenske serije, tx je varijabla vrijeme koja dogovorno poprima

Page 103: Statistika - Sve

103

vrijednosti prvih n prirodnih brojeva ( == txt 1, 2, …, n), tε su vrijednosti slučajne varijable, 21 βββα ,,, , … su parametri.

Naziv modela

Oblik modela

Linearni trend (trend polinom prvog stupnja)

ttt xy εβα ++=

Parabolični trend drugog stupnja

tttt xxy εββα +++= 221

Eksponencijalni trend (jednostavni)

tx

tty εαβ= , ttt lnlnxlnyln εβα ++=

ttxt ey εβα ++= , tit xyln εβα ++=

Eksponencijalni trend (složeni), logaritamska parabola

txx

ttty εβαβ2

21= , tttt lnlnxlnxlnyln εββα +++= 22

1

ttt xxt ey εββα +++=

221 , tttt xxyln εββα +++= 2

21

Numerička analiza modela trenda obuhvaća procjenu nepoznatih parametara, određivanje pokazatelja reprezentativnosti i ispitivanje kakvoće modela. Uz pretpostavku da će trend biti postojan i u prognostičkom horizontu, model s procijenjenim parametrima može se koristiti i u prognostičke svrhe. Model linearnog trenda identičan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna varijabla. Oblika je ttt ubxay ++= , == txt 1, 2, …, n, gdje su ty

vrijednosti članova vremenske serije, a i b procjene nepoznatih parametara, tu

rezidualna odstupanja, a n broj članova niza. Jednadžba se uobičajeno predočuje u obliku

b xay += , , n, , i K21=

gdje je y vrijednost trenda. Uz jednadžbu se navode i oznake (razdoblje za koje je x=1; jedinica mjere vremena, jedinica mjere vrijednosti članova niza za koje se računa trend). Primijeni li se metoda najmanjih kvadrata, procjene parametara dobivaju se izrazima:

=

=

−=

n

tt

n

ttt

xnx

yxnyxb

1

22

1 , xbya ⋅−= , gdje je n

yy

n

tt∑

== 1 , n

xx

n

tt∑

== 1

Page 104: Statistika - Sve

104

Prodaja kompanije Eastman Kodak

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991

u m

ilijar

dam

a do

lara

Rezidualna odstupanja (razlike vrijednosti vremenskog niza i trenda) upućuju na disperziju oko trenda kao srednje vrijednosti i podloga su za određivanje varijance, standardne devijacije i koeficijenta varijacije

( )

n

yyn

iii

y

∑=

−= 1

2

2σ , 2yy σσ = , 100×=

yV y

y

σ.

Primjer 15.1

Podaci o prodaji (u milijardama $) koju je ostvarila kompanija Eastman Kodak u razdoblju 1970-1989. dani su u tabeli.

Godina

Prodaja

Godina

Prodaja

1970. 2,8 1980. 9,7 1971. 3,0 1981. 10,3 1972. 3,5 1982. 10,8 1973. 4,0 1983. 10,2 1974. 4,6 1984. 10,6 1975. 5,0 1985. 10,6 1976. 5,4 1986. 11,5 1977. 6,0 1987. 13,3 1978. 7,0 1988. 17,0 1979. 8,0 1989. 18,4

a) Navedeni niz prikažite grafički. b) Analizirajte model linearnog trenda sa stajališta deskriptivne statistike. Odredite trend vrijednosti i rezidualna odstupanja. Kolika je standardna devijacija i koeficijent varijacije trenda? Liniju trenda ucrtajte u grafikon.

� a)

Page 105: Statistika - Sve

105

b) Godina Prodaja Vrijeme Trend Rezidualna odstupanja

ty tx tt yx 2tx 2

ty ty tt yy −

1970. 2,8 1 2,8 1 7,8 1,7 1,1 1971. 3,0 2 6,0 4 9,0 2,4 0,6 1972. 3,5 3 10,5 9 12,3 3,1 0,4 1973. 4,0 4 16,0 16 16,0 3,9 0,1 1974. 4,6 5 23,0 25 21,2 4,6 0,0 1975. 5,0 6 30,0 36 25,0 5,3 -0,3 1976. 5,4 7 37,8 49 29,2 6,0 -0,6 1977. 6,0 8 48,0 64 36,0 6,8 -0,8 1978. 7,0 9 63,0 81 49,0 7,5 -0,5 1979. 8,0 10 80,0 100 64,0 8,2 -0,2 1980. 9,7 11 106,7 121 94,1 8,9 0,8 1981. 10,3 12 123,6 144 106,1 9,7 0,6 1982. 10,8 13 140,4 169 116,6 10,4 0,4 1983. 10,2 14 142,8 196 104,0 11,1 -0,9 1984. 10,6 15 159,0 225 112,4 11,8 -1,2 1985. 10,6 16 169,6 256 112,4 12,6 -2,0 1986. 11,5 17 195,5 289 132,3 13,3 -1,8 1987. 13,3 18 239,4 324 176,9 14,0 -0,7 1988. 17,0 19 323,0 361 289,0 14,7 2,3 1989. 18,4 20 368,0 400 338,6 15,5 2,9

Ukupno 171,7 210 2285,1 2870 1851,7 171,7 0,0

n = 20, 51020

2101 ,n

xx

n

tt

===∑

= 585820

71711 ,,

n

yy

n

tt

==

==∑

=

=−

−=∑

=

=n

tt

n

ttt

xnx

yxnyxb

1

22

1 = =×−

××−2510202870

58585102012285

,

,,,0,725188

970526050172518805888 ,,,,xbya =×−=−= Model linearnog trenda s procijenjenim parametrima:

tt x,,y 72518809705260 +=

x = 1, 1970. godine Jedinica za x je jedna godina

Jedinica za y je milijarda dolara Koeficijent b pokazuje da se vrijednost prodaje kompanije linearno povećavala u prosjeku 0,725 milijardi $ godišnje. Konstantni član a (≈ 0,97) predstavlja vrijednost trenda za godinu koja prethodi prvoj godini u nizu, tj. za 1969. godinu (x = 0).

Page 106: Statistika - Sve

106

Prodaja kompanije Eastman Kodak

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991

u m

ilijar

dam

a do

lara

y = 0,7252x + 0,9705R2 = 0,9261

( )

n

yyn

iii

y

∑=

−= 1

2

2σ20

9236027,= =1,39618 2yy σσ = =1,18160

100×=y

V yy

σ= =×100

510

181601

,

,11,25334

Model linearnog trenda u sklopu inferencijalne statistike jednak je modelu linearne regresije. Model osnovnog skupa oblika je

ttt exy ++= βα .

U modelu su ty vrijednosti serije, α i β nepoznati parametri, te nepoznate vrijednosti

slučajne varijable e za koju se pretpostavlja da su joj vrijednosti međusobno nekorelirane slučajne veličine s konstantnom varijancom te da su identično raspoređene po normalnoj distribuciji, s očekivanjem 0 i varijancom 2σ . Članovi vremenskog niza tvore uzorak. Primjenom procjenitelja pomoću uzorka se procjenjuju parametri i druge statističko-analitičke veličine. Izrazi za procjene parametara jednaki su onima iz deskriptivne statistike, tj. aˆ =α , bˆ =β . Model uzorka s procijenjenim parametrima je:

ttt exˆˆy ++= βα , tt xˆˆy βα +=

Osim parametara procjenjuju se standardna devijacija, koeficijent varijacije, standardne greška procjene i druge veličine. Dio ovih veličina temelji se na analizi varijance, koja je za linearni trend jednaka analizi varijance modela jednostavne linearne regresije.

Page 107: Statistika - Sve

107

SUMMARY OUTPUT

Regression StatisticsMultiple R 0,96231943R Square 0,92605869Adjusted R Square 0,92195084Standard Error 1,24551644Observations 20

ANOVAdf SS MS F

Regression 1 349,7218985 349,7219 225,4363Residual 18 27,9236015 1,5513112Total 19 377,6455

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 0,97052632 0,578581564 1,6774235 0,110739 -0,24502844 2,1860811X Variable 1 0,72518797 0,048299056 15,014537 1,27E-11 0,62371542 0,8266605

Primjer 15.2

Na temelju podataka iz Primjera 15.1 analizirajte model linearnog trenda sa stajališta inferencijalne statistike.

� Model s procijenjenim parametrima: tt x,,y 72518809705260 +=

Standardna greška procjene trenda pokazuje da je prosječno odstupanje stvarnih vrijednosti prodaje od trend-vrijednosti iznosi 1,246 milijardi $. Modelom linearnog trenda protumačeno je 92,6% odstupanja. Model jednostavnog eksponencijalnog trenda je t

xt

ty εαβ= , a u logaritamskom obliku

ttt lnlnxlnyln εβα ++= . Logaritamskom transformacijom model eksponencijalnog

trenda svodi se na model linearnog trenda. U lineariziranom modelu umjesto originalnih vrijednosti rabe se njihovi logaritmi. Parametri su procijenjeni metodom najmanjih kvadrata, a druge statističko-analitičke veličine dobiju se na način kao kod linearnog trenda. Pri tome se uvijek polazi od rezultata dobivenih na temelju logaritamskog oblika modela. Primjer 15.3

Podatke iz Primjera 15.1 prikažite grafički tako da na osi apscisa naznačite aritmetičko mjerilo za varijablu vrijeme, a na osi ordinata aritmetičko mjerilo za logaritme vrijednosti članova niza. a) Predočene varijacije prodaje modelom jednostavnog eksponencijalnog trenda i izračunajte uobičajene statističko analitičke veličine b) Kolika se prodaja (prema trendu) može očekivati u 1991. godini?

Page 108: Statistika - Sve

108

Prodaja kompanije Eastman Kodak

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990

ln y

t

� a)

Godina Prihod Vrijeme Trend

vrijednosti Prodaja prema

trendu

yt xt ln yt xt ln yt xt2 (ln yt)

2 ln ŷt ŷt 1970 2,8 1 1,02962 1,02962 1 1,06012 1,13 3,09 1971 3 2 1,09861 2,19722 4 1,20695 1,22 3,39 1972 3,5 3 1,25276 3,75829 9 1,56942 1,31 3,72 1973 4 4 1,38629 5,54518 16 1,92181 1,41 4,08 1974 4,6 5 1,52606 7,63028 25 2,32885 1,50 4,48 1975 5 6 1,60944 9,65663 36 2,59029 1,59 4,91 1976 5,4 7 1,68640 11,80479 49 2,84394 1,68 5,39 1977 6 8 1,79176 14,33408 64 3,21040 1,78 5,92 1978 7 9 1,94591 17,51319 81 3,78657 1,87 6,49 1979 8 10 2,07944 20,79442 100 4,32408 1,96 7,13 1980 9,7 11 2,27213 24,99338 121 5,16256 2,06 7,82 1981 10,3 12 2,33214 27,98573 144 5,43890 2,15 8,58 1982 10,8 13 2,37955 30,93410 169 5,66224 2,24 9,42 1983 10,2 14 2,32239 32,51343 196 5,39348 2,34 10,34 1984 10,6 15 2,36085 35,41281 225 5,57363 2,43 11,35 1985 10,6 16 2,36085 37,77366 256 5,57363 2,52 12,45 1986 11,5 17 2,44235 41,51990 289 5,96506 2,62 13,67 1987 13,3 18 2,58776 46,57975 324 6,69652 2,71 15,00 1988 17 19 2,83321 53,83105 361 8,02710 2,80 16,46 1989 18,4 20 2,91235 58,24701 400 8,48179 2,89 18,07

Ukupno 171,7 210 40,20988 484,05453 2870 86,81732

=−

−=

∑ ∑

=

= =n

tt

n

t

n

tttt

xnx

ylnxylnxb

1

22

1 1 =×−

×−2510202870

209884051005453484

,

,,,0,0930087 510,x =

Page 109: Statistika - Sve

109

=−= ∑=

xbylnn

alnn

tt

1

1 =×−× 51009300870209884020

1,,, 1,0339026

Model eksponencijalnog trenda s procijenjenim parametrima: tt x,,yln 0930087003390261 +=

a u nelogaritamskom obliku: tx,t e,y 0930087081201862 ⋅=

Elementi u tabeli ANOVA izračunavaju se izrazima predočenim u analizi modela jednostavne linearne regresije, s tim što se umjesto originalnih vrijednosti varijable rabe njihovi logaritmi. Primjenom programa za regresijsku analizu u EXCEL-u dobiveni su ovi rezultati: SUMMARY OUTPUT

Regression StatisticsMultiple R 0,9811686R Square 0,9626919Adjusted R Square 0,9606192Standard Error 0,11129Observations 20

ANOVAdf SS MS F Significance F

Regression 1 5,7526613 5,75266126 464,4691 2,64192E-14Residual 18 0,2229382 0,01238545Total 19 5,9755994

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 1,0339026 0,0516977 19,9990124 9,64E-14 0,9252898 1,14251545X Variable 1 0,0930087 0,0043156 21,5515461 2,64E-14 0,0839419 0,10207552 b) U 1991. godini (x = 22) očekuje se prodaja u vrijednosti od 21,76 milijardi dolara.

15.2. Pomični prosjeci Pomični prosjeci su aritmetičke sredine M uzastopnih vrijednosti članova vremenskog niza. Niz pomičnih prosjeka čini izvedeni niz koji ima manji stupanj varijabilnosti u usporedbi s izvornim nizom. Njima se izglađuje vremenska serija pa se mogu shvatiti kao lokalni model trenda. Ako je broj članova pomičnog prosjeka neparan (M = 2m + 1), računaju se pomoću izraza:

,yM

ym

msst

*t ∑

−=+= 1

mn,,m,mt −++= K21

Page 110: Statistika - Sve

110

Prodaja korporacije General Motors

4

5

6

7

8

9

10

1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990

Pro

daja

(m

ilijun

i jed

inic

a)

Prodaja yt Pomični prosjeci M=5 Pomični prosjeci M=7

gdje su *ty vrijednosti pomičnih prosjeka, a ty vrijednosti članova niza. Vrijednost

prosjeka pridružuje se razdoblju središnjeg člana pomičnog prosjeka. Kada je broj članova pomičnog prosjeka M paran broj, tj. M = 2m , provodi se postupak centriranja. Centrirani pomični prosjeci računaju se u obliku dvostrukih pomičnih prosjeka, tj. određivanjem jednostavnih pomičnih prosjeka od prethodnih pomičnih prosjeka od po dva člana. Primjer 15.4

Prodaja korporacije General Motors u razdoblju 1970-1989. (u milijunima jedinica)

Godina Prodaja Godina Prodaja Godina Prodaja Godina Prodaja 1970 5,3 1975 6,6 1980 7,1 1985 9,3 1971 7,8 1976 8,6 1981 6,8 1986 8,6 1972 7,8 1977 9,1 1982 6,2 1987 7,8 1973 8,7 1978 9,5 1983 7,8 1988 8,1 1974 6,7 1979 9 1984 8,3 1989 7,9

a) Izračunajte petogodišnje i sedmogodišnje pomične prosjeke b) Usporedite originalni niz i nizove izračunanih pomičnih prosjeka na jednom grafikonu.

� a) Godina Prodaja M =5 M =7

ty ( )5*ty ( )7*

ty

1970. 5,3 1971. 7,8 1972. 7,8 7,3 1973. 8,7 7,5 7,4 1974. 6,7 7,7 7,9 1975. 6,6 7,9 8,1 1976. 8,6 8,1 8,3 1977. 9,1 8,6 8,1 1978. 9,5 8,7 8,1 1979. 9 8,3 8,0 1980. 7,1 7,7 7,9 1981. 6,8 7,4 7,8 1982. 6,2 7,2 7,8 1983. 7,8 7,7 7,7 1984. 8,3 8,0 7,8 1985. 9,3 8,4 8,0 1986. 8,6 8,4 8,3 1987. 7,8 8,3 1988. 8,1 1989. 7,9

b)

Page 111: Statistika - Sve

111

Primjer 15.5

Mjesečni podaci o prodaji jeans-a u Velikoj Britaniji (u tisućama)

1980. 1981. 1982. 1983. 1984. 1985. Siječanj 1998 1924 1969 2149 2319 2137 Veljača 1968 1959 2044 2200 2352 2130 Ožujak 1937 1889 2100 2294 2476 2154 Travanj 1827 1819 2103 2146 2296 1831 Svibanj 2027 1824 2110 2241 2400 1899 Lipanj 2286 1979 2375 2369 3126 2117 Srpanj 2484 1919 2030 2251 2304 2266

Kolovoz 2266 1845 1744 2126 2190 2176 Rujan 2107 1801 1699 2000 2121 2089

Listopad 1690 1799 1591 1759 2032 1817 Studeni 1808 1952 1770 1947 2161 2162 Prosinac 1927 1956 1950 2135 2289 2267

a) Izračunajte dvanaestomjesečne pomične prosjeke. Niz prikažite linijskim grafikonom b) Prikažite na istom grafikonu prikažite originalni seriju i izračunane prosjeke.

� a)

U sklopu potpore EXCEL-a koristi se program (Tools ⇒ Data Analysis ⇒ Moving Average) i Trendline rutina.

=AVERAGE(B4:B15)

=AVERAGE(C9:C10)

Page 112: Statistika - Sve

112

Prodaja jeans-a u Velikoj Britaniji

1500

1700

1900

2100

2300

2500

2700

2900

3100

3300pr

o-79

ožu-

80

lip-8

0

lis-8

0

sij-8

1

tra-

81

kol-8

1

stu-

81

vlj-8

2

svi-8

2

ruj-8

2

pro-

82

ožu-

83

srp-

83

lis-8

3

sij-8

4

tra-

84

kol-8

4

stu-

84

vlj-8

5

lip-8

5

ruj-8

5

pro-

85

u tis

ućam

a

Prodaja Pomični prosjeci, M=12

Godina 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990.1991. 1992. 1993 1994.Izvoz 1739 1696 1799 1833 2010 2366 2399 2922 3334 3436 3691 3702 4201

Vježbe 1. Prijevoz robe u pomorskom prometu Republike Hrvatske (u milijunima tona)

Godina 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2000. Promet 13,2 14,6 14,9 14 15,5 15,7 16,3 16,9

a) Navedeni niz prikažite linijskim grafikonom. b) Procijenite parametre odgovarajućeg modela trend polinoma. c) Odredite sve elemente u tabeli ANOVA. Kolika je procjena standardne devijacije i

koeficijenta varijacije. 2. Svjetski izvoz (u milijunima US $)

a) Prikažite niz linijskim grafikonom. b) Odredite procjene parametara i druge statističko-analitičke veličine modela trend polinoma

trećeg stupnja. c) Trend polinom prikažite na grafikonu pod (a) d) Komentirajte dobivene rezultate.

Page 113: Statistika - Sve

113

10 16 20 23 25 26 30 36 48 62 78 94 107 118 127

Godina 1993. 1994. 1995. 1996. 1997. 1998. 1999. 2000. 2001.2002.Dobit 201 250 313 403 525 706 900 1153 1490 1859

Godina, mjesec Prodaja Godina, mjesec Prodaja2001, I 25 2002, I 24

II 21 II 22III 24 III 22IV 29 IV 27V 45 V 48VI 91 VI 94VII 208 VII 239VIII 210 VIII 229IX 80 IX 90X 36 X 37XI 22 XI 21XII 21 XII 22

3. Proizvodnja artikla (u tisućama komada) po godinama razdoblja 1988-2002. bila je

Analizirajte sljedeće modele: model linearnog trenda, model paraboličnog trenda drugog stupnja, model trend polinoma trećeg stupnja. Koji je od navedenih modela najprikladniji, sa stajališta statističke analize? 4. Dobit tvrtke nakon oporezivanja (u tisućama eura) je:

a) Niz prikažite linijskim grafikonom, a zatim polulogaritamskim grafikonom. b) Procijenite parametre eksponencijalnog trenda. c) Izračunajte elemente analize varijance i druge statističko-analitičke veličine. d) Jednadžbu trenda napišite u nelogaritamskom obliku i uz nju navedite sve potrebne elemente. 5. Jedinični troškovi izrade proizvoda uvedenoga u proizvodnju u razdoblju 2000-2002. godine opisuju se jednadžbom trenda:

2

98001153120 xx ,,,y ××=

x = 1, prosinac 2000. Jedinica za x je jedan mjesec Jedinica za y je jedna kuna

Izračunajte vrijednosti trenda i prikažite ih polulogaritamskim mjerilom 6. Prodaja sezonskog proizvoda dana je u tabeli (u tisućama komada):

a) Navedeni niz prikažite linijskim grafikonom b) Izračunajte tromjesečne pomične prosjeke c) Izračunajte dvanaestomjesečne centrirane pomične prosjeke d) Nizove pomičnih prosjeka prikažite na grafikonu pod (a). Komentirajte prikaz i rezultate.

Page 114: Statistika - Sve

Tablica 1

0 z

Površine ispod normalne krivulje