Post on 03-Nov-2019
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
1
STATISTIKA
Doc.dr.sc.Draženka Čizmić
- predavanja 2009.g -
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
2
SADRŢAJ:
1. UVOD
Statistiĉki skup................................................................................... 4
Vrste i izvori statistiĉkih podataka.................................................... 4
2. UREĐIVANJE PODATAKA
Statistiĉki nizovi i tabele ................................................................... 5
Numeriĉki nizovi ................................................................................ 7
3. OSNOVNA ANALIZA VREMENSKIH NIZOVA
Grafiĉko prikazivanje vremenskih nizova ........................................ 10
Individualni indeksi ........................................................................... 10
4. SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA
Mod.................................................................................................... 12
Medijan............................................................................................. . 13
Aritmetiĉka sredina........................................................................... 15
Geometrijska sredina....................................................................... 17
Skupni indeksi.................................................................................. . 18
5. MJERE DISPERZIJE
Raspon varijacije, Interkvartil, Koeficijent kvartilne devijacije....... 19
Srednje apsolutno odstupanje (MAD).............................................. 22
Varijanca, Standardna devijacija, Koeficijent varijacije.................. 23
Standardizirana varijabla.................................................................. 25
6. MJERE ASIMETRIJE
Koeficijent asimetrije, Pearsonova mjera, Bowleyjeva mjera........ 26
7. MJERE ZAOBLJENOSTI
Koeficijent zaobljenosti.................................................................... 29
8. MJERE KONCENTRACIJE
Koncentracijski omjer, Ginijev koeficijent....................................... 31
9. OSNOVNI POJMOVI VJEROJATNOSTI
Definicije i svojstva vjerojatnosti...................................................... 32
Modeli distribucija vjerojatnosti....................................................... 34
10. OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE
Plan uzorka....................................................................................... . 37
Sampling distribucija........................................................................ 38
11. PROCJENE PARAMETRA
Procjena aritmetiĉke sredine........................................................... 39
Procjena totala osnovnog skupa..................................................... . 42
Procjena proporcije osnovnog skupa............................................. . 44
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
3
12. TESTIRANJE HIPOTEZA O PARAMETRU
Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetiĉke
sredine osnovnog skupa................................................................ .. 44
Testiranje hipoteza o razlici aritmetiĉkih sredina dvaju
osnovnih skupova nezavisnim uzorcima.......................................... 49
13. REGRESIJSKA ANALIZA
Model jednostavne linearne regresije............................................... 52
- deskriptivno statistiĉka analiza modela............................... 52
- inferencijalno statistiĉka analiza modela............................ 57
- testiranje hipoteza o modelu................................................ 58
14. MODEL VIŠESTRUKE REGRESIJE
Analiza modela višestruke regresije................................................ 58
Testiranje hipoteza o modelu višestruke regresije......................... 59
15. MODELI VREMENSKIH SERIJA
Komponente vremenskih serija....................................................... 60
Modeli trenda.................................................................................... 61
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
4
PREDAVANJE #1
STATISTIKA – znanstvena metoda koja se bavi prikupljanjem, uređivanjem, analizom i tumaĉenjem
podataka.
DESKRIPTIVNA – u okviru deskriptivne statistike zakljuĉci se donose na temelju svih
podataka. Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafiĉkog prikazivanja
te izraĉunavanja razliĉitih statistiĉko-analitiĉkih veliĉina
INFERENCIJALNA – u sklopu inferencijalne statistike zakljuĉci se dodose na temelju dijela
podataka (uzoraka). Temelji se na teoriji vjerojatnosti
STATISTIĈKI SKUP – ĉine jedinice koje su predmetom promatranja statistiĉkom metodom. Moţemo
promatrati osobe, poduzeća, zemlje, proizvode itd.
OPSEG SKUPA – broj jedinica. S obzirom na opseg statistiĉki skupovi se dijele na:
KONAĈNI STATISTIĈKI SKUP – studenti upisani na efzg
BESKONAĈNI STATISTIĈKI SKUP – bacanje novĉića ili proizvodnja
Statistiĉki skupovi definiraju se pojmovno, prostorno i vremenski.
OSNOVNI SKUP (POPULACIJA) – skup podataka o promatranom svojstvu za svaku jedinicu statistiĉkog
skupa.
UZORAK – podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.
STATISTIĈKO OBILJEŢJE (VARIJABLA) – svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice
statistiĉkog skupa.
VRSTE STATISTIĈKOG OBILJEŢJA:
1. NUMERIĈKO (KVANTITATIVNO) – izraţava se brojevima
DISKRETNO (diskontinuirano) – poprima iskljuĉivo cjelobrojne vrijednosti. npr. broj uĉenika u
razredu, broj djece u obitelji
KONTINUIRANO – moţe poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, teţina,
cijena...
2. KVALITATIVNO
NOMINALNO (atributivno i geografsko) – izraţava se opisno ili rijeĉima. npr. atributivno –
spol, zanimanje ; geografsko – mjesto rođenja
REDOSLIJEDNO (obiljeţje ranga) – npr. ocijena, stupanj kvalitete
MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih skupova na
temelju određenog pravila. Temelji se na primjeni mjerih skala.
MJERNE SKALE:
1. NOMINALNA – sastoji se od liste naziva
2. ORDINALNA – ovom skalom jedinicama statistiĉkih skupova pridruţuju se slovne oznake, simboli ili
brojevi sukladno intenzitetu mjernog svojstva
3. INTERVALNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno
intenzitetu mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i
dogovorno utvrđenu nulu. npr. temperaturna ljestvica.
4. OMJERNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno intenzitetu
mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i nulu koja
oznaĉava nepostojanje svojstva. npr. plaća, broj zastoja rada stroja.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
5
IZVORI PODATAKA:
PRIMARNI – prikupljaju se u skladu s ciljem istraţivanja.
SEKUNDARNI – prikupljaju ih razne institucije (drţavni zavod za statistiku, banke, agencije
za istraţivanje trţišta, osiguravajući zavodi...)
PREDAVANJE #2
UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistiĉki nizovi
STATISTIĈKI NIZOVI:
1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obiljeţju
2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli
3. NUMERIĈKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti numeriĉke varijable
4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi (proizvodnja,uvoz,izvoz)
STATISTIĈKE TABELE:
JEDNOSTAVNA
SKUPNA – sadrţi barem dva niza koji su grupirani prema modalitetima istog obiljeţja
KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani prema
modalitetima dvaju ili više varijabli
Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.
STAROST SPOL
M Ţ
0 – 14 388 370
15 – 64 1482 1501
65 - 266 430
izvor: SLJRH, 2004.g., str.95
Poljoprivredna površina po kategorijama u tisućama
hektara u RH, 2003.g
KATEGORIJE POVRŠINA
oranice i vrtovi 1460
voćnjaci 68
vinogradi 57
livade 396
pašnjaci 1156
izvor: SLJRH, 2004.g., str.250
Izvoz i uvoz prema preteţnoj ekonomskoj namjeni u
milijunima am. $ u RH, 2003.g.
EKONOMSKA NAMJENA IZVOZ UVOZ
proizvodi za reprodukciju 2959 6583
proizvodi za investicije 1341 3316
proizvodi za široku potrošnju 1886 4311
izvor: SLJRH, 2004.g., str.386
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
6
RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike
proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije
indeksi
relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju koordinirajućih
veliĉina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)
NIZOVI KVALITATIVNIH PODATAKA
Kvalitativni podaci su oblici nominalne ili redoslijedne varijable.
ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog
obiljeţja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)
ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka
rašĉlanjuje na podskupove koji se međusobno ne preklapaju.
FREKVENCIJA – broj podataka istog ili sliĉnog modaliteta varijable
NOMINALNI ILI REDOSLIJEDNI NIZ ĉine parovi razliĉitog oblika kvalitativne varijable oi i pripadajućih
frekvencija fi (oi, fi), i=1,2,....,k
Uĉenici i studenti koji su završili osnovnu ili
srednju školu odnosno diplomirai na visokim
uĉilištima u RH, 2003.g.
STUPANJ OBRAZOVANJA BROJ OSOBA
oi fi
osnovno 51211
srednje 47092
struĉni studij 6489
sveuĉ.studij 9243
ukupno 114035
izvor: SLJRH, 2004.g., str.487
OPSEG SKUPA – zbroj frekvencija
RELATIVNA FREKVENCIJA – omjer frekvencije i opsega skupa
k
i
i
i
i
f
fp
1
POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonoţena sa 100 100
1
k
i
i
ii
f
fP
nizovi sa relativnim frekvencijama (oi, pi) ili (oi, Pi)
Kvalitativni nizovi grafički se prikazuju površinskim grafikonima:
STUPCI (poloţeni, uspravni)
STRUKTURNI KRUGOVI I POLUKRUGOVI
RAZDIJELNI STUPCI
VIŠESTRUKI STUPCI
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
7
NUMERIĈKI NIZOVI – nastaju uređenjem numeriĉkih podataka. Naĉin njihova uređivanja ovisi o tome
da li su podaci diskretni ili kontinuirani.
NAĈINI UREĐIVANJA:
1. mali broj podataka - uređuje se nizanjem po veliĉini. Pojedinaĉni numeriĉki podaci grafiĉki se
prikazuju dijagramom s toĉkama i dijagramom stablo-list (S-L dijagram)
Primjer 1.
Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:
Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29
Podaci uređeni po veliĉini:
Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34
dijagram s točkama:
dijagram stablo-list:
0 8 9
1 0 4 5 7 8 8
2 0 4 5 7 9
3 0 4
O|8 predstavlja 8
2. diskretno obiljeţje - velik broj podataka i manji broj oblika – pristupa se grupiranju. Numeriĉki niz
odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k
xi – modaliteti numeriĉkog obiljeţja
fi – pripadajuće frekvencije
Primjer 2.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA
xi fi
1 1
2 5
3 8
4 26
5 19
6 12
ukupno 71
3. kontinuirano obiljeţje/ diskretno obiljeţje s većim brojem oblika – grupiranje se provodi na temelju
razreda. Svaki razred ima donju i gornju granicu.
frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razreda
Numeriĉki niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih
frekvencija (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,k
Li1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razreda
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
8
Primjer 3.
Radnici poduzeća A prema
starosti
STAROST BROJ RADNIKA
18 – 26 5
26 – 34 6
34 – 42 10
42 – 50 5
50 – 58 4
ukupno 30
Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veliĉine. Za
određivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN
k-broj razreda; N-zbroj frekvencija
Ako su razredi jednakih veliĉina, veliĉina im se aproksimira tako da se raspon varijacije podijeli sa
brojem razreda: k
xxi i
minmax
Razredi jednakih veličina primjenjuju se kada su podaci simetriĉno raspoređeni.
Razredi različitih veličina primjenjuju se kada su podaci asimetriĉno raspoređeni.
Pri brojĉanoj analizi numeriĉkog niza potrebno je utvrditi da li su granice prave, a nakon toga
odrediti veliĉinu razreda i rezredne sredine.
GRANICE RAZREDA:
PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici prethodnog razreda
NOMINALNE – pretvaraju se u prave tako da se svaka donja granica umanji za
polovicu jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve
sluĉajeve osim za navršene godine ţivota. Kod navršenih godina ţivota svaka se
gornja granica poveća za jedinicu.
VELIĈINA RAZREDA – određuje se kao razlika gornje i donje prave granice razreda
REZREDNA SREDINA i-tog razreda – određuje se kao poluzbroj gornje i donje prave granice razreda
Distribucija frekvencija grafiĉki se prikazuje histogramom i poligonom frekvencija.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
9
Primjer 4.
Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veliĉine procjenjuju i procjena se
stavlja u zagradu.
Kada su razredi razliĉitih veliĉina potrebno je korigirati frekvencije:
i
i
cii
ff - ova se formula koristi kada su svi razredi razliĉitih veliĉina, a moţe se
koristiti i generalno
b
i
i
ci
i
i
ff
- bazna veliĉina razreda (najĉešće se pojavljuje)
IZVEDENI NIZOVI:
KUMULATIVNI NIZ – nastaje postupnim zbrajanjem apsolutnih ili relativnih frekvencija.
On se grafiĉki prikazuje kumulantom.
Primjer 5.
Nepismeno stanovništvo staro 10.g. i više prema starosti u RH prema popisu iz 2001.g.
STAROST BROJ
OSOBA
PRAVE
GRANICE
RAZREDNA
SREDINA
VELIĈINA
REZREDA
KORIGIRANE
FREKVENCIJE
fi xi ii
1 2 3 4 5 6
10-19 1845 9.5-19.5 14.5 10 2768
20-34 3160 19.5-34.5 27 15 3160
35-49 4457 34.5-49.5 42 15 4457
50-64 11108 49.5-64.5 57 15 11108
65-(99) 49207 64.5-(99.5) 82 35 21089
UKUPNO 69777 - - - -
Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.
STAROST BROJ OSOBA PRAVE GRANICE KUMULATIVNI NIZ
0-14 758 -0.5 – 14.5 758
15-64 2983 14.5 – 64.5 3741
65-(99) 696 64.5 – (99.5) 4437
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
10
PREDAVANJE #3
VREMENSKI NIZ – skup kronološki uređenih vrijednosti koje predstavljaju neku pojavu (proizvodnja,
uvoz, izvoz).
ĈLANOVI NIZA – vrijednosti koje tvore niz
Vremenski niz noţe biti:
INTERVALNI – nastaje trajanjem vrijednosti pojave po intervalima vremena (godina,
kvartal, mjesec) npr. proizvodnja, uvoz, izvoz...
TRENUTAĈNI – sastoji se od kronološki uređenih vrijednosti koje predstavljaju stanja
pojave u odabranim vremenskim toĉkama (poĉetak, sredina, kraj) npr. stanje na
raĉunima, zakljuĉne cijene dionica..
GRAFIĈKO PRIKAZIVANJE VREMENSKIH NIZOVA: INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima.
TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima
Radi lakšeg praćenja u grafikon se ucrtava mreţa. Prikaz je u pravokutnom koordinatnom sustavu s
aritmetiĉkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za
ĉlanove vremenskog niza.
OKOMITI PREKID GRAFIKONA – ako se ne raspolaţe podacima za dio razdoblja moguće je izostaviti dio
mjerila na osi apscisa.
VODORAVNI PREKID GRAFIKONA – ako neka pojava varira na velikim razinama moguće je izostaviti dio
mjerila osi ordinata.
Prekidaju se samo linijski grafikoni.
POLULOGARITAMSKI GRAFIKON – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci
(nizovi izraţeni u razliĉitim mjernim jedinicama). To je grafikon sa aritmetiĉkim mjerilom na osi apscisa, a
logaritamskim na osi ordinata.
INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu
verižni indeksi – njima se prati razvoj pojave u uzastopnim vremenskim razdobljima. Veriţni
indeks Vt razdoblja t dobije se tako da se vrijednost toga razdoblja podijeli s vrijednošću
prethodnog razdoblja te se pomnoţi sa sto 1001
t
t
ty
yV
Veriţni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom
jednostavnih stupaca.
KOEFICIJENT DINAMIKE – vrijednost tekućeg razdoblja podijeljena sa vrijednošću
prethodnog razdoblja ne pomnoţena sa sto 1
t
t
ty
yV
STOPA PROMJENE – od veriţnog indeksa se odbije sto 100 tt VS
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
11
Primjer 1.
Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.
GODINA IZVOZ VERIŢNI INDEKSI STOPA PROMJENE
yt Vt St
1999 4302 - -
2000 4432 103,2 3,02
2001 4665 105,26 5,26
2002 4904 105,12 5,12
2003 6197 126,36 26,36
izvor: SLJRH 2004., str.384
Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100
predstavlja postotno povećanje, a ako je manji od 100 predstavlja postotno smanjenje.
npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.
indeksi na stalnoj bazi – njima se mjere promjene u odnosu na neko odabrano bazno
razdoblje. Izraĉunavaju se tako da se svaki ĉlan niza podijeli s vrijednošću baznog razdoblja
te pomnoţi sa 100 100b
t
ty
yI
BAZNO RAZDOBLJE – razdoblje u kojemu pojava nije bila izloţena nekim neuobiĉajenim
utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili
nekakav prosjek.
STOPA PROMJENE – kad od indeksa odbijemo sto 100*
tt IS
Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.
Primjer 2.
GODINA IZVOZ BAZNI INDEKSI
1999 = 100
STOPA PROMJENE
1999 4302 100,00 0,00
2000 4432 103,02 3,02
2001 4665 108,44 8,44
2002 4904 113,99 13,99
2003 6197 144,05 44,05
U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.
SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA – konstante kojima se predstavljaju nizovi varijabilnih
podataka.
POTPUNE – raĉunaju se na temelju svih podataka. U njih se ubrajaju aritmetiĉka,
geometrijska i harmonijska sredina.
POLOŢAJNE – u pravilu su jednake jednom modalitetu statistiĉke varijable. U njih se ubrajaju
MOD i MEDIJAN.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
12
MOD – najĉešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom
1. pojedinačni podaci – kod pojedinaĉnih podataka MOD je vrijednost koja se najĉešće pojavljuje
Primjer 3.
Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:
25 24 25 23 25 22 21 25 20 25 Najĉešća prodajna cijena (MOD) je 25 kn.
2. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – tu je MOD modalitet
varijable s najvećom frekvencijom
Primjer 4.
MOD distribucije dnevne prodaje garnitura
namještaja iznosi 4, tj. najĉešća dnevna prodaja
iznosila je 4 garniture
3. distribucija frekvencija sa razredima – MOD se aproksimira pomoću izraza:
icbab
abLMo
)()(
)(1
b – najveća korigirana frekvencija
a – frekvencija ispred nje
c – frekvencija iza nje
L1 – donja prava granica modalnoga razreda
i – njegova veliĉina
MODALNI RAZRED – razred s najvećom korigiranom frekvencijom
Primjer 5.
Mo = 24.5 + (460.8-216.0)/(460.8-216.0)+(460.8-246.7) * 25 = 37.84 god
Najĉešća starost aktivnog stanovništva u RH u 2003.g. iznosi 37.84 godine.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA
xi fi
1 1
2 5
3 8
4 26
5 19
6 12
UKUPNO 71
Aktivno stanovništvo u RH u 2003.g. (2.polugodište) u tisućama
STAROST BROJ
OSOBA
PRAVE
GRANICE
VELIĈINE
RAZREDA
KORIGIRANE
FREKVENCIJE
fi ii fci
15-24 216 14,5-24,5 10 216,0
25-49 1152 24,5-49,5 25 460,8
50-64 370 49,5-64,5 15 246,7
65-(74) 55 64,5-(74.5) 10 55,0
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
13
MEDIJAN – srednja vrijednost koja numeriĉki niz uređen po veliĉini dijeli na dva jednakobrojna dijela
1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg ĉlana u nizu
INTN
2
re xM 12
NINTr
Primjer 6.
Podaci moraju biti uređeni po veliĉini
1 3 5 8 10 12 14 7/2 = 3.5 ; r =4 ; Me = x4 = 8
2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih
dvaju ĉlanova niza uređenog po veliĉini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2
Primjer 7.
11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5
3. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – određivanje MEDIJANA se
pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable
ĉija kumulativna frekvencija prva ukljuĉuje N/2.
Primjer 8.
N/2 = 35.5
Me = 4
4. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:
if
fN
LMmed
i
e
21
L1 – donja prava granica medijalnog razreda
N – zbroj apsolutnih ili relativnih frekvencija
∑fi – zbroj frekvencija do medijalnog razreda
fmed – frekvencija medijalnog razreda
i – veliĉina medijalnog razreda
MEDIJALNI RAZRED – onaj ĉija kumulativna frekvencija prvi put ukljuĉuje N/2.
Primjer 9.
STAROST BROJ OSOBA PRAVE
GRANICE
VELIĈINE
RAZREDA
KUMULATIVNE
FREKVENCIJE
fi ii S(xi)
15-24 216 14,5-24,5 10 216
25-49 1152 24,5-49,5 25 1368
50-64 370 49,5-64,5 15 1738
65-(74) 55 64,5-(74,5) 10 1793
Dnevna prodaja
BROJ GARNITURA BROJ DANA KUMULATIVNI NIZ
xi fi S(xi)
1 1 1
2 5 6
3 8 14
4 26 40
5 19 59
6 12 71
UKUPNO 71 -
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
14
N/2 = 896.5
Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 god
Prvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je starije od 39 godina
KVANTILI – numeriĉki niz uređen po veliĉini dijele na jednakobrojne dijelove. Medijan spada među kvantile
KVARTILI – niz uređen po veliĉini dijele na 4 jednakobrojna dijela
DECILI – niz uređen po veliĉini dijele na 10 jednakobrojnih dijelova
PERCENTILI – niz uređen po veliĉini dijele na 100 jednakobrojnih dijelova
Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila
PREDAVANJE #4
ARITMETIĈKA SREDINA – dobije se tako da se zbroje vrijednosti numeriĉke varijable i podijele sa
njihovim brojem.
TOTAL – zbroj vrijednosti numeriĉke varijable; aritmetiĉka sredina je jednaki dio totala po jedinici
Svojstva aritmetiĉke sredine:
1. zbroj vrijednosti odstupanja numeriĉke varijable od njezine aritmetiĉke sredine jednak je nuli
2. zbroj kvadrata odstupanja vrijednosti numeriĉke varijable od njezine aritmetiĉke sredine minimalan
je
3. aritmetiĉka sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izraĉunata
JEDNOSTAVNA ARITMETIĈKA SREDINA – raĉuna se kod pojedinaĉnih kvantitavnih podataka N
x
x
N
i
i 1
Primjer 1.
Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:
25 24 25 23 25 22 21 25 20 25 235/10=23.5 prosjeĉna prodaja iznosila je 23.5 kn
Aritmetiĉka sredina izraţena je u istim mjernim jedinicama kao i obiljeţje.
VAGANA (PONDERIRANA) ARITMETIĈKA SREDINA – primjenjuje se za grupirane podatke, tj. za distribuciju
frekvencija
1. ponderi: APSOLUTNE FREKVENCIJE (fi)
fi
fixi
x
k
i 1
2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (Pi) 100
1
k
i
pixi
x
3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (pi)
k
i
pixix1
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
15
Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti
PRAVI TOTAL – ukupan broj
prodanih garnitura
431,471
306x garniture dnevno
Primjer 3. Distribucija frekvencija formirana na temelju razreda
PROCIJENJENI
PODTOTALI
PROCIJENJENI TOTAL-
ukupna starost
promatranih osoba
godinax 02,401793
5,71748
Prosjeĉna starost aktivnog stanovništva iznosila je ≈ 40.02 godina.
ARITMETIĈKA SREDINA ARITMETIĈKIH SREDINA – određuje se kao vagana sredina u kojoj se za pondere
uzima broj podataka za koje su pojedine sredine raĉunate ili tom broju proporcionalne veliĉine.
k
i
k
i
Ni
ixNi
X
1
1
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA BROJ DANA kol. 1*2
xi fi fixi
1 1 1
2 5 10
3 8 24
4 26 104
5 19 95
6 12 72
UKUPNO 71 306
Aktivno stanovništvo u RH u 2003.g. (drugo polugodište) u tisućama
STAROST BROJ
OSOBA
PRAVE
GRANICE
RAZREDNE
SREDINE
kol.2*4
fi xi fixi
15-24 216 14.5-24.5 19.5 4212.0
25-49 1152 24.5-49.5 37.0 42624.0
50-64 370 49.5-64.5 57.0 21090.0
65-(74) 55 64.5-(74.5) 69.5 3822.5
UKUPNO 1793 - - 71746.5
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
16
Primjer 4.
Prosjeĉna plaća za sve kompanije:
39,33131120
3711000X
Ako se svaka individualna vrijednost numeriĉkog obiljeţja zamijeni aritmetiĉkom sredinom dobiva se
polazna veliĉina tj. total ili zbroj vrijednosti numeriĉkog obiljeţja.
ARITMETIĈKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao vagana sredina u kojoj su
ponderi baze tih brojeva
k
i
k
i
Bi
BiRi
R
1
1
RELATIVNI BROJEVI KOORDINACIJE – omjerni su brojevi koji nastaju diobom dviju koordinirajućih veliĉina
Bi
ViRi
Grafiĉki se prikazuju na 2 naĉina:
1. jednostavnim stupcima
2. pravokutnicima ĉije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim
brojevima koordinacije
Primjer 5.
Prosjeĉan broj stanovnika
na km2 za sve navedene
drţave:
2/.3522.3554786277
1929776010kmstR
Odabrane kompanije zaposlenih i prosjeĉne mjeseĉne plaće u kn
KOMPANIJA BROJ
ZAPOSLENIH
PROSJEĈNA
PLAĆA
UKUPNA
PLAĆA
Ni x Ni ix
ALFA 550 3500 1925000
GAMA 320 2300 736000
TRADE 250 4200 1050000
UKUPNO 1120 - 3711000
Najveće drţave svijeta, površina u km2 i broj stanovnika na km2
DRŢAVA POVRŠINA U km2 STANOVNIŠTVO/ km2 UKUPAN BROJ
STANOVNIKA
Bi Ri Vi= Ri*Bi
RUSIJA 17075400 8 136603200
KANADA 9970610 3 29911830
SAD 9629091 30 288872730
KINA 9596961 135 1295589735
BRAZIL 8514215 21 178798515
UKUPNO 54786277 - 1929776010
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
17
GEOMETRIJSKA SREDINA – jednaka je N-tom korijenu produkta N pojedinaĉnih vrijednosti
N
Ni xxxxG ........21
Za grupirane podatke geometrijska sredina dana je izrazom: N f
k
f
i
ff ki xxxxG ........21
21
Primjer 6. zadani su koeficijenti dinamike
GODINA 2000 2001 2002 2003 2004
Vt - 1,06 1,05 1,03 1,02
prosjeĉna stopa raĉunata pomoću geometrijske sredine:
Promatrana pojava prosjeĉno se godišnje
povećavala
za 3.99%.
Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se primjenjuje u
analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave. Geometrijska sredina
poprima nižu vrijednost od aritmetičke sredine.
HARMONIJSKA SREDINA – reciproĉna vrijednost aritmetiĉke sredine reciproĉnih vrijednosti varijable x
negrupirani pojedinaĉni podaci
N
i ix
NH
1
1
grupirani podaci
k
i i
i
k
i
i
x
f
f
H
1
1
Harmonijska sredina manja je od aritmetiĉke i geometrijske sredine
Primjer 7.
Ugostiteljska poduzeća, ukupan promet (u tisućama kn) i promet po zaposlenom (u tisućama kn)
UGOSTITELJSKA
PODUZEĆA
PROMET PROMET PO
ZAPOSLENOM
ZAPOSLENI
Vi Ri Vi/Ri = Bi
HOTELI 6272146 199 31518
KAMPOVI 272070 158 1722
RESTORANI 814160 178 4574
BAROVI 716065 131 5466
KANTINE 331094 137 2417
%99.3100)103988.1(
03988.102.103.105.106.1
.....
100)1(
4
132
S
G
VVVG
GS
nn
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
18
UKUPNO 8405535 - 45697
Prosjeĉan promet po zaposlenom za sva ugostiteljska poduzeća: kntisR .18445697
8405535
Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lakše procjenjuju do sredine
će se doći pomoću izraza za vaganu ponderiranu harmonijsku sredinu:
k
i i
i
k
i
i
R
V
V
R
1
1
Ako imamo zadano Bi koristimo formulu za aritmetiĉku, a ako su nam zadane Vi koristimo harmonijsku
vaganu sredinu.
SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....
SKUPNI INDEKSI CIJENA
SKUPNI INDEKSI KOLIĈINA
SKUPNI INDEKS VRIJEDNOSTI
U pravilu se raĉunaju kao vagana aritmetiĉka sredina individualnih indeksa. Ponderi su obiĉno vrijednosti.
Uglavnom se izraĉunavaju:
LASPEYRESOV INDEKS CIJENA I KOLIĈINA
PAASCHEOV INDEKS CIJENA I KOLIĈINA
FISHEROV INDEKS CIJENA I KOLIĈINA
INDEKS VRIJEDNOSTI
Skupne indekse izraĉunavaju i objavljuju statistiĉki uredi. Obiĉno su Laspeyresova tipa: INDEKS
POTROŠAĈKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE
Skupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na
vrijednosno izraţene pojave.
PREDAVANJE #5
MJERE DISPERZIJE Reprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeriĉkog
obiljeţja predoĉava se i pomoću grafiĉkih prikaza: dijagram s toĉkama i dijagram s pravokutnikom
Mjere za varijabilnost podataka su:
1. raspon varijacije
2. interkvartil
3. koeficijent kvartilne devijacije
4. varijanca
5. standardna devijacija
6. koeficijent varijacije
7. srednje apsolutno odstupanje (MAD)
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
19
1. RASPON VARIJACIJE
pojedinaĉni podaci – određuje se kao razlika između najveće i najmanje vrijednosti
minmax xxRx
distribucija frekvencija formirana na temelju pojedinaĉnih podataka – određuje se kao
razlika između posljednje i prve vrijednosti
1xxR kx
distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice
posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog
razreda.
Raspon varijacije je apsolutna (izraţena je u istim mjernim jedinicama kao i obiljeţje) i nepotpuna (dobiva
se iz samo dvije vrijednosti) mjera disperzije.
2. INTERKVARTIL
KVARTILI:
PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije
skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od
donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od donjeg kvartila.
DRUGI ILI MEDIJAN (Q2)
TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije
skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od
gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od gornjeg kvartila.
Interkvartil se određuje kao razlika kvartila 13 QQIQ 50%
Interpretira se kao raspon varijacije središnjih 50% podataka:
Interkvartil je također apsolutna i nepotpuna mjera disperzije.
3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije raznorodnih nizova.
Određuje se kao omjer interkvartila i zbroja kvartila:
13
13
QQVQ
0 ≤ VQ < 1
Ovo je relativna i nepotpuna mjera disperzije.
GRAFIĈKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom box-plot (B-P) dijagram
Za njegovu konstrukciju koristi se 5 pokazatelja numeriĉkog niza – 5's (five summary numbers)
najmanja vrijednost
najveća vrijednost
medijan
donji kvartil
gornji kvartil
Na ovom grafiĉkom prikazu ouĉava se raspon varijacije i interkvartilni raspon te se prosuđuje o mogućoj
asimetriji kao i o pojavi netipiĉnih vrijednosti ( out lier)
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
20
Primjer 1. Negrupirani tj. pojedinaĉni podaci
Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati : 20 22 25 27 28 28 30 30 33 35
Podaci moraju biti uređeni po veliĉini.
raspon varijacije: 30–15 = 15 min
Vrijeme potrebno za rješavanje zadatka bilo je između 20 i 35 min. Odnosno u raponu od 15
min.
interkvartil:
donji kvartil: N/4 = 10/4 = 2.5 ≠ INT
r = INT (N/4) + 1 = 2+1 = 3, Q1=x3=25
Prva ĉetvrtina studenata imala je vrijeme 25 min i manje, a preostale 3
ĉetvrtine imale su vrijeme veće od 25 min.
gornji kvartil: 3N/4 = 30/4 = 7.5 ≠ INT
r = INT (3N/4) + 1 =7+1=8, Q3=xr=x8=30
Prve tri ĉetvrtine studenata imale su vrijeme 30 min i manje, a preostala
ĉetvrtina imala je vrijeme veće od 30 min.
IQ = Q3 – Q1 = 30 - 25=5 min
Raspon varijacije središnjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su
između 25 i 30 min.
koeficijent kvartilne devijacije
VQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09
Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.09.
B-P dijagram
N/2 = 10/2 = 5 = INT , r=5
Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
21
Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti
Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija frekvencija prema broju rješenih zadataka dana je
u tabeli:
BROJ
ZADATAKA
BROJ
STUDENATA
KUMULATIVNI NIZ
„manje od“
xi fi S(xi)
0 10 10
1 25 35
2 55 90
3 125 215
4 50 265
5 15 280
UKUPNO 280 -
raspon varijacije: Rx = xk – x1 = 5-0 = 5 zadataka
Broj rješenih zadataka bio je između 0 i 5 odnosno u rasponu od 5 zadataka.
interkvartil:
donji kvartil: N/4 = 70 ; Za Q1 se uzima vrijednosti varijable s prvom kumulativnom frekvencijom
koja sadrţi vrijednost N/4 Q1= 2
gornji kvartil: 3N/4 = 210 Q3=3
IQ = Q3 – Q1= 3 – 2= 1
Raspon varijacije središnjih 50% studenata iznosio je 1 zadatak, tj. broj rješenih zadataka bio je
između 2 i 3.
koeficijent kvartilne devijacije
VQ= (Q3-Q1)/(Q3+Q1) = (3-2)/(3+2) = 0.2
Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.2
Primjer 3. Distribucija frekvencija s razredima
Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz statistike u min.
raspon varijacije
Rx = 30 – 10 = 20 min
Rx = 27.5 – 12.5 = 15 min
interkvartil
N/4 = 75/4 = 18.75
Kvartilni razred je razred ĉija kumulativna frekvencija prva ukljuĉuje vrijednost N/4
UTROŠENO
VRIJEME
BROJ
STUDENATA
KUMULATIVNI NIZ
„manje od“
VELIĈINA
RAZREDA
fi S(xi) ii
10-15 15 15 5
15-20 20 35 5
20-25 30 65 5
25-30 10 75 5
UKUPNO 75 - -
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
22
if
fN
LQk
var
1
114
min9.15520
1575.18151
Q
if
fN
lQk
var
1
134
3
min5.23530
3525.56203
Q
IQ = 23.5 – 15.9 = 7.6 min
Raspon varijacije središnjih 50% studenata iznosio je 7.6 min.
VQ= (Q3-Q1)/(Q3+Q1) = (23.5 – 15.9)/(23.5 – 15.9) = 0.19
Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.19.
4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije moţe se koristiti i prosjeĉno
apsolutno odstupanje vrijednosti varijable od njezine aritmetiĉke sredine ili medijana:
pojedinaĉni podaci: N
xx
MAD
N
i
i
1
N
Mx
MAD
N
i
ei
Me
1
za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim
frekvencijama
Primjer 4.
Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3
410
40
N
xx
MAD = 12/10 = 1,2
2 3 3 3 3 4 4 5 6 7
N/2 = 5 = INT, r = 5
Me = (x5+x6)/2 = (3+4)/2 = 3.5
PREDAVANJE #6
5. VARIJANCA – aritmetiĉka sredina kvadrata odstupanja vrijednosti numeriĉke varijable od njezine
aritmetiĉke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.
PRODAJA
xi xx i
2 2
5 1
3 1
3 1
7 3
3 1
4 0
6 2
4 0
3 1
40 12
PRODAJA
xi ei Mx
2 1,5
5 1,5
3 0,5
3 0,5
7 3,5
3 0,5
4 0,5
6 2,5
4 0,5
3 0,5
40 12,0
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
23
negrupirani podaci N
xxN
i
i
1
2
2
grupirani podaci
k
i
i
k
i
ii
f
xxf
1
1
2
2
)(
6. STANDARDNA DEVIJACIJA – pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.
negrupirani podaci N
xxN
i
i
1
2)(
grupirani podaci
k
i
i
k
i
ii
f
xxf
1
1
2)(
7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer srtandardne devijacije i
aritmetiĉke sredine pomnoţen sa sto.
100x
V
Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a
koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.
Primjer 1. Negrupirani tj. pojedinaĉni podaci
Mjereno je vrijeme (u minutama) potrebno za rješavanje jednog zadatka iz statistike za 10 stuudenata.
Dobiveni su ovi rezultati:
%76.151008.27
38.4100
min38.416.19
16.1910
60.191)(
min8.2710
278
2
1
2
2
1
xV
N
xx
N
x
x
N
i
i
N
i
i
VRIJEME
xi 2)( xxi
20 60.84
22 33.64
25 .
27 .
28 .
28 .
30 .
30 .
33 .
35 .
UKUPNO 191.60
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
24
Interpretacija:
Prosjeĉno vrijeme rješavanja zadataka iznosilo je 27.8 minuta s prosjeĉnim odstupanjem od 4.38 minute
odnosno 15.76%.
Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih podataka
Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija studenata prema broju rješenih zadataka dana je
u tabeli:
%64.3910080.2
11.1100
11.123.1
23.1280
2.344)(
80.2280
785
2
1
1
2
2
1
1
xV
zadataka
f
xxf
zadataka
f
xf
x
k
i
i
k
i
ii
k
i
i
k
i
ii
Prosjeĉni broj rješenih zadataka iznosio je 2.80 zadatka. S prosjeĉnim odstupanjem od 1.11 zadataka
odnosno 39.64%.
Primjer 3. Distribucija frekvencija s razredima
Struktura aktivnog stanovništva u drugom polugodištu 2003.g. u RH
STAROST STAROST% PRAVE
GRANICE
RAZREDNE
SREDINE
kol. 2x4 VELIĈINA
RAZREDA
KORIGIRANE
FREKVENCIJE
Pi xi Pixi 2)( xxP ii Pci
15-24 12 14.5-24.5 19.5 234.0 5043.00 10 12
25-49 64 24.5-49.5 37.0 2368.0 . 25 25.6
50-64 21 49.5-64.5 57.0 1197.0 . 15 14.0
65-(74) 3 64.5-(74.5) 69.5 208.5 . 10 3.0
UKUPNO 100 - - 4007.5 14298.75 - -
Interpretacija:
Prosjeĉna starost aktivnog stanovništva iznosila je 40
godina. S prosjeĉnim odstupanjem od 11.96 godina
odnosno 30%.
BROJ
ZADATAKA
BROJ
STUDENATA
kol. 1x2
xi fi fixi 2)( xxf ii
0 10 0 78.4
1 25 25 81.0
2 55 110 .
3 125 375 .
4 50 200 .
5 15 75 .
UKUPNO 280 785 344.2
%3010000.40
96.11100
96.1199.142
99.142100
75.14298)(
40100
5.4007
100
2
1
1
2
2
1
xV
godina
P
xxP
godina
xP
x
k
i
i
k
i
ii
k
i
ii
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
25
STANDARDIZIRANA VARIJABLA – linearna transformacija numeriĉke varijable x. Određuje se tako da
se odstupanja numeriĉke varijable od njezine aritmetiĉke sredine podijele sa standardnom devijacijom, tj.
da se izraze u jedinicama standardnih devijacija. Aritmetiĉka sredina standardizirane varijable jednaka je
nuli, a standardna devijacija jednaka je jedan.
xxz
1;0 zz
PRAVILO ĈEBIŠEVA – govori da je najmanja proporcija ĉlanova bilo kojeg niza obuhvaćenih bilo kojim
intervalom2
11,1,
kjednakakkx .
U pojasu 2x nalazi se najmanje 0.75 tj. 75% svih podataka.
U pojasu 3x nalazi se najmanje 0.889 tj. 88.89% svih podataka.
Ako su podaci raspoređeni po normalnoj distribuciji onda:
pojas 1x obuhvaća oko 68% podataka
pojas 2x obuhvaća oko 95% podataka
pojas 3x obuhvaća oko 99.73% podataka
321123 x
Primjer 4.
Prosjeĉan broj bodova na 1. kolokviju iz statistike iznosi 15, a prosjeĉno odstupanje od prosjeka iznosi 5.
Na drugom kolokviju postignut je prosjeĉan broj bodova 17 s prosjeĉnim odstupanjem od prosjeka 4.
Student je na prvom kolokviju postigao 20, a na drugome 22 boda. Što se moţe zakljuĉiti o uspjehu
studenta na kolokvijima?
2220
45
1715
21
21
21
xx
xx
Vrijednost standardiziranog obiljeţja na prvom kolokviju:
00.15
1520
1
11
xxz
Vrijednost standardiziranog obiljeţja na drugom kolkviju:
25.14
1722
2
22
xxz
Student je na oba kolokvija postigao iznad prosjeĉan rezultat. Bolji je na drugom kolokviju jer je
odstupanje od prosjeka na više 1.25 σ, a na prvome 1 σ.
Primjer 5.
Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.
Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35
Je li vrijeme rješavanja od 35 minuta netipiĉno?
Netipičan je podatak koji se nalazi izvan pojasa 2x tj. ako od prosjeka odstupa za više od 2σ.
Ako se podaci raspoređuju po normalnoj distribuciji netipičan je podatak koji se nalazi izvan pojasa
3x tj. ako od prosjeka odstupa za više od 3σ.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
26
Budući da se vrijeme od 35 minuta nalazi u pojasu 2x ne moţe se
smatrati netipiĉnim.
PREDAVANJE #7
MJERE ASIMETRIJE – njima se mjeri naĉin rasporeda podataka prema aritmetiĉkoj sredini ili nekoj
drugoj vrijednosti.Najvaţnije su:
1. Koeficijent asimetrije α3 - potpuna mjera
2. Pearsonova mjera nepotpune
3. Bowleyeva mjera mjere
1. KOEFICIJENT ASIMETRIJE α3
MOMENTI OKO SREDINE – aritmetiĉke sredine odstupanja vrijednosti numeriĉke varijable od
njezine aritmetiĉke sredine podignuti na neku potenciju
pojedinaĉni podaci N
xxN
i
i
r
1
)(
grupirani podaci
k
i
i
k
i
r
ii
r
f
xxf
1
1
)(
- s obzirom na veliĉinu r govori se o nultom, prvom, drugom, trećem ili ĉetvrtom momentu oko
sredine
- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute
na treću potenciju 3
3
3
M
obiĉno se kreće u intervalu ±z, a u određenim sluĉajevima moţe
biti izvan toga intervala:
α3 = 0 simetriĉna distribucija
α3 < 0 negativno asimetriĉna distribucija
α3 > 0 pozitivno asimetriĉna distribucija
2. PEARSONOVA MJERA – temelji se na odnosu srednjih vrijednosti u distribucijama frekvencija
simetriĉna distribucija
64.138.4
8.2735
min38.4
min8.27
xxz
x
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
27
pozitivno asimetriĉna distribucija
negativno asimetriĉna distibucija
- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od
aritmetiĉke sredine:
)(3 MexS t
)( MoxS t
kreće se u intervalu ±
St = 0 simetriĉna distribucija
St > 0 pozitivno asimetriĉna distribucija
St < 0 negativno asimetriĉna distribucija
3. BOWLEYJEVA MJERA – temelji se na odnosu medijana i kvartila
simetriĉna distribucija
0231
31
MeQQ
MeQQMe
pozitivno asimetriĉna distribucija
0231
31
MeQQ
MeQQMe
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
28
negativno asimetriĉna distibucija
0231
31
MeQQ
MeQQMe
13
31 2
MeQQS ka
kreće se u intervalu ±1
Ska = 0 simetriĉna distribucija
Ska > 0 pozitivno asimetriĉna distribucija
Ska < 0 negativno asimetriĉna distribucija
Primjer 1. pojedinaĉni podaci
Radi kontrole deklarirane teţine izabran je uzorak od 10 proizvoda pakiranih u vrećice. Mjerenjem su
dobiveni ovi rezultati u gramima: 10 12 15 13 10 11 12 11 11 15
155.74
3
115.24
5.112
1211
25
2
11
1210
120
83
31
65
xQN
xQN
gxx
INTN
Me
gMo
gN
xx
i
1.koeficijent asimetrije
- α3 je pozitivan, distibucija je umjereno pozitivno asimetriĉna
2. Pearsonova mjera 3. Bowleyjeva mjera
5.01113
5.11213112
13
31
MeQQSka
ix )( xxi 2)( xxi 3
)( xxi
10 -2 4 -8
12 0 0 0
15 . . .
13 . . .
10 . . .
11 . . .
12 . . .
11 . . .
11 . . .
15 . . .
120 0 30 36
69.073.1
6.3
73.13
33
33
2
M
g
310
30)(
6.310
36)(
1
2
2
2
1
3
3
N
xx
N
xx
N
i
i
N
i
i
53.0173
1112
MoxSk
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
29
Primjer 2. distribucija frekvencija s razredima
Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz
statistike
UTROŠENO
VRIJEME
BROJ
STUDENATA
RAZREDNE
SREDINE
if ix ii xf 2
)( xxf ii 3)( xxf ii
10-15 15 12.5 187.5 187.5 -5907.49
15-20 20 17.5 350 - -
20-25 30 2.5 675 - -
25-30 10 17.5 275 - -
UKUPNO 75 - 1487.5 1716.67 -1076.29
Distribucija je blago negativno asimetriĉna.
Pearsonova mjera: 38.078.4
67.2183.19
MoxSk
Bowleyjeva mjera: 18.094.1554.23
42.80254.2394.152
13
31
MeQQSka
MJERA ZAOBLJENOSTI
KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije. Izraĉunava se kao
omjer ĉetvrtog momenta oko sredine i standardne devijacije podignute na 4. potenciju 4
4
4
M
negrupirani podaci N
xx
M
N
i
i
1
4
4
)(
grupirani podaci
k
i
i
k
i
ii
f
xxf
M
1
1
4
4
)(
13.078.4
35.14
min78.489.22
87.2275
67.1716)(
35.1475
29.1076)(
min83.1975
5.14875
33
33
2
2
2
2
3
3
M
f
xxfM
f
xxfM
f
xfx
i
ii
i
ii
i
ii
min54.23
min94.15
min42.20
min67.21
3
1
Q
Q
Me
Mo
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
30
- α4 = 3 NORMALNA DISTRIBUCIJA – najvaţnija teorijska
distribucija
- α4 > 3 šiljatija distribucija od normalne
- α4 < 3 plosnatija distribucija od normalne
- α4 ≈ 1.8 pravokutna distribucija
- α4 < 1.8 U-distibucija
EKSCES – alternativna mjera zaobljenosti 31 K
K = 0 ---- normalna distribucija
K > 0 ---- šiljatija distribucija
K < 0 ---- plosnatija distribucija
Primjer 3. pojedinaĉni podaci
Distribucija je plosnatija od normalne.
Primjer 4. distribucija frekvencija s razredima
96.0304.23
04.278.4
99.1066
99.106675
41.80024)(
min78.4
min83.19
4
44
44
4
4
K
M
f
xxfM
x
i
ii
ix 4)( xxi
10 16
12 0
15 .
13 .
10 .
11 .
12 .
11 .
11 .
15 .
120 198
UTROŠENO
VRIJEME
BROJ
STUDENATA
RAZREDNE
SREDINE
if ix 4
)( xxf ii
10-15 15 12.5 13 301.92
15-20 20 17.5 .
20-25 30 22.5 .
25-30 10 27.5 .
UKUPNO 75 - 80 024.41
79.0321.23
21.273.1
8.19
8.1910
198)(
73.1
12
3
44
44
4
4
K
M
N
xxM
g
gx
i
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
31
Distribucija je plosnatija od normalne.
MJERE KONCENTRACIJE – njima se mjeri naĉin rasporeda totala po jedinicama niza
apsolutne – najĉešće se koriste koncentracijski omjeri
relativne – najĉešće se koristi Ginijev koeficijent koncentracije
1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N) podijeli sa
zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg prema
najmanjem.
11
1
1
rN
i
i
r
i
i
r CN
x
x
C
Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N.
A ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1. - u analizi koncentracije koristi se grafiĉki prikaz – LORENZOVA KRIVULJA
1) na osi apscisa nalazi se aritmetiĉko mjerilo za kumulativni niz relativnih frekvencija
2) na osi ordinata nalazi se aritmetiĉko mjerilo za kumulativni niz proporcija podtotala
3) prva toĉka ima koordinate (0,0); posljednja toĉka ima koordinate (1,1); koordinate ostalih
toĉaka određene su vrijednostima ĉlanova kumulativnih nizova
4) u grafiĉki prikaz ucrtava se pravac jednolike raspodjele, on prolazi toĉkama (0,0) i (1,1)
2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike
raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje od
toga pravca
xi - pojedinaĉne vrijednosti varijable
negrupirani podaci
i - redni broj podatka
- podaci moraju biti uređeni od najmanjeg prema najvećem
- kreće se u intervalu od 0 do 1
- G = 0 ravnomjerna raspodjela
- G = 1 maksimalna koncentracija
- NORMIRANI KOEFICIJENT GINIJA 1
N
NGG
N
i
i
N
i
N
i
ii
xN
xNix
G
1
1 1
)1(2
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
32
PREDAVANJE #8
OSNOVNI POJMOVI VJEROJATNOSTI
VJEROJATNOST – brojĉana mjera nastanka neizvjesnih, tj. sluĉajnih događaja. Vjerojatnost nastanka
događaja A jednaka je P(A) pri ĉemu je 0 ≤ P(A) ≤ 1. Nekada se izraţava i u obliku postotka.
DEFINICIJE VJEROJATNOSTI
SLUĈAJNI POKUS – pokus je sluĉajan ako se u definiranim uvjetima moţe ponavljati, ako postoje barem 2
razliĉita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnošću.
PROSTOR UZORKA S – skup svih mogućih ishoda sluĉajnog pokusa
SLUĈAJNI DOGAĐAJ – jednoĉlani ili višeĉlani podskup skupa S te su sa događajima dopuštene skupovne
operacije.
1. KLASIĈNA DEFINICIJA (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja konaĉan broj puta,
pri ĉemu se vjerojatnost određuje kao omjer povoljnog broja ishoda m i ukupnog broja ishoda n
n
mAP )(
2. STATISTIĈKA VJEROJATNOST (vjerojatnost a posteriori) – broj ponavljanja pokusa je beskonaĉan, a
vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega
statistiĉkog skupa.
3. SUBJEKTIVNA VJEROJATNOST – to je broj iz intervala [0,1] određen na temelju prosudbe okolnosti
relevantnih za nastup sluĉajnog događaja.
SVOJSTVA VJEROJATNOSTI:
1) vjerojatnost da događaj A neće nastupiti jednaka je P(Ā)=1-P(A)
2) vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)
3) ako su događaji međusobno iskljuĉivi, vjerojatnost da će nastupiti događaj A1 ili A2 jednaka je
P(A1UA2)=P(A1)+P(A2)
4) ako događaji nisu međusobno iskljuĉivi, vjerojatnost nastupa barem jednog od njih jednaka je
P(A1UA2)=P(A1)+P(A2)-P(A1∩A2)
5) ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet da se dogodio događaj B.
Takva se vjerojatnost naziva uvjetnom vjerojatnošću )(
)()|(
BP
BAPBAP
6) ako su događaji neovisni tada vrijedi da je P(A∩B)=P(A)P(B)
SLUĈAJNA VARIJABLA X – numeriĉka funkcija koja svakom ishodu sluĉajnog pokusa pridruţuje realan broj.
diskretna- ako poprima konaĉan broj vrijednosti
kontinuirana – moţe poprimiti bilo koju vrijednost iz nekog intervala
DISTRIBUCIJA VJEROJATNOSTI
diskretne sluĉajne varijable – skup uređenih parova razliĉitih vrijednosti sluĉajne varijable xi i
pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:
- p(xi) ≥ 0
- ∑p(xi) = 1
Kumulativna funkcija ili funkcija distribucije F(xi) – pokazuje kolika je vjerojatnost da sluĉajna
varijabla x poprimi vrijednost xi ili manju.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
33
kontinuirane sluĉajne varijable – opisuje razdiobu vjerojatnosti na intervalu vrijednosti varijable.
Njena svojstva:
- f(x) ≥ 0
-
1)( dxxf
Primjer 1.
KVALITETA PROIZVODA
(KLASA)
BROJ PROIZVODA UKUPNO
DOB A DOB B
I 20 10 30
II 10 10 20
III 30 20 50
UKUPNO 60 40 100
marginalne vjerojatnosti
a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3
b) Kolika je vjerojatnost odabira proizvoda dobavljaĉa B? P(B2) = 0.4
c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljaĉa A? P(A3∩B1) = 0.3
d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8
e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljaĉa B?
P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7
f) Kolika je vjerojatnost izbora proizvoda dobavljaĉa A ako je poznato da je III. klase?
6.05.0
3.0
)(
)()|(
3
1331
AP
BAPABP
g) Jesu li varijable kvaliteta i dobavljaĉ neovisne?
Ako bi varijable kvaliteta i dobavljaĉ bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnošku
marginalnih vjerojatnosti 18.06.03.0)()()(
)()()(
1111
BPAPBAP
BPAPBAP jiji
Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljaĉa postoji zavisnost.
Primjer 2.
a) Pokaţite da je navedena distribucija, distribucija vjerojatnosti!
1)()2
0)()1
i
i
xp
xp DA
b) Odredite oĉekivanu vrijednost! 00.2)( ii xpxxF
c) Odredite vrijednosti funkcije distribucije! (tablica)
d) Odredite vjerojatnost p(x≤2)! 7.04.02.01.0)2( xp
KVALITETA PROIZVODA
(KLASA)
BROJ PROIZVODA UKUPNO
DOB A (B1) DOB B (B2)
I (A1) 0.2 0.1 0.3
II (A2) 0.1 0.1 0.2
III (A3) 0.3 0.2 0.5
UKUPNO 0.6 0.4 1
xi p(xi) xi p(xi) F(xi)
0 0.1 0 0.1
1 0.2 0.2 0.3
2 0.4 0.8 0.7
3 0.2 0.6 0.9
4 0.1 0.4 1.0
UKUPNO 1.0 2.0 -
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
34
MODELI DISTRIBUCIJA VJEROJATNOSTI – temelj inferencijalne statistike
Distribucije vjerojatnosti diskretne sluĉajne varijable: (najĉešće se koriste binomna i poissonova)
1. BINOMNA
2. POISSONOVA
3. HIPERGEOMETRIJSKA
4. UNIFORMNA
1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom. Bernaulijev pokus je
sluĉajni pokus slijedećih svojstava: - ima dva ishoda (uspjeh i neuspjeh)
- vjerojatnost ishoda uspjeh je p, a neuspjeh q=1-p
- pokusi su neovisni
xnx
qpx
nxP
)(
)!(!
!
xnx
n
x
n
n-broj ponavljanja Bernaulijevih pokusa
p-vjerojatnst ishoda uspjeh
x-sluĉajni broj ishoda uspjeha
Oĉekivana vrijednost pnxE
Varijanca qpn 2
2. POISSONOVA DISTRIBUCIJA – graniĉni sluĉaj binomne distribucije. Prikladna je za opis rijetkih
događaja, tj. događaja koji se javljaju s malom vjerojatnošću.
!
)(x
exp
xn
x-broj povoljnih ishoda
Oĉekivana vrijednost xE
Varijanca 2
Primjer 3.
Prema raspoloţivim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oroĉavanja depozita.
Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom
vjerojatnosti, kolika je vjerojatnost da se pred šelterom za oroĉavanje nađu: (broj stranaka koje u jednom
satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je sluĉajna varijabla koja se
ravna prema Poissonovoj distribuciji s parametrom = 5.)
a) 3 stranke? 14037.0!3
)3(5
e
P
b) više od 1 stranke?
03369.0!1
5)1(
00674.0!0
5)0(
95957.0)1()0(1)1(
15
05
ep
ep
ppxP
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
35
PREDAVANJE #9
Distribucije vjerojatnosti kontinuirane sluĉajne varijable:
1. NORMALNA (GAUSSOVA)
2. STUDENTOVA (T-DISTRIBUCIJA)
3. 2 (HI-KVADRAT)
4. F-DISTRIBUCIJA
5. UNIFORMNA KONTINUIRANA
6. EKSPONENCIJALNA
1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvaţnija distribucija vjerojatnosti.
- dvoparametarska funkcija (određena s 2 parametra) : oĉekivana vrijednost i varijanca ),( 2N
- zvonolika je i simtriĉna
- budući da aritmetiĉka sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se
jediniĉna (standardizirana) normalna distribucija
xz
2
22 ;0);1,0( N
Jediniĉna normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju
vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izraţene kao brojevi s jednom decimalom. Druga
decimala nalazi se u zaglavlju.Budući da je distribucija simetriĉna u tabeli su dane samo vrijednosti z.
oznaĉena površina oznaĉava vjerojatnost da
sluĉajna varijabla poprimi vrijednost iz intervala od 0
do z.
Primjer 1.
Sluĉajna varijabla x distribuirana je po normalnoj distribuciji N ( μ,σ2 ). Odredite vjerojatnost da varijabla
poprimi vrijednost:
a) μ-σ < x < μ+σ
6826.03413.02)00.1(2
)11()(
zP
zpxp
Kaţemo da je 68.26% vjerojatno da će sluĉajna varijabla z zauzeti vrijednosti između -1 i 1 ili da će
sluĉajna varijabla x zauzeti vrijednost između μ-σ i μ+σ.
1)(
1)(
0
zz
zz
xz
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
36
b) μ-2σ < x < μ+2σ
Kaţemo da je 95,44% vjerojatno da će sluĉajna varijabla z zauzeti vrijednost između -2 i 2 ili da će
sluĉajna varijabla x zauzeti vrijednost između μ-2σ i μ+2σ.
2. STUDENTOVA DISTRIBUCIJA
- njen oblik je određen veliĉinom n
- za n>30 (veliki uzorak) distribucija se po obliku pribliţava normalnoj distribuciji
- za n<30 (mali uzorak) distribucija je više razvuĉena na obje strane uzduţ apscise
- i ona je zvonolika i simetriĉna te tabelirana
- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su
kritiĉne vrijednosti.
Vjerojatnost da će sluĉajna varijabla koja se ravna po Studentovoj
distribuciji poprimiti vrijednost veću od tα iznosi α.
Primjer 2.
Sluĉajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedeće
vjerojatnosti:
a) P (t ≤ 1.397)
b) P (t ≤ -1.397)
9544.04772.02
)00.2(2)22(
)22(
zPzp
xp
900.0100.01397.11397.1 tptp
100.0397.1397.1 tPtP
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
37
OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE
INFERENCIJALNA STATISTIKA – skup analitiĉkih metoda koje polaze od uzorka.. Budući da se zakljuĉci
donose na temelju dijela podataka oni sadrţe pogrešku nastalu zbog primjene uzorka (Sampling error).
Faktori koji uvjetuju primjenu uzorka su slijedeći:
1. pojedini konaĉni skupovi sadrţe veliki broj ĉlanova pa bi njihovo istraţivanje zahtijevalo velika
financijska sredstva
2. do rezultata se dolazi u kraćem vremenu
3. uzorak se primjenjuje kada bi se istraţivanjem uništio ĉitav statistiĉki skup (npr.istraţivanje
trajnosti elektriĉnih ţarulja)
4. beskonaĉni skupovi istraţuju se iskljuĉivo metodom uzorka (pr.beskonaĉnog skupa:proizvodnja)
Dvije su osnovne zadaće metode uzorka:
1. procjenjivanje parametra
2. testiranje hipoteza
PLAN UZORKA – plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka, tj.
uzorak mora biti umanjena slika osnovnog skupa.
S obzirom na naĉin izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.
1. namjerni uzorci – jedinice uzorka izabiru se prema odluci istraţivaĉa
prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje)
uzorak izabran na temelju prosudbe istraživača – istraţivaĉ izabire reprezentativne
jedinice pri ĉemu je potrebno da dobro poznaje osnovni skup
kvotni uzorak – anketari se slobodno odluĉuju za jedinice u sklopu kvota
Namjerni uzorci jednostavni su za primjenu te se ĉesto koriste. Analiziraju se metodama
deskriptivne statistike.
Nedostatak: nije moguće izraĉunati grešku nastalu zbog primjene uzorka.
2. sluĉajni uzorci – svaki elemnt ima vjerojatnost izbora veću od nule. Kod ovih uzoraka moguće je
izraĉunati grešku. Analiziraju se metodama inferencijalne statistike.
jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora.
primjenjuje se kod homogenih skupova.
stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj
varijabilnosti. Jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju
STRATUMI.
uzorak skupina – u uzorak se ne izabiru pojedini elementi nego njihove skupine.
Ponekad se primjenjuje sistematski izbor (npr.ako iz skupa od 10 000 ĉlanova biramo uzorak
veliĉine 1000 birat ćemo svaki 10. ĉlan). Budući da se radi o sluĉajnom uzorku potrebno je
odrediti sluĉajni poĉetak.
OKVIR IZBORA – popis ĉlanova statistiĉkog skupa (npr.biraĉki popis)
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
38
PREDAVANJE #10
SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na
konceptu ponovljenih izbora sluĉajnih uzoraka iz danog osnovnog skupa pri ĉemu razliĉiti uzorci dovode do
razliĉitih vrijednosti procjena.
Primjer 1.
Vrijednosti numeriĉke varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veliĉine
n=2. Izbor je s jednakom vjerojatnošću svakog elementa skupa odnosno svakog uzorka.
aritmetiĉka sredina osnovnog skupa (μ) 33
91
N
xN
i
i
standardna devijacija osnovnog skupa 3
8)( 2
N
xi
vrijednosti varijabla
elemenata u uzorku
1 ; 1 1 ; 3 1 ; 5 3 ; 3 3 ; 1 3 ; 5 5 ; 1 5 ; 3 5 ; 5
aritmetiĉka sredina
uzorka ix
1 2 3 3 2 4 3 4 5
Provest ćemo izbor s ponavljanjem – izbor u kojem se svaki izabrani element za uzorak nakon izbora vraća
u osnovni skup i tako sudjeluje u izboru sljedećeg elementa za uzorak.
Budući da je vjerojatnost izbora svakog sluĉajnog uzorka veliĉine n=2 jednaka, iznosi 1/9, distribucija je
sredina:
3)( ii xpxxE
sampling distribucija
Oĉekivana vrijednost sampling distribucije aritmetiĉkih sredina uzoraka jednaka je aritmetiĉkoj sredini
osnovnog skupa. Standardna devijacija sampling distribucije sredina prosjeĉno je odstupanje aritmetiĉkih
sredina od aritmetiĉke sredine osnovnog skupa. Ona izraţava pogrešku koja nastaje zbog primjene uzorka,
stoga se naziva standardnom pogreškom aritmetiĉke sredine.
aritmetiĉka
sredina uzorka ix
)( ixP )( ii xPx
1 1/9 1/9
2 2/9 4/9
3 3/9 9/9
4 2/9 8/9
5 1/9 5/9
ukupno 1 27/9=3
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
39
PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom.
Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.
).ˆ.....ˆ( procjenegreškaprocjenegreška
- karakteristika uzorka, a ujedno i procjena broja
- karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetiĉka sredina, total i proporcija)
Procjenitelj :
nepristran – ako je njegova oĉekivana vrijednost jednaka parametru koji se procjenjuje ˆE
konzistentan – ako njegova standardna devijacija s porastom uzorka teţi nuli
PROCJENA ARITMETIĈKE SREDINE – moţe biti brojem i intervalom
procjena brojem – jednaka je aritmetiĉkoj sredini uzorka
intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija (Gaussova)
x aritmetiĉka sredina uzorka
2
z koeficijent pouzdanosti koji se određuje na temelju
površina ispod normalne krivulje
x standardna pogreška procjene aritm.sredine
aritmetĉka sredina osnovnog skupa,a ujedno i
parametar koji se procjenjuje
1 razina signifikantnosti
intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija
1
22xx txtxP
2t -koeficijent pouzdanosti koji se određuje na temelju
studentove distribucije
Primjer 2.
Odredite vrijednost standardne pogreške procjene aritmetiĉke sredine osnovnog skupa za ove
sluĉajeve:
a) Procjenjuje se sredina konaĉnog skupa od 125 768 ĉlanova pomoću sluĉajnog uzorka veliĉine 1250
ĉlanova. Standardna devijacija osnovnog skupa iznosi 64.
N-broj elemenata osnovnog skupa
n-broj elemanata uzorka
Frakcija izbora (f) pokazuje da je u uzorak izabrano
pribliţno 1% osnovnog skupa.
1
22xx zxzxP
05000990125768
1250
1250
125768
.f;.N
nf
n
N
05.0,
05.0,1
fn
fN
nN
n
x
81019.1
1250
64
nx
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
40
b) Sredina se procjenjuje pomoću sluĉajnog uzorka veliĉine 600 formiranog izborom svakog desetog ĉlana
konaĉnog osnovnog skupa, a varijanca skupa iznosi 100.
10100
60001010
600
2
nNn
N
n
38733.016000
6006000
600
10
1
05.0,1.06000
600
N
nN
n
fN
nf
x
c) Uzorak veliĉine 36 izabran je iz beskonaĉnog osnovnog skupa N(μ, 52)
beskonaĉni skup f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonaĉan i f<0.05)
83333.06
5
36
5
nx
d)
10ˆ
2500
35679
n
N
- nepristrani procjenitelj standardne devijacije populacije (osnovnog skupa)
e) Veliĉina je uzorka 256 i ĉini 2% osnovnog skupa, a standardna devijacija uzorka je 32.
s – standardna devijacija uzorka
00392.2ˆ
06268.32ˆ
05.0,02.0
n
ff
x
1ˆ
n
ns
faktor korekcije
Primjer 3.
Tvrtka isporuĉuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000 pakovanja. Radi
kontrole izabran je sluĉajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj neispravnih
vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je 117. 293,11760
1
260
1
i
i
i
i xx
Procjenite brojem i intervalom prosjeĉan broj neispravnih vijaka po pakovanju za cijelu pošiljku. Razina
povjerenja je 95%.
05.0,ˆ
05.0,1
ˆ
fn
fN
nN
n
x
05.0,07.035679
2500 f
N
nf
19287.0135679
250035679
2500
10
1
ˆ
N
nN
nx
12800100256
2
256
32
NN
n
s
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
41
05.0,006.010000
60
60
fN
nf
uzorakvelikin
procjena brojem – procjenitelj aritmetiĉke sredine je aritmetiĉka sredina uzorka
295.160
117
N
xx
i procjena prosjeĉnog broja neispravnih vijaka po pakovanju
intervalni procjenitelj
1
22xx zxzxP
0.95:2 = 0.4750
z(P=0.4750) = 1.96
Kako nije poznata standardna devijacija osnovnog skupa potrebno je izraĉunati njezinu procjenu pomoću
podataka iz uzorka.
1
1
ˆ
22
n
xn
x ii
95.021529.268471.0
95.013535.096.195.113535.096.195.1
P
P
Interpretacija: S vjerojatnošću od 0.95 odnosno 95% oĉekuje se da će se prosjeĉan broj neispravnih
vijaka po pakovanju kretati između 0.68471 i 2.21529.
Primjer 4.
Ispituje se prosjeĉno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market.
Trajanje u minutama 10 sluĉajno odabranih razgovora iz evidencije 8967 razgovora bilo je slijedeće:
xi : 2 1 1 2 3 4 2 1 1 3
Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom
aritmetiĉkom sredinom i nepoznatom standardnom devijacijom.
Odredite granice za koje se moţe oĉekivati da obuhvaćaju prosjeĉno trajanje razgovora za osnovni skup.
Pouzdanost procjene je 90%.
13535.060
04840.1ˆ
04840.159
11760
1293
ˆ
2
nx
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
42
min210
20
1
10
22
n
xx
txtxP
uzorakmalin
i
xx
koeficijent pouzdanosti t određuje se pomoću tablice studentove T-distribucije.
S vjerojatnošću od 90% oĉekuje se da će se prosjeĉno trajanje razgovora za osnovni skup kretati između
1.38901 i 2.61099.
PREDAVANJE #11
PROCJENA TOTALA OSNOVNOG SKUPA
TOTAL – zbroj vrijednosti numeriĉkog obiljeţja. Taj je parametar povezan s aritmetiĉkom sredinom.
N
T
N
xi
NT
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetiĉke sredine.
procjena totala brojem - xNT ˆ
- xTN ˆ
intervalna procjena za veliki uzorak -
1ˆˆˆ
2ˆ
2TT
zTTzTP
91..
05.02
90.01
nss
90.061099.238901.1
90.033333.0833.1233333.0833.12
P
P
05.00011152.08967
10
33333.010
05409.1ˆ
05409.19
10
2050
1
1
ˆ
833.1
222
)9(
05.0
fN
nf
n
n
xn
x
t
x
ii
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
43
2z - koeficijent pouzdanosti
T - standardna pogreška procjene totala
1 - razina pouzdanosti (povjerenja)
intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se 2
t .
ODREĐIVANJE VELIĈINE UZORKA ZA PROCJENU ARITMETIĈKE SREDINE OSNOVNOGA SKUPA
Veliĉina uzorka ovisi o slijedećim elementima:
1. vrsti osnovnog skupa (konaĉan ili beskonaĉan)
2. razini pouzdanosti procjene
3. ţeljenoj pouzdanosti procjene
4. stupnju varijabilnosti podataka
PRETHODNA VELIĈINA UZORKA n0 :
ako su pogreška (d) i stupanj varijabilnosti izraţeni apsolutno:
2
20
d
z
n
ako su pogreška (dr) i stupanj varijabilnosti izraţeni relativno:
rd
Vz
n
.2
0
KONAĈNA VELIĈINA UZORKA:
frakcija:
Primjer 1.
U grafiĉkoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomoću
kojega se procjenjuje prosjeĉni radni staţ svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se
pogreška od najviše ±0.5 godine. Pretpostavlja se da je σ osnovnog skupa 6 godina.
6
5.0
95.0)1(
9754
d
N
96.14750.0
4750.02
95.0
Pz
553
5.0
696.1
0
2
0
2
20
n
n
d
z
n
52305669.01
553
1
05.005669.09754
553
0
0
0
0
0
f
nn
fN
nf
Prema navedenim uvjetima u uzorak treba izabrati 523 zaposlenika.
05.0,1
05.0,
0
0
00
off
n
fn
nN
nf 0
0
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
44
PROCJENA PROPORCIJE OSNOVNOG SKUPA
PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja ĉlanova osnovnog skupa s
određenim modalitetom obiljeţja i opsega statistiĉkog skupa
procjenitelj procjene brojem: n
mP ˆ m - broj elemenata s određenim modalitetom obiljeţja u uzorku
n - broj elemenata uzorka
Sampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za dovoljno
veliki uzorak aproksimira se normalnom distribucijom.
intervalna procjena za veliki uzorak:
1ˆˆ
ˆ2
ˆ2
pp zppzpP
p-proporcija osnovnog skupa
TESTIRANJE HIPOTEZA O PARAMETRU
STATISTIĈKA HIPOTEZA – tvrdnja o veliĉini parametra ili o obliku distribucije osnovnog skupa ĉija se
istinitost ispituje pomoću sluĉajnog uzorka.
TESTIRANJE STATISTIĈKIH HIPOTEZA – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju
tvrdnje.
STATISTIĈKI TESTOVI:
parametarski – polazi se od danog oblika numeriĉke varijable u osnovnom skupu
neparametarski
Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka:
POGREŠKA TIPA I – nastaje ako se odbaci istinita nulta hipoteza
POGREŠKA TIPA II – nastaje ako se prihvati laţna nulta hipoteza
RAZINA ZNAĈAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite nulte hipoteze
β – vjerojatnost prihvaćanja laţne nulte hipoteze
SNAGA TESTA (1-β)– vjerojatnost odbacivanja laţne nulte hipoteze
TESTIRANJE HIPOTEZA O PRETPOSTVLJENOJ VRIJEDNOSTI ARITMETIĈKE SREDINE
OSNOVNOG SKUPA – ovo se testiranje provodi na temelju sluĉajnog uzorka od N ĉlanova
N > 30 veliki uzorak – TEST VELIKIM UZORKOM
N ≤ 30 mali uzorak – TEST MALIM UZORKOM
Testiranje se provodi u slijedećim koracima:
1. postavljanje hipoteza
2. identificiranje izraza za testnu veliĉinu i određivanje njene vrijednosti
3. odabir razine signifikantnosti i određivanje kritiĉnih granica
4. donošenje odluke
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
45
Test moţe biti:
dvosmjeran
jednosmjeran (na donju ili na gornju granicu)
Odluka se moţe donijeti na iduće naĉine:
pomoću kritiĉnih granica
Z-test ; T-test
pomoću empirijske razine signifikantnosti tj. p-vrijednosti
DVOSMJERNI TEST – nije ograniĉen smjer odstupanja. Pretpostavka je da je aritmetiĉka sredina jednaka
pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.
01
00
...........
...........
H
H
Primjer 2.
Prema standardu prosjeĉna trajnost elektriĉnih ţarulja od 75W iznosi 2000 h s prosjeĉnim odstupanjem
250 h. Iz serije ţarulja izabran je, uz frakciju izbora manju od 5%, sluĉajni uzorak 64 ţarulje. Ispitivanjem
je ustanovljeno da je prosjeĉna trajnost ţarulja u uzorku 1935 h. Moţe li se prihvatiti pretpostavka da je
uzorak izabran iz osnovnog skupa kojemu je aritmetiĉka sredina prema standardu tj.2000 h. testirati na
razini znaĉajnosti 5%.
2000........
2000........
1
0
H
H veliki uzorak normalna distribucija
%5
1935
64
05.0
250
x
n
f
25.3164
250
nx
Koeficijent znaĉajnosti za danu razinu znaĉajnosti određuje se pomoću površina ispod normalne krivulje.
Postupak određivanja toga koeficijenta jednak je postupku određivanja koeficijenta povjerenja pri procjeni
parametra. Međutim koeficijent znaĉajnosti odraţava razinu znaĉajnosti tj. vjerojatnost pogreške tipa I., a
koeficijent povjerenja razinu povjerenja procjene.
96.1)4750.0025.05.0 PzPz
1.
Ove kritiĉne granice izraţene su u mjernim jedinicama varijable.
ODLUKA:
12
11
021
HCx
HCx
HCxC
175.19381935 H
25.206125.3196.12000
75.193825.3196.1200
202
201
x
x
zC
zC
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
46
Na danoj razini znaĉajnosti odbacuje se nulta hipoteza tj. ne prihvaća se pretpostavka da je uzorak
izabran iz skupa ţarulja s prosjeĉnom trajnošću 2000 h.
2. Z-test
test veliĉina ( empirijski z-omjer)
08.225.31
200019350
x
xz
ODLUKA:
1
2
02
Hzz
Hzz
196.108.2 H
3. Pomoću empirijske razine signifikantnosti tj. p-vrijednosti
Teorijska razina signifikantnosti sastavni je element. Ona predstavlja odabranu vjerojatnost
odbacivanja istinite nulte hipoteze.
Empirijska razina signifikantnosti ili opaţena razina signifikantnosti (p-vrijednost) vjerojatnost je
odbacivanja istinite nulte hipoteze izraĉunata pomoću podataka iz uzorka odnosno test veliĉina
(empirijskog z odnosno t omjera)
0376.04812.05.0208.222
08.2
zPzzPvrijednostp
z
ODLUKA:
1
0
Hp
Hp
105.00376.0 H
JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više. Pretpostavlja
se da je aritmetiĉka sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se formulira kao
alternativna hipoteza. (“više od”, “najmanje”, “barem”)
01
00
...........
...........
H
H
Primjer 3.
Radi povećanja produktivnosti strojeva predloţena je njihova preinaka. Prema proraĉunima preinaka je
poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120.
Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosjeĉan
broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se
zakljuĉka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi
5%.
120.......
120.......
1
0
H
H
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
47
65.14500.005.05.0
67248.1144
06981.20ˆ
.05.0
06981.20143
12521442307600
1ˆ
2307600
125
144
2
2
PzPz
n
skupbeskf
n
xnx
x
x
uzorakvelikin
x
i
i
1. pomoću kritiĉnih granica
76.12267248.165.112002 xzC
ODLUKA:
12
02
HCx
HCx
176.122125 H
Odstupanje aritmetiĉke sredine uzorka na više znaĉajno je pa se prihvaća pretpostavka da je preinaka
strojeva opravdana.
2. Z-test
99.267248.1
1201250
x
xz
ODLUKA:
1
0
Hzz
Hzz
165.199.2 H
3. pomoću empirijske razine signifikantnosti tj. p-vrijednost
0014.04986.05.099.2
99.2
zPzzPvrijednostp
z
ODLUKA:
1
0
HP
HP
105.00014.0 H
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
48
PREDAVANJE#12
JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niţe. Pretpostavlja se
da je aritmetiĉka sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao
alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)
01
0
.........
.........
H
Ho
Primjer 1.
Poslovodstvo banke odluĉilo je promijeniti programsku potporu šalterskog poslovanja kako bi se smanjio
prosjeĉni utrošak vremena obrade naloga stranaka i time skratilo vrijeme ĉekanja stranaka. Analizom je
utvrđeno da se promjena potpore isplati ako prosjeĉno vrijeme obrade iznosi najviše 30 sekundi po
nalogu. Razvojna sluţba banke izradila je programsku potporu koja se testira u odabranom broju
poslovnica. Na temelju podataka o trajanju obrade pomoću nove programske potpore za 453 sluĉajno
odabrana naloga izraĉunano je prosjeĉno utrošeno vrijeme po nalogu koje iznosi 28 sekundi s prosjeĉnim
odstupanjem 4 sekunde. Do kojeg se zakljuĉka dolazi na temelju provjere rada s novim programom?
Testirati na razini znaĉajnosti 2%.
30........
30........
1
0
H
H Uzorak je velik pa koristimo normalnu distribuciju.
02.0%2
4
28
453
s
x
n
18814.0453
0042.4
0042.4452
4534
1ˆ
x
n
ns
05.24800.002.05.0
05.0.
PzPz
fskupbesk
1. pomoću kritiĉne granice
61430.2918814.005.2302 xzC
ODLUKA:
11
01
HCx
HCx
161430.2928 H
Odstupanje aritmetiĉke sredine uzorka naniţe je znaĉajno na danoj razini signifikantnosti pa se
zakljuĉuje da nova programska potpora skraćuje vrijeme obrade naloga.
2. Z-test
test veliĉina (empirijski z-omjer) je:
630.1018814.0
30280
x
xz
ODLUKA:
1
0
Hzz
Hzz
105.2630.10 H
Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta
hipoteza.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
49
TESTIRANJE HIPOTEZA O RAZLICI ARITMETIĈKIH SREDINA DVAJU OSNOVNIH SKUPOVA
NEZAVISNIM UZORCIMA
Uzorci su nezavisni ako rezultati opaţanja i mjerenja u jednome uzorku ne ovise o rezultatima opaţanja i
mjerenja u drugome uzorku, npr. ispitivanje efikasnosti rada radnika u dvije tvornice.
Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opaţanjem odnosno mjerenjem
odabrane varijable na istim jedinicama u razliĉitim vremenskim terminima, npr. mjerenje efikasnosti rada
radnika u istoj tvornici prije i nakon provedenog programa struĉnog usavršavanja.
DVOSMJERNI TEST – pretpostavlja se da su aritmetiĉke sredine osnovnih skupova jednake (μ1,μ2).
Pretpostavka se formulira kao nulta hipoteza.
0........
0........
211
210
H
H
Primjer 2.
Pomoću uzorka se ispituje razlika u prosjeĉnoj mjeseĉnoj potrošnji mlijeka ĉetveroĉlanih kućanstava u dva
naselja. U naselju Lug je 2500 ĉetveroĉlanih kućanstava, a u naselju Gaj 2000. Kod ĉetveroĉlanih
kućanstava u naselju Lug izabrano je u uzorak svako 50. kućanstvo, a od ukupnog broja ĉetveroĉlanih
kućanstava u naselju Gaj u uzorak je izabrano 2% kućanstava. Na temelju podataka iz uzorka kućanstava
naselja Lug utvrđena je prosjeĉna mjeseĉna potrošnja po kućanstvu 53 litre s prosjeĉnim odstupanjem od
1 litre. Pomoću vrijednosti iz uzorka kućanstava iz naselja Gaj utvrđena je prosjeĉna mjeseĉna potrošnja
po kućanstvu 50 litara s prosjeĉnim odstupanjem od 1.41 litre. Moţe li se prihvatiti pretpostavka da se
prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih kućanstava u naseljima Lug i Gaj signifikantno ne
razlikuju? Razini signifikantnosti je 3%.
0........
0........
211
210
H
H
ls
lx
n
1
53
50
1
1
1
ls
lx
n
41.1
50
40
2
2
2
17.24850.0015.05.0
03.0
PzPz
03908.239
4041.1
1ˆ
02041.143
501
1ˆ
2
2
22
2
2
2
2
1
12
1
2
1
n
ns
n
ns
standardna pogreška za velike uzorke: 26719.040
03908.2
50
02041.1ˆˆ
2
2
2
1
2
1
21
nnxx
1. pomoću kritiĉnih granica
57980.026719.017.200
57980.026719.017.200
21
21
22
21
xx
xx
zC
zC
test veliĉina: 35053ˆ21 xxD
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
50
ODLUKA:
12
11
021
ˆ
ˆ
ˆ
HCD
HCD
HCDC
157980.03 H
Ne moţe se prihvatiti pretpostavka da se prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih
kućanstava u naselju Lug i Gaj signifikantno se ne razlikuju.
2. Z-test
test veliĉina (empirijski z-omjer)
22997.1126719.0
5053
21
21
xx
xxz
ODLUKA:
12
02
Hzz
Hzz
117.222797.11 H
JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog
skupa veća od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna
hipoteza.
0.......
0.......
211
210
H
H
Primjer 3.
Ispituje se pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veći od prosjeĉnih
izdataka za odjeću nepoljoprivrednih kućanstava. U tu svrhu odabrani su sluĉajni uzorci od po 500
kućanstava. Promatrani su godišnji izdaci.
poljoprivredna kućanstva nepoljoprivredna kućanstva
kns
knx
30.520
50.5900
1
1
kns
knx
50.480
70.5830
2
2
0.......
0.......
211
210
H
H
33.24900.001.05.0
01.0
PzPz
9359.231342499
50050.480
1ˆ
5992,271254499
50030.520
1ˆ
2
2
22
2
2
2
2
1
12
1
2
1
n
ns
n
ns
standardna pogreška za velike uzorke:
7048.31500
9359.231342
500
5992.271254ˆˆ
2
2
2
1
2
1
21
nnxx
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
51
1. pomoću kritiĉne granice
8722.737048.3133.200212 xxzC
test veliĉina: 8.6970.583050.5900ˆ21 xxD
ODLUKA:
12
02
ˆ
ˆ
HCD
HCD
08722.7380.69 H
Ne moţe se prihvatiti pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veĉi od
prosjeĉnih izdataka za odjeću nepoljoprivrednih kućanstava.
2. Z-test
test veliĉina (empirijski z-omjer)
20.27048.31
70.583050.5900
21
21
xx
xxz
ODLUKA:
1
0
Hzz
Hzz
033.220.2 H
3. pomoću empirijske razine signifikantnosti (p-vrijednost)
0139.04861.05.020.2
20.2
ZPzZPvrijednostp
z
ODLUKA:
1
0
Hp
Hp
001.00139.0 H
JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog
skupa manja od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna
hipoteza.
0........
0........
211
21
H
Ho
Primjer 4.
Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda niţe u diskontima nego u klasiĉnim
prodavaonicama. U tu su svrhu odabrani sluĉajni uzorci od 50 maloprodajnih cijena u diskontima i 80
maloprodajnih cijena u klasiĉnim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom
razdoblju i za isti prehrambeni proizvod.
diskonti klasiĉne prodavaonice
kns
knx
30.2
90.9
1
1
kns
knx
10.2
42.11
2
2
Moţe li se na osnovi podataka iz uzorka zakljuĉiti da je prosjeĉna maloprodajna cijena prehrambenih
proizvoda niţa u diskontima nego u klasiĉnim prodavaonicama? Razina signifikantnosti je 1%.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
52
0........
0........
211
21
H
Ho
4658.479
8010.2
1ˆ
3980.549
5030.2
1ˆ
33.24900.001.05.0
2
2
22
2
2
2
2
1
12
1
2
1
n
ns
n
ns
PzPz
standardna pogreška za velike uzorke:
4047.080
4658.4
50
3980.5ˆˆ
2
2
2
1
2
1
21
nnxx
1. Z-test
test veliĉina (empirijski z-omjer)
7064.34047.0
40.1190.9
21
21
xx
xxz
ODLUKA:
1
0
Hzz
Hzz
133.27064.3 H
Moţe se prihvatiti pretpostavka da je prosjeĉna maloprodajna cijena prehrambenih proizvoda niţa u
diskontima nego u klasiĉnim prodavaonicama.
PREDAVANJE #13
REGRESIJSKA ANALIZA – njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o više drugih
varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće
ZAVISNA VARIJABLA – varijabla ĉije se varijacije objašnjavaju
NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijable
REGRESIJSKI MODEL – jednadţba ili skup jednadţbi s konaĉnim brojem parametara i varijabli
linearni
nelinearni
MODEL JEDNOSTAVNE LINEARNE REGRESIJE – njime se izraţava odnos među dvjema pojavama.
Model sadrţi jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom
statistiĉkom odnosu.
DESKRIPITVNO STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE
opći oblik modela jednostavne regresije: efy x
f(x) – funkcionalni dio modela
e – stohastiĉka varijabla koja odraţava nesistemske utjecaje na zavisnu varijablu
Ako je funkcionalni dio modela oblika xf x model postaje: exy
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
53
Ako su a i b procjene nepoznatih parametara α i β, a ui procjene nepoznatih vrijednosti varijable e, model
se moţe izraziti na slijedeći naĉin: iii ubxay
linearna regresijska jednadţba: ii bxay ˆ
Do procjene a i b dolazi se primjenom metode najmanjih kvadrata: 22
xnx
yxnyxb
i
ii
xbya
KONSTANTNI ĈLAN a - predstavlja vrijednost regresije u sluĉaju kada je nezavisna varijabla jednaka nuli
REGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla poveća za jedinicu.
JEDNADŢBA ANALIZE VARIJANCE
SRSPST
yyyyyy iiii
222
ˆˆ
ST – ukupan zbroj kvadrata
SP – protumaĉeni zbroj kvadrata
SR – rezidualni ili neprotumaĉeni zbroj kvadrata
iy - empirijske ili stvarne vrijednosti zavisne varijable
y - aritmetiĉka sredina zavisne varijable
iy - regresijske vrijednosti
Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.
Varijanca regresije aritmetiĉka je sredina kvadrata rezidualnih odstupanja:
n
SR
n
yy ii
y
2
2
ˆ
ˆ
Standardna devijacija regresije: n
SRy ˆ
Koeficijent varijacije regresije: 100ˆ
yV
y
y
Standardna devijacija regresije interpretira se kao prosjeĉno odstupanje empirijskih vrijednosti od
regresijskih izraţeno apsolutno.
Koeficijent varijacije je to isto odstupanje izraţeno relativno.
Specifiĉan pokazatelj reprezentativnosti regresije je koeficijent determinacije:
2
2
2ˆ
yy
yy
ST
SPr
i
i
102 r
Regresija je to reprezentativnija što se koeficijent determinacije više pribliţava jedinici.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
54
KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.
Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: 2
rr
bsignrsign 11 r
Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.
Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.
Ako je koeficijent korelacije jendak +1, veza je potpuna i pozitivnog smjera.
Primjer 1.
U 6 prodavaonica na podruĉju A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama kn.
broj
zaposlenih
promet 2
ix 2
iy ii yx
ix iy
2 25 4 625 50
3 31 9 961 93
8 85 . . .
4 51 . . .
7 69 . . .
6 65 . . .
30 326 178 20 398 1900
a) Odredite status varijabli u modelu!
Zavisna varijabla (y) – promet u tisućama kuna
Nezavisna varijabla (x) – broj zaposlenih
b) Nacrtajte dijagram rasipanja!
Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetiĉko mjerilo za nezavisnu
varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za izbor oblika
funkcije u modelu.
Iz dijagrama rasipanja se zakljuĉuje o :
1. obliku veze – oblik veze je linearan
2. smjeru veze – smjer je pozitivan
3. jakosti veze – veza je relativno jak
33.546
326
560
30
n
yy
n
xx
i
i
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
55
c) Kako glasi linearna regresijska jednadţba s procijenjenim parametrima?
08.6565.933.54
65.956178
33.54561900222
xbya
xnx
yxnyxb
i
ii
xy
bxay
65.908.6ˆ
ˆ
Interpretacija:
a (konstantni ĉlan) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08
tisuća kuna.
b (regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet
povećati linearno i u prosjeku za 9.65 tisuća kuna.
d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja!
Regresijske vrijednosti određuju se tako da se u regresijsku jednadţbu redom uvrštavaju stvarne
vrijednosti nezavisne varijable.
Interpretacija:
Za dva zaposlena oĉekivana vrijednost ukupnog prometa iznosi 25.38 tisuća kuna.
ii yy ˆ
Rezidualna odstupanja izraĉunavaju se tako da se od stvarne varijable iy oduzme pripadajuća
regresijska vrijednost iy :
Relativna rezidualna odstupanja definiraju se izrazom:
Interpretacija:
Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisuća kuna ili 1,52%.
e) Regresijski pravac ucrtajte u dijagram rasipanja!
f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?
%76.610033.54
67.3100
.67.349.13
49.136
92.80ˆ
92.80190065.932608.620298
ˆ
ˆ
ˆ
2
2
ˆ
2
yV
kntisn
SR
n
yy
n
SR
yxbyaySR
y
y
y
ii
y
iiii
.
.
.
.
38.25265.908.6ˆ1 y
0
.38.038.2525
ˆ
i
i
iii
u
kntisu
yyu
%52.110025
38.2525
100ˆ
,1
,
rel
i
iireli
u
y
yyu
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
56
Prosjeĉno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisuća kuna
ili relativno 6.76%
g) Izraĉunajte vrijednosti ĉlanova u jednadţbi rašĉlambe zbroja kvadrata odstupanja vrijednosti zavisne
varijable od njezine aritmetiĉke sredine! (jednadţba analize varijance)
92.80
89.260633.546190065.932608.6
51.268733.54620398
22
222
SPSTSR
ynyxbyaSP
ynyST
iii
i
h) Odredite koeficijent determinacije i koeficijent linearne korelacije!
97.051.2687
59.26062 ST
SPr
Interpretacija:
Linearnom regresijskom vezom protumaĉeno je 97% svih odstupanja. Na temelju toga moţe se
zakljuĉiti da je model reprezentativan.
98.097.02 rr
koeficijent determinacije apsolutna vrijednost
koeficijenta linearne
korelacije
tumaĉenje
2r r
0 0 odsutnost korelacije
0,00-0,25 0,00-0,50 slaba korelacija
0,25-0,64 0,50-0,80 korelacija srednje jaĉine
0,64-1 0,80-1 ĉvrsta korelacija
1 1 potpuna korelacija (perfektna)
Radi se o ĉvrstoj korelaciji pozitivnog smjera
i) Koliko iznosi korigirani koeficijent determinacije?
96.097.0116
161
,12
11
2
2222
r
rrrn
nr
j) Sastavite tabelu ANOVA!
Tabela ANOVA za jednostavnu regresiju:
izvor varijacije stupnjevi slobode zbroj kvadrata sredina kvadrata empirijski t-omjer
protumaĉen
modelom
1
1
SP
2606.59
SP/1
2606.59
2n
SR
SP 128.85
neprotumaĉena
(rezidualna)
odstupanja
n-2
4
SR
80.92
SR/(n-2)
20.23
/
UKUPNO n-1
5
ST
2687.51
/ /
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
57
PREDAVANJE #14
INFERENCIJALNO-STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE – empirijske
vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenoga beskonaĉnoga osnovnog skupa. U
sklopu inferencijalno-statistiĉke analize provodi se procjenjivanje parametara i testiranje hipoteza.
model osnovnog skupa (populacije): iii exy
α i β – nepoznati parametri populacije
e – nepoznate vrijednosti sluĉajne varijable
model uzorka: iii exy ˆˆˆ
ˆˆ i - procjene nepoznatih parametara
e - procjene nepoznatih vrijednosti sluĉajne varijable
Procjene parametara brojem u sklopu inferencijalne statistike jednake su procjenama u sklopu
deskriptivne statistike, tj. ba ˆ,ˆ
procjena varijance brojem:
2
ˆ
ˆ 1
2
2
n
yyn
i
ii
procjena standardne devijacije:
2
ˆ
ˆ 1
2
n
yyn
i
ii
intervalna procjena parametra β:
mali uzorak
1ˆˆ
ˆ2
ˆ2
ttP
veliki uzorak
1ˆˆ
ˆ2
ˆ2
zzP
22
2
ˆ
ˆ
xnx i
Primjer 1.
Dana je regresijska jednadţba :
ˆ
03.0
ˆ
ˆ
92.0125ˆ xy
U kojim se granicama moţe oĉekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.
069.2
2321..
23
025.0
2
2
tt
nknss
n
95.098207.085793.0
95.003.0069.292.003.0069.292.0
P
P
Uz pouzdanost od 95% oĉekuje se da će se nepoznati parametar naći unutar ovih granica.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
58
TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE – moţe se provesti na više
ekvivalentnih naĉina:
1. F-TEST
iii
ii
exyH
eyH
........
........
1
0 ili alternativno (ĉešće)
0.........
0.........
1
0
H
H
test veliĉina (empirijski f-omjer) :
2
1
2
ˆ
ˆ
n
i
i yy
F
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.
2. T-TEST
test veliĉina (empirijski t-omjer) :
ˆ
ˆt
Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.
Test se moţe provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju
granicu). Ako je β<0 jednosmjerni test na donju granicu
Ako je β>0 jednosmjerni test na gornju granicu
Primjer 2.
Dana je regresijska jednadţba:
ˆ
03.0
ˆ
ˆ
92.0125ˆ xy
Moţe li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5% signifikantnosti.
n=25. Primjenite t-test.
0.......
0.......
1
0
H
H dvosmjerni test 667.30
03.0
92.0ˆ
ˆ
t 069.2
05.0
23
025.0
t
ODLUKA:
12
2
Htt
Htt o
1069.2667.30 H
Nezavisna varijabla x nije suvišna u modelu.
MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA) – njime se izraţava ovisnost jedne
varijable o više drugih varijabli.
ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE
model osnovnog skupa (populacije): exxxy kk .......2211
model uzorka: exxxy kkˆˆ......ˆˆˆ
2211 alternativno eyy ˆˆ
linearna regresijska jednadţba s procijenjenim parametrima: kk xxxy ˆ......ˆˆˆˆ2211
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
59
Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata.
- konstantni ĉlan – predstavlja vrijednost regresije kada su nezavisne varijable jednake 0.
j - regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.
REGRESIJSKE VRIJEDNOSTI – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku
jednadţbu.
REZIDUALNA ODSTUPANJA – odstupanja empirijskih vrijednosti od regresijskih izraţena apsolutno
iii yye ˆˆ
RELATIVNA REZIDUALNA ODSTUPANJA - 100ˆ
ˆ,
i
ii
reliy
yye
STANDARDIZIRANA REZIDUALNA ODSTUPANJE - 100ˆ
ˆˆ
,
ii
reli
yye
NEPRISTRANA PROCJENA VARIJANCE BROJEM -
11
ˆˆ
2
2
kn
SR
kn
yy ii
1
ˆˆ
2
kn
yy ii
INTERVALNE PROCJENE PARAMETARA -
1ˆˆ
ˆ2
ˆ2
jj
ttP jj
KOEFICIJENT VIŠESTRUKE DETERMINACIJE -
ST
SP
yy
yyR
i
i
2
2
2ˆ
opći pokazatelj kvalitete modela
Model je to reprezentativniji što je
koeficijent determinacije bliţe
jedinici.
TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE – najĉešće se koriste slijedeći testovi:
1. PARCIJALNI TEST – testira se znaĉajnost podskupa nezavisne varijable
2. POJEDINAĈNI TEST – testira se znaĉajnost jedne nezavisne varijable. Moţe se
provesti i kao f-test i kao t-test
3. SKUPNI TEST – testira se znaĉajnost svih nezavisnih varijabli u modelu. Uvijek
se provodi kao f-test.
0........
0............
1
210
j
kj
H
H
U hipotezi H0 stoji da nijedna nezavisna varijabla nije znaĉajna za model.
U hipotezi H1 stoji da je barem jedna nezavisna varijabla znaĉajna za model.
Test veliĉina je empirijski f-omjer iz tabele ANOVA.
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću
koja se oĉitava iz tablica.
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
60
TABLICA ANOVA ZA VIŠESTRUKU REGRESIJU:
k – broj nezavisnih varijabli
ukupna odstupanja: empirijske vrijednosti od prosjeka
protumaĉena odstupanja: regresijske vrijednosti od prosjeka
neprotumaĉena odstupanja: empirijske vrijednosti od regresijskih
PREDAVANJE #15
MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.
Vremenska serija se moţe rašĉlaniti na slijedeće komponente:
KOMPONENTA TRENDA – predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izraţava
se nekom funkcijom vremena. S obzirom na tu funkciju vremena trend moţe biti linearni i
eksponencijalni.
SEZONSKA KOMPONENTA – posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje…
Oĉituje se onda kada se vremenska pojava obnavlja na pribliţno isti naĉin unutar jedne
godine.
CIKLIĈKA KOMPONENTA – oĉituje se onda kada se vremenska pojava obnavlja na pribliţno
isti naĉin s periodom od 2 ili više godine.
SLUĈAJNA (STOHASTIĈKA) KOMPONENTA – odraţava nesistematske utjecaje na pojavu
opći oblik aditivnog modela: eSCTY Y – pojava koju promatramo
T – vrijednost komponente trenda
C – vrijednost cikliĉke komponente
S – vrijednost sezonske komponente
e – vrijednost sluĉajne komponente
U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model moţe pisati:
eSTCY ili eSTY T – komponenta trend ciklusa
opći oblik multiplikativnog modela: IITY s komponentaslučI
komponentasezonskaI s
.
izvor varijacije stupnjevi
slobode
zbroj
kvadrata
sredine
kvadrata
empirijski
f-omjer
protumaĉen
modelom
k SP
k
SP
1 kn
SRk
SP
neprotumaĉena
modelom
(rezidualna)
odstupanja
n-(k+1) SR
1 kn
SR
/
ukupno n-1 ST / /
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
61
MODELI TRENDA – njima se statistiĉki opisuje dugoroĉna kovarijacija pojave sa vremenom
1. ADITIVNI MODEL: eTY
2. MULTIPLIKATIVNI MODEL: ITY
3. MODEL LINEARNOG TRENDA: ttt exY
4. MODEL EKSPONENCIJALNOG TRENDA: t
x
ttY
Primjer 1. Linearni trend
Model linearnog trenda identiĉan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna
varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti
apsolutni iznos, tj. kada su prve diferencije pribliţno konstantne.
Stanovništvo SAD-a u milijunima, stanje sredinom godine
godina stanovništvo prve
diferencije
varijabla
vrijeme tt yx 2
tx 2
ty trend
vrijednosti
rezidualna
odstupanja
ty ty tx
ty tU
1992 255 - 1 255 1 65025 255.32 -0.32
1993 258 3 2 516 4 . 257.93 0.07
1994 261 3 3 . . . 260.53 0.47
1995 263 2 4 . . . 263.13 -0.13
1996 266 3 5 . . . 265.73 0.27
1997 268 2 6 . . . 268.33 -0.33
ukupno 1571 - 21 5544 91 411459 1571.00 0.00
a) Odredite vrijednosti prvih diferencija! Što se zakljuĉuje na temelju grafa i prvih diferencijacija?
1 ttt YYY
Ako su prve diferencije pribliţno konstantne radi se o linearnom trendu.
b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata!
tt bxaY ˆ
Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)
83.2616
1571
5.36
21
n
yy
n
xx
t
t
716.2525.3604.283.261
604.25.3691
83.2615.365544222
xbYa
xnx
yxnyxb
t
tt
jednadţba linearnog trenda: godinajednajexzajedinicax
ovnikasmilijunjeyzajedinicaxY
1992.06.30,1
tan604.2716.252ˆ
trendaododstupanjaslučIe
trendakomponenteivrijednostT
serijevremenskeivrijednostY
.,
parametri
odstupanjasluče
brojevaprirodnihnprvih
ivrijednostpoprimadogovorno
kojavrijemeijablanezavisnax
t
t
,
.
var
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
62
Interpretacija:
a (konstantni ĉlan) = 252.716
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi
252.716 milijuna.
b (koeficijent linearnog trenda) = 2.604
Pokazuje prosjeĉnu linearnu pojavu razine pojave za jediniĉni porast vrijednostii varijable vrijeme,
dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje
c) Odredite trend vrijednosti!
Raĉunaju se uvrštavanjem varijable vrijeme u jednadţbu trenda.
32.2551604.2716.252ˆ1 Y
Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna. tt YY ˆ
d) Odredite rezidualna osdtupanja i protumaĉite im znaĉenje!
32.032.255255
ˆ
1
U
YYU ttt 0 tU za malu decimalu se moţe razlikovati od 0 zbog zaokruţivanja
Interpretacija:
Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu
godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj stanovnika je
precijenjen za 0.32 milijuna
e) Formulirajte tabelu ANOVA!
72.123
59.55544604.21571716.252411459
31.12983,2616411459
2
322
SRSTSP
yxbYaYSR
ynYST
tttt
t
izvor varijacije stupnjevi
slobode
zbroj
kvadrata
sredina
kvadrata
empirijski f-omjer
protumaĉen
modelom
k
1
SP
123.72
SP/k
123.72 )1( knSR
kSP 88.37
neprotumaĉena
odstupanja
n-(k+1)
4
SR
5.59
SR/n-(k+1)
1.40
/
ukupno n-1
5
ST
129.31
/ /
f) Izraĉunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere reprezentativnosti
trenda.
Interpretacija:
Prosjeĉno odstupanje stvarnog broja stanovnika od
vrijednosti trenda iznosi 0.30 milijuna ili relativno
0.11%. Na temelju ovih pokazatelja moţe se zakljuĉiti
da je reprezentativnost trenda velika.
%11.010083.261
30.0100
tan30.0
93.06
59.5ˆ
ˆ
ˆ
2
ˆˆ
2
2
ˆ
yV
ovnikasmilijuna
n
SR
n
yY
y
y
yy
tt
y
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr
63
Primjer 2. Eksponencijalni trend
Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti relativni iznos, tj.
kada su veriţni indeksi pribliţno konstantni.
primjer eksponencijalnog trenda xabY ˆ
xbn
Ya
xnx
YxYxb
bxay
t
t
ttt
loglog
log
logloglog
loglogˆlog
22
Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U
linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.
Interpretacija:
a (konstantni ĉlan)
To je trend vrijednost za razdoblje prije prvoga.
b (koeficijent eksponencijalnog trenda)
Pokazuje za koliko će se puta promijeniti trend vrijednost ako se varijabla vrijeme poveća za 1.