Statistika - Djuro Mikulic

236
Dr Đuro Mikić Dr Nebojša Ralević STATISTIČKE METODE U MENADŽMENTU BANJA LUKA

Transcript of Statistika - Djuro Mikulic

Page 1: Statistika - Djuro Mikulic

Dr Đuro MikićDr Nebojša Ralević

STATISTIČKE METODE U MENADŽMENTU

BANJA LUKA

Page 2: Statistika - Djuro Mikulic

PANEVROPSKI UNIVERZITET APEIRONF A K U L T E T P O S L O V N E E K O N O M I J E

B A NJ A L U K A

Dr Đuro MikićDr Nebojša Ralević

STATISTIČKE METODE U MENADŽMENTU

Izdavač:Panevropski univerzitet "APEIRON"

Banja Luka2. izdanje, godina 2006.

Odgovorno lice izdavača,DARKO Uremović

Urednik:JOVO Vojnović, prof.

Prelom:ALEKSANDRA Vidović

Štampa:"ART-PRINT", Banja Luka,

p.o., grafika - dizajn - marketingBanja Luka

Odgovorno lice štamparije:VLADIMIRA Stijak- Ilisić

Tiraž 500 primjeraka

EDICIJA:

Page 3: Statistika - Djuro Mikulic

SADRŽAJ1. UVOD ............................................................................................................................8

1.1 POJAM, DEFINISANJE I RAZVOJ STATISTIKE I STATISTIČKE DJELATNOSTI1.2 PREDMET, CILJ, ZADACI I METODI STATISTIČKOG ISTRAŽIVANJA1.3 KOMPJUTERSKI PRILAZ - PROGRAMSKA PODRŠKA

1.3.1 Izbor i vrednovanje programskih statističkih paketa1.4 OSNOVNI STATISTIČKI POJMOVI I KATEGORIJE

1.4.1 Statistički skup1.4.2 Statistička obilježja1.4.3 Statističke jedinice1.4.4 Varijacija

2. PRISTUP STATISTIČKOM ISTRAŽIVANJU

2.1 STATISTIČKO POSMATRANJE I PRIKUPLJANJE PODATAKA

2.1.1 Cilj, predmet, jedinica i obilježja posmatranja i prikupljanja2.1.2 Izvori prikupljanja podataka2.1.3 Načini prikupljanja podataka2.1.4 Obim i oblik (metode) obuhvatanja jedinica posmatranja2.1.5 Sredstva prikupljanja podataka2.1.6 Kontrola i provjera podataka

2.2 GRUPISANJE I SREĐIVANJE PODATAKA

2.2.1 Statističke serije2.2.1.1 Numeričke serije strukture2.2.1.2 Atributivne serije struktur2.2.1.3 Vremenske serije2.2.1.4 Prostorne serije

2.3 PRIKAZIVANJE STATISTIČKIH PODATAKA

2.3.1 Tabelarno prikazivanje (statističke tabele)2.3.2 GRAFIČKO PRIKAZIVANJE

2.3.2.1 Linijski dijagrami2.3.2.2 Površinski dijagrami2.4 DESKRIPTIVNE MJERE STATISTIČKE ANALIZE

2.4.1 Srednje vrijednosti (mjere centralne tendencije)2.4.2 Izračunate srednje vrijednosti – sredine

2.4.2.1 Aritmetička sredina2.4.2.2 Harmonijska sredina2.4.2.3 Geometrijska sredina

2.4.3. Pozicione vrijednosti2.4.3.1 Modus (Mo)2.4.3.2 Medijana (Me)

2.5 MJERE VARIJABILITETA (DISPERZIJE)

2.5.1 Apsolutne mjere varijabiliteta2.5.1.1 Interval varijacije2.5.1.2. Srednje apsolutno odstupanje

2.5.1.3 Varijansa ( )2.5.1.4 Standardna devijacija ( )

2.5.2 Relativne mjere varijabiliteta2.5.2.1 Koeficijent varijacije2.5.2.2 Normalizovano (standardno) odstupanje2.5.2.3 Mjere oblika rasporeda

Page 4: Statistika - Djuro Mikulic

3. TEORIJSKE RASPODJELE SLUČAJNIH PROMJENLJIVIH

3.1 RASPODJELA DISKRETNE SLUČAJNE PROMJENLJIVE

3.1.1 Numerički pokazatelji diskretne slučajne promjenljive3.1.2 Binomna raspodjela3.1.3 Poasonova raspodjela3.1.4 Hipergeometrijska raspodjela

3.2 RASPODJELA NEPREKIDNE SLUČAJNE PROMJENLJIVE

3.2.1 Funkcija i gustina raspodjele3.2.2 Numerički pokazatelji neprekidne slučajne promjenljive3.2.3. Normalna raspodjela

3.2.4 - raspodjela3.2.5 Studentova raspodjela3.2.6 Fisher – Snedecor-ova F-raspodjela

4. METOD UZORKA

4.1 IZBOR I NAČINI FORMIRANJA UZORKA4.2 RASPODJELA PARAMETARA UZORKA

4.2.1 Tačne raspodjele parametara uzorka iz osnovnog skupa sa normalnom raspodjelom 1204.3ODREĐIVANJE OBIMA UZORKA

4.3.1 Obim uzorka za ocjenu srednje vrijednosti osnovnog4.3.2 Obim uzorka za ocjenu proporcije svojstva A u osnovnom skupu

5. STATISTIČKA OCJENA NEPOZNATIH PARAMETARA OSNOVNOG SKUPA

5.1 POJAM I VRSTE STATISTIČKE OCJENE5.2. OSNOVNA SVOJSTVA TAČKASTE OCJENE 1325.3 INTERVALNE OCJENE PARAMETARA RASPODJELE

5.3.1 Interval povjerenja za srednju vrijednost osnovnog skupa (poznata varijansa)

5.3.2 Interval povjerenja za srednju vrijednost osnovnog skupa (nepoznata varijansa)

5.3.3 Interval povjerenja za proporciju osnovnog skupa

6. TESTIRANJE STATISTIČKIH HIPOTEZA

6.1 TESTIRANJE PARAMETARSKIH HIPOTEZA6.1.1 Testiranje hipoteze o srednjoj vrijednosti osnovnog skupa6.1.2 Testiranje hipoteze o jednakosti srednjih vrijednosti dva osnovna skupa6.1.3 Testiranje hipoteze o proporciji u osnovnom skupu6.1.4 Testiranje hipoteze o jednakosti proporcija dva osnovna skupa

6.2 ANALIZA VARIJANSE

Page 5: Statistika - Djuro Mikulic

6.2.1 Jednofaktorska analiza varijanse sa fiksiranim nivoima faktora

6.2.2 kriterijum za provjeru hipoteze o raspodjeli osnovnog skupa

7. REGRESIJA I KORELACIJA

7.1 POJAM KORELACIONE ZAVISNOSTI7.2 PROSTA LINEARNA REGRESIJA

7.2.1 Jednačina regresije7.2.2 Testiranje značajnosti regresionih koeficijenata7.2.3 Analiza varijanse

2327.2.4 Interpolacija i ekstrapolacija

7.3 KOEFICIJENT KORELACIJE7.3.1 Testiranje značajnosti koeficijenta korelacije

7.4 VIŠESTRUKA REGRESIJA I KORELACIJA7.4.1 Linearna regresija sa dvije nezavisno-promjenljive

7.4.1.1 Analiza varijanse7.4.1.2 Interpolacija i ekstrapolacija

7.4.2 Višestruka korelacija7.5 KRIVOLINIJSKA REGRESIJA I KORELACIJA

7.5.1 Prosta kvadratna regresija i korelacija

8. RELATIVNI BROJEVI

8. 1 INDEKSI8.1.1 Individualni indeksi8.1.2 Grupni indeksi8.1.3 Testiranje indeksa

8.2 EKONOMSKI POKAZATELJI DINAMIKE8.3 STATISTIČKA ANALIZA DINAMIKE PRODUKTIVNOSTI

8.3.1 Mjerenje produktivnosti8.3.2 Individualni indeks produktivnosti8.3.3 Grupni indeks produktivnosti

8.4 STATISTIČKA ANALIZA DINAMIKE ZARADA8.4.1 Indeksi zarada

9. ANALIZA VREMENSKIH SERIJA

9.1 TREND KOMPONENTA9.1.1 METOD POKRETNIH PROSJEKA9.2 METOD TRENDA

9.2.1 Linearni trend9.2.2 Kvadratni trend9.2.3 Eksponencijalni trend

9.3 KORELACIONA ZAVISNOST IZMEDJU VREMENSKIH SERIJA9.4 SEZONSKA KOMPONENTA

9.4.1 Metod sezonskih indeksa

DODATAK – TABLICE ..................................................................................................... 339

LITERATURA ..................................................................................................365

Page 6: Statistika - Djuro Mikulic

1. UVOD

1.1 Pojam, definisanje i razvoj statistike i statističke djelatnosti

Izučavanje fenomena varijacije i primjena naučnih rezultata u cilju stvaranjaupravljačkih informacija na zadacima odlučivanja, uslovili su potrebu sistemskog pristupa uafirmaciji pojedinih naučnih disciplina. Sistemski pristup posmatranja masovnih pojava saaspekta otkrivanja njihove zakonomjernosti ponašanja, pretpostavlja kombinaciju empirijesa matematičkom teorijom algoritama i modela. U suštini to je pragmatičan prilaz kojipripada klasi sistemskih disciplina, među kojima je našla put za afirmaciju i statistika. Riječ"statistika" prvi put je upotrijebljena u prvoj polovini 18. vijeka u radovima GotfridaAhenvala na univerzitetu u Getingenu. Smatrao je da taj naziv preuzima od latinske riječi"status" što znači stanje. Kao porijeklo riječi statistika navodi se takođe italijanska riječ"stato" što znači država.

Statistika kao naučni metod kvantitativnog i kvalitativnog istraživanja varijacijaobilježja statističkih jedinica masovnih pojava ima značaj, kako u matematici, saobraćaju,tehnici, sociologiji itd, tako i u ekonomiji. Novi tržišni uslovi u modernoj ekonomijizahtijevaju stalno prikupljanje, uređivanje, grupisanje, obradu i tumačenje dobijenihrezultata s ciljem donošenja kvalitetnih poslovnih odluka. Prvi poslovi statističke djelatnostiodnosili su se na prebrojavanje i popis stanovništva i imovine, registraciju rođenih,vjenčanih i umrlih, popis vojnika, poreskih obaveznika itd, jer su vladari htjeli da znajudemografsku i ekonomsku moć svoje države. Uvođenjem računa vjerovatnoće statistikadobija u punoj mjeri sadržinu, jer mnoštvo pojava koje su predmet statističkog istraživanja,odlikuju se elementima slučajnosti i neizvjesnosti, gdje teorija vjerovatnoće nalazi svojupunu primjenu.

Statistička istraživanja odnose se samo na mjerljive elemente, jer mjerenjem,registracijom, popisom i prebrojavanjem određenih činjenica, statistika kvantitativnoobuhvata obim posmatrane pojave. Ističe njen značaj i vrši kvantitativno istraživanje uz dateteorijske pretpostavke i naznake o postojanju određene pravilnosti u pogledu njenogponašanja. Tako npr. statističkom analizom može se utvrditi podudarnost u varijabilitetudviju ili više pojava, ali to nije dokaz međusobne zavisnosti jer može biti i koincidencijadogađaja. Statistička analiza je skup metoda i tehnika kvantitativne analize masovnih pojava idogađaja koji se dešavaju u složenim dinamičkim sistemima kao što su socio-ekonomski,biološki, proizvodni itd. Zadatak statistike je dobijanje relevantne informacije iz raspoloživebaze podataka sa unaprijed određenom vjerovatnoćom pouzdanosti, odnosno rizikapogrešnog zaključivanja.

Statistički metod razlikuje se od ostalih kvantitativnih metoda jer je prilagođen zaistraživanje varijabiliteta kao opšteg svojstva pojava. Varijabilitet u neorganskom svijetu nemože se primijetiti jer se posmatra velika masa atoma i tako uočava samo ono što je opšte.Varijabilitet u organskom svijetu je uočljiv, ali pošto se posmatra velika masa ćelija, dobija sepredstava monotone ujednačenosti. Varijabilitet je naročito prisutan i intenzivan u okvirudruštveno-ekonomskih procesa, gdje se posmatraju jedinke i njihovo pojedinačno ponašanje.

Razvoj metoda i tehnika statističkog posmatranja masovnih pojava generisani suupravljačkim zadacima i potrebama njihovog konkretnog rješavanja, naročito u tokuposljednjih pedeset godina. Međutim, prvi pisani tragovi statističke prakse, koja je krčila put

Page 7: Statistika - Djuro Mikulic

statističkoj teoriji, pojavili su se oko 3000. god. p.n.e. u Kini i Egiptu, tada najrazvijenijimdržavama svijeta, a odnosili su se na popise stanovništva i imovine. Statistika kao naučnadisciplina nastajala je istovremeno u Njemačkoj i Engleskoj u 17. vijeku, kada se javljajudvije koncepcije: njemačka univerzitetska statistika, inspirisana radovima G. Ahenvala(sistematizacija podataka o stanovništvu i privredi) i engleska politička aritmetika koja jeisticala zahtjev za matematičkom obradom statističkih podataka u cilju otkrivanja zakonitostiu ponašanju posmatrane pojave.

Statistička teorija se naglo razvila u 18. vijeku zahvaljujući razvoju teorijevjerovatnoće kao grane matematičke analize. Značajan korak u razvoju statistike u 19. vijekunapravio je belgijski fizičar i astronom F. Ketle uvođenjem teorije vjerovatnoće, a daljemrazvoju statističke misli doprinijeli su Gaus, Poasan, Pirson, Markov, Čebišov i drugi. Bržinapredak i širu primjenu statistike tokom 20. vijeka omogućio je razvoj računarsketehnologije i softverskih kapaciteta. Računari velikom brzinom prihvataju, obrađuju i emitujublokove informacija koji se telekomunikacijama dostavljaju do mjesta korišćenja, čineći takobazu informatičke infrastrukture. Ekspanzija informacija postavlja pred statistiku nove i svebrojnije zahtjeve, ali istovremeno pruža sve šire mogućnosti za primjenu složenih analitičkihmetoda kao i provjeru njihovih teorijskih rezultata. Danas se pomoću statističkih metoda vršeocjene, odmjeravaju rizici, ispituju tendencije, analiziraju odnosi i faktori koji ih određuju,testiraju određene hipoteze, itd. Postoji čitav niz pokušaja definisanja statistike, što pokazuje da je ona relativno mladanauka. Uvažavajući sve značajne elemente koji predstavljaju osnov za definisanje statistikemože se kritički prihvatiti sljedeća definicija: "Statistika je nauka o varijacijama obilježja,zakonitostima razvoja i odnosa masovnih pojava i njihovih elemenata u vremenu iprostoru".

1.2 Predmet, cilj, zadaci i metodi statističkog istraživanja

Statistička djelatnost u svojim rudimentarnim oblicima bila je predmetno vezana zamasovne pojave, što znači da je u svom istorijskom razvoju nastala iz potreba prakse da sevarijabilne pojave posmatraju na velikom broju. Masovne pojave nisu samo predmetstatističkog istraživanja, već predmet proučavanja tehničkih, društvenih i drugih nauka, štoznači da je statistika samo komplementarna naučna disciplina. Kako je statistika jasnoodređena po svojim zadacima i ulozi u sklopu ostalih nauka, proizlazi da je njen predmetistraživanja varijacija obilježja jedinica posmatrane cjelokupnosti. Varijacija predstavljaspecifičan oblik kretanja koje se ispoljava u raznim oblicima, u zavisnosti od vrste obilježjakoje je nosilac te varijacije, odnosno jedinice koja je nosilac tog obilježja.

Istraživanje masovnih pojava se zasniva na masovnosti i varijabilitetu, kao opštimsvojstvima svih pojava, čije ponašanje nastaje i zavisi od kombinacije niza faktora koji su isami varijabilni. Najmanji varijabilitet individualnih slučajeva ispoljavaju elementarne pojaveu prirodi, pa se kod njih uspješno može primijeniti metod pojedinačnog posmatranjaupotrebom klasičnog eksperimentalnog rada. Sistemsko mijenjanje uticaja faktora, koji svojvarijabilitet prenose na pojavu, zasnovano je na principima formalne logike, tako da statistikakoristi indukciju, dedukciju, analizu, sintezu, analogiju, reprezentativnost, grafiku itd, kaometode istraživanja.

Kod pojava koje ispoljavaju veći varijabilitet ispitivanje jednog ili malog brojaslučajeva i generalizacija rezultata ne bi donosilo pouzdane zaključke. Posmatranje ponašanjaovih pojava u pogledu varijabiliteta na malom broju slučajeva izgleda bez reda i pravilnosti,

Page 8: Statistika - Djuro Mikulic

skoro haotično i slučajno. Prava predstava stiče se posmatranjem većeg broja slučajeva, jertada dolaze do izražaja određene pravilnosti i periodika zakonitosti koje autentičnoodražavaju karakteristike pojave. Dakle, zadatak primjene statističkih metoda je da omogućiotkrivanje opštih karakteristika varijabilnih pojava kao i njihove pravilnosti i tendencije kojenazivamo statističkim zakonitostima. Ilustrativnu statističku zakonitost zabilježio je statističarLevi posmatranjem i obuhvatanjem velikog broja porođaja. Proširujući svoje posmatranje na100 miliona događaja, konstatovao je stabilan sljedeći odnos: na 81 slučaj rađanja jedinkidolazi 1 slučaj rađanja dvojki; na 84 slučaja rađanja dvojki dolazi 1 slučaj rađanja trojki; na85 slučajeva rađanja trojki dolazi 1 slučaj rađanja četvorki i na 85 slučajeva rađanja četvorkidolazi 1 slučaj rađanja petorki. Dakle, zadatak statistike je da istražuje te pravilnosti ivarijacije, polazeći od velikog broja slučajeva koje posmatra, upoređuje, grupiše, opisuje,obrađuje, analizira i praktično provjerava kroz masovnost i varijabilitet.

Predmet statističke analize je kvantitativna analiza masovnih pojava kao skupova kojise posmatraju sa aspekta teorije sistema složene organizovane globalne koncepcije. U ovakvesložene organizovane sisteme ubrajamo: privredu zemlje - skup privrednih preduzeća;zdravstvo - skup zdravstvenih institucija; stanovništvo - svi građani jedne zemlje, itd. Ako ihuzmemo kao predmet statističkog posmatranja, postaju osnovni statistički skup ili populacija.

Cilj statističke analize je da se na osnovu podataka o promjenama obilježja naelementima statističkog skupa dođe do pouzdanih informacija potrebnih za upravljanjesloženim dinamičkim sistemima. U ovim sistemima se pod uticajem sklopa unutrašnjih ispoljnih faktora odvijaju izvjesne promjene preko kojih se tumači njihovo kretanje, otkrivajuunutrašnje veze, kako između elemenata tako i sa drugim sistemima iz okruženja i predviđanjihovo ponašanje u budućnosti. U rješavanju praktičnih zadataka koristimo ograničeneempirijske podatke, tako da rezultati obrade i statističke ocjene nose u sebi elementstohastičnosti. Uvećanjem broja jedinica posmatranja kao i broja eksperimenata, izvedenastatistička ocjena na nivou osnovnog skupa postaje pouzdanija.

1.3 Kompjuterski prilaz - programska podrška

Programska podrška statističke obrade podataka sastoji se iz određenog paketaprograma, kao niza logički povezanih instrukcija, za rješavanje određenog zadatka. Sistemskiprogram, koji se stalno nalazi u operativnoj memoriji računara, omogućava korisniku daizvrši svoje praktične aplikativne programe. Znači, programska podrška podrazumijevaizradu i eksploataciju sopstvenih aplikativnih programa koji se obično pišu na nekom odprogramskih jezika prilagođenih konkretnom problemu. Takođe, postoji veliki broj gotovihpaketa statističkih programa, a u zavisnosti od složenosti zadatka pojedini programi mogu dasadrže i potprograme, s tim što određeni broj potprograma pojedinačno korespondira sosnovnim upravljačkim programom. Ovakvi programi su univerzalni tj. mogu da se koriste zarješavanje šireg spektra zadataka. Problem različitih n podataka lako se može prikazati kaostatistički niz od n nivoa, gdje je "n" ulazna konstanta koju korisnik unaprijed zadaje, ili se donje dolazi prebrojavanjem preko računara. Za rješavanje standardnih zadataka koriste sesoftverski kapaciteti koji čine programski paket, a neki od značajnijih paketa statističkihprograma su sljedeći:

· STATISTICA – moćan paket namijenjen statističkoj analizi sa veoma razvijenimgrafičkim interfejsom

· SPSS – statistički paket namijenjen analizi podataka iz oblasti društvenih pojava,

Page 9: Statistika - Djuro Mikulic

· MINITAB - namijenjen studentima koji izučavaju početni kurs statistike i dr.· BMDP - prilagođen novoj tehnici i statističkoj metodologiji,

1.3.1 Izbor i vrednovanje programskih statističkih paketa

Izbor i primjena određenog paketa zavisi od vrste i prirode problema. Svaki paketprograma oslobađa korisnika rutinskih računskih zadataka, s tim što analiza i interpretacijarezultata i dalje ostaju na njegovom znanju i iskustvu. Svaki programski paket namećesljedeće zahtjeve korisniku:

· da prilagodi svoje potrebe uslovima pod kojima se koristi odgovarajući paket,kao i da prema uputstvima koristi dobijene izlazne informacije,

· da prihvati računske metode date u programu, iako one ponekad nisunajefikasnije za date probleme,

· paketom programa nisu naznačene sve moguće izlazne informacije, tako daneki programi daju konačne ocjene statističkih parametara bez intervalapouzdanosti,

· po pravilu paketi primjenjuju standardne statističke metode što im omogućavakomercijalnost, dok korišćenje nestandardnih metoda podrazumijeva izraduvlastitih programa.

Ocjena i vrednovanje paketa statističkih programa vrši se na bazi stepena njegovepraktične provjere u primjeni. U principu optimalan program u jednoj situaciji nije optimalanu drugoj, tako da korsnik procjenjuje statistički paket, sa pozicije svojih zahtjeva u odnosu nadati problem, na bazi sljedećih kriterija:

· razumljivost za korisnika,· statistička efektivnost i· podobnost za eksploataciju.

1.4 Osnovni statistički pojmovi i kategorije

1.4.1 Statistički skup

Ispitivanje ponašanja masovne pojave, koja je predmet statističkog istraživanja,podrazumijeva obuhvatanje njene manifestacije tj. registrovanje svih njenih individualnihslučajeva. Skup svih slučajeva tj. elemenata na kojima se pojava statistički posmatra, nazivase osnovni skup ili populacija. Osnovni statistički skup (masovna pojava, populacija) jesteodređen skup elemenata, individua, slučajeva, itd. koji istovremeno postoje ili se ponavljaju,koji se nalaze jedni do drugih ili se mijenjaju, koji se odlikuju nizom istovrsnih ali varirajućihobilježja, po kojima se svi elementi mase razlikuju ili su slični i koji su vezani nekom opštomvezom koja omogućava da se otkrivaju zakonitosti ponašanja pojave.

Pojedinačni elementi od kojih se statistički skup sastoji mogu biti razni predmeti,objekti, institucije, događaji, slučajevi, živa bića, subjekti itd, što zavisi od prirode pojave.Kod formiranja statističkog skupa mora se zadovoljiti kriterijum da skup bude relativnohomogen, tj. da mnoštvo jedinica koje ga sačinjavaju imaju barem jednu zajedničku osobinu.

Page 10: Statistika - Djuro Mikulic

Znači, jedinice koje ga čine moraju biti istovrsne, a razlike mogu da pokazuju samo upogledu ispitivanih osobina, tj. statistički skup je relativno homogen ali i diferenciran sobzirom na odabrana svojstva čiji se varijabilitet ispituje. Statistički skup mora biti određensuštinski, prostorno, vremenski i pojmovno. Svojstva po kojima se jedinice posmatranogstatističkog skupa međusobno razlikuju, nazivaju se statističkim obilježjima, a njihovipojavni oblici - modalitetima.

1.4.2 Statistička obilježja

Svojstva po kojima se razlikuju ili su slične statističke jedinice osnovnog statističkogskupa predstavljaju njihova obilježja koje ih označavaju (obilježavaju).. Statističke jedinicemogu imati veći broj obilježja koja variraju, a promjene obilježja predstavljaju varijaciju kaopredmet statističkog istraživanja. Sve moguće varijante ili potklase svojstva jednog obilježjakoje se mogu jasno uočiti i rasporediti nazivamo modalitetima tog obilježja. Npr. akoposmatramo boju kao obilježje, njeni modaliteti su crna, bijela, plava itd.

Postoji više principa i šema podjele obilježja, a na osnovu logike njihove prirodnediferencijacije, proizilazi sljedeća podjela:

1. Obilježja prema sadržini:

· Numerička - izražavaju se brojem (cifrom), a razlikujemo:- kontinuelna - mogu uzimati cijele i razlomljene vrijednosti- diskontinuelna - mogu uzimati samo cjelobrojne vrijednosti

· Atributivna - izražavaju se riječima (opisno)· Stalna - karakterišu nepromjenljivo stanje· Promjenljiva - karakterišu promjenljivo stanje· Faktorijalna - karakterišu faktore bitne za nastajanje pojave· Rezultativna - karakterišu konačan rezultat dejstva faktorijalnih

2. Obilježja prema tipu:

· Rodovska - karakterišu vrstu kojoj pripada neka statistička jedinica· Tipična - značajna za identifikaciju statističke jedinice· Prostorna (geografska) - prikazuju mjesto očitovanja statističke jedinice· Vremenska - prikazuju vrijeme očitovanja statističke jedinice· Stvarna (sadržinska) - suštinski određuju statističku jedinicu

3. Obilježja prema nastanku:

· Objektivna - karakterišu stanje po prirodi stvari· Subjektivna - nastaju po volji subjekta· Mješovita - objektivna obilježja koja su pod određenim uticajem postala

subjektivna

Promjena veličine i značaja obilježja statističkih jedinica čini pojam varijacije, kaospecifičan oblik kretanja, čije stanje u određenoj periodizaciji iskazujemo empirijskimpodacima. Dobijeni podaci su rezultat pojedinačnih opažanja i mjerenja varijabiliteta

Page 11: Statistika - Djuro Mikulic

obilježja jedinica posmatranja statističkog skupa. Ovo mjerenje ima za rezultat dodjeljivanjeodgovarajućeg broja, simbola, znaka, klase ili kategorije, odgovarajućem stanju osobinestatističke jedinice.

Empirijskim podacima mogu se označavati klase ili kategorije ili izražavati određenealgebarske veličine, s tim što se u prvom slučaju ne mogu primjenjivati algebarske operacije,dok je u drugom slučaju aritmetika dozvoljena. Jedinice, kao i skale mjerenja i vrednovanja,mogu biti sasvim različite. Razlikuju se četiri vrste mjernih skala i to: nominalna skala, skalaporetka, intervalna skala i skala odnosa. Posmatrana obilježja, na bazi čijeg varijabiliteta nastaju numerički podaci, mogu biti(diskretna) prekidna i (kontinuelna) neprekidna. U tom smislu identifikacione oznake ioznake poretka uvijek su diskretne veličine, a intervalne oznake i oznake odnosa mogu biti idiskretne i kontinuelne. Danas postoje brojni i raznovrsni metodi i tehnička sredstva koja namomogućavaju brza izračunavanja i izvođenje raznih aritmetičkih operacija u realizaciji većihstatističkih akcija. Ovo podrazumijeva uključivanje savremene računarske tehnike velikememorije i brzine računanja sa različitim mogućnostima predstavljanja izlaznih informacija.Znači, svako konkretno statističko istraživanje pojave, procesa ili događaja transferira se unizove empirijskih podataka, uređene prema zadanim kriterijumima, koje nazivanoempirijskim distribucijama, odnosno statističkim serijama.

1.4.3 Statističke jedinice

Elementi osnovnog statističkog skupa koji imaju bar jedno zajedničko obilježje, kojeih međusobno razlikuje ili izjednačava, nazivaju se statističke jedinice. Statističkimjedinicama se vrši mjerenje i iskazivanje obima, karakteristika i strukture posmatrane pojave.Statističke jedinice su varijabilne (promjenljive) veličine, jer statistika istražuje mnoštvorazličitih pojava, tako da se njihov pojam ne može shvatiti statično. Upravo u nejednakostistatističkih jedinica u određenom periodu ispoljavaju se varijacije njihovih obilježja.Varijaciju, kao specifičan oblik kretanja, statistika prati sa tri osnovne vrste jedinica:

· Statističke jedinice za obim pojave, u koje spadaju jedinice posmatranja (događaji islučajevi) i uslovne statističke jedinice,

· Statističke jedinice za obavještavanje i· Statističke jedinice za mjerenje varijabiliteta, u koje spadaju varijansa, standardna

devijacija i disperzija.

Zbirne promjene koje se dešavaju u statističkim skupovima manifestuju se prekopojedinačnih promjena, tj. jedinica skupa i njihovih uzajamnih odnosa. Dimenzionalnostskupa određuje se brojem elemenata-jedinica, a složenost brojem i raznovrsnošću uzajamnihveza. Sa aspekta statističke analize nisu relevantna individualna svojstva, jer promjenekarakteristične za jedan element (jedinicu) statističkog skupa ne mogu se uopštiti, dok sepromjene koje su karakteristične za sve jedinice mogu smatrati opštim. Znači, statističkejedinice su osnovni izvori informacija kvalitativnih i kvantitativnih katakteristika osnovnogstatističkog skupa što ih čini bazom za dalju statističku analizu i zaključivanje. Statističkejedinice treba da ispunjavaju sljedeće preduslove:

· da su varijabilnog karaktera· da su precizno definisane· da su međusobno uporedive· da se mogu svoditi na kvantitativni izraz

Page 12: Statistika - Djuro Mikulic

1.4.4 Varijacija

Varijacija kao specifičan oblik kretanja se ispoljava u vidu promjena veličine iliznačaja obilježja statističkih jedinica. Do konkretnog pojma varijacije dolazimoupoređivanjem podataka o veličini ili značaju nekog obilježja u vremenu ili prostoru za jednujedinicu ili za više jedinica u posmatranom trenutku. Rezultat upoređivanja može da seposmatra kao razlika dva uzastopna stanja istog obilježja - varijacija kao razlika i kao odnosdva uzastopna stanja - varijacija kao količnik.

Varijaciju kao razliku iskazujemo u aritmetičkom obliku što znači da nas interesujenjen predznak, a ne samo apsolutna vrijednost. Ako stanja o veličini nekog posmatranogobilježja tokom više uzastopnih mjerenja označimo: N1, N2, N3...Ni (za i=1,2,3...n) tada ćevarijacija kao razlika izražavati sljedeća odstojanja:

.

Odstojanje između nivoa može biti:

· - pojava pokazuje tendenciju rasta· - pojava pokazuje tendenciju pada· - pojava stagnira, nema promjene

Ukupnost svih varijacija tokom nekog perioda (1 godine) izražavaju bilansnejednačine u vrijednosnom obliku, a balansne jednačine u naturalnom obliku. Bilansne ibalansne jednačine svode se na to da izračunavamo sadašnje stanje na osnovu poznatogpočetnog stanja i zbira varijacija koje su se desile, što se matematički može ovako izraziti:

, gdje je:

- sadašnje stanje- početno stanje

- zbir svih pozitivnih i negativnih varijacija u posmatranom periodu

- broj perioda

Koristeći navedene jednačine moguće je prognozirati neko buduće očekivano stanjena osnovu vrste, obima i karaktera promjena koje predviđamo.

Varijacija kao količnik izražava odnos dva uzastopna stanja posmatranog obilježjastatističkih jedinica, dajući šire mogućnosti da se sagledaju kvalitativne karakteristike

Page 13: Statistika - Djuro Mikulic

kretanja što predstavlja sljedeći stepen uopštavanja u statističkom istraživanju. Ako stanja oveličini posmatranog obilježja, dobijena nizom uzastopnih mjerenja, označimo sa: N1, N2,N3...Ni (za i=1,2,3...n) tada će varijacija kao količnik biti:

I varijacija kao količnik može imati tri pojavna stanja, s tim što se ne može kretati u zoninegativnih vrijednosti:

· - pojava pokazuje tendenciju rasta· - pojava pokazuje tendenciju pada· - pojava stagnira, nema promjene

Page 14: Statistika - Djuro Mikulic

2. PRISTUP STATISTIČKOM ISTRAŽIVANJU

Cjelokupnost statističkih postupaka, od početka do kraja neke konkretne statističkeakcije, predstavlja program statističkog istraživanja. Poligon za takvo istraživanje su masovnepojave, s tim da je prethodno neophodno izvršiti dovoljne pripreme u pogledu izboranajpodesnijih metodologija i adekvatnih postupaka.

Uspjeh statističkog istraživanja, kao niza postupaka, koji uključuju veoma velik brojelemenata, zavisi od stepena unošenja planskog reda i osmišljenog planskog djelovanja. Tajplan treba da sadrži sve što se odnosi na pojedine faze statističkog rada, kao i da obuhvatasve elemente tehničko-finansijskog, organizacionog, sadržinskog i metodološkog karaktera.Kod velikih statističkih akcija ove faze čine logično zaokružene grupe poslova, tako da nijeznačajan njihov broj i razgraničenje, već je značajno da se istraživanje koncepcijski izvedetako da svi poslovi teku u logički vezanom redu i da se fazno sagledavaju.

Proces statističkog istraživanja odvija se u tri osnovne faze:

1. Statističko posmatranje i prikupljanje podataka,2. Sređivanje, grupisanje, obrada i prikazivanje podataka,3. Statistička analiza sa publikacijama.

Raspoređujući vremenski, organizaciono i sadržinski poslove statističkog istraživanjau navedene faze, dolazimo do zaključka da planiranje organizacije istraživanja obuhvata ipredviđa rješenja sljedećih problema:

· grupisanje poslova u logički povezane cjeline (faze),· utvrđivanje rokova i alternative,· predviđanje kadrova i njihova edukacija,· utvrđivanje neophodnih materijalnih pretpostavki,· snimanje troškova istraživanja za koja se često radi poseban finansijski plan

opravdanosti

Faze projekta statističkog istraživanja sadrže određen stepen autonomije kojaproizilazi iz različitosti pojedinih grupa poslova, ali istovremeno su međusobno veoma čvrstopovezane i uslovljene jer od nivoa kritičnosti ulaznih podataka direktno zavisi i stepennaučnosti dobijenih rezultata.

2.1 Statističko posmatranje i prikupljanje podataka

Statističko posmatranje je osnova za nastajanje i prikupljanje statističkih podatakakoji treba da budu tačni, potpuni i podesni za obradu. Statistički podatak nije bilo kakavpodatak, već onaj koji je rezultat statističke obrade, tj. koji je rezultat mjerenja, prebrojavanja,upoređivanja itd, tako da nosi u sebi određenu količinu obavještenja u vidu neraspakovaneinformacije. Priprema posmatranja obuhvata izradu plana i programa posmatranja iorganizacije istraživanja kao logički složenog reda rješenja pod kojim se podrazumijevacjelokupna statistička akcija. Smisao prikupljanja podataka je pribavljanje obavještenja oodabranim obilježjima posmatranog skupa jedinica. U tu svrhu koriste se određena statističkasredstva - statistički formulari (upitnik), hardverska i softverska rješenja koja moraju biti

Page 15: Statistika - Djuro Mikulic

jednoobrazna i sastavljena prema posebnim standardima. Podaci, kao registrovane činjeniceutvrđene posmatranjem, pokazuju objektivno stanje dobijeno uzastopnim mjerenjem iliprebrojavanjem, kao npr. podaci o vodostaju, temperaturi, informacije o zaradi radnika,kretanju produktivnosti itd.

Za uspješno posmatranje potrebno je, pored određivanja pojma jedinice, odrediti ikoje će se karakteristike, tj obilježja, odabrati za posmatranje. Posmatrano obilježje možeimati istu numeričku vrijednost kod više jedinica, pa se zato broj koji pokazuje koliko se putaista vrijednost obilježja pojavljuje naziva frekvencija, a raspodjela statističkog skupa premavrijednostima datog obilježja naziva se raspored frekvencija.

Kao preduslov prikupljanja podataka neophodno je da se izvrši prethodno izviđanje iprobno snimanje, kako bi se dobro upoznali sa pojavom koju ćemo ispitivati, kao i da seprovjeri podesnost raznih sredstava koja smo planom predvidjeli. Takođe, tokom posmatranjavrše se potrebne korekcije plana istraživanja, određuju optimalne kombinacije svih elemenatai postupaka, te kontroliše i provjerava izbor cilja, izbor obilježja jedinica skupa, izborstatističkih sredstava i drugih instrumenata, regularnost uputstava za rad, podobnost izvoraitd.

Dakle, priprema programa posmatranja i prikupljanja podataka obuhvata utvrđivanje iunošenje planskog reda i sadržaja posmatranja kao i metodoloških rješenja pod kojimapodrazumijevamo:

· cilj, predmet, jedinicu i obilježje posmatranja,· izvore prikupljanja podataka,· načine prikupljanja podataka,· metode obuhvatanja tj. obim i oblik jedinica posmatranja,· sredstva prikupljanja - izrada baze podataka· kontrola i provjera podataka.

Page 16: Statistika - Djuro Mikulic

2.1.1 Cilj, predmet, jedinica i obilježja posmatranja i prikupljanja

Cilj posmatranja proizilazi iz praktičnih ili naučnoistraživačkih potreba i mora dabude postavljen jasno i određeno kako bi bio odrednica za ostale elemente. Na osnovukonkretno formulisanog cilja mogu se jasno odrediti svi aspekti prikupljanja podataka okarakteristikama pojedinačnih slučajeva posmatrane masovne pojave.

Predmet posmatranja (statistički skup) je masovna pojava ili statistička cjelokupnost očijim obilježjima jedinica se prikupljaju podaci. Osnovni statistički skup mora biti stvarno(sadržinski) vremenski i teritorijalno definisan. Popisom jedinica posmatranja i izboromizvještajne jedinice konačno se definiše i formalno ustanovljava statistički skup. Jedinica činielementarni dio skupa, a određuje se izborom osobina ili uslova koje treba da ima pojedinačnislučaj da bi postao statistička jedinica.

Statističke jedinice posmatranja prema prirodi postojanja mogu biti: realne, kojevremenski duže postoje (stanovnik, učenik, preduzeće, škola...) i momentne, tj. događaji kojise dešavaju u trenutku (rođenje, udes, krađa...)

Obilježja su karakteristike statističkih jedinica prema kojima se one međusobnorazlikuju ili su slične, a definišu se stvarno (sadržinski), prostorno i vremenski.

2.1.2 Izvori prikupljanja podataka

Statistička teorija i praksa koriste podatke iz sljedećih izvora, i to pojedinačno ilikombinovano:

Primarni izvori – predstavljaju neposredno posmatranje i prikupljanje, tj. organizovanjesamostalnog snimanja podataka koje je pouzdano, ali je često komplikovano i zahtjevno.

Sekundarni izvori :- posredni - predstavljaju posredno uzimanje podataka ispitivanjem lica; ovaj izvor seoslanja na odgovore izvještajnih jedinica (starješina domaćinstva daje podatke za člana),- neposredni – predstavljaju postojeću dokumentaciju i druge zapise; podaci su ovdjeveć prikupljeni, samo nad njima treba izvršiti inspekciju u smislu zvaničnosti iodgovarajuće upotrebe (matične knjige, zemljišne knjige, poslovne knjige i registri, itd).

Podaci iz primarnih izvora su tačni, pouzdani i aktuelni, ali često veoma skupi ivremenski zahtjevni, dok podaci iz sekundarnih izvora imaju zadovoljavajući stepen tačnostii aktuelnosti, a relativno su jeftini i dostupni u kratkom roku. Pojedinačno ili kombinovanokorištenje navedenih izvora najčešće je uslovljeno ciljem i planom istraživanja.

2.1.3 Načini prikupljanja podataka

Na bazi primarnih i sekundarnih izvora, podaci se mogu prikupljati različito, a izborzavisi od cilja i prirode same pojave, tako da prikupljanje može da bude organizovano nasljedeće načine:

Page 17: Statistika - Djuro Mikulic

Ekspedicioni: Popisivač na licu mjesta prikuplja podatke, a primjenjuje se najčešće kodpopisa stanovništva; podrazumijeva mrežu popisivača i instruktora koji istovremeno tumačepitanja i kontrolišu tačnost odgovora što obezbjeđuje dobar kvalitet ulaznih podataka.

Prijavni: Statističke jedinice dolaze po pozivu ili zvaničnoj obavezi u određeni centarstatističkog organa i daju potrebne podatke (službe narodne odbrane, bezbjednosti itd.).

Samoregistracija: Popisivači donose izvještajnim jedinicama formulare (upitnike) da ihpopune, daju uputstva za nejasna pitanja, kontrolišu ispravnost odgovora i ispravljaju vidljivegreške.

Korespodentni: Na terenu se organizuje mreža korespodenata koji u određenom vremenuprikupljaju podatke, unose ih u bazu podatka i u naznačenom roku dostavljaju nosiocustatističke akcije.

Poštansko-telegrafski: Materijali za unošenje podataka, zajedno sa uputstvima, šalju seelektronskom ili običnom poštom statističkim jedinicama koje trebaju da daju podatke i naisti način vrate u sjedište statističke službe.

2.1.4 Obim i oblik (metode) obuhvatanja jedinica posmatranja

Statistička istraživanja mogu se vršiti prikupljanjem podataka o svim jedinicama koječine osnovni skup ili samo o jednom dijelu, što zavisi od prirode pojave, brzine koju želimopostići, sredstava, stepena tačnosti i naučnosti rezultata i zaključaka itd. U teoriji i praksičesto se pojavljuje zahtjev da se informacije pribave brže i ekonomičnije, ali na nivouaproksimacije. Prema obuhvatnosti jedinica posmatranja razlikujemo sljedeće dvije metodeprikupljanja podataka: potpuno i nepotpuno prikupljanje:

Potpuno (totalno) prikupljanje - Ovaj metod daje vrlo pouzdane rezultate ali jedosta skup i spor, a može da se organizuje u vidu popisa i tekućih registracija. Popispredstavlja vrlo glomaznu i najstariju organizovanu statističku akciju mnoštva jedinicarazasutih na velikom prostoru. Izvodi se kao periodična statistička akcija, a daje predstavu obroju statističkih jedinica u određenom momentu (kritični momenat), koji se određuje danomi časom. Pored kritičnog momenta potrebno je odrediti i rok popisa kao period u kojem sestatističke jedinice popisuju, a njegova dužina uslovljena je obimom pojave. Popis može bitiperiodičan i prigodan, a odvija se po sljedećim utvrđenim principima: sveobuhvatnost,jednovremenost, periodičnost i zakonitost. Tekuća registracija sastoji se u tome da se podacio svim jedinicama neke masovne pojave snimaju redovno u određenim intervalima (npr.svakog dana, sedmice) i da se šalju u obliku izvještaja nadležnim statističkim organima.Primjer za to je godišnja registracija vozila, dnevno registrovanje vodostaja ili temperature,praćenje proizvodnje itd. Pojave sa ovakvim varijabilitetom zahtijevaju permanentno tekućeregistrovanje, čiji zbir za određeno vrijeme može dati podatke za analizu njenog ponašanja uperspektivi.

Nepotpuno (djelimično) prikupljanje podataka – Izborom jednog, dovoljnoselektivnog broja jedinica iz statističkog skupa ekspeditivno dolazimo do sudova i zaključakao cijelom statističkom skupu, a taj broj je uvijek obrnuto proporcionalan homogenostimasovne pojave koju istražujemo. Istinitost sudova i zaključaka koji se utvrđuju kroz

Page 18: Statistika - Djuro Mikulic

nepotpuno posmatranje zavisi od toga da li su odabrane jedinice reprezentativne u odnosu naosnovni statistički skup iz kojeg su izabrane. Najznačajniji načini djelimičnog posmatranja iprikupljanja podataka su uzorak, anketa, monografija i procjena.

Uzorak predstavlja određeni broj jedinica osnovnog skupa, odabran po principuslučajnosti, tako da sve jedinice imaju istu vjerovatnoću izbora. Metod uzorka je u statističkojteoriji posebno razrađen, tako da je nastala nova oblast statistike - reprezentativna analiza,koja je postala dominirajući metod za statistička istraživanja. Primjenom ove analize,karakteristike osnovnog skupa ocjenjuju se na osnovu rezultata uzorka, koji mora bitidovoljno reprezentativan, odnosno predstavljati njegovu umanjenu sliku. Pitanja koja se priovoj supstituciji moraju riješiti su izbor vrste uzorka, način izbora jedinica, kao i obimuzorka. Rješenje ovih pitanja zavisi od cilja istraživanja, prirode statističkog skupa, rizikakoji možemo prihvatiti, kao stepena greške, odnosno valjanosti zaključaka.

Anketa je posmatranje određenog broja namjerno ili slučajno odabranih tipičnihjedinica statističkog skupa, a da bi se taj izbor izvršio potrebno je dobro poznavatikarakteristike jedinica pojave koju istražujemo. Ankete se izvode povodom neke konkretnesituacije, događaja ili akcije koje joj prethode ili slijede. Po sadržini su kratke, a poredodgovora mogu imati sugestije, mišljenja i procjene. Mogu biti namjerne, slučajne, pismene,usmene, javne, tajne itd.

Procjena je poseban metod djelimičnog posmatranja i prikupljanja podataka gdje sena osnovu jednog dijela, koji nas u određenom momentu zadovoljavajuće informiše, donoseaproksimativni sudovi i zaključci o svim jedinicama osnovnog skupa. Procjena može dabude:

· prosta ("od oka"): zasniva se na iskazima i podacima koje daju stručna lica ilioslanja na iskustvo;

· sračunata: zasniva se na mjerenju i izračunavanju, kako bi se rezultatproporcionalno prenio na cjelokupnu masu, a možemo je posmatrati po srazmjeri ianalogiji.

Monografija predstavlja najuži oblik statističkog istraživanja, gdje se posmatranjesvodi na jednu ili mali broj statističkih jedinica koje predstavljaju primjere osobina tj. nosekarakteristike sličnih jedinica. Koristi se pri posmatranju oglednih poljoprivrednih dobara,uzornih institucija, preduzeća itd.

Izbor metoda i tehnika prikupljanja podataka prema obimu sa jedne strane je uslovljenkarakterom i tipom masovne pojave, čiji je varijabilitet predmet statističkog istraživanja, a sadruge strane postavljenim ciljem prema kojem se vrši poređenje svih prednosti i nedostatakanavedenih metoda.

2.1.5 Sredstva prikupljanja podataka

Upitnik je relativno praktično sredstvo za prikupljanje podataka o varijabilitetuobilježja posmatranih jedinica. Sačinjen je u vidu obrasca tj. štampane ili elektronskidistribuirane liste pitanja na osnovu kojih se dolazi do odgovora koje u sljedećoj fazistatističkog postupka pretvaramo u brojeve za dalju obradu.

Page 19: Statistika - Djuro Mikulic

Redakcija i sastavljanje upitnika podrazumijeva kreiranje sadržinske i formalnestrane, pri čemu se respektuje cilj istraživanja i kriterijum adekvatne formulacije pitanja.Formu upitnika sačinjavaju opšti elementi, pitanja i obavještenja koja se odnose naorganizaciju posmatranja, kao što su: naziv organa koji je izdao upitnik i organizujeposmatranje, pravni osnov kojim se odobrava posmatranje, naziv upitnika u vidu naslova izkog se vidi šta se posmatra, šifra upitnika i djelatnosti koja se prati itd.

Suštinu sadržine upitnika čine pitanja koja treba da budu pragmatična, jasnoformulisana, razumljiva, precizna, kratka, kategorična, direktna i logična. Dvosmislena,provokativna, sugestivna, tendenciozna i suvišna pitanja uskraćuju mogućnost tačnogodgovora. Poštujući navedene kriterijume, pitanja u upitniku mogu imati različite tehničkeforme, što zavisi od vrste obilježja i mogućnosti obrade podataka. Tako npr. kod sastavljanjaupitnika za stanja u pogledu stavova postoje dvije tehnike postavljanja pitanja:

· formulacija pitanja i uz njih prazno mjesto za odgovor i· formulacija pitanja sa ponuđenim modalitetima odgovora i njihovom šifrom

Upitnik može biti individualan, kada se popunjava pojedinačno za svaku jedinicu ikolektivan, kada se popunjava za sve jedinice posmatranja.

2.1.6 Kontrola i provjera podataka

S obzirom na mnoštvo podataka i učešće većeg broja lica i sredstava, objektivnopostoji mogućnost greške, pa je neophodno predvidjeti kontrolu koja može da se organizujepreventivno i neposredno nakon prikupljanja.

Kontrola u toku prikupljanja je preventivna i obavljaju je popisivači, a primjenjuje sekod ekspeditivnog načina i samoregistracije gdje se neposredno vrši uvid u tačnost odgovora.Za punu efikasnost kontrole u pogledu identifikacije i otklanjanja grešaka potrebno je darazlikujemo slučajne i namjerne greške. Slučajne greške nastaju previdom tj. bez svjesnenamjere da se na taj način utiče na ishod i u masi se one anuliraju, što ne isključuje potrebunjihove ispravke. Namjerne greške nastaju kao posljedica namjere tj. pod dejstvomsistematskog uzroka da se utiče na konačan rezultat i one se u masi umnožavaju. Analognogreškama u statistici se primjenjuju i dvije vrste kontrole i to logička i računska. Logičkomkontrolom se eliminišu slučajne greške kao i računske koje se logički uočavaju (logičkinesklad odgovora). Računska kontrola izvodi se sistematski i obuhvata provjeru tačnostipodataka i njihovih odnosa.

2.2 Grupisanje i sređivanje podataka

Rezultat prve faze postupka statističkog istraživanja je amorfna i haotična sirovastatistička građa koju treba dalje sortirati, grupisati i sređivati, odnosno obrađivati. Grupisanjei sređivanje empirijskih podataka predstavlja raščlanjivanje statističkog materijala prema vrstigrupnih obilježja i njihovim modalitetima na odgovarajuće grupe, čijim se redanjem poodređenom kriteriju, formiraju statističke serije. Statistički podaci u izvornom oblikupredstavljaju gomilu prikupljenog materijala i izvještaja u tvrdoj ili elektronskoj formi, kojisu kao takvi neupotrebljivi direktno, niti je moguće na osnovu njih bilo šta zaključivati.Ovakvu masu statističkog materijala je potrebno određenim tehnikama obrade, zasnovanim

Page 20: Statistika - Djuro Mikulic

na statističkim principima, učiniti podesnom za statističku analizu. Sređivanjem igrupisanjem, kao sinhronizovanim poslovima, nastaju podaci grupisani po obilježjimajedinica posmatranja. Grupisanje podataka vrši se pridruživanjem jedinica i formiranjemgrupa po modalitetima datog obilježja, na osnovu prethodno izrađene šeme grupisanja, ukojoj je dat izbor obilježja i red po kom će se vršiti grupisanje. Pojedinačni podaci seraščlanjuju prema vrijednostima obilježja u šeme, obrazujući pritom nizove grupisanihpodataka u vidu statističkih serija. Podaci sređeni u statističke serije brojčano izražavajupromjene u strukturi pojave, po određenim karakteristikama, odnosno njen varijabilitet.Pitanja izbora obilježja i tehnike formiranja grupa, kao i varijacionog intervala koji je osnovsređivanja, moraju biti riješena u skladu sa ciljem istraživanja.

Sastavljanje šeme grupisanja predstavlja oblik ili šablon grupisanja podataka popojedinim vrstama obilježja, pa prema tom kriteriju razlikujemo sljedeće vrste grupisanja:

· prema vrsti grupnog obilježja: stvarno (numeričko i atributivno), vremensko iprostorno,

· prema obimu (broju obilježja): prosto i kombinovano,· prema cilju: tipološko, varijaciono i analitičko,· prema atributivnim modalitetima; u obliku nomenklatura i klasifikacija kao službeno

propisanih i zvaničnih šema koje predstavljaju sistematizovane spiskove svihmodaliteta u kojima se posmatrano obilježje parametarski konkretizuje.

Prema šemi grupisanja i cilju istraživanja prikupljeni statistički materijal tehničko-metodološki se sređuje rasporedom u serije i tabele koje predstavljaju sintaksu statističkogjezika.

Postupak grupisanja po obilježjima koja se javljaju u većem broju modaliteta je neštosloženije, zbog raščlanjivanja na veći broj grupa. Neka obilježja se pojavljuju u velikomvarijacionom intervalu, tako da imaju širok spektar konkretnih oblika kao što su npr.zanimanja, vrste bolesti, sredstva za rad, asortiman proizvoda, krivična djela, starost, visinazarada itd. Koncentracija jedinica oko pojedinih modaliteta u ovakvim slučajevima imala biza rezultat duge i nepregledne nizove koji ne bi imali praktičnu primjenu. Rješenje ovogpitanja postiže se pridruživanjem susjednih modaliteta u razrede (klase, intervale), čime seindividualni modalitet zamjenjuje modalitetom grupe, a niz se redukuje i postajepragmatičan.

Page 21: Statistika - Djuro Mikulic

2.2.1 Statističke serije

Statističko istraživanje određene pojave, procesa ili događaja temelji se naprikupljanju, sređivanju, obradi i statističkoj analizi originalnih podataka, do kojih dolazimoempirijskim radom. Rezultat ovakve procedure u statističkom smislu je niz empirijskihpodataka koji, uređen prema zadanom kriterijumu, predstavlja empirijsku distribuciju. Poštose statističko zaključivanje temelji na raspoloživim informacijama o karakteristikama jedinicaposmatranja, logično je da te informacije, sređene po nekom algoritmu, nazivamo statističkimserijama. Dakle, statističke serije su nizovi grupisanih statističkih podataka koji jezikom cifreprikazuju promjene strukture skupa po nekom obilježju ili raspored vrijednosti skupa uprostoru i njegove promjene u vremenu.

Prema načinu formiranja i analitičkom sadržaju obilježja statističkih jedinica,razlikujemo:

· Numeričke serije· Atributivne serije strukture· Vremenske serije· Prostorne (geografske) serije, itd.

Prema strukturi, statističke serije se mogu dijeliti u sljedeće potklase:

· Proste statističke serije (serije negrupisanih podataka)· Serije distribucije frekvencija (serije grupisanih podataka)

Statističke serije pokazuju raspored statističkog skupa po modalitetima obilježja iobično se sastoje od dvije kolone obavještenja: modaliteti (kvalitet serije) i frekvencije(kvantitet serije). Serije strukture mogu biti sa atributivnim i numeričkim obilježjem, ali ćemoih posmatrati metodologijom podklasa, prema kojoj se načinom grupisanja mogu pojaviti kaoproste, neintervalne i intervalne.

2.2.1.1 Numeričke serije strukture

Raščlanjivanjem statističkih podataka prema numeričkom obilježju i njegovimmodalitetima, nastaju numeričke grupe čijim se redanjem po veličini formiraju numeričkeserije.

Numeričke serije strukture predstavljaju statističke nizove kod kojih su podaciraspoređeni na osnovu vrijednosti numeričkih obilježja, odnosno njihovih frekvencija.

a) Prosta numerička serija (serija negrupisanih podataka)

Xix1x2

Page 22: Statistika - Djuro Mikulic

.

.xn

b) Neintervalna numerička serija distribucije frekvencija (serija grupisanih podataka)

Opšti prikaz:

Obilježje(Xi)

Frekvencije

( i)

. .

. .

. .

Ukupno:

Konkretan primjer:

Obilježje(Xi)

Frekvencije(fi)

1 22 33 54 75 96 117 88 69 4

10 1

Ukupno: 56

Ulazni materijal programa za formiranje distribucije frekvencija navedenih primjeranumeričke serije je niz (N) za sortiranje po rastućem redoslijedu. Ovako sortirani slogovičine datoteku ukupnog broja podataka iz navedenog primjera, koja je ulaz za program zaformiranje distribucije frekvencija.

Dok se za numeričko obilježje postavlja problem komparacije vrijednosti, za atributivnoobilježje postavlja se problem klasifikacije atributa. Varijacioni interval individualnihvrijednosti jednog numeričkog obilježja u posmatranom statističkom skupu nominuje segradacijom brojčanih vrijednosti tog obilježja u zavisnosti od tog da li je ono kontinuelno ili

Page 23: Statistika - Djuro Mikulic

diskontinuelno. Problem je složeniji kod neprekidnih obilježja, kao i kod prekidnih savelikim brojem modaliteta. Rješenje u ovom slučaju predstavlja formiranje klasa (intervala,razreda), tako da distribucije rasporeda frekvencija spadaju u klasu distribucija strukture. Zaoznačavanje modaliteta obilježja jedinice posmatranja koristi se intervalna skala (razred) kaoskup vrijednosti obilježja nad kojim je dozvoljena odgovarajuća algebra.

Izbor veličine i broja grupnih intervala je suštinsko pitanje, jer veći broj grupnih intervaladaje kompletniju informaciju o sastavu skupa, a manji broj bolje otkriva pravilnosti unjegovom ponašanju. Širina grupnog intervala, odnosno razreda.

Izbor veličine i broj grupnih intervala je suštinsko pitanje, jer veći broj grupnih intervaladaje kompletniju informaciju o sastavu skupa, a manji broj bolje otkriva pravilnosti unjegovom ponašanju.

Neophodno je da se postigne optimalna širina intervala, optimalan broj klasa, a time ioptimalan broj jedinica koje pripadaju klasi, za šta se preporučuju sljedeći obrasci:

K=1+3,32logN; gdje je :

H - širina intervala

N - ukupan broj podataka

Rezultati grupisanja u vidu intervalne numeričke serije distribucije frekvencija(serije grupisanih podataka) mogu se predstaviti sljedećom tabelom frekvencija:

Obilježje (razrediXi)

Frekvencije (ƒi)

(c1 - c2)

(c2 - c3)

. .

. .

. .(ci - ci+1)

. .

. .

. . (ck - ck+1)

Ukupno:

Program formiranja niza (serije) rasporeda frekvencije

Page 24: Statistika - Djuro Mikulic

Zadatak programa je da obezbijedi formiranje niza rasporeda frekvencijastanovništva po starosnim grupama u obliku tabele pod nazivom: "Struktura stanovništvaprema starosti po popisu od 1981. godine

Starosne grupe(Xi)

(obilježje)

Apsolutnefrekvencije (fi)

Kumulantafrekvencija(rastuća)

do 4

4 - 8+

8 - 12( + )+

.72 - 76

.

.

72 - 76+ +...+

76 i više

Ukupno:

Primjer 2.1 Odrediti veličinu i broj grupa za 100 podataka koji variraju od 50 do121,5.

Dakle, ove podatke rasporedili bi u 8 intervala širine 9.

Iz prethodnog primjera možemo zaključiti da pravilno formiranje intervala zahtijevada se riješi sljedeće:

· kolika će biti veličina grupnih intervala i njihov broj,· da li će grupni intervali biti uporedivi,· kako će se razgraničavati grupni intervali.

Razgraničavanje grupnih intervala znači precizno određivanje donje i gornje granice,kako bi se znalo kojoj grupi pripada svaka jedinica. Često se prvi i posljednji intervalostavljaju otvoreni tj. prvi bez donje, a posljednji bez gornje granice. U tom slučajuizostavljene granice se pretpostave uvažavajući veličine razreda.

Kod kontinuelnih numeričkih obilježja razgraničavanje razreda može se izvršiti nasljedeće načine:

Page 25: Statistika - Djuro Mikulic

Primjer 2.2 a) Prave granice

Godinestarosti (Xi)

Brojzaposlenih(fi)

do 18 6518 - 24 7024 - 39 9039 - 49 5049 i više 45Ukupno: 320

b) Nominalne granice

Površinau km2 (Xi)

Brojopština(fi)

do 49 8 50 - 99 10100 - 199 15200 - 299 20300 - 399 15400 - 499 12500 - 599 11600 i više 9Ukupno: 98

Kod diskontinuelnih numeričkih obilježja razgraničavanje se vrši uz primjenunominalnih granica, za razliku od prethodnog slučaja, gdje se mogu primjenjivati i prave inominalne:

Brojzaposlenih (Xi)

Brojpreduzeća(fi)

51 - 60 561 - 70 671 - 80 981 - 90 791 - 100 3Ukupno: 30

Page 26: Statistika - Djuro Mikulic

2.2.1.2 Atributivne serije strukture

Osnovni statistički niz predstavlja polazni statistički materijal koji se formira tako štose iz razrađene statističke dokumentacije preuzmu raspoloživi podaci o jednom obilježju kaoizvorna obavještenja.

Raščlanjivanjem statističkih podataka prema atributivnom obilježju i njegovimmodalitetima, nastaju atributivne grupe čijim se redanjem prema određenom kriterijuformiraju atributivne serije.

Neintervalna serija distribucije frekvencija se uvijek izražava u obliku dva nizainformacija, gdje prvi niz čine informacije o modalitetima obilježja poredane po određenomredoslijedu, a drugi se uvijek izražava numerički i označava ukupan broj jedinica posmatranjapripadajućih odgovarajućim modalitetima.

Atributivne serije strukture: opšti prikaz

Uspjeh učenika (Xi) Broj učenika (fi)Odličan (C)

Vrlodobar (U)

Dobar (Z)

Dovoljan (u)

Nedovolja (j)

Ukupno:

Ovaj prikaz serije distribucije frekvencija upućuje na višestruke prednosti u odnosu naosnovni statistički niz; npr. omogućava da se otkriju grube greške, da se dobijeni rezultatiupoređuju sa očekivanim, da se odredi relativno učešće za svaku od uvedenih kategorijamodaliteta itd.

2.2.1.3 Vremenske serije

Raščlanjivanjem statističkih podataka prema vremenskom obilježju i njegovimmodalitetima nastaju vremenske grupe čijim se hronološkim redoslijedom formirajuvremenske serije.

Vremenske (hronološke) serije su nizovi statističkih podataka grupisani pouzastopnim momentima vremena ili intervalima. Kao i serije strukture, prikazuju se u dvaniza, s tim što se ovdje prvi niz uvijek odnosi na vrijeme, a drugi na veličinu pojave uposmatranom periodu. Vremenske serije, prema prirodi podataka koje sadrže, dijele se namomentne i intervalne.

Page 27: Statistika - Djuro Mikulic

Momentne serije pokazuju nivo pojave u određenim sukcesivnim momentimavremena, a dobijamo ih kao rezultate popisa stanovništva, štednje itd. Kod ovih serijasumiranje nema smisla, što se vidi iz sljedećeg primjera:

Godine (Xi) Broj stanovnika(u mil.)

1960 121970 131980 151990 1649 i više 45Ukupno: -

Intervalne vremenske serije pokazuju kretanje pojave u sukcesivnim vremenskimintervalima, a formiraju se kao rezultat izvještajnog metoda i podaci im se mogu sumirati, štose može vidjeti iz sljedećeg primjera:

Godine Proizvodnja uglja ( u 000 t)

1999 222000 252001 302002 202003 152004 182005 12

Ukupno: 142

2.2.1.4 Prostorne serije

Raščlanjivanjem statističkih podataka prema prostornom obilježju i njegovim modalitetimanastaju prostorne grupe čijim se redanjem, prema određenom kriteriju, formiraju prostorne(geografske) serije:

Gradovi(Xi)

Broj učenika

Banja Luka 10000Prijedor 6000

Gradiška 5000

Dubica 4000

Prnjavor 3000

Ukupno: 28000

Page 28: Statistika - Djuro Mikulic

2.3 Prikazivanje statističkih podataka

2.3.1 Tabelarno prikazivanje (statističke tabele)

Tabelarno prikazivanje predstavlja pogodnu i preglednu formu izražavanja rezultatagrupisanja i sređivanja statističkog materijala i dostavljanja, kao informacije, korisnicima naraspolaganje. Statističke tabele, kao grafičko sredstvo se konstruišu sistemskim ukrštanjemvećeg broja vertikalnih i horizontalnih linija, pri čemu se obrazuju pravougaone površine kojese nazivaju polja tabele. Horizontalno povezana polja čine redove, a vertikalno povezanapolja čine kolone, tako da polje tabele, određeno presjekom odgovarajućeg reda i kolone,predstavlja mjesto za upisivanje statističkog podatka u vidu cifre. Prvi red predstavljazaglavlje, a prva kolona pretkolonu tabele i služe za upisivanje modaliteta, odnosno zagradaciju obilježja prema kome su podaci i sređeni. Statistička tabela mora biti objašnjenanaslovom iz kojeg se vidi kakve podatke tabela sadrži i u kojim su jedinicama dati. Premasadržini statističke tabele mogu biti proste(prikazuju jednu statističkuseriju), složene (prikazuju dvije ili više statističkih serija sređenih po istom obilježju)i kombinovane (prikazuju podatke dobijene ukrštanjem dva ili više obilježja čije se oznakeunose u zaglavlje i pretkolonu).

Prosta statistička tabela:

Obilježje(C)

Frekvencija(¦i)

Xi¦i

x1 ¦1 x1¦1x2 ¦2 x2¦2x3 ¦3 x3¦3...

.

.

.

.

.

.xn ¦n xn¦n

Ukupno: å¦i å Xi ¦i

Složena statistička tabela; sa n redova i m kolona:

Obilježje(C)

Frekvencija(¦i1)

... Frekvencija(¦im)

1 2 ... mx1 ¦11 ... ¦1mx2 ¦21 ... ¦2mx3 ¦31 ... ¦3m...

.

.

.

.

.

.

.

.

.xn ¦n1 ... ¦nm

Ukupno: å¦i1 ... å¦ij

Page 29: Statistika - Djuro Mikulic

Kombinovana statistička tabela; sa m redova i n kolona:

C(a) Naziv obilježja A Svega

C(b) C1 C2 C3 ... Cm

1 2 3 4 ... m-1 mx1 ¦11 ¦21 ¦31 ... ¦m1 ¦j1x2 ¦12 ¦22 ¦32 ... ¦m2 ¦j2...

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.xn ¦in ¦2n ¦3n ... ¦mn ¦jn

Ukupno: å¦1i å¦2i å¦3i ... å¦mi åå¦ij Prilikom tabelarnog prikazivanja pravilo je da sva polja u tabeli moraju bitipopunjena. Ukoliko je neki podatak nepoznat polje se popunjava konvencionalnim znakom(:), ako nedostaje neki modalitet unosi se znak (-), ako je podatak nepotpun i neprovjerenunosi se znak (//), ukoliko je ispravljan unosi se (*) u polje tabele itd.

2.3.2 Grafičko prikazivanje

Serije statističkih podataka, pored tabelarnog prikazivanja, mogu se, radi boljevizuelne prezentacije, predstaviti grafičkim ilustracijama u vidu geometrijskih pojmova.Grafičko prikazivanje statističkih podataka, pored ilustracije dobijenih rezultata statističkeanalize, služi i za orijentaciju kada je u pitanju izbor najpodesnijeg tipa funkcije ili oblikarasporeda. U grafičkom prikazivanju statističkih serija koristi se uglavnom dvodimenzionalnioblik unutar i van koordinatnog sistema, jer se tako postiže tačnost i preglednost. Grafikoniočiglednim putem i na popularan način prikazuju statističke veličine, njihovu strukturu,kretanje i međusobne odnose. U grafičkom metodu služimo se raznim geometrijskimpojmovima, slikama i likovima, crtežima i figurama na liniji, površini, u prostoru itd. Dakle,statistički grafikoni predstavljaju dopunu serijama i tabelama i istovremeno njihovognajboljeg tumača, jer na jednostavan vizuelan način, jezikom slike, iskazuju karakterističneosobine i promjene posmatrane pojave, te njene zakonomjernosti i tendencije u dinamici. Sobzirom na izbor elemenata i geometrijskih pojmova koji se upotrebljavaju za konstrukcijugrafikona kao statističkih publikacija, dijelimo ih na dijagrame, kartograme i slikovito-popularne grafikone.

Dijagrami kao geometrijski oblici konstruišu se na raznim skalama uz pomoć tačaka(stigmogrami), linija (linijski dijagrami), površina (histogrami) i oblika prostora(stereogrami).

Page 30: Statistika - Djuro Mikulic

2.3.2.1 Linijski dijagrami

Linijski dijagrami služe za prikazivanje modaliteta jednog obilježja i analizustatističkih podataka svrstanih u rasporede frekvencija ili vremenske serije. Za konstrukcijulinijskih dijagrama koristimo dva osnovna koordinatna sistema i to pravougli koordinatnisistem u ravni i polarni koordinatni sistem, koji se konstruiše kombinacijom radijalne iciklične mreže.

Pravougli linijski dijagram služi za grafički prikaz rasporeda frekvencija, najčešćeunutar prvog kvadranta, pri čemu se na X osi vrši izbor skale koja može biti ravnomjerna(aritmetička) ili neravnomjerna (logaritamska) i nanose modaliteti (Xi), a na Y osufrekvencije (fi), takođe uz adekvatan izbor veličine podioka. Statističke serije upravopredstavljaju nizove parova podataka u vidu modaliteta i frekvencija pa je nanošenje injihova konstrukcija vrlo jednostavno. Ako želimo grafički da prikažemo dinamikuposmatrane pojave, tada se kao nezavisno promjenljiva veličina uzima vrijeme, obično ukalendarskim razdobljima, a nivo posmatrane pojave kao zavisno promjenljiva. Ucrtane tačkeparova podataka, koje su određene pripadajućim koordinatama (apscisom i ordinatom),spajaju se po redoslijedu i na taj način se dobija izlomljena linija – pravougli linijski dijagram- čiji tok odražava intenzitet promjena i strukturu pojave. Koristi se za prikazivanje serijastrukture i vremenskih intervalnih serija.

Primjer 2.3

Brojčl. (Xi)

Brojdomać. (fi)

Rastućakumulanta

Opadajućakumulanta

1 2 2 482 5 7 463 10 17 414 15 32 315 8 40 166 4 44 87 3 47 48 1 48 1

Ukupno: 48 - -

Page 31: Statistika - Djuro Mikulic

Polarni linijski dijagram koristi se za prikazivanje vremenskih serija onih pojava kojeimaju izraženo sezonsko kretanje u dužim ili kraćim ciklusima (promet turista, potrošnja pivapo mjesecima). Konstruiše se na taj način da se vrijednosti obilježja nanesu na radijalnumrežu koja predstavlja zrakasto širenje vektor-radijusa od centra ka periferiji. Na jedan odnjih se označi skala sa odabranim omjerom i kroz označene podioke opišu koncentričnikrugovi koji omogućavaju unos frekvencija. Kombinovani sa vektor-radijusima, obrazujupolarnu mrežu u kojoj je položaj tačke takođe određen parom (r,a) tj. udaljenošću od centra(r) i otklonom od nekog početnog položaja (a).

Primjer 2.4 Prodaja piva (u hl) u toku dvije godine

Mjeseci 2000. 2001.I 2 1II 3 2III 5 4IV 10 8V 20 15VI 30 20VII 40 35VIII 50 40IX 35 30X 25 20XI 10 10XII 5 5

Page 32: Statistika - Djuro Mikulic

Dijagram predstavlja izlomljenu liniju koja pokazuje komparativan razvoj pojave tokom dvijegodine, sa tumačenjem da svako udaljavanje ili približavanje linije centru znači veći ili manjiuticaj sezone na pojavu. Radi lakše analize može se u dijagram ucrtati i krug čiji jepoluprečnik jednak prosječnoj veličini pojave. Upoređivanjem izlomljene linije i ucrtanekružnice dobija se uvid u kolebanje i odstupanje pojave od svog regularnog toka iz kog jepotisnuta pod uticajem sezonskog faktora. Za sve tačke presjeka, koje pripadaju krugu,pojava je bila ispod prosjeka, za one van kruga pojava je bila iznad prosjeka, a za one nakrugu pojava je jednaka prosjeku.

2.3.2.2 Površinski dijagrami

Površinski dijagrami se koriste za grafičko prikazivanje, prvenstveno serija strukture ipoređenja i to najčešće u obliku histograma i poligona frekvencija.

Histogram frekvencija se dobija podizanjem ordinate iznad granica intervala premaveličini frekvencija. Spajanjem ovih ordinata dobija se onoliko pravougaonika koliko imagrupnih intervala. Baza svih pravougaonika je jedinična, tako da su im visine određenefrekvencijama.Primjer 2.5

Broj stanovnika(u 000) (Xi)

Brojopština (fi)

do 10 511 - 20 721 - 30 1031 - 40 1241- 50 1551 - 60 2061 - 70 1871 - 80 1481 - 90 991 - 100 6

Page 33: Statistika - Djuro Mikulic

Poligon frekvencija nastaje kada se ucrtane tačke, određene sredinom grupnogintervala i grupnom frekvencijom, međusobno po redoslijedu spoje pravim linijama. Na taj senačin dobija zatvorena površina između izlomljene linije i apscise koja se naziva poligonfrekvencija, a najčešće služi za određivanje teorijskog oblika rasporeda učestalosti.

Dijagram pravougaonika se može istovremeno smatrati kao linijski dijagram jer jebaza jedinična, što se na osnovu prethodnog primjera može pokazati na sljedeći način:

Histogram kvadrata - upotrebljava se za prikaz upoređivanja obima dviju ili višepojava ili hronoloških promjena strukture jedne pojave. Površine pojedinih kvadrata, kojeilustruju promjene, srazmjerne su statističkim skupovima koje upoređujemo. Iz tih površinaizračunamo stranice i nad njima konstruišemo kvadrate.

Primjer 2.6Godine Broj nezaposlenih

(u 000)2001. 92002. 162003. 25

Page 34: Statistika - Djuro Mikulic

P1

Za 2001. god:

Za 2002. god:

Za 2003. god:

2003

2002

2001

Histogram krugova - predstavlja takav način grafičkog prikaza u kojem, pomoćupovršine krugova, vršimo upoređivanje obima dviju ili više pojava ili hronološke promjenestrukture na jednoj pojavi, tako što će površine krugova biti srazmjerne vrijednostima kojeporedimo. Vrijednost statističkih podataka predstavljamo površinom kruga iz kojeizračunavamo poluprečnik i konstruišemo krug.

Page 35: Statistika - Djuro Mikulic

Primjer 2.7

Godine Broj nezaposlenih(u 000)

2001. 92002. 162003. 25

Za 2001. god:

Za 2002. god:

Za 2003. god:

2003

2002

2001

Page 36: Statistika - Djuro Mikulic

Strukturni krug - služi da prikažemo strukturu neke pojave po sastavnim elementima takošto cjelokupnu pojavu (100%) preslikavamo na puni krug (360o), pri čemu 1% brojnosti serijeodgovara 3,6okruga. Dakle, prethodno se utvrdi struktura serije u procentima, a zatim se ukrug proizvoljnog poluprečnika unesu segmenti čiji su uglovi određeni procentualnimučešćem pojedinih struktura u seriji.

Primjer 2.8

Ocjena(Xi)

Brojučenika (fi)

Broj stepeni(a)

1 20 362 30 543 100 1804 40 725 10 18

Ukupno: 200 360

Rješenje:

gdje je: a - broj stepeni (segment) D – frekvencija grupe C – brojnost serije

a2

a3

Page 37: Statistika - Djuro Mikulic

a1

a5

a4

Provjera rješenja:

360:200 = 1,8

a1= 20 x 1,8 = 36º, a2= 30 x 1,8 = 54 º, a3= 100 x 1,8 = 180º,a4 = 40 x 1,8 = 72 º , a5= 10 x 1,8 = 18 º

2.4 Deskriptivne mjere statističke analize

2.4.1 Srednje vrijednosti (mjere centralne tendencije)

Osnovni zadatak statističke analize numeričkih podataka jeste da pruži štokompletniju sliku i deskripciju pojave sa aspekta razvojnih tendencija. Mnoštvo brojčanihpodataka jedino je moguće kontrolisati svođenjem individualnih vrijednosti na manji brojstatističkih pokazatelja, tako da se većina originalnih podataka koncentriše oko jednesintetičke centralne vrijednosti opšteg značenja. Takva vrijednost odražava centralnutendenciju skupa i reprezentativna je u pogledu značaja obilježja. Autentično zamjenjuje svevrijednosti čije karakteristike objedinjuje, što je čini tipičnom za dati raspored. Pokazateljerasporeda frekvencija, koji se obično koncentrišu oko sredine, nazivamo numeričkimparametrima skupa empirijskog rasporeda i dijelimo ih u sljedeće grupe:

a) srednje vrijednosti kao mjere centralne tendencije rasporeda,

Page 38: Statistika - Djuro Mikulic

b) mjere varijabiliteta (disperzije) podataka,c) mjere oblika rasporeda,d) relativna učešća statističkih rasporeda.

U zavisnosti od rasporeda empirijskog niza, srednje vrijednosti se mogu matematičkiizračunati preko odgovarajućeg postupka - izračunate srednje vrijednosti – sredine- (aritmetička, harmonijska, geometrijska i druge) i određivati prema položaju u seriji –pozicione vrijednosti- (modus, medijana). Izračunate srednje vrijednosti su osjetljive na

promjene bilo koje individualne veličine, pogotovo ekstremnih, što posebno dolazi doizražaja ako je posmatran relativno mali broj jedinica.

Statistički skup uvijek karakteriše samo jedna od više mogućih pozicionih iliizračunatih srednjih vrijednosti, tj. predstavlja njegov parametar centralne tendencije, a kojaće se vrijednost izabrati kao parametar skupa zavisi od načina grupisanja podataka i obilježjakonkretnog slučaja.

Za izbor srednje vrijednosti koja bi bila najpodesnija za primjenu u određenomslučaju, potrebno je ispitati:

· vrstu, prirodu i karakter masovne pojave (skupa) koja je predmet statističkogposmatranja,

· stepen homogenosti i srodnosti podataka u seriji,· cilj istraživanja na bazi kog se planira postupak.

2.4.2 Izračunate srednje vrijednosti - sredine

2.4.2.1 Aritmetička sredina

Aritmetička sredina ima najširu upotrebu u statističkoj analizi, a konvencionalno senaziva prosjek. Uslov za pravilnu primjenu aritmetičke sredine je da su podaci u serijihomogeni tj. da je amplituda rasipanja mala, u protivnom svodimo je na formalnost.Razlikujemo dva prilagođena načina izračunavanja aritmetičke sredine, od kojih se prviodnosi na serije u kojima se svaka vrijednost obilježja pojavljuje jedanput (prosta aritmetičkasredina), a drugi na sređene serije distribucije frekvencija (ponderisana aritmetička sredina).Ovdje se modaliteti ponavljaju različito, tako da se prilikom računanja svaki modalitetponderiše pripadajućom frekvencijom.

Prosta aritmetička sredina se računa za seriju negrupisanih empirijskih podatakaslučajne veličineX, koji su dati u obliku osnovnog rasporeda vrijednosti x1,x2,...xn, pri čemusu empirijske vjerovatnoće (a posteriori) za svaki od mogućih ishoda xi jednake. Izračunava

se pomoću formule: . Za slučajno promjenljivu X koja uzima diskretnevrijednosti x1,x2,...xn sa odgovarajućim a posteriorivjerovatnoćamap(x1),p(x2),...p(xn), matematičko očekivanje (E(X)) se definiše u obliku sume

proizvoda: , pri čemu je .

Page 39: Statistika - Djuro Mikulic

Ako pretpostavimo da su empirijske vjerovatnoće jednake za svako

xi tj. tada se matematičko očekivanje definiše kao prosta

aritmetička sredina: odnosno .

Primjer 2.9 Odrediti prosjek sljedeće serije negrupisanih podataka:

Xi13579

Ponderisana aritmetička sredina tj. sredina serije grupisanih podataka se češćesusreće u statističkim istraživanjima. U slučaju grupisanih podataka u vidu rasporeda

frekvencija moramo pri izračunavanju ponderisane aritmetičke sredine uzeti u obzir razlikemeđu frekvencijama. Ako raspored vrijednosti obilježja označimo sa x1,x2,...xi,...xn, a njihovepripadajuće frekvencije sa ¦1, ¦2,...¦i,...¦ntada se ponderisana aritmetička sredina izračunavapomoću formule:

Primjer 2.10 Izračunati kod sljedećeg rasporeda frekvencija numeričkogprekidnog obilježja:

Ocjene(xi)

Brojstudenata (¦i) xi ¦i

6 10 607 20 1408 30 2409 25 225

10 5 50Ukupno: 90 715

Page 40: Statistika - Djuro Mikulic

Ponderisanje modaliteta sa odgovarajućim frekvencijama (xi¦i) predstavlja grupne

proizvode čiji zbir ( ) daje obim pojave, dok zbir frekvencija ( )predstavlja brojnost statističke serije (veličinu skupa).

Izračunavanje ponderisane aritmetičke sredine, tj. intervalne serije distribucijefrekvencija, polazi od pretpostavke da su modaliteti obilježja unutar intervala ravnomjernoraspoređeni, tako da se prilikom izračunavanja koriste sredine intervala.

Primjer 2.11 Na jednoj površini zasijano je 310 ha kukuruza. Prinos je varirao od 189do 520 kg po ha. Podaci su dati u grupnim intervalima pa je potrebno proglasiti razrednesredine (ri) kao predstavnike razreda.

xi ¦i (xi)ri ri¦i200-250 12,5 225 2012,5250-300 65,8 275 18095,0300-350 82,0 325 26650,0350-400 73,4 375 27525,0400-450 52,1 425 22142,5450-500 10,1 475 4797,5500-550 7,1 525 3727,5

å 310,0 - 106175,

Ponderisana aritmetička sredina posmatrane intervalne serije distribucije frekvencija,odnosno, u konkretnom slučaju, prosječan prinos kukuruza po ha iznosi 342,5 kg, što značida µ, kao sintetički pokazatelj, izravnava apsolutne varijacije obilježja tj. pojedinačne prinosepo ha.

Prema vjerovatnoći realizacije vrijednosti aleatorne promjenljive pri slučajnom izborumodaliteta, ponderisana aritmetička sredina može se definisati preko vjerovatnoće u vidumatematičkog očekivanja:

Vjerovatnoća slučajnog izbora modaliteta (xi) može se izraziti:

.

Uvrštavanjem ovih relativnih učešća u razvijeni oblik ponderisane aritmetičke sredinedobijamo:

Page 41: Statistika - Djuro Mikulic

, odnosno:

Dakle, ponderisana aritmetička sredina je izražena kao zbir proizvoda modaliteta ivjerovatnoća njihovog slučajnog izbora, što eksplicitno predstavlja matematičko očekivanjeili matematičku nadu:

Neefikasna i česta primjena aritmetičke sredine, ne poštujući njene osobine kao iosobine značajne za njenu primjenu, duguje se njenom komfornom računskom postupku.Osnovna svojstva aritmetičke sredine su:

· veća je od najmanje, a manja od najveće originalne vrijednosti: ine zavisi od njihovog poretka

· izjednačava se sa vrijednostima obilježja kada su one međusobnojednake: tj. ne postoji varijabilitet zbirodstupanja individualnih vrijednosti od aritmetičke sredine je 0

tj. za negrupisane podatke, kao i za grupisane

podatke· zbir kvadrata odstupanja vrijednosti xi od pripadajuće aritmetičke sredine je

minimalan, tj. manji je od zbira kvadrata odstupanja od bilo koje vrijednostiobilježja, kao i srednjih vrijednosti ako se ne podudaraju sa , odnosno:

za negrupisane podatke

za grupisane podatke

Primjer 2.12 Provjeriti posljednja dva svojstva, na osnovu podataka iz sljedeće serije:

xi ¦i2 33 44 135 216 117 58 3S 60

a) Zbir odstupanja individualnih vrijednosti od :

Page 42: Statistika - Djuro Mikulic

b) Zbir kvadrata odstupanja od :

, za svako različito od

2.4.2.2 Harmonijska sredina

Harmonijska sredina se primjenjuje onda kada su vrijednosti obilježja, za koje seodređuje prosjek, izražene u vidu recipročnog odnosa, tj. kada se pojava kreće u suprotnomsmjeru u odnosu na podatke koji je prikazuju. Harmonijska sredina je recipročna vrijednostaritmetičke sredine izračunate iz recipročnih vrijednosti obilježja, a najčešće se koristi kodizračunavanja prosječne recipročne produktivnosti rada, prosječnog vremena obrta kapitala,prosječne količine robe koja se može kupiti za određenu količinu novca itd.

Ako je statistička serija negrupisana, tada se izračunava prosta harmonijska sredina nasljedeći način:

Kada je zadana statistička serija sa grupisanim podacima ili intervalna numerička serijadistribucije frekvencija, tada se izračunava ponderisana harmonijska sredina na osnovuformule:

Primjer 2.13 Za izvršenje određenog posla četiri grupe radnika su utrošile sljedeća vremena:

5 radnika - 35 minuta6 radnika - 38 minuta4 radnika - 48 minuta8 radnika - 25 minuta

Zaključujemo da prosječno vrijeme po grupama za izvršenje ovog posla iznosi 32,6minuta.

Page 43: Statistika - Djuro Mikulic

2.4.2.3 Geometrijska sredina

Geometrijska sredina za statističko obilježje X: x1,x2,...xi,...xn gdje je xi>0,i=1,2,...N jeste srednja vrijednost koja izravnava relativne ili proporcionalne promjenepodataka posmatranog niza, za razliku od aritmetičke sredine koja izravnava apsolutnevarijacije tj. razlike originalnih podataka. Takođe, ako obilježje ispoljava neke relativnepokazatelje ili karakteristike geometrijske progresije, kao npr. prosječan razvitak udinamičkoj analizi, onda se iz takvih serija izračunava geometrijska sredina. Geometrijskasredina je konstantan broj određen iz niza varijabilnih veličina tako da se proizvod članovaniza ne mijenja kada se varijabilne veličine zamijene tim konstantnim brojem.

Postupak izračunavanja po navedenoj definiciji se može pokazati na sljedećem nizu:2,4,8,16,32, čiji međusobni proizvod iznosi 32768. Treba naći takav broj čiji je peti stepenjednak proizvodu članova niza: , odnosno . Uopštavajući ovajpostupak izračunavanja geometrijske sredine, zaključujemo da se geometrijska sredinaizračunava kao n-ti korijen iz proizvoda individualnih veličina. Ako je data statistička serija sa negrupisanim podacima, tada se prosta geometrijskasredina izračunava na sljedeći način:

, odnosno:

Antilogaritmovanjem ovog izraza dobijamo:

Ako na posmatrane grupisane podatke intervalne numeričke serije primijenimoponderisanu geometrijsku sredinu, u tom slučaju modalitete stepenujemo pripadajućimfrekvencijama posmatranog obilježja, a iz proizvoda vrijednosti traži se korijen čiji je

eksponent jednak brojnosti serije . Za skup pozitivnih grupisanih (uređenih) vrijednosti, koje rastu geometrijskomprogresijom, geometrijska sredina se izračunava logaritamskom transformacijom premasljedećem obrascu:

Primjer 2.14 Na bazi sljedećih podataka izračunati ponderisanu geometrijskusredinu:

xi ¦i logxi ¦i logxi

6 2 0,77815 1,5563010 5 1,00000 5,0000014 6 1,14613 6,8767819 4 1,27875 5,1150022 3 1,34242 4,02726S 20 - 22,57534

Page 44: Statistika - Djuro Mikulic

U poslovnoj praksi geometrijska sredina (G) se najčešće koristi za izračunavanjestope razvoja, stope rasta i drugih pokazatelja dinamike proizvodnje i prometa.

2.4.3. Pozicione vrijednosti

Pozicione srednje vrijednosti se određuju na osnovu položaja - pozicije kojuzauzimaju u seriji, za razliku od izračunatih srednjih vrijednosti koje se ponašaju kao tipičnipokazatelji.

I pozicione i izračunate srednje vrijednosti imaju svoje mjesto, a koju srednjuvrijednost odabrati kao najpodesniju karakteristiku rasporeda frekvencija, konačno zavisi odcilja istraživanja. U grupu pozicionih srednjih vrijednosti ubrajamo modus i medijanu.

2.4.3.1 Modus (Mo)

Modus kao najčešća vrijednost u seriji je jedna od važnih karakteristika za posmatranistatistički skup, a predstavlja modalitet obilježja koji dominira u nizu, odnosno modalitet sanajvećom frekvencijom ili najvećom vjerovatnoćom. Ako je data statistička serija sagrupisanim podacima modus se jednostavno očitava kao modalitet sa najvećom frekvencijomi za takve serije kažemo da su unimodalne. Ako postoje dva ili više modaliteta sa jednakimnajvećim frekvencijama, serije su bimodalne, odnosno multimodalne. Kod intervalnihnumeričkih serija grupisanih podataka neprekidnih vrijednosti obilježja modus se pojavljujeimplicitno u modalnom intervalu koji je dominantan i izračunava se po formuli:

; gdje je: - donja granica modalnog intervala - veličina modalnog intervala

- frekvencija prethodnog intervala - predmodalni

- frekvencija modalnog intervala - modalni

- frekvencija narednog intervala – postmodalni

Primjer 2.15 Odrediti modus na bazi podataka sljedećeg rasporeda vrijednostiobilježja :

Ci ¦i

2 - 8 48 - 14 6

14 - 20 1320 - 26 21

Page 45: Statistika - Djuro Mikulic

26 - 32 1532 - 38 3

Prema modalni interval je 20-26.

Konstatujemo da su intervali međusobno jednaki i primjenjujemo direktno formulu zaizračunavanje modusa, pa imamo:

= 20+6 = 23,6,

što znači da je 23,6 najdominantnija (najuticajnija) vrijednost u posmatranoj seriji.

2.4.3.2 Medijana (Me)

Pretpostavimo da se vrijednosti obilježja xi, i=1,2,...N slučajno promjenljive Xgomilaju oko neke unaprijed očekivane vrijednosti, tada možemo reći da je medijana (Me)vrijednost središnjeg člana prethodno uređenog niza. Medijana dijeli sumu frekvencija tj.statistički skup na dva jednaka dijela, tako da jedna polovina obuhvaćenih slučajeva imamanju, a druga veću vrijednost u odnosu na medijanu. Medijana serije negrupisanih podatakaodređuje se traženjem položaja središnjeg člana serije po veličini sređenih podataka.Naprimjer imamo niz 1,6,8,10,11,14,18. Medijana je vrijednost središnjeg (četvrtog)člana;Me=10. Ako niz po veličini sređenih podataka ima paran broj članova, medijana seodređuje kao poluzbir dva središnja člana. Npr. za niz 1,3,5,7,9,10; Me=6. Ako treba odreditimedijanu intervalne serije grupisanih podataka, tada se najprije utvrđuje medijalni intervalkao najmanji član kumulante frekvencija u kojem se sadrži polovina brojne vrijednosti serije,što je saglasno i njenoj definiciji. Znači, medijana se dobija interpolacijom između granicaintervala u kom se nalazi.

; gdje je:

- donja granica medijanskog intervala - gornja granica medijanskog intervala - zbirna frekvencija medijanskog intervala - zbirna frekvencija prethodnog intervala

Page 46: Statistika - Djuro Mikulic

Primjer 2.16 Izračunati medijanu iz sljedeće serije grupisanih podataka:

Xi ¦i Kumulanta(rastuća)

5 3 36 7 107 11 218 12 339 15 48

10 13 6111 10 7112 4 75å 75 -

; što predstavlja njenu poziciju.

Budući da je određena pozicija medijane (38) kao element sredine brojne vrijednosti serije,jasno je da pripada petom modalitetu, odakle zaključujemo:Me = 9

Primjer 2.17 Neka je obilježje X raspoređeno prema sljedećim podacima:

Xi ¦i Kumulanta(rastuća)

2 - 8 4 48 - 14 6 10

14 - 20 13 2320 - 26 21 4426 - 32 15 5932 - 38 3 62å 62 -

Odrediti i protumačiti medijanu na osnovu prikazane intervalne serije distribucije frekvencija:

Najprije određujemo medijanski interval:

; što znači da središnji član leži između 31. i 32. elementa, pavidimo da je vrijednost medijane u 4. razredu.

,

što znači da 50% vrijednosti obilježja se nalazi ispod 22,3, a 50% iznad ove vrijednosti.

Page 47: Statistika - Djuro Mikulic

2.5 Mjere varijabiliteta (disperzije)

Ukoliko svaka od pojedinih vrijednosti obilježja manje odstupa od srednje vrijednosti,utoliko srednja vrijednost, koja za dati skup predstavlja opštu mjeru centralne tendencije,postaje reprezentativna. Za adekvatnu statističku interpretaciju nije dovoljno samo izračunatisrednje vrijednosti, već i odgovarajuće pokazatelje pojedinačne varijabilnosti kao mjerepodobnosti njihovih iskaza.

Pošto srednja vrijednost ističe samo koncentraciju statističkog skupa oko nekevrijednosti obilježja, potrebno je izračunati i odstupanja pojedinih vrijednosti obilježja odsrednje vrijednosti tj. potrebno je izmjeriti varijabilitet obilježja u cjelini. Bez pokazateljavarijacije vršilo bi se netačno uopštavanje karakteristika statističkih skupova koji imajuslučajno jednaku srednju vrijednost.

U statističkoj analizi koriste se apsolutne mjere varijabiliteta u koje spadaju intervalvarijacije, srednje apsolutno odstupanje, varijansa i standardna devijacija i relativnemjere varijabiliteta u koje se ubrajaju koeficijent varijacije, normalizovano odstupanje itd.

2.5.1 Apsolutne mjere varijabiliteta

2.5.1.1 Interval varijacije

Interval varijacije (Iv) ili amplituda kolebanja vrijednosti obilježja iskazuje se kaorazlika između najveće i najmanje označene vrijednosti obilježja: Iv=xmax-xmin. Intervalvarijacije ima smisla samo za konačne razmake disperzije serije, jer na njega isključivo utičukrajnje vrijednosti, tako da se ne može uzeti kao dovoljno informativna mjera varijacije.Direktan je rezultat razlike ekstremnih vrijednosti koje su najčešće opredijeljene slučajnimokolnostima, tako da u sebi nosi mjeru pouzdanosti samo ukoliko mu je gustina veća, a kojumožemo izračunati na sljedeći način:

; gdje je:Gi- gustina intervala varijacije,

- brojna vrijednost serije, - interval varijacije,

Ukoliko je interval varijacije ( ) manji, uz , to je gustina intervala ( )veća, a time i interval ( ) postaje reprezentativnija mjera. Da bi se eliminisao uticaj izraženoekstremnih i individualnih vrijednosti na interval varijacije, izračunava se kao dopunskamjera interkvartilna razlika (razlika između trećeg i prvog kvartila), gdje prvi kvartilpredstavlja medijanu za prvu polovinu serije, a treći kvartil je medijana druge polovine serije.

Page 48: Statistika - Djuro Mikulic

Grafički prikaz intervala varijacije:

interkvartilna razlika

gdje je: - interkvartilna razlika

- treći kvartil- prvi kvartil

2.5.1.2. Srednje apsolutno odstupanje

Potpuniju informaciju o varijabilitetu posmatrane serije daju pokazatelji čije seizračunavanje zasniva na odstupanju srednje vrijednosti (aritmetičke sredine) odindividualnih vrijednosti obilježja. Algebarski zbir odstupanja originalnih vrijednosti odaritmetičke sredine, po svojstvu aritmetičke sredine, jednak je nuli. Zato se algebarskaodstupanja zamjenjuju apsolutnim odstupanjima čiji prosjek predstavlja mjeru varijabilitetapoznatu kao srednje apsolutno odstupanje.

Znači, srednje apsolutno odstupanje je aritmetička sredina apsolutnih odstupanjapojedinačnih vrijednosti obilježja ( ) od aritmetičke sredine datog niza , tako da iz definicijeslijedi:

za seriju negrupisanih podataka:

za seriju distribucije frekvencija (grupisanih podataka):

za intervalnu seriju distribucije frekvencija: ; gdje je: - sredina intervala

2.5.1.3 Varijansa ( )

Varijansa predstavlja prosječno kvadratno odstupanje pojedinačnih vrijednostiobilježja od aritmetičke sredine i uvijek je pozitivna veličina tj. .

Za statističke serije negrupisanih podataka varijansa se izračunava na osnovu izraza:

Page 49: Statistika - Djuro Mikulic

Transformacijom ovog izraza dolazimo do podesnijeg radnog obrasca zaizračunavanje varijanse:

Ovako sređen obrazac varijanse za serije negrupisanih podataka omogućava da sedirektno izračunava iz podataka bez traženja odstojanja ( ).

Za statističke serije grupisanih podataka polazni obrazac za izračunavanje varijanse,koji se daljnjom transformacijom racionališe u tzv. radni obrazac je:

Posmatrajmo član i razložimo ga na sljedeći način:

Page 50: Statistika - Djuro Mikulic

pri čemu predstavljaju relativne frekvencije (vjerovatnoće) koje označavamo sa takoda je:

Konačno imamo:

, što omogućava izračunavanje varijanse kroz vjerovatnoću

2.5.1.4 Standardna devijacija ( )

Da bi izmjerili varijabilitet određenog obilježja potrebno je mjeriti odstupanjeindividualnih vrijednosti obilježja statističkog skupa od date srednje vrijednosti. Pošto su ovaodstupanja dvosmjerna, ne može im se izračunati prosjek jer im je zbir jednak nuli. Zato sevarijacija mjeri prosjekom kvadrata odstupanja pojedinačnih vrijednosti od srednje

vrijednosti. Ovako izračunat podatak, koji smo nazvali varijansa ( ), je primitivan oblikpokazatelja varijacije. Znači, varijansa je predimenzionisan pokazatelj varijacije jerpredstavlja kvadrat pravog pokazatelja varijacije koji se zove standardna devijacija ( ).Matematički posmatrano, standardna devijacija je linearni oblik varijanse, odnosno kvadratnikorijen iz varijanse, tako da se izračunava na sljedeći način:

Standardna devijacija za serije negrupisanih podataka (proste serije):

Standardna devijacija za serije grupisanih podataka (serije distribucije frekvencija):

Primjer 2.18 Odabran je uzorak od 645 stambenih jedinica i posmatran prema brojunastanjenih lica, na osnovu čega je sređivanjem i grupisanjem formirana sljedeća serijadistribucije frekvencija.

Br.li.(X)

Br. st.(f)

1 85 85 - 2,32 5,38 457,3 1 852 150 300 - 1,32 1,74 261,0 4 6003 140 420 - 0,32 0,10 14,0 9 12604 130 520 0,7 0,46 59,8 16 20805 65 325 1,7 2,82 183,3 25 16256 35 210 2,7 7,18 251,3 36 1260

Page 51: Statistika - Djuro Mikulic

7 40 280 3,7 13,54 541,6 49 1960Ukupno 645 2140 - - 1768,3 - 8870

Odrediti aritmetičku sredinu i mjere disperzije:

Aritmetička sredina:

Interval varijacije:

Iv= x max – x min = 7 – 1 = 6

Varijansa:

Standardna devijacija:

Koeficijent varijacije:

U ovom primjeru disperzija je velika. Aritmetička sredina nije dovoljno reprezentativna jer jerelativno visok varijabilitet.

2.5.2 Relativne mjere varijabiliteta

2.5.2.1 Koeficijent varijacije

Koeficijent varijacije je odnos standardne devijacije i aritmetičke sredine, a može seizračunati prema sljedećoj formuli:

Kao relativna mjera stepena varijabiliteta slučajne promjenljive, koeficijent varijacije(Kv) se koristi za poređenje varijabiliteta podataka serija čije mjerne jedinice nisu iste.

Page 52: Statistika - Djuro Mikulic

2.5.2.2 Normalizovano (standardno) odstupanje

Normalizovano (standardizovano) odstupanje (zi) predstavlja odstupanje bilo kojevrijednosti od , izraženo u jedinicama standardne devijacije, a može se izraziti nasljedeći način:

Normalizovano odstupanje omogućava da se odredi procenat i broj frekvencijaobuhvaćenih u intervalu – odstojanju od modaliteta x1 do modaliteta x2,

odnosno .

Primjer 2.19

Uporediti produktivnost rada radnika A i radnika B koji rade u različitim grupama,ako su poznati sljedeći podaci:

I grupa II grupa

Prosječna produktivnost grupe mA = 52 mB=75Prosječan varijabilitet grupe (stand. devijacija) σA=5 σB=7Produktivnost rada XA=47 XB=60

Relativna udaljenost radnika A i B od prosjeka svojih grupa je:

= ; = ;Radnik A je relativno bliži prosječnoj produktivnosti rada svoje grupe u odnosu na radnika B.

2.5.2.3 Mjere oblika rasporeda

Pored srednjih vrijednosti i mjera disperzije postoje i pokazatelji rasporeda u kojeubrajamo mjere asimetrije i zaobljenosti empirijskih rasporeda u odnosu na normalni. Ako suvrijednosti statističkog obilježja X: x1,x2,...xn ravnomjerno i ekvivalentno raspoređene lijevo idesno oko neke uočene vrijednosti, takvu distribuciju nazivamo simetričnom. Ako jegomilanje vrijednosti obilježja sa lijeve i desne strane od uočene srednje vrijednostineravnomjerno raspoređeno, onda se radi o asimetričnoj distribuciji. Prema tome,razlikujemo lijevu i desnu asimetriju kao varijante mjere oblika rasporeda.

Kada su maksimalne vrijednosti frekvencija ravnomjerno i ekvidistantno raspoređenena obe strane serije, a minimalne frekvencije u centru serije, tada imamo karakterističnu U-distribuciju. Potreban ali ne i dovoljan uslov simetričnosti izražava se sljedećim odnosom:

Page 53: Statistika - Djuro Mikulic

U statistici se za određena mjerenja koriste odstupanja vrijednosti obilježjaod skupa za određen stepen, što predstavlja centralne momente rasporeda ( ). Takonpr. nulti momenat ( ) jednak je jedinici, prvi momenat ( ) jednak je nuli, drugi

momenat ( ) je varijansa, treći momenat ( )je mjera asimetrije, a četvrti

momenat ( ) je mjera spljoštenosti. Na bazi navedenih statističkih momenata određujemo:

- relativna mjera asimetrije

- relativna mjera spljoštenosti

Ako je a3 = 0, distribucija je simetrična. Za -0.5 < a3 < 0.5, kažemo da je empirijskadistribucija umjereno asimetrična. Za a4 = 3 empirijska distribucija je normalno spljoštena;vrijednosti veće od 3 prisutne su kod izduženijih, a vrijednosti manje od 3 kod spljoštenijihdistribucija u odnosu na normalnu.

Primjer 2.20 Izračunati mjere oblika rasporeda plodova jabuka prema masi.

Aritmetička sredina i varijansa, odnosno standardna devijacija ovog rasporeda, poznati su izranijih primjera, tj:

U radnoj tabeli data su neophodna izračunavanja:Potrebni centralni momenti, trećeg i četvrtog reda su:

70 – 7575 – 8080 – 8585 – 90

72,577,582,587,5

251017

-15-10-50

-6700-5000-12500

1012505000062500

Page 54: Statistika - Djuro Mikulic

90 – 9595 – 100100 - 105

92,597,5102,5

943

51015

1125400010125

562540000151875

Ukupno - 50 - 1125 355000

Koeficijenti asimetrije i spljoštenosti

Posmatrani raspored je vrlo slabo desno asimetričan, jer je

koeficijent

Da se radi o desnoj asimetriji, iako slabo izraženoj, vidi se iz odnosa aritmetičkesredine, modusa i medijane ovog rasporeda:

Prema koeficijentu spljoštenosti, , raspored je skoro mezokurtičan(srednje spljošten).

Page 55: Statistika - Djuro Mikulic

3. TEORIJSKE RASPODJELE SLUČAJNIH PROMJENLJIVIH

Pod pojmom slučajne promjenljive podrazumijeva se veličina koja u zavisnosti odishoda nekog slučajnog eksperimenta uzima vrijednosti iz skupa realnih brojeva.[1]

Slučajne promjenljive se označavaju velikim slovima A, B, C,…X, Y, Z,… anjihove vrijednosti malim slovima a, b, c, … x, y, z,…. Često se slovima dodaju i indeksi pase dobijaju oznake kao npr. X1, X2,… za slučajeve promjenljive, odnosno x1, x2,… za njihovevrijednosti.

Slučajne promjenljive mogu biti diskretne i neprekidne. Diskretne su one slučajnepromjenljive koje mogu uzeti konačno ili prebrojivo mnogo “izolovanih” vrijednosti. Zarazliku od njih, neprekidne slučajne promjenljive mogu uzeti bilo koju vrijednost iz nekogkonačnog ili beskonačnog intervala realnih brojeva.

3.1 Raspodjela diskretne slučajne promjenljive

S obzirom da diskretna slučajna promjenljiva uzima vrijednosti na slučajan način, zanjenu potpunu karakterizaciju nije dovoljno znati samo te vrijednosti, već i vjerovatnoće sakojima se one mogu realizovati. Funkcionalna veza između vrijednosti slučajne promjenljivei vjerovatnoća njihove realizacije predstavlja zakon raspodjele slučajne promjenljive.

Pretpostavimo da diskretna slučajna promjenljiva X uzima vrijednosti x1,x2,…,xn savjerovatnoćama p1,p2,…pn,tj.

.

.

.

pri čemu je

Zakon raspodjele slučajne promjenljive X može se zadati pomoću tabele raspodjele

X x1 x2 … xn

P p1 p2 … pn

Page 56: Statistika - Djuro Mikulic

Ovaj zakon raspodjele može se predstaviti i grafički pomoću tzv. poligona raspodjelekao na sljedećoj slici:

Poligon raspodjele

.

Ponekad je zakon raspodjele maguće zadati pomoću analitičkog izraza

Ako je broj vrijednosti slučajne promjenljive beskonačan (prebrojiv) pretpostavlja se da

brojni red konvergira ka jedinici.

Primjer 3.1 Neka u eksperimentu sa bacanjem kocke za igranje, slučajnapromjenljiva X predstavlja broj okaca na gornjoj strani kocke. Moguće vrijednosti oveslučajne promjenljive su x1=1, x2=2, x3=3, x4=4, x5=5, x6=6. Pošto su sve ove vrijednostijednako vjerovatne, zakon raspodjele slučajne promjenljive X je:

X 1 2 3 4 5 6P 1/6 1/6 1/6 1/6 1/6 1/6

odnosno

Primjer 3.2 Neka u eksperimentu sa bacanjem tri novčića slučajna promjenljiva Xpredstavlja broj okrenutih grbova. Ako sa P označimo pismo a sa G grb, mogući ishodieksperimenta su:PPP, PPG, PGP, GPP, PGG, GPG, GGP, GGG. Za nula grbova povoljan jejedan ishod (PPP), za jedan grb povoljna su tri ishoda (ppg, pgp, gpp) i td. Pošto je ukupnoosam mogućih ishoda onda je raspodjela slučajne promjenljive X:

X 0 1 2 3P 1/8 3/8 3/8 1/8

Page 57: Statistika - Djuro Mikulic

3.1.1 Numerički pokazatelji diskretne slučajne promjenljive

Iako zakon raspodjele u potpunosti određuje slučajnu promjenljivu, ponekad upraktičnim zadacima nije neophodno znati zakon raspodjele, već je dovoljno poznavati nekeod numeričkih pokazatelja slučajne promjenljive. Među najznačajnije od njih spadajumatematičko očekivanje, modus, medijana, varijansa, standardna devijacija i momenti. Sviovi pokazatelji mogu se interpretirati kao i kod empirijskih raspodjela.

Matematičko očekivanje diskretne slučajne promjenljive X u oznaci M(X) je sumasvih proizvoda njenih vrijednosti i odgovarajućih vjerovatnoća, tj.:

kada slučajna promjenljiva ima konačan broj vrijednosti, i

kada slučajna promjenljiva ima prebrojivo mnogo vrijednosti.

Količnik centralnog momenta trećeg reda i trećeg stepena standardne devijacijepredstavlja mjeru asimetrije;

a količnik centralnog momenta četvrtog reda i četvrtog stepena standardne devijacije mjeruspljoštenosti:

, što je detaljnije objašnjeno u prvom poglavlju.

3.1.2 Binomna raspodjela

Pretpostavimo da slučajna promjenljiva X predstavlja broj realizacija nekog slučajnogdogađaja u jednom eksperimentu. Ako je p vjerovatnoća realizacije tog događaja, a q=1-psuprotna vjerovatnoća onda slučajna promjenljiva X ima zakon raspodjele nula-jedan:6

Matematičko očekivanje i varijansa slučajne promjenljive X lako se izračunavajupomoću prethodno objašnjenih formula:

Page 58: Statistika - Djuro Mikulic

Pretpostavimo, dalje, da slučajna promjenljiva X predstavlja broj realizacija nekogslučajnog događaja u n-nezavisnih eksperimenata. Ako je p-vjerovatnoća realizacije togslučaja događaja u svakom pojedinačnom eksperimentu, a q=1-p suprotna vjerovatnoća izteorije vjerovatnoće je poznato da je:

Lako se može vidjeti da je ovim izrazom zadan jedan zakon raspodjele. Naime, naosnovu binomnog obrasca je:

a ovo je jednako jedinici, jer je p+q=1.

Prethodni izraz definiše tzv. binomni zakon raspodjele. Činjenica da slučajnapromjenljiva X ima binomnu raspodjelu sa parametrima n i p obično se označava saX:B(n,p).

Pošto slučajnu promjenljivu X možemo smatrati zbirom n nezavisnih slučajnihpromjenljivih Xi sa zakonom raspodjele nula-jedan, onda je na osnovu formula sa prethodnihstranica:

i

i

zbog p+q=1:

Page 59: Statistika - Djuro Mikulic

tj.

Slično, rješavanjem druge nejednačine dobija se da je:

Prema tome, modus Mo se može odrediti iz uslova

Iz ove dvostruke nejednakosti vide se da binomna slučajna promjenljiva može biti iliunimodalna ili bimodalna, zavisno od toga da li je p(n+1) razlomljen ili cijeli broj.

Pošto binomni zakon raspodjele zavisi od dva parametra n i p, njihove različitekombinacije određuju i različite binomne zakone. Iz prethodnog izraza vidi se da je p=qraspodjela simetrična, dok je za raspodjela nesimetrična u desnu ili levu stranu

zavisno od toga da li je q>p ili q<p. Kad mjera teži nuli, odnosno raspodjela teži

ka simetričnoj, a teži ka tri, odnosno raspodjela teži mezokurtičnoj. To se vidi iz poligonaraspodjele na sljedećoj slici:

Poligon binomnog zakona raspodjele za razne vrijednosti p (a) i zarazne vrijednosti n (b)

Primjer 3.3 Odrediti pokazatelje raspodjele broja kišnih dana u mjesecu junu, ako jevjerovatnoća kišnog dana p=0,2.

Očigledno je da je n=30 i p=0,2. Dalje je:

y

Page 60: Statistika - Djuro Mikulic

Primjer 3.4 U pakovanju od 50 proizvoda vjerovatnoća neispravnih proizvoda jep=0,15. Odrediti očekivani i najvjerovatniji broj neispravnih proizvoda. Odreditivjerovatnoću da broj neispravnih proizvoda bude manji od 3.

Ovdje je n=50 i p=0,15, pa je:

3.1.3 Poasonova raspodjela

Pretpostavimo da se kod binomne raspodjele parametri n i p mijenjaju u nizueksperimenata, ali tako da je i da n teži beskonačnosti. Ukoliko jevjerovatnoća p veoma mala (p≤ 0,05) i kada je n ≥ 20, tada umjesto binomnog modelamožemo koristiti Poasonov model.

Za dovoljno veliko n je . S obzirom da je np=const. to je za veliko nvrijednost parametra p mala, pa se događaj, čija se realizacija u nizu eksperimenata posmatra,naziva rijetkim događajem. Dobijeni zakon raspodjele realizacije retkih događaja nazivase Poasonov zakon.

Dakle, slučajna promjenljiva X ima Poasonovu raspodjelu ako je:

Ova činjenica skraćeno se označava sa .Dakle, kod Poasonove raspodjele aritmetička sredina i varijansa su:

Page 61: Statistika - Djuro Mikulic

, odnosno:

Poasonova slučajna promjenljiva može biti unimodalna i bimodalna, zavisno od togada li je razlomljen ili cijeli broj. Iz prethodnog izraza za Poasonovu raspodjelu se vidi da jeraspodjela nesimetrična u desnu stranu i to utoliko više ukoliko je manje,kad raspodjela teži ka simetričnoj. To se vidi iz poligona raspodjele na sljedećoj slici:

Poligon Poasonove raspodjele

3.1.4 Hipergeometrijska raspodjela

Pretpostavimo da se iz skupa N elemenata od kojih m ima neko svojstvo, na slučajannačin bira nelemenata. Neka slučajna veličina X predstavlja broj elemenata, od n izabranih,koji imaju posmatrano svojstvo. Lako se može vidjeti da je:

Prethodnim izrazom definisan je jedan zakon raspodjele diskretne slučajnepromjenljive, koji se naziva hipergeometrijski zakon raspodjele. Kao što se vidi, ovaj zakonraspodjele zavisi od tri parametra:N, m, i n.

Page 62: Statistika - Djuro Mikulic

Modus hipergeometrijske raspodjele se dobija iz

uslova Može se pokazati da je

što znači da je hipergeometrijska raspodjela ili unimodalna ili bimodalna, zavisno od toga dali je (m+1)(n+1)/(N+2) razlomljen ili cijeli broj.

Hipergeometrijska raspodjela ima veliku primjenu u statističkoj kontroli kvaliteta. Utom smislu ona se može interpretirati kao raspodjela škarta u uzorku koji je uzet izproizvodne serije za potrebe kontrole.

Ako se, polazeći od definicije hipergeometrijske raspodjele, sa p označi vjerovatnoćaposmatranog događaja, tj. p=m/N, a sa q vjerovatnoća suprotnog događaja q=1-p, ona je naosnovu prethodnih izraza:

i

Vidi se da za konačno n, kad se N neograničeno povećava, matematičko očekivanje ivarijansa hipergeomatrijske raspodjele teže odgovarajućim pokazateljima binomneraspodjele.

U praktičnim zadacima smatra se da se hipergeometrijska raspodjela dobroaproksimira binomnom kada je Primjer 3.5 Iz serije od 100 kutija voćnog soka na slučajan način izabrano je 10 zakontrolu ispravnosti proizvoda. Prema usvojenom standardu serija će biti prihvaćena akomeđu izabranim ne bude više od jedne neispravne kutije. Izračunati vjerovatnoću da serijabude prihvaćena ako u njoj ima jneispravnih kutija.

U ovom primjeru N=100, n=10 i m=k. Tražena vjerovatnoća izračunata na osnovuhipergeometrijske raspodjele je:

Ako se koristi binomna raspodjela sa parametrima n=10 i p=n/N=5/100=0,5, onda je

Page 63: Statistika - Djuro Mikulic

3.2 Raspodjela neprekidne slučajne promjenljive

Neprekidna slučajna promjenljiva uzima proizvoljne vrijednosti iz nekog intervala(a,b), a sve vrijednosti iz tog intervala je nemoguće taksativno navesti. Osim toga, kao što ćebiti kasnije pokazano, vjerovatnoća svake pojedinačne vrijednosti jednaka je nuli. Stoga se zakarakterizaciju neprekidne slučajne promjenljive X ne koriste vjerovatnoće P(X=x), većvjerovatnoće P(X<x) pomoću kojih se zadaje funkcija raspodjele.

3.2.1 Funkcija i gustina raspodjele

Funkcija raspodjele neprekidne slučajne promjenljive XF(x)=P(X<x)

ima sljedeća svojstva:

1. i

Ovo svojstvo slijedi iz činjenice da je nemoguć slučajan događaj,a potpuno izvjestan događaj.

2. za x1<x2

Zaista, iz x1<x2 slijedi da je

odnosno

tj.

3. F(x) je neprekidna9

Grafik funkcije neprekidne slučajne promjenljive prikazan je na sljedećoj slici.Funkcija raspodjele neprekidne slučajne promjenljive

Page 64: Statistika - Djuro Mikulic

Vrijednost x0 za koju je gde je neka unaprijed zadana vjerovatnoća,naziva se kvantil raspodjele definisane funkcijom F(x).

Na osnovu navedenih svojstava funkcije raspodjele lako je pokazati da jevjerovatnoća da neprekidna slučajna promjenljiva X uzme vrijednost x jednaka nuli, tj.

P(X=x)=0

Neprekidna promjenljiva X se može zadati na još jedan način, pomoću tzv. gustineraspodjele.

Gustina raspodjele f(x) slučajne promjenljive X predstavlja prvi izvod funkcijeraspodjele, tj:

Drugim riječima, funkcija raspodjele je primitivna funkcija za gustinu raspodjele.

Na osnovu poznate Njutn-Lajbnicove formule slijedi da je

što, geometrijski, predstavlja mjerni broj površine ispod grafika funkcije gustine u intervalu(x1,x2):

Zamjenom u prethodnom izrazu i dobija se da je

odnosno

Gustina raspodjele

Page 65: Statistika - Djuro Mikulic

a odavde

jer je

3.2.2 Numerički pokazatelji neprekidne slučajne promjenljive

Numerički pokazatelji neprekidne slučajne promjenljive X definišu se analogno kao ikod diskretne slučajne promjenljive, s tim što vjerovatnoće pi zamjenjuju vjerovatnoće f(x)dxa sumu, integral.

Tako je matematičko očekivanje jednako:

a varijansa:

odnosno:

Za matematičko očekivanje i varijansu neprekidne slučajne promjenljive važe osobinekao kod diskretne slučajne promjenljive.

Uopšte, početni i centralni moment k-tog reda definišu se kao:

i

Page 66: Statistika - Djuro Mikulic

Modus neprekidne slučajne promjenljive je ona njena vrijednost u kojoj postižemaksimum gustine raspodjele.

Ostali pokazatelji definišu se na isti način kao i kod diskretne slučajne promjenljive.

3.2.3. Normalna raspodjela

Neprekidna slučajna promjenljiva X ima normalnu raspodjelu ako je njena gustinaraspodjele zadana funkcijom:

Ova činjenica se obično označava sa .

Prethodnim analitičkim izrazom definisana je familija krivih koje zavise od dvaparametra i . Za fiksirane vrijednosti ovih parametara grafik je predstavljen nasljedeći način:

Gustina raspodjele normirane slučajne veličine

Grafik gustine normalne raspodjele naziva se normalna kriva. Promjenomparametara grafik se translira duž x-ose. Za veće vrijednosti parametra maksimum jemanji a grafik širi u odnosu na pravu , a za manje vrijednosti tog parametra maksimumje veći, a grafik bliži pravoj .

Parametri i predstavljaju matematičko očekivanje i varijansu normalnoraspoređene slučajne promjenljive.

Pokazatelji asimetrije i spljoštenosti su:

Page 67: Statistika - Djuro Mikulic

Sa prethodnog grafika normalne krive vidi se da su modus i medijana jednakimatematičkom očekivanju .

Za proizvoljnu slučajnu promjenljivu X sa matematičkim očekivanjem ivarijansom slučajna promjenljiva:

se naziva normirana (normalizovana, standardizovana) slučajna promjenljiva.

Na osnovu svojstava matematičkog očekivanja i varijanse jasno je da je za normiranuslučajnu promjenljivu matematičko očekivanje jednako nuli i varijansa jednaka jedinici.

Ako slučajna promjenljiva X ima normalnu raspodjelu onda i odgovarajućanormalizovana slučajna promjenljiva Z ima normalnu raspodjelu, tj. Z:N(0,1), sa gustinom

Funkcija raspodjele normalne slučajne promjenljive sa parametrima i je:

a za normiranu slučajnu promjenljivu je:

Pomoću tablica vrijednosti funkcije, za t=1;2;3 mogu se odrediti tzv. sigma pravila:prvo -pravilo se dobija za t=1:

drugo -pravilo za t=2:

treće -pravilo se dobija za t=3:

Normalna raspodjela ima veliku primjenu u statističkoj analizi. Ova tvrdnja proističeiz tzv. centralne granične teoreme koja se u grubim crtama može formulisati na sljedećinačin: Zbir velikog broja nezavisnih slučajnih promjenljivih od kojih svaka ima mali udio uzbiru ima približno normalnu raspodjelu.10

U poljoprivrednim istraživanjima pojava je često slična uslovima centralne graničneteoreme. Veliki broj složenijih bioloških obilježja predstavlja kumulaciju prostijih svojstavana ćelijskom nivou. Pri mjerenju različitih kvantitativnih veličina greška mjerenja je

Page 68: Statistika - Djuro Mikulic

kumulanta pojedinačnih grešaka izazvanih mnogim faktorima kao što su temperature,vlažnost, nesavršenost mjernih instrumenata, subjektivizam lica koja mjere itd.

U pojedinim slučajevima, usljed predominantnog uticaja jednog ili više faktora nazbirnu slučajnu promjenljivu, dolazi do značajnog odstupanja od normalnosti. Tada, često,nekom od transformacija podataka npr. korijenom, logaritamskom transformacijom i sl,možemo dobiti približno normalnu raspodjelu.

Primjer 3.6 Normalno raspoređena slučajna promjenljiva X ima matematičko

očekivanje i varijansu Odrediti vjerovatnoće P(X<6),P(7<X<8), P(9<X<15) i P(X>16).

Tražene vjerovatnoće su:

Pored normalne raspodjele veliku primjenu u statistici imaju tri teorijske raspodjele

koje su izvedene iz normalne raspodjele. To su , t i F raspodjela. S obzirom da se naosnovu ove tri raspodjele formiraju kriterijumi za testiranje statističkih hipoteza, često ihnazivaju i kriterijumske raspodjele. Zbog složenosti izraza kojima se zadaju njihove gustine,ovdje se nećemo upuštati u izvođenje numeričkih pokazatelja, što, u krajnjoj liniji, nije bitnoza njihovu praktičnu primjenu o kojoj će dalje biti riječi.

Page 69: Statistika - Djuro Mikulic

3.2.4 - raspodjela

Neka su X1, X2, …, Xn uzajamno nazavisne, normirane normalno raspoređeneslučajne promjenljive. Suma njihovih kvadrata:

ima tzv. (hi – kvadrat) raspodjelu sa n stepeni slobode. Činjenica da slučajna

promjenljiva x ima -raspodjelu sa n-stepeni slobode označava se sa .Pod pojmom broja stepeni slobode podrazumijeva se broj linearno nezavisnih

promjenljivih u nekom skupu promjenljivih. Tako npr. ako za n promjenljivihX1,X2,…,Xn postoji jedna linearna veza, onda se jedna od njih može izraziti preko ostalih n-1.U tom slučaju broj stepeni slobode bi bio n-1. Broj stepeni slobode se označava sa d.f. štopredstavlja prva slova engleskih riječi degree of freedom (=stepen slobode).

Može se pokazati da se gustine -raspodjele zadaju funkcijom:

gde je gama funkcija:

Sa povećanjem broja stepeni slobode -raspodjela teži normalnoj raspodjeli. Obično

se za n>30 smatra da je -raspodjela veoma slična normalnoj i da se, u praktičnimzadacima, može zamijeniti normalnom raspodjelom.

Grafik gustine -raspodjele za različite brojeve stepeni slobode prikazan je nasljedeći način:

Gustina raspodjele Kvantil raspodjele

Page 70: Statistika - Djuro Mikulic

3.2.5 Studentova raspodjela

Neka je X normirana, normalno raspoređena slučajna promjenljiva, a Y/n je nezavisna

slučajna promjenljiva koja ima -raspodjelu. Tada slučajna promjenljiva:

ima Studentovu ili t-raspodjelu11 sa n stepeni slobode. Činjenica da slučajna promjenljiva Xima t-raspodjelu sa n stepeni slobode obično se označava sa X:Tn.

Može se pokazati da se gustina ove raspodjele zadaje funkcijom:

Sa povećanjem broja stepeni slobode i ova raspodjela teži normalnoj i smatra se da seu praktičnim zadacima, za n>30, može zamijeniti normalnom raspodjelom.

Grafik gustine t-raspodjele za različite brojeve stepeni slobode prikazan je nasljedećoj slici:

Gustina Studentove t-raspodjele

3.2.6 Fisher – Snedecor-ova F-raspodjela

Neka su X i Y nezavisne slučajne promjenljive koje imaju -raspodjelu sa n1 in2 stepeni slobode. Tada slučajna promjenljiva

Page 71: Statistika - Djuro Mikulic

ima F-raspodjelu (raspodjelu Fisher-Snedecor-a) sa n1 i n2 stepeni slobode. Činjenica daslučajna promjenljiva X ima F-raspodjelu sa n1 i n2 stepeni slobode obično se označava

sa .Može se pokazati da se gustina raspodjele zadaje funkcijom:

Iz definicije se vidi da ako slučajna promjenljiva ima Studentovu t-raspodjelu sa nstepeni slobode, njen kvadrat ima F-raspodjelu sa 1 i n stepeni slobode.

Grafik gustine F-raspodjele za različite parove brojeva stepeni

slobode prikazan je na slici ispod.

Numerički pokazatelji ove raspodjele su:

Koeficijent asimetrije i spljoštenosti se izvodi iz formule za centralne momente:

a zbog glomaznosti njihovih analitičkih izraza ovdje ih nećemo navoditi.

Za određivanje kvantila, tj. vrijednosti za koju je

kao na sljedećoj slici, koristi se tabela F-raspodjele u kojoj su izračunati kvantili za različitevrijednosti n1, n2 i . Tako, naprimjer, ako se kod F-raspodjele sa n1=5 i n2=10 stepeni

slobode traži odgovarajući kvantil, takav da je , iz tablica se može

pročitati da je

Page 72: Statistika - Djuro Mikulic

Grafik gustine F-raspodjele Kvantil F-raspodjele

Page 73: Statistika - Djuro Mikulic

4. METOD UZORKA

4.1 Izbor i načini formiranja uzorka

Statistički podaci čine niz posmatranja u ispitivanju slučajne promjenljive X(u daljemtekstu obilježja) koja karakteriše skup homogenih objekata. Najtačnije zaključivanje oobilježju X dobija se vršeći najveći mogući broj posmatranja.

Osnovni skup čine sva moguća, ponekad zamišljena (hipotetička), posmatranjaobilježja X. Umjesto termina funkcija raspodjele obilježja X često se koristi raspodjelaosnovnog skupa.

U praktičnim situacijama najčešće je nemoguće vršiti ispitivanje cijelog osnovnogskupa, tj. izvršiti sva moguća posmatranja obilježja X. Jedan od razloga za to je što osnovniskup može imati beskonačno mnogo elemenata. U konačnim slučajevima ispitivanje cijelogosnovnog skupa iziskuje velike materijalne troškove a često može dovesti i do uništenjaobjekata ispitivanja. Zbog toga se za ispitivanje zakonitosti obilježja x vrši posmatranje nadijelu osnovnog skupa koji se naziva uzorački skup ili jednostavno uzorak. Broj objekata uosnovnom skupu i u uzorku naziva se obim. Broj jedinica u osnovnom skupu označava se saN, a broj jedinica u uzorku sa n. Kao što je već rečeno, osnovni skup može imati kakokonačan, tako i beskonačan obim.

Rezultati n posmatranja obilježja X obično se označavaju sa x1.x2,…,xn. Metod, kojise sastoji u tome da se na osnovu svojstava uzorka x1,x2,…xn izvedu zaključci o numeričkimkarakteristikama i zakonu raspodjele obilježja X, naziva se metod uzorka.

Svaki uzorak ne omogućava dobijanje stvarne slike o ispitivanom obilježju. Da bizaključci o obilježju X bili objektivni, neophodno je da uzorak bude reprezentativan, tj. dadovoljno dobro predstavlja ispitivano obilježje X. Postoje specijalno razrađene metodedobijanja reprezentativnih uzoraka. Suština tih metoda je da svaki element osnovnog skupaima istu šansu (vjerovatnoću) da bude uključen u uzorak. Drugim riječima, izbor elemenata izosnovnog skupa treba da bude slučajan. Međutim, u praktičnim situacijama nije uvijekmoguće dobiti potpuno slučajan uzorak. Zbog prirode ispitivane pojave ili raspoloživihmaterijalnih sredstava, nekad se eksperiment planira tako da postoji neko ograničenjepotpuno slučajnog izbora. U skladu sa tim sve procedure izbora se mogu podijeliti u dvijeosnovne grupe:

a) prost slučajan izbor;

b) kontrolisani izbor.

Kod prostog slučajnog izbora elementi uzorka se biraju iz cijelog osnovnog skupa saistom vjerovatnoćom. Postoje dva tipa ovakvog izbora:

a) prost slučajan izbor sa vraćanjem;

b) prost slučajan izbor bez vraćanja.

Prost slučajan izbor sa vraćanjem je, kao što sam naziv govori, postupak formiranjauzorka kod koga se slučajno izvučen element iz osnovnog skupa vraća u osnovni skup i ima

Page 74: Statistika - Djuro Mikulic

istu šansu da bude ponovo izvučen kao i svi ostali elementi. Kod potpuno slučajnog izborabez vraćanja jednom izvučen element više se ne vraća u osnovni skup. Jasno je da se razlikaizmeđu ova dva postupka anulira u slučaju beskonačnih ili jako velikih osnovnih skupova.

Sama procedura formiranja uzorka realizuje se na sljedeći način. Da bi se formiraouzorak svi objekti osnovnog skupa se numerišu brojevima od 1 do N, a zatim se vršiizvlačenje n brojeva kao kod igre loto. Svaki broj ima istu šansu da bude izvučen. Ukoliko seizvučen broj vraća, tj. može biti ponovo izvučen, formira se uzorak sa vraćanjem, uprotivnom uzorak je bez vraćanja.

Zbog velikog obima osnovnog skupa nije uvijek moguće formirati uzorak izvlačenjembrojeva. U takvim slučajevima koriste se tablice slučajnih cifara ili generator slučajnihbrojeva na računaru.

Tablice slučajnih cifara koriste se tako što se kolone grupišu da dobijeni brojevi uvrstama budu reda veličine broja N. Zatim se redom izdvaja n brojeva manjih od N. Ako jeuzorak bez vraćanja, izdvojeni brojevi moraju biti međusobno različiti.

Primjer 4.1 Iz osnovnog skupa obima N=121, datog u tabeli - broj traktora popoljoprivrednim organizacijama:

treba izdvojiti slučajan uzorak bez vraćanja obima n=20.

Tablicu slučajnih cifara treba podijeliti na grupe od po tri kolone i izdvojiti prvih 20različitih brojeva manjih od 121.

Brojevi sastavljeni pomoću tablice slučajnih cifara su: 22, 82, 45, 53, 106, 3, 75, 108,121, 20, 98, 28, 63, 21, 46, 8, 14, 35, 105 i 97. Tim brojevima odgovaraju sljedeće vrijednostiobilježja X u uzorku: x1=12, x2=17, x3=8, x4=7, x5=15, x6=10, x7=13, x8=20, x9=22, x10=9,x11=8, x12=18, x13=11, x14=13, x15=15, x16=21, x17=20, x18=10, x19=13 i x20=12.

Page 75: Statistika - Djuro Mikulic

Pomoću generatora slučajnih brojeva može se na računaru slimulirati izvlačenje njedinica iz osnovnog skupa obima N. Faktički, to je simulacija realizacije diskretne slučajne

promjenljive sa ravnomjernom raspodjelom, tj

Iz osnovnog skupa obima N može se formirati različitihslužajnih uzoraka bez vraćanja obima n, i w2=Nn različitih slučajnih uzoraka sa vraćanjemobima n.

U drugu grupu procedura izbora, tz. kontrolisanog izbora, spadaju procedure kodkojih postoji ograničenje slučajnosti. One ne pružaju jednaku šansu svim elementimaosnovnog skupa da budu uključeni u uzorak. Postoji veći broj procedura kontrolisanogizbora. Među najčešće korišćene spadaju:

a) mehanički izbor;b) višeetapni izbor;

c) stratifikovani izbor.

Mehanički izbor je oblik kontrolisanog izbora kod koga se osnovni skup od Nelemenata dijeli na onoliko jednakih dijelova kolika je potrebna veličina uzorka n, a zatim seiz svakog dijela bira po jedan element u uzorak. Pri tome, ako su u svakom dijelu elementinumerisani brojevima od 1 do (N/n), na slučajan način se bira samo jedan od tih brojeva izatim se iz svakog dijela izvlači element koji mu odgovara. Tako, ako je q slučajno izabrancijeli broj između 1 i (N/n) i ako elemente osnovnog skupa označimo sa x1, x2,…..,xN, onda

uzorak sačinjavaju . Očigledno je da su izborom prvogelementa određeni i svi ostali elementi u uzorku.

Osnovni nedostatak mehaničkog izbora je što ne obezbjeđuje reprezentativnostuzorka. To je posebno uočljivo kod skupova čije se vrijednosti periodično ponavljaju saperiodom (N/n). Zbog ovog nedostatka, uprkos svojoj jednostavnosti, mehanički izbor serijetko primjenjuje.

Višeetapni izbor je oblik kontrolisanog izbora kod koga se elementi osnovnog skupabiraju po hijerarhijskom principu. Procedura izbora se odvija tako što se pomoću prostogslučajnog izbora biraju elementi najvišeg nivoa pa zatim među njima, slično, elementi prvognižeg podređenog nivoa i tako dalje, dok se ne stigne do najnižeg nivoa, sa koga se birajuelementi u uzorak. Tako, naprimjer, ako treba izabrati uzorak koji reprezentujepoljoprivredna domaćinstva jedne zemlje, na slučajan način se može izabrati izvjestan brojopština iz kojih se biraju domaćinstva koja se uključuju u uzorak. Višeetapni izbor uznačajnoj mjeri smanjuje materijalne troškove i druge napore oko formiranja uzorka. S drugestrane, statistički metodi pomoću kojih se izvode zaključci o osnovnom skupu na osnovuvišeetapnog izbora, baziraju se na koncepciji uslovne vjerovatnoće, i kao takvi složeniji su,nego npr., u slučaju prostog slučajnog izbora.

Stratifikovani izbor je procedura kod koje se prvo osnovni skup dijeli na homogenijedisjunktne podskupove, tzv. stratume, a zatim se iz svakog stratuma kao kod prostogslučajnog izbora izvlače elementi u uzorak. Na ovaj način nastaje tz. stratifikovani uzorak.

Page 76: Statistika - Djuro Mikulic

Stratifikovani uzorak se obično primjenjuje kod skupova sa velikim variranjem, kodkojih je za postizanje reprezentativnosti potrebno uključiti veliki broj elemenata u uzorak.Podjelom osnovnog skupa na stratume, kao što će kasnije biti pokazano, varijabilitet izmeđustratuma ne utiče na reprezentativnosti uzorka.

Pored pomenutih postoje i druge procedure izbora. U daljem tekstu biće više riječi oprostom slučajnom izboru i o stratifikovanom izboru.

U praksi se obično primjenjuje tzv. kombinovani izbor. Naime, osnovni skup serazbija na podskupove jednakog obima, zatim se prostim slučajnim izborom bira izvjestanbroj podskupova, iz kojih se, zatim, prostim slučajnim izborom izvlače pojedini objekti.

4.2 Raspodjela parametara uzorka

Parametri raspodjele obilježja X (parametri raspodjele osnovnog skupa) nisuslučajne veličine. Njihova tražena vrijednost mogla bi se dobiti kada bi se ispitale svejedinice osnovnog skupa ili kada bi bila poznata funkcija raspodjele osnovnog skupa.Parametri uzorka izračunavaju se poslije formiranja uzorka. S obzirom da su vrijednosti kojeobrazuju slučajan uzorak realizacije slučajne veličine (obilježja) X, to su i na osnovu njihizračunati parametri realizacije neke slučajne promjenljive. Po pravilu, raspodjela parametarauzorka određena je raspodjelom osnovnog skupa.

Teorija raspodjele parametara uzoraka dijeli se na teoriju tačnih raspodjela i teorijuasimptotskih raspodjela. Tačna raspodjela određuje se za sve realne vrijednosti obima uzorkan. Raspodjela kojoj teži tačna raspodjela kad naziva se asimptotska raspodjela.

Izračunavanje tačnih raspodjela zavisi od načina formiranja uzoraka, i najčešće jedosta složeno. Elementi uzorka x1, x2,…..,xn posmatraju se kao realizacije slučajnih veličinaX1, X2,…,Xn sa istom raspodjelom. Ukoliko je uzorak slučajan sa vraćanjem, slučajneveličine X1, X2,…,Xn su nezavisne, jer

je Ova činjenica dosta pojednostavljujeizračunavanje traženih raspodjela parametara uzorka. Ako se formira slučajan uzorak bezvraćanja, slučajne veličine X1, X2,…,Xn su zavisne. Zaista, ako je obim osnovnog skupa N,

vjerovatnoća događaja X1=x1 je , a vjerovatnoća događaja X2=x2, pri

uslovu da je element x1 već odabran, jednaka je Zavisnostslučajnih veličina X1, X2,…,Xn dosta komplikuje izračunavanje zakona raspodjele.

Page 77: Statistika - Djuro Mikulic

4.2.1 Tačne raspodjele parametara uzorka iz osnovnog skupa sa normalnom raspodjelom

S obzirom da se elementi uzorka x1, x2,…..,xn posmatraju kao realizacije nezavisnihslučajnih veličina X1, X2,…,Xn sa istom raspodjelom, aritmetička sredina

uzroka je jedna realizaciji slučajne veličine

.Ako je uzorak izvučen iz osnovnog skupa sa normalnom raspodjelom sa

parametrima i , to će i nezavisne slučajne promjenljive X1, X2,…,Xn imati normalnu

raspodjelu sa parametrima i , tj. Može se zaključiti, na osnovuosobina normalne raspodjele, da uzoračka sredina, kao zbir n nezavisnih normalnoraspoređenih veličina, ima normalnu raspodjelu sa parametrima:

tj.

Primjer 4.2 Utvrđeno je da produktivnost rada radnika, pri proizvodnji nekogproizvoda, ima normalnu raspodjelu. Naći vjerovatnoću da će prosječna produktivnost 16slučajno odabranih radnika odstupati od srednje produktivnosti manje od 3pr./čov.čas., ako sezna da je varijansa produktivnosti rada jednaka

Srednja produktivnost 16 slučajno izabranih radnika posmatra se kao slučajnapromjenljiva . Ako se pretpostavi da su slučajne promjenljive X1, X2,…,X16 nezavisne, pri

čemu je u konkretnom slučaju i n=16. Treba naći vjerovatnoću događaja :

gde je slučajna veličina sa normiranom normalnom raspodjelom, tj. Z:N(0;1).

Page 78: Statistika - Djuro Mikulic

Primjer 4.3 Ako se zna da prinos pšenice ima normalnu raspodjelu saparametrima =52(00)kg/ha i =49, odrediti vjerovatnoću da će prosječan prinos pšenicena 100ha, slučajno izabranih, biti veći od 53(00)kg/ha.

Treba odrediti vjerovatnoću događaja da je :

gde je Z:N(0;1).

4.3 Određivanje obima uzorka

Neophodan obim uzorka za ocjenu nepoznatog parametra osnovnog skupa obima Nodređuje se u zavisnosti od izabranog načina formiranja uzorka, zadane tačnosti (gornje

granice apsolutne greške) i željene pouzdanosti .

Biće razmotreno određivanje obima slučajnog uzorka sa vraćanjem i slučajnog uzorkabez vraćanja, za ocjenu srednje vrijednosti osnovnog skupa i proporcije p, na osnovuuzoračkih posmatranja.

4.3.1 Obim uzorka za ocjenu srednje vrijednosti osnovnog skupa

Posmatraju se dva slučaja u zavisnosti od toga da li je poznata varijansa osnovnogskupa (obilježja X) ili ne.

I VARIJANSA OSNOVNOG SKUPA JE POZNATA

Na osnovu izvedenih formula za tačnost ocjene u paragrafu neophodan obimslučajnog uzorka je:

kada je uzorak sa vraćanjem;

kada je uzorak bez vraćanja.

Primjer 4.4 Odrediti koliko treba uzeti flaša ulja iz dnevne proizvodnje, da bi seocijenila prosječna količina ulja u flaši, sa pouzdanošću 0,975. Poznato je da je varijansa

količine . Tačnost dobijene ocjene treba da bude: a)0,1l; b)0,2l.

Page 79: Statistika - Djuro Mikulic

a)

Uzorak treba da sadrži 100 flaša.

b)

Uzorak treba da sadrži 26 flaša.

Primjer 4.5 Odrediti površinu na kojoj treba mjeriti prinos kukuruza, radi ocjeneprosječnog prinosa kukuruza na 10000ha. Ocjenu dati sa pouzdanošću a) 95% i b) 99%, akose zna da je varijansa 35. Dužina intervala treba da bude 4(00kg)/ha.S obzirom da je:

biće:

a)

Dakle, uzorak treba da sadrži 34ha.

b)

Dakle, uzorak treba da sadrzi 58ha.

II VARIJANSA OSNOVNOG SKUPA NIJE POZNATA

U ovom slučaju prvo se preliminarnim uzrokom obima no ocjenjuje nepoznatavarijansa osnovnog skupa. Za ocjenu nepoznate varijanse koristi se korigovana uzoračka

varijansa, tj. .

Page 80: Statistika - Djuro Mikulic

Na osnovu izvedene formule za tačnost ocjene dobija se, za

dato , i , potreban obim:

a) slučajnog uzorka sa vraćanjem

b) slučajnog uzorka bez vraćanja

.

Ukoliko je izračunati obim uzorka n manji od obima preliminarnog uzorka

no , ocjena nepoznatog parametra može se dobiti na osnovu već formiranog uzorka. Uprotivnom, treba izvršiti dodatna posmatranja, kako bi se uzorak proširio do traženog obima.

Za ocjenu nepoznate varijanse koristi se izračunata vrijednost iz preliminarnog uzorka.

Primjer 4.6 Na osnovu preliminarnog uzorka no=10 dobijeni su podaci o prinosunove sorte pšenice (primjer 5.16). Naći minimalni broj hektara na kojima treba zasijati novusortu pšenice da bi se sa pouzdanošću 0,95 moglo tvrditi da granična greška tačkaste ocjeneneće biti veća od: a) 1(ookg)/ha i b) 0,5(00kg)/ha.

Biće:

( vidi primjer 5.16)

pa je:

a) za

b) za

Page 81: Statistika - Djuro Mikulic

4.3.2 Obim uzorka za ocjenu proporcije svojstva A u osnovnom skupu

Da bi se odredio obim uzorka n za ocenu proporcije, mora postojati neka informacija

o proporciji svojstva A u osnovnom skupu. Naime, varijansa ocjene proporcije zavisi odparametra p, pa on mora biti poznat iz ranijih ispitivanja, ili ocjenjen na osnovu

preliminarnog uzorka. Obim preliminarnog uzorka nomora biti dovoljno velik , dabi se mogla koristiti aproksimacija binomne raspodjele normalnom.

Neka je p proporcija svojstva A, tada je minimalan obim uzorka za:a) uzorak sa vraćanjem

jer je i .

b) uzorak bez vraćanja

jer je i .

Ukoliko proporcija p nije poznata iz ranijih ispitivanja, umjesto p stoji ocjena

proporcije .

S obzirom, da funkcija p(1-p) dostiže maksimum za p=1/2, ako ne posjedujemoapriornu informaciju o proporciji osnovnog skupa, stavlja se da je p(1-p)=1/4. U tom slučajuprethodne formule postaju

i

Primjer 4.7 Sa pouzdanošću 0,99 treba ocijeniti procenat poljoprivrednihdomaćinstava koja imaju kombajn. U probnom uzorku proporcija takvih domaćinstava bila je10%. Koliko najmanje domaćinstava treba anketirati ako dužina intervala povjerenja treba dabude najviše: a) 0,04 i b) 0,06? Koliko bi domaćinstava trebalo anketirati kad ne bi postojalanikakva informacija o nepoznatoj proprciji?

Ovdje je: , pa je:

I za

Page 82: Statistika - Djuro Mikulic

a)

.

b)

.

II U slučaju kad ne postoji nikakva informacija o nepoznatoj proporciji postavlja seda je p(1-p)=1/4, pa jea)

dom.b)

dom.

Primjer 4.8 Iz dnevne produkcije od 10000 proizvoda treba izabrati uzorak za ocjenubroja neispravnih proizvoda sa vjerovatnoćom 0,99. Odrediti neophodan obim uzorka, ako jeu ranijim ispitivanjima procenat neispravnih proizvoda bio 2% i ako se traži da uzoračkaproporcija ne odstupa od stvarne više od 2%. Posmatrati slučajeve uzorka sa vraćanjem i bezvraćanja.

Na osnovu postavljenih uslova je:

I uzorak sa vraćanjem

proiz.II uzorak bez vraćanja

Primjer 4.9 Za ocjenu procenta uništene pšenice od grada polje od 2000hapodijeljeno je na 1000 jednakih dijelova. Koliko dijelova treba posmatrati, da bi se sa

Page 83: Statistika - Djuro Mikulic

vjerovatnoćom 0,95 moglo tvrditi, da dobijeni interval dužine 0,10 pokriva stvarnu vrijednost

procenta uništene pšenice, ako je na osnovu preliminarnog uzorka dobijeno ?

S obzirom na postavljene zahtjeve:

neophodan obim uzorka je:

Page 84: Statistika - Djuro Mikulic

5. STATISTIČKA OCJENA NEPOZNATIH PARAMETARA OSNOVNOG SKUPA

5.1 Pojam i vrste statističke ocjene

Statistička ocjena, pored statističke provjere hipoteza, predstavlja osnovni vidstatističkog zaključivanja. Statističko ocjenjivanje počinje apriornom informacijom oraspodjeli osnovnog skupa (na osnovu histograma ili poligona frekvencija vizuelno seodređuje vid raspodjele), a zatim se izvode zaključci o vrijednostima nepoznatih parametararaspodjele na osnovu slučajnog uzroka iz posmatranog osnovnog skupa. Statistička provjerahipoteza vrši se istim redoslijedom, ali uključuje dopunsku pretpostavku koju treba provjeriti.

Postupak statističkog ocjenjivanja sastoji se u sljedećem: Iz osnovnog skupa se

funkcijom raspodjele , gde je nepoznati parametar, izvlači slučajan uzorakobima n i na osnovu dobijenih posmatranja x1, x2,…, xn izračunava se približna vrijednostnepoznatog parametra . Približna vrijednost za nepoznati parametar , koja se određuje naosnovu uzorka, naziva se vrijednost ocjene nepoznatog parametra . Vrijednost (realizacija)

ocjene nepoznatog parametra obično se označava sa .Za dobijanje ocjene nepoznatog parametra V posmatra se funkcija

oblika , koja se naziva uzoračka funkcija ili statistika (predikator,ocjenjivač). Zadatak ocjene nepoznatog parametra svodi se na nalaženje takvih uzoračkih

funkcija , koje se mogu koristiti kao “kvalitetna” (“dobra”) ocjenanepoznatog parametra .

Kod svakog statističkog zaključivanja, pa i statističkog ocjenjivanja, postoji rizik dase napravi greška, tj. rizik da se izvede pogrešan zaključak. Ovaj rizik je posljedicazaključivanja na osnovu podataka uzorka, koji se sastoje iz konačnog, često veoma malog,broja jedinica. Taj rizik se smanjuje sa porastom broja jedinica u uzorku, ali uvijek postoji.To je razlog što rješenje, doneseno na osnovu statističkog zaključivanja, prate izračunatevjerovatnoće da će prihvaćeno rješenje biti pravilno. Naravno, to ne znači da se pravilnateorija statističkog zaključivanja formira samo na osnovu izračunavanja vjerovatnoća. Zaformiranje pravilne teorije statističkog zaključivanja, pored rezultata teorije vjerovatnoće,neophodno je koristiti niz dopunskih pravila zasnovanih na “zdravom” razumu.

Pretpostavimo, naprimjer, da treba ocijeniti srednju vrijednost posmatranog obilježjaX koje ima normalnu raspodjelu i da je za to iz osnovnog skupa uzet uzorak obima n.Postavlja se pitanje koju veličinu, izračunatu na osnovu podataka uzorka, treba uzeti zanajpribližniju ocjenu srednje vrijednosti obilježja X, tj. srednja vrijednost osnovnog skupa .Moguće je izabrati nekoliko uzoračkih veličina, koje su, za dovoljno veliki obim uzorka,bliske srednjoj vrijednosti osnovnog skupa. To su aritmetička sredina rezultata posmatranja,ili njihova medijana, ili aritmetička sredina između najmanje i najveće posmatrane vrijednostii sl. Svaka od navedenih veličina, sa gledišta teorije vjerovatnoće, može se posmatrati kao“jednako dobro” približavanje ocjenjivanom parametru. Naime, pri višekratnom ponavljanjuocjenjivanja, na osnovu slučajnog uzorka iz tog osnovnog skupa, “u srednjem” bi se dobio

Page 85: Statistika - Djuro Mikulic

pravilan rezultat sa gledišta teorije vjerovatnoće. “Pravilnost” rezultata ovdje se sastoji utome, da pri pojedinačnim uzorcima greška ocjenjivanja srednje vrijednosti osnovnog skupamože biti značajna, ali će pri velikom broju uzoraka srednja vrijednost greške biti jednakanuli.

Ovakav pristup “pravilnosti” rezultata nije dovoljan. U praksi se obično uzima jedanuzorak i na osnovu njega se ocjenjuje nepoznati parametar osnovnog skupa. Zbog toga jevažno formirati takva pravila ocjenjivanja da se na osnovu jednog uzorka dobije što jemoguće tačnija ocjena traženog parametra. Da bi se to postiglo neophodna su neka dopunskapravila o “kvalitetu” ocjene, koja ne proističu neposredno iz izračunavanja vjerovatnoćegreške. Ona su, uglavnom, obuhvaćena osnovnim svojstvom koje treba da ima ”dobra”ocjena, a zavise i od konkretne, praktične situacije.

S obzirom da je uzorak slučajan i konačan, sve uzoračke funkcije posmatranja biće

slučajne veličine. Dakle, ocjena nepoznatog parametra biće slučajna veličina, a njenavrijednost, izračunata na osnovu podataka slučajnog uzorka obima n, biće jedna realizacija te

slučajne veličine iz skupa mogućih realizacija, tj.

Ocjene parametara dijele se na tačkaste i intervalne. Tačkasta ocjena

parametra određena je jednim brojem . Intervalna ocjena

parametra određena sa dva broja i , koji čine granice intervala koji pokrivaocjenjivani parametar .

5.2. Osnovna svojstva tačkaste ocjene

Osnovna svojstva koja treba da ima “dobra” ocjena nepoznatog

parametra su: nepristrasnost, stabilnost (konzistentnost) i efikasnost.

Ocjena nepoznatog parametra naziva se nepristrasnom (bezsistematske greške) ako je njeno matematičko očekivanje jednako ocjenjivanom parametru,tj. ako je

Nepristrasnost je minimalni zahtjev koji se traži od ocjene. Ukoliko je ocjenanepristrasna, pri višekratnom (teorijski beskonačnom) ponavljanju slučajnog uzorka, srednjagreška ocjene svih uzoraka bila bi jednaka nuli. Dakle, nepristrasna uzoračka ocjena daje “usrednjem” tačku ocjene posmatranog parametra.

Ocjena za koju nije ispunjen uslov iz prethodnog izraza naziva se pristrasnom (sadržisistematsku grešku).

Razlika između matematičkog očekivanja ocjene i vrijednosti ocjenjivanog parametranaziva se pristrasnost (bias) ocjene i označava se sa

Page 86: Statistika - Djuro Mikulic

Saglasnost ocjene znači da se sa povećanjem obima uzorka povećava vjerovatnoća dagreška ocjene ne prelazi dovoljno malu veličinu . Može se dokazati da će prethodnajednakost biti ispunjena, ako pri naograničenom povećanju obima uzorka varijansa

ocjene i pristrasnost teže nuli, tj. ako

i (5.4)

kad .

Ukoliko postoji više nepristrasnih ocjena, po pravilu, bira se ocjena sa najmanjomvarijansom.

Nepristrasna ocjena napoznatog parametra , koja ima najmanjuvarijansu, između svih mogućih nepristrasnih ocjena parametra izračunatih na osnovuuzorka istog obima, naziva se efikasnom ocjenom.

5.3 Intervalne ocjene parametara raspodjele

Metode za dobijanje tačkaste ocjene , nepoznatog parametra ,ne omogućavaju da se odredi kakva se greška čini zato što se stvarna vrijednost nepoznatog

parametra zamjenjuje njegovom ocjenom . Zbog toga je u mnogim slučajevima zgodnijekoristiti intervalnu ocenu, jer ona omogućava da se odrede tačnost i pouzdanost ocjene.Intervalne ocjene se preporučuju u slučaju malog broja posmatranja, kada je tačkasta ocjenamalo pouzdana.

Tačkasta ocjena nepoznatog parametra je “bolja” kada je

razlika mala. Pozitivan broj koji karakteriše granicu ove razlike naziva se tačnostocjene, tj.

Dakle, ako je i , onda je ocjena tačnija što je manje. Jasno je datačnost zavisi od obima uzorka.

S obzirom, da je ocjena slučajna veličina, ne može se kategorički odgovoriti na

pitanja vezana za grešku ocjene, već se može samo govoriti o vjerovatnoći .

ili

Page 87: Statistika - Djuro Mikulic

Vjerovatnoća naziva se pouzdanost ili vjerovatnoća povjerenja.

Vjerovatnoća , suprotnog događaja , naziva se rizik. U statistici je uobičajeno da

pouzdanost uzima vrijednosti 0,90; 0,95; 0,99.

Kada je dovoljno blisko jedinici je granična apsolutnagreška tačkaste ocjene nepoznatog parametra .

Interval , koji sa vjerovatnoćom pokriva nepoznatiparametar , naziva se interval povjerenja ili interval pouzdanosti2. Dakle, pri formiranju

više uzoraka obima n iz jednog osnovnog skupa u slučajeva

interval pokriva napoznati parametar , a u slučajeva ga ne pokriva.

(1-α) 100% interval pouzdanosti zanepoznati parametar

U praktičnim slučajevima velika pažnja se poklanja dužini intervala povjerenja. Što jemanja dužina intervala pouzdanosti, to je ocjena tačnija. Ako je dužina intervala povjerenjavelika, ocjena nema praktičnu primjenu. Dužina intervala jednaka je , tj. .Dužina intervala povjerenja zavisi od obima uzorka n i pouzdanosti .

Veličine n, i tijesno su povezane. Znajući dvije od njih lako se nalazi treća.

Opšta šema formiranja intervala povjerenja za nepoznati parametar sastoji se usljedećem:1. Vrši se n posmatranja obilježja X iz osnovnog skupa sa nepoznatim parametrom

raspodjele. Nekom od navedenih metoda nalazi se tačkasta

ocjena nepoznatog parametra ;

2. Na osnovu dobijene tačkaste ocjene formira se neka slučajna veličina koja je funkcijanepoznatog parametra, naprimjer , a ima poznatu gustinu raspodjele,

naprimjer ;

3. Zadaje se pouzdanost ;

4. Na osnovu poznate gustine raspodjele slučajne veličine nalaze se kvantili (granice

intervala) c1 i c2tako da za njih važi . Kvantili c1 i c2 raspodjele

Page 88: Statistika - Djuro Mikulic

slučajne veličine biraju se, po pravilu, tako da

je kao što je prikazano na sljedećoj slici:

Kvantili raspodjele slučajne promjenljive

5. Nejednakost transformiše se u jednakoverovatnu

nejednakost , tj. .

6. Za konkretan uzorak izračunava se realizacija tačkaste ocjene ,

odnosno realizacije granica slučajnog intervala , tj. .U tabeli je dat pregled nekih važnijih nepristrasnih tačkastih ocjena nepoznatih

parametara:

Nepristrasne ocjene nepoznatih parametara

OCJENA

Za mogu se koristiti ocjene nepoznatih parametara dobijene na osnovu uzorakasa vraćanjem.

Page 89: Statistika - Djuro Mikulic

5.3.1 Interval povjerenja za srednju vrijednost osnovnog skupa (poznata varijansa)

Posmatra se osnovni skup sa normalnom raspodjelom , pri čemuje poznato a nepoznato. Za ocjenu nepoznatog parametra iz osnovnog skupa izvlačise slučajan uzorak. U slučaju konačnog osnovnog skupa, uzorak će biti sa vraćanjem. Naosnovu dobijenog uzorka izračunava se uzoračka sredina kao realizacija tačkaste ocjenenepoznatog parametra , tj.

Za formiranje interval povjerenja posmatra se slučajna veličina

koja ima standardizovanu normalnu raspodjelu, tj Z:N(0;1), jer ima normalnu raspodjelu

sa srednjom vrijednošću i varijansom 3.

Za zadani nivo značajnosti moguće je naći kvantile normalne

raspodjele iz tablica normalne raspodjele, za koje je

Nejednakost, koja se nalazi u vitičastim zagradama relacije, jednostavno se

transformiše, tako da u sredini ostane nepoznati parametar , tj.

Na osnovu prethodne relacije može se zaključiti da interval

pokriva srednju vrijednost osnovnog skupa sa zadanom vjerovatnoćom da je tačnostocjene srednje vrijednosti osnovnog skupa

Page 90: Statistika - Djuro Mikulic

zbog i da je dužina intervala povjerenja zanepoznati parametar

Kvantili normirane slučajne veličine

Na osnovu dobijenih izraza za tačnost ocjene i dužinu intervala može se zaključiti

da se sa povećanjem obima uzorka, pri istoj vjerovatnoći , povećava tačnost ocjene( je obrnuto proporcionalno obimu uzorka), tj. smanjuje se dužina intervala povjerenja, i da

se sa povećanjem vjerovatnoće , pri istom obimu uzorka, tačnost smanjuje, tj.povećava se dužina intervala povjerenja.

U slučaju konačnog osnovnog skupa, ukoliko je slučajan uzorak bez vraćanja,

prethodne relacije se zbog koriguju, pa je interval povjerenja

tačnost ocjene

i dužina intervala povjerenja

Kao što je već rečeno, popravni faktor se primjenjuje ukolikoje , tj, za primjenjuju se gore izvedene formule, aza formule prije posljednje korekcije.

Page 91: Statistika - Djuro Mikulic

Ukoliko se zna obim osnovnog skupa N, može se pomoću prve od gore navedenihformula odrediti interval povjerenja za ukupnu vrijednost posmatranog obilježja X naposmatranom osnovnom skupu. Naime, ukupna vrijednost pokrivena je intervalom

odnosno

Primjer 5.1 Izmjerena je masa deset paketića putera, da bi se ocijenila prosječnamasa paketića cijele proizvodnje. Pretpostavlja se da je raspodjela mase paketića normalna,sa standardnom devijacijom gr i nepoznatom srednjom vrijednošću . Na osnovudobijenih rezultata mjerenja, mase paketića putera su u gr.: 251,5; 248,7; 250,7; 250; 250,9;249,3; 249; 251; 251,2; 249,1. Ocjenu prosječne mase paketića putera treba dati sapouzdanošću 95%. Kolika je tačnost dobijene ocjene?

Uzoračka sredina i standardna devijacija srednje vrijednosti su:

Dalje je:

pa je:

Dakle, prosječna težina paketića putera cijele proizvodnje biće u

intervalusa pouzdanošću 95%.

Tačnost dobijene ocjene je:

gr,

Page 92: Statistika - Djuro Mikulic

a dužina intervala povjerenja

gr.

Primjer 5.2 Na osnovu slučajnog uzorka obima 100 treba ocijeniti prosječnu masupilića u osnovnom skupu, ako se zna da je varijansa mase pilića 0,3. Naći, sa poudanošću0,99 (uz rizik 1%), tačnost sa kojom uzoračka sredina ocjenjuje srednju vrijednost osnovnogskupa.Na osnovu uzoračke informacije je:

pa je na osnovu prethodno pokazanog:

kg.

Dakle, tačnost ocjene je 0,142 kg, tj. uzoračka sredina odstupa do kgod sredine osnovnog skupa u 99% slučajeva.

S obzirom, da je obim uzorka relativno veliki (n=100>30) dobijeni rezultat jeprimjenljiv i u slučaju osnovnog skupa sa proizvoljnom raspodjelom.

Primjer 5.3 Iz

osnovnogskupa od

2000 ovaca izabran je uzorak obima 100 za ocjenu prosječne mase ostrižene vune. Rezultatimjerenja dati su u tabeli:

Ako se zna da je raspodjela količine ostrižene vune normalna, sa varijansom 2,ocijeniti, sa pouzdanošću 0,99, prosječnu težinu ostrižene vune u cijelom osnovnom skupu.Kolika je tačnost dobijene ocjene? Odrediti ukupnu količinu ostrižene vune. Odreditivjerovatnoću da odstupanje prosječne količine ostrižene vune u uzorku od prosječne ostriženevune u osnovnom skupu ne bude veće od 0,2 kg.

Ovdje je N=2000; n=100, n/N=100/2000=0,05>0,04. Zbog n/N=0,04 koriste seformule iz prethodnih primjera, pa je:

Page 93: Statistika - Djuro Mikulic

Dakle, prosječna količina ostrižene vune po

ovci biće u intervalu sa pouzdanošću 99%. Tačnost dobijeneocjene je:

.što znači da će uzoračka sredina, pri istim uslovima, odstupati od sredine osnovnog skupa

najviše kg/ovci u 99% slučajeva.

Ukupna količina ostrižene vune u posmatranom osnovnom skupu biće sa

pouzdanošću 99% u intervalu , tj.:

Dalje treba odrediti vjerovatnoću događaja da je . Kako

je to je na osnovu:

Iz tablica normalne raspodjele može se pročitati da je , pa je:

.

Page 94: Statistika - Djuro Mikulic

5.3.2 Interval povjerenja za srednju vrijednost osnovnog skupa (nepoznata varijansa)

Posmatra se osnovni skup sa normalnom raspodjelom i nepoznatimparametrima i . Za ocjenu nepoznatog parametra iz osnovnog skupa izvlači seslučajan uzorak obima n. U slučaju konačnog osnovnog skupa uzorak je sa vraćanjem. Naosnovu uzoračkih vrijednosti izračunava se nepristrasna tačkasta ocjena nepoznatihparametara, tj.

a nepristrasna ocjena za je pa je

;

ili

Statistika

ima Studentovu t-raspodjelu sa (n-1) stepeni slobode. Ona se koristi za određivanje intervalapovjerenja nepoznatog parametra .

Za zadani nivo značajnosti moguće je naći

kvantile iz tablica t-raspodjele, tako da

je , kao na sljedećoj slici:

Kvantili t-raspodjele

Page 95: Statistika - Djuro Mikulic

Dakle,

Nejednakost, koja se nalazi u vitičastim zagradama prethodne relacije, jednostavno setransformiše tako da u sredini ostane nepoznati parametar , tj.

Na osnovu toga može se zaključiti da interval

pokriva srednju vrijednost skupa sa zadanom pouzdanošću 4.

Tačnost ocjene srednje vrijednosti osnovnog skupa je

a dužina intervala

Dobijeni interval ima ista svojstva kao i interval povjerenja za srednju vrijednostosnovnog skupa pri poznatoj varijansi.

U slučaju konačnog osnovnog skupa, kada se uzorak formira bez vraćanja,

nepristrasna ocjena varijanse osnovnog skupa je ,pa je nepristrasna ocjena varijanse uzoračke sredine

Page 96: Statistika - Djuro Mikulic

tj. njena realizacija je:

Dakle, kada je n/N>0,04 u prethodnim formulama za ocjenu varijanse uzoračkesredine koristi se već navedena formula.

Ukupna vrijednost obilježja X u osnovnom skupu obima N određuje se kao i uprethodnom paragrafu. Granice intervala množe se sa N.

Ukoliko je obim uzorka dovoljno veliki , za formiranje intervalapovjerenja nepoznate srednje vrijednosti , mogu se koristiti kvantili normalne raspodjele.

Primjer 5.4 Na osnovu devet nezavisnih mjerenja nekog objekta izračunata je

prosječna masa gr i “korigovana” uzoračka varijansa .Treba ocijeniti stvarnu vrijednost izmjerene veličine sa pouzdanošću 0,95.

Ovdje je gr, n=9 pa je broj st. sl. i

gr

Zbog ,pa je interval pouzdanosti

Dakle, stvarna težina je sa 95% pouzdanosti pokrivena intervalom

. Tačnost dobijene ocjene je:

gr.

Primjer 5.5 Nova sorta pšenice zasijana je na 10 opitnih parcela. Poslije žetvedobijeni su sljedeći prinosi:

Treba ocijeniti prosječan prinos nove sorte pšenice sa pouzdanošću od 99% (uz rizik1%). Kolika je tačnost ocjene?

Page 97: Statistika - Djuro Mikulic

Na osnovu uzoračke informacije je:

pa je interval pouzdanosti:

Sa pouzdanošću 99% može se tvrditi da će prosječan prinos nove sorte pšenice bitipokriven

intervalom .

Tačnost dobijene ocjene je:

.

Primjer 5.6 Za ocjenu srednjeg prinosa kukuruza vršeno je uzoračko posmatranje na16 ha, od ukupno zasijanih 300 ha. Dobijeni rezultati su dati u sljedećoj tabeli:

Ocijeniti prosječan prinos kukuruza po ha za cijelo polje sa pouzdanošću 0,99. Kolikaje tačnost ocjene? Kolika je procjena ukupnog prinosa?

Ovdje je N=300 i n=16 pa je n/N=16/300=0,053>0,04. S obzirom da je n/N>0,04varijansa uzoračke sredine, biće:

Zbog , pa je intervalpouzdanosti:

Page 98: Statistika - Djuro Mikulic

Dakle, sa 99% pouzdanosti može se reći da će prosječan prinos na cijelom polju bitiod 62,02 00kg/ha do 64,23 00kg/ha.

Tačnost dobijene ocjene je

Procjena ukupnog prinosa sa pouzdanošću 99% je:

Primjer 5.7 Iz osnovnog skupa od 10000 individualnih gazdinstava izabran je uzorakod 200 gazdinstava za ocjenu prosječne površine imanja. Podaci u uzorku su sljedeći:

Ocijeniti prosječnu površinu imanja sa rizikom od 5%.

Na osnovu dobijenih vrijednosti iz uzorka izačunava se:

Kako je n/N=20/10000=0,02<0,04 i n>30 za ocjenu prosječne površine koristiće sekvantili normalne raspodjele iz uslova:

Nepristrasna ocjena za nepoznatu varijansu je:

pa je interval povjerenja za nepoznatu srednju vrijednost

Page 99: Statistika - Djuro Mikulic

Sa pouzdanošću 95% (uz rizik 5%) može se tvrditi da će prosječna površina imanja

biti pokrivena intervalom .

5.3.3 Interval povjerenja za proporciju osnovnog skupa

Pretpostavlja se da treba odrediti nepoznatu proporciju nekog svojstva A u osnovnomskupu. Da bi se odredio interval povjerenja, iz osnovnog skupa formira se uzorak obima n.

Nepristrasna ocjena nepoznate proporcije p je uzoračka proporcija , gdje je Mslučajna veličina koja karakteriše broj jedinica u uzorku koje imaju svojstvo A, a n je obim

uzorka (njena realizacija, je ). Za dovoljno veliko n uzoračka proporcijaima približno normalnu raspodjelu sa srednjom vrijednošću p i varijansom

, tj. 7.

Za formiranje intervala povjerenja koristi se statistika

koja ima N(0;1) kada je n dovoljno veliko i kada p nije blisko 0 ili 1.

Zbog jednostavnijeg izračunavanja, kod dovoljno velikih uzoraka, za varijansuocjene obično se uzima realizacija njene nepristrasne ocjene, tj.:

Na osnovu prethodno navedenih statistika dobija se da je približni interval povjerenja,

pouzdanosti , za nepoznatu proporciju p svojstva A u osnovnom skupu8, za konkretneuzoračke vrijednosti:

Tačnost ocjene je

a dužina intervala

U slučaju konačnog osnovnog skupa i uzorka bez vraćanja koristi se sljedeća ocjena

za :

Page 100: Statistika - Djuro Mikulic

kada je n/N>0,04.

Ukupan broj jedinica u osnovnom skupu koje imaju svojstvo A biće, za konkretne

uzoračke vrijednosti, sa pouzdanošću pokriven intervalom:

Ukoliko nisu ispunjeni uslovi aproksimacije binomne raspodjele normalnom, koristise veza između slučajnih veličina sa binomnom raspodjelom i F-raspodjelom.

Korišćenjem ove činjenice određuju se formule za donju i gornju granicu intervala

povjerenja nepoznatog parametra p. Sa pouzdanošću nepoznati parametar p biće

pokriven intervalom gdje je

a kvantil F-raspodjele sa i st. sl. takav da

je i

gde je kvantil F-raspodjele sa i stepeni slobode takav da

je , a m broj jedinica u uzorku sa svojstvom A.

Primjer 5.8 Za ispitivanje hermetičnosti staklenih tegli za pakovanje zimnice, od5000 komada izabrano je 250 komada, na slučajan način bez vraćanja. U uzoračkom skupu28 tegli ima nedostatak hermetičnosti. Odrediti sa pouzdanošću 99% interval povjerenja zaprocenat neispravnih tegli u osnovnom skupu.

Na osnovu uzoračke informacije N=5000; n=250; m=28; realizacija nepristrasneocjene nepoznatog parametra p je:

S obzirom da je n/N=250/5000=0,05>0,04 za ocenu varijanse proporcije koristi serelacija:

Page 101: Statistika - Djuro Mikulic

Kako je to je interval pouzdanosti zanepoznatu proporciju u osnovnom skupu:

Primjer 5.9 Pri provjeri nekog lijeka na 17 životinja, kod 3 životinje javili su seprateći efekti.Odrediti 05% interval povjerenja za procenat životinja koje imaju pratećeefekte.

Vrijednost tačkaste ocjene za nepoznatu proporciju je:

Zbog malog obima uzorka, za ocjenu intervala povjerenja koriste se izrazi saprethodne stranice (formule za donju i gornju granicu intervala povjerenja). Za gornjugranicu

je: , i

pa je:

Za donju granicu

je , i pa je

Dakle, 95% interval povjerenja je 3,8% - 43,5%. Ovaj interval je dosta širok, što jeuzrokovano malim obimom uzorka.

Primjer 5.10 Iz beskonačnog osnovnog skupa izabran je stratifikovan uzorak zaocjenu proporcije nekog događaja. Podaci iz uzorka prikazani su u sljedećoj tabeli:

Page 102: Statistika - Djuro Mikulic

Ocjenu dati sa 95% tačnosti.Biće:

i

tj.

Interval pouzdanosti je

Page 103: Statistika - Djuro Mikulic

Primjer 5.11 Iz osnovnog skupa od 5000 gazdinstava izabran je proporcionalanstratifikovan uzorak od 300 gazdinstava za ocjenu proporcije gazdinstava sa posjedom većimod 8ha. Podaci iz uzorka, sa izračunatim proporcijama i varijansama po stratumima, dati su usljedećoj tabeli:

Ocjenu dati sa rizikom 1%.

S obzirom da nije ispunjen uslov mora se uzeti u obzirkorektivni faktor pri izračunavanju približne vrijednosti za varijansu ocjene proporcije. Biće:

pa je

Interval povjerenja za proporciju je:

Dakle, na osnovu dobijenih podataka može se tvrditi sa 99% pouzdanosti da će

procenat gazdinstava sa posjedom većim od 8ha biti pokriven intervalom .

Page 104: Statistika - Djuro Mikulic

6. TESTIRANJE STATISTIČKIH HIPOTEZA

Statistička hipoteza je neka pretpostavka o karakteristikama osnovnog skupa koja semože statistički provjeriti. Pod statističkom provjerom (testiranjem) podrazumijeva sejednostavno pravilo odbacivanja ili neodbacivanja hipoteze na osnovu uzoračkihposmatranja. Testiranje statističke hipoteze treba da utvrdi, da li je razlika izmeđukarakteristika uzorka i odgovarajućih karakteristika osnovnog skupa nastala kao posljedicaslučajnih kolebanja, ili, pak, nekih sistematskih faktora.

Testiranje statističkih hipoteza ima veliku praktičnu primjenu. Savremena biologija,medicina, neke oblasti tehnike, ekonomije, agronomije i druge naučne oblasti, masovnokoriste testiranje statističkih hipoteza pri obradi rezultata istraživanja.

U zavisnosti od formulisane pretpostavke, statistička hipoteza može biti parametarskai neparametarska. Kod parametarske statističke hipoteze formulisana pretpostavka se odnosi

na vrijednost parametra funkcije raspodjele poznatog tipa . Kod neparametarskestatističke hipoteze formulisana pretpostavka se odnosi na tip raspodjele osnovnog skupa.

U statistici se postavljena hipoteza obično naziva nulta hipoteza i označava sesimbolom Ho. Pored nulte hipoteze Ho posmatra se jedna ili više alternativnih hipoteza, kojese obično označavaju sa H1 ili H2. Ukoliko se nulta hipoteza Ho odbacuje, njeno mjestozauzima alternativna hipoteza Ha.

U zavisnosti od broja pretpostavki koje formuliše, parametarska hipoteza može bitiprosta i složena. Parametarska hipoteza je prosta ako sadrži samo jednu pretpostavku oparametru. Ukoliko se parametarska hipoteza sastoji od konačnog ili beskonačnog brojaprostih hipoteza, ona je složena.

Tako, naprimjer, pretpostavimo da je naš parametar osnovnog skupa sa poznatim

tipom raspodjele . Uobičajeno je da se u nultoj hipotezi pretpostavlja da je nepoznati

parametar jednak nekoj konkretnoj vrijednosti, npr. . Alternativna hipoteza može bitiprosta, kada se pretpostavlja da parametar ima neku drugu, konkretnu, vrijednost,

npr. ili složena kada se pretpostavlja da uzima vrijednost iz konačnog ili beskonačnog

skupa mogućih vrijednosti, npr. ili i dr. Uobičajeni su zapisi:

S obzirom da se za statističku provjeru koriste uzorački podaci, neophodno je riješitinačin njihovog sređivanja i izbora uzoračke statistike kojoj se objašnjava raspoloživauzoračka informacija. Uzoračka statistika koja je izabrana za provjeru hipoteze naziva sestatistički kriterijum (test). Statistički kriterijum je slučajna veličina (kao funkcija uzoračkihposmatranja), izabrana tako da je poznata njena tačna ili približna funkcija raspodjele. Uzavisnosti od tipa raspodjele, statistički kriterijum se označava različitim slovima, npr: Z-normalna; T-Studentova, Fisher-Snedecor-ova F-raspodjela i td. Zbog opštosti, u ovom dijelupoglavlja se za statistički kriterijum koristi oznaka K. Provjera nulte hipoteze vrši se naosnovu uzoračke vrijednosti kriterijuma K, koja se obično označava sa k ili Kuz.

Page 105: Statistika - Djuro Mikulic

Neka je skup svih mogućih vrijednosti statistike (slučajne veličine) K. U opštem

slučaju je višedimenziona oblast. Ukoliko je kriterijum K definisan pomoću jedneslučajne veličine, što je najčešći slučaj, je realna prava ili jedan njen dio, i može segrafički precizno prikazati. Provjera statističke hipoteze vrši se razbijanjem oblasti na

dvije disjunktne oblasti W i .Pri tome, nulta hipoteza se odbacuje ako uzoračka vrijednost k kriterijuma K pripada oblasti

W ( se odbacuje), a ne odbacuje se (smatra se saglasnom saopitom) ako posmatrana uzoračka vrijednost k ne pripada oblasti W

( se ne odbacuje)1. Podskup W se naziva kritična oblast (oblastodbacivanja) hipoteze Ho, a podskup oblast neodbacivanja (oblast saglasnih rješenja).

oblast neodbacivanja(oblast saglasnih rješenja)

kritična oblast (oblastodbacivanja)

Grafički prikaz kritične oblastiFunkcija raspodjele slučajne veličine K, bez obzira da li je tačna ili približna, mijenja

se u zavisnosti od pretpostavke o karakteristikama osnovnog skupa, tj. u zavisnosti odpretpostavljene hipoteze. Ukoliko se zna funkcija raspodjele kriterijuma K, mogu se odrediti

vjerovatnoće događaja i . Vjerovatnoće ovih događajazavise od konkretne raspodjele slučajne veličine K. Kriterijum K bi trebalo izabrati tako da

vjerovatnoća događaja (** /kada je Ho tačno)** bude “vrlo mala”. Pod izrazom“vrlo mala” podrazumijeva se “sa verovatnoćom 0,01 (1%)” ili “sa verovatnoćom 0,05(5%)”. Naime, to znači da se hipoteza Ho odbacuje, kada je stvarno tačna, samo pri pojavimalovjerovatnih uzoraka. S druge strane, kriterijum K bi trebalo birati tako da vjerovatnoća

događaja (** /kada je Ho netačno)*** bude “vrlo mala”. Naime, to znači da sehipoteza Ho ne odbacuje kada u stvari nije tačna samo pri pojavi malovjerovatnih uzoraka.Dakle, pri testiranju statističkih hipoteza, u dva slučaja se može donijeti pravilno rješenje, a udva nepravilno, što je posljedica zaključivanja na osnovu uzoračkih vrijednosti (mali obimuzorka, nedostatak metodike eksperimenta i sl.). U vezi sa tim se u statistici definišu greška Ivrste i greška II vrste.

Page 106: Statistika - Djuro Mikulic

Greška I vrste je greška odbacivanja nulte hipoteze Ho. To se dešava

kada , a Ho je tačno. Vjerovatnoća ovog događaja, tj. vjerovatnoća greške Ivrste označava se sa ,

i obično se zove nivo značajnosti statističkog kriterijuma K.Greška druge vrste je greška neodbacivanja netačne nulte hipoteze Ho. To se dešava

kad a Ha je tačno. Vjerovatnoća ovog događaja se označava sa , tj.

U vezi sa greškom II vrste definiše se moć M kriterijuma K. Moć kriterijuma je

vjerovatnoća da se desi greška II vrste, tj. to je vjerovatnoća da se Ho odbacikada je netačna.

Ukoliko je moć kriterijuma veća, onda je vjerovatnoća greške II vrste manja

Moguća rješenja pri testiranju hipoteze H0S obzirom na mogućnost pogrešnog zaključivanja treba težiti ka minimizaciji štete od

grešaka oba tipa, tj. ka minimizaciji vjerovatnoće da se greške dogode. Poželjno bi bilo doćido minimuma vjerovatnoće greške prve i druge vrste istovremeno, ali to nije moguće. Naime,da bi se minimizirala greška prve vrste trebalo bi što više smanjiti kritičnu oblast W, pa time i

vjerovatnoću njene realizacije. To bi dovelo do povećanja oblasti neodbacivanja , a

time i vjerovatnoće realizacije greške II vrste.

Dakle, grešku I i II vrste nije moguće istovremeno smanjiti, ako se mijenja samopodjela oblasti . O ovome treba voditi računa pri izboru kriterijuma K za provjerustatističke hipoteze.

Jedan od načina klasifikacije statističkih kritetijuma K, za provjeru konkretne hipotezeHo u odnosu na konkretnu alternativnu hipotezu Ha, je prema njihovoj moći. Naime, trebaizabrati onaj kriterijum koji za isti obim uzorka, za dati nivo značajnosti i konkretnu

PRAVILNORJEŠENJE

NEPOZNATA ISTINAHo TAČNO

Ha NETAČNOHo NETAČNO

Ha TAČNO

NE ODBACUJE SE

Ho PRAVILNORJEŠENJE

1 - a

GREŠKAII VRSTE

b

Ha GREŠKAII VRSTE

a

PRAVILNORJEŠENJE

1 - b

Page 107: Statistika - Djuro Mikulic

alternativnu hipotezu Ha, ima veću moć (za takav kriterijum se kaže da je efikasniji. Zaformiranje statističkih kriterijuma najbolje je koristiti tačkaste ojcene sa svojstvimanepristrasnosti, stabilnosti i efikasnosti, jer tada kriterijumi imaju najveću moć. Naravno, nijeuvijek moguće izabrati kriterijum koji će biti najmoćniji za sve alternativne hipoteze.

Ponekad se uvodi funkcija gubitka koja određuje štetu koja se javlja kao rezultat bilokoje od grešaka dva tipa. Najčešće se oblast određuje tako da šteta od oba tipa grešakabude približno jednaka. Naravno, to zavisi od konkretne situacije. Tako, naprimjer, ako seispituje štetnost lijeka na ljudsko zdravlje i ako je Ho: “Lijek nije štetan”, a Ha: “Lijek ještetan”, tada je mnogo veća šteta proglasiti ga za dobar (greška II vrste). U tom slučaju trebašto više smanjiti vjerovatnoću greške II vrste.

U teoriji statističke kontrole kvaliteta greška I vrste naziva se “rizik proizvođača”(dobar proizvod se proglašava lošim), a greška II vrste “rizik kupca” (loš proizvod seproglašava dobrim) (*ovdje je Ho: ”Proizvod je dobar”; Ha: “Proizvod je loš“**).

Pri testiranju statističkih hipoteza neophodno je sprovesti proceduru koja se sastoji odsljedećih 7 koraka:

1. Formulisati nultu hipotezu Ho i alternativnu Ha;2. Zadati nivo značajnosti 2;

3. Izabrati kriterijum K;4. Odrediti zakon raspodjele kriterijuma K u slučaju kada je Ho tačno, tj. f)k/Ho) i očekivanu

vrijednost M(K)=ko;

5. Odrediti kritičnu oblast W iz uslova (6.1)3;6. Izračunati uzoračku vrijednost statistike K, tj. k (Kuz);

7. Na osnovu izračunate vrijednosti donijeti odluku o odbacivanju ili neodbacivanjupostavljene hipoteze. Naime,

a) Ako je , hipoteza Ho se odbacuje na nivou značajnosti ,

b) Ako je , tj. , hipoteza Ho se ne odbacuje na nivouznačajnosti ,

c) Ukoliko bi se desilo da je k na granici kritične oblasti morala bi se vršiti dopunskauzoračka posmatranja i tek onda donijeti odluka. U protivnom ne izvodi se bilo kakavzaključak.

Page 108: Statistika - Djuro Mikulic

6.1 Testiranje parametarskih hipoteza

Postupak testiranja parametarskih hipoteza vrši se na već opisan način.

Kod određivanja kritične oblasti treba uzeti u obzir i alternativnu hipotezu. Naime,

ako je za :

a) Alternativna hipoteza , onda je kritična oblast dvostrana kao na grafikonima nasljedećoj stranici4. Ovakva formulacija alternativne hipoteze znači da oblast odbacivanja

mora uzeti u obzir realizacije slučajne veličine K lijevo i desno od ko . Za

zadani nivo značajnosti mogu se izabrati dva broja i tako da

je ,

U ovom slučaju kriterijum K se naziva dvostrani kriterijum značajnosti.

Grafički prikaz dvostrane kritične oblasti

b) Alternativna hipoteza , onda je kritična oblast lijevostrana. Ovakva formulacijaalternativne hipoteze znači da kritična oblast uzima u obzir samo vrijednosti slučajne veličineK lijevo od ko (sl. 6.3a i sl. 6.3b). Za zadani nivo značajnosti može se odrediti

kvantil raspodjele slučajne promjenljive K, tako da je ,

U ovom slučaju kriterijum K se naziva jednostrani kriterijum značajnosti.

Page 109: Statistika - Djuro Mikulic

Grafički prikaz lijevostrane kritične oblasti

c) Alternativna

hipoteza , onda je kritična oblast desnostrana. Ovakva formulacija alternativnehipoteze znači da kritična oblast uzima u obzir samo vrijednosti slučajne promjenljive Kdesno od ko .

Za zadani nivo značajnosti može se odrediti kvantil raspodjele slučajne veličine

K tako da .Grafički prikaz desnostrane kritične oblasti

Pri testiranju parametarske hipoteze moguće je za konkretne

vrijednosti parametra u alternativnoj hipotezi izračunati moć testa kao naprethodnoj slici. Ako je alternativna hipoteza složena, onda se za različite

vrijednosti izračunava moć testa i tako dobija tzv. funkcija moći. Veza

između i predstavlja operativnu karakteristiku.

Ukoliko su i fiksirani, može se odrediti minimalan obim uzorka koji je

neophodan za testiranje statističke hipoteze protiv .Dalje će biti izloženi konkretni statistički kriterijumi značajnosti za testiranje hipoteza o parametrima normalnog zakona

raspodjele. Izloženi kriterijumi za provjeru parametarskih hipoteza mogu se smatrati približnim, ukoliko se koriste za osnovni skup sa

Page 110: Statistika - Djuro Mikulic

raspodjelom različitom od normalne. Odstupanje od normalnog zakona koriste približni kriterijumi umesto tačnih, treba se strože odnositi

prema izvedenim zaključcima. Približni kriterijumi se koriste za veći obim uzorka.

6.1.1 Testiranje hipoteze o srednjoj vrijednosti osnovnog skupa

Posmatra se osnovni skup sa normalnom raspodjelom i nepoznatomsrednjom vrijednošću . Na osnovu uzorka obima n, treba provjeriti hipotezu da je srednjavrijednost osnovnog skupa (posmatranog obilježja) jednaka nekoj hipotetičkoj

vrijednosti , tj. . Drugim riječima, treba utvrditi da li je razlika između

uzoračke sredine i pretpostavljene vrijednosti nastala kao posljedica slučajnih variranja

ili je uzorak izvučen iz osnovnog skupa sa srednjom vrijednošću različitom od .

U zavisnosti od raspoložive informacije o varijansi osnovnog skupa, moguće jeformulisati dva osnovna modela i za njih odgovarajuće kriterijume.

Model 1: Osnovni skup ima normalnu raspodjelu sa poznatom

varijansom i nepoznatom sredinom . Pretpostavlja se da je tj. . Zazadani nivo značajnosti , na osnovu uzorka obima n, treba donijeti odluku o odbacivanju ilineodbacivanju postavljene hipoteze.

Kao kriterijum za provjeru postavljene hipoteze Ho uzima se slučajna veličina

Uzoračka sredina ima normalnu raspodjelu, tj. . Ako je hipoteza

Ho tačna onda . Dakle, ako je hipoteza tačna, slučajna veličina

Z ima normiranu normalnu raspodjelu, tj. . Oblik kritične oblasti za provjerupostavljene hipoteze Ho zavisi od alternativne hipoteze Ha. Mogući su sljedeći slučajevi:

a) Ako je alternativna hipoteza tipa , kritična oblast je dvostrana.Na osnovu tablica normalne raspodjele moguće je, za zadani nivo značajnosti ,

naći kvantile normalne raspodjele i tako da

je .

Page 111: Statistika - Djuro Mikulic

Dvostrana kritična oblast za z-kriterijum

Kritična oblast za kriterijum Z

je . Ako je uzoračkavrijednost

van kritične oblasti, tj. ako je podaci su saglasni postavljenoj

hipotezi. Ako je , tj. ili , Ho seodbacuje.

b) Ako je alternativna hipoteza tipa kritična oblast za kriterijum

Z je levostrana. Za zadani nivo značajnosti , na osnovu tablica normalne

raspodjele, određuje se kvantil tako da je :Lijevostrana kritična oblast za z-kriterijum

Kritična oblast je .

Hipoteza Ho se odbacuje u korist alternativne ako je uzoračka vrijednost

kriterijuma .

c) Ako je alternativna hipoteza tipa , kritična oblast za kriterijumZ je desnostrana. Za zadani nivo značajnosti , na osnovu tablica normalne

raspodjele, određuje se kvantil iz uslova :Desnostrana kritična oblast za z-kriterijum

Page 112: Statistika - Djuro Mikulic

Kritična oblast je . Nulta hipoteza Ho se odbacuje u korist

alternativne ako je uzoražka vrijednost .

Primjer 6.1 Iz osnovnog skupa sa normalnom raspodjelom uzetje slučajan uzorak obima 25 i izračunato . Na nivou značajnosti 0,05 provjeriti

hipotezu da je srednja vrijednost osnovnog skupa 2, tj. , protiv

alternativne da je manja od 2, tj. .

Za testiranje hipoteze protiv , koristise model 1.

S obzirom na vid alternativne hipoteze kritična oblast je lijevostrana. Iz

uslova iz tablica normalne raspodjele čita

se , pa je .

Kako je:

na osnovu uzoračkih vrijednosti izračunava se realizacija kriterijuma Z:

Kako je z=-0,67>-1,65 nema osnova da se odbaci hipoteza Ho.

Model 2: Osnovni skup ima normalnu raspodjelu sa nepoznatim

parametrima i . Pretpostavlja se da je srednja vrijednost osnovnog skupa jednaka ,

tj. . Postavljenu hipotezu treba provjeriti na zadanom nivou značajnosti , naosnovu uzoračkih posmatranja obima n.

Na osnovu uzoračkih posmatranja nalaze se nepristrasne tačkaste ocjene napoznatihparametara i :

Page 113: Statistika - Djuro Mikulic

Kao kriterijum značajnosti za provjeru nulte hipoteze uzima se statistika:

Ako je hipoteza Ho tačna, ima normalnu raspodjelu , pa statistika T

ima Studentovu t-raspodjelu sa . Za zadani nivo značajnosti oblik kritičneoblasti određuje se u zavisnosti od tipa alternativne hipoteze. Mogući su sljedeći slučajevi:

a) Ako je alternativna hipoteza , kritična oblast je dvostrana. Zazadani nivo značajnosti , na osnovu tablica t raspodjele, određuju se kvantili

Studentove raspodjele i , tako da

je :Dvostrana kritična oblast za t-kriterijum

Kritična oblast za T je . Akoje uzoračka vrijednost

kriterijuma T pripada kritičnoj oblasti, Ho se odbacuje. Ako je , podaci susaglasni postavljenoj hipotezi i nema osnova za njeno odbacivanje.

b) Ako je tip alternativne hipoteze , kritična oblast kriterijuma Tje levostrana. Za zadani nivo značajnosti , na osnovu tablica t raspodjele, određuje

se kvantil Studentove raspodjele iz uslova

Kritična oblast za T je . Ako je uzoračka vrijednost t

kriterijuma T manja od , tj. , Ho se odbacuje. U protivnom nemaosnova za njeno odbacivanje.

Lijevostrana kritična oblast za T-kriterijum

Page 114: Statistika - Djuro Mikulic

c) Ako je tip alternativne hipoteze , kritična oblast jedesnostrana. Za zadani nivo značajnosti , na osnovu tablica t raspodjele, određuje se

kvantil Studentove raspodjele iz uslova .

Kritična oblast kriterijuma T je . Ako je uzoračka

vrijednost , hipoteza Ho se odbacuje. Ako je , nema osnova za odbacivanjehipoteze Ho.

Desnostrana kritična oblast za T-kriterijum

Za dovoljno veliki obim uzorka (n>30), za testiranje

hipoteze može se koristiti model1, tj. kriterijum Z. Umesto poznatevarijanse uzima se uzoračka varijansa .

Primjer 6.2 Da bi se odredila norma radnika pri izradi nekog proizvoda, posmatran je

rad 26 radnika. Dobijeni su uzoračka srednja produktivnost rada, pr./čas, iuzoračka varijansa s2=0,16. Treba provjeriti hipotezu da će pri masovnoj proizvodnji srednja

produktivnost rada biti pr./čas, pri alternativnoj hipotezi da je srednjaproduktivnost manja od 5,4 pr./čas. Nultu hipotezu testirati na nivou značajnosti .

Ovdje je:

S obzirom na tip alternativne hipoteze kritična oblast W je lijevostrana, pa je

Uzoračka vrijednost statistike T je:

Page 115: Statistika - Djuro Mikulic

S obzirom da je , hipoteza da je produktivnost rada jednaka 5,4pr./čas. odbacuje se u korist alternativne hipoteze da je produktivnost rada manja od 5,4pr./čas.

Kriterijumi zasnovani na prethodno objašnjenim statistikama, najbolji su, jerobezbjeđuju maksimalnu moć za zadani nivo značajnosti i obim uzorka n. Moć kriterijuma

se izračunava za prostu alternativnu hipotezu . Kod modela 1 za izračunavanjemoći kriterijuma Z koristi se činjenica da ima normalnu

raspodjelu kada je tačna hipoteza , pa Z

ima normalnu raspodjelu kada je tačna

hipoteza . Za dovoljno veliko n (n>30) moć kriterijuma T ( model 2) seizračunava kao kod modela 1.

6.1.2 Testiranje hipoteze o jednakosti srednjih vrijednosti dva osnovna skupa

Slučaj nezavisnih uzoraka

U mnogim istraživanjima, pri obradi statističkih podataka, često se javlja potreba“poređenja” dva osnovna skupa, tj. dva obilježja. Tako, naprimjer, često treba porediti novu istaru tehnologiju, uspješnost dva načina ishrane, dva načina obuke, dvije serije eksperimenatai sl. Većina zadataka “poređenja” svodi se na provjeru statističke hipoteze o jednakostisrednjih vrijednosti dva obilježja, tj. dva osnovna skupa, sa normalnom raspodjelom.Testiranjem ovako postavljene hipoteze provjerava se da li je razlika uzoračkih sredinaposljedica slučajnih kolebanja ili uzorci potiču iz osnovnih skupova sa različitim srednjimvrijednostima.

U zavisnosti od raspoložive informacije o parametrima osnovnog skupa mogu seformirati dva osnovna modela testiranja i za svaki od njih odgovarajući kriterijumznačajnosti.

Model 1 (poznate varijanse): Posmatraju se dva obilježja X i Y, svaki sa normalnom

raspodjelom: i . Pretpostavlja se da su i poznati,

a i nepoznati parametri posmatranih osnovnih skupova. Na osnovu dva nezavisnauzorka obima n1 i n2, izvučena iz ispitivanih skupova, treba provjeriti nultu

hipotezu , protiv alternativne , ili , ili .

Page 116: Statistika - Djuro Mikulic

Uzoračke sredine i imaju normalne

raspodjele i . Njihove realizacije i izračunavaju se naosnovu nezavisno izvučenih uzoraka iz posmatranih osnovnih skupova. S obzirom da suuzorci nezavisni, nezavisne su i srednje vrijednosti i . Slučajna veličina , kaorazlika dvije nezavisne normalno raspoređene slučajne veličine, ima normalnu raspodjelu,

tj. .

Kada je hipoteza tačna slučajna veličina, D ima normalnu raspodjelu sa

sredinom 0, jer je , tj. .

Kao kriterijum za testiranje postavljene hipoteze uzima se statistika

koja ima normalnu raspodjelu N(0;1) kada je tačna hipoteza Ho.

Ukoliko je tada je:_

_

Za zadani nivo značajnosti oblik kritične oblasti određuje se u zavisnosti odalternativne hipoteze Ha:

a) Ako je , kritična oblast je dvostrana. Za zadani nivo značajnosti iz

tablica normalne raspodjele nalaze se kvantili normalne raspodjele iz

uslova . Kritična

oblast je .

Ako uzoračka vrijednost

pripada kritičnoj oblasti, Ho se odbacuje. U protivnom, uzorak je saglasan sa postavljenomhipotezom.

b) Ako je , kritična oblast je lijevostrana. Za zadani nivoznačajnosti iz tablica normalne raspodjele određuje se granica kritične

Page 117: Statistika - Djuro Mikulic

oblasti tako da je . Kritična oblast

je .

Ukoliko je uzoračka vrijednost hipoteza Ho se odbacuje. Kada

je , Ho se ne odbacuje.

c) Ako je , kritična oblast je desnostrana. Za zadani nivo

značajnosti iz tablica normalne raspodjele određuje se kvantil iz

uslova . Kritična oblast je ,.

Ako je uzoračka vrijednost Ho se odbacuje, a ako je ,smatra se da su uzorački podaci saglasni sa postavljenom hipotezom.

Primjer 6.3 Za testiranje uticaja nove i stare tehnologije na prinos pšenice, izabranoje po 50 gazdinstava na kojima su primijenjene stara i nova tehnologija. Na osnovu dobijenih

uzoraka utvrđeni su prosječni prinosi od t/ha i t/ha. Ako se zna da su

varijanse u osnovnim skupovima i , testirati nanivou značajnosti 0,05 da se ove dve tehnologije ne razlikuju protiv alternativne, i da novatehnologija daje bolje rezulate.

Ovdje je nulta hipoteza a alternativna .Uzoračka informacija je:

Pošto je n1, n2>30, za testiranje ove hipoteze može se može se koristiti Z kriterijum,bez obzira što se ne raspolaže informacijom o raspodjeli osnovnog skupa, pa je

S obzirom na tip alternativne hipoteze, kritična oblast je lijevostrana,

tj.

Kako , nulta hipoteza se odbacuje u korist alternativne,tj, može se smatrati da je bolja nova tehnologija.

Model 2 (nepoznate varijanse): Posmatraju se dva obilježja X i Y, sa normalnim

raspodjelama i i nepoznatim

parametrima , , i . Na osnovu dva nezavisna uzorka, obima n1 i n2 ,izvučena iz posmatranih osnovnih skupova, treba provjeriti nultu

Page 118: Statistika - Djuro Mikulic

hipotezu protiv neke od

alternativnih , ,

ili . Testiranje se vrši uz pretpostavku da je , na zadanomnivou značajnosti .

Kriterijum značajnosti za provjeru date nulte hipoteze bazira se na statistici

koja ima Studentovu t-raspodjelu sa stepeni slobode kada je nulta hipoteza

Ho tačna, tj. 5. Veličina

je nepristrasna ocjena za iste varijanse slučajnih veličina X i Y, tj. za i .

Veličine i su odgovarajuće uzoračke varijanse, a se obično naziva združena ocjenaza varijansu .

Za zadani nivo značajnosti oblik kritične oblasti zavisi od tipa alternativnehipoteze Ha:

a) Ako je , kritična oblast je dvostrana. Na osnovu tablica t

raspodjele određuju se kvantili Studentove t-raspodjele iz

uslova . Kritična oblast

je .

Ako uzoračka vrijednost

pripada kritičnoj oblasti, tj. ako je , Ho se odbacuje u korist alternativne

hipoteze . U protivnom Ho se ne odbacuje.

b) Ako je , kritična oblast je lijevostrana. Na osnovu tablica t

raspodjele određuje se kvantil tako da

je . Kritična oblast je ,

Ako je , Ho se odbacuje. Ako je , Ho se ne odbacuje.

Page 119: Statistika - Djuro Mikulic

c) Ako je , kritična oblast je desnostrana. Na osnovu tablica t

raspodjele određuje se granica kritične oblasti iz

uslova . Kritična oblast

je ,

Ako je uzoračka vrijednost , Ho se odbacuje. Ako

je ,podaci su saglasni postavljenoj hipotezi Ho i nema osnova za njenoodbacivanje.

U slučaju kada su n1 i n2 dovoljno veliki , umjesto statistike T kaokriterijum se može koristiti Z kriterijum MODELA 1. U tom slučaju se nepoznate

varijanse i zamenjuju uzoračkim varijansama i .

Primjer 6.4 Na jednom poljoprivrednom dobru provjerava se uticaj nove vrsteprihrane na prinos pšenice. Izdvojene su 24 parcele iste površine i na 12 njih je stavljenaprihrana, a na drugih 12 nije (kontrolna grupa). Ostali uslovi su bili isti. Prosječan prinos naprihranjenim parcelama je bio (000) kg/ha sa uzoračkom

varijansom , a na neprihranjenjim parcelama prosječan prinos je

bio (000) kg/ha sa uzoračkom varijansom . Da li je novavrsta prihrane značajno uticala na porast prinosa pšenice? Postavljenu hipotezu testirati nanivou značajnosti 0,05.

Ovdje je nulta hipoteza , protiv alternativne . Sobzirom na tip alternativne hipoteze kritična oblast je desnostrana. Na osnovu uzoračkeinformacije određuju se granica kritične oblasti ili uzoračka realizacija statistike T, koja sekoristi za provjeru postavljene hipoteze. Na osnovu uzoračke informacije

granica kritične oblasti za i st. sl.

je , a uzoračka vrijednost statistike T

jer je združena varijansa

Page 120: Statistika - Djuro Mikulic

S obzirom da je hipoteza Ho se odbacuje. Može se smatratida nova vrsta prihrane značajno utiče na porast prinosa pšenice.

Primjer 6.5 Za ispitivanje uticaja dva načina prihranjivanja na prinos jedne sortejabuke, na 50 stabala je primijenjen prvi, a na 40 stabala drugi način prihranjivanja. Na

osnovu podataka uzorka izračunate su sredine kg/st.

i kg/st, i varijanse i . Testiratiznačajnost razlike ova dva načina prihranjivanja na nivou značajnosti 0,01.

Nulta hipoteza je a alternativna . Sobzirom na tip alternativne hipoteze, kritična oblast je dvostrana. Pošto je n1>30 i n2>30 zaprovjeru ove hipoteze može se koristiti statistika Z, kod koje su varijanse zamijenjene

ocjenama. Za određuje se kvantil , pa je kritična

oblast .

Na osnovu uzoračke informacije

izračunava se realizacija z statistike Z

S obzirom da znači da se hipoteza Ho o jednakosti sredina odbacuje,može se zaključiti da je razlika u prinosu pod uticajem dva načina prihranjivanja statističkiznačajna.

Kod izloženih kriterijuma greška druge vrste se kontroliše samo ako je poznata

razlika , što najčešće nije slučaj. Dakle, kod ovih kriterijuma uglavnom sekontroliše samo vjerovatnoća realizacije greške prve vrste.

Kada bi nulta hipoteza bila , protiv neke od

alternativnih , ili ,

ili , postupak testiranja bi bio isti, samo bi se umesto statistike u modelu1 koristila statistika

Page 121: Statistika - Djuro Mikulic

a umjesto statistike u modelu 2 statistika:

Kada je hipoteza tačna, prva od prethodnih statistikaima normalnu raspodjelu N(0;1), a druga Studentovu t-raspodjelu

sa stepeni slobode

6.1.3 Testiranje hipoteze o proporciji u osnovnom skupu

Često se pri obradi statističke informacije sreću svojstva koja se ne mogukvantitativno ocijeniti. Naprimjer, sposobnost studenata, kvalitet proizvoda i sl. U takvimslučajevima pogodno je odrediti procenat ili proporciju p elemenata osnovnog skupa kojiimaju određeno svojstvo. Na osnovu uzoračke informacije treba provjeriti hipotezu da je

proporcija u osnovnom skupu jednaka nekoj vrijednosti po, tj. .

Testiranje hipoteze o proporciji osnovnog skupa p bazira se na Binomnoj raspodjeli saparametrom p. Postoji više metoda za provjeru hipoteze o proporciji.

U slučaju uzorka velikog obima koristi se činjenica da je uzoračka

proporcija nepristrasna ocjena parametra p, i da ima približno normalnu

raspodjelu sa i ,

tj. . Zadovoljavajući rezultati aproksimacije

binomne raspodjele normalnom se postižu za i ,

ili . Na osnovu dobijene uzoračke informacije treba provjeriti

hipotezu , protiv neke od alternativnih

hipoteza , ili , ili .

Kao kriterijum za provjeru nulte hipoteze koristi se statistika

koja ima normalnu raspodjelu N(0;1) kada je tačna nulta hipoteza 7.

Za zadani nivo značajnosti oblik kritične oblasti zavisi od tipa alternativne hipotezeHa.

Page 122: Statistika - Djuro Mikulic

Ako je , kritična oblast dvostrana. Na osnovu tablice normalne

raspodjele određuju se granice kritične oblasti iz

uslova . Kritična oblast

je .

Ako je uzoračka realizacija statistike Z

pripala kritičnoj oblasti, tj. , Ho se ne odbacuje. Ako

je nema osnova za odbacivanje Ho, tj. podaci su saglasnipostavljenoj hipotezi.

Ako je , kritična oblast je lijevostrana. Iz

uslova , na osnovu tablica normalne raspodjele, određuje

se kritična vrijednost. . Kritična oblast je .

Ako je uzoračka vrijednost statistike , hipoteza Ho se odbacuje, uprotivnom nema osnova za odbacivanje nulte hipoteze.

Ako je , kritična oblast je desnostrana. Na osnovu tablicanormalne raspodjele za zadani nivo značajnosti , iz

uslova određuje se kritična vrijednost. Kritična oblast

je .

Ako je , nema osnova za odbacivanje Ho, a ako je , Ho seodbacuje.

Primjer 6.6 Proizvođač tvrdi da preparat za povećanje prirasta pilića u 5% slučajevaizaziva neželjene prateće efekte. Ako je u uzorku od 200 pilića 12 imalo neželjene pratećeefekte, da li se može prihvatiti tvrdnja proizvođača na nivou značajnosti 0,05?

Treba testirati nultu hipotezu , protiv

alternativne .

Na osnovu raspoložive uzoračke informacije je

,pa je uzoračka realizacija statistike Z za po=0,05

Page 123: Statistika - Djuro Mikulic

S ozbirom na tip alternativne hipoteze kritična oblast je desnostrana.

Za kritična vrijednost je ,

tj. . Kako je z<1,65 nema osnova za odbacivanje nulte hipoteze,tj. može se prihvatiti tvrdnja proizvođača.

Primjer 6.7 Prema pisanom standardu proporcija neispravnih proizvoda u isporuciiznosi 4%. Koliko treba uzeti proizvoda u slučajan uzorak, ako se postavljena hipoteza testira

na nivou značajnosti m, a kupac postavlja uslov da je vjerovatnoća daprimi partiju sa više od 8% škarta 0,10.

Treba odrediti obim uzorka za testiranje hipoteze protiv

alternativne , na nivou značajnosti 0,05, tako da moć testa bude0,9, tj, da vjerovatnoća greške II vrste bude 0,10. S obzirom da je kritična oblast desnostranabiće

Uzorak treba da sadrži najmanje 282 proizvoda. Ovako veliki obim uzorka posljedicaje relativno male razlike pa-po.

6.1.4 Testiranje hipoteze o jednakosti proporcija dva osnovna skupa

Posmatraju se dva osnovna skupa u kojima se pojavljuje neko određeno svojstvo A.Neka su p1i p2 nepoznate vjerovatnoće pojavljivanja svojstva A u prvom i drugom skupu,respektivno. Na osnovu dva nezavisna uzorka iz posmatranih skupova treba provjeriti da li su

proporcije pojavljivanja svojstva A u posmatranim skupovima iste, tj. .

Uzorak velikog obima

Ako su izvučeni nezavisni uzorci obima n1 i n2, može se koristiti aproksimacijabinomne raspodjele normalnom. Neka se svojstvo A pojavilo u prvom uzorku m1, a u drugom

Page 124: Statistika - Djuro Mikulic

m2 puta. Uzoračke vrijednosti nepristrasnih ocjena nepoznatih vjerovatnoća p1 i

p2 su i .

Kao kriterijum za provjeru nulte hipoteze koristi se statistika

koja ima normalnu raspodjelu N(o;1). Zaista, ako je tačna hipoteza za onda

je i pa kaorazlika dvije nezavisne slučajne veličine sa normalnom raspodjelom. Dakle,

statistika kada je Ho tačno8.

S obzirom da je u prethodnom izrazu parametar p nepoznat, koristi se njegova

nepristrasna ocjena , tj. uzoračka realizacija ,dobijena na osnovu dva nezavisna uzorka.

Za zadani nivo značajnosti , na osnovu tipa alternativne hipoteze Ha, određuje seoblik kritične oblasti kriterijuma Z.

Ako je , kritična oblast je desnostrana. Pomoću tablica normalne

raspodjele, iz uslova , određuju se granice kritične

oblasti .

Izračunava se uzoračka vrijednost statistike Z

i ako je , Ho se odbacuje, a u protivnom nema osnova za njeno odbacivanje.

Ako je , kritična oblast je lijevostrana. Granica kritične oblasti određuje

se iz uslova pomoću tablica normalne raspodjele. Kritična oblast

je .

Ako je uzoračka vrijednost , nulta hipoteza Ho se odbacuje, a ako

je , podaci su saglasni postavljenoj hipotezi i nema osnova za njeno odbacivanje.

Page 125: Statistika - Djuro Mikulic

Ako je , kritična oblast je desnostrana. Granica kritične oblasti se, za

zadani nivo značajnosti , određuje se iz uslova pomoću tablica normalne

raspodjele. Kritična oblast je .

Ako je uzoračka vrijednost , Ho se odbacuje, a ako je , nema osnovaza odbacivanje Ho.

Primjer 6.8 Efikasnost dva preparata za zaštitu ispitivana je na 500 biljaka. Od 300biljaka tretiranih prvim preparatom oboljelo je 15, a od 200 biljaka tretiranih drugimpreparatom oboljelo je 8. Testirati da li su ova dva načina zaštite jednako efikasna. Zavjerovatnoću greške I vrste uzeti 0,01.

Na osnovu uzoračke informacije n1=200; n2=200; m1=15; m2=8 izračunava

se , pa je uzoračka vrijednost statistike Z:

S obzirom da je kritična oblast dvostrana ,

tj. . Kako nema osnova za odbacivanje Ho, tj. preparati semogu smatrati jednako efikasnim.

6.2 Analiza varijanse

Pri ispitivanju više osnovnih skupova, za testiranje hipoteze o istovremenoj jednakostisvih sredina koristi se metod analize varijanse. Naime, poređenje sredina više osnovnihskupova moglo bi se vršiti uzajamnim poređenjem dvije po dvije sredine, ali sa porastombroja osnovnih skupova raste i broj mogućih poređenja. Zbog te činjenice koristi se metodanalize varijanse, koji se bazira na poređenju varijansi osnovnih skupova.

Metod analize varijanse primjenjuje se u različitim oblastima nauke i tehnike priispitivanju uticaja više faktora na posmatrano obilježje. Faktori su obično spoljni uslovi kojiutiču na obilježje, naprimjer; temperatura, atomosferske padavine, prihrana, način ishrane itd.Pri sprovođenju eksperimenta faktori variraju, pa se ovim metodom ispituje njihov uticaj.Različite vrijednosti faktora nazivaju se nivoi. Tako naprimjer, pri ispitivanju prinosa nekepoljoprivredne kulture, mogu se posmatrati faktori: prihrana, sorta, navodnjavanje i sl, gdjesu različite vrste gnojiva, sorte, načini navodnjavanja itd, nivoi posmatranih faktora. Metodanalize varijanse omogućuje da se provjere uticaji ispitivanih faktora i njihovih međudejstavana sredinu osnovnog skupa X, da se izdvoje najvažniji od njih i ocijeni stepen njihovoguticaja.

U zavisnosti od broja ispitivanih faktora kriterijum značajnosti se nazivajednofaktorska, dvofaktorska, trofaktorska, višefaktorska analiza varijanse.

Page 126: Statistika - Djuro Mikulic

Kriterijum analize varijanse je jedan od osnovnih pojmova važne oblasti statistike –teorije planiranja eksperimenta. Način kombinovanja nivoa faktora i poredak njihoverealizacije za dobijanje maksimalne moguće informacije iz eksperimenta, predmet su teorijeplaniranja eksperimenta.

Metod analize varijanse ponekad se koristi za ispitivanje homogenosti nekolikoskupova. Varijanse tih skupova su jednake po pretpostavci, i ako se pokaže da su jednake isrednje vrijednosti, tada su osnovni skupovi u tom smislu homogeni. Homogene skupove jemoguće objediniti u jedan, pa samim tim dobiti potpuniju informaciju i izvesti pouzdanijezaključke.

Biće izloženi najjednostvniji modeli jednofaktorske analize varijanse sa fiksiranim i saslučajnim nivoima faktora i dvofaktorski model analize varijanse sa fiksiranim nivoimafaktora u potpuno slučajnom poretku9

6.2.1 Jednofaktorska analiza varijanse sa fiksiranim nivoima faktora

Kada se ispituje uticaj svih mogućih nivoa nekog faktora A na kvantitativno obilježjeX sa normalnom raspodjelom, smatra se da svakom od k različitih nivoa faktora A odgovara

jedan osnovni skup sa normalnom raspodjelom, tj. ; i=1,2,…,k10.

Parametri i k osnovnih skupova su nepoznati, ali se pretpostavlja da su varijanse

međusobno jednake, tj. . Cilj ispitivanja je da se utvrdi da li postojiznačajna razlika između srednjih vrijednosti posmatranih skupova, tj. da se provjeri nulta

hipoteza , protiv alternativne Ha da postoji bar jedan osnovni skupsa različitom sredinom. Ukoliko se hipoteza Ho ne odbaci, k osnovnih skupova se posmatra

kao jedan osnovni skup sa sredinom , tj. . Ukoliko se hipotezaHo odbaci, onda se nekom od metoda grupnog poređenja izdvajaju skupovi sa različitimsredinama, tj. izdvajaju se nivoi faktora A koji najviše utiču na obilježja X.

Osnova za formiranje kriterijuma značajnosti analize varijanse je mogućnost“razbijanja” ukupne (totalne) sume kvadrata na faktorsku sumu kvadrata i sumu kvadratagreške, tj.

Ukupna suma kvadrata

izražava odstupanje posmatranja od opšte uzoračke sredine, a karakteriše variranje uobjedinjenom osnovnom skupu od opšte sredine .

Faktorska suma kvadrata

Page 127: Statistika - Djuro Mikulic

izražava odstupanje uzoražkih sredina od opšte uzoračke sredine, a karakteriše variranje

sredina osnovnih skupova , tzv. međugrupno variranje.

Suma kvadrata greške

izražava odstupanje posmatranja u uzorku od uzoračke sredine, a karakteriše variranje uokviru svakog od osnovnih skupova, tkz. unutargrupno variranje.

Za izračunavanje sume kvadrata koriste se pogodnije formule izvedene iz prethodnihformula za sume.

Statistike SSU, SSF i SSG mogu se koristiti za ocjenu odgovarajućih varijansi: ukupne,faktorske i varijanse greške11.

Na osnovu pretpostavki prethodno izloženog modela može se pokazati da je

Dakle, ako je tačna hipoteza Ho onda su MSU, MSF i MSG nepristrasne ocjene zanepoznati parametar . Kao što je pokazano u prethodnim relacijima, i ove tri ocjene nisu

nezavisne, ali su dvije od njih, i , nezavisne. Dakle, kada je Ho tačno

biće , a ako Ho nije tačno, onda je , što znači da jekritična oblast jednostrana12.

Page 128: Statistika - Djuro Mikulic

Kao kriterijum značajnosti za provjeru

hipoteze koristi se statistika

koja ima F raspodjelu sa i stepeni slobode. Ako je

tačna hipoteza Ho, ima -raspodjelu sa k-1 stepeni slobode, a u

protivnom necentralnu -raspodjelu. ima -raspodjelu sa N-kstepeni slobode.

Za zadani nivo značajnosti kritična oblast kriterijuma F se određuje iz

uslova , pomoću tablica F-raspodjele. Kritična oblast

jeAko je uzoračka vrijednost statistike pripala kritičnoj oblasti W,

tj. , hipoteza Ho se odbacuje i smatra se da faktor A utiče na obilježje

X. Ukoliko je , nema osnova za odbacivanje Ho.

Uobičajeno je da se rezultati izračunavanja prikažu u tz. tabeli analize varijanse:

Tabela analize varijanse

Ukoliko su uzorci istog obima, tj. i N=nk,onda su formule za izračunavanje suma kvadrata nešto jednostavnije:

Page 129: Statistika - Djuro Mikulic

Primjer 6.9 Na relativno homogenom polju, podijeljenom na 20 jednakih parcela,zasijane su 4 sorte pšenice, svaka na 5 parcela. Razmještaj sorti po dijelovima vršen jepotpuno slučajno. Rezultati posmatranja dati su u tabeli:

DIO

Na nivou značajnosti 0,01 testirati hipotezu o jednakom prosječnom prinosu različitihsorti.

U ovom primjeru je n=5; k=4; N=nk=20

Za ; i i

z tablica F-raspodjele čita se kritična vrijednost . Kako

Page 130: Statistika - Djuro Mikulic

je odbacuje se hipoteza o jednakom prinosu posmatranih sorti.Razlika između sorti je statistički vrlo značajna.

Rezultati t-testa izračunati su po formuli:

i prikazani u tabeli. S obzirom da je nivo značajnosti kritična vrijednost

je . Ako

je ili , onda se sredine značajno razlikuju.

Iz tablice uzoračkih realizacija tij statistike T, vidi se da tri vrijednosti tAD, tBD itCD prelaze tablične. Dakle, samo se sorta D razlikuje od tri ostale sorte na nivou značajnosti0,01.

Primjer 6.10 Ispituje se uticaj radnog staža na produktivnost pri proizvodnji nekogproizvoda. Rezultati posmatranja dati su u sljedećoj tabeli:

Pod pretpostavkom da je produktivnost rada normalno raspoređena, sa istomvarijansom za sva tri skupa, metodom analize varijanse provjeriti hipotezu da radni staž neutiče na produktivnost rada. Hipotezu testirati na nivou značajnosti 0,05 i 0,01.

Page 131: Statistika - Djuro Mikulic

Na osnovu raspoložive uzoračke informacije treba izračunati realizaciju statistike F.Biće:

k=3

pa je

Tabela analize varijanse je:

Za , i čita se kritična vrijednost iz tablica F-raspodjele, pa

je i . S obzirom da

je , Ho se odbacuje na nivou značajnosti 0,01.

Rezultati testiranja se vrše na nivou značajnosti . Iz tablica t-

raspodjele čita se kritična vrijednost .

Page 132: Statistika - Djuro Mikulic

Na osnovu dobijenih rezultata može se zaključiti da se drugi nivo posmatranja faktorastatistički značajno razlikuje od ostala dva, a da između prvog i trećeg nivoa posmatranogfaktora ne postoji statistički značajna razlika.

6.2.2 kriterijum za provjeru hipoteze o raspodjeli osnovnog skupa

Kriterijum je jedan od starijih statističkih kriterijuma. Razradio ga je K. Pearsonpočetkom ovog veka. On se primjenjuje za provjeru hipoteza o raspodjeli osnovnog skupa, amože se primjenjivati i za provjeru hipoteze o nezavisnosti dve slučajne veličine, tj. dvaobilježja.

Na osnovu empirijske funkcije raspodjele treba provjeriti nultu hipotezu da osnovniskup ima određenu funkciju raspodjele F(x) definisanu u potpunosti ili sa tačnošću do njenihparametara.

Iz osnovnog skupa sa nepoznatom funkcijom raspodjele izvlači se slučajan uzorak

obima n . Na osnovu dobijenih uzoračkih posmatranja formira se empirijska funkcijaraspodjele:

Empirijska funkcija raspodjele

Vrijednostiobilježja

Frekvencije

Page 133: Statistika - Djuro Mikulic

Ukoliko je posmatrano obilježje prekidno, umjesto intervala, u prethodnoj tabeli suodgovarajuće realizacije prekidnog obilježja x1, x2,…,xk.

Korišćenjem raspoložive uzoračke informacije treba provjeriti postavljenu hipotezu ovidu funkcije raspodjele osnovnog skupa. Provjera hipoteze vrši se na zadanom nivou .

Da bi se definisao kriterijum za testiranje postavljene hipoteze, treba izračunati

teorijske frekvencije pod pretpostavkom da je tačna hipoteza Ho, tj. daosnovni skup ima pretpostavljenu funkciju raspodjele Fo(x). Ukoliko funkcija raspodjeleFo(x) ima m nepoznatih parametara, oni se ocjenjuju tačkastim ocjenama na osnovuraspoložive uzoračke informacije iz prethodne tabele. Za tim se prelazi na izračunavanjeteorijskih frekvencija.

Na osnovu hipotetičke funkcije raspodjele Fo(x) izračunavaju se vjerovatnoće pi;i=1,2,…,k, da obilježje X uzme određenu vrijednost, tj.

Pomoću izračunatih vjerovatnoća pi određuju se teorijske (očekivane)

frekvencije , za uzorak obima n

Ukoliko je nulta hipoteza tačna očekuje se da teorijske frekvencije budu bliskeempirijskim kao u prethodnoj tabeli.

Kao kriterijum za provjeru postavljene hipoteze koristi se statistika

ili

Može se pokazati da za i tačnu nultu hipotezu, zakon raspodjele uzoračke

statistike ne zavisi od tipa funckije raspodjele Fo(x) i teži -raspodjeli

Page 134: Statistika - Djuro Mikulic

sa stepeni slobode (k- je broj intervala; m - broj nepoznatih parametarafunkcije raspodjele ocjenjenih na osnovu uzoračkih podataka).

-kriterijum može se smatrati mjerom odstupanja empirijskih frekvencija odočekivanih, teorijskih. Dakle, što je uzoračka vrijednost statistike bliža nuli to je vjerovatnijeda je nulta hipoteza tačna. Zbog toga se za testiranje nulte hipoteze koristi desnostrana

kritična oblast kriterijuma. Za zadani nivo značajnosti i , iz tablica -

raspodjele nalazi se kritična vrijednost iz uslova . Kritična oblast

je .

Na osnovu uzoračkih podataka izračunava se uzoračka realizacija

prethodne statistike20. Ako je smatra se da nema osnova za odacivanje nultehipoteze, tj. da je hipotetička funkcija raspodjele saglasna sa uzoračkim posmatranjima. Ako

je nulta hipoteza se odbacuje, tj. smatra se da hipotetička funkcija raspodjele nijesaglasna sa uzoračkim posmatranjima.

kriterijum može se primjenjivati samo kada su očekivane frekvencije veće od 4,

tj. ; i=1,2,…,k. Ukoliko su očekivane frekvencije manje od 5 preporučuje se sažimanjeintervala21.

Primjer 6.11 Na osnovu rezultata 50 posmatranja treba provjeriti hipotezu daobilježje X ima normalnu raspodjelu. Postavljenu hipotezu treba testirati na nivou značajnosti0,05. Rezultati posmatranja dati su u tabeli:

Treba provjeriti hipotezu .

Hipotetička funkcija raspodjele ima dva nepoznata parametra i . Njihove

tačkaste ocene su i . Na osnovu uzoračke informacije treba

izračunati i uzoračku realizaciju statistike .

Teorijske vjerovatnoće intervala određuju se pomoću tablica normalneraspodjele. Naime,

Page 135: Statistika - Djuro Mikulic

pa je

Da bi zbir vjerovatnoća bio jedan, uzima se da je donja granica prvog intervala , agornja granica posljednjeg intervala .

Tako, naprimjer, za interval (70-76) odgovarajuća vjerovatnoća je:

a teorijska (očekivana) frekvencija

.

Za interval (76-82) vjerovatnoća i očekivana frekvencija su:

U sljedećoj tabeli data su neophodna izračunavanja za :

Prva dva i posljednja dva intervala se sažimaju da bi bilo veće od 5. Poslijesažimanja intervala broj klasa je k=5. Broj nepoznatih parametara koje treba ocijeniti na

Page 136: Statistika - Djuro Mikulic

osnovu uzoračke informacije je m=2.Broj stepeni slobode je .

Uzoračka vrijednost -statistike je:

Iz tablica -raspodjele čita se kritična vrijednost za i ,

tj. . Kako je nema osnova ze odbacivanje nulte hipoteze, tj.može se smatrati da posmatrano obilježje ima normalnu raspodjelu.

Primjer 6.12 Pri polaganju ispita student dobija samo jedno pitanje iz jedne od trioblasti kursa. Analiza pitanja, koje su imali studenti, pokazala je da su 43 studenta dobilipitanje iz prvog dijela kursa, 52 iz drugog dijela i 25 iz trećeg dijela. Da li se na osnovudobijenih rezultata može izvesti zaključak da studenti sa istom vjerovatnoćom dobijajupitanja iz sve tri grupe? Postavljenu hipotezu testirati na nivou značajnosti 0,05.

U ovom slučaju teorijske vjerovatnoće su p1=p2=p3=1/3. Funkcija raspodjele nema

nepoznatih parametara. Teorijske frekvencije i uzoračka vrijednost -statistike dati su usljedećoj tabeli

Hipoteza Ho se odbacuje, šTo znači da studenti ne dobijaju pitanja iz sve tri oblasti saistom verovatnoćom.

Primjer 6.13 Treba ispitati da li vrijeme kašnjenja radnika na posao zavisi od godinaradnog staža. Podaci za 1000 radnika dati su u sljedećoj tabeli:

Vrijeme kašnjenjamin.

Page 137: Statistika - Djuro Mikulic

Postavljenu hipotezu testirati na nivou značajnosti 0,05.

Postavlja se nulta hipoteza da su radni staž (Y) i vrijeme kašnjenja (X) nezavisna

obilježja. Na osnovu uzoračke informacije treba izračunati realizaciju statistike kao uprethodnim primjerima.

Posljednje dvije vrste se sažimaju da bi očekivana frekvencija bila veća od 5, pa je

r=c=4. Očekivane frekvencije računaju se po formuli

Rezultati izračunavanja očekivanih frekvencija dati su u tabeli.

Broj stepeni slobode je , pa se za iz

tablica -raspodjele čita kritična vrijednost .

Kritična oblast je .

Na osnovu izračunatih očekivanih frekvencija pod pretpostavkom da su X i Ynezavisni, dobija se uzoračka vrijednost:

Hipoteza Ho se odbacuje na nivou značajnosti 0,05 jer je , tj.smatra se da postoji zavisnost između vremena zakašnjavanja na posao i dužine radnog staža.

Koeficijentom kontingencije može se izračunati zavisnost ove dve pojave. Biće

Page 138: Statistika - Djuro Mikulic
Page 139: Statistika - Djuro Mikulic

7. REGRESIJA I KORELACIJA

7.1 Pojam korelacione zavisnosti

Različite pojave u prirodi najčešće su, u manjoj ili većoj mjeri, povezane međusobom. Tako, na primjer, prinos neke ratarske kulture zavisi od pedoloških, klimatskih,agrotehničkih i niza drugih faktora, finansijski rezultat preduzeća zavisi od mnoštvaorganizaciono-ekonomskih činilaca i td. Jedan od zadataka statistike jeste da ispita stepenzavisnosti i da utvrdi konkretan tip veze koji postoji između dvije ili više pojava. Oblaststatistike koja se bavi ovim problemima naziva se korelaciona i regresiona analiza.

Posmatrajmo neke dvije promjenljive (obilježja) X i Y. Ako su promjenljivedeterminističke, između njih postoji funkcionalna veza oblika Y=f(X). To znači da za svakuvrijednost promjenljive X iz oblasti definisanosti postoji jedna i samo jedna vrijednostpromjenljive Y. Ako su, pak, X i Y dvije slučajne promjenljive, kao što smo vidjeli upoglavlju (3), one mogu biti ili nezavisne ili zavisne, pri čemu ta zavisnost nije funkcionalnaveć stohastička. To znači da promjene vrijednosti slučajne promjenljive X izazivaju promjenezakona raspodjele slučajne promjenljive Y. Drugim riječima, svakojvrijednosti x promjenljive X odgovara zakon raspodjele f(y/x) slučajne promjenljive Y.

Poseban vid stohastičke zavisnosti je tzv. korelaciona zavisnost. Kod korelacioneveze između dviju slučajnih promjenljivih, promjene jedne slučajne promjenljive povlačeočekivane vrijednosti druge slučajne promjenljive. To znači da različitimvrijednostima x slučajne promjenljive X odgovaraju različite vrijednosti M(Y/x)matematičkog očekivanja slučajne promjenljive Y.

Utvrđivanje stepena kvantitativnog slaganja varijacija promjenljivih predmet jekorelacione analize. Određivanjem funkcionalnog oblika zavisnosti između jednepromjenljive i prosječnog nivoa druge promjenljive bavi se regresiona analiza. Izabrani tipfunkcije naziva se regresiona funkcija ili jednostavnoregresija. U slučaju dvije promjenljivekoristi se još termin prosta regresija ili parna regresija.

Ispitivanje zavisnosti između većeg broja promjenljivih predmet je višestrukekorelacione i regresione analize. Jasno je da veći broj promjenljivih adekvatnije opisujeposmatranu zavisnost, ali isto tako usložnjava analizu. Stoga je jedan od najvažnijih zadatakavišestruke korelacione i regresione analize da izabere što je moguće manji broj promjenljivihkoje u velikoj mjeri determinišu ispitivanu zavisnu promjenljivu.

Ispitivanje odnosa pojava nemoguće je izvesti na svim jedinicama osnovnih skupova.Korelaciona i regresiona analiza se obično baziraju na manjem broju jedinica, tj. na uzorcima.Zbog toga, pri donošenju zaključaka o ispitivanom odnosu, treba posebno voditi računa omogućnosti uopštavanja zaključaka na cijele osnovne skupove.

7.2 Prosta linearna regresija

Pretpostavimo da ispitujemo zavisnost neka dva obilježja X i Y. U tu svrhu izosnovnog skupa (X, Y) uzet je izvjestan broj parova uzoračkih vrijednosti (Xi , Yi).Realizacije parova vrijednosti (xi, yi) mogu se grafički predstaviti tačkama u pravougaonom

Page 140: Statistika - Djuro Mikulic

koordinatnom sistemu u ravni. Odgovarajući grafički prikaz naziva se dijagramrasturanja. Na sljedećoj slici predstavljeno je šest različitih oblika dijagrama rasturanja.

Dijagramrasturanja

Naosnovurasturanja tačaka nadijagramima (1) i(2) vidi se dapostoji tendencijaka linearno-rastućoj zavisnosti

posmatranihobilježja. Veza

promjenljivih je čvršća u slučaju prikazanom na dijagramu (2), jer su tačke zbijenije i bližezamišljenoj pravoj liniji kojom se veza može predstaviti. Dijagramom (3) prikazana je takođelinearna, ali za razliku od prva dva slučaja, linearno-opadajuća zavisnost između posmatranihvrijednosti. Veza može biti i krivolinijska kao što se vidi sa dijagrama (4) i (5). Konačno, nadijagramu (6) se ne zapaža bilo kakva pravilnost u slaganju varijacija ove dvije promjenljive,što ukazuje na mogućnost njihove nezavisnosti.

Ovdje je šematski prikazano samo nekoliko tipskih, od velikog broja mogućih oblikakorelacione zavisnosti, koje su predmet izlaganja.

7.2.1 Jednačina regresije

Neka slučajna promjenljiva (X,Y) ima dvodimenzionu normalnu raspodjelu saparametrima mX, mY,σX

2, σY2 i ρXY, tada je uslovni zakon raspodjele slučajne promjenljive

Y/X=x takođe normalan sa parametrima

i

Odavde se vidi da između promjenljivih X i Y postoji linearnakorelaciona zavisnost, pri čemu je prethodnim izrazom predstavljena jednačina regresije. Ovoje linearna funkcija sa koeficijentom pravca

Page 141: Statistika - Djuro Mikulic

i slobodnim članom

Za ilustraciju korelacione zavisnosti slučajnih promjenljivih iz osnovnog skupa sanormalnom raspodjelom, na sljedećoj slici je dat šematski prikaz uslovnih gustina raspodjeleslučajne promjenljive Y kad slučajna promjenljiva X uzima vrijednosti xi; i= 1, 2,...,n, kao i

grafik linearne regresije .

Linearni odnos sredina uslovnihrasporeda Y za nekoliko nivoa X

Vidi se da svakoj vrijednosti x slučajne promjenljive X odgovara beskonačno mnogovrijednosti y slučajne promjenljive Y. Pošto vrijednosti slučajne promjenljive Y odstupaju odočekivanih vrijednosti M(Y/x), izmedju njih i odgovarajućih vrijednosti slučajnepromjenljive X može se uspostaviti relacija

Ovdje su a i b konstante, a za svaku vrijednost xi velicine Yi i , su slučajnepromjenljive. Pošto slučajna promjenljiva Y, ima normalnu raspodjelu Yi,: N(a+bxi; σY/x2)slučajne promjenljive ei , imaju normalnu raspodjelu N(0; σY/x2). Uobičajeno je da seslučajne promjenljive ei nazivaju slučajnom greškom ili jednostavno greškom.

U praktičnim zadacima ispitivanja zavisnosti izmedju obilježja X i Y nisu poznatiparametri dvodimenzione normalne raspodjele (X,Y). Na osnovu uzorka se mogu izračunatinjihove tačkaste ocjene i na taj način ocijeniti linearna veza izmedju ovih obilježja.Medjutim, često nije poznat čak ni tip raspodjele dvodimenzione slučajne promjenljive(X,Y). Dalje će biti pokazano da se i ovakvi problemi mogu uspješno riješiti u slučajulinearne zavisnosti po parametrima uz, određena, dovoljno opšta, ograničenja.

Pretpostavimo da između obilježja X i Y postoji linearna zavisnost oblika

Page 142: Statistika - Djuro Mikulic

pri čemu su a i b nepoznate konstante, a ei slučajne promjenljive sa nepoznatomraspodjelom. Slučajne promjenljive ei, se nazivaju odstupanja ili greške. Za svaku fiksiranuvrijednost Xi veličine Yi su slučajne promjenljive. Drugim riječima, svakoj vrijednosti X,odgovara jedan raspored vjerovatnoća slučajne promjenljive Yi. U skladu sa tim, dalje ćemosmatrati da veličine Xi, nisu slučajne, već određene, pa će njihove vrijednosti biti označenemalim slovima, tj. sa xi, da bi se naglasila njihova neslučajnost.

Posmatrajmo n parova vrijednosti (xi,Yi) ; i =1,2, . . . ,n iz osnovnog skupa(X,Y). Na osnovu prethodnog izraza je

Nepoznati parametri a i b mogu se ocijeniti metodom najmanjih kvadrata. Naime,suma kvadrata greške za uzoračke vrijednost (xi,Yi)

predstavlja funkciju dvije nezavisne promjenljive a i b koju treba minimizovati. Pošto

kvadratna forma u gornjem izrazu ima minimum, uzoračke ocjene i nepoznatihparametara a i b dobijamo iz potrebnog uslova za minimum. Dobija se sistem od dvijelinearne jednačine, tzv. normalne jednačine:

čijim se rješavanjem dobijaju uzoračke ocjene i .

Na osnovu ovih uzoračkih ocjena nepoznatih parametara a i b relacija se moženapisati u obliku:

gde je , uzoračka ocjena slučajne promjenljive ei ;i=l,2, ...,n, koja se naziva i-tim ostatkom.

Jednačina

predstavlja uzoračku ocjenu regresije i naziva se jednačina najbolje prilagođene linije ilijednačina regresije.Iz posljednje dvije relacije se vidi da je

Uzoračke ocjene, kao funkcije slučajnih veličina Yi, su slučajne veličine. Njihove

realizacije biće označene sa a, b i ei ; za i i respektivno, tj. za konkretne vrijednostiparova (xi,yi) normalne jednačine su

Page 143: Statistika - Djuro Mikulic

konkretna jednačina regresije je

i vrijednost greške je

Na sljedećoj slici prikazane su vrijednosti , i neke dve vrijednosti x1 ix2 nezavisno-promjenljive X.

Odstupanje tačaka na dijagramu rasturanja od najbolje prilagodjene prave

Vrijednosti koeficijenata a i b u jednačini regresije mogu se direktno interpretirati: akao ocjena prosječnog početnog nivoa zavisno-promjenljive (jer je za xi=0 = a) i b kaoocjena prosječne promjene zavisno-promjenljive na jedinicu promjene nezavisno-promjenljive (jer je b koeficijent pravca prave).

Pomoću regresionih ostataka ; i=l,2,...,n može se dobiti statistika koja senaziva standardna greška regresije, tj.

Za konkretne vrijednosti (xi, yi) rješenje sistema sa prethodne stranice biće

i

Page 144: Statistika - Djuro Mikulic

gdje je i . Lako se pokazuje da je:

Vrijednost standardne greške regresije je

Vrijednost standardne greške regresije predstavlja mjeru odstupanja empirijskihpodataka od jednačine regresije. Što je standardna greška regresije manja, linearni regresionimodel bolje opisuje zavisnost posmatranih obilježja.

Primjer 7.1 Na osnovu podataka o broju grla u leglu i tjelesnoj masi grla, ocijenitijednačinu regresije i izračunati standardnu grešku.

Veličina legla, x: 8 9 10 11 12 13 14

Prosječna masagrla kg, y: 1,30 1,25 1,17 1,12 1,05 1,00 0,95

Na dijagramu rasturanja vidi se da između posmatranih obilježja postoji linearna zavisnost.

Potrebne sume za ocjenu koeficijenata u jednačini regresije prikazane su u radnojtabeli

8 1,30 64 1,6900 10,40

9 1,25 81 1,5625 11,25

10 1,17 100 1,3689 11,70

11 1,12 121 1,2544 12,32

12 1,05 144 1,1025 12,60

13 1,00 169 1,0000 13,00

Page 145: Statistika - Djuro Mikulic

14 0,95 196 0,9025 13,30

77 7,84 875 8,8808 84,57

Iz zbirnog reda tabele izračunati su potrebni pokazatelji za serije podataka zavisne inezavisne promjenljive i formirane su normalne jednačine:

Sistem normalnih jednačina, čijim se rješenjem dolazi do ocjena parametara linearneregresije, je:

Zamjenom vrijednosti b u prvu jednačinu dolazi se do rješenja za a:

Ocjena prosječnog početnog nivoa zavisno-promjenljive je približno l,78 kg. Premavrijednosti regresionog koeficijenta b zaključuje se da se sa povećanjem veličine leglasmanjuje prosječna masa grla.Prosječno smanjenje je oko 0,06kg. za svako grlo u leglu više.

Na osnovu dobijenih ocjena formira se ocjena linearne regresije posmatranog odnosa

Page 146: Statistika - Djuro Mikulic

Prilagođenost regresione jednačine odnosu posmatranih pojava je vrlo velika, što sevidi na slici.

Linija regresije je ucrtana na osnovu tačaka T1(0; a=1,78) i T2( ; ).Interpolirana linija je vrlo dobro prilagođena, jer su tačke originalnih podataka u njenojneposrednoj blizini. To znači da su stvarne vrijednosti podataka zavisno-promjenljive i njenese ocjene malo razlikuju. Za izračunavanje standardne greške potrebno je izračunativrijednosti ordinata linije regresije za odgovarajuće vrijednosti nezavisno-promjenljive. Teordinate (interpolirane, teorijske, ocjenjene) su:

Sve interpolirane ordinate linije regresije, do , upisane su u trećoj koloni sljedećeradne tabele

8 1,30 1,29892 0,00108 0,00000129 1,25 1,23928 0,01072 0,000114910 1,17 1,17964 -0,00964 0,000092911 1,12 1,12000 0,00000 0,000000012 1,05 1,06036 -0,01036 0,000107313 1,00 1,00072 -0,00072 0,000000514 0,95 0,94108 0,00892 0,0000796

77 7,84 7,84000 0,00000 0,0003964

Na osnovu izračunatih vrijednosti u radnoj tabeli dobija se da je standardna greškaregresije:

Prosječno odstupanje tačaka na dijagramu rasturanja od linije regresije je 0,0089 kg.Ovom mjerom je data ocjena varijacija prosječne mase grla u leglu u rasporedima legalarazličite veličine.

7.2.2 Testiranje značajnosti regresionih koeficijenata

U prethodnom poglavlju je pokazano kako se mogu ocijeniti parametri a i b modelaTreći sabirak u ovom modelu, za svaku fiksiranu vrijednost obilježja X, predstavlja slučajnupromjenljivu čija raspodjela nije poznata.

Slučajne promjenljive Yi i Yj za i ¹ j takođe su nekorelirane i nezavisne.

Page 147: Statistika - Djuro Mikulic

Uzoračke ocjene i (njihove realizacije su označene sa a i b) parametara a i b su,kao funkcije uzoračkih posmatranja, slučajne veličine.

Dakle, je nepristrasna ocjena parametra b, sa varijansom koja je proporcionalnavarijansi σ2.

Pošto varijansa greške nije poznata, ocjenjuje se pomoću statistike

koja ima n-2 stepeni slobode. Broj stepeni slobode je umanjen za dva zbog dvije linearneveze za ocjenu nepoznatih koeficijenata a i b. Zamjenom varijanse prethodnom ocjenom

u relaciji dobljaju se uzoračke ocjene varijansi slučajnih promjenljivih i :

Njihovi kvadratni korjeni nazivaju se standardne greške koeficijenata.

ima t-raspodjelu sa v = n-2 stepeni slobode. Ova činjenica se može iskoristiti za testiranjehipoteze H0:b=b0 protiv jedne od alternativnih hipoteza Ha: b¹b0, ili Ha: b<b0, iliHa: b>b0.

Kada je u pitanju linearna funkcija često je od interesa provjera hipoteze opostojanju nagiba, odnosno, rastuće ili opadajuće tendencije. Zato se obično testira hipotezaH0: b = 0, protiv alternativne Ha:b ¹ 0. Realizacija statistike T

upoređuje se sa tabličnom vrijednošću , na nivou značajnosti a. Ako je ,hipoteza se odbacuje, što znači da postoji značajan nagib. U protivnom hipoteza se neodbacuje.

Pomoću prethodne statistike može se odrediti i interval pouzdanosti za nepoznatiparametar b.Naime, sa 100 (l-a) % pouzdanosti može se tvrditi da interval

pokriva nepoznati parametar b.

Page 148: Statistika - Djuro Mikulic

Slična procedura može se primijeniti i za testiranje parametara a. Naime, statistika

ima t-raspodjelu sa v=n-2 stepeni slobode. Testiranje hipoteze H0: a =a0, protivneke od alternativnih hipoteza obično nema posebnog praktičnog značaja. Od većeg interesaje određivanje intervala pouzdanosti za ovaj parametar. Slično kao i gore, 100(1-a)%-niinterval pouzdanosti je:

Vrijednosti ocjena i za (xi , yi) su

pa su konkretni intervali

Kao i ranije, u slučaju kada je n³30, umesto t-raspodjele koristi se normalnaraspodjela.

Primjer 7.2 Testirati značajnost koeficijenta b na nivou 0,01 i odrediti 95%-neIntervale pouzdanosti za a i b, na osnovu podataka iz primjera 7.1.

Za testiranje značajnosti koeficijenta b, pored izračunate vrijednosti b = -0,05964,

potrebno je izračunati standardnu grešku, na osnovu standardne greške regresije =0,00008i sume kvadrata odstupanja nezavisno-promjenljive od srednje vrijednosti

i

Za testiranje H0: b=b0 izračunava se realizacija T statistike pod pretpostavkom da jeH0 tačno, tj.

Page 149: Statistika - Djuro Mikulic

Tablične vrijednosti za v = n-2 =7 -2 = 5 st. sl. su: t0,025; 5 = 2,57 i t0,005; 5 = 4,03. S

obzirom da je hipoteza H0 se odbacuje u korist alternativne da je vrijednostregresionog koeficijenta brazličita od nule. Dakle, prosječna masa grla u leglu se mijenja pripromjeni veličine legla.

Interval pouzdanosti koji sa vjerovatnoćom 0,99 pokriva nepoznati parametar b je:

-0,05964 – 4,032 × 0,00169 < b < -0,05964 + 4,032 × 0,00169

-0,06645 < b < -0,05283

Da bi se odredio interval pouzdanosti koji sa vjerovatnoćom 0,95 pokriva nepoznatiparametar treba izračunati standardnu grešku ocjene nepoznatog parametra a, tj.

;

Interval povjerenja koji sa vjerovatnoćom l -a1=0,95 pokriva nepoznati parametar a je

7.2.3 Analiza varijanse

Ukupno variranje slučajne promjenljive Yi može se ocijeniti pomoću odstupanjauzoračkih vrijednosti od sredine. Očigledno se može napisati da je

Prvi sabirak sa desne strane nastaje pri određenom nivou nezavisno-promjenljive iobjašnjava se njenim djelovanjem. Drugi sabirak je dio variranja zavisno-promjenljive koji sepripisuje uticaju faktora koji nisu uključeni u model.

Kvadriranjem lijeve i desne strane izraza i sumiranjem, dobijamo:

odnosno nakon sređivanja:

Page 150: Statistika - Djuro Mikulic

što znači da se suma kvadrata ukupnog variranja može razložiti na sumu kvadrataregresionog variranja i sumu kvadrata greške, Ako ove sume označimo sa SSU, SSR i SSF,onda je

SSU = SSR + SSG

Jasno je da se komponente ukupnog variranja, regresiona i slučajna , mogu mijenjatisamo jedna na račun druge. Ako je regresiono variranje veće onda je slučajno manje, iobrnuto.

Ako između promjenljivih postoji funkcionalna veza, sve promjene u zavisno-promjenljivoj objašnjavaju se nezavisno-promjenljivom pa slučajno variranje i ne postoji.Ako pak nema uticaja nezavisno-promjenljive, dio regresionog variranja jednak je nuli, pa seukupni varljabilitet izjednačava sa slučajnim. Ova dva granična slučaja variranja prikazana suna sljedećoj slici:

Sume kvadrata u prethodnoj relaciji podijeljene odgovarajućim brojevima stepenislobode predstavljaju ocjene varijansi. Suma kvadrata ukupnog variranja ima (n-1) stepenislobode, zbog jedne linearne veze i Yi; i = 1, 2, ...., n. Suma kvadrata greške, kao što je većrečeno, ima n-2 stepeni slobode. Zaista, na osnovu relacije:

slijedi da je

Može se pokazati da u slučaju kada je b = 0 statistika

ima F-raspodjelu sa v1=1 l v2= n-2 stepena slobode. Ova činjenica se opet možeiskoristiti za testiranje hipoteze H0:b = 0, protiv alternativne Ha:b ¹ 0. Ako je izračunatavrijednost Fuz veća od tablične , hipoteza H0 se odbacuje.

Page 151: Statistika - Djuro Mikulic

Uobičajeno je da se rezultati analize varijanse prikažu u tabeli:

Tabela analize varijanse proste linearne regresije.IZVORIVARIJACIJE

SUMEKVADRATA

STEPENISLOBODE

SREDINEKVADRATA

F-KOLIČNIK

REGRESIJA 1 FUZ=1245**

GREŠKA SSG=SSU-SSR n-2

UKUPNO n-1

Očigledno je da je je prethodna statistika identična sa već opisanim kvadratomstatistike za b=0, tj. F=T2. Pošto između tabličnih vrijednosti postoji ista relacija

: oba testa daju identične rezultate.

Primjer 7.3 Za podatke iz primjera 7.1 testirati značajnost koeficijenata b na nivouznačajnosti 0,01, pomoću analize varijanse.

Suma kvadrata ukupnog variranja je

Suma kvadrata regresionog variranja je

Suma kvadrata slučajnog variranja je:

Dalji postupak analize varijanse regresije dat je u tabeli:IZVORIVARIJACIJE

SUMEKVADRATA

STEPENISLOBODE

SREDINEKVADRATA

F-KOLIČNIK

REGRASIJA SSR=0,0996 1 MSR=0,0996 FUZ=1245**

GRE[KA SSG=0,0004 7-2=5 MSG=0,00008UKUPNO SSU=0,1000 7-1=6

Uzoračka realizacija F-statistike FUZ=1245, veća je od tablične F0,01;1;5=16,26, što znači da sehipoteza H0 : b=0 odbacuje.

Page 152: Statistika - Djuro Mikulic

7.2.4 Interpolacija i ekstrapolacija

Vidjeli smo da se pomoću ocjenjene jednačine regresije mogu dobiti

ocjene prosječnog nivoa zavisno-promjenljive za uzoračke vrijednosti nezavisno-promjenljive xi. U praktičnim zadacima često je od interesa određivanje prosječnog nivoazavisno-promjenljive za vrijednosti nezavisno-promjenljive, koje se razlikuju od uzoračkihvrijednosti.

Ako je vrijednost nezavisno-promjenljive u intervalu izmedju najmanje i najvećeuzoračke vrijednosti, onda se postupak ocjenjivanja zavisno-promjenljive za takve vrijednostinezavisno-promjenljive naziva interpolacija, a ocjenjena vrijednost se naziva interpoliranavrijednost.

Ako je vrijednost nezavisno-promjenljive izvan intervala između najmanje i najvećeuzoračke vrijednosti, onda se postupak ocjenjivanja zavisno-promjenljive za takve vrijednostinezavisno-promjenljive naziva ekstrapolacija, a ocjenjena vrijednost senaziva ekstrapolirana vrijednost.

Za testiranje značajnosti interpoliranih i ekstrapoliranih. vrijednosti treba odrediti

zakon raspodjele slučajne promjenljive .

Zamjenom nepoznate varijanse ocjenom dobija se ocjena varijanse, čiji je

korijen tzv.standardna greška promjenljive :

Statistika

Ima t-raspodjelu sa (n-2) stepeni slobode, pri čemu je .

Ova činjenica se može iskoristiti da se testira hipoteza o interpoliranoj iliekstrapoliranoj vrijednosti. Od većeg praktičnog značaja je odredjivanje intervalapouzdanosti, sa vjerovatnoćom (1-a) interval

pokriva nepoznatu uslovnu očekivanu vrijednost M(Y/X=x0).

Pošto je standardna greška proporcionalna kvadratu odstupanja , to su zavrijednosti x0 bliske srednjoj vrijednosti intervali pouzdanosti uži. Udaljavanjem odvrijednosti intervali pouzdanosti se šire.

Page 153: Statistika - Djuro Mikulic

Za x0= je:

na osnovu čega slijedi:

Sve što je ovdje dosad rečeno odnosi se na interpolaciju i ekstrapolaciju prosječnognivoa zavisno-promjenljive. Međutim, stvarne vrijednosti Yi odstupaju od prosječnihvrijednosti sa varijansom .

Zamjenom nepoznate varijanse ocenom dobija se ocjena , čiji je korijenstandardna greška

Statistika

ima t-raspodjelu sa v = n-2 stepeni slobode.

Odavde, 100 (1-a)% - ni interval pouzdanosti za vrijednosti zavisno-promjenljive,kad nezavisno-promjenljiva uzme novu vrijednost x0, ima oblik

U slučaju kada je n ³ 30 umjesto kvantila t-raspodjele koristi sekvantil normalne raspodjele.

Primjer 7.4 Za podatke iz primjera 7.1 odrediti 95%-tni interval pouzdanosti zaprosječnu masu grla u leglu sa 14 grla i stvarnu masu grla u leglu sa 15 grla.

Za je , i

;pa je

Page 154: Statistika - Djuro Mikulic

što znači da je sa 95% pouzdanosti prosječna masa grla u leglu između 0,925 i 0,957 kg.

Za je , i

;pa je

Page 155: Statistika - Djuro Mikulic

7.3 Koeficijent korelacije

Pokazatelj , kao mjera zavisnosti slučajnih promjenljivih X i Y, u slučajulinearne zavisnosti naziva se koeficijentom korelacije. I vidi se da

je odnosno , što znači da je vrijednost koeficijenta korelacije izmedju -1 i 1.Ako je koeficijent korelacije jednak nuli, promjenljive X i Y su nekorelirane, a ako su izskupa sa normalnom raspodjelom, to znači, kao što je ranije rečeno, da su i nezavisne. Ako jekoeficijent korelacije po apsolutnoj vrijednosti jednak jedinici, između promjenljivih X i Ypostoji funkcionalna zavisnost.

Kada raspodjela osnovnog skupa (X,Y) nije poznata, koeficijent korelacije se možeocijeniti na osnovu uzorka. Statistika pomoću koje se može dobiti ocjena koeficijentakorelacije

naziva se uzorački koeficijent korelacije. Ako se imenilac i brojilac prethodnog izrazapodijele sa n, dobija se da je

tj. uzorački koeficijent korelacije jednak je količniku izmedju uzoračke kovarijanse iproizvoda uzoračkih standardnih devijacija.

Realizacija statistike obično se označava sa rXY i za konkretan uzorak (xi, yi); i =1, 2, ...,n jednaka je:

Vrijednost uzoračkog koeficijenta korelacije određuje jačinu korelacione vezeposmatranih promjenljivih. Što je ta vrijednost bliža -l ili +1 zavisnost je jača, a što je bliža 0zavisnost je slabija. Ako je vrijednost koeficijenta korelacije pozitivna, znači da su obepromjenljive istog smjera, tj. obe istovremeno rastu ili opadaju. Ako je ta vrijednostnegativna, rast jedne promjenljive praćen je opadanjem druge promjenljive.

Za interpretaciju vrijednosti koeficijenta korelacije konvencionalno se koristisljedeća podjela:

- slaba zavisnost

Page 156: Statistika - Djuro Mikulic

- srednja zavisnost

- jaka zavisnost

- vrlo jaka zavisnost

Ovakvu interpretaciju treba uzeti uslovno, jer se o vrijednosti koeficijenta korelacijemože pouzdano govoriti tek poslije testiranja značajnosti, o čemu će kasnije biti riječi.

Primjer 7.5 Za podatke iz primjera 7.1 izračunati vrijednost koeficijenta korelacije.Na osnovu podataka o veličini legla (xi) i prosječnoj masi grla u leglu (yi), izračunat je

koeficijent korelacije premaprethodnom obrascu. Ovdje je:

Zavisnost veličine legla i mase grla pri rođenju vrlo je jaka i negativna. Trebalo bi,međutim, naglasiti da na osnovu koeficijenta korelacije nije utvrđeno šta je uzrok a štaposljedica. Može se reći da su u većim leglima grla manje mase, ali zaključak može biti i da uleglima sa jedinkama veće mase ima manje grla.

Vidjeli smo da se na osnovu pokazatelja regresione i korelacione analize zavisnostdva obilježja sagledava na dva načina. S obzirom da je riječ o jednoj istoj korelacionojzavisnosti, logično je očekivati da između statistika pomoću kojih se ocjenjuju ovi pokazateljipostoje sljedeće veze:

Vrijednost naziva se koeficijent determinacije i označava se sa . Ovajpokazatelj predstavlja proporcionalni dio ukupnog varijabiliteta zavisno-promjenljive,objašnjen uticajem nezavisno-promjenljive. Njegova dopuna do jedinice naziva se koeficijentnedeterminacije i predstavlja proporcionalni dio ukupnog variranja zavisno-promjenljive kojinije objašnjen uticajem nezavisno-promjenljive, odnosno:

Dakle, ukupni varijabilitet se može razložiti na komponenente u kojima figurišuvrijednosti koeficijenata determinacije i nedeterminacije:

,što se može iskoristiti za analizu varijanse i testiranje značajnosti regresionog koeficijenta.

Pomoću koeficijenta korelacije može se izraziti i standardna greška regresije:

Page 157: Statistika - Djuro Mikulic

To omogućava izračunavanje vrijednosti standardne greške bez korišćenja ocjenjenihvrijednosti regresije.

7.3.1 Testiranje značajnosti koeficijenta korelacije

Pretpostavimo da je slučajna promjenljiva (X,Y) iz osnovnog skupa sa normalnomraspodjelom.Ako koeficijent korelacije nije poznat, vidjeli smo da se može ocijenitipomoću statistike. Često je od interesa da se testira hipoteza da je koeficijent korelacije uosnovnom skupu jednak nekoj vrijednosti. Postoji više različitih testova za različite nultehipoteze.

Nulta hipoteza H0: =0, protiv alternativne Ha; ¹0, može se testirati pomoćustatistike

Ako je izračunata vrijednost prethodne T-statistike veća od tabličnevrijednosti hipoteza se odbacuje na nivou značajnosti a. U protivnom, nema osnova zaodbacivanje nulte hipoteze.

Primjer 7.6 Na osnovu podataka iz primjera 7.1 i 7.5 :a) testirati značajnost koeficijenta korelacije na nivou značajnosti 0,01;

Na osnovu izračunatog koeficijenta korelacije =0,998 izračunava se realizacijastatistike

Uzoračka vrijednost t=35,28 je veća od tablične t0,005;5=5,03, sto znači da se hipotezaH0odbacuje, tj. koeficijent korelacije je značajno različit od nule.

7.4 Višestruka regresija i korelacija

U prethodnom poglavlju je pokazano da se kod korelacione zavisnosti dvijepromjenljive samo dio varijabiliteta zavisno-promjenljive objašnjava uticajem nezavisno-promjenljive. Ostali dio varijabiliteta objašnjava se uticajem svih ostalih faktora koji nisuuključeni u model. Drugim riječima, umjesto prostog modela Y=f(x,e) opravdano jeposmatrati tzv. višestruki regresioni model Y=f(x1, x2,.....,xk,e).

Page 158: Statistika - Djuro Mikulic

Mnogi slučajevi korelacione zavisnosti u biologiji, biotehnici i agroekonomiji moguse modelirati višestrukim regresionim modelima. Tako, naprimjer, prinos nekog usjeva seobjašnjava uticajem mnogih faktora, kao što su prihrana, temperatura, vlaga, sorta itd. Zatražnju nekog prehrambenog proizvoda pored njegove cijene, od presudnog su značaja ikvalitet, cijene drugih prehrambenih proizvoda, dohodak potrošača, navike u ishrani i slično.

Uključivanjem novih nezavisnih promjenljivih u regresioni model, usložnjava seanaliza. S obzirom na današnje stanje računarske tehnike to ne predstavlja preveliki problem.Mnogo veći problem je da se iz mnoštva svih mogućih objašnjavajućih promjenljivih izaberenekoliko onih, koje zajedno, u velikoj mjeri, determinišu ispitivano obilježje. Sa stanovištainterpretacije rezultata i donošenja pravilnih zaključaka od interesa je da broj ovihpromjenljivih bude što je moguće manji.

Ovdje ćemo se ograničiti na posmatranje linearne regresije i korelacije sa dvijenezavisno-promjenljive. Analiza modela sa većim brojem nezavisno-promjenljivih vrši se naprincipijelno isti način, s tim što zahteva korišćenje složenijeg aparata linearne algebre.

7.4.1 Linearna regresija sa dvije nezavisno-promjenljive

Pretpostavimo da u osnovnom skupu (Xl,X2,Y) važi relacija

; i = 1, 2, ....

pri čemu su a, b1 i b2, nepoznate konstante, X1i i X2i neslučajne nezavisne promjenljive (daljese koristi oznaka x1i i x2i da bi se istakla neslučajnost ovih promjenljivih u modelu, aYi i ei slučajne promjenljive. Za uzorak od n trojki (x1i, x2i, Yi) , i=1,2,,..,n iz osnovnog skupaje

; i = 1, 2,....

Uzoračke ocjene nepoznatih parametara mogu se dobiti metodom najmanjihkvadrata. Suma kvadrata odstupanja je funkcija tri nezavisno-promjenljive a, b1 i b2:

Neka su , i vrijednosti za koje su traženi parcijalni izvodi.

Traženje parcijalnih izvoda navedenih nezavisno-promjenljivih vrijednosti i njihovimizjednačavanjem s nulom, izraz se transformiše u sljedeći sistem normalnih jednačina:

Page 159: Statistika - Djuro Mikulic

čijim se rješavanjem dobijaju uzoračke ocene , i nepoznatih parametara , i .

Na osnovu ovih ocjena relacija se može napisati u obliku

; i = 1, 2,....

gdje je uzoračka ocjena slučajne promjenljive ei;i = 1,2, ....., n.

Jednačina

; i = 1, 2,....

predstavlja uzoračku ocjenu jednačine regresije. Iz posljednje dvije relacije je

; i=1,2,.....,n

Relacija predstavlja jednačinu ravni u prostoru. Prethodno su prikazane rea-lizacije i ei za neke parove vrijednosti (x1i,x2i).

Vidjeli smo da se, kao rezultat primjene metoda najmanjih kvadrata na prethodnimodel problema, ocjenjivanje koeficijenata svodi na rješavanje sistema od tri linearnejednačine sa tri nepoznate veličine. Procedura ocjenjivanja se u izvjesnom smislupojednostavljuje ako se koriste uzoračke vrijednosti u odstupanjima od sredine.D’ - determinanta sistema je:

Kao mjera odstupanja uzoračkih podataka od jednačine regresije koristi se statistika

Page 160: Statistika - Djuro Mikulic

koja se naziva standardna greška regresije. Njen kvadrat predstavlja uzoračku ocjenuvarijanse slučajnih odstupanja ei. Ova ocjena ima n-3 stepena slobode, zbog tri linearne vezepri ocjeni nepoznatih parametara modela.

Primjer 7.7 Na osnovu podataka o prinosu pšenice, utrošku prihrane i zasijanojpovršini u 10 radnih organizacija, koji su prikazani u tabeli, ocijeniti jednačinu regresije iizračunati standardnu grešku regresije:

Poljoprivredneorganizacije

Prosječan prinospšenice, t/ha

yj

Utrošak prihrane,t/haX1i

Zasijanapovrš. (00)ha

X2i

A 4,5 0,7 9B 5,1 1,0 10C 5,8 1,0 14D 5,2 0,9 12E 6,1 1,2 9F 4,8 0,7 12G 4,3 0,6 10H 5,5 1,0 13I 5,0 0,8 11J 5,7 1,1 10

U trodimenzionalnom rasporedu ovih deset jedinica, prinos pšenice se uzima kaozavisno-promjenljiva (Y), a utrošak mineralnog gnojiva i veličine površine pod pšenicom sunezavisno-promjenljive(x1, x2).

Za formiranje prethodnog sistema jednačina potrebni su kvadrati i proizvodipromjenljivih, prikazani u radnoj tabeli:

Red.broj y x1 x2 y2 x1y x1y x1x2

1 4,5 0,7 9 20,25 0,49 81 3,15 40,5 6,32 5,1 1,0 10 26,01 1,00 100 5,10 51,0 10,03 5,8 1,0 14 33,64 1,00 196 5,80 81,2 14,04 5,2 0,9 12 27,04 0,81 144 4,68 62,4 10,85 6,1 1,2 9 37,21 1,44 81 7,32 54,9 10,86 4,8 0,7 12 23,04 0,49 144 3,36 57,6 8,47 4,3 0,6 10 18,49 0,36 100 2,58 43,0 6,08 5,5 1,0 13 30,25 1,00 169 5,50 71,5 13,09 5,0 0,8 11 25,00 0,64 121 4,00 55,0 8,8

10 5,7 1,1 10 32,49 1,21 100 6,27 57,0 11,0Σ 52,0 9,0 110 273,42 8,44 1236 47,76 574,1 99,1

Aritmetičke sredine, varijanse i standardne devijacije uzoračkih vrijednosti su:

y=5,2 ; =0,33556 ; =0,57927

=0,9 ; =0,3778 ; =0,19436

Page 161: Statistika - Djuro Mikulic

=11 ; =2,88889 ; =1,69967

Sistem tri normalne jednačine je:

10 a + 9 b1 + 110 b2 = 529a + 8,44 b1 + 99,1 b2 = 47,76

110 a + 99,1 b1 + 1236 b2 = 574,1

Determinante sistema i nepoznatih su:

= 88,3 ; = 168,4 ; = 247,5 ; = 6,18

Odatle su vrijednosti koeficijenata ( b1 i b2 su ujedno i parcijalni koeficijent) jednake:

Ocjenjena regresiona jednačina je

Počevši od prosječnog početnog nivoa l,91 t/ha, prinos se povećava pri promjeninivoa posmatranih činilaca. Prosječno povećanje prinosa po hektaru je 2,8 t za tonu prihrane,uz konstantan obim površina. Prinos se, međutim, vrlo malo mijenja pri promjeni obimapovršina. Prosječna promjena je samo 0,07 t za povećani obim površine od 100 ha, pri čemuje isključeno djelovanje prihrane.

Do iste ocjene koeficijenata dolazi se i na osnovu vrijednosti promjenljivih, datih uodstupanjima od aritmetičke sredine.

Za formiranje sistema normalnih jednačina potrebno je izračunati sljedeće sumekvadrata i sume proizvoda promjenljivih:

Zamjenom se dobija:

Page 162: Statistika - Djuro Mikulic

Determinante sistema i determinante nepoznatih su:

; ;

nekorelirane, tj. ; i¹j. Iz ove dvije pretpostavke slijedi da su ei i ej za i¹j i nezavisne.

Ako se standardne devijacije σ zamijene ocjenom Se dobijaju se standardne greškeregresionih koeficijenata:

i

Statistika

; j=1,2

ima t-raspodjelu sa v = n - 3 stepeni slobode. Ova činjenica se može iskoristiti za testiranje

hipoteze H0: = , protiv jedne od alternativnih hipoteza: Ha; ¹ ili Ha: > , Ili

Ha: < ,, j=l,2. Često je od interesa da se ispita značajnost koeficijenata , tj. da se

testira hipoteza H0: =0, protiv alternativne Ha: ¹0; j=l,2. Realizacija prethodne statistike

za =0

upoređuje se sa tabličnom vrijednošću . Ako je hipoteza H0 se odbacuje nanivou značajnosti a, a u protivnom nema osnova za njeno odbacivanje.

Pomoću prethodne statistike može se dobiti 100(1-a)% interval pouzdanosti zanepoznati koeficijent bj ; j=1,2, tj.:

Primjer 7.8 Testirati značajnost regresionih koeficijenata b1 i b2, na osnovuocjenjenih vrijednostib1, i b2 iz primjera 7.7, na nivou značajnosti 0,05 i 0,01. Odrediti 95%interval povjerenja za nepoznate parametre b1 i b2.

Page 163: Statistika - Djuro Mikulic

Ovdje je

Treba testirati hipotezu H0: = , na osnovu uzoračke realizacije statistike zaj=l. S obzirom da je:

i da je i , tj. hipoteza H0 se odbacuje na oba zadana nivoaznačajnosti. Odbacivanjem hipoteze H0 potvrđuje se uticaj promjenljive X1 (mineralnihgnojiva) na prinos pšenice, pri konstantnom uticaju promjenljive X2 (obima zasijanepovršine).

Drugi individualni test odnosi se na testiranje nulte hipoteze H0: = . Sobzirom da je

i da je , nema osnova za odbacivanje nulte hipoteze.

Interval pouzdanosti koji sa vjerovatnoćom 0,95 pokriva nepoznati parametar je:

e interval pouzdanosti koji sa vjerovatnoćom 0,95 pokriva nepoznati parametar je

Page 164: Statistika - Djuro Mikulic

7.4.1.1 Analiza varijanse

Slično kao što je pokazano kod proste linearne regresije, i ovdje se može pokazati dase ukupna suma kvadrata variranja može razložiti na sumu kvadrata regresionog variranja isumu kvadrata greške:

odnosno

SSU = SSR + SSG

Suma kvadrata ukupnog variranja ima (n-l) stepeni slobode zbog jedne linearnerelacije izmedju iYi; i=l,2,...,n. Kao što smo rekli, suma kvadrata greške ima n-3 stepenislobode. Prema tome, suma kvadrata regresionog variranja ima 2 stepena slobode.

Može se pokazati da u slučaju kada je b1=b2=0 statistika

ima F-raspodjelu sa v1=2 i v2=n-3 stepeni slobode. Ova činjenica se može iskoristiti zatestiranje hipoteze H0: b1=b2=0, protiv alternativne Ha: (b1¹0)v(b2¹0) . Ako je izračunatavrijednost FUZ F-statistike veća od tablične na zadanom nivou značajnosti a, tj Fuz>Fa/2;n-3,nulta hipoteza se odbacuje. U protivnom nema osnova za odbacivanje nulte hipoteze.

Rezultati analize varijanse obično se predstavljaju u tabeli analize varijanse:

Tabela analize varijanse za linearnu regresiju dvije

nezavisno-promjenljiveIZVORI

VARIJANSESUME

KVADRATASTEPENI

SLOBODESREDINE

KVADRATAF-

KOLIČNIKREGRESIJA

(X1,X2)2

GREŠKA n-3

UKUPNO n-1

Page 165: Statistika - Djuro Mikulic

7.4.1.2 Interpolacija i ekstrapolacija

Slično kao i kod proste regresije, i ovdje je moguće testirati hipoteze i formiratiintervale pouzdanosti za interpolirane i ekstrapolirane vrijednosti, pod pretpostavkom da jeosnovni skup (x1, x2,Y) normalno raspoređen.

Statistika

ima t-raspodjelu sa (n-3) stepeni slobode, pri čemu je sa označeno M(Y/X1=x10,X2=x20).

Na osnovu prethodne statistike može se testirati hipoteza o prosječnoj interpoliranojili ekstrapoliranoj vrijednosti zavisno-promjenljive Y. Međutim, od većeg praktičnog značajaje utvrđivanje intervala pouzdanosti.

Interval

sa vjerovatnoćom (1-a) pokriva nepoznati parametar .

Za i je

, odnosno

Zamjenom varijanse s2 uzoračkom ocjenom dobija se kvadrat standardne greške:

Statistika

ima t-raspodjelu sa (n-3) stepeni slobode.Odavde je 100(1-a)%-ni interval pouzdanosti za stvarnu vrijednost zavisno-

promjenljive:

. U slučaju kada je n ³ 30 umesto t-raspodjele koristi se normalna raspodjela.

Page 166: Statistika - Djuro Mikulic

Primjer 7.9 Za podatke iz primjera 7.7 odrediti 95%-tni interval pouzdanosti zaprosječnu i stvarnu vrijednost zavisno-promjenljive za x10=0,6 i x20=10.

Interval povjerenja za prosječnu vrijednost zavisno-promjenljive računa se na osnovu:

Dakle, za određivanje 95%-tnog intervala pouzdanosti treba izračunati za za x10=0,6 ix20=10 na osnovu ocjenjene jednačine regresije iz primjera 7.7, pa je:

Za a=0,05 i n=n-3=10-3=7 stepeni slobode kvantil t-raspodjele je t0,025;7=2,36.

Standardna greška regresione vrijednosti za x10=0,6 i x20=10 prema je:

Granice intervala pouzdanosti su:

Prosječan prinos pšenice po hektaru, pri utrošku 0,6 t prihrane i l000ha površine,procjenjuje se na između 4 i 4,5t sa pouzdanošću 95%.

Individualni prinos pšenice po hektaru za iste vrijednosti nezavisno-promjenljivihizračunava se na osnovu:

Standardna greška ove ocjene je:

pa je:

Page 167: Statistika - Djuro Mikulic

Dakle, individualni prinos pšenice je pokriven intervalom (3,84t/ha; 4,47t/ha) sa95% pouzdanosti.

7.4.2 Višestruka korelacija

U modelu sa dvije promjenljive jačina korelacione zavisnosti, kao što je pokazano,mjeri se koeficijentom proste korelacije. Kada se u model uključi još jedna promjenljiva ondase i broj pokazatelja korelacione zavisnosti povećava.

Tako se pomoću koeficijenta proste korelacije može mjeriti jačina korelacionezavisnosti između svake dvije od tri posmatrane promjenljive. Može se mjeriti i jačinazajedničkog uticaja dvije promjenljive na treću. Odgovarajući pokazatelj se naziva koeficijentvišestruke korelacije. Takođe se može mjeriti jačina korelacione zavisnosti između dvijepromjenljive pri isključenom uticaju treće promjenljive. U ovom slučaju odgovarajućipokazatelji se nazivaju djelimični (parcijalni) koeficijenti korelacije. Za potpuno sagl-edavanje stepena korelacione zavisnosti treba izračunati sva tri tipa pokazatelja.

Proporcionalni udio ukupnog varijabiliteta zavisno-promjenljive Y objašnjen jeuticajem nezavisno promjenljivih X1 i X2, a izražava se kao količnik suma kvadrataregresionog i ukupnog variranja, tj.

Ovaj pokazatelj predstavlja mjeru jačine zajedničkog djelovanja promjenljivih X1 iX2 na promjenljivu Y, i naziva se uzorački koeficijent višestruke determinacije. Kvadratnikorijen ovog pokazatelja predstavlja uzorački koeficijent višestruke korelacije:

Iz relacije (7.120) vidi se da je apsolutna vrijednost koeficijenta višestruke korelacijeizmeđu 0 i 1. Vrijednost ovog pokazatelja može se interpretirati slično kao i vrijednostprostog koeficijenta korelacije.

Uzorački koeficijent višestruke korelacije može se izraziti pomoću uzoračkihkoeficijenata djelimične korelacije. Korišćenjem već pomenutog izraza za SSR i uzoračkihocjena koeficijenta regresije može se pokazati da je:

Odavde se vidi da u slučaju funkcionalne linearne zavisnosti između promjenljivihX1 i X2 vrijednost koeficijenta višestruke korelacije nije definisana.

Page 168: Statistika - Djuro Mikulic

Primjer 7.10 Na osnovu podataka iz primjera 7.7 ocijeniti višestruki koeficijentkorelacije.

U posmatranom odnosu prinosa pšenice (Y) , primjene prihrane (X1) i zasijanepovršine (X2) koeficijenti proste korelacije su:

r01=0,94739; r02=0,23699; r12=0,03363

U navedenom primjeru, sume kvadrata objašnjenog i ukupnog variranja već su

izračunate i date u tabeli analize varijanse:

Na osnovu veličine korelacionog koeficijenta, zaključuje se da je ukupni uticajnezavisno-promjenljivih na zavisno-promjenljivu vrlo veliki. Determinacija prinosa pšeniceutroškom mineralnih gnojiva i obimom površine je:

Koeficijent višestruke korelacije se može računati i na osnovu koeficijenata prostekorelacije r01, r02 i r12, korišćenjem prethodno obrađene relacije

Dobijena razlika nastala je zbog greške zaokruživanja brojeva.

Značajnost koeficijenata višestruke korelacije može se testirati pomoću statistike

koja u slučaju kada je r0×12=0 ima F-raspodjelu sa n1=2 i n2=n-3 stepeni slobode. Zatestiranje hipoteze H0: r0×12=0 protiv alternativne Ha: r0×12¹0 izračunata F-vrijednost seuporedjuje sa tabličnom vrijednošću . Ako je F> nulta hipoteza se odbacuje nanivou značajnosti a, u korist alternativne hipoteze. U protivnom, nulta hipoteza se neodbacuje. Ovaj test je identičan testu hipoteze H0: b1=b2=0 kod višestruke regresije.

Primjer 7.11 Testirati značajnost koeficijenata korelacije koji su ocjenjeni u primjeru7.10.

Za koeficijent višestruke korelacije uzoračka vrijednost F statistike, na osnovuprethodne statistike je:

Page 169: Statistika - Djuro Mikulic

Tablične vrijednosti za a=0,05 i a=0,01 i za n1=2 i n2=n-3=10-3=7 su F0,05;2;7=4,74 iF0,01;2;7=9,55, što znači da se odbacuje nulta hipoteza H0:r0×12=0 da ni jedna objašnjavajućapromjenljiva (Xl,X2) nema uticaja na zavisno-promjenljivu (Y). Isti rezultati su dobijeni prianalizi varijanse regresije.

Prema prethodno izvedenim t-testovima, jasno je, međutim, da značajne promjenezavisno-promjenljive potiču samo od jedne nezavisno-promjenljive.

7.5 Krivolinijska regresija i korelacija

U prethodnim poglavljima razmatrali smo modele linearne korelacione zavisnosti.Posmatrane jednačine regresije bile su linearne po promjenljivima, ali, takođe, i ponepoznatim parametrima. Linearnost po nepoznatim parametrima, kao što je pokazano,omogućuje da se oni ocijene metodom najmanjih kvadrata. Linearnost po promjenljivimaomogućuje da se, polazeći od pretpostavki vezanih za raspodjelu greške, izvedu zakoniraspodjele uzoračkih statistika, koji su potrebni za testiranje hipoteza i debljanje intervalapouzdanosti. Može se pokazati da ako se pretpostavka o normalnoj raspodjeli greške izostavi,pri dovoljno opštim uslovima, dobijeni zakoni raspodjele uzoračkih statistika važe u

asimptotskom slučaju,tj. za dovoljno velikiobim uzorka.

Prilikomispitivanja korelacionezavisnosti izmedju dvaobilježja često se dešavada dijagram rasturanjasugeriše različitekrivolinijske oblikezavisnosti. Neki od tihoblika šematski su prik-azani na prethodnojslici.

Na osnovuovakvih rasporeda tačaka jasno je da pravolinijski regresioni model nije adekvatan. Primjenatog modela bila bi pogrešna, a dobijene ocjene lišene bilo kakvog smisla. Jasno je da bi, zaodgovarajuće podatke, trebalo ocijeniti neki od krivolinijskih modela.

Ako je krivolinijski model linearan po nepoznatim parametrima i sa aditivnomslučajnom komponentom, može se analizirati pomoću procedure koja je izložena uprethodnim poglavljima. Neki modeli koji ne ispunjavaju ovaj uslov, transformacijamapromjenljivih takođe se mogu dovesti u oblik linearan po nepoznatim parametrima, ianalizirati sličnom metodologijom.

Page 170: Statistika - Djuro Mikulic

7.5.1 Prosta kvadratna regresija i korelacija

Kvadratni model

; i=1,2,....jednostavnom smjenom

; i=1,2,...može se dovesti na oblik:

; i=1,2,....

Normalne jednačine, za ocjenu nepoznatih parametara a, b i g pomoću uzoračkihposmatranja (Xi;Yi) postaju:

Ocjene i testovi kod ovog modela isti su kao i kod višestruke linearne regresije ikorelacije, s tim što je uobičajeno da se umjesto koeficijenta višestruke korelacije r0×12, čijase uzoračka ocjena označavala sa , a vrijednost uzoračke ocjene sa r0×12, ovdje koristitermin indeks korelacije , čija je uzoračka ocjena I, a vrijednost uzoračke ocjene i. Vrijednostiuzoračkih ocjena a, b i g obično se označavaju sa a, b i c, respektivno.

Primjer 7.12 Podaci o količini jednog aditiva koji se koristi u ishrani pilića idnevnom prirastu mase dati su u tabeli.

Izvršiti regresionu i korelacionu analizu zavisnosti ova dva obilježja. Testiranjaizvršiti na nivou značajnosti a=0,05.

Odrediti 95%-tne intervale povjerenja za prosječnu i individualnu vrijednost prirastapri upotrebi 7gr aditiva po kg hrane.

Page 171: Statistika - Djuro Mikulic

Grafički prikaz odnosa nezavisno-promjenljive (količine preparata) i zavisno-promjenljive (dnevnog prirasta) dat je na slici (a). Prema dijagramu rasturanja na slici (a)očigledna je krivolinijska tendencija promjena prirasta pri povećanju količine preparata.

Za formiranje normalnih jednačina koriste se podaci radne tabele:

0,5 0,54 0,25 0,125 0,0625 0,270 0,1350 0,29161,0 0,60 1,00 1,000 1,0000 0,600 0,6000 0,36001,5 0,63 2,25 3,375 5,0625 0,945 1,4175 0,39692,0 0,65 4,00 8,000 16,0000 1,300 2,6000 0,42252,5 0,72 6,25 15,625 39,0625 1,800 4,5000 0,51843,0 0,69 9,00 27,000 81,0000 2,070 6,2100 0,47613,5 0,73 12,25 42,875 150,0625 2,555 8,9425 0,53294,0 0,77 16,00 64,000 256,0000 3,080 12,3200 0,59294,5 0,75 20,25 91,125 410,0625 3,375 15,1875 0,56255,0 0,79 25,00 125,000 625,0000 3,950 19,7500 0,62415,5 0,77 30,25 166,375 915,0625 4,235 23,2926 0,59296,0 0,76 36,00 216,000 1296,0000 4,560 27,3600 0,5776

39,0 8,40 162,50 760,000 3794,3750 28,740 122,3150 5,9484

Količina preparatagr/kg hrane

Dnevniprirast kg

0,5 0,541,0 0,601,5 0,632,0 0,652,5 0,723,0 0,693,5 0,734,0 0,774,5 0,755,0 0,795,5 0,776,0 0,76

Page 172: Statistika - Djuro Mikulic

; ;

Na osnovu dobijenih suma sistem normalnih jednačina postaje:

12,0 a + 39,0 b + 162,500 c = 8,400

39,0 a + 162,5 b + 760,500 c = 28,740162,5 a + 760,5 b + 3794,375 c = 122,315

Determinante sistema i nepoznatih parametara a, b i c su:

D=35785,755; Da=17779,012; Db=3658,2975; Dc=-341,055 Ocjene parametara kvadratne regresije su:

; ;

Ocjena jednačine regresije na osnovu uzoračke informacije je:

Koliko je ocjenjena kvadratna funkcija prilagođena stvarnom odnosu pojava može sevidjeti na slici (b). Ocjenjena linija ucrtana je na osnovu izračunatih vrijednosti zauzoračke vrijednosti nezavisno-promjenljive:

Stvarne i ocjenjene vrijednosti zavisno-promjenljive, njihove razlike i kvadrati razlikaprikazani su u tabeli.

Ocjena standardne greške regresije je:

Page 173: Statistika - Djuro Mikulic

Za analizu varijanse kvadratne regresije sume kvadrata se računaju na uobičajeninačin:

SSG=SST – SSR = 0,0684 – 0,0656 = 0,0028

0,5 0,54 0,54554 -0,00554 0,00003071,0 0,60 0,58952 0,01048 0,00010981,5 0,63 0,62872 0,00128 0,00000162,0 0,65 0,66315 -0,01315 0,00017292,5 0,72 0,69282 0,02718 0,00073883,0 0,69 0,71773 -0,02773 0,00076903,5 0,73 0,73787 -0,00787 0,00006194,0 0,77 0,75324 0,01676 0,00028094,5 0,75 0,76385 -0,01385 0,00019185,0 0,79 0,76970 0,02030 0,00041215,5 0,77 0,77077 -0,00077 0,00000068,0 0,76 0,76709 -0,00709 0,0000503

8,40 8,40000 0,00000 0,0028204

U regresionom variranju ocjenjenom prema modelu kvadratne funkcije postoje dvijekomponente: linearna i kvadratna, tj. SSR se može napisati kao:

SSR = SSRL + SSRK

Ako se izračuna ocjena koeficijenta linearne regresije

Dobija se suma kvadrata linearne komponente, tj.

pa je

Page 174: Statistika - Djuro Mikulic

SSRK = SSR – SSRL = 0,0656-0,0580 = 0,0076Analiza dobijenih rezultata prikazana je u tabeli analize varijanse.

Na osnovu tabličnih vrijednosti F-raspodjele, F0,05;2;9=4,26 i F0,01;2;9=8,02 i izračunaterealizacije Fuz, hipoteza Ho : b=g=0 se odbacuje.

IZVORI

VAR I J A N S ESUME KVADRATA ST. SL. SREDINE

KVADRATAF-KOLIČNIK

REGRESIJA (X,X2)

LINEARNA (X)

KVADRATNA (X2)

GRE[KA

SSR= 0,0656SSRL=0,0580SSRK=0,0076

SSG= 0,0028

2

1

1

9

MSR=0,0328MSRL=0,0580MSRK=0,0076

MSG=0,0003

FUZ=105,8**

FL =187,1**

FK =24,52**

UKUPNO SSu = 0,0684 11

Proste hipoteze Ho : b=0 i Ho : g=0 testiraju se t-testom. Za provjeru Ho : b=0vrijednost T-statistike je

jer je:

Vrijednost T statistike za provjeru nulte hipoteze Ho : g=0 je

jer je:

Iz tablica t-raspodjele čita se kritična vrijednost ta/2;n-3 za a=0,05 i a=0,01(t0,025;9=2,26; t0,005;9=3,25) i dobija se da je êtú > ta/2;n-3 , što znači da se nulte hipotezeodbacuju na oba nivoa značajnosti. Dakle, jednačina regresije mora da sadrži i linearni ikvadratni član.

Vrijednost koeficijenta determinacije krivolinijske regresije je:

(95,91%)

Page 175: Statistika - Djuro Mikulic

Indeks krivolinijske korelacije je:

Na osnovu vrijednosti koeficijenta determinacije zaključuje se da dodavanje preparatau ishrani objašnjava variranje prirasta sa 96%. Može se zaključiti da je stepen slaganjaposmatranih pojava sa izabranim tipom regresione funkcije vrlo visok.

Za provjeru nulte hipoteze Ho : i=0 treba izračunati realizaciju F-statistike

S obzirom da su kritične vrijednosti, F0,05;2;9=4,26 i F0,01;2;9=8,02 manje od izračunate,postavljena hipoteza Ho se odbacuje.

Za ocjenu intervala povjerenja prosječne i individualne vrijednosti nezavisno-promjenljive, treba izračunati vrijednost ocjene zavisno-promjenljive i grešku te ocjene, uzavisnosti od tipa intervala povjerenja.Za xo=7 ocjena zavisno-promjenljive je:

Prosječna vrijednost zavisno-promjenljive u (1-a) 100% slučajeva pokrivena jeintervalom

, odnosno

0,74546-2,26×0,0304<Y0<0,74546+2,26×0,0304

0,677<Y0<0,814

Dnevni prirast pojedinih grla biće u 95% slučajeva pokriven intervalom od 0,677 do0,814gr.

Page 176: Statistika - Djuro Mikulic

8. RELATIVNI BROJEVI

- STATISTIČKO ISPITIVANJE DINAMIKE POSLOVANJA -

8. 1 Indeksi

Indeksni statistički pokazatelji su numeričke karakteristike strukture i dinamikesocioekonomskih masovnih pojava i procesa kao što su: obim i dinamika radnih imaterijalnih resursa, planiranje, struktura i dinamika proizvodnih snaga, produktivnost rada,visina zarada, društvena proizvodnja, nacionalni dohodak i fizički obim proizvodnje,proizvodni rashodi, cijene, njihovo formiranje i ponašanje, fizički obim prometa, kretanježivotnog standarda, troškovi života itd.

Za izučavanje masovnih pojava i procesa poslovna statistika koristi integralnepokazatelje koji predstavljaju jednoznačno standardizovanu kvantitativnu mjeru izražavanjaopšte tendencije promjena i parcijalne čiji zbir kvantitativno izraženih dinamičkih ocjenaprocesa ili pojave se koristi kao baza za integralni pristup.

8.1.1 Individualni indeksi

Individualni indeksi su relativni pokazatelji odnosa individualnih podataka, a koristese u dinamičkoj analizi statističkih skupova i procesa čije se promjene posmatraju kao

slučajne funkcije jednog argumenta (promjenljive) u vremenu, oblika .

U empirijskim istraživanjima obično se umjesto analitičke interpretacije slučajnefunkcije služimo skupom slučajnih veličina koje obrazuju dinamički niz za skup sukcesivnih

vremenskih intervala ili momenata , i . Dinamikom promjenaekonomskih pojava, koje se prate pomoću nizova podataka i njihovih varijacija u funkcijivremena, ispituju se razvojne tendencije i vrši prosuđivanje o njenom tempu promjena. Toispitivanje daje odgovor na pitanje kako možemo originalnim podacima vremenske serijeprilagoditi jedan oblik matematičke funkcije koji u konkretnom slučaju izražava zakonrazvitka pojave. Upravo konstrukcijom individualnih indeksa statistički podaci (nivoi pojave)se međusobno (referentno) upoređuju prema određenom kriteriju, iskazujući individualno i uprosjeku poslovni ritam. Ako se upoređivanje podataka vrši u odnosu na jedan odabranipodatak koji proglašavamo za bazu poređenja, tada se izračunati indeksi nazivaju bazni, tj.indeksi sa stalnom bazom. Ako je izbor baze otežan zbog ekstremnih vrijednosti, za bazu sepreporučuje prosjek serije, jer se time izravnavaju individualna kolebanja, tj. vremenski niz.

Ako se vrši upoređivanje svakog tekućeg sa susjednim prethodnim nivoom pojave,koji se uzima kao baza prethodnog, tada se izračunati indeksi nazivaju lančani, tj. indeksi sapromjenljivom bazom.

Bazni indeksi: Relativni brojevi kojima se izražavaju promjene apsolutnihvrijednosti vremenskog niza u odnosu na baznu veličinu, koja je skalarna i različita od nule,nazivaju se bazni indeksi. Ako se pojedinačne vrijednosti posmatrane pojave u vremenskom

Page 177: Statistika - Djuro Mikulic

nizu označe sa , , a za baznu vrijednost se odredi izvjesna vrijednost iz skupa i

označi sa , onda se bazni indeksi izračunavaju primjenom relacije: , gdjeje broj podataka u vremenskoj seriji, a oznaka niza baznih indeksa, tj. individualnihrelativnih promjena.

Lančani indeksi: Ako se nivoi pojave međusobno upoređuju tako da se za osnovu ilibazu upoređivanja koristi svaki prethodni podatak u odnosu na naredni tj. ako se svakipodatak relativizuje prema prethodnom, koji se ponaša kao njegova baza, tada izračunatiindividualni indeksi imaju promjenljivu bazu i zovu se lančani (verižni) indeksi. Lančanimindeksima se izražavaju sukcesivne stope rasta, gdje se sukcesivnom promjenom bazeizravnavaju periodične varijacije. Kada se za baznu vrijednost uzme podatak iz prethodnogperioda, dobija se lančani indeks koji se izračunava na osnovu

relacije: , , gdje je oznaka niza lančanih indeksa, a broj nivoa(podataka) vremenskog niza. Lančani indeksi pokazuju tempo razvoja tj. brzinu kretanja(promjenu) posmatranih vrijednosti u odnosu na bazne, a njihova numerička vrijednost variraoko broja 100. I lančani i bazni indeksi predstavljaju računsko praćenje promjena pojave kojase zasniva na tom da se apsolutne vrijednosti zamijene relativnim.

Primjer 8.1: Izračunati bazne i lančane indekse i iste grafički prikazati na osnovuslijedećih podataka:

Godine Proizvodnja Bazni indeksi Lančani1995=100 2000=100 indeksi

1995 13,8 100,0 127,7 -1996 14,6 105,8 135,2 105,81997 12,6 91,3 116,7 86,31998 11,8 85,5 109,3 93,71999 12,1 87,7 112,0 102,52000 10,8 78,2 100,0 89,32001 11,4 82,6 105,6 105,62002 10,6 76,8 98,2 93,02003 11,3 81,9 104,6 106,62004 11,1 80,4 102,8 98,2

Page 178: Statistika - Djuro Mikulic

a) Bazni indeksi – grafički prikaz

1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

b) Lančani indeksi – grafički prikaz

Pomoću lančanih indeksa može se utvrditi prosječna stopa rasta posmatrane pojavepreko izračunavanja njihove geometrijske sredine, tako da u navedenom primjeru imamo:

; što znači da je u prosjeku prodaja u periodu od 1995 do 2004.godine opadala za 2,39 indeksnih poena. Takođe se može vršiti transformacija(preračunavanje) baznih indeksa u lančane i obrnuto, transformacija baznih indeksa po jednojbazi u bazne indekse po drugoj bazi itd. Lančani indeksi preračunavaju se u bazne

primjenom relacije: za godine koje prethode izabranoj bazi i: za godinekoje slijede izabranoj bazi.

Page 179: Statistika - Djuro Mikulic

Preračunavanje baznih indeksa po jednoj bazi u bazne indekse po drugoj vrši se naslijedeći način:

· period (godina) koji odredimo za bazni označavamo sa 100,· novi bazni indeks za bilo koji period dobićemo ako dijelimo raniji bazni indeks tog

perioda sa baznim indeksom po ranijoj bazi iz perioda koji je odabran za novubazu, množeći pri tom dobijeni rezultat sa 100.

Individualni indeksi mogu biti vremenski ili dinamički, prostorni ili geografski,indeksi planskih zadataka i indeksi izvršenja plana.

8.1.2 Grupni indeksi

Grupni indeksi se primjenjuju pri izražavanju zajedničke varijacije tj. zajedničkihrelativnih promjena više srodnih pojava ili procesa koji se ponašaju kao složen kompleks. Tou ekonomskim istraživanjima mogu biti neke kategorije kao što su cijena, fizički obimproizvodnje i prometa, vrijednost uvoza i izvoza itd. Zajedničke varijacije više srodnih pojavamogu se u prosjeku izražavati na dva načina:

· metodom srednjih vrijednosti, tj. izračunavanjem srednjih grupnih indeksa i· metodom agregata tj. konstrukcijom agregatnih indeksa.

Metoda srednjih grupnih indeksa tj. metoda prosječnih odnosa se primjenjuje nadinamički niz dat u obliku individualnih indeksa koji zamjenjuju originalne apsolutnevrijednosti uz korištenje aritmetičke, geometrijske, harmonijske, medijalne i drugih sredina,odnosno drugih postupaka uprosječavanja.

Činjenica da sve komponente nemaju isti udio u ukupnom varijabilitetu koji trebaimati u vidu prilikom izračunavanja individualnih indeksa, nalaže potrebu uvođenja metodeponderacije. Izborom odgovarajućeg podesnog pondera za svaku od sastavnih komponentisložene pojave daje se odgovarajući značaj (težina) koju ona ima u strukturi pojave kojuposmatrani srednji indeks treba da izražava. Cilj ponderacije je postizanje reprezentativnostigrupnog indeksa kao kvantitativno sintetičke mjere varijabiliteta. Ako se za ponder

individualnih indeksa, grupe srodnih pojava, uzme vrijednost u baznoj godini ( ) ondase grupni indeksi izračunavaju u vidu ponderisanja aritmetičke sredine:

što izražava strukturu u baznoj godini.

Ako se za ponder individualnih indeksa uzme vrijednost proizvodnje tekuće godine

( ) onda se grupni indeksi izračunavaju u vidu harmonijske sredine individualnihindeksa:

Page 180: Statistika - Djuro Mikulic

što pokazuje strukturu pojave u posmatranom periodu.

Grupni indeks na osnovu prosjeka zasniva se na individualnim indeksnim brojevima,pa mu je primjena ograničena na male grupe srodnih proizvoda. Za veće grupe srodnihproizvoda koriste se obračunski agregati kao zbirovi združenih elemenata ( ) koji se zasvaki proizvod sabiraju, što daje obračunski agregat ( ):

Ovaj agregat je homogen, pošto su njegovi elementi iz istog (baznog) perioda, tako

da predstavlja realnu knjigovodstvenu veličinu. Zbog heterogenog agregata ( ) kaonedostatka navedenog obrasca, za izračunavanje grupnog indeksa koristi se harmonijskasredina individualnih indeksa:

U ovom obrascu heterogeni agregat ( ) zasnovan je na poznavanju struktureproizvodnje u baznoj godini i tekućoj cijeni koja se uzima iz cjenovnika, tako da je komforanza primjenu. Oba obrasca imaju istu analitičku vrijednost, ali ne daju istu numeričkuvrijednost grupnog indeksa zbog različitog izbora cijena. Agregatni (grupni) indeksi koji senajčešće javljaju i izračunavaju primjenom navedena dva metoda su:

1. grupni indeksi fizičkog obima proizvodnje i prometa:

· metodom prosječnih odnosa:

ili· metodom agregata (totalnih odnosa):

ili

2. Grupni indeks cijena

Mjerenje relativnih promjena u nivou cijene za više proizvoda je zadatak grupnihindeksa cijena čiji osnov za izračunavanje čine sljedeća dva obrasca:

Page 181: Statistika - Djuro Mikulic

Metodom prosjeka:

, odnosno

Metodom agregata:

, Laspaerov indeks ,Pašeov indeks

Aditivnom ili aplikativnom metodom navedena dva indeksa izračunava se idealni

agregatni indeks ( ) cijena: ili

3. grupni indeks troškova života:· metodom srednjih vrijednosti:

gdje predstavlja strukturu vrijednosti nabavljenih proizvoda i

usluga, a i prosječne cijene u tekućem (baznom) periodu

4. grupni indeksi vrijednosti proizvodnje i prometa:· metodom agregata (totalni odnosi):

5. grupni indeks ispunjenja plana proizvodnje (prometa):· metodom srednjih vrijednosti:

, gdje kao ponder ( ) služi planirana vrijednost proizvodnje· metodom agregata (totalnih odnosa):

ili , gdje kao ponder (p1q1) služi ostvarena vrijednosti

Primjer 8.2 Na bazi podataka iz sljedeće tabele izračunati:

1. grupni indeks fizičkog obima proizvodnje:· metodom srednjih vrijednosti· metodom agregata

2. grupni indeks cijena:· metodom srednjih vrijednosti· metodom agregata

Page 182: Statistika - Djuro Mikulic

3. grupni indeks vrijednosti proizvodnje:· metodom agregata

4. grupni indeks ispunjenja plana proizvodnje· po vrijednosti· po fizičkom obimu

Napomena: za pondere uzimati bazne vrijednosti.

PROIZVODNJA CIJENAIII '94. ( ) III '95. ( ) III '94. ( ) III '95.

( )A 200 450 60 110B 300 500 55 90C 400 600 35 60D 150 350 50 80

Apsolutne promjene obima proizvodnje i cijena u posmatranim i baznim periodimaza proizvode A, B, C i D zamijeniti sa relativnim, primjenom zadanih indeksa.

Izrada:

1. a) ,što znači da se fizički obim proizvodnje 1995. g. u odnosu na 1994. u prosjekupovećao za 86%.

b) ;provjera prosječnog povećanja fizičkog obima proizvodnje metodom agregata

2. a) , što znači da se cijena 1995. u odnosu na 1994. g.u prosjeku povećala za 70%

b) ; provjera prosječnog povećanja cijene metodom agregata

3. a) , što pokazuje da se vrijednost proizvodnje 1995. uodnosu na 1994. u prosjeku povećala 317%

Page 183: Statistika - Djuro Mikulic

4. a) , što znači da je plan po vrijednosti prebačen u prosjekuza 4 %

b) , što pokazuje da je plan po fizičkom obimu proizvodnjeu prosjeku podbačen za 8%.

8.1.3 Testiranje indeksa

Prilikom izbora formule koja najbolje odgovara smislu izračunavanja indeksa može seprimijeniti testiranje dosljednosti svakog indeksa pojedinačno, koristeći test vremenskereverzbilnosti, test faktorske reverzibilnosti i test cirkularnosti.

Test vremenske reverzibilnosti, tj. obrnutog odnosa, zasniva se na činjenici dakorištena formula za indeks mora ispunjavati sljedeći uslov:

.

Iz navedenog uslova se vidi da se inverzijom bazne i tekuće vrijednosti ostvarujerecipročnost indeksa, a u obrnutom slučaju pojavila bi se izvjesna mjera pristrasnosti.

Kod individualnih indeksa ovaj uslov je uvijek ispunjen, a time i zadovoljen testvremenske reverzibilnosti. Od neponderisanih grupnih indeksa vremensku reverzbilnostispunjavaju svi agregatni indeksi, dok od indeksa izračunatih po metodu srednjih vrijednostisamo geometrijski. Proizvod aritmetičkih indeksa je uvijek iznad, a harmonijskih ispodjedinice.

Uslov faktorske reverzibilnosti treba da zadovolje individualni i grupni indeksi jerindeks količina pomnožen indeksom cijena treba da da indeks vrijednosti, zato što količinarobe (q) pomnožena cijenom (p) daje vrijednost (pq), odnosno:

Test faktorske reverzibilnosti takođe zadovoljavaju individualni indeksi, kao iFisherov idealni indeks, dok grupni indeksi, ponderisani ponderacionim faktorima iz baznogili posmatranog perioda, pokazuju pristrasnost.

Test cirkularnosti zadovoljavaju indeksi čiji je proizvod jednak odnosu nivoaposmatrane pojave u krajnjem i početnom periodu, što znači:

Ip (krajnji period x početni) = Ip (krajnji period x srednji) Ip (srednji period x početni)

Kada je ovaj test zadovoljen, indeksi se mogu preračunavati sa jedne na drugu bazu.Ovaj test takođe zadovoljavaju agregatni indeksi sa baznim ponderima, aritmetički i

Page 184: Statistika - Djuro Mikulic

geometrijski neponderisani indeksi, kao i oni sa baznim ponderima, dok Fisherov idealniindeks ne ispunjava ovaj uslov.

8.2 Ekonomski pokazatelji dinamike

Pokazatelji strukture su takvi relativni brojevi koji procentualno predstavljaju odnosdijela neke masovne pojave prema cjelini i primjenjuju se u datom momentu, pa kažemo dapripadaju instrumentima statičke analize. Oni ipak omogućavaju da kroz neke dinamičkepokazatelje upoređujemo istorodne pojave po strukturi u raznom prostornom i vremenskomrasporedu, kao i da pratimo razvoj strukture pojave u raznim periodima. Izračunavaju se nasljedeći način:

gdje je: - dio pojave - pojava u cjelini

Pokazatelji stepena ili intenziteta služe nam da izračunavamo međusobne odnoseraznorodnih skupova, a primjenjuju se u statističkoj kvantitativnoj analizi, u cilju izražavanjabrojčanog odnosa dijelova jednog skupa prema dijelovima drugog. Nazivamo ih statističkikoeficijenti ili stope, a primijenjeni su uglavnom u demografskoj statistici; npr. stopanataliteta, stopa mortaliteta, kao i u redovnim statističkim publikacijama; npr. gustinanaseljenosti. Izražavaju se kao prost broj ili procentualni odnos upoređenih veličina; npr. 76stanovnika na 1 kvadratni kilometar površine, ili 225 muškaraca prema 185 žena itd.

Pokazatelji dinamike predstavljaju najvažniju grupu ekonomskih pokazatelja koja sekoristi za analizu dinamike masovnih pojava, a za teorijsko izučavanje i praktičnu primjenuznačajni su slijedeći:

· Nivo ( ) - predstavlja statistički brojčani podatak o vrijednosti nekog obilježja iistovremeno čini osnovu za određivanje ostalih ekonomskih pokazatelja

· Apsolutni porast ( ) - predstavlja varijaciju kao razliku dva uzastopna nivoa, odnosnopodatka (uvijek prethodni oduzimamo od narednog ( ))

· Tempo razvitka ( ) - predstavlja koeficijent dinamike izražen kao odnos dvauzastopna stanja, tj. varijaciju kao količnik koja se dobija stavljanjem u odnos

posmatranog podatka prema prvom prethodnom ( )· Tempo porasta ( ) - predstavlja odnos apsolutnog porasta prema prvom prethodnom

nivou, tako da nije identičan sa tempom razvitka a izražava se kao procentni broj ( )· Srednji tempo razvitka ( ) - predstavlja geometrijsku sredinu svih individualnih

tempa razvitka ili količnik između posljednjeg i prvog podatka u nizu.

Pokazatelji dinamike mogu se uopštavajući šematski prikazati sljedećim zapisom:Nivo( ) Apsolutni Tempo Tempo porasta ( )

Page 185: Statistika - Djuro Mikulic

porast ( ) razvitka ( ) - - -

Srednji tempo razvitka:

Srednji tempo porasta:Stp= Str-1,

Primjer 8.3 Izračunati pokazatelje dinamike na bazi podataka o prometu nekogproizvoda po danima u preduzeću, koji se kretao kako slijedi:

Nivo ( ) Apsolutni porast ( )

Pozitivan apsolutni porast ( ) odražava kvantitativan porast pojave, negativanapsolutni porast ( ) odražava opadanje pojave, a apsolutni porast jednak nuli ( )odražava stagnaciju.

Tempo razitka: Tempo porasta:

Tempo razvitka može da zauzme vrijednost od nule do beskonačno i ne može bitinegativan. Vrijednost tempa razvitka može da bude između 0 i 1 ( ) i tada izražavaopadanje pojave, jednako 1 ( ) i tada izražava stagnaciju i veća od 1 ( ) štoupućuje da pojava raste.

Page 186: Statistika - Djuro Mikulic

Tempo porasta (Tp) može da poprimi negativnu vrijednost i tada izražava pad pojave,pozitivnu vrijednost i tada izražava porast pojave i vrijednost jednaku nuli što je naznaka dane postoji varijabilitet.

Srednji tempo razvitka:

Srednji tempo rasta:

Ocjena dinamike promjena posmatrane pojave za naznačeni period ispitivanjapodrazumijeva izračunavanje srednjeg tempa razvoja i srednjeg tempa rasta. Srednji temporazvoja izračunava se iz individualnih tempoa razvoja, pomoću geometrijske sredine, asrednji tempo rasta (prosječna stopa rasta) izračunava se tako što se od srednjeg temparazvoja oduzme stotinu.

Pozitivna stopa rasta pokazuje koliko se procenata prosječno, iz godine u godinu,pojava povećavala, a negativna stopa rasta izražava, u procentima, prosječno godišnjeopadanje pojave u posmatranom intervalu. Individualni tempi razvoja, predstavljajupojedinačne promjene, dok srednji tempo razvoja proizvodnje i prometa predstavljaprosječnu relativnu promjenu, koja se utvrđuje ili kao koeficijent ili u procentima, kao indeks.Individualni tempoi rasta, kao i srednji tempo rasta, su sintetički relativni pokazateljidinamike pojave i mogu se takođe izraziti kao koeficijenti ili u procentima, kada dobijajunazivstope rasta.

Dakle, srednji tempo razvoja i srednji tempo rasta izračunavaju se zato da bi sevidjelo, odnosno saznalo, kakva je bila prosječna promjena u kretanju proizvodnje ili prometaza dati period posmatranja.

Page 187: Statistika - Djuro Mikulic

8.3 Statistička analiza dinamike produktivnosti

8.3.1 Mjerenje produktivnosti

Produktivnost ili proizvodnost rada predstavlja prosječan radni ili vremenski učinak,koji definišemo kao odnos proizvodnje i rada utrošenog za njeno stvaranje, što možemoizraziti direktno i recipročno:

U prvom slučaju produktivnost rada pruža informaciju o obimu proizvodnje pojedinici utrošenog rada a u drugom slučaju informaciju o količini utrošenog rada po jediniciproizvoda. Ovako definisan pojam produktivnosti rada odnosi se na produktivnostkonkretnog rada koju posmatramo kao naturalni pokazatelj, tj. kao obim upotrebljenihvrijednosti, koji se veže na jedinicu utrošenog rada. Kako naturalno iskazivanje proizvodnjenema zajednički imenitelj, ovakav obračun pokazatelja produktivnosti rada je ograničen naona preduzeća koja imaju homogen program tj. koja proizvode istovrsne proizvode. Veličinakojom se izražava produktivnost rada zavisi od izabrane jedinice vremena koja može bit čas,dan, mjesec i godina, tako da izračunavanje produktivnosti upotrebom pojedinih odnavedenih jedinica, daje pokazatelje različite sadržine kao i različite analitičke vrijednosti.Računski, časovna produktivnost izražava prosječni radni učinak u vremenu stvarnog rada ipredstavlja odnos količine ostvarene proizvodnje i broja radnih časova. Dnevnaproduktivnost se dobija iz odnosa proizvodnje i broja radnik-dana, a pored vremena stvarnograda sadrži i vrijeme kada pojedini zaposleni nisu radili.

Mjesečna i godišnja produktivnost obuhvata i sve gubitke radnog vremena, nastale utoku mjeseca odnosno godine, kao što su izostanci sa posla, prekidi rada, godišnji odmori itd.Ako se produktivnost rada mjeri većim jedinicama tada je ona apsolutno veća, a relativnomanja, tako da je dnevna produktivnost veća od časovne, mjesečna od dnevne, a godišnja odmjesečne. U statističkoj praksi se obično ne izražava dnevna produktivnost rada jer se dnevnigubici radnog vremena uključuju u mjesečne gubitke, a vrlo često se i ne raspolaže podacimaza njen obračun.

Časovna produktivnost se obično izračunava samo prema uloženom radu licazaposlenih neposredno u proizvodnji, a rijeđe prema utrošenom radu svih zaposlenih upreduzeću. Mjesečna produktivnost se izračunava kako prema utrošenom radu radnika uneposrednoj proizvodnji, tako i prema utrošenom radu cjelokupnog zaposlenog osoblja upreduzeću. Poređenjem ovih obračuna produktivnosti dobijamo nov analitički pokazatelj kojiukazuje da dok produktivnost rada po proizvodnom radniku raste, dotle po jednomzaposlenom opada, što je posljedica neopravdanog udjela neproizvodnog osoblja. Znači,ispitivanje produktivnosti rada u statističkoj praksi može da se obračunava prema količiniutrošenog živog rada na sljedeće načine:

a) da utrošenom vremenu rada (T) suprostavimo fizički obim proizvodnje (q) iskazan unaturalnim ili uslovno naturalnim jedinicama

Page 188: Statistika - Djuro Mikulic

gdje u prvom slučaju dobijamo produktivnost u vidu prosječne proizvodnje po jedinicivremena a u drugom utrošeno prosječno vrijeme po proizvodnji jedinice proizvoda

b) da fizički obim proizvodnje (q) stavimo u odnos sa brojem zaposlenih (R),

gdje u prvom slučaju imamo broj jedinica proizvoda po radniku a u drugom broj angažovanihradnika po jedinici proizvoda

c) da se za mjerenje produktivnosti različitih proizvoda koji se ne mogu zbirno prikazivati sekoristi vrijednosni ili radni izraz koji ima najširu primjenu i najveći analitički značaj kodproizvoda sa približnim učešćem materijalnih troškova u cijeni, pa bi u tom slučajuproduktivnot rada bila:

gdje je:Spq vrijednosni izrazSt ukupno utrošeno vrijeme

Dakle, produktivnost rada predstavlja apsolutni izraz prosječne proizvodnje pojedinici vremena ili prosječnog vremena potrebnog za jedinicu proizvoda. Ocjena ovihapsolutnih vrijednosti jedino je moguća preko indeksa produktivnosti kao analitičkogpokazatelja čiji je smisao da se produktivnost jednog perioda poredi sa produktivnošćudrugog.

8.3.2 Individualni indeks produktivnosti

Ako stavimo u odnos produktivnost tekućeg prema produktivnosti baznog perioda zajedan proizvod (preduzeće), dobijamo individualni indeks produktivnosti. Nekaproduktivnost tekućeg (posmatranog) perioda bude izražena sa q1/T1 a baznog q0/T0 tada ćeindeks produktivnosti biti izražen sa:

Dobijeni indeks produktivnosti rada koji je određen prosječnom količinomproizvodnje po jedinici vremena tj. po jednom radnik-času pokazuje relativnu promjenuproizvodnje i ako je on 100, znači da se produktivnost ne mjenja, dok svako odstupanje naniže predstavlja opadanje, a na više od 100 povećanje produktivnosti.

Individualni indeks dinamike produktivnosti se u praksi često izražava prekorecipročne produktivnosti, na sljedeći način:

Dobijeni indeks produktivnosti rada određen je prosječno utrošenim vremenom po jediniciproizvoda, tako da pokazuje relativnu promjenu vremena datu kroz odgovarajuće tumačenje.

Page 189: Statistika - Djuro Mikulic

8.3.3 Grupni indeks produktivnosti

Ispitivanje dinamike produktivnosti u jednom preduzeću koje proizvodi različiteproizvode ili isti proizvod u više preduzeća, vrši se primjenom grupnog indeksaproduktivnosti. Grupni indeks produktivnosti rada može se obračunati na bazi stalnog obima istrukture proizvodnje, ispitujući samo promjene količine utrošenog rada ili na bazi stalneutrošene količine rada, ispitujući samo promjene obima i strukture proizvodnje. Najčešćegrupni indeks produktivnosti rada izračunavamo metodom agregata, ponderima iz baznog iliposmatranog (tekućeg) perioda i na osnovu produktivnosti definisane kao vrijeme potrebnoza proizvodnju jedinice proizvoda. Ovako izračunati grupni indeksi nazivaju se indeksiproduktivnostinepromjenjivog sastava strukture proizvodnje, jer odgovarajućimponderisanjem polazimo od pretpostavke da je struktura proizvodnje nepromijenjena tokomposmatranog vremenskog razdoblja. Ako grupni indeksi sadrže promjene u strukturiproizvodnje tokom vremena, nazivamo ih indeksima produktivnosti sa promijenjenimsastavom proizvodnje.

Grupni indeks produktivnosti na bazi nepromijenjenog sastava proizvodnjeizračunava se metodom agregata ako se ponderišu pojedinačni vremenski učinci, a kaoponder uzmu ostvarene količine proizvodnje u baznom ili posmatranom periodu, što se moženapisati na sljedeći način:

a) ponder iz baznog perioda

b) ponder iz posmatranog (tekućeg) perioda.

, gdje je:

t0 i t1 prosječna vremena za izradu jedinice proizvoda u baznom i posmatranom periodu q0 i q1 proizvedene količine u baznom i posmatranom periodu

Grupni indeks dinamike produktivnosti rada promjenjivog sastava proizvodnje ima zacilj da izmjeri ukupan efekt promjena povećane produktivnosti u uslovima izmjenjenestrukture, a izražava se formulom:

, gdje su :

T0 i T1 ukupno utrošena vremena za cjelokupnu proizvodnju u baznom iposmatranom periodu.

Obračun navedenih indeksa produktivnosti rada nepromjenjenog i promjenjenogsastava proizvodnje utvrđuje se na osnovu naturalnog uzraza. Ako ne raspolažemo naturalnim

Page 190: Statistika - Djuro Mikulic

pokazateljima, tada indeks produktivnosti izračunavamo vrijednosnim izrazom čiji je obrazacza promjenjivi sastav proizvodnje sljedeći:

,

a obračun vrijednosti indeksa produktivnosti rada na bazi nepromijenjenog sastava:

gdje su:q0 p ponderi I individualni indeks produktivnosti rada

Primjer 8.4 Građevinsko preduzeće “Astorija” a.d. 2004. i 2005. godine ostvarilo jeproizvodnju s angažovanim proizvodnim radnicima prema sljedećim podacima:

Tip zgrade Broj izgrađenih zgrada Broj radnika2004. 2005. 2004. 2005.

P+2 60 75 720 750P+3 50 40 750 720P+4 30 25 600 500

Izračunati i protumačiti:

a) produktivnost mjerenu utrošenim radom za jedinicu proizvoda, tj. brojemangažovanih radnika po jednoj zgradi;

b) grupni indeks produktivnosti rada nepromjenljive proizvodnje (ako su ponderi bazni);c) grupni indeks produktivnosti rada promjenljive proizvodnje.

Objasniti kako je promjena u strukturi proizvodnje uticala na produktivnost. Postupak rada

- Formira se radna tabela sa svim elementima potrebnim za obračun.

Radna tabela za obračun grupnih indeksa produktivnosti u preduzeću “Astorija”

Tipzgrade

q 0 q1 T0 T1

P+2 60 75 720 750 12 10 720 600P+3 50 40 750 720 15 18 750 900P+4 30 25 600 500 20 20 600 600S 140 140 2070 1970 - - 2070 2100

Page 191: Statistika - Djuro Mikulic

Na osnovu obračuna u tabeli dobija se:

a) produktivnost rada mjerena utrošenim radom za jedinicu proizvoda kao t0 i t1

b)

što znači da se prosječno utrošeno vrijeme povećalo za 1,45%, a produktivnost opala za1,42% (100: 101,45x100=95,58; 95,58-100= - 1,42), 2005. u odnosu na 2004. godinu.

c)

što znači da se prosječno utrošeno vrijeme smanjilo za 4,9%, a produktivnost povećala za 5%(100: 95,17 x 100 = 105; 105 – 100 = 5), 2005. u odnosu na 2004. godinu.

d) Indeks Pr nepromjenljive proizvodnje veći je od indeksa Pr promjenljive proizvodnje (kodnepromjenljive produktivnost je opala za 1,42 %, a kod promjenljive porasla za 5%). Toznači da je promjena u strukturi proizvodnje povoljno uticala na produktivnost, jer jepovećala proizvodnju.

8.4 Statistička analiza dinamike zarada

Dinamiku troškova života uslovljavaju realne zarade koje predstavljaju pokazateljživotnog standarda, čiji porast ili pad zavisi od indeksa troškova života. Promjene utroškovima života predstavljaju pomjene u cijenama artikala za podmirenje potrebastanovništva, a obuhvatamo ih indeksom troškova života koji se praktično svodi na indekscijena na malo.

Sumu troškova života sačinjava zbir vrijednosti svih proizvoda i usluga sadržanih utipskom budžetu i utvrđenih na osnovu cijena datog perioda. Tipski budžet može se odreditimetodom porodičnih budžeta, metodom globalne potrošnje i metodom teorijskog budžeta.Utvrđivanjem tipskog budžeta odnosno liste proizvoda odgovarajućih cijena i pondera,stvoreni su uslovi za izračunavanje indeksa troškova života po sljedećoj formuli:

Statistički, a pogotovo knjigovodstveno, zarade se mogu posmatrati kao neto zarade(primanje iz redovnog radnog odnosa) i bruto zarade (pored sume koju radnik primi obuhvatadoprinose i poreze iz zarada).

Statističko istraživanje zarada vrši se kako za potrebe društvene zajednice, tako i zapreduzeća u okviru svojih statističkih službi, bez obzira na njihovu djelatnost i svojinskiodnos. Iz podataka o zaradama zaposlenih mogu da se utvrde određeni statistički pokazatelji,kao što su suma isplaćenih bruto zarada, prosječna bruto zarada, suma isplaćenih neto zarada,prosječna neto zarada, varijacija nivoa zarada, indeks nominalnih i realnih prosječnih netozarada, itd.

Page 192: Statistika - Djuro Mikulic

Budući da je zarada osnov mjerenja životnog standarda zaposlenih, potrebno jerazlikovati nominalne zarade koje se utvrđuju u bruto i neto novčanom iznosu od realnih netozarada koje predstavljaju stvarnu vrijednost zarade zaposlenog, tj. njenu kupovnusnagu. Realna zarada se utvrđuje na osnovu nominalne neto zarade i indeksa troškova života,tako što se nominalna zarada u posmatranom periodu podijeli indeksom troškova života.Time realna zarada zapravo izražava nivo životnog standarda, odnosno kupovnu moćnominalne neto zarade, mjerenu cijenama na malo artikala lične potrošnje.

Prosječna neto zarada izračunava se metodom proste ili ponderisane aritmetičkesredine, tj. dijeljenjem ukupno isplaćenih neto zarada brojem zaposlenih. Da bi prosječnaneto zarada, kao pokazatelj nivoa zarada u preduzeću, bila što reprezentativnija, potrebno jeda se izračunava po kvalifikacionim grupama, a ne samo kao opšti prosjek na osnovu kog suneuočljive razlike.

8.4.1 Indeksi zarada

Statistika pomoću indeksa neto zarada prati njihove relativne promjene tokomodređenog vremena, a osnovu za njegovo izračunavanje čine prosječne nominalne zarade,čije promjene u preduzeću uslovljava:

- povećanje ili smanjenje prosječnih zarada pojedinih kategorija zaposlenih- izmjena strukture tj. sastava zaposlenih

Na osnovu toga promjene prosječnih neto zarada mogu da se prate ako se uzme uobzir uticaj promjena u kvalifikovanom sastavu zaposlenih, kao i bez uticaja takvihpromjena, na osnovu čega razlikujemo dvije vrste grupnih indeksa nominalnih neto zarada:

a) Indeks neto zarada promjenljivog sastava zaposlenihb) Indeks neto zarada nepromjenljivog sastava zaposlenih

Pored indeksa nominalnih neto zarada potrebno je izračunato i indekse realnih netozarada, pogotovo u slučaju kada se uporedo sa povećanjem nivoa neto zarada po istoj stopipovećavaju troškovi života.

Indeks nominalnih prosječnih neto zarada promjenljivog sastavazaposlenih izračunava se kao odnos prosječne neto zarade u posmatranom periodu iprosječne neto zarade baznog perioda. Za utvrđivanje i konkretnu primjenu indeksa zaradapotrebno je da se prvo izračuna prosječna neto zarada za bazni i tekući period na sljedećinačin:

Stavljanjem u odnos utvrđenih prosječnih neto zarada tekućeg i baznog perioda,dobija se indeks nominalnih prosječnih neto zarada promjenljive strukture zaposlenih,odnosno:

Page 193: Statistika - Djuro Mikulic

Ovako izračunat indeks neto zarada izražava promjene u veličini nominalnihprosječnih neto zarada koje su nastale bilo zbog njenog porasta ili smanjenja, bilo zbogizmjena kvalifikacionog sastava.

Indeks izračunat po datoj formuli pokazuje relativnu promjenu nastalu u nivou zaradau posmatranoj godini u odnosu na baznu, uzimajući u obzir sve moguće promjene u strukturizaposlenih radnika. Ako želimo eliminisati uticaj promjena kvalifikacione strukturezaposlenih na opšti nivo zarada tada izračunavamo indeks zarada postojanog(nepromjenljivog) sastava zaposlenih.

Indeks nominalnih prosječnih neto zarada nepromjenljivog sastavazaposlenih isključuje uticaj promjena u kvalifikacionoj strukturi zaposlenih na promjeneprosječnih zarada. Izračunava se tako što se za svaku kategoriju zaposlenih, prema stepenustručne spreme, utvrde prvo prosječne zarade, zatim se izračunavaju indeksi zarada svakekategorije i na kraju se utvrđuje njihova ponderisana aritmetička sredina. Kao ponder kojimse množi individualni indeks svake kategorije zaposlenih uzima se suma neto zarada ubaznom periodu. Ovaj indeks se računski dobija korištenjem sljedećeg obrasca:

Konstrukcijom navedenog indeksa eliminiše se dejstvo promjena u sastavuzaposlenih na povećanje ili smanjenje visine prosječne zarade, ali ukoliko se ono želiizmjeriti, stavlja se u odnos indeks neto zarada promjenljivog prema indeksu neto zaradanepromjenljivog sastava zaposlenih.

Indeks realne prosječne neto zarade pokazuje dinamiku životnog standarda, tj.kupovnu moć realnih zarada u prosjeku, a izračunava se kao odnos indeksa nominalneprosječne neto zarade i indeksa troškova života.

Ukoliko su nastajale značajnije promjene u kvalifikacionoj strukturi radnika, utolikose indeks zarada izračunat po ovoj formuli više razlikuje od prethodnog. Zarade izražavajusamo nominalnu veličinu raspoloživog primanja zaposlenih, ali mogućnost podmirenjapotreba zavisi i od odnosa cijena onih roba koje ulaze u individulani konzument. Ispitivanjestepena zadovoljavanja potreba pri datim nominalnim zaradama i datim troškovima životadovodi nas na problematiku realnih zarada. Znači, realna zarada za razliku od nominalne kojaje samo novčani iznos koji radnik primi, pokazuje kupovnu moć radnika ili stepenzadovoljavanja njegovih potreba. Indeks nominalnih zarada se obračunava kao odnosprosječnih nominalnih zarada u posmatranom periodu prema istim u baznom periodu.

Page 194: Statistika - Djuro Mikulic

Primjer 8.5Prema podacima preduzeća “Aleksandar Impeks” za juni i decembar 2005. godine

izračunati grupni indeks nominalnih neto zarada nepromijenjenog sastava zaposlenih. Podacipotrebni za obračun nalaze se u tabeli:

Stručnasprema

Broj zaposlenih2005.

Prosječna netoplata u dinarima

IndeksInz

Sumanetoplata ujunu2005. x0

Inz x0

VI XII VI XII0 1 2 3 4 5 (4:3) 6 7 (5 x 6 )VSS 20 22 2520 3350 133 50400 67032VS 10 8 2240 2800 125 22400 28000SSS 90 100 1920 2458 128 172800 221184NS 15 9 800 1000 125 12000 15000VKV 18 18 2000 2600 130 36000 46800KV 20 22 1650 2112 128 33000 42240NK 12 6 900 1143 127 10800 13716SVEGA 185 185 1823,78 2437,96 134 337400 433972

Postupak rada:

- Prvo se izračunavaju individualni indeksi prosječnih neto plata po stručnoj spremi,uneseni u kolonu 5.

- Zatim se ovi indeksi ponderišu, množe se sumom isplaćenih zarada u baznomperiodu (inz x0),, što je dato u posljednjoj koloni tabele.

- Na osnovu zbira prethodno izračunatih veličina i ukupne sume isplaćenih neto zaradau baznom periodu izračunava se grupni indeks nominalnih prosječnih neto zaradanepromijenjenog sastava zaposlenih:

Prosječna neto zarada zaposlenih u decembru prema junu 2005. povećala se za 29%.Eliminisan je uticaj promjena u stručnom sastavu zaposlenih. Ako se želi utvrditi koliko supromjene u sastavu zaposlenih uticale na porast ili pad prosječne neto plate, treba staviti uodnos indeks neto zarada promjenljivog prema indeksu promijenjenog sastava zaposlenih.

Znači, u ovom primjeru treba utvrditi i indeks promjenljivog sastava zaposlenih(Inz). Pošto se podaci potrebni za obračun već nalaze u zbirnom redu (kolone 3 i 4) tabele,slijedi rezultat:

Page 195: Statistika - Djuro Mikulic

Uticaj promjena u stručnom sastavu zaposlenih na promjene nominalnih prosječnihzarada iznosi:

što znači da su promjene u strukturi zaposlenih uticale na povećanje neto plate pozaposlenom za 4%.

Da bi se utvrdila stvarna promjena u životnom standardu zaposlenih izračunava seindeks realne neto plate po zaposlenom (Irnz) . Ako je indeks troškova života za decembar2005. godine 128, onda je:

što pokazuje da se kupovna moć po zaposlenom preduzeća “AleksandarImpeks” povećala za 5% u decembru prema junu 2005.

Page 196: Statistika - Djuro Mikulic

9. ANALIZA VREMENSKIH SERIJA

Vremenska serija predstavlja niz vrijednosti nekog obilježja u uzastopnimvremenskim periodima (momentima). Pod analizom vremenskih serija podrazumijeva senjihovo izučavanje statističkim metodama, sa ciljem utvrđivanja zakonitosti razvoja uposmatranim i predviđanja u budućim periodima.

Vrijednosti obilježja koje čine vremensku seriju obično se nazivaju nivoi serije. Uzavisnosti od strukture svojih nivoa, vremenska serija može biti momentna ili intervalna.

Momentna je ona vremenska serija čije nivoe predstavljaju vrijednosti posmatranogobilježja u ekvidistantnim momentima vremena. Takvi momenti mogu biti određeni dani unedjelji ili datumi u mesecu ili godini.

Nivoi intervalne vremenske serije predstavljaju kumulativne vrijednosti obilježja zaneki interval vremena, dužine mjeseca, kvartala, godine i sl. Često se, umjesto zbirnihvrijednosti, za nivoe vremenske serije uzimaju srednje vrijednosti obilježja u posmatranimintervalima vremena.

U zavisnosti od vremenske distance između perioda u kojima se iskazuju nivoi,vremenske serije mogu biti nedjeljne, mjesečne, kvartalne, godišnje i višegodišnje.

Vremenske serije se predstavljaju tabelarno i grafički. Tabela sadrži dvije kolone, pričemu se u prvoj navode periodi za koje su nivoi registrovani a u drugoj sami nivoi. Grafički,vremenske serije se obično prikazuju linijskim grafikonom u pravouglom koordinatnomsistemu u ravni. Na apscisu se nanose podjele koje odgovaraju vremenskim periodima, a naordinatnu osu nivoi. Grafički prikaz je posebno značajan, jer pruža predstavu o razvojuposmatrane pojave a često sugeriše i metod analize.

Danas postoji veliki broj metoda za analizu vremenskih serija. Većina njih se bazirana jednom od dva moguća pristupa: vremenskom i frekventnom. Vremenski pristup polazi odstanovišta da se promjene u vremenskoj seriji mogu izraziti u funkciji vremena. Frekventnipristup se zasniva na činjenici da su varijacije u vremenskoj seriji rezultat superpozicijeharmonika različitih perioda, odnosno frekvencija. Dalje će biti riječi samo o nekim, izmnoštva procedura analize vremenskih serija u vremenskom domenu.

U opštem slučaju, nivoi vremenske serije se mogu posmatrati kao rezultat djelovanjasljedećih komponenti: trend, ciklične, sezonske i slučajne. Trend komponentu predstavljadugoročna tendencija razvoja posmatrane pojave. Cikličnu komponentu čine višegodišnje,obično periodične oscilacije u odnosu na dugoročnu tendenciju. Često se cikličnakomponenta posmatra zajedno sa trendom, kao trend-ciklična komponenta. Dalje, cikličnukomponentu nećemo razmatrati kao posebnu komponentu. Sezonsku komponentupredstavljaju kolebanja u pravilnim vremenskim razmacima kraćim od godine, npr.mjesecima ili kvartalima. Slučajna ili iregularna komponenta predstavlja slučajne promjenenivoa vremenske serije.

Od načina na koji su ove komponente ukomponovane u vremenskoj seriji, razlikujuse modeli vremenskih serija.

Page 197: Statistika - Djuro Mikulic

Označimo sa Y nivo vremenske serije, sa T trend-cikličnu komponentu, sa Ssezonsku komponentu i sa I slučajnu komponentu. Aditivni model vremenske serije imaoblik:

Y = T + S I

a multiplikativni:

Y = T×S×I

Ako se komponente kombinuju na druge načine nastaju različiti oblici mješovitih modela.

Jedan od mogućih je npr.

Y = T×S + I

Na sljedećoj slici šematski su prikazani prethodni modeli, sastavljeni od istih komponenti.

Šematski prikaz aditivnog imultiplikativnog modela

Analiziranje pojedinih komponenti vremenske serije omogućuje da se sagledajučinioci koji uzrokuju promjene nivoa u vremenu. Stoga je jedan od osnovnih postupaka uanalizi vremenske serijedekompozicija, tj. izdvajanje njenih komponenti.

Prilikom dekompozicije vremenske serije polazi se od modela za koji sepretpostavlja da dobro opisuje vremensku seriju. Od stepena adekvatnosti modela u velikojmjeri zavisi kvalitet dekompozicije. U praktičnim situacijama obično se srećemo savremenskim serijama čije se komponente međusobno miješaju na različite načine, koji često

Page 198: Statistika - Djuro Mikulic

odudaraju od jednostavnih modela kojima se opisuju. Zbog toga, u većini slučajeva,izdvojene komponente nisu čiste, već sadrže u sebi i primjese drugih komponenti.

9.1 Trend komponenta

Trend komponenta nastaje pod uticajem sistematskih faktora, koji, na duži rok,određuju osnovni pravac razvoja posmatrane pojave. Prisustvo trend komponente često semože uočiti na grafikonu vremenske serije, mada, grafički prikaz ne pruža uvijek sigurnugaranciju o postojanju trenda. Naime, druge komponente vremenske serije predstavljajuregularne i iregularne oscilacije oko osnovne tendencije, što zamagljuje vizuelni utisak onjenom postojanju. Zbog toga je pouzdanije primijeniti neki od statističkih testova zaispitivanje prisustva trend komponente. Jedan od takvih testova je test značajnosti razlikesredine.

Ako vremensku seriju podijelimo na dva dijela i svaki od njih smatramo uzorkom izskupa sa normalnim vrijednostima i jednakim varijansama, na osnovu statistike možemotestirati hipotezu o jednakosti sredina. Ako se hipoteza odbaci, znači da su sredine različite ida postoji značajna tendencija u seriji.

Ovaj test polazi od pretpostavke da varijansa ostaje nepromijenjena u vremenu, štočesto nije slučaj. Čak i tada, kada ne postoji tendencija promjene varijanse, ovaj test jepogodan samo kod serija sa monotonim trendom. Ako to nije slučaj, može se dogoditi dasredine dva izdvojena dijela serije budu bliske, i da test ne može da ustanovi postojanjetrenda.

Prisustvo trend komponente može se ispitati i pomoću kriterijuma znakova koji jeobjašnjen ranije u knjizi. Za primjenu ovog kriterijuma vremensku seriju treba podijeliti nadva jednaka dela i primjeniti proceduru iz pomenutog poglavlja. Ako serija ima neparan brojčlanova, jedan od njih, npr. prvi ili posljednji, treba isključiti iz testa. Ako se donese odluka oodbacivanju nulte hipoteze, smatra se da je ustanovljeno postojanje trenda.

Iako je test znakova pogodan zbog jednostavnosti i zbog toga što ne postavlja uslovekoji se odnose na vrijednost osnovnog skupa, i on ima nedostataka. Slično kao i kodprethodnog testa, u slučaju promjene smjera monotonije može se desiti da brojevi pozitivnih inegativnih razlika budu približno isti i da test ne ustanovi prisustvo trenda.

Izdvajanje trend komponente iz vremenske serije često se svodi na otklanjanje iliprigušivanje oscilacija oko trenda. Metode pomoću kojih se to postiže nazivaju se metodeizravnanja. Ovaj naziv potiče od vizuelnog utiska da se primjenom ovih metoda serija glača,tj. izravnava. Postoji veliki broj metoda za izdvajanje trend komponente, od sasvimjednostavnih, koje su heurističkog karaktera, do vrlo složenih, koje se baziraju na čvrstimstatističkim principima. Jedan od najjednostavnijih metoda je metod pokretnih prosjeka.

Page 199: Statistika - Djuro Mikulic

9.1.1 Metod pokretnih prosjeka

Ovaj metod se zasniva na ideji da se uprosječavanjem uzastopnih članova vremenskeserije odstranjuju sezonska i slučajna kolebanja oko osnovne tendencije vremenske serije.

Posmatrajmo vremensku seriju sa nivoima y1,y2,...,yn. Ako je m neparan broj (m<n),pokretni prosjek dužine m koji odgovara članu yi definiše se kao:

= ; i=k+1,...,n-kgdje je k=(m-1)/2. Tako npr. pokretni prosjek dužine 5, za neki član vremenske serije yi,predstavlja aritmetičku sredinu tog člana, dva prethodna i dva naredna člana. Jasno je da prvadva i posljednja dva člana vremenske serije nemaju pokretne prosjeke dužine 5.

Ako je m paran broj, pokretni prosjeci dužine m za član yi mogli bi se definisati kao

= ; i=k+1,...,n-kali i kao

= ; i=k+1,...,n-kgdje je k=m/2. Umjesto bilo kog od ova dva pokretna prosjeka, kao pokretni prosjek kojiodgovara članu yi uzima se njihova aritmetička sredina ( + )/2 pa je:

; i=k+1,...,n-k

Pokretni prosjeci tipa prethodnog tipa nazivaju se centrirani pokretni prosjeci, jer sukonstruisani tako da srednji član pokretnog prosjeka bude baš vrijednost yi. Kao i kodpokretnih prosjeka sa neparnom dužinom, po k-članova sa početka i kraja serije nemajucentrirane pokretne prosjeke.

Što je dužina pokretnog prosjeka veća, to se pomoću njih, obično bolje otklanjajuoscilacije oko trenda. To znači da za serije sa izraženijim kolebanjima oko osnovnetendencije treba izabrati duže pokretne prosjeke. Pri tome treba imati na umu da je dužinapokretnih prosjeka ograničena dužinom serije, s obzirom na gubitak izvjesnog broja početnihi krajnjih pokretnih prosjeka. Ako su kolebanja oko trenda periodična, onda se ona najvišeprigušuju pomoću pokretnih prosjeka čija je dužina približno jednaka periodu kolebanja.

Primjer 9.1 Na osnovu podataka o otkupu jednog proizvoda u periodu od 1990. do2005. godine, izračunati su pokretni prosjeci dužine 3 i dužine 4 (centrirani pokretniprosjeci).Za m=3 je k=1, pa je na osnovu prethodnih izraza:

; i=2,3,...,15

Page 200: Statistika - Djuro Mikulic

tj.

=23,7

=22,3

Za m=4 je k=2, pa je na osnovu prethodnih izraza:

; i=3,4,...,14tj.

=22,6

=23

U sljedećoj tabeli dati su rezultati izračunavanja:

Godina Otkup000t

Pokretni prosjecim=3 m=4

1990 22 — —1991 26 23,7 —1992 23 22,3 22,61993 18 22,0 23,51994 25 24,3 24,61995 30 27,7 26,11996 28 27,7 27,21997 25 26,7 27,81998 27 28,0 28,41999 32 30,0 29,02000 31 30,0 29.42001 27 28,7 29,92002 28 30,0 30,52003 35 32,0 31,12004 33 32,7 —2005 30 — —

Na sljedećoj slici prikazane su originalne vrijednosti, i trogodišnji i četvorogodišnjipokretni prosjeci. Vidi se da četvorogodišnji centrirani prosjeci potpuno otklanjaju kolebanjaoko osnovne tendencije, što sugeriše da je perioda kolebanja jednaka četiri.

Page 201: Statistika - Djuro Mikulic

9.2 Metod trenda

Za modeliranje trend komponente često se koriste i matematičke funkcije. Nivoivremenske serije posmatraju se kao funkcije vremena, pa se metodama regresione analizeocjenjuje najbolje prilagođena linija. Ocjenjene regresione vrijednosti predstavljaju izdvojenutrend komponentu, koja se, kao glatka kriva, može smatrati izglačanom vremenskom serijom.

Osnovni problem koji se javlja kod ovakve analize vremenske serije jeste izboradekvatne matematičke funkcije. Pošto metod sam po sebi nije adaptivan, kao, recimo, metodeksponencijalnog izravnjanja, subjektivan izbor u osnovi određuje tendenciju. Da bi taj izborbio adekvatan, mora se poznavati priroda pojave koja je predstavljena vremenskom serijom.

Prilikom ocjenjivanja funkcije trenda, za uzoračke vrijednosti za zavisno-promjenljivuuzimaju se nivoi vremenske serije, a za nezavisno-promjenljivu vrijeme (mjeseci, godine isl.). Mi ćemo za vrijednosti nezavisno-promjenljive uzimati prirodne brojeve od 1 do n, gdjeje n - dužina vremenske serije. Alternativna mogućnost je da se za vrijednosti nezavisno-promjenljive uzmu cijeli brojevi, tj....,-2,-1,0,1,2,..., za seriju sa parnim brojem članova. Pritome 0, odnosno -1 i 1, odgovaraju nivoima u sredini serije.

Kao što je rečeno, za modeliranje trenda matematičkim funkcijama koristi semetodologija regresione analize. Treba naglasiti da kod vremenskih serija uzoračke statistikeobično nemaju ista statistička svojstva kao kod regresione analize. Naime, pretpostavke onormalnosti i nezavisnosti, u većini praktičnih situacija nisu ispunjene. U skladu sa tim,postoje različite metode za provjeru valjanosti pretpostavki regresione analize kodvremenskih serija, kao i alternativne metode kada te pretpostavke nisu ispunjene. Dalje će bitiriječi o nekim numeričkim specifičnostima modela trenda u odnosu na odgovarajućeregresione modele.

Page 202: Statistika - Djuro Mikulic

9.2.1 Linearni trend

Jednačina linearnog trenda ima oblik:= a + b×ti; i=1,2,...,n

gdje su a i b ocjenjene vrijednosti koeficijenata dobijene metodom najmanjih kvadrata:

Rješavanjem ovog sistema jednačina dobija se da je:

Pomoću prve od prethodnih jednačina može se izvršiti ekstrapolacija, tj. prognoziranjebudućih vrijednosti.Označimo sa ocjenjenu vrijednost dobijenu na osnovu jednačine regresije

= a + b×toVrijednost standardne greške prognoze Sp je:

gdje je vrijednost standardne greške

Se =Na osnovu standardne greške 100×(1-a)% interval povjerenja za buduću vrijednost je

,gdje je ta/2;n kvantil t-vrijednosti za n = n-2 stepeni slobode.

S obzirom da su vrijednosti nezavisno-promjenljive prirodni brojevi od 1 do n, tj.ti=i; i=1,2,...,n, lako se može pokazati da je:

i

po sistemu jednačina sa prethodne stranice postaje:

Page 203: Statistika - Djuro Mikulic

Rješavanjem ovog sistema jednačina dobija se da je:

b =

Označimo sa n+k period za koji treba izvršiti prognozu, tj. to=n+k, asa ocjenjenu vrijednost dobijenu na osnovu jednačine trenda, tj.:

= a + b(n+k)Ova vrijednost predstavlja prognozu za k-koraka od kraja vremenske serije.

Vrijednost standardne greške prognoze Sp, na osnovu prethodnog izraza je:

Kako je:

i

to je

pa je 100(1-a)% interval pouzdanosti za buduće vrijednosti trenda:

sti. Toznači da sa udaljavanjem od kraja serije opada preciznost prognoze.

Page 204: Statistika - Djuro Mikulic

Primjer 9.2 Na osnovu podataka o broju traktora u našoj zemlji u periodu od 1999-2005. godine ocijeniti jednačinulinearnog trenda. Naći 95%-ne intervale zabroj traktora u 2006, 2007. i 2008. godini.

Ovdje jei yi iyi

1 595 595 572,16 521,66562 622 1244 647,45 647,70253 706 2118 722,74 280,22764 809 3236 798,03 120,34095 882 4410 873,32 75,51616 955 5730 948,61 40,83217 1017 7119 1023,90 47,6100

5586 24452 1733,8948

b = = =75,28571

= 496,87312Ocjenjena jednačina linearnog trenda je:

= 496,87 + 75,29×ia standardna greška je:

Se = = =18,62a=0,5; n=n-2=7-2=5 Þ ta/2;n=t0,025;5=2,57

2006: k=i; to=i=n+k=7+1=8; = 496,87+75,29×8 = 1099,19

= =18,62×1,31=24,39

1099,19-24,39×2,57<y8<1099,19+24,39×2,571036,51<y8<1161,87

Godina Broj traktora1999 5952000 6222001 7062002 8092003 8822004 9552005 1017

Page 205: Statistika - Djuro Mikulic

2007: k=2; = 1174,48; Sp=26,571106,20<y8<1242,76

2008: k=3; =1249,77; Sp=29,021175,19<y10<1324,35

Page 206: Statistika - Djuro Mikulic

9.2.2 Kvadratni trend

Kvadratni trend je funkcija oblika:

= a + b×ti + c× ; i=1,2,...,ngdje su a, b i c koeficijenti ocjenjeni metodom najmanjih kvadrata:

Za ti=i; i=1,2,...,n je:

i

pa uzimajući u obzir sistem sa prethodne stranice, postaje:

Rješavanjem ovog sistema dobija se da je:

Na osnovu jednačine trenda može se izvršiti prognoza za neki budući period n+k:

Korišćenjem prethodnih relacija u ovom poglavlju može se pokazati da standardnagreška prognoze postaje:

gdje je:

Page 207: Statistika - Djuro Mikulic

a Se standardna greška trenda:

Ako je ta/2;n kvantil t-vrijednosti za n = n-3 stepeni slobode, onda je (1-a)100%-niinterval pouzdanosti za prognoziranu vrijednost trenda dat sa:

Primjer 9.3 Na osnovu podataka o proizvodnji pšenice u vremenu od 1996. do 2006.godine, iz sljedeće tabele ocijeniti jednačinu kvadratnog trenda i naći 95%-ni intervalpouzdanosti za proizvodnju u 2006. godini.U radnoj tabeli data su neophodni podaci:

i yi iyi i2yi

1 20 20 20 21,79 3,20412 26 52 104 23,95 4,20253 24 72 216 25,51 2,28014 27 108 432 26,47 0,28095 30 150 750 26,83 10,04896 28 168 1008 26,59 1,98817 26 182 1274 25,75 0,06258 21 168 1344 24,31 10,95619 18 162 1458 22,27 18,2329

10 25 250 2500 19,63 28,8369245 1332 9106 - 80,0930

Dakle, ocjenjena jednačina kvadratnog trenda je:

a standardna greška:

2006: k=1; i=n+k=10+1=11;

Page 208: Statistika - Djuro Mikulic

Za a=0,05 i n=n-3=10-3=7 je:ta/2;n=t0,025;7=2,365

pa je 95%-ni interval pouzdanosti:

16,36-12,35<y11<16,36+12,354,01<y11<28,71

9.2.3 Eksponencijalni trend

Ocjenjeni eksponencijalni trend

; i=1,2,...,nse, logaritmovanjem lijeve i desne strane, svodi na polulogaritamski oblik:

Ako se uvedu smjene:

; ; ;relacija postaje:

Page 209: Statistika - Djuro Mikulic

; i=1,2,...,nKoeficijenti a1 i b1 se dobijaju rješavanjem sistema normalnih jednačilna:

Za ti=i; i=1,2,...,n je:

Prognoziranje za model već je opisano kod linearnog trenda.

Primjer 9.4 Izvoz jedne organizacije u periodu od 1990-1998. godine kretao se premasljedećim podacima:

Ocijeniti jednačinu eksponencijalnog trenda i odrediti 95%-ni interval pouzdanosti zaizvoz u 1999. godini

Ovdje je:i yi wi=lnyi ilnyi

1 215 5,37064 5,37064 5,45175 0,00658 233,172 384 5,95064 11,90128 5,70600 0,05985 300,663 350 5,85793 17,57379 5,96025 0,01047 387,704 490 6,19441 24,77764 6,21450 0,00040 499,945 622 6,43294 32,16470 6,46875 0,00128 644,676 775 6,65286 39,91716 6,72300 0,00492 831,297 1020 6,92756 48,49292 6,97725 0,00247 1071,948 1550 7,34601 58,76808 7,23150 0,01311 1382,26

50,73299 238,96621 0,09908

Godina Izvoz000$

1990 2151991 3841992 3501993 4901994 6221995 7751996 10201997 1550

Page 210: Statistika - Djuro Mikulic

Ocjenjena jednačina je:

pa je:

;odnosno, ocjenjena jednačina eksponencijalnog trenda:

Standardna greška ocjenjenog modela je:

1998: k=1; i=n+k=8+1=9; =5,19750+0,25429×9=7,48575

Za a=0,05 i n=n-2=8-2=6 je:ta/2;n=t0,025;6=2,447

pa je interval pouzdanosti:

7,08708<w8<7,88442e7,08708< y8<e7,88442

1196,41< y8<2655,58

Osim pomenutih, u praktičnim situacijama se primjenjuju i mnoge druge funkcije zamodeliranje trend komponente. Neke od njih se transformacijama svode na slučajeve linearnepo nepoznatim parametrima, koji se zatim ocjenjuju metodom najmanjih kvadrata. Kod nekih

Page 211: Statistika - Djuro Mikulic

to nije moguće, pa se za ocjenu parametara koriste različite približne metode koje dovode douzoračkih statistika sa lošim statističkim svojstvima[2].

Za modeliranje trenda često se koriste krive sa asimptotama. Među takve, čiji separametri ne mogu ocijeniti linearnim metodom najmanjih kvadrata, spadaju i modifikovanaeksponencijalna, Gompercova i ligistička kriva.

9.3 Korelaciona zavisnost izmedju vremenskih serija

U praktičnim zadacima često se javlja potreba da se ispita jačina korelacionezavisnosti između dva obilježja, koja su predstavljena vremenskim serijama. Stvarnasaglasnost varijacija ovih obilježja može biti uvećana ili umanjena uticajem trendkomponente. U takvim situacijama, ocjenjena vrijednost koeficijenta korelacije daje pogrešnupredstavu o jačini korelacione veze. Da se ovo ne bi dogodilo prije ispitivanja korelacionezavisnosti, mora se isključiti uticaj trenda iz posmatranih vremenskih serija.

Neka su y1i i y2i; i=1,2,...,n nivoi vremenskih serija a i ; i=1,2,...,n ocjenjenevrijednosti njihovih trend komponenti. U slučaju aditivnog modela otklanjanjem trenda

dobijaju se nivoi i ; i=1,2,...,n, a u slučaju

multiplikativnog, i ; i=1,2,...,n. Dalje se korelaciona zavisnost između

obilježja ispituje sa vrijednostima i ; i=1,2,...,n. ovakvu proceduru treba primijeniti i uslučaju višestruke korelacione zavisnosti.

Primjer 9.5 Broj traktora na društvenim i individualnimgazdinstvima u našoj zemlji u periodu od 1991. do 1997. godinekretao se prema podacima datim u tabeli.

Ispitati stepen korelacione zavisnosti ova dva obilježja.

Zanemarujući, za trenutak, trend komponentu u obe serije,izračunajmo koeficijent korelacije. U radnoj tabeli data suneophodna izračunavanja:

y1i y2i y1i× y2i

27 568 729 322624 1533628 594 784 352836 1663230 676 900 456976 2028031 778 961 605284 2411832 850 1024 722500 2720032 923 1024 851929 2953632 985 1024 970225 31520

212 5374 6446 4282374 164622

;

Godina Drustv.sektor

Indiv.sektor

1991 27 5681992 28 5941993 30 6761994 31 7781995 32 8501996 32 9231997 32 985

Page 212: Statistika - Djuro Mikulic

Ovako visok stepen korelacione zavisnosti vjerovatno je uslovljen uticajem trenda naoba obilježja.Zbog toga bi trebalo u obe serije otkloniti trend komponentu.

Za broj traktora u društvenom sektoru ocjenjena je funkcija trenda =26,71+0,891,

a za broj traktora u individualnom sektoru =470,14+74,391; i=1,2,...,n. Originalni podaci,trend komponenta i rezidualna komponenta (iskazana procentualno kao što je uobičajeno) zamultiplikativni model, prikazani su u tabeli.

y1i y2i

27 27,60 97,83 568 544,53 104,3128 28,49 98,28 594 618,92 95,9730 29,38 102,11 676 693,31 97,5031 30,27 102,41 778 767,70 101,3432 31,16 102,70 850 842,09 100,9432 32,05 99,84 323 916,48 100,7132 32,94 97,15 985 990,87 99,40

700,32 700,17

Odavde se vidi da je korelaciona zavisnost posmatranih obilježja veoma slaba.

9570,71 10880,58 10204,659658,96 9210,24 9431,93

10426,45 9506,25 9955,7210487,81 10269,80 10378,2310547,29 10188,88 10366,549968,03 10142,50 10054,899438,12 9980,36 9656,71

70097,37 70078,61 70048,67

Page 213: Statistika - Djuro Mikulic

9.4 Sezonska komponenta

Kod mjesečnih ili kvartalnih vremenskih serija, različitih pojava, često se mogu uočitikolebanja koja se periodično ponavljaju iz godine u godinu. Ova kolebanja nastaju kaorezultat uticaja sezone i predstavljaju sezonsku komponentu vremenske serije. Sezonski uticajje prisutan kod mnogih pojava u poljoprivredi. Tako, napr., skoro sve aktivnosti u biljnojproizvodnji imaju stabilan sezonski karakter. Potrošnja sjemenskog materijala, sredstava zazaštitu, mineralnih gnojiva, goriva i maziva za mehanizaciju, takođe. Prerada i potrošnjavelikog broja prehrambenih artikala izložene su značajnom uticaju sezone.

Poznavanje sezonske komponente veoma je značajno u zadacima planiranjaproizvodnje (repromaterijal, radna snaga, mašine) i realizacije (ponuda, tražnja, cijene).Ponekad postoji potreba da se ona otkloni ili priguši zbog ravnomjernijeg korišćenja resursa iujednačavanja toka proizvodnih procesa. Zbog toga je poznavanje sezonske komponentevažno, barem onoliko koliko i poznavanje trend komponente.

Postoji više različitih metoda za analizu sezonske komponente. Dalje ćemo razmatratineke od njih.

9.4.1 Metod sezonskih indeksa

Intenzitet sezonske komponente najčešće se izražava pomoću sezonskih indeksa.Sezonski indeksi mogu biti specifični i tipični. Specifični sezonski indeksi izražavajuintenzitet sezonske komponente u svakoj sezoni jedne godine, dok tipični izražavajuintenzitet sezonske komponente u svakoj sezoni za više godina zajedno.

Da bi se sezonski indeksi mogli izračunati, potrebno je prethodno otkloniti trendkomponentu. Za kvartalne podatke trend komponenta se izračunava pomoću centriranihpokretnih prosjeka dužine četriri, a za mjesečne pomoću centriranih pokretnih prosjekadužine 12. Polazeći od multiplikativnog modela vremenske serije, dijeljenjem nivoa saizračunatim pokretnim prosjecima dobijaju se specifični sezonski indeksi. Ukoliko oviindeksi pokazuju stabilnost iz godine u godinu, njihovim uprosječavanjem po sezonamadobijaju se tipični sezonski indeksi za svaku sezonu. Naime, uprosječavanjem se vršiotklanjanje slučajne komponente iz specifičnih indeksa.

Osim pomoću pokretnih prosjeka, trend komponenta se može otkloniti i pomoću nekeod funkcija trenda. U tom slučaju, za dobijanje specifičnih sezonskih indeksa, nivoivremenske serije se dijele sa vrijednostima koje su ocjenjene pomoću jednačine trenda.

Ako specifični sezonski indeksi po sezonama pokazuju linearnu tendenciju iz godineu godinu, treba ocijeniti linearne trendove za sve sezone. Pomoću njih se može izvršitiinterpolacija i ekstrapolacija sezonske komponente.

Prognozirana vrijednost pojave može se dobiti tako što se ekstrapolirana vrijednostmnoži sa tipičnim ili ekstrapoliranim sezonskim indeksom za odgovarajuću sezonu.

Page 214: Statistika - Djuro Mikulic

Primjer 9.6 Na osnovu podataka o proizvodnji jaja po kvartalima u periodu od 2000 -2005. godine, izračunati sezonske indekse i izvršiti prognozu za 2006. godinu.

Godina Proizvodnja jaja '000 komadaI II III IV

2000 30 38 33 282001 34 41 37 312002 36 48 42 352003 42 51 47 362004 45 58 55 402005 4B 65 60 46

Za izdvajanje trend komponente koriste se centrirani pokretni prosjeci dužine 4, tj.:

Izračunati pokretni prosjeci prikazani su u sljedećoj tabeli:

GODINACENTRIRANI POKRETNI PROSJECI

m = 4I II III IV

2000 _ _ 32,75 33,622001 34,50 35,38 36,00 37,122002 38,62 39,75 41,00 42,122003 43,12 43,88 44,38 45,622004 47,50 49,00 49,88 51,122005 52,62 54,00 - -

Dijeljenjem nivoa serije odgovarajućim pokretnim prosjecima, dobijaju se specifičnisezonski indeksi:

GODINASPECIFIČNI SEZONSKI INDEKSI

I II III IV2000 — — 1,01 0,832001 0,99 1,16 1,03 0,842002 0,93 1,21 1,02 0,632003 0,37 1,16 1,06 0,792004 0,35 1,18 1,10 0,782005 0,91 1,20 — —

TIPIČNISEZONSKIINDEKSI

0,95 1,182 1,044 0,814

Očigledno je da specifični sezonski indeksi ne pokazuju stabilnost, jer u prvom ičetvrtom kvartalu imaju opadajuću, a u drugom i trećem rastuću tendenciju. Zbog toga jebolje, umjesto njihovog uprosječavanja po kvartalima, ocijeniti linearni trend za svakikvartal.

Page 215: Statistika - Djuro Mikulic

Ocjenjene funkcije su:= 0,992 – 0,014×i= 1,167 + 0,005×i= 0,981 + 0,021×i= 0,859 – 0,015×i

Iz svake od ovih jednačina za i=3 mogu se dobiti tipični indeksi koji su prikazani ugornjoj tabeli.

Za prognoziranje proizvodnje u 2006. godini, na osnovu originalnih podatakaocjenjena je jednačina linearnog trenda: =29,51+1,06×i.

Ekstrapolirane vrijednosti trenda za 2006. godinu dobijaju se kada se u jednačinilinearnog trenda zamijene vrijednosti: i=25; 26; 27 i 28 (ovdje je n=24, a k=1,2,3 i 4):

= 29,51 + 1,06×25 = 56,01= 29,51 + 1,06×26 = 57,07= 29,51 + 1,06×27 = 58,13= 29,51 + 1,06×28 = 59,19

Očekivane kvartalne indekse dobićemo za 2006. godinu ekstrapolacijom kvartalnihtrendova za i=6 (ovdje je n=5, a k=1 za sve četiri ocjenjene linije trenda.

= 0,992 – 0,014×6 = 0,908= 1,167 + 0,005×6 = 1,197= 0,981 + 0,021×6 = 1,107= 0,859 – 0,015×6 = 0,769

S obzirom da se pretpostavlja multiplikativnost modela, prognozirane vrijednostiproizvodnje jaja dobijaju se množenjem ekstrapoliranih vrijednosti opšteg trenda i kvartalnihtrendova. Biće:

= 56,01×0,908 = 50,86

= 57,07×1,197 = 68,31

= 58,13×1,107 = 64,35= 59,19×0,769 = 45,51

Page 216: Statistika - Djuro Mikulic
Page 217: Statistika - Djuro Mikulic

DODATAK – TABLICE

Page 218: Statistika - Djuro Mikulic
Page 219: Statistika - Djuro Mikulic
Page 220: Statistika - Djuro Mikulic
Page 221: Statistika - Djuro Mikulic
Page 222: Statistika - Djuro Mikulic
Page 223: Statistika - Djuro Mikulic
Page 224: Statistika - Djuro Mikulic
Page 225: Statistika - Djuro Mikulic
Page 226: Statistika - Djuro Mikulic
Page 227: Statistika - Djuro Mikulic
Page 228: Statistika - Djuro Mikulic
Page 229: Statistika - Djuro Mikulic
Page 230: Statistika - Djuro Mikulic
Page 231: Statistika - Djuro Mikulic
Page 232: Statistika - Djuro Mikulic
Page 233: Statistika - Djuro Mikulic
Page 234: Statistika - Djuro Mikulic
Page 235: Statistika - Djuro Mikulic
Page 236: Statistika - Djuro Mikulic