STATISTIKA - referada.hr · 2.3. Mjere asimetrije, zaobljenosti i koncentracije Mjere asimetrije...

25
STATISTIKA MALA SKRIPTA TEORIJA ZA USMENI ID: 10501

Transcript of STATISTIKA - referada.hr · 2.3. Mjere asimetrije, zaobljenosti i koncentracije Mjere asimetrije...

STATISTIKA

MALA SKRIPTA

TEORIJA ZA USMENI

ID: 10501

1

Bok!

Drago nam je što si odabrao SKRIPTARNICU za pronalazak materijala koji će ti pomoći u učenju.

Što je SKRIPTARNICA?

Skriptarnica je projekt Štreberaj tima i Urbana, a nastala je u želji da ti olakšamo studiranje. Sve

skripte možeš pogledati na stranici www.referada.hr, a kupiti u SKRIPTARNICI u Urbanu. Sjedi na kavu

i uz svoju narudžbu naruči i skriptu. Simple as that!

Tko je napisao skripte?

Skripte koje nađeš kod nas nisu naše autorsko djelo. To su razne skripte koje nam studenti donesu.

Mi smo ih samo malo uredili, da ti je ljepše učiti iz njih.

Želimo ti puno sreće s učenjem!

Štreberaj instrukcije

Ako negdje zapneš s učenjem, mi ti možemo pomoći.

Prijavi se na naše instrukcije i položi teške ispite bez muke.

Sve info možeš pronaći na www.referada.hr/instrukcije.

2

1. UVOD

Statistika – znanstvena metoda koja se bavi prikupljanjem, analiziranjem i tumačenjem podataka

različite vrste.

Podaci – promotrena kvalitativna i kvantitativna svojstva objekata, stvari, osoba, procesa...

Svrha primjene statističkih metoda – donošenje suda o osobitosti promatranih pojava, ispitivanje

različitih pretpostavki, predviđanje razine i stanja pojava.

Metode deskriptivne statistike – sastoje se u primjeni postupaka uređivanja, grupiranja, tabeliranja,

grafičkog prikazivanja statističkih podataka; podaci se ne poopćavaju.

Metode inferencijalne statistike – polaze od uzorka iz realne i konačne populacije čije se realizacije

mogu smatrati uzorkom procesa; njima se također donose vjerojatnosni sudovi o cjelini.

1.1. Statistički skup

Statistički skup – sastoji se od jedinica kojima se ispituje jedno ili više svojstava koja od jedinice do

jedinice očituju statističku promjenljivost

Opseg skupa – broj jedinica

~ prema opsegu skupa statistički skupovi se dijele na konačne i beskonačne

Konačan skup – ima konačan broj elemenata

Beskonačan skup – ima beskonačno mnogo elemenata

Skup podataka ili osnovni skup – podaci o danoj varijabli za svaki element statističkog skupa

Populacija može biti:

realna

hipotetična

konačna

beskonačna

Uzorak – podskup statističkog skupa

~ u svakom statističkom istraživanju realni statistički skupovi se definiraju pojmovno, prostorno i

vremenski

Pojmovno – određuje se pripadnost skupu

Prostorno – određuje se kojem skupu pripadaju sve jedinice stat. skupa

Vremenski – određuje se vremenski interval ili vremenska točka za koje su vezane

sve jedinice skupa

3

1.2. Vrste i izvori statističkih podataka

Statistički podaci – rezultati mjerenja svojstava jedinica statističkih skupova, njihovih podskupova ili

eksperimentalnih jedinica

Statistička varijabla ili obilježje – svojstvo koje oblikom ili stupnjem varira od jedinice do jedinice

skupa; po njemu se elementi skupa razlikuju ili jedni drugima nalikuju

Skala

Skup modaliteta varijable

Razlikujemo:

nominalnu

ordinalnu

intervalnu

omjernu

Nominalna skala – dana je u obliku nenumeričkog skupa, odnosno liste naziva; redoslijed

odabran po volji; nisu dopuštene brojčane operacije (npr. po abecedi)

Ordinalna skala – pridružuje slovne oznake, simbole ili brojeve elementima skupa prema

intenzitetu mjerenog svojstva (npr. po rangu (ocjene))

Intervalna skala – pridružuju se jedinicama brojevi sukladno intenzitetu mjerenog svojstva;

ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu; moguće su osnovne računske

operacije osim dijeljenja (npr. temperaturna skala)

Omjerna skala – pridružuju se brojevi jedinicama statističkog skupa sukladno intenzitetu

mjerenog svojstva; ima definiranu mjernu jedinicu i nulu koja označuje nepostojanje svojstva;

moguće su osnovne računske operacije

Numerička varijabla

To varijabla mjerena na numeričkoj skali (intervalnoj i omjernoj)

diskretna num. varijabla – poprima konačan broj vrijednosti

kontinuirana num. varijabla – može poprimiti bilo koju vrijednost iz nekog intervala

1.3. Uređivanje podataka

Svrha uređivanja stat. podataka – omogućiti donošenje osnovnih sudova o danoj pojavi; njihovim

uređenjem nastaju statistički nizovi.

Nominalni niz – nastaje uređenjem podataka o modalitetima nominalne varijable

4

Redoslijedni niz – nastaje uređenjem podataka o rang-varijabli

Numerički niz – formira se sređivanjem podataka koji predočuju vrijednosti numeričke varijable

Vremenski niz – kronološko nizanje podataka o nekoj pojavi

Jednostavna tabela – prikazuje se jedan stat. niz

Skupna tabela – prikazuje se više nizova nastalih sređivanjem podataka prema modalitetima iste

varijable

Tabela kontingence – prikazuju se podaci grupirani istodobno prema modalitetima dviju li više

varijabli

Relativni brojevi – pomoću njih se provodi elementarna analiza podataka u sklopu deskriptivne

statistike (postoci, proporcije, relativne frekvencije, indeksi i relativni brojevi koordinacije)

1.4. Niz kvalitativnih podataka

Kvalitativni podaci – oblici nominalne ili redoslijedne varijable

Grupiranjem se skup podataka koji se odnose na jedinice stat. skupa raščlanjuju u podskupove koji

se međusobno ne preklapaju

Frekvencija – broj podataka istog oblika varijable

Relativna frekvencija pi – omjer je frekvencije i ukupnog broja podataka

Postotna relativna frekvencija Pi – relativna frekvencija pomnožena sa 100

𝑝𝑖 =𝑓𝑖

𝑁 𝑃𝑖 =

𝑓𝑖

𝑁∙ 100

~ grupirani podaci se uobičajeno prikazuju tabelom kontigence, koja se sastoji od predstupca,

zaglavlja, polja tabele, marginalnog retka i marginalnog stupca

5

2. NUMERIČKI NIZOVI I DISTRIBUCIJA

FREKVENCIJA

Numerički nizovi nastaju uređenjem kvantitativnih podataka. Pojedinačni numerički podaci

predočavaju se dijagramom s točkama i dijagramom stablo list

Ako je riječ o velikom broju podataka, o numeričkoj kontinuiranoj varijabli ili ako diskretna numerička

varijabla poprima velik broj različitih vrijednosti, distribucija frekvencija formira se grupiranjem na

temelju razreda; svaki razred ima svoju gornju i donju granicu.

Frekvencija razreda

broj istih i sličnih vrijednosti numeričke varijable

formiranju distribucije prethodi određivanje broja razreka k i veličina razreda; broj razreda k

za grupiranje N vrijednosti numeričke varijable aproksimira se izrazom 𝑘 ≈ 1 + 3.3𝑙𝑜𝑔𝑁 –

Sturgesovo pravilo

Distribucija frekvencija prikazuje se histogramom i poligonom frekvencija

Histogram – površinski grafikon

Poligon frekvencija – linijski grafikon

2.1. Srednje vrijednosti statističkog niza

Aritmetička sredina

najvažnija i najraširenija srednja vrijednost

određuje se tako da se zbroje vrijednosti numeričke varijable i podijele s njihovim brojem

�̅� =1

𝑁∑𝑥𝑖

𝑁

𝑖=1

Svojstva:

zbroj odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine jednak je nuli

zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine sredine minimalan je

aritmetička sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izračunana

Aritmetička sredina aritmetičkih sredina

izračunava se kao vagana sredina u kojoj se za pondere uzima broj podataka za koje su

računane pojedine sredine

�̅� =1

𝑁∑𝑁𝑖�̅�

𝑘

𝑖=1

6

Aritmetička sredina relativnih brojeva koordinacije i aritmetička sredina postotaka

izračunavaju se kao vagane sredine u kojima su ponderi osnovice tih brojeva

𝑅𝑖 =𝑣𝑖

𝐵𝑖 𝑃𝑖 =

𝐷𝑖

𝐶𝑖∙ 100

Geometrijska sredina Geometrijska sredina N vrijednosti numeričke varijable X jest N-ti korijen iz produkta njezinih

vrijednosti

𝐺 = √𝑥1 ∙ 𝑥2 ∙ … 𝑥𝑖 …𝑥𝑁𝑁

Za grupirane podatke, geometrijska sredina dana je izrazom

𝐺 = √𝑥1𝑓1 ∙ 𝑥2

𝑓2 ∙ … 𝑥𝑖𝑓𝑖 ∙ … 𝑥𝑁

𝑓𝑁𝑁

Harmonijska sredina

Harmonijska sredina N vrijednosti numeričke varijable X recipročna je vrijednosti aritmetičke sredine

njezinih recipročnih vrijednosti.

𝐻 =𝑁

∑1𝑥𝑖

𝑁𝑖=1

Mod

Mod je položajna srednja vrijednost; najčešća vrijednost ili modalitet koji se pojavljuje u nizu. Postoji

ako su u nizu barem dva jednaka podatka.

Mod distribucije frekvencija s razredima aproksimira se pomoću izraza:

𝑀𝑜 = 𝐿1 +(𝑏 − 𝑎)

(𝑏 − 𝑎) + (𝑏 − 𝑐)∙ 𝑖

b-najveća (korigirana) frekvencija; modalni razred je onaj sa najvećom kor. frekvencijom

Medijan. Kvantili

Medijan je položajna srednja vrijednost koja numerički niz uređen po veličini dijeli na dva jednaka

dijela

ako je broj podataka neparan, medijan je vrijednost središnjeg člana uređenog po veličini

ako je broj podatak paran, medijan je jednak poluzbroju vrijednosti varijable središnjih dvaju

članova uređenog niza

Medijan u distribuciji frekvencija s razredima aproksimira se pomoću izraza:

𝑀𝑒 = 𝐿1 +

𝑁2 − ∑𝑓1

𝑓𝑚𝑒𝑑∙ 𝑖

7

fmed-frekvencija medijalnog razreda (medijalni je onaj razred čija kumulativna frekvencija prvi put

uključuje vrijednost N/2

Medijan se ubraja u kvantile. Kvantili su vrijednosti numeričke varijable ili modaliteti rang-varijable

koji uređen numerički ili redoslijedni niz dijele na jednakobrojne dijelove. Dijele li kvantili na četiri

jednakobrojna dijela riječ je o kvartilima, na 10 dijelova decilima, na 100 dijelova percentilima.

2.2. Mjere disperzije

Mjerama disperzije brojčano se opisuje stupanj varijabilnosti statističkih podataka; najjednostavnija

mjera disperzije je raspon varijacije. Među pokazatelje varijabilnosti ubrajaju se interkvartil i

koeficijent kvartilne devijacije; najvažnija mjera disperzije je varijanca te iz nje izvedena standardna

devijacija i koeficijent varijacije; rabi se i srednje apsolutno odstupanje (MAD)

Raspon varijacije. Interkvartil

Raspon varijacije je najjednostavnija približna mjera disperzije; izražen je u mjernim jedinicama

obilježja;

𝑅𝑥 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Interkvartil je apsolutna mjera disperzije; raspon varijacije središnjih 50 % članova niza uređenih

parova

𝐼𝑄 = 𝑄3 − 𝑄1

Varijanca. Standardna devijacija. Koeficijent varijacije

Varijanca je aritmetička sredina kvadrata odstupanja vrijednosti numeričke varijable od njezine

aritmetičke sredine

𝜎2 =1

𝑁∑ (𝑥𝑖 − �̅�)

𝑁

𝑖=1

Standardna devijacija je pozitivni drugi korijen iz varijance

𝜎 = √1

𝑁∑(𝑥𝑖 − �̅�)2

𝑁

𝑖=1

Varijanca i standardna devijacija distribucije frekvencija:

𝜎2 =1

𝑁∑ 𝑓𝑖(𝑥𝑖 − �̅�)2𝑘

𝑖=1 𝜎 = √1

𝑁∑ 𝑓𝑖(𝑥𝑖 − �̅�)2𝑘

𝑖=1

Koeficijent varijacije je omjer standardne devijacije i aritmetičke sredine pomnožen sa 100

𝑉 =𝜎

�̅�100

8

Srednje apsolutno odstupanje od aritmetičke sredine i medijana:

𝑀𝐴𝐷 =1

𝑁∑ |𝑥𝑖 − �̅�| 𝑀𝐴𝐷𝑀𝑒 =

1

𝑁∑|𝑥𝑖 − 𝑀𝑒|

𝑁

𝑖=1

𝑁

𝑖=1

Standardizirana varijabla

Standardizirana varijabla z je linearna transformacija numeričke varijable X; provodi se tako da se

odstupanja vrijednosti numeričke varijable podijele sa standardnom devijacijom

𝑧 =(𝑥 − �̅�)

𝜎

2.3. Mjere asimetrije, zaobljenosti i koncentracije

Mjere asimetrije

Mjerama asimetrije mjeri se način rasporeda podataka prema aritmetičkoj sredini ili nekoj drugoj

vrijednosti; najvažnije mjere su Pearsonova i Bowleyjeva mjera

Koeficijent asimetrije 𝛼3- omjer trećeg momenta oko sredine i standardne devijacije podignute na

treću potenciju

𝛼3 =𝜇3

𝜎3

Pearsonova mjera asimetrije – standardizirano odstupanje vrijednosti medijana ili moda od

aritmetičke sredine; uglavnom prima vrijednosti iz intervala ±3

𝑆𝑘 =3(�̅� − 𝑀𝑒)

𝜎 𝑆𝑘 =

(�̅� − 𝑀𝑜)

𝜎

Bowlyjeva mjera asimetrije – temelji se na odnosima kvartila i medijana; poprima vrijednosti iz

intervala ±1

𝑆𝑘𝑄 =𝑄1 + 𝑄3 − 2𝑀𝑒

𝑄3 − 𝑄1

Mjere zaobljenosti

Zaobljenost modalnog vrha distribucije mjeri se koeficijentom zaobljenosti

Koeficijent zaobljenosti 𝜇4 – omjer četvrtog momenta oko sredine i standardne devijacije na četvrtu

potenciju

𝛼4 =𝜇4

𝜎4

𝛼4 = 3 − 𝑛𝑜𝑟𝑚𝑎𝑙𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑗𝑎

𝑎4 > 3 − š𝑖𝑙𝑗𝑎𝑠𝑡𝑖𝑗𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑗𝑎

𝛼4 < 3 − 𝑝𝑙𝑜𝑠𝑛𝑎𝑡𝑖𝑗𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑗𝑎

9

Mjere koncentracije

Mjerama koncentracije mjeri se način rasporeda totala ili druge prikladne agregatne veličine

po jedinicama niza ili modalitetima statističkih varijabli

Razlikujemo:

a) apsolutne mjere koncentracije

koncentracijski omjer

Herfindahlov indeks

b) relativne mjere koncentracije

Ginijev koeficijent

10

3. OSNOVNI POJMOVI VJEROJATNOSTI

3.1. Definicije vjerojatnosti

Pokus – djelatnost, postupak mjerenja, opažanja, iz kojeg izvire neki rezultat (ishod)

Slučajni pokus:

onaj koji završava s barem dva ili više ishoda

ishodi se ne mogu predvidjeti sa sigurnošću

u definiranim uvjetima, pokus se može ponavljati beskonačno mnogo puta

Prostor uzorka (elementarnih događaja) S – skup svih mogućih različitih ishoda slučajnog pokusa

događaj je elementaran ako se može rastaviti u jednostavnije događaje

Slučajni događaj A – jednočlani ili višečlani podskup skupa S, tj. podskup skupa svih elementarnih

događaja

Isključivi događaji – ne mogu se istodobno ostvariti 𝐴 ∩ 𝐵 = ∅; radi se o nastupu A ili B događaja

Definicija vjerojatnosti „a priori“ – polazi od pretpostavke da slučajni pokus ima konačan broj

jednako mogućih ishoda; ako su ishodi slučajnog pokusa jednako mogući, tada je vjerojatnost

nastupa događaja A jednaka omjeru broja za njega povoljnih ishoda m i ukupnog broja ishoda n.

Definicija vjerojatnosti „a posteriori“ – granična vrijednost relativne frekvencije povoljnog ishoda

događaja A ako se broj ponavljanja pokusa izvedenih u istim uvjetima povećava u beskonačnost

Aksiomatska definicija vjerojatnosti – preslikavanje koje svakom događaju 𝐴 ∈ 𝑆 pridružuje broj

P(A) i koji zadovoljava slijedeće uvjete:

1. 0 ≤ 𝑃(𝐴) ≤ 1 𝑛𝑒𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛𝑜𝑠𝑡

2. 𝑃(𝑆) = 1 𝑛𝑜𝑟𝑚𝑖𝑟𝑎𝑛𝑜𝑠𝑡

3. 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) 𝑎𝑑𝑖𝑡𝑖𝑣𝑛𝑜𝑠𝑡

3.2. Slučajna varijabla i distribucije vjerojatnosti

Slučajna varijabla X – numerička funkcija koja svakom ishodu slučajnog pokusa pridružuje realan

broj

Diskretna slučajna varijabla – poprima konačan broj vrijednosti ili prebrojivo mnogo njih

Kontinuirana slučajna varijabla – poprima bilo koju vrijednost iz nekog intervala

11

Distribucija vjerojatnosti diskretne slučajne varijable – skup uređenih parova različitih vrijednosti

te varijable i pripadajućih vrijednosti

Kumulativna funkcija (f-ja distribucije F(xi)) – pokazuje kolika je vjerojatnost da diskretna slučajna

varijabla poprimi vrijednost jednaku xi ili manju od te vrijednosti

Distribucija vjerojatnosti kontinuirane slučajne varijable – opisuje razdiobu vjerojatnosti na

intervalu vrijednosti varijable

Funkcija distribucije kontinuirane slučajne varijable (F(x)) – ima svojstva analogna onima za f-ju

distribucije diskretne slučajne varijable

3.3. Modeli distribucije vjerojatnosti

Modeli distribucije vjerojatnosti diskretne slučajne varijable

Modeli distribucije vjerojatnosti diskretne slučajne varijable – funkcije vjerojatnosti poznatih

oblika i svojstava

Binomna distribucija – diskontinuirana distribucija vjerojatnosti koja se može koristiti pri donošenju

poslovnih odluka u situacijama kada slučajni pokus ima obilježja Bernoullijevog procesa; pokus ima

dva ishoda: uspjeh i neuspjeh

Poissonova distribucija – u modeliranju situacija kada je broj povoljnih ishoda koji se mjeri u

vremenskoj jedinici, jediničnoj površini, udaljenosti ili volumenu vrlo malen; ishodi pokusa su

neovisni

Modeli distribucije vjerojatnosti kontinuirane slučajne varijable

Normalna (Gaussova) distribucija – kontinuirana distribucija vjerojatnosti koja je simetrična,

savršeno zaobljena i zvonolika

Studentova distribucija – simetrična, oblik ovisi o veličini uzorka n

ℵ2 distribucija – kontinuirana i pozitivno asimetrična; definira se nad intervalom [0, ∝] samo za

pozitivne vrijednosti

F-distribucija – kontinuirana, pozitivno asimetrična; definirana nad intervalom [0, ∝], a ovisi o dva

parametra:

a) broj stupnjeva slobode za brojnik

b) broj stupnjeva slobode za nazivnik

12

4. METODA UZORAKA

Dvije osnovne zadaće metode uzoraka:

1. da na osnovi uzoraka iz osnovnog skupa procijene karakteristike tog skupa

2. da se na osnovi podataka dobivenih uzorkom donese odluka da li da se prihvati ili odbaci

određena pretpostavka

Faktori koji određuju primjenu uzorka:

1. kod namjernog izbora istraživač izabire iz osnovnog skupa one elemente koje smatra

tipičnima ili reprezentativnima

2. kod prigodnog izbora uzorak je prigodno izabran, a ne slučajno

3. kod slučajnog izbora za svaki element postoji mogućnost da bude izabran za uzorak

Sampling-distribucija aritmetičkih sredina, proporcija i varijanci

Sampling-distribucija – teorijska distribucija vjerojatnosti procjenitelja parametra

Sampling-varijabla – slučajna varijabla jer se uzorci izabiru tako da svaka jedinica tj. svaki uzorak ima

određenu vjerojatnost izbora

4.1. Procjene parametara

Procjenitelj – metoda procjenjivanja, formula

Procjena – primjena procjenitelja na podacima iz uzorka

Procjenitelj parametra jednim brojem – nije moguće donijeti sud o preciznosti procjene, niti

zaključivati o razini povjerenja s kojom se ona može upotrijebiti

Intervalni procjenitelj – oslanja se na oblik i svojstva normalne ili Studentove t sampling-distribucije

sredina

Razina pouzdanosti (1 − 𝛼) – vjerojatnost da će se između granica L1 i L2 naći parametar 𝜃

Procjena aritmetičke sredine i totala osnovnog skupa

Aritmetička sredina osnovnog skupa 𝜇 – parametar koji se procjenjuje brojem i intervalom

�̅� =1

𝑁∑𝑥𝑖

𝑛

𝑖=1

ako je uzorak >30 = veliki uzorak (Normalna distribucija)

𝑃 (�̅� − 𝑧𝛾2𝜎�̅� < 𝜇 < �̅� + ⋯) = (1 − 𝛼)

13

ako je uzorak <30 = mali uzorak (Studentova distribucija)

𝑃 (�̅� − 𝑡𝛾2𝜎�̅� < 𝜇 < �̅� + ⋯) = (1 − 𝛼)

Total T – zbroj vrijednosti numeričke varijable konačnog osnovnog skupa

�̂� = 𝑁�̅�

𝑃 (�̂� − 𝑧𝛾2𝜎�̂� < 𝑇 < �̂� + ⋯) = (1 − 𝛼)

Određivanje veličine uzorka za procjenu aritmetičke sredine osnovnog skupa

Ovisi o:

1. vrsti osnovnog skupa koji je konačan ili beskonačan

2. razini pouzdanosti procjene

3. željenoj preciznosti procjene

4. stupnju varijabilnosti obilježja

Ako se pogreška i stupanj varijabilnosti izražavaju apsolutno, koristi se slijedeća formula:

𝑛 = [𝑧𝛾2𝜎

𝑑]

2

Ako se pogreška i stupanj varijabilnosti izražavaju relativno, koristi se slijedeća formula:

𝑛 = [𝑧𝛾2𝑉

𝑑𝑟]

2

Procjena proporcije osnovnog skupa

Proporcija konačnog osnovnog skupa – parametar koji predočuje omjer članova skupa s određenim

oblikom obilježja M i opsega skupa N, 𝑝 =𝑀

𝑁

Procjenitelj proporcije osnovnog skupa brojem – proporcija uzorka �̂� =𝑚

𝑛, gdje je m broj članova

uzorka s određenim oblikom obilježja, a n veličina uzorka

𝑃 (�̂� − 𝑧𝛾2𝜎𝑝 < 𝑝 < �̂� + ⋯) = (1 − 𝛼)

14

4.2. Testiranje hipoteza o parametru

Testiranje hipoteza o parametru

svaki postupak testiranja polazi od nulte i alternativne hipoteze

Pogreška tipa I. – učini se kad se odbaci istinita nulta hipoteza

Pogreška tipa II. – učini se kada se prihvati nulta hipoteza premda je lažna

Testiranje hipoteze o aritmetičkoj sredini osnovnog skupa

ako je uzorak >30, riječ je o velikom uzorku (z-test)

ako je uzorak ≤30, riječ je o malom uzorku (t-test)

nepoznata je aritmetička sredina osnovnog skupa 𝜇, a njezina je pretpostavljena veličina 𝜇0

𝑧 =�̅� − 𝜇0

𝜎�̅� 𝑡 =

�̅� − 𝜇0

𝜎�̅�

odluke se mogu donositi i pomoću kritičnih granica:

𝑐1 = 𝜇0 − 𝑧𝛼2𝜎�̅� 𝑐2 = 𝜇0 + 𝑧𝛼

2𝜎�̅�

Testiranje hipoteze o proporciji osnovnog skupa pomoću velikog uzorka

nepoznata je proporcija osnovnog skupa p, a njezina pretpostavljena veličina je 𝑝0

𝑧 =�̂� − 𝑝0

𝜎𝑝

4.3. Usporedba parametara osnovnih skupova

Procjena razlike aritmetičke sredine dvaju osnovnih skupova nezavisnim uzorcima

𝐷 = 𝜇1 − 𝜇2 𝜎�̂� = √𝜎1

2

𝑛1+

𝜎22

𝑛2

𝑃 (�̂� − 𝑧𝛼2𝜎�̂� < 𝐷 < �̂� + ⋯) = (1 − 𝛼)

Test hipoteza o razlici aritmetičkih sredina dvaju osnovnih skupova nezavisnim uzorcima

𝑧 =�̂� − 𝐷0

𝜎�̂�

Procjena razlike proporcija i test hipoteze o razlici proporcija na temelju velikih nezavisnih uzoraka

15

neka su n1 i n2 dovoljno veliki nezavisni uzorci izabrani iz osnovnih skupova s proporcijama p1

i p2 i neka su �̂�1 𝑖 �̂�2 proporcije uzoraka

𝑧 =�̂� − 𝐷0

𝜎�̂� �̂� =

𝑚1 + 𝑚2

𝑛1 + 𝑛2 �̂� = �̂�1 − �̂�2 �̂��̂� = √�̂��̂� (

1

𝑛1) + (

1

𝑛2)

𝑃 (�̂� − 𝑧𝛼2𝜎�̂� < 𝑝 < �̂� + ⋯) = (1 − 𝛼)

16

5. ODABRANI NEPARAMETARSKI

TESTOVI

𝜒𝟐- test (hi-kvadrat test)

hi-kvadrat testom ispituje se hipoteza o jednakosti proporcija triju ili više osnovnih skupova

Postoje tri testa s kojima ćemo se susresti

test o obliku distribucije populacije

test o nezavisnosti dviju varijabli

test o jednakosti proporcija triju ili više nezavisnih populacija

6. REGRESIJSKA ANALIZA

6.1. Regresijski model. Osnovni pojmovi

Regresijska analiza – sastoji se u primjeni različitih metoda ispitivanja ovisnosti jedne varijable ili

više drugih

Zadaće:

ocjenjivanje nepoznatih parametara

izračunavanje mjere disperzije i drugih stat.-analitičkih pokazatelja

Korelacijska analiza – sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakosti veze

među pojavama

Status varijabli u modelu , to jest koja je varijabla zavisna, a koje su nezavisne, ovisi o danoj primjeni

modela i izvire iz poznavanja područja primjene

Regresijski model – jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli

zavisna varijabla je (y)

nezavisna varijabla je (x)

Model jednostavne linearne regresije

Modelom jednostavne regresije izražava se statistički odnos među dvjema pojavama

predočenima vrijednostima numeričkih varijabli; model sadrži zavisnu i jednu nezavisnu

varijablu

17

Model populacije:

𝑦𝑖 = 𝛽0 + 𝛽𝑥𝑖 + 𝑒𝑖

Model uzorka:

𝑦𝑖 = 𝛽0̂ + �̂�𝑥𝑖 + �̂�𝑖

Regresijska jednadžba:

�̂� = 𝛽0̂ + �̂�𝑥

Regresijski koeficijent �̂� – pokazuje za koliko se u prosjeku linearno mijenja vrijednost zavisne

varijable Y za jediničnu promjenu nezavisne varijable X

Konstantni član 𝛽0̂ – vrijednost regresijske funkcije �̂� ako je vrijednost nezavisne varijable X jednaka

nuli

Regresijske vrijednosti – vrijednosti regresijske funkcije s procijenjenim parametrima (npr. ako je

cijena 60 €, regresijska vrijednost potrošnje je 81,7 kg.)

�̂�𝑖 = 𝛽0̂ + �̂�𝑥𝑖

Rezidualna odstupanja – procjene vrijednosti slučajne varijable u modelu regresije (npr. stvarna

vrijednost potrošnje je manja od procijenjene za...)

Intervalni procjenitelji parametara:

𝑃 (�̂� − 𝑓𝑟2(𝜗)𝜎�̂� < 𝛽 < �̂� + ⋯) = (1 − 𝛼)

~ ako se cijena poveća za 1 €, procjenjuje se da će se...

𝑃 (𝛽0̂ − 𝑓𝑟2(𝜗)𝜎�̂� < 𝛽0 < 𝛽0̂ + ⋯) = (1 − 𝛼)

~ ako je cijena 0 € procjenjuje se da je potrošnja...

Koeficijent determinacije – omjer protumačenog dijela zbroja kvadrata i ukupnog zbroja kvadrata

𝑟2 =𝑆𝑃

𝑆𝑇

ST – suma kvadrata odstupanja stvarne vrijednosti zavisne varijable od njene aritmetičke

sredine

SP – suma kvadrata odstupanja procijenjenih vrijednosti zavisne varijable od njene arit.

sredine

SR – suma kvadrata odstupanja empirijske vrijednosti zavisne varijable od regresijske

vrijednosti

18

Model višestruke linearne regresije

Model višestruke regresije – njime se predočuje statistička kovarijacija jedne numeričke varijable

pomoću dvije ili više drugim numeričkih varijabli

Analiza modela višestruke linearne regresije

Koraci u analizi modela:

1. utvrđivanje oblika modela, te svojstva varijabli i parametara

2. procjena parametara, varijance, standardne devijacije, prognostičkih vrijednosti

3. testiranje hipoteza

Opći linearni regresijski model osnovnog skupa za n-vrijednosti:

𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖1 + 𝛽2𝑥𝑖2 + ⋯+ 𝛽𝑗𝑥𝑖𝑗 + ⋯+ 𝛽𝐾𝑥𝑖𝐾 + 𝑒𝑖

Model uzorka:

𝑦𝑖 = 𝛽0̂ + �̂�1𝑥𝑖1 + �̂�2𝑥𝑖2 + ⋯+ �̂�𝑗𝑥𝑖𝑗 + ⋯+ �̂�𝐾𝑥𝑖𝐾 + �̂�𝑖

Model s procijenjenim parametrima:

�̂� = 𝛽0̂ + �̂�1𝑥1 + �̂�2𝑥2 + ⋯+ �̂�𝑗𝑥𝑗 + �̂�𝐾𝑥𝐾

Procjena konstantnog člana 𝛽0̂ – vrijednost regresijske funkcije uzorka ako su vrijednosti K

nezavisnih varijabli jednake nuli

Procjena regresijskih koeficijenata �̂�𝑗 – pokazuje koliko se linearno u prosjeku mijenja vrijednost

zavisne varijable ako se varijabla Xj poveća za jedan, uz uvjet da se ne mijenjaju vrijednosti preostalih

nezavisnih varijabli

Testiranje hipoteza o modelu višestruke linearne regresije

Najčešće se rabe ovi testovi:

1. skupni test

𝐻0 …𝛽1 = 𝛽2 = 𝛽𝑗 = 0

𝐻1 …∃𝛽𝑗 ≠ 0

izvodimo ga pomoću empirijskog F-omjera: 𝐹 =𝑆𝑃

𝐾𝑆𝑅

𝑛−(𝑘+1)

2. pojedinačni test (jednosmjerni)

𝐻0 …𝛽1 ≥ 0

𝐻0 …𝛽1 < 0

19

Korelacijska matrica

𝑅 =

[

1 𝑟𝑦1 ⋯ 𝑟𝑦𝐾

𝑟1𝑦 1 ⋯ 𝑟1𝐾

𝑟2𝑦 𝑟21 ⋯ 𝑟2𝐾

⋮ ⋮ ⋱ ⋮𝑟𝐾𝑦 𝑟𝐾1 ⋯ 1 ]

~ elemente korelacijske matrice tvore kovarijance standardiziranih vrijednosti varijable

20

7. OSNOVNA ANALIZA VREMENSKIH

NIZOVA

7.1. Osnovna analiza vremenskih nizova

Vremenski niz – skup kronološki uređenih vrijednosti varijable koja predočuje neku pojavu ili

statistički proces u vremenu

Podjela vremenskih nizova:

intervalni – nastaje zbrajanjem vrijednosti pojave po intervalima vremena (površinski i linijski

grafikoni)

trenutačni – sastoji se od kronološki uređenih vrijednosti koje su u svezi s odabranim

vremenskim točkama (linijski grafikoni)

~ vremenski niz je deterministički ako se na temelju njegovih članova mogu egzaktno predviđati

razne pojave

~ vremenski niz je stohastički ako se pomoću njegovih članova buduća stanja mogu procijeniti

7.2. Pokazatelji dinamike

Pokazatelji dinamike – brojčane veličine kojima se opisuju promjene razine pojava u vremenu

Dijele se na:

one koji pokazuju pojedinačne promjene razina pojave u uzastopnim razdobljima

one koji pokazuju promjene razine pojave tekućeg vremena prema razini odabranog

razdoblja

Podjela prema mjernim jedinicama:

apsolutne mjere promjene

relativne mjere promjene (stopa promjene)

Prve diferencije – izražavaju veličinu promjena razina pojava u uzastopnim razdobljima

∆𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1

Prosječne prve diferencije – računaju se uporabom samo posljednje i prve vrijednosti niza

∆̅𝑦 =𝑦𝑛 − 𝑦1

𝑛 − 1

21

Stope promjene – omjer prve diferencije i odgovarajuće serije pomnožena sa 100

𝑠𝑡 =𝑦𝑡 − 𝑦𝑡−1

𝑦𝑡−1∙ 100

Prosječne stope – određuje se pomoću geometrijske sredine koeficijenta dinamike

�̅� = ( √𝑦𝑛

𝑦1− 1

𝑛−1

) ∙ 100

Individualni indeksi

Indeksi vremenskog niza – relativni brojevi koji izražavaju odnos stanja jedne pojave ili skupine

pojava u različitim razdobljima ili vremenskim točkama

Pojavljuju se u dva oblika:

1. verižni indeksi – relativni brojevi koji pokazuju promjene stanja pojave u uzastopnim

razdobljima

𝑉𝑡 =𝑦𝑡

𝑦𝑡−1∙ 100

2. bazni indeksi – njima se mjeri promjena razine vremenske pojave u relativnom iznosu prema

članu niza jednog odabranog razdoblja ili vremenske točke

𝐼𝑡 =𝑦𝑡

𝑦𝑏∙ 100

Koeficijent dinamike:

𝑣𝑡 =𝑦𝑡

𝑦𝑡−1

Skupni indeksi

Skupni indeksi – relativni brojevi kojima se mjere relativne promjene skupine pojava u vremenu

Dijele se na skupne indekse:

cijena

količina

vrijednosti

U analizi dinamike skupine pojava izračunavaju se:

Laspeyresov indeks cijena i količina

Paascheov indeks cijena i količina

indeks vrijednosti

Laspeyresov indeks cijena - skupni indeks koji pokazuje kolike su prosječne relativne promjene

cijena skupine k pojava koje čine neku logičnu cjelinu

22

𝑃0𝑡(𝑞0) =∑ 𝑝𝑖𝑡𝑞𝑖0

𝑘𝑖=1

∑ 𝑝𝑖0𝑞𝑖0𝑘𝑖=1

∙ 100

Laspeyresov indeks količina – skupni indeks koji pokazuje kolike su prosječne relativne promjene

količina skupine k pojava koje čine neku logičnu cjelinu i to polazeći od baznog razdoblja

𝑄0𝑡(𝑝0) =∑ 𝑞𝑖𝑡𝑝𝑖0

𝑘𝑖=1

∑ 𝑞𝑖0𝑝𝑖0𝑘𝑖=1

∙ 100

Paascheov indeks cijena – vagana aritmetička sredina individualnih indeksa cijena u kojoj su za

pondere uzete vrijednosti količina tekućeg razdoblja po cijenama baznog razdoblja

𝑃0𝑡(𝑞𝑡) =∑ 𝑝𝑖𝑡𝑞𝑖𝑡

𝑘𝑖=1

∑ 𝑝𝑖0𝑞𝑖𝑡𝑘𝑖=1

∙ 100

Paascheov indeks količina – vagana aritmetička sredina individualnih indeksa količina u kojoj su za

pondere uzete vrijednosti obračunate po cijenama tekućeg razdoblja

𝑄0𝑡(𝑝𝑡) =∑ 𝑞𝑖𝑡𝑝𝑖𝑡

𝑘𝑖=1

∑ 𝑞𝑖0𝑝𝑖𝑡𝑘𝑖=1

∙ 100

Indeks vrijednosti – omjer tekućeg i vrijednosti baznog razdoblja

𝑉𝑜𝑡 =∑ 𝑝𝑖𝑡𝑞𝑖𝑡

𝑘𝑖=1

∑ 𝑝𝑖0𝑞𝑖0𝑘𝑖=1

∙ 100

23

8. ODABRANI MODELI VREMENSKIH

SERIJA

8.1. Odabrani modeli vremenski serija

Komponente:

komponenta trenda – upućuje na osnovni tok pojave u vremenu

sezonska komponenta – posljedica je periodičnog utjecaja klimatskih faktora, ritma

proizvodnje, potrošnje

ciklična komponenta – pokazuje se onda kada se vremenska pojava obnavlja na približno isti

način, s periodom dvije ili više godina

Model trenda – njime se opisuje dugoročna kovarijacija pojave s vremenom

Aditivni model trenda – opći oblik modela temeljen na standradnoj dekompoziciji

𝑌 = 𝑇 + 𝑒

Multiplikativni model trenda – komponente su mu faktori umnoška

𝑌 = 𝑇 ∙ 𝜀

Y=pojava predočena vremenskom serijom

T=komponenta trenda predočena nepoznatom f-jom vremena

e, 𝜀=nepoznata slučajna odstupanja

Model linearnog (jednostavnog) trenda:

𝑦𝑡 = 𝛽0 + 𝛽𝑥𝑡 + 𝑒𝑡

Jednadžba linearnog trenda:

�̂� = 𝛽0̂ + �̂�𝑥

�̂� =∑ 𝑥𝑡𝑦𝑡 − 𝑛�̅��̅�𝑛

𝑖=1

∑ 𝑥𝑡2 − 𝑛�̅�2𝑛

𝑖=1

𝛽0̂ = �̅� − �̂��̅�

∑𝑥𝑡2 =

1

6𝑛(𝑛 + 1)(2𝑛 + 1)

𝑛

𝑖=1

�̅� =𝑛 + 1

2 �̅� =

∑𝑦𝑡

𝑛

Prognostička vrijednost:

�̂�𝑛+𝜏 = 𝛽0̂ + �̂�(𝑛 + 𝜏)

24

Jednadžba eksponencijalnog trenda:

𝑙𝑜𝑔�̂� = 𝑙𝑜𝑔𝛽0̂ + 𝑋𝑙𝑜𝑔�̂�

𝑙𝑜𝑔�̂� =∑ 𝑙𝑜𝑔𝑦𝑡 − �̅� ∑ 𝑙𝑜𝑔𝑦𝑡

𝑛𝑡=1

𝑛𝑡=1

∑ 𝑥𝑡2 − 𝑛�̅�2𝑛

𝑡=1

𝑙𝑜𝑔𝛽0̂ =1

𝑛∑𝑙𝑜𝑔𝑦𝑡 − �̅�𝑙𝑜𝑔�̂�

𝑛

𝑡=1

Prognostička vrijednost:

�̂�𝑛+𝜏 = �̂� + �̂�(𝑛+𝜏)