UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna,...

20
1 UMESTO UVODA U osnovi matematike je deduktivno, dok se statistika zasniva na induktivnom zaključivanju. Matematika vs Statistika U teoriji verovatnoće se izračunavaju matematički modeli stvarnih pojava, dok se u statistici na osnovu stvarne pojave formira matematički model. Verovatnoća vs Statistika Predmet statističkog istraživanja su masovne pojave koje su po svojoj prirodi promenljive, a najčešća podela je na diskretnu (opisuje osnovne karakteristike određenog skupa) i inferencijalnu (izvođenje zaključaka o celini (populacija) na osnovu njenog dela (uzorka), pri čemu se koriste osnovna načela teorije verovatnoće).

Transcript of UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna,...

Page 1: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

1

UMESTO UVODA U osnovi matematike je deduktivno, dok se statistika zasniva na induktivnom zaključivanju.

Matematika vs Statistika

U teoriji verovatnoće se izračunavaju matematički modeli stvarnih pojava, dok se u statistici na osnovu stvarne pojave formira matematički model.

Verovatnoća vs Statistika

Predmet statističkog istraživanja su masovne pojave koje su po svojoj prirodi promenljive, a najčešća podela je na diskretnu (opisuje osnovne karakteristike određenog skupa) i inferencijalnu (izvođenje zaključaka o celini (populacija) na osnovu njenog dela (uzorka), pri čemu se koriste osnovna načela teorije verovatnoće).

Page 2: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

2

OSNOVNI STATISTIČKI POJMOVI Statistički skup (populacija, osnovni skup, masa) je skup svih elemenata na kojima se proučava neka pojava . Broj elemenata populacije se obeležava sa N i naziva se obim populacije. Dakle, statistički skup čine njegovi elementi (statističke jedinice). To mogu biti osobe, stvari, životinje, regije, države itd, koje imaju slična, zajednička svojstva. Uglavnom je nemoguće (ekonomski, prostorno, vremenski itd) vršiti statističku analizu na čitavoj populaciji, pa se tada vrši uzorkovanje skupa tj. odabir nekih elemenata skupa na kojima se sprovodi dalja analiza. Zaključci koji se donesu na tom skupu važe za čitavu populaciju. Uzorak je podskup statističkog skupa, a broj njegovih elemenata označavamo sa n.

Populacija vs Uzorak

Obeležje predstavlja svojstva tj. osobine po kojima su jedinice statističkog skupa ili uzorka međusobno slične ili se razlikuju. Svako obeležje se javlja u više pojavnih oblika (modaliteta) uz koje se vezuju frekvencije (apsolutna i relativna) kao numerički izraz pojavljivanja pojedinačnih klasa u posmatranom statističkom skupu. Vrste obeležja:

1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno

rečima (pol, bračno stanje, zanimanje, krvna grupa, religijska pripadnost itd).

2. Numerička (kvantitativna) obeležja su obeležja koja se izražavaju brojčano.

a) Prekidna (diskretna) obeležja - mogu imati samo izolovane vrednosti (broj položenih ispita, broj prodatih proizvoda itd)

b) Neprekidna (kontinuirana) obeležja - mogu imati bilo koju vrednost unutar nekog intervala

(visina, težina, potrošnja goriva, itd.)

Obeležje Atributivno

Numeričko Prekidno

Neprekidno

Page 3: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

3

Statistika je naučna metoda koja se bavi prikupljanjem, prikazivanjem, analizom i interpretacijom podataka, kao i donošenjem statističkih zaključaka. Prikupljanje podataka može se vršiti merenjem (temperatura, potrošnja goriva itd) ili pomoću ankete (popis stanovništva, preferencije potrošača o određenom proizvodu itd). Podaci zabeleženi po redosledu prikupljanja nazivaju se negrupisani (sirovi, neuređeni) podaci. Podatke uređujemo po veličini (od najmanjeg do najvećeg), pa grupišemo tj. podelimo u klase koje mogu biti diskretne ili intervalne u zavisnosti da li su ispitivana prekidna ili neprekidna obeležja. Podatke predstavljene na ovaj način nazivamo grupisani podaci i prikazujemo ih tabelarno (u vidu tabele) ili grafički (u vidu grafikona). Podaci se grafički najčešće prikazuju pomoću: - poligonalnih linija - stubičastih dijagrama - histograma - kružnih dijagrama Grafički prikaz podataka Bez obzira na koji način se prikažu podaci, cilj je isti – olakšati pregled podataka i pripremiti ih za dalju obradu (analizu) kako bi se stekli uslovi za izvođenje određenih zaključaka. Da bi izveli određene zaključke o raspodeli ispitivanog obeležja (u populaciji, ili u uzorku pa kasnije na osnovu toga i u celoj populaciji), neophodno je izračunati veličine (mere, parametre, pokazatelje) koje je prezentuju.

Mere centralne tendencije

•Aritmetička sredina •Geometrijska sredina •Harmonijska sredina •Modus •Medijana •Kvantili

Mere disperzije

•Interval varijacije •Interkvartilna razlika •Srednje apsolutno odstupanje •Srednje kvadratno odstupanje •Standardna devijacija •Koeficijent varijacije •Normalizovano standardno odstupanje

Mere oblika raspodele

•Koeficijent asimetrije •Koeficijent spljoštenosti

Page 4: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

4

1. MERE CENTRALNE TENDENCIJE (SREDNJE VREDNOSTI) Srednja vrijednost je konstanta koja ima za cilj da na reprezentativan način predstavi niz varijabilnih podataka statističkog skupa. To je centralna vrijednost oko koje se gomilaju podaci zbog čega se još zove i mera centralne tendencije. Mere centralne tendencije (parametri srednje vrednosti) se dele u dve grupe:

1) Izračunate – najčešće ne postoje u statističkom skupu nego su rezultat izračunavanja (aritmetička, geometrijska i harmonijska sredina)

2) Pozicione – najčešće postoje u statističkom skupu, a određuju se prema položaju (modus, medijana, kvantili)

1.1. IZRAČUNATE MERE CENTRALNE TENDENCIJE

Ako su aritmetička, geometrijska i harmonijska sredina izračunate nad istim skupom brojeva onda važi nejednakost:

𝐻 ≤ 𝐺 ≤ 𝑚

1.1.1. ARITMETIČKA SREDINA Kada je priroda promene posmatranog obeležja linearno zavisna, koristimo aritmetičku sredinu kao meru srednje vrednosti. Linearna zavisnost promene ogleda se u tome da je ukupna grupna vrednost obeležja jednaka aritmetičkom zbiru obeležja svakog člana grupe ponaosob (visina, težina, broj poena na ispitu itd). Ovakva priroda promene je najzastupljenija u svakodnevnom životu.

Aritmetička sredina (prosek) se računa po formuli 𝑚 = ∑ 𝑓𝑖𝐾𝑖=1 ∗𝑥𝑖𝑁

Aritmetička sredina je dobar pokazatelj kod simetričnih raspodela (visina, težina ljudi), ali ne i kod asimetričnih raspodela (primanja zaposlenih u nekoj firmi). Napomena. Ponderisana aritmetička sredina se upotrebljava ako pojedine klase nemaju iste frekvencije (težine, važnosti), a kako je to slučaj u primerima koje ćemo obrađivati sve formule su date u ovom obliku. K označava broj klasa. Primer. Prosečna ocena za studenta koji ima sledeće ocene je 10, 8, 6, 9, 7, 7 je 8.

𝑚 =10 + 9 + 9 + 8 + 7 + 7 + 6

7=

10 + 2 ∗ 9 + 8 + 2 ∗ 7 + 67

=567

= 8

1.1.2. GEOMETRIJSKA SREDINA

Kada je priroda promene posmatranog obeležja direktno proporcionalna, koristimo geometrijsku sredinu kao meru srednje vrednosti. Direktna proporcionalnost promene ogleda se u tome da je ukupna grupna vrednost obeležja jednaka proizvodu obeležja svakog člana grupe ponaosob (npr.procenat). Geometrijska sredina je pokazatelj srednje stope promene neke pojave i računa se po formuli

𝐺 = �𝑥1𝑓1 ∗ 𝑥2𝑓2 ∗ ⋯𝑥𝐾𝑓𝐾𝑁

ili u logaritamskom obliku

𝑙𝑙𝑙𝐺 =∑ 𝑓𝑖 ∗ 𝑙𝑙𝑙𝐾𝑖=1 𝑥𝑖

𝑁

Page 5: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

5

Koristi se najviše u matematici finansija i finansijskom menadžmentu jer omogućava pronalaženje proseka relativnih brojeva kao što su procenti, odnosi, indeksi, ili stope rasta. Primer. Cena goriva u prethodne tri godine se menjala na sledeći način: tokom prve i druge godine se povećala za 15% i 8%,respektivno, a tokom treće se smanjila za 20%. 𝐺 = �1,15 ∗ 1,08 ∗ 0,83 = 0,997862 Dakle, u trogodišnjem periodu ovakvim promenama cena goriva se prosečno godišnje smanjivala 0,2138% . Primer. Godišnja stopa inflacije u Srbiji u periodu od 2011. do 2013. je bila 7,9%, 12,2%, 2,2%, respektivno.

𝐺 = �7,9 ∗ 12,2 ∗ 2,23 = 5,9631

1.1.3. HARMONIJSKA SREDINA Kada je priroda promene posmatranog obeležja obrnuto proporcionalna, koristimo harmonijsku sredinu kao meru srednje vrednosti. Obrnuta proporcionalnost promene ogleda se u tome da se grupna vrednost obeležja smanjuje kada se povećava broj članova grupe i obrnuto ( npr.vreme završetka nekog posla u odnosu na broj ljudi koji ga istovremeno rade). Harmonijska sredina se izračunava prema formuli

𝐻 =𝑁

𝑓1𝑥1

+ 𝑓2𝑥2

+ ⋯+ 𝑓𝑘𝑥𝑘

Koristi se za izračunavanje sredine količnika, kod određivanja prosečne brzine, prosečne produktivnosti itd. Primer. Na autoputu automobil se vozi brzinom od 120 km/h, a na gradskim ulicama 50 km/h. Prosena brzina je 𝐻 = 2

1120+

150

= 70,59 𝑘𝑚/ℎ.

Primer. Ana uradi zadatak iz statistike za 10 min, Bora za 12 min, a Ceca za 9 min. Koliko je srednje vreme potrebno da jedan čovek iz te grupe uradi zadatak.

𝐻 =3

110 + 1

12 + 19

= 10,19 𝑚𝑚𝑚

1.2. POZICIONE MERE CENTRALNE TENDENCIJE

1.2.1. MODUS Modus (mod), ako postoji, je vrednost obeležja koje se najčešće pojavljuje u nizu podataka tj. vrednost sa najvećom frekvencijom. Označava se sa 𝑀0.

Page 6: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

6

Primer. Za podatke 1, 1, 2, 3 mod je 𝑀0 = 1. Skup podataka 1,1,2,2,3,3 ima 3 moda i to su: 1, 2 i 3, dok skup podataka 1, 2, 3 nema moda. Kada su podaci grupisani u intervalne klase modus određujemo tako što odredimo modalni interval (interval čija je frekvencija najveća), pa računamo na osnovu formule

𝑀𝑜 = 𝐿𝑚𝑜 + 𝑑1𝑑1+𝑑2

∗ 𝑑𝑚𝑜,

pri čemu je 𝐿𝑚𝑜 – donja granica modalnog intervala 𝑑1 = 𝑓𝑚𝑜 − 𝑓𝑚𝑜−1 – razlika između frekvencije modalnog i frekvencije intervala pre modalnog 𝑑2 = 𝑓𝑚𝑜 − 𝑓𝑚𝑜+1 – razlika između frekvencije modalnog i frekvencije intervala posle modalnog 𝑑𝑚𝑜 – širina modalnog intervala

1.2.2. MEDIJANA Medijana je vrednost obeležja koja vrednosti obeležja poređane u rastući, varijacioni niz, deli na dva jednaka dela. To znači da je jednak broj vrednosti obeležja koja su manja od medijane i onih koja su veća od medijane. Označava se sa 𝑀𝑒.

Dakle, prvo poređamo podatke u varijacioni (rastući) niz, pa računamo medijanu po formuli

𝑀𝑒 = �

𝑥𝑁+12

𝑁 𝑚𝑛𝑛𝑛𝑛𝑛𝑚

12�𝑥𝑁

2+ 𝑥𝑁

2+1� 𝑁 𝑛𝑛𝑛𝑛𝑚

Primer. Za podatke 1, 2, 3 medijana je 𝑀𝑒 = 𝑥3+1

2= 𝑥2 = 2, a za niz 1, 2, 3, 4 medijana je 𝑀𝑒 =

12�𝑥4

2+ 𝑥4

2+1� = 1

2(𝑥2 + 𝑥3) = 2+3

2= 2,5. U skupu podataka 1, 5, 4, 3, 1 prvo moramo napraviti

varijacioni (rastući) niz 1, 1, 3, 4, 5 pa nakon toga zaključiti da je 𝑀𝑒 = 3. Kada su podaci grupisani u intervalne klase medijanu određujemo tako što prvo odredimo medijalni interval (prvi interval čija je kumulativna frekvencija veća od 𝑁

2), pa računamo na osnovu formule

Page 7: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

7

𝑀𝑒 = 𝐿𝑚𝑒 +𝑁2−𝐹𝑚𝑚−1

𝑓𝑚𝑚∗ 𝑑𝑚𝑒,

pri čemu je 𝐿𝑚𝑒 – donja granica medijalnog intervala 𝐹𝑚𝑒−1 – kumulativna frekvencija intervala pre medijalnog 𝑓𝑚𝑒 – frekvencijalnog medijalnog intervala 𝑑𝑚𝑒 – širina medijalnog intervala

1.2.3. KVANTILI

Kvantili su vrednosti obeležja koji uređene numeričke nizove dele na t jednakih delova. Broj kvantila je t-1. U tabeli su dati kvantili koji se najčešće koriste.

t Naziv Oznaka 2 Medijana 𝑀𝑒 3 Tercil 𝑇1,𝑇2 4 Kvartil 𝑄1,𝑄2,𝑄3 5 Kvintil 𝐾1,𝐾2,𝐾3,𝐾4

10 Decil 𝐷1,𝐷2, … ,𝐷9 100 Percentil 𝑃1,𝑃2, … ,𝑃99

Kvantile ćemo obeležavati sa 𝑀𝑝 – kvantil reda 𝑛, 𝑛 ∈ (0,1) i kažemo da ima osobinu da je 100𝑛% vrednosti obeležja manje od 𝑀𝑝, a 100(1 − 𝑛)% vrednosti je veće od 𝑀𝑝. Kvantile računamo na sledeći način:

- Ako je (𝑁 − 1)𝑛 prirodan broj, onda je kvantil reda p

𝑀𝑝 = 𝑥�(𝑁−1)𝑝+1� - Ako (𝑁 − 1)𝑛 nije prirodan broj, onda je kvantil reda p određujemo tako što prvo odredimo k iz

𝑘 < (𝑁 − 1)𝑛 + 1 < 𝑘 + 1 pa

𝑀𝑝 = 𝑥𝑘 + �(𝑁 − 1)𝑛 + 1 − 𝑘�(𝑥𝑘+1 − 𝑥𝑘) Kada su podaci grupisani u intervalne klase kvantil reda p određujemo tako što prvo odredimo kvantilni interval (prvi interval čija je kumulativna frekvencija veća ili jednaka od 𝑁𝑛), pa računamo na osnovu formule

𝑀𝑝 = 𝐿𝑝 +𝑁𝑛 − 𝐹𝑝−1

𝑓𝑝∗ 𝑑𝑝

gde je 𝐿𝑝 – donja granica kvantilnog intervala 𝐹𝑝−1 – kumulativna frekvencija intervala pre kvantilnog 𝑓𝑝 – frekvencijalnog kvantilnog intervala 𝑑𝑝 – širina kvantilnog intervala

Page 8: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

8

NEKI KVANTILI Kvartili su kvantili reda 0,25, 0,5, 0,75 �𝑄1 = 𝑀0,25,𝑄2 = 𝑀0,5,𝑄3 = 𝑀0,75�. Oni uređeni statistički niz dele na 4 jednaka dela i svaki deo sadrži 25% podataka. Obeležavamo ih sa 𝑄𝑖 (𝑚 = 1,2,3), a predstavlja vrednost obeležja od koje 25% ∗ 𝑚 elemenata ima vrednost manju ili jednaku od 𝑄𝑖. Primećujemo da je 𝑄2 = 𝑀𝑒, 𝑄1 medijana donje polovine populacije, a 𝑄3 medijana gornje polovine populacije.

Decili su kvantili reda 0,1, 0,2,...,0,9 �𝐷1 = 𝑀0,1,𝐷2 = 𝑀0,2, … ,𝐷9 = 𝑀0,9�. Oni uređeni statistički niz dele na 10 jednakih delova i svaki deo sadrži 10% podataka. Obeležavamo ih sa 𝐷𝑖 (𝑚 = 1,2, … ,9), a predstavlja vrednost obeležja od koje 10% ∗ 𝑚 elemenata ima vrednost manju ili jednaku od 𝐷𝑖. Percentili su kvantili reda 0,01, 0,02,...,0,99�𝑃1 = 𝑀0,01,𝑃2 = 𝑀0,02, … ,𝑃99 = 𝑀0,99�. Oni uređeni statistički niz dele na 100 jednakih delova i svaki deo sadrži 1% podataka. Obeležavamo ih sa 𝑃𝑖 (𝑚 = 1,2, … ,99), a predstavlja vrednost obeležja od koje 1% ∗ 𝑚 elemenata ima vrednost manju ili jednaku od 𝑃𝑖. Primer. Odrediti kvartile za skup podataka koji predstavlja plate 8 radnika (izražene u €) u kompaniji “XYZ“: 1700, 1800, 2050, 2150, 2400, 2800, 3200, 4800. Medijana deli podatke o platama na dva jednaka dela. 𝑄1 odrediti kao medijanu donjeg dela podataka tj. 1700, 1800, 2050, 2150, a 𝑄3 kao medijanu gornjeg dela podataka tj. 2400, 2800, 3200, 4800.

𝑄1 = 1800+20502

= 1925, a 𝑄3 = 2800+32002

= 3000. 25% radnika ima platu manju od 1925€, a njih 25% ima platu veću od 3000€.

2. MERE DISPERZIJE Same srednje vrednosti ne daju pravu sliku o nekom skupu podataka, pa je uz njih potrebno izračunati i mere disperzije (rasipanja, varijabilnosti, raspršenosti). Mere disperzije ukazuju na reprezentativnost srednjih vrednosti. Manja mera disperzije znači veću reprezentativnost srednje vrednosti i obrnuto. Mere disperzije možemo podeliti na:

1) Apsolutne – izražene su u jedinicama mere promenljive (varijable) statističkog skupa. Tu spadaju: interval varijacije, interkvartilni razmak, srednje apsolutno odstupanje, varijansa, standardna devijacija. Koriste se prilikom upoređivanja varijabiliteta distribucija istih obeležja (sa sličnim vrednostima).

2) Relativne– izražene su u proporcijama ili procentima. Tu spada koeficijent varijacije i normalizovano standardno odstupanje. Koriste se prilikom upoređivanja varijabiliteta distribucija različitih obeležja (ili istih obeležja sa različitim vrednostima).

Page 9: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

9

2.1. APSOLUTNE MERE DISPERZIJE

2.1.1. INTERVAL VARIJACIJE Interval varijacije (raspon) je najjednostavniji oblik merenja disperzije, njime se definiše razlika (stepen) raspršenosti (disperzije) vrednosti između najveće i najmanje vrednosti obeležja. Nedostatak mu je činjenica da na njega veoma utiču ekstremne vrednosti.

𝑅 = 𝑥𝑚𝑚𝑥 − 𝑥𝑚𝑖𝑚

2.1.2. INTERKVARTILNI RAZMAK Interkvartilni razmak je razlika između trećeg i prvog kvartila. Na njega ne utiču toliko ekstremne vrednosti jer koristi samo srednju polovinu podataka, pa je bolji pokazatelj nego interval varijacije.

𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Primer. Ako se osvrnemo na podatke iz prethodnog primera o zaradama zaposlenih u kompaniji „XYZ“ Interval varijacije je 𝑅 = 4800 − 1700 = 3100€, a interkvartilni razmak 𝐼𝑄𝑅 = 3000 − 1925 = 1075€

2.1.3. SREDNJE APSOLUTNO ODSTUPANJE Srednje apsolutno odstupanje je srednja vrednost apsolutnih odstupanja vrednosti obeležja od aritmetičke sredine obeležja.

𝐴𝐷(𝑚) =∑ 𝑓𝑖 ∗ |𝑥𝑖 − 𝑚|𝐾𝑖=1

𝑁

Analogno se mogu izračunati i srednje apsolutno odstupanje od modusa i medijane.

2.1.4. VARIJANSA Varijansa (disperzija) je srednje kvadratno odstupanje vrednosti obeležja od aritmetičke sredine obeležja. Izračunava se po formuli

𝜎2 =∑ 𝑓𝑖 ∗ (𝑥𝑖 − 𝑚)2𝐾𝑖=1

𝑁

ili

𝜎2 =∑ 𝑓𝑖 ∗ 𝑥𝑖2𝐾𝑖=1

𝑁−𝑚2

2.1.5. STANDARDNA DEVIJACIJA

Standardna devijacija je kvadratni koren iz varijanse.

𝜎 = �𝜎2

Page 10: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

10

Varijansu kao kvadratnu meru je teško interpretirati, pa korenovanjem dolazimo do najčešće mere disperzije - standardne devijacije. Standardna devijacija se definiše kao prosečno odstupanje orginalnih podataka od aritmetičke sredine i pokazuje koliko vredi dobijena aritmetička sredina (koliko je odstupanje od nje). Najmanja moguća vrednost varijanse i standardne devijacije je 0. Varijansa i standardna devijacija su osetljive na ekstremne vrednosti, jer se baziraju na distanci pojedinačnih rezultata od aritmetičke sredine.

2.2. RELATIVNE MERE DISPERZIJE

2.2.1. KOEFICIJENT VARIJACIJE Koeficijent varijacije meri relativnu disperziju i obično se izražava u procentima.

𝑉 =𝜎𝑚∗ 100%

U tablici je dat varijabilitet elemenata statističkog skupa u zavisnosti od koeficijenta varijacije

V (%) Varijabilitet 0 – 10 vrlo slab 10 – 30 relativno slab 30 – 50 Umeren 50 – 70 relativno jak veći od 70 vrlo jak

2.2.2. NORMALIZOVANO STANDARDNO ODSTUPANJE

Normalizovano standardno odstupanje je relativni parametar koji ukazuje na odstupanje određenog (i-tog) člana u odnosu na aritmetičku sredinu. Oznaka je 𝑍𝑖 i izračunavamo po formuli

𝑍𝑖 =𝑥𝑖 − 𝑚𝜎

Koristi se za upoređivanje individualnih članova iz različitih populacija.

3. MERE OBLIKA RASPODELE

Centralni momenat reda r se računa prema formuli

𝑀𝑟 =(𝑥𝑖 − 𝑚)𝑟

𝑁

3.1. KOEFICIJENT ASIMETRIJE

Koeficijent asimetrije

𝐾𝐴 =𝑀3

𝜎3

Page 11: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

11

𝐾𝐴 = 0 raspodela vrednosti obeležja je simetrična. Tada važi 𝑚 = 𝑀𝑒 = 𝑀0. 𝐾𝐴 > 0 raspodela vrednosti obeležja je pozitivno asimetrična (asimetrija udesno). Tada važi 𝑚 ≥ 𝑀𝑒 ≥ 𝑀0. 𝐾𝐴 < 0 raspodela vrednosti obeležja je negativno asimetrična (asimetrija ulevo). Tada važi 𝑚 ≤ 𝑀𝑒 ≤ 𝑀0.

3.2. KOEFICIJENT SPLJOŠTENOSTI Koeficijent spljoštenosti, ekscesa

𝐾𝐸 =𝑀4

𝜎4

𝐾𝐸 = 3 raspodela vrednosti obeležja je normalno spljoštena (takvu ima normalna raspodela). 𝐾𝐸 > 3 raspodela vrednosti obeležja je izdužena u odnosu na normalnu raspodelu, odnosno ima spljoštenost manju od normalne. 𝐾𝐸 < 3 raspodela vrednosti obeležja je više spljoštena u odnosu na normalnu raspodelu, odnosno ima spljoštenost veću od normalne.

Page 12: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

12

Primer 1.

Anketirano je 50 studenata Tehničkog fakulteta „Mihajlo Pupin“ o broju položenih ispita. Dobijeni su sledeći rezultati : 7 4 12 3 7 8 6 5 9 9 10 11 6 7 8 6 9 4 5 5 7 3 9 8 6 8 7 6 8 9 6 7 4 10 11 11 12 6 7 7 8 4 10 11 4 12 6 7 8 9 a) Za negrupisane podatke u Excelu odrediti mere centralne tendencije, disperzije i oblika raspodele b) Tabelarno i graficki predstaviti apsolutnu, relativnu i kumulativnu frekvenciju c) Za grupisane podatke odrediti mere centralne tendencije, disperzije i oblika raspodele Rešenje. a) Za sirove(negrupisane) podatke možemo odrediti mere centralne tendencije, disperzije i oblika raspodele pomoću statističkih funkcija u Excel-u. Obim populacije ili uzorka = COUNT ( : )

MERE CENTRALNE TENDENCIJE

Aritmetička sredina = AVERAGE ( : ) Geometrijska sredina = GEOMEAN ( : ) Harmonijska sredina = HARMEAN ( : ) Modus = MODE ( : ) Medijana = MEDIAN ( : ) Kvartili prvi kvartil treći kvartil

= QUARTILE ( : ; 1) = QUARTILE ( : ; 3)

Decili npr. sedmi decil

=PERCENTILE ( : ; 0,7)

Percentili npr. deseti percentil

=PERCENTILE ( : ; 0,1)

MERE DISPERZIJE

Interval varijacije (raspon) = MAX ( : ) – MIN ( : ) Interkvartilna razlika = QUARTILE ( : ; 3) – QUARTILE ( : ; 3) Srednje apsolutno odstupanje = AVEDEV ( : ) Varijansa (disperzija) = VARP ( : ) Standardna devijacija = STDEVP ( : )

MERE OBLIKA RASPODELE

Koeficijent asimetrije = SKEW ( : ) Koeficijent spljoštenosti = KURT ( : )

Page 13: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

13

b) Studente grupišemo u klase prema broju položenih ispita Tabelarni prikaz

Broj položenih ispita (𝑥𝑖)

Apsolutna frekvencija

(𝑓𝑖)

Relativna frekvencija (%) (𝑛𝑖)

Kumulativna frekvencija

(𝐹𝑖) „≤“ „≥“

3 2 4 2 50 4 5 10 7 48 5 3 6 10 43 6 8 16 18 40 7 9 18 27 32 8 7 14 34 23 9 6 12 40 16

10 3 6 43 10 11 4 8 47 7 12 3 6 50 3 ∑ N=50 100

Apsolutna frekvencija (frekvencija) – broj podataka u svakoj grupi ili klasi. Označava se sa 𝑓𝑖 i važi ∑ 𝑓𝑖 = 𝑁.𝐾𝑖=1

Relativna frekvencija – količnik apsolutne frekvencije i ukupnog broja podataka (obim populacije). Izražava se u procentima, a označava sa 𝑛𝑖. Dakle, 𝑛𝑖 = 𝑓𝑖

𝑁 i važi ∑ 𝑛𝑖 = 100%𝐾

𝑖=1 . Kumulativna frekvencija se označava sa 𝐹𝑖 i može biti određena sa:

- „manje do jednako od” – ukupan broj članova koji imaju vrednost obeležja manju ili jednaku od vrednosti obeležja i-te klase.

- „veće do jednako od” – ukupan broj članova koji imaju vrednost obeležja veći ili jednaku od vrednosti obeležja i-te klase.

Grafički prikaz frekvencija je u Dekartovom koordinatnom sistemu (𝑥,𝑦), pri čemu su na x-osi vrednosti obeležja i-te klase, a na y frekvencije. Kako je prekidno obeležje, grafički prikaz je najčešće u vidu poligona - izlomljene prave linije spajaju tačke (𝑥𝑖 , 𝑓𝑖).

Page 14: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

14

c)

𝑥𝑖 𝑓𝑖 𝑥𝑖 ∗ 𝑓𝑖 |𝑥𝑖 − 𝑚| ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)2 ∗ 𝑓𝑖 𝑥𝑖2 ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)3 ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)4 ∗ 𝑓𝑖

3 2 6 8,88 39,43 18 -175,06 777,25 4 5 20 17,2 59,17 80 -203,54 700,17 5 3 15 7,32 17,86 75 -43,58 106,34 6 8 48 11,52 16,59 288 -23,89 34,40 7 9 63 3,96 1,74 441 -0,77 0,34 8 7 56 3,96 2,20 448 1,23 0,69 9 6 54 9,36 14,60 486 22,78 35,53

10 3 30 7,68 19,66 300 50,33 128,85 11 4 44 14,24 50,69 484 180,47 642,48 12 3 36 13,68 62,38 432 284,46 1297,12

∑ 50 372 97,76 284,32 3052 92,44 3723,17 Mere centralne tendencije:

Aritmetička sredina: 𝑚 = ∑ 𝑓𝑖10𝑖=1 ∗𝑥𝑖50

= 37250

= 7,44. Modus: 𝑀𝑜 = 7, jer je najviše studenata koji imaju sedam položenih ispita. Medijana: Kako je parno 𝑁 = 50, 𝑀𝑒 = 1

2(𝑥25 + 𝑥26) = 7+7

2= 7.

Kvartili: Prvi kvartil je medijana donjeg dela podataka tj. prvih 25 podataka u varijacionom nizu, a treći kvartil je medijana drugih preostalih 25 podataka. 𝑄1 = 𝑥13 =6 𝑄3 = 𝑥38 =9 Ili kako znamo da je 𝑄1 = 𝑀0,25 49 ∗ 0,25 = 12,25 → 𝑘 < 13,25 < 𝑘 + 1 dakle 𝑘 = 13 pa 𝑀0,25 = 𝑥13 + (13,25 − 13) ∗ (𝑥14 − 𝑥13) = 6 + 0,25 ∗ (6 − 6) = 6.

Page 15: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

15

Analogno, 𝑄3 = 𝑀0,75 49 ∗ 0,75 = 36,75 → 𝑘 < 37,75 < 𝑘 + 1 dakle 𝑘 = 37 pa 𝑀0,75 = 𝑥37 + (37,75 − 37) ∗ (𝑥38 − 𝑥37) = 9 + 0,75 ∗ (9 − 9) = 9 Odrediti 7. decil: 𝐷7 = 𝑀0,7 49 ∗ 0,7 = 34,3 → 𝑘 < 35,3 < 𝑘 + 1 dakle 𝑘 = 35 pa 𝑀0,7 = 𝑥35 + (35,3 − 35) ∗ (𝑥36 − 𝑥35) = 9 + 0,3 ∗ (9 − 9) = 9. Odrediti 35. Percentil: 𝑃35 = 𝑀0,35 49 ∗ 0,35 = 17,15 → 𝑘 < 18,15 < 𝑘 + 1 dakle 𝑘 = 18 pa 𝑀0,35 = 𝑥18 + (18,15 − 18) ∗ (𝑥19 − 𝑥18) = 6 + 0,15 ∗ (7 − 6) = 6,15. Mere disperzije Interval varijacije: 𝑅 = 𝑥𝑚𝑚𝑥 − 𝑥𝑚𝑖𝑚 = 12 − 3 = 9 Interkvartilna razlika : 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 9 − 6 = 3 Srednje apsolutno odstupanje od aritmetičke sredine:

𝐴𝐷(𝑚) =∑ 𝑓𝑖 ∗ |𝑥𝑖 − 𝑚|10𝑖=1

50=

97,7650

= 1,9552

Srednje kvadratno odstupanje (varijansa, disperzija):

𝜎2 =∑ 𝑓𝑖 ∗ (𝑥𝑖 − 𝑚)210𝑖=1

50=

284,3250

= 5,6864

ili možemo koristiti drugu formulu

𝜎2 =∑ 𝑓𝑖 ∗ 𝑥𝑖210𝑖=1

50−𝑚2 =

305250

− 7,442 = 5,6864

Standardna devijacija: 𝜎 = �𝜎2 = �5,6864 ≈ 2,38

Koeficijent varijacije:

𝑉 =𝜎𝑚∗ 100% =

2,387,44

∗ 100% ≈ 32%

Normalizovano standardno odstupanje studenta koji je položio 7 ispita:

𝑍𝑖 =𝑥𝑖 − 𝑚𝜎

=7 − 7,44

2,38≈ −0,185

Mere oblika raspodele

Koeficijent asimetrije: Kako je 𝑀3 = ∑ 𝑓𝑖∗(𝑥𝑖−7,44)310𝑖=1

50= 92,44

50≈ 1,85 , tada je koeficijent asimetrije

𝐾𝐴 = 𝑀3𝜎3

= 1,852,383

≈ 0,14 > 0.Dakle, raspodela vrednosti obeležja je pozitivno asimetrična (asimetrija udesno).

Koeficijent spljoštenosti: Kako je 𝑀4 = ∑ 𝑓𝑖∗(𝑥𝑖−7,44)410𝑖=1

50= 3723,17

50≈ 74,46 , tada je koeficijent

spljoštenosti 𝐾𝐸 = 𝑀4𝜎4

= 74,462,384

≈ 2,3 < 3. Dakle, raspodela vrednosti obeležja je više spljoštena u odnosu na normalnu raspodelu.

Page 16: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

16

Primer 2. (Domaći) Rezultati drugog kolokvijuma iz predmeta Statistika na Tehničkom fakultetu “Mihajlo Pupin” u školskoj 2014/2015 su prikazani u sledećoj tabeli:

Ocena 5 6 7 8 9 10 Broj studenata

4 13 3 7 10 5

a) Grafički predstaviti apsolutnu frekvenciju, a nakon toga odrediti b) Mere centralne tendencije (aritmetička sredina, modus, medijana, kvartile) c) Mere disperzije (interval varijacije, interkvartilna razlika, apsolutno odstupanje, varijacija,

standardna devijacija, koeficijent varijacije) d) Mere oblika raspodele (koeficijent asimetrije i spljoštenosti)

Page 17: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

17

GRUPISANJE PODATAKA U INTERVALNE KLASE Kada populacija ima veliki broj elemenata, onda registrovane vrednosti obeležja grupišemo u intervalne klase. Broj i širina intervala zavise od broja podataka i samog obeležja. Broj intervala se najčešće izračunava po Sturgesovoj formuli

𝑘 = 1 + 3,322 𝑙𝑙𝑙𝑁,

a širina interval 𝑑 = 𝑥𝑚𝑚𝑚−𝑥𝑚𝑖𝑚

𝑘.

Napomena. Broj intervala ne bi trebalo da bude veći od 5 log𝑁. Primer 3. U tabeli su dati podaci za 30 radnika kompanije “XYZ” o dužini radnog staža 6 13 9 14 10 18 13 11 5 15 17 20 29 19 16 14 6 25 11 13 21 12 23 12 22 12 16 22 14 17

a) Za negrupisane podatke u Excelu odrediti mere centralne tendencije, disperzije i oblika raspodele (domaći)

Grupisati podatke u intervalne klase pa b) Tabelarno i graficki predstaviti apsolutnu, relativnu i kumulativnu frekvenciju c) Za grupisane podatke odrediti mere centralne tendencije, disperzije i oblika raspodele

b) Broj intervalnih klasa 𝑘 = 1 + 3,322 log 30 = 5,9 ≈ 6 , a širina intervala 𝑑 = 29−5

6≈ 4.

Tabelarni prikaz

𝐼𝑖 𝑓𝑖 𝑛𝑖 𝐹𝑖 [5, 9) 3 0,1 3

[9, 13) 7 0,23333 10 [13, 17) 9 0,3 19 [17, 21) 5 0,16667 24 [21, 25) 4 0,13333 28 [25, 29] 2 0,06667 30

∑ 30 1

Page 18: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

18

00,05

0,10,15

0,20,25

0,30,35

[5,9) [9,13) [13,17)[17,21)[21,25)[25,29]

pi

Grafički prikaz

c)

𝐼𝑖 𝑓𝑖 𝑥𝑖 𝑥𝑖 ∗ 𝑓𝑖 |𝑥𝑖 − 𝑚| ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)2 ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)3 ∗ 𝑓𝑖 (𝑥𝑖 − 𝑚)4 ∗ 𝑓𝑖 [5, 9) 3 7 21 26,4 232,32 -2044,42 17990,86

[9, 13) 7 11 77 33,6 161,28 -774,14 3715,89 [13, 17) 9 15 135 7,2 5,76 -4,61 3,69 [17, 21) 5 19 95 16 51,2 163,84 524,29 [21, 25) 4 23 92 28,8 207,36 1492,99 10749,54 [25, 29] 2 27 54 22,4 250,88 2809,86 31470,39

∑ 30 474 134,4 908,8 1643,52 64454,66 𝑥𝑖 – predstavlja sredinu intervala Mere centralne tendencije Aritmetička sredina: 𝑚 = 474

30= 15,8.

Modus: Modalni interval je onaj čija je apsolutna frekvencija najveća, dakle [13, 17). 𝐿𝑚𝑜 = 13, 𝑑1 = 9 − 7 = 2, 𝑑2 = 9 − 5 = 4, 𝑑𝑚𝑜 = 4.

𝑀𝑜 = 13 +9 − 7

2 ∗ 9 − 7 − 5∗ 4 = 14,33

Medijana: Medijalni interval je prvi čija je kumulativna frekvencija veća od 𝑁2

, dakle [13, 17).

𝑀𝑒 = 13 +15 − 10

9∗ 4 = 15,22

0

2

4

6

8

10

[5,9) [9,13) [13,17) [17,21) [21,25) [25,29]

fi

05

101520253035

[5,9) [9,13) [13,17)[17,21)[21,25)[25,29]

Fi

Page 19: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

19

Kvartili : Kvantilni interval za 𝑀0,25 = 𝑄1 je prvi čija je kumulativna frekvencija veća ili jednaka 𝑁𝑛 = 7,5,dakle [9, 13).

𝑀0,25 = 9 +7,5 − 3

7∗ 4 = 11,57

Kvantilni interval za 𝑀0,75 = 𝑄3 je prvi čija je kumulativna frekvencija veća ili jednaka 𝑁𝑛 = 22,5, dakle [17, 21).

𝑀0,75 = 17 +22,5 − 19

5∗ 4 = 19,8

Mere disperzije Interval varijacije: 𝑅 = 29 − 5 = 24 Interkvartilna razlika : 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 19,8 − 11,57 = 8,23 Srednje apsolutno odstupanje od aritmetičke sredine:

𝐴𝐷(𝑚) =134,4

30= 4,48

Srednje kvadratno odstupanje (varijansa, disperzija):

𝜎2 =908,8

30= 30,293

ili možemo koristiti drugu formulu

𝜎2 =8398

30− 15,82 = 30,293

Standardna devijacija: 𝜎 = �𝜎2 = �30,293 ≈ 5,504

Koeficijent varijacije:

𝑉 =𝜎𝑚∗ 100% =

5,50415,8

∗ 100% ≈ 34,8%

Mere oblika raspodele Koeficijent asimetrije: Kako je 𝑀3 = 1643,52

30= 54,784 , tada je koeficijent asimetrije

𝐾𝐴 = 𝑀3𝜎3

= 54,7845,5043

≈ 0,33 > 0.Dakle, raspodela vrednosti obeležja je pozitivno asimetrična (asimetrija udesno). Koeficijent spljoštenosti: Kako je 𝑀4 = 64454,66

30≈ 2148,5 , tada je koeficijent spljoštenosti 𝐾𝐸 = 𝑀4

𝜎4=

2148,55,5044

≈ 2,34 < 3. Dakle, raspodela vrednosti obeležja je više spljoštena u odnosu na normalnu raspodelu.

Page 20: UMESTO UVODA - tfzr.uns.ac.rs podataka_vezbe.pdf · Vrste obeležja: 1. Atributivna (kvalitativna, kategorijska) obeležja su obeležja koja se izražavaju opisno odnosno rečima

20

Primer 4. Domaći. Dat je raspored četvoročlanih porodica prema godišnjoj potrošnji meda, u kilogramima.

a) Podatke iz tabele predstaviti grafički (histogramom) b) Odrediti mere centralne tendencije, disperzije i oblika raspodele

potrošnja meda <2,5 2,51-3,5 3,51-4,5 4,51-5,5 5,51-6,5 6,51-7,5 7,51-8,5 8,51-9,5 broj porodica 4 10 13 50 11 5 4 3