Deskriptivna Statistika

27
POGLAVLJE 4 Deskriptivna statistika U uvodnom poglavlju kada smo odgovarali na pitanje: ’šta je statistika i čemu ona služi?’ kazali smo da postoje samo dva načina na koji koristimo statistiku. Jedan je da kvantitativno opišemo neku pojavu a drugi je da statističkom analizom na osnovu manifestacije neke pojave (uzorka) dođemo do zaključaka o samoj pojavi (populaciji). Dakle, možemo reći da postoje dve vrste statistike koje se međusobno dopunjuju. a) deskriptivna (ili opisna) statistika čija je cilj da sistematski, numerički i sažeto prikaže neke podatke; i b) statistiku zaključivanja čiji je cilj da nam omogući uopštavanje (generalizaciju) od uzorka na populaciju. Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku između deskriptivne statistike i statistike zaključivanja biće potrebno da se upoznate i sa jednom i sa drugom tj. da pročitate celu ovu knjigu. Na ovom mestu dovoljno je da kažemo da se deskriptivna statistika bavi kvantitativnim opisivanjem podataka kojim raspolažemo (najčešće su to podaci iz uzorka jer retko ili gotovo nikad nismo u prilici da opisujemo cele populacije) dok statistika zaključivanja nastoji da učini korak dalje: da na osnovu raspoloživih podataka kaže i nešto više. Ukoliko npr. izmerimo visinu svih dečaka i devojčica u nekom šestom razredu osnovne škole, neće nam biti teško da izračunamo prosečnu visinu celog razreda, prosečnu visinu dečaka i prosečnu visinu devojčica. To je, između ostalog, posao deskriptivne statistike. Ukoliko pak na osnovu tih podataka želimo da zaključimo da razlika u visini između dečaka i devojčica (devojčice su na tom uzrastu obično nešto više) nije slučajna već je posledica delovanja nekog sistematskog činioca (ranijeg početka puberteta) i da najverovatnije ne važi samo za naš uzorak već i za sve dečake i devojčice tog uzrasta onda prelazimo u domen statistike zaključivanja. Već na ovom krajnje jednostavnom primeru uviđate koliko je posao statistike zaključivanja rizičniji, koliko je veliki iskorak od deskriptivne statistike do statistike zaključivanja. Kako je uopšte moguće, čak i uz sve moguće ograde, tvrditi nešto o stvarima koje ne poznajemo, koje nismo izmerili? Moraćete da sačekate odgovor na ovo pitanje a on će vas, obećavam, uvesti u samu suštinu naučnog pristupa svetu. Ukoliko vam ovo obećanje u ovom trenutku izgleda možda Deskriptivna statistika se bavi opisom onoga što znamo. Statistika zaključivanja ima mnogo teži zadatak da na osnovu onoga što znamo kažemo nešto o onome što ne znamo.

description

deskriptivna statistika

Transcript of Deskriptivna Statistika

  • POGLAVLJE 4

    Deskriptivna statistika

    U uvodnom poglavlju kada smo odgovarali na pitanje: ta je statistika i emu ona slui?

    kazali smo da postoje samo dva naina na koji koristimo statistiku. Jedan je da kvantitativno

    opiemo neku pojavu a drugi je da statistikom analizom na osnovu manifestacije neke pojave

    (uzorka) doemo do zakljuaka o samoj pojavi (populaciji). Dakle, moemo rei da postoje dve

    vrste statistike koje se meusobno dopunjuju.

    a) deskriptivna (ili opisna) statistika ija je cilj da sistematski, numeriki i saeto prikae

    neke podatke; i

    b) statistiku zakljuivanja iji je cilj da nam omogui uoptavanje (generalizaciju) od uzorka

    na populaciju.

    Sasvim prirodno, da biste do potpuno i do kraja shvatili razliku izmeu deskriptivne statistike i

    statistike zakljuivanja bie potrebno da se upoznate i sa jednom i sa drugom tj. da proitate

    celu ovu knjigu. Na ovom mestu dovoljno je da kaemo da se deskriptivna statistika bavi

    kvantitativnim opisivanjem podataka kojim raspolaemo (najee su to podaci iz uzorka jer

    retko ili gotovo nikad nismo u prilici da opisujemo cele populacije) dok statistika zakljuivanja

    nastoji da uini korak dalje: da na osnovu raspoloivih podataka kae i neto vie.

    Ukoliko npr. izmerimo visinu svih deaka i devojica u nekom estom razredu osnovne

    kole, nee nam biti teko da izraunamo prosenu visinu celog razreda, prosenu visinu

    deaka i prosenu visinu devojica. To je, izmeu ostalog, posao deskriptivne statistike. Ukoliko

    pak na osnovu tih podataka elimo da zakljuimo da razlika u visini izmeu deaka i devojica

    (devojice su na tom uzrastu obino neto vie) nije sluajna ve je posledica delovanja nekog

    sistematskog inioca (ranijeg poetka puberteta) i da najverovatnije ne vai samo za na uzorak

    ve i za sve deake i devojice tog uzrasta onda prelazimo u domen statistike zakljuivanja. Ve

    na ovom krajnje jednostavnom primeru uviate koliko je posao statistike zakljuivanja riziniji,

    koliko je veliki iskorak od deskriptivne statistike do statistike zakljuivanja. Kako je uopte

    mogue, ak i uz sve mogue ograde, tvrditi neto o stvarima koje ne poznajemo, koje nismo

    izmerili? Moraete da saekate odgovor na ovo pitanje a on e vas, obeavam, uvesti u samu

    sutinu naunog pristupa svetu. Ukoliko vam ovo obeanje u ovom trenutku izgleda moda

    Deskriptivna statistika se bavi opisom onoga to znamo. Statistika zakljuivanja ima mnogo tei

    zadatak da na osnovu onoga to znamo kaemo neto o onome to ne znamo.

  • isuvie smelo upitajte se u emu se zapravo sastoji posao naunika. On ili ona neprekidno

    pokuavaju da odgonetnu ovaj bskonano veliki i sloeni svet na osnovu veoma ograniene

    koliine podataka kojima raspolau. Oni neprekidno ele da u svojim podacima pronau

    pravilnosti koje ne opisuju samo te podatke ve se odnose i na injenice izvan i preko svojih

    podataka. To, verujte, ne bi bilo mogue bez statistike zakljuivanja.

    U ovom poglavlju baviemo se iskljuivo deskriptivnom statistikom. Odmah treba rei

    da je deskriptivna statistika svakako jednostavniji, za uenje laki ali i dosadniji deo statistike.

    Pravi izazovi za razumevanje i uenje statistike dolaze tek pri susretu sa statistikom

    zakljuivanja. No, kako to obino biva treba poeti od jednostavnog i lakeg jer bez

    razumevanja osnovnih pojmova deskriptivne statistike svakako se ne moe razumeti statistika

    zakljuivanja (Poglavlje 7).

    Kako opisati podatke?

    Bez obzira da li su pred vama podaci do kojih ste doli na osnovu prouavanja uzorka

    (to e gotovo uvek biti sluaj) ili na osnovu prouavanja populacije (to se gotovo nikada nee

    desiti), svako pa i najjednostavnije istraivanje sruie pred vas gomilu brojeva sa kojima, bar

    isprva, neete znati ta da radite. Pretpostavimo da elite da ispitate vezu izmeu visine i

    inteligencije tj. da na osnovu istraivanja proverite olako izreenu tvrdnju da su vii ljudi ujedno

    i pametniji. Dosadila su vam prazna naglabanje na tu temu, navoenje primera (Pera je visok i

    pametan), kontraprimera (Ljuba je jo vii ali je glup ko uskija) i neproverenih glasina (to

    vai samo za ene, jer su mukarci ionako svi glupi) i elite da jednom za svagda date nauni

    odgovor na to vano pitanje. im iole ozbiljnije ponete da razmiljate o vaem istraivanju

    odmah e vam postati jasno da vas zanima univerzalni odgovor na to pitanje, odgovor koji e

    vaiti za sve ljude, i da nikada neete imati dovoljno novca, vremena i energije da izmerite

    visinu i inteligenciju svih ljudi na ovoj planeti. Stoga ete svoje pitanje, i svoju ljubopitljivost,

    ta je to parametrijska a ta neprametrijska statistika?

    Nezavisno od podele na deskriptivnu i statistiku zakljuivanja, postoji i podela po kojoj se statistika

    se deli na

    a) parametrijsku; i

    b) neparametrijsku statistiku.

    Iako emo se ve u ovom poglavlju pozivati na obe ove podele, pravi smisao druge podele (po kojoj

    se statistika deli na parametrijsku i neprametrijsku) postae vam jasan tek kada budete proitali

    Poglavlje 9 ove knjige.

  • ubrzo morati da suzite i da se zadovoljite ispitivanjem odnosa visine inteligencije na mladima iz

    nae zemlje. Nijedno psiholoko istraivanje se ne moe izvriti bez ispitanika a vama su svakako

    najpristupaniji ispitanici uenici i studenti. Ve sada, na ovom potpuno izmiljenom primeru

    uviate da krajnje realna ogranienja usmeravaju nauni interes. Mladih ljudi (uzrasta od 15 do

    30 godina) ak i u tako maloj zemlji kao to je naa je relativno mnogo, novaca za istraivanje

    uvek malo, pa ete najverovatnije morati da se zadovoljite uzorkom koji e obuhvatiti npr. 200-

    300 studenata naeg fakulteta. Kada prikupite taj uzorak od vaih ispitanike ete (drei se

    naela da je vano prikupiti to vie informacija) osim podataka o visini i inteligenciji eleti da

    prikupite i druge podatke: o polu (moda odista veza izmeu pameti i visine vai samo za

    devojke), mestu stanovanja, materijalnom stanju i sl. Vrlo se lako moe desiti da se pred vama

    nae 1000 razliitih brojeva koje e biti krajnje teko obuhvatiti jednim pogledom.

    Istraivanje koje studenti naeg fakulteta obavljaju u okviru svog zavrnog rada obino

    podrazumeva zadavanje dva psiholoka merna instrumenta (ili testa) na uzorku od 100 do 200

    ispitanika. Svaki taj test se sastoji od nekih 30 do 40 pitanja pa je sasvim mogue da ete se pri

    analizi podataka tom prilikom susresti sa 150 (ispitanika) x 30 (pitanja po testu) x 2 (testa) =

    9000 brojeva koji e sadrati sve informacije koje ste vi prikupili vaim istraivanjem. Nema

    glave koja e tih 9000 hiljada brojeva moi da sagleda i da na osnovu njih donese ispravne

    zakljuke. Nikako ne bi trebalo da budete zadivljeni tom koliinom podataka. Uz sve duno

    potovanje naporu koji je pred vama, istraivanja tog obima su kolska i prvenstveno slue tome

    da studenti demonstriraju kompetencije koje su stekli tokom svog trogodinjeg kolovanja.

    Svako iole ozbiljnije istraivanje je daleko obimnije i, samim tim, rezultira u daleko veoj koliini

    podataka, u daleko vie brojeva koje treba analizirati.

    Sva ova pria bila je usmerna samo ka jednom zakljuku: saimanje i saeto prikazivanje

    podataka je jedan od osnovnih zadataka deskriptivne statistike. Bez tog saetog prikazivanja

    podataka, istraiva nikada nee biti u mogunosti da se do kraja zblii sa svojim podacima, da

    ih obuhvati jednim pogledom, da ih sagleda, oseti i razume. Pre pristupanja bilo kakvoj

    statistikoj analizi valja prvo pogledati podatke koje smo dobili. Jedno od zlatnih pravila kojih se

    dre dobri istraivai glasi: uvek gledaj u svoje podatke!

    Zato je vano gledati u podatke?

    Laka dostupnost raunarskim programima za statistiku obradu podataka donela je sa

    sobom i lou naviku koju bar za ovu priliku moemo da nazovemo gubljenje kontakta sa

    podacima. ak i meu iskusnim istraivaima iroko je rasprostranjen manir da se statistikoj

    analizi pristupa odmah posle unosa podataka. Postoje bar dva vana razloga zbog kojih je

    gledanje u podatke nuno da bi se dobio pravi oseaj o tome ta nam oni govore.

  • 1. Otkrivanje greaka unosa i traka. Budui da je podataka uvek mnogo, velika je

    verovatnoa da emo negde pogreiti prilikom unosa podataka, da emo umesto

    broja 77 (to moe biti IQ naeg ispitanika) u program kojim unosimo podatke radi

    dalje statistike obrade upisati broj 777 (to svakako ne moe biti IQ naeg

    ispitanika). Uskoro emo, ba na tom primeru, videti kako posledice takve banalne

    greke mogu biti veoma ozbiljne. Isto tako, gledanjem u podatke lako emo otkriti

    trke, podatke koji odudaraju od opteg trenda i koji zahtevaju posebnu panju.

    Moda je trak posledica nerazumevanja uputstva koje smo dali ispitanicima,

    moda je trak posledica ispitanikove nesaradnje. Neki ispitanici jednostavno ne

    obraaju panju na uputstvo koje smo im dali pa misle da smo ih pitali jednu stvar a

    odgovaraju na neku sasvim drugu. Neki drugi, iz njima poznatih razloga, ne ele da

    sarauju i bez obzira na garanciju anonimnosti koju uvek dajemo svim ispitanicima,

    na sva pitanja odgovaraju istim odgovorom. Pregledom podataka lako ete otkriti

    ispitanika koji je na sva postavljena pitanja odgovorio jednoobrazno sa sasvim se

    slaem ili sasvim se ne slaem. Takvi nazovi odgovori samo unose um u

    istraivanje i ometaju nas da steknemo pravu sliku o pojavi koju prouavamo. to

    pre ih otkrijemo i to pre ih eliminiemo iz naih podataka, jer greke unosa i

    odgovori ispitanika koji se ne pridravaju uputstva i nisu podaci, to bolje. Pri tom,

    nikako ne treba iz podataka izbacivati trke koji nisu posledica nemarnosti (bilo

    istraivaa bilo ispitanika) ve jednostavno dolaze od ispitanika koji se ne uklapaju u

    opti trend. Takvih ispitanika e uvek biti i oni samo potvruju jednu od osnovnih

    teza statistike o varijabilnosti ovog sveta. Ponekad je veoma teko razlikovati

    podatke koji odudaraju od opteg trenda samo zbog toga to su retki (i koje svakako

    treba sauvati) od onih koji su posledica nemarnosti. Stoga je vano da se oslonimo

    na jo jedno zlatno istraivako pravilo: iz naih podataka moemo da izbacimo

    samo one podatke za koje sa sigurnou moemo da tvrdimo da predstavljaju

    pogreno oitavanje (ili artefakt) bilo da je ono nastalo grekom istraivaa bilo da je

    ono nastalo nesaradljivou ispitanika.

    2. Odluka o vrsti statistike analize. Koju vrstu statistike analize emo primeniti zavisi i

    od toga kako izgledaju nai podaci. Da li nai podaci bitno odstupaju od

    matematikih modela normalne distribucije i prave linije (o tome ta je normalna ili

    Gausova distribucija priaemo detaljno u Poglavlju 5) u prilinoj meri utie na

    odluku o tome koje statistike postupke emo primeniti u nastojanju da iz njih

    izvuemo maksimalnu koliinu informacija. Ukoliko nai podaci ne odstupaju bitno

    od normalne distribucije primeniemo parametrijsku statistiku a ukoliko odstupaju

    imaemo dosta razloga da razmiljamo o primeni neparametrijske statistike. Ukoliko

    se odnos izmeu dve varijable ne moe najbolji opisati pravom ve krivom linijom

    moda emo biti prinueni da ih transformiemo. Mada postoje formalni statistiki

  • tetsovi koji proveravaju stepen odstupanja podataka od tih matematikih modela,

    ak i neizvebanom oku nee biti preterano teko da uoi bitna odstupanja. Jo

    jedan razlog da pre svake analize bacite pogled na svoje podatke.

    Kako saeti podatke?

    Osnovni zadatak deskriptivne statistike jeste uvoenje reda u haos. Haos nastaje usled

    ogromne koliine podataka koja se prikupi ak i u najjednostanijim istraivanjima; a red se uvodi

    organizacijom i saimanjem tih podataka. Bez tog organizovanja i saimanja podataka bilo bi

    teko, ako ne i nemogue, da ostvarite kontakt sa svojim podacima o kom smo malo pre priali.

    U statistici postoji nekoliko naina da se samu podaci: tabelarno (upotrebom tabela), grafiki

    (crtanjem), i numeriki (brojano). Sva tri naina se meusobno dopunjuju i valja ih

    primenjivati u cilju ostvarivanja to boljeg kontakta sa prikupljenim podacima.

    1. Tabelarno prikazivanje podataka.

    Organizacijom i grupisanjem podataka u tabele mi veoma lako, iole zainteresovanom itaocu,

    moemo da saoptimo veoma veliku koliinu informacija. Saimanje podataka u tabele ini ih

    pristupanijim i lakim za upotrebu. Hiljade i hiljade pojedinanih posmatranja moe se saeti u

    veoma pregledne tabele. Tako Tabela 4.1. na saet i organizovan nain rezimira podatke o

    bruto i neto zaradama svih zaposlenih u Srbiji za 2008 2010. godinu. Ta tabela (saimajui

    doslovno milione pojedninanih podataka) nam omoguuje da jednim pogledom utvrdimo

    kako su prosene plate u Beogradu najvee a u Toplikom okrugu najmanje, kako su plate

    unutar Vojvodine manje-vie ujednaene dok u Centralnoj Srbiji postoje mnogo vea

    odstupanja od okruga do okruga, kako se prosene plate u Vojvodini i prosene plate u Srbiji

    bitno ne razlikuju od republikog proseka. Bez pomoi te tabele bilo bi potpuno nemogue

    savladati sve te silne podatke i bilo bi, isto tako, potpuno nemogue na osnovu njih doneti bilo

    kakav zakljuak. Dobro organizovane i pregledne tabele nam omoguavaju da vidimo ono to je

    nemogue videti u sirovim podacima. Tabelarno prikazivanje podataka i pravila koja olakavaju

    dizajniranje tabela bile su velike teme statistikih udbenika sve do masovne rasprostranjenosti

    programa za statistiku obradu podataka. Danas ti programi obiluju odista velikim

    mogunostima i opcijama koj znaajno olakavaju taj posao. Zbog toga se mi neemo mnogo

    zadravati na tabelarnom saimanju podataka ve emo se od te teme oprostiti uz konstataciju

    da je tabeliranje podataka veoma koristan i lak nain da ostvarite bolji kontakt sa podacima i da

    ga svakako treba koristiti pre nego to se upustite u dalju statistiku analizu. N

  • 2008. 2009. 2010.

    bruto zarade

    neto zarade

    bruto zarade

    neto zarade

    bruto zarade

    neto zarade

    Republika Srbija 45674 32746 44147 31733 47450 34142

    Centralna Srbija 45582 32688 44424 31930 47806 34422

    GRAD BEOGRAD 56011 40089 55627 39862 59174 42489

    MAVANSKI OKRUG 38514 27617 36142 25998 40154 28884

    PODUNAVSKI OKRUG 47458 34117 42455 30653 47086 34082

    UMADIJSKI OKRUG 39421 28324 38942 28044 41764 30119

    POMORAVSKI OKRUG 38190 27368 36629 26605 38713 28367

    BORSKI OKRUG 41569 29905 40757 29340 45628 32809

    ZAJEARSKI OKRUG 34760 24925 34564 24822 38205 27507

    ZALTIBORSKI OKRUG 39190 28460 36997 26848 40148 29165

    MORAVIKI OKRUG 36907 26577 36808 26549 39830 28727

    RASINSKI OKRUG 35863 26150 34736 25288 37086 26918

    NIAVSKI OKRUG 38317 27337 36522 26269 39488 28513

    TOPLIKI OKRUG 31234 22398 29510 21217 32669 23689

    PINJSKI OKRUG 33556 24009 34102 24495 36302 26118

    Vojvodina 45924 32906 43403 31203 46496 33392

    SEVERNO-BAKI OKRUG 41947 30188 40874 29318 43102 30998

    SREDNJE-BANATSKI OKRUG 43209 30935 41824 30017 45310 32358

    SEVERNO-BANATSKI OKRUG 42385 30392 40707 29270 42348 30467

    JUNO-BANATSKI OKRUG 47734 34173 44194 32125 49280 35212

    ZAPADNO-BAKI OKRUG 43092 30974 40834 29383 42103 30291

    JUNO-BAKI OKRUG 49290 35278 46774 33513 50524 36327

    SREMSKI OKRUG 43611 31216 39095 28123 40853 29442

    Izvor podataka: Republiki zavod za statistiku, 2012.

    Tabela 4.1. Prosene zarade po okruzima , godinji prosek u dinarima za 2008 -2010.

  • 2. Grafiko prikazivanje podataka.

    Davno je reeno da slika govori vie od hiljadu rei. U naoj prii o deskriptivnoj statistici

    to bi jednostavno znailo da je grafiki (slikovni) nain esto mnogo efikasniji u saetom

    prikazivanju podataka od tabelarnog. Odista, dok tabele esto mogu da budu veoma

    komplikovane i da zahtevaju prilian stepen koncentracije, grafikoni su uvek laki i jednostavni za

    razumevanje. Postoji vie naina na koje moemo da grafiki predstavimo rezultate. Jedan,

    moda i najee korien nain jeste upotrebom histograma (stubia).

    Slika 4.1. Rast obima maloprodaje u Srbiji u milijardama evra za period 2006 2011. Izvor: magazin InStore, 2012. Lako se moe uoiti da je taj promet, uprkos svetskoj ekonomskoj krizi koja je poela u jesen 2008. u stalnom

    usponu i da se udvostruio u proteklih 6 godina.

    Histogrami se mogu koristiti za prikazivanje bilo kojih podataka ali su naroito pogodni

    za prikazivanje diskretnih varijabli ili odnosa diskretnih i kontinuiranih varijabli. Na apscisi (X osi)

    Slike 4.1. su godine (diskretni, celi brojevi) dok se na ordinati (Y osi) nalazi maloprodajni promet

    izraen u evrima (kontinuirana varijabla). Isti princip korien je i u Slici 4.2. koja prikazuje

    promet u maloprodaji u pet ex-YU drava. Na apscisi se nalaze imena drava (nominalna,

    diskretna varijabla) dok se na ordinati nalazi maloprodajni promet izraen u evrima

    (kontinuirana varijabla).

    3,86

    5,45

    6,265,91

    6,56

    7,74

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    2006 2007 2008 2009 2010 2011

  • Slika 4. 2. Obim maloprodaje u pet ex-YU drava u 2011. izraen u milijardama evra. Izvor: magazin InStore, 2012. Uoavate da je maloprodajni promet najvei u najmnogoljudnijoj Srbiji a najmanji u Crnoj Gori koja ima najmanji

    broj stanovnika.

    Distribucije

    U uvodnom poglavlju upoznali smo se sa pojmom varijabilnosti. Kazali smo da je

    varijabilnost jedna od osnovnih zakonitosti ovog sveta i da se ljudi razlikuju po svim merenim

    osobinama i da su sve pojave koje merimo varijabilne pa ih stoga u nauci i zovemo varijablama.

    Nain na koji se varijable rasporeuju du kontinuuma naih ispitanika nazivamo distribucija

    (raspored) neke varijable. U deskriptivnoj statistici mi nastojimo da opiemo distribuciju na

    najekonominiji nain tako to emo opisati njen oblik i tako to emo navesti neku meru njene

    centralne tendencije i neku meru njene varijabilnosti.

    Slika 4.3. e nam posluiti da detaljnije objasnimo mogue razlike izmeu distribucija. Najbolji

    nain da mislite o nekoj distribuciji jeste da ispod krive koja je opisuje zamislite glavice

    ispitanika iji skorovi obrazuju tu distribuciju. Tamo gde je kriva koja opisuje distribuciju najvia

    nalazi se najvie ispitanika a tamo gde je kriva koja opisuje distribuciju najnia nalazi se

    najmanje ispitanika. Na sve tri distribucije prikazane na Slici 4.3. najvie ispitanika u sredinjem

    delu distribucije a najmanje na njenim krajevima. Oigledno je da su distribucije A i C istog

    oblika a da je oblik distribucije B neto drugaiji. Isto tako, moemo rei i da se distribucije A i B

    7,74

    5,67

    4,72

    2,81

    0,86

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    Srbija Hrvatska Slovenija Bosna i Hercegovina

    Crna Gora

    Distribucije se meusobno razlikuju po obliku, merama centralne tendencije i merama

    varijabilnosti. Najjednostavniji numeriki opis neke distribucije sastoji se od navoenja mere

    centralne tendencije i mere varijabilnosti.

  • ne razlikuju po centralnoj tendenciji jer se najvei broj ispitanika u obe distribucije grupie oko

    iste vrednosti. Nasuprot tome, centralna tendencija distribucije C pomerena je udesno, ka viim

    vrednostima. S druge strane, varijabilnost (raspon od najnieg do najvieg skora) distribucije A i

    C je jednaka dok je varijabilnost distribucije B neto manja. Moemo rei da je distribucija B ua

    nego distribucije A i C jer je razmak izmeu najnieg skore te distribucije manji nego to je to

    sluaj sa distribucijama A i C.

    Slika 4. 3. Tri distribucije koje se meusobno razlikuju po obliku, centralnoj tendenciji i varijabilnosti

    U psihologiji obino imamo posla sa varijablama koje se simetrino rasporeuju. Zbog toga su

    na Slici 4.3. sve tri prikazane distribucije simetrine. Najee, distribucija psiholokih varijabli

    ima zvonasti oblik kakav imaju distribucije A i C. Distribuciju takvog oblika zovemo normalna ili

    Gausova distribucija u ast velikog nemakog matematiara iz 19. veka. Normalnom ili

    Gausovom distribucijom emo se mnogo detaljnije baviti u Poglavlju 5. Na ovom mestu

    dovoljno je da kaemo da nam, budui najea, ona slui kao standard za opisivanje drugih

    distribucija koje horizonatlno ili vertikalno odstupaju od nje.

    Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes (od

    engleskog skewness). Zavisno od smera odstupanja, postoje pozitivno (Slika 4.6.) i negativno

    (Slika 4.7.) zakrivljene distribucije.

    Vertikalno odstupanje od normalne distribucije zovemo kurtozis (engleski curtosis) i ono

    ukazuje na to da li je gomilanje skorova ispod take najvie uestalosti vie ili nie nego kod

    normalne distribucije. Budui da nam slui kao standard, za normalnu distribuciju kaemo da je

    mezokurtina (tj. srednje visoka). Vie a ue distribucije su leptokurtine a nie a ire su

    platokurtine (Slika 4.4).

  • Slika 4.4. Kurtozis: vertikalno odstupanje od normalne distribucije

    Mere i parametri

    Ve na samom poetku ove knjige istakli smo razliku izmeu uzoraka (podataka kojima

    raspolaemo) i populacija (svih sluajeva koji nas zanimaju). Uzorci su dostupni i nee nam biti

    naroito teko da ih opiemo merama centralne tendencije (kao to je npr. aritmetika sredina

    uzorka) i merama varijabilnosti (kao to je npr. standardna devijacija uzorka). U tom svom znaenju,

    re mera se odnosi na broj koji saima neke bitne osobine uzorka. S druge strane re parametar

    oznaava broj koji saima neke bitne osobine populacije. Dok su nam mere lako dostupne i

    poznate, parametri (pravo stanje stvari) nam uglavnom ostaju nedostupni i nepoznati zbog toga to

    su populacije po pravilu ogromne a njihovo prouavanje skupo. Sve to znamo o populacijama i

    parametrima znamo na osnovu prouavanju uzoraka. Zbog toga kaemo da su mere procene

    populacijskih parametara do kojih dolazimo na osnovu prouavanja uzorka. Sasvim

    razumljivo,prilikom odabira uzorka trudimo se da nam on omogui nepristrasnu i to je mogue

    taniju procenu parametara (pravih vrednosti). Po unapred usvojenom dogovoru (konvenciji)

    parametre oznaavamo grkim slovima () a mere latininim slovima (M, SD).

  • I. MERE CENTRALNE TENDENCIJE

    Numeriki opis podataka obavezno podrazumeva i navoenje neke mere centralne

    tendencije. Ukoliko u svakodnevnom ivotu elimo da opiemo neku pojavu mi se veoma esto

    pozivamo na neki broj koji opisuje neki proseni intenzitet te pojave. Kada posle posete nekoj

    stranoj zemlji elimo da nae sagovornike ubedimo u to kako se u toj zemlji dobro ivi mi kao

    lako prihvatljiv argument navodimo da je u toj zemlji prosena plata npr. 800 evra tj. dosta via

    nego to je prosena plata u naoj zemlji. Isto tako, kada se raspitujemo za klimu u nekoj

    dalekoj i nepoznatoj zemlji podaci o prosenoj letnjoj i zimskoj temperaturi nam pomau da

    shvatimo ta nas oekuje na toj destinaciji. Uspenu karijeru naeg Vlade Divca u amerikoj NBA

    ilustrujemo podatkom da je on odigravi 1134 utakmice u proseku davao 11.8 koeva po

    utakmici i da je proseno imao 8.2 uhvaene lopte i 3.1 dodavanja po utakmici. Oni koji poznaju

    koarku su svakako zadivljeni tim brojevima. Naravno, svakome je jasno da je na Vlade na

    nekim utakmicama bio uspeniji a na nekim manje uspean ali da ti brojevi dobro opisuju

    njegovo viegodinje igranje u najprestinijoj koarkakoj ligi na svetu. Do njih smo doli tako

    to smo ukupan broj koeva, uhvaenih lopti i dodavanja podelili sa brojem utakmica koje je

    Divac odigrao. Na taj nain, dobili smo 3 aritmetike sredine (za svaku kategoriju po jednu). Sa

    samo 3 broja opisali smo ono to se deavalo tokom 16 godina na preko hiljadu utakmica.

    Aritmetika sredina

    Aritmetika sredina (engleski mean) je intuitivna i lako razumljiva mera centralne

    tendencije. Sa njom se sreemo svakodnenvno kada izraunavamo prosenu ocenu tokom

    studija, prosenu cenu kilograma paradjaza na razliitim gradskim pijacama, prosean broj

    posetilaca Narodnog pozorita i sl. Svako od nas ima neko iskustvo sa tom merom i zbog toga

    polazimo od nje u naoj nameri da se upoznamo sa osnovim elementima deskriptivne statistike.

    Svako od nas je bar jednom bio u prilici da izrauna aritmetiku sredinu pa vam se verovatno

    ini da o aritmetikoj sredini znate sve i da itajui ovu knjigu neete saznati nita novo o ovoj

    njaee korienoj meri centralne tendencije. Ipak, postoje 3 veoma vane osobine aritmetike

    sredine o kojima do sada verovatno niste razmiljli i koje e nam posluiti kao uzor kada

    budemo ocenjivali ostale mere koje koristimo u opisu podataka.

    1. Aritmetika sredina je uvek samo jedna. Za svaki niz mera postoji samo jedna

    aritmetika sredina. To je veoma zgodna osobina za neku meru. Kao to ete uskoro

    videti, ona nije zajednika svim merama centralne tendencije.

    2. Aritmetika sredina poiva na svim prikupljenim podacima. Ko to znate, pri

    izraunavanju aritmetike sredine uzimamo u obzir sve pojedinane sluajeve, svaku

    utakmicu na kojoj je igrao Vlade Divac, ocenu sa svakog ispita koji ste polagali.

    Aritmetika sredina zavisi od rezultata svakog naeg ispitanika. Kao to ete uskoro

  • videti, ova lepa osobina nije zajednika svim merama centralne tendencija ali ni svim

    merama varjabilnosti

    3. Aritmetika sredina je izraena u mernim jedinicama varijable koju merimo. Ukoliko

    izraunavamo aritmetiku sredinu visine ona e biti izraena u centimetrima, ukoliko

    izraunavamo aritmetiku sredinu teine ona e biti izraena u kilogramima itd. Kao to

    ete uskoro videti, nisu sve mere centralne tendencije i sve mere varijabilnosti izraene

    u jednicama varijable koje merimo.

    Te lepe osobine aritmetike sredine e nam posluiti kao uzor na osnovu koga emo

    procenjivati i ostale mere deskriptivne statistike, bez obzira da li se radi o merama centralne

    tendencije ili se radi o merama varijabilnosti.

    Kako se rauna aritmetika sredina

    Kao to smo ve kazali i kao to svi dobro znamo aritmetika sredina se rauna tako to

    saberemo pojedinane vrednosti varijable koju merimo pa taj zbir podelimo sa brojem

    posmatranja odnosno ispitanika. Tu operaciju moemo lako da opiemo sledeom formulom:

    Formula 4.1. Aritmetika sredina populacije () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih posmatranja (N).

    Primera radi, pretpostavimo da se populacija koja prouavamo sastoji od samo 9 sluajeva koji

    su opisani brojevima:

    46 64 54 67 77 68 62 56 38

    Aritmetika sredina populacije je onda

    Aritmetika sredina ima i jedni ozbiljnu manu: veoma je osetljiva na ekstremne vrednosti ili trke

    tj. na vrednosti koje jasno odudaraju od ostalih vrednosti u nekom nizu mera. Samo jedna takva

    vrednost, samo jedan pogreno unet podatak ili samo jedan ispitanik koji po svojim osnovnim

    osobinama ne pripada ostalim lanovima naeg uzorka moe da bitno utie na vrednost

    aritmetike sredine. Taj problem osetljivost na trke- razmatraemo i kada uskoro budemo

    govorili o standardnoj devijaciji i o Pirsonovom indeksu korelacije.

    N

    xi

  • Ukoliko, u skladu sa onim to smo do sada ve rekli o populacijama i uzorcima, zbog

    finansijskih i vremenskih ogranienja nismo u stanju da prouavamo tako veliku populaciju

    biemo primorani da njenu aritmetiku sredinu procenimo na osnovu aritmetike sredine

    uzorka. U naem primeru kazaemo da smo do aritmetike sredine uzorka M doli tako to smo

    svaki od 9 brojeva nae populacije upisali na poseban papiri, sve papirie ubacili u eir, dobro

    ih izmeali i da smo (u skladu sa prethodno donesenom odlukom) odluili da populacijski

    parametar procenimo na osnovu uzorka koji obuhvata samo 4 sluaja. Tako bismo npr. mogli

    da iz eira izvuemo 4 broja

    38 62 67 64

    Ta etiri broja jesu na sluajni reprezentativni uzorak na osnovu koga emo napraviti

    procenu aritmetike sredine popilacije. Kaemo sluajni jer smo odabir ta etiri broja u

    potpunosti prepustili sluaju; meajui papirie u eiru trudili smo se da iskljuimo bilo kakav

    sistematski uticaj na izvlaenje. Kaemo reprezentativni jer ovaj uzorak

    reprezentuje/predstavlja nama obino nedostupnu populaciju; govori u njeno ime. Aritmetiku

    sredinu uzorka izraunaemo po formuli

    Formula 4.2. Aritmetika sredina uzorka () je kolinik zbira (svih pojedinanih (xi) posmatranja i broja tih posmatranja (n).

    Lako ete uoiti slinost izmeu Formule 4.1. i Formule 4.2. Aritmetika sredina

    populacije i aritmetika sredina uzorka raunaju se na isti nain. Jedina razlika izmeu dve

    formule je u notaciji. Kao to smo ve kazali populacijske parametre oznaavamo grkim

    slovima a uzorake procene tih parametara latininim simbolima. Razlika izmeu dve formule

    je i u tome to broj posmatranja/ispitanika u populaciji oznaavamo velikim latininim slovom

    N a broj ispitanika u uzorku malim latininim slovom n.

    11.599

    532

    n

    xM

    i

    Aritmetika sredina populacije je parametar a aritmetika sredina uzorka M je mera,

    najbolja procena vrednosti parametra kojom raspolaemo. Aritmetika sredinu uzorka

    oznaava se i kao AS i kao . Engleski naziv za aritmetiku sredinu je mean.

  • Sledei Formulu 2 za izraunavanje aritemetike sredine uzorka dobijamo vrednost

    Posmatrajui ishod raunske operacije kojom smo izraunali i M lako uviamo da

    nismo dobili isti rezultat odnosno da naa procene parametra ne odgovara njegovoj stvarnoj

    vrednosti. Da stvar bude jo gora, veoma retko emo biti u prilici da znamo istinsku vrednost

    parametra i samim tim da znamo koliko naa procena te vrednosti odstupa od parametra.

    Naalost, u daljem bavljenju statistikom moraemo da se pomirimo sa takvim stanjem stvari.

    Vano je da iz ovog, naoko veoma prostog, primera uoite jo jednu stvar. Odluili smo

    se da stanje u populaciji od 9 ispitanika procenimo na osnovu uzorka u koji e ui 4 posmatranja

    i dobili smo vrednost M = 57.50. Oigledno je da bi u nekom ponovljenom merenju u na

    uzorak od 4 posmatranja najverovatnije ule neke druge vrednosti i da samim tim i aritmetika

    sredina uzorka vie ne bi bila ista, naa porcena parametra ne bi bila ista. Sasvim je mogue da

    u na sluajni uzorak uu 4 najmanja broja iz te mini populacije ili da pak 4 najvea broja budu

    izvuena iz eira. Oigledno je da e svaki od mnogo razliitih uzoraka koji se mogu izvui iz

    populacije dati drugaiju vrednost M, drugaiju procenu . Mi se ovde neemo previe dugo

    baviti izraunavnjem mogueg broja razliitih uzoraka veliine n = 4 iz populacije veliine N = 9.

    50.574

    231M

    Bez obzira koliko se trudili da naa mera bude nepristrasna procena parametra, u praksi nikada

    neemo znati koliko ona odstupa od stvarne vrednosti parametra. Aritmetika sredina je oekivana

    vrednost skora koji pripadnici neke populacije postiu na nekoj varijabli. Ukoliko npr. znamo da

    prosena visina svih mladia iz Novog Sada 175 cm, najmanje emo pogreiti ako oekujemo da e

    prvi mladi koji e proi ispred ulaza u na fakultet biti visok 175 cm.

    Za znatieljne: koliko je mogue izvui razliitih uzoraka veliine n = 4 iz populacije N = 9?

    Odgovor na ovo pitanje dobiemo ako reimo jednainu 126)!!*(

    !

    nNn

    Nk

    Faktorijal broja 9 (N!)= 362880, faktorijal broja 4 (n!) = 24 a faktorijal broja 5 (N-n)! = 120.

    Po istoj formuli postoji:

    210 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 10

    495 razliitih uzoraka veliine n = 4 koji se mogu izvui iz populacije N = 12

    1001 razliit uzorak veliine n = 4 koji se mogu izvui iz populacije N = 14

  • Za nas je vanije da uoimo da je u svakoj realnoj situaciji kada se N meri stotinama

    hiljada (npr. svi mladi koji ive u naoj zemlji) ili milionima ljudi (npr. svi graani Srbije sa

    pravom glasa) a n iznosi 2 ili 3 hiljade ispitanika (broj ispitanika na koje se oslanjaju vodee

    istraivake agencije kada pokuavaju da predvide ishod republikih izbora) broj razliitih

    uzoraka koji se mogu izvui iz neke populacije praktino beskonaan. Primera radi naveemo

    podatak da je broj razliitih kombinacija (uzoraka od 7 iz populacije od 39) u igri Loto negde

    preko 14 miliona. Broj razliitih uzoraka veliine 2 hiljade iz populacije od 4.5 miliona je svakako

    viestruko vei.

    Medijana

    Osim aritmetike sredine, kao mera centralne tendencije veoma esto se koristi i

    medijana. Po definiciji, medijana je ona brojana vrednost koja neki niz brojeva (uzorak ili

    populaciju) deli na 2 jednaka dela. Budui da se pola brojeva nalazi ispod a pola brojeva iznad

    vrednosti medijane, medijana se naziva i sredinja ili centralna vrednost. Do vrednosti medijane

    dolazimo tako to neki niz skorova poreamo po veliini od najmanjeg ka najveem i potom

    pronaemo vrednost koja taj niz deli na dva jednaka dela, na dve polovine. U naem primeru

    niza od 9 brojeva

    38 46 54 56 62 64 67 68 77

    medijana je broj 62 jer je taj broj istovremeno vii od 4 broja sa njegove leve i nii od 4 broja sa

    njegove desne strane. Ukoliko bi trebalo da izraunamo medijanu nekog niza koji sainjava

    paran broj posmatranja kao to je npr. niz

    38 46 54 56 62 64 67 68 77 77

    medijana bi se nalazila tano u sredini izmeu brojeva 62 i 64 i imala vrednost 63.

    Iz beskonano mnogo uzoraka koje smo izvukli iz neke populacije dobiemo beskonani broj

    meusobno razliitih procena aritmetike sredine te populacije. Bez obzira to znamo da bi neki

    drugi uzorak dao drugaiju procenu parametra u realnim ogranienjima svakog istraivanja mi se

    obino oslanjamo samo na jednu procenu parametra .

    Medijanu oznaavamo sa Mdn. Engleski naziv za medijanu je median.

    Jo jedna jedinstvena odlika aritmetike sredine: u univarijatnoj distribuciji (distribuciji jedne

    varijable) suma kvadriranih odstupanja ostalih brojeva od aritmetike sredine je uvek manja od

    sume kvadriranih odstupanja tih brojeva od bilo kog drugog broja iz te distribucije.

  • Veoma esto medijana se saoptava uporedo sa vrednou aritmetike sredine. To je

    zbog toga to medijana, za razliku od aritmetike sredine, nije osteljiva na ekstremne vrednosti

    na trke. Ukoliko bi neko napravio greku unosei podatke i kao najviu vrednost iz nae

    populacije od 9 brojeva umesto 77 upisao 777 dolo bi do drastine promene aritmetike

    sredine. U tom sluaju aritmetika sredina vie ne bi bila = 59.11 ve bi bila = 136.89.

    Vrednost medijane se ne bi promenila i ostala bi ista Mdn = 62.

    Medijana je mera centralne tendencije koju koristimo kada opisujemo podatke koji

    dolaze sa ordinalne skale budui da nema nikakvog smisla da izraunavamo aritmetiku sredinu

    ukoliko nije zadovoljen uslov ekvidistantnosti merne skale. Tako npr. medijanom a ne

    aritmetikom sredinom- bismo opisali progresivnu fazu neke bolesti za grupu pacijenta.

    Mod

    Mod je trea i, videemo, najnesavrenija mera centralne tendencije. Mod je vrednost

    najuestalijeg (najfrekventnijeg) posmatranja. U nizu mera

    1 2 4 4 5

    Za razliku od aritmetike sredine, medijana nije osetljiva na ekstremne vrednosti. Kao i aritmetika

    sredina, medijana je uvek samo jedna i izraena je u mernim jedinicama varijable koju merimo. Za

    razliku od aritmetike sredine, medijana ne poiva na svim prikupljenimm podacima. Posao

    medijane je da se parkira u sredinu brojanog niza i ona uopte ne brine o tome koji se skorovi

    nalaze bilo sa njene leve bilo sa njene desne strane. Ukoliko bismo na originalni niz od 9 brojeva:

    38 46 54 56 62 64 67 68 77

    zamenili npr. nizom:

    38 46 54 56 62 664 667 668 777

    aritmetika sredina bi se drastino promenila ali bi medijana ostala ista, ne bi ni trepnula. Neka se

    ceo svet promeni, medijani je samo jedna stvar vana: da bude u sredini.

  • mod ima vrednost 4. Vrednost moda je najea, pa samim tim postoji i najvea verovatnoa

    da e se nai u uzorku koji vuemo iz neke populacije. Mod nije frekvencija najeeg skora;

    mod je vrednost najeeg skora.

    Mada je mod najgrublja mera centralne tendencije, mod (ali ne aritmetiku sredinu i

    medijanu) moemo raunati i kada imamo podatke koji potiu sa nominalne skale. Dakle, mada

    nema nikakvog smisla da raunamo aritmetiku sredinu i medijanu aribtrarno dodeljenih

    brojeva koji samo obeleavaju neke pojave sasvim je u redu da saoptimo koja je od tih pojava

    najuestalija, da saoptimo mod.

    Aritmetika sredina, medijana i mod

    Aritmetika sredina i medijana su najee koriene mere centralne tendencije.

    Aritmetiku sredinu raunamo ukoliko podaci dolaze sa intervalne i racio skale, medijanu

    moemo da raunamo i kod podataka koji dolaze sa ordinalne skale. Mod moemo da

    raunamo i kada imamo posla sa nominalnim podacima. Kod simetrinih distribucija

    aritmetika sredina i medijana se nalaze jedna blizu druge. Ukoliko je distribucija savreno

    simetrina, aritmetika sredina i medijana imaju istu vrednost. Ukoliko je distribucija

    unimodalna i savreno simetrina -kao to je to sluaj sa normalnom (Gausovom) distribucijom

    onda aritmetika sredina, medijana i mod imaju istu vrednost (Slika 4.5). U pozitivno

    zakrivljenoj distribuciji aritmetika sredina ima viu vrednost nego mod (Slika 4.6) a u negativno

    zakrivljenoj distribuciji mod ima viu vrednost nego aritemtika sredina (Slika 4.7). Vrednost

    medijane je u oba sluaja i kod negativno i kod pozitivno zakrivljene distribucije u sredini:

    izmeu vrednosti moda i vrednosti medijane.

    Za razliku od aritmetike sredine, mod nije osetljiv na ekstremne vrednosti, ne poiva na svim

    prikupljenim podacima i ne mora da bude samo jedan. U distribuciji

    1 2 4 4 5 6 6 9

    imamo dva moda (4 i 6) pa za takvu distribuciju kaemo da je bimodalna. Kada skupljamo

    antropometrijske podatke (visina, teina) o mukarcima i enama, obino dobijamo podatke koji se

    bimodalno distribuiraju. Mada su u psihologiji takve pojave veoma retke, u naelu, moemo se

    sresti i sa polimodlanim distribucijama tj. sa distribucijama koje imaju vie od dva moda.

  • Slika 4. 5. U normalnoj/Gausovoj distribuciji, aritmetika sredina, medijana i mod imaju istu vrednost. Postoji potpuna saglasnost sve tri mere centralne tendencije.

    Slika 4. 6. U pozitivno zakrivljenoj distribuciji postoji srazmerno mali broj ekstremno visokih vrednosti koje guraju aritmetiku sredinu udesno. Mod se, kao i uvek, nalazi na mestu iznad koga je vrh distribucije. Stoga je aritmetika sredina vea od medijane a medijana je vea od moda.

  • Slika 4.7. U negativno zakrivljenoj distribuciji postoji mali broj ekstremno niskih vrednosti koje guraju aritmetiku sredinu ulevo. Mod je krajnje desno jer se tamo nalazi vrh distribucije, na mesti najeeg skora. Medijana je - za razliku od aritmetike sredine- neosetljiva na ekstremne vrednosti pa e zadrati svoje mesto izmeu moda i aritmetike sredine. Stoga je mod je vei od medijane a medijana je vea od aritmetike sredine.

    Od sve tri mere centralne tendencije jedino aritmetika sredina poiva na svim

    prikupljenim podacima tj. koristi sve prikupljene informacije. Isto tako, aritmetika sredina je

    jedina od tri mere centralne tendencije koju emo koristiti kada od deskriptivne statistike

    budemo preli na statistiku zakljuivanja. Medijanu i mod koristimo iskljuivo u deskriptivne

    svrhe, kada bez pretenzija da zakoraimo u statistiku zakljuivanja- saimamo podatke koji su

    pred nama; koristimo ih prvenstveno za opis pozitivno ili negativno zakrivljenih distribucija.

    Zakljuak o merama centralne tendencije

    Mere centralne tendencije nam govore otome gde se u opsegu brojeva od minus do plus

    beskonano nalaze nai podaci. Centralnu tendenciju nekog niza skorova opisujemo jednim

    brojem, najee aritmetikom sredinom. U sluaju veoma zakrivljenih distribucija i onda kada

    nam je cilj da samo opisujemo podatke a ne i da iskoraimo u statistiku zakljuivanja, kao mere

    centralne tendencije koristimo medijanu i mod.

    II. MERE VARIJABILNOSTI

    Opseg

    Navoenje opsega (razlike izmeu najvieg i najnieg skora ) je intuitivno najblii i

    najprostiji nain da saeto opiemo varijabilnost neke distribucije. U primeru nae populacije od

    9 brojeva

    38 46 54 56 62 64 67 68 77

  • opseg (engleski range) je razlika izmeu brojeva 77 38 i iznosi 39. Kada smo malo pre govorili o

    distribucijama koristili smo opseg da bismo ukazali na to da se distribucije (osim po obliku i po

    merama centralne tendencije) mogu razlikovati i po varijabilnosti. Opseg je veoma gruba mera

    varijabilnosti budui da je potpuno neosetljiv na skorove koji se nalaze izmeu najvieg i

    najnieg skora. Koristimo ga samo u deskriptivnoj statistici, uglavnom da bismo otkrili greke

    koje se deavaju prilikom unosa podataka i/ili da bismo otkrili trke, skorove koji jasno

    odudaraju od ostalih. Opseg uzorka esto ne daje dobru procenu opsega populacije budui da

    se u uzorku najverovatnije nee nai ekstremnii skorovi koji se nalaze u populaciji. Daleko je

    vea verovatnoa da se ekstremni populacijski skorovi nau u veim nego u manjim uzorcima.

    Drugim reima, veliina ospega uzorka zavisi od veliine samog uzorka a to je dosta nepoeljna

    okolnost u situaciji kada na osnovu poznavanja uzroka pokuavamo da procenimo stanje u

    populaciji. Zbog toga, za razliku od varijanse (i standardne devijacije, vidi dole) opseg nije

    mera varijabilnosti koju emo koristiti kada sa deskriptivne statistike budemo preli na

    statistiku zakljuivanja.

    Kvartilni opseg i kvartilna devijacija

    Jedan, danas sve ree korieni, nain da opiemo varijabilnost neke distribucije jeste

    preko kvartilnog opsega ili kvartilne devijacije. Do vrednosti ovih mera varijabilnosti dolazimo

    tako to distribuciju podelimo na etiri koraka ili kvartila. To emo uraditi tako to emo prvo

    izraunati medijanu koja za niz skorova (za ovaj primer upotrebiemo neto dui niz)

    22 25 34 35 41 41 46 46 46 48 49 54 54 59 60

    ima vrednost 46.

    Potom emo odrediti levu i desnu medijanu tj. medijane leve i desne polovine skorova. U

    naem sluaju bie to brojevi 35 i 54.

    22 25 34 35 41 41 46 46 46 48 49 54 54 59 60

    Broj 35 oznaava prvi kvartil (Q1) tj. medijanu skorova koji se nalaze ulevo od medijane ukupnog

    niza; broj 54 oznaava trei kvartil (Q3) tj. medijanu skorova koji se nalaze udesno od medijane

    ukupnog niza.

  • Standardna devijacija

    Upravo smo videli da su dve do sada razmatrane mere varijabilnosti daleko od lepih

    osobina aritmetike sredine koje smo nedavno istakli: ni opseg ni kvartilna devijacija ne koriste

    sve prikupljene informacije, njihova vrednost ne poiva na svim prikupljenim podacima. Treba

    nam dakle neka mera varijabilnosti koja bi ila ruku pod ruku sa aritmetikom sredinom. Mera

    varijabilnosti koji bismo koristili uvek kada koristimo aritmetiku sredinu a to se odnosi upravo

    na poeljne istraivake situacije kada analiziramo podatke koji potiu sa intervalne ili racio

    skale.

    Na prvi pogled ini se da nije teko doi do takve mere varijabilnosti. Mogli bismo

    jednostavno da izraunamo proseno odstupanje od aritmetike sredine. Zdrav razum nam

    govori da to je varijabilnost nekog niza skorova vea, bie vea i odstupanja pojedinanih

    skorova od njihove aritmetike sredine. I obrnuto: to je varijabilnost nekog niza skorova manja,

    biie manja i odstupanja pojedinanih skorova od njihove aritmetike sredine. Ukoliko

    izraunamo njihovo proseno odstupanje od aritmetike sredine to bi moglo da nam da dobru

    sliku o varijabilnosti tog niza skorova.

    [ Uskoro emo videti da je to (mada) intuitivno ujedno i loe reenje.]

    Hajde da vidimo kuda e nas odvesti ovaj pristup, da izraunamo proseno odstupanje

    od aritmetike sredine. Uradiemo to sluei se formulom

    Formula 4.3. Proseno linearno odstupanje od aritmetike sredine. Iako intuitivan, ovaj pristup ne vodi nikuda.

    N

    xi )(

    Interkvartilni opseg (engleski interquartile range) je razlika izmeu prvog i treeg kvartila

    IQR = Q3 Q1

    u naem primeru IQR = 54 -35 = 19

    Kvartilna devijacija (engleski quartile deviation) je jednaka polovini interkvartilnog opsega

    2

    IQRQD

    U naem primeru 5.92

    3554

    QD

  • gde je oznaka za sumu, xi oznaka za svaki pojedinani skor, oznaka za aritmetiku sredinu

    populacije a N oznaka za broj posmatranja odnosno oznaka za broj pripadnika te populacije. U

    naem primeru populacije od 9 posmatranja i = 59.11

    0

    9

    0

    Ishod ovog rauna je, sa intuitivnog stanovita, neoekivan jer proizilazi da je

    varijabilnost unutar nae populacije jednaka nuli, odnosno da unutar nae populacije nema

    nikakve varijabilnosti. Taj zakljuak je oigledno pogrean jer se svaki od 9 skorova razlikuje od

    svih ostalih skorova i svaki skor se razlikuje od njihove zajednike aritmetike sredine. Dakle,

    varijabilnost postoji ali mi nismo uspeli da joj pristupimo na pravi nain. Izvor naeg problema

    je u tome to se iznad razlomake crte (u brojiocu) pojavljuju negativni i pozitivni brojevi zbog

    toga to su neki skorovi manji a neki vei od zajednike aritmetike sredine. U sledeem koraku

    otkrivamo da se ti negativni i pozitivni brojevi potiru i da je njihov konani zbir jednak nuli.

    Ukoliko nulu podelimo sa brojem posmatranja (N = 9) ili sa bilo kojim drugim brojem, krajnji

    rezultat e uvek biti nula. Do tog ishoda doi emo uvek, bez obzira na to koliko skorova ini

    nau populaciju, bez obzira na njihovu brojanu vrednost i bez obzira na vrednost aritmetike

    sredine.

    Dakle, moemo da zakljuimo da nas raunanje prosenog odstupanja (prosene

    devijacije) od aritmetike sredine vodi u orsokak zbog toga to se negativni i pozitivni brojevi

    koji opisuju ta odstupanja meusobno potiru. Dobar nain da reim problem jeste da umesto

    prosenog odstupanja od aritmetike sredine izraunamo proseno kvadrirano odstupanje od

    aritmetike sredine. Jo u osnovnoj koli smo nauili da je svako a2 pozitivan broj (jer plus puta

    9

    )77()68()67()64()62()56()54()46()38(

    9

    89.1789.889.789.489.2)11.3()11.5()11.13()11.22(

    Jedna vana osobina aritmetike sredine o kojoj do sada nismo govorili jeste da je suma odstupanja

    (devijacija) pojedinanih skorova od aritmetike sredine uvek jednaka nuli. To je ujedno i sutina

    aritmetike sredine. Aritmetika sredina je teite niza skorova. Zbir linearnih odstupanja od

    aritmetike sredine uvek e biti nula, pa e i njihov prosek biti uvek nula. Ukoliko ne bismo

    kvadrirali odstupanja od aritmetike sredine indeks varijabilnosti bi bio nula za svaki niz brojeva i

    samim tim bio bi potpuno beskorisan. Isto tako, suma kvadriranih odstupanja od aritmetike

    sredine e uvek biti manja od sume kvadriranih odstupanja od bilo koje druge vrednosti. Na ovo

    emo se vratiti u Poglavlju 6 kada budemo govorili o linearnom odnosu izmeu dve varijable.

  • plus daje plus, a minus put aminus takoe daje plus). Raunajui proseno kvadrirano

    odstupanje oslobodili smo se opasnosti da zbir mera odstupanja bude nula. Takva odluka je

    sasvim u redu i zbog toga to negativno odstupanje nekog skora od aritmetike sredine samo

    po sebi ne znai nita loe, nema nikakvu negativnu konotaciju. Ukoliko npr. raunamo broj

    neopravdanih izostanaka uenika iz nekog razreda, skorovi koji su manji od aritmetike sredine

    (i samim tim imaju negativne devijacije od aritmetike sredine) govore upravo neto dobro i

    pozitivno.

    Hajde, da vidimo kuda e nas odvesti raunanje prosenog kvadrirarnog odstupanja od

    aritmetike sredine. Krenuemo od formule

    Formula 4.4. Proseno kvadrirano odstupanje od aritmetike sredine. Pravi nain da opiemo varijabilnost nekog niza brojeva

    =127.43

    Na taj nain dobili smo proseno kvadrirano odstupanje od aritmetike sredine, broj koji e

    uvek biti 0 (u sluaju da su svi skorovi jednaki aritmetikoj sredini) ili vei od nule (u svim

    ostalim sluajevima).

    N

    xi2)(

    Proseno kvadrirano odstupanje od aritmetike sredine zovemo varijansa i oznaavamo sa

    V ili sa 2.

    V = 2 = N

    xi2)(

    Kao to vidimo, formula za izraunavanje populacijske varijanse sastoji se iz brojioca u kome

    se nalazi suma kvadriranih odstupanja (ili kako se skraeno kae suma kvadrata, na

    engleskom sum of squares, skraeno SS) i imenioca u kome se nalazi broj skorova (N). Zbog

    injenice da je varijansa prosek kvadriranih odstupanja od aritmetike sredine na

    engleskom se za varijansu veoma esto koristi i izraz mean square koji se na na jezik

    prevodi kao srednji kvadrat. Prema tome, gornju formulu moemo da dopunimo i da

    napiemo kao

    V = 2 = N

    xi2)(

    = N

    SS= srednji kvadrat

    9

    )77()68()67()64()62()56()54()46()38( 222222222

  • Izraunavanjem varijanse dobili smo meru varijabilnosti koja ima neke ali ne i sve dobre

    osobine koje ima aritmetika sredina. Varijansa jeste jedna (iz istih podataka moe se izraunati

    samo jedna vrednost varijanse) i poiva na svim prikupljenim podacima. Ipak, za razliku od

    aritmetike sredine varijansa nije izraena u mernim jednicama varijable koju merimo.

    Aritmetika sredina visine je izraena u centimentrima, aritmetika sredina teine je izraena u

    kilogramima, aritmetika sredina inteligencije je izraena u IQ jedinicama. Ali izraunavajui

    varijansu mi smo kvadrirali odstupanja svakog pojedinanog skora od aritmetike sredine. Ta

    operacija je matematiki sasvim opravdana i, videli smo, krajnje poeljna. Ipak, ne umemo da

    odgovorimo na pitanje ta je to kilogram na kvadrat , kakve veze imaju kvadratni centrimetri sa

    visinom i ta je to IQ2. Zbog toga kaemo da je varijansa izraena kao nedimenzionalni broj. Da

    bismo -u naem traganju za merom varijabilnosti koja e ii ruku pod ruku sa aritmetikom

    sredinom- dobili meru varijabilnosti koja je izraena u mernim jednicima varijable koju merimo

    pribei emo starom matematikom triku: izraunaemo kvadratni koren varijanse i nazvati ga

    standardna devijacija (engleski standard deviation).

    =

    Formula 4.5. Standardna devijacija populacije je kvadratni koren populacijske varijanse

    2

    Za razliku od varijanse koje je nedimenzionalni broj standradna devijacija, kao i aritmetika

    sredina je izraena u mernim jedinicama varijable koju merimo. Zapravo, standardna

    devijacija poseduje sve tri lepe osobine koje poseduje i aritmetika sredina: ona je samo

    jedna, poiva na svim prikupljenim informacijama i izraena je u mernim jednicama

    varijable koju merimo. Standardna devijacija skorova koji opisuju visinu izraena je i

    centimetrima, standardna devijacija skorova koji opisuju teinu izraena je u kilogramima,

    standardna devijacija ineteligencije izraena je u IQ jedinicama.

    Mada zbog jasno definisanog meusobnog odnosa varijansa i standardna devijacija u

    deskriptivnoj statistici nose sa sobom istu koliinu informacija, treba uoiti da je varijansa

    bogatiji (moemo da kaemo i stariji) pojam u odnosu na pojam standardne devijacije koji

    je izveden iz pojma varijanse.

  • Do standardne devijacije smo doli posle dve komplikacije. Prvo smo se oslobodili

    negativnih brojeva u brojiocu tako to smo kvadrirali odstupanja od aritmetike sredine. Na taj

    nain izraunali smo varijansu populacije. Potom smo izraunali kvadratni koren te varijanse i

    dobili standardnu devijaciju, indeks varijabilnosti koji je izraen u mernim jedinicama

    originalnog merenja.

    Varijansu uzorka (SD2) raunamo na slian nain kao i varijansu populacije s time da u imeniocu

    umesto vrednosti n imamo vrednost n-1.

    Formula 4.6. Varijansa uzorka. oznaka za sumu, xi =oznaka za svaki pojedinani skor, x = oznaka za aritmetiku sredinu uzorka, n = oznaka za broj posmatranja odnosno oznaka za veliinu uzorka, n-1 = oznaka za broj stepeni slobode

    Broj n-1 nazivamo brojem stepeni slobode (engleski degrees of freedom ili skraeno df).

    U ovom trenutku ne moemo da objasnimo ovaj pojam ali emo se vratiti na njega u dogledno

    vreme. Vano je da uoite da je po definiciji broj n-1 najsliniji broju n i da sa poveanjem naeg

    uzorka posledice delenja brojioca (sume kvadrata) sa n ili sa n-1 postaju sve manje. Dakle, im

    na uzorak premai neki realni okvir od n = 30 (retka su psiholoka istraivanja koja e biti

    obavljena na manjem uzorku) postaje prilino svejedno da li brojilac delimo sa 30 (n) ili sa 29

    (n-1).

    Standardna devijacija je mera prosene udaljenosti od aritmetike sredine i treba je

    koristiti samo onda kada raunamo aritmetiku sredinu, a to je onda kada se bavimo podacima

    koji potiu sa intervalne i racio skale. Standardna devijacija je jednaka nuli kada ne postoji

    nikakva varijabilnost skorova, kada svi skorovi imaju istu vrednost.

    Kao to o aritmetikoj sredini moemo misliti kao o prosenom skoru tako o standardnoj

    devijaciji moemo da mislimo kao o prosenoj varijabilnosti tj. kao o prosenom odstupanju

    od aritmetike sredine.

    Kao i kod populacije, standardna devijacija uzorka je kvadratni koren varijanse uzorka.

    2SDSD

    Standardna devijacija je, kao i aritmetika sredina, veoma osetljiva na trke .

    1

    )( 22

    n

    MXSD

    xi

  • Zakljuak o merama varijabilnosti

    Varijabilnost ili podatak o tome koliko se skorovi meusobno razlikuju je, uz meru

    centralne tendencije, veoma vaan atribut svakog niza skorova. U psiholokim istraivanjima

    varijabilnost najee izraavamo jednim brojem koji se odnosi na varijansu ili na standardnu

    devijaciju. to je vea varijansa (ili standardna devijacija) vea je i varijabilnost izmeu skorova.

    Pojam varijabilnosti je veoma vaan za razumevanje gradiva koje je pred nama. Uostalom, sva

    psiholoka istraivanja se bave ispitivanjem varijanse. Ukoliko se ljudi meusobno ne bi

    razlikovali u odnosu na neku bitnu osobinu (visinu donjeg praga ulne osetljivosti, inteligenciju,

    anksioznost, ekstroverziju, lokus kontrole itd.) na nauni interes za tu osobinu bio bi svakako

    manji. Psiholoka istraivanja pokuavaju da rasvetle uzroke variranja bilo koje od posmatranih

    osobina tako to e variranje jedne varijable (varijansu varijable Y) dovesti u vezu sa variranjem

    druge varijable (varijansom varijable X). Ukoliko npr. otkrijemo da su individualne razlike u

    kolskom uspehu (varijansa varijable Y) povezane sa individualnim razlikama u vrednoi

    (varijansa varijable X) onda moemo rei da smo varijansom varijable X bar donekle objasnili

    varijansu varijable Y.

  • ta treba da znamo?

    - Cilj deskriptivne (ili opisne) statistike je da numeriki i saeto prikazuje neke podatke.

    Deskriptivna statistika se bavi opisom onoga to znamo.

    - Najekonominiji nain da opiemo neku distribuciju jeste da definiemo njen oblik i da

    navedemo neku meru njene centralne tendencije i neku meru njene varijabilnosti. Distribucije

    se meusobno razlikuju po obliku, merama centralne tendencije i merama varijabilnosti.

    - Horizonatlno odstupanje (zakrivljenost) od normalne distribucije nazivamo skjunes. Vertikalno

    odstupanje od normalne distribucije zovemo kurtozis i ono ukazuje na to da li je gomilanje

    skorova ispod take najvie uestalosti vie ili nie nego kod normalne distribucije.

    -Aritmetika sredina je uvek samo jedna, poiva na svim prikupljenim podacima i izraena je u

    mernim jedinicama varijable koju merimo. Osteljiva je na ekstremne vrednosti.

    -Medijana je sredinja vrednost u distribuci neke varijable: vrednost koja je via od 50%

    sluajeva i nia od 50% sluajeva. U distribuciji moe da bude samo jedna medijana; medijana je

    izraena u mernim jedinicama varijable koju merimo ali ne poiva na svim prikupljenim

    podacima. Medijana je neosetljiva na ekstremne vrednosti.

    -Mod je vrednost najeeg skora, neosetljiv na ekstremne vrednosti. Distribucija moe da ima

    vie od jednog moda. Distribucije sa dva moda nazivamo bimodalne, a one sa vie modova

    polimodalne.

    -Opseg je najjednostavnija mera varijabilnosti. Opseg je razmak izmeu najvieg i najnieg

    skora.

    - Interkvartilni opseg je razlika izmeu prvog i treeg kvartila. Kvartilna devijacija je jednaka

    polovini interkvartilnog opsega.

    -Varijansa je proseno kvadrirano odstupanje od aritmetike sredine. Varijansa je uvek

    pozitivan broj: nula ili vea od nule. Za neki niz mera varijansa je samo jedna, poiva na svim

    prikupljenim podacima ali nije izraena u mernim jedinicama varijable koju merimo. Varijansa je

    nedimenzionalni broj.

    -Standardna devijacija je kvadratni koren varijanse. Za neki niz mera standardna devijacija je

    samo jedna, poiva na svim prikupljenim podacima i izraena je u mernim jedinicama varijable

    koju merimo. Koristimo je uvek kada koristimo i aritmetiku sredinu, onda kada opisujemo

    podatke sa intervalne ili racio skale. Standardna devijacija je uvek pozitivan broj: nula ili vea od

    nule.