Istorijat i Osnovni Pojmovi u Statistici

42
Istorijat i osnovni pojmovi u statistici Prvo predavanje iz statistike doc. dr Dragan Bogdanović

description

Istorijat i Osnovni Pojmovi u Statistici

Transcript of Istorijat i Osnovni Pojmovi u Statistici

  • Istorijat i osnovni pojmovi u statistici

    Prvo predavanje iz statistikedoc. dr Dragan Bogdanovi

  • UvodStatistika je oblast primenjene matematike koja se bavi prikupljanjem, organizacijom, prikazivanjem, analizom i interpretacijom podataka, kao i donoenjem statistikih zakljuaka, a njena metodologija se zasniva na teoriji verovatnoe i zakonu velikih brojeva.

  • UvodStatistika nam omoguava da tumaimo podatke kritiki i sa razumevanjem, da dobijemo jasne odgovore na znaajna pitanja i da donesemo pouzdane zakljuke zasnovane na numerikim dokazima.

    Ona predstavlja moan intelektualni metod primenljiv u mnogim profesijama.

  • UvodPoznavanje statistike metodologije neophodno je studentima svih disciplina za pravilno definisanje problema, kritiko razmiljanje, analizu i sintezu.

    Priprema za kreativnu i produktivnu profesionalnu karijeru.

  • UvodTeorijska ili matematika statistika bavi se razvojem, izvoenjem i dokazivanjem statistikih teorema, formula, pravila i zakona.

    Primenjena statistika podrazumeva primenu tih teorema, formula, pravila i zakona u reavanju realnih problema.

  • Istorijat i razvoj Izraz statistika se u poetku odnosio na prikupljanje podataka koji su bili od znaaja za dravu, kao to su evidencije o stanovnitvu, posedima i prihodima, a vodi poreklo od italijanske rei state to znai drava.

  • Istorijat i razvoj Razvoj vitalne statistike (praenje i analiza raanja i umiranja) u imperijalnoj Engleskoj XVII veka. Pioniri u ovoj oblasti bili su Don Graunt (1620-1674. g.) i Vilijam Peti (1623-1687. g.).

    Gotovo u isto vreme Blejz Paskal (1623-1662. g.) i Pjer de Fermat (1601-1665. g.) postavili su osnove teorije verovatnoe.

  • Istorijat i razvoj Dalji podsticaj za razvoj statistike metodologije dala je astronomija, gde je rezultate mnogih pojedinanih posmatranja bilo potrebno objediniti u jedinstvenu teoriju. Vodee linosti u ovoj oblasti bili su Pjer Simon Laplas (1749-1827. g.) u Francuskoj i Karl Fridrih Gaus (1777-1855. g.) u Nemakoj.

  • Istorijat i razvoj Adolfo Katlet (1796-1874. g.) prvi poeo da primenjuje statistiku metodologiju u biolokim, medicinskim i sociolokim istaivanjima.Fransis Galton (1822-1911. g.) uveo analizu varijabilnosti i meuzavisnosti izmeu vrednosti razliitih obeleja (regresije i korelacije) u biolokim merenjima. Karl Pirson (1857-1936. g.) i Rafael Veldon (1860-1906. g.) dalji razvoj primene statistike metodologije u biologiji i uvode pojam biometrije za vrstu studija kojima su se bavili.Ronald Fier (1890-1962. g.) dominantna linost u razvoju statistike i biometrije u XX veku.

  • Deskriptivna statistika Deskriptivna statistika obuhvata metode prikupljanja, sreivanja i prikazivanja podataka na jasan i razumljiv nain, kao i izraunavanja statistikih parametara.

  • Deskriptivna statistika Na primer, izmerena je telesna teina 250 uenika jedne srednje kole. Rezultati ovih merenja mogu se prikazati numeriki i grafiki. Korienjem numerikog pristupa mogu se izraunati i prikazati srednja vrednost i standardna devijacija. Ovi parametri nam daju informacije o prosenoj telesnoj teini i stepenu razlika koje postoje izmeu uenika. Korienjem grafikog pristupa moe se iscrtati takasti dijagram. Ovaj grafikon prua detaljne informacije o rasporedu svih izmerenih vrednosti telesne teine.

  • Deskriptivna statistika Grafiki metod daje bolji uvid u raspored podataka. Numeriki pristup je precizniji i objektivniji. Kako se ovi pristupi meusobno dopunjuju, preporuljivo je u prikazivanju podataka koristiti obe metode.

  • Analitika statistika Analitika statistika se koristi kako bi se doneli zakljuci o celokupnoj populaciji na osnovu podataka dobijenih merenjima sprovedenim na uzorku.

  • Analitika statistika Primer: Sprovedeno je ispitivanje u kome je 10 uesnika koji su odgovarali na test posle 24 asa nespavanja imali u proseku 12 tanih odgovora manje nego 10 uesnika koji su imali normalan ritam sna. Pitanja: 1. Da li je razlika u broju tanih odgovora nastala zbog nespavanja ili je posledica sluajnosti? 2. Ukoliko je razlika u uzorku nastala zbog nespavanja, kolika bi bila stvarna razlika kada bi se ispitivanje sprovelo na celokupnoj populaciji? Na pitanja ovakve vrste odgovore moe da prui analitika statistika.

  • Analitika statistika Analitika statistika koristi dve osnovne metode: a) procenu i b) testiranje hipoteza. Pri procenama se izraunavaju parametri osnovnog skupa na osnovu parametara uzorka. Kod testiranja hipoteza proverava se istinitost neke pretpostavke istraivaa. U naem primeru radna hipoteza bi glasila da nespavanje utie na broj tanih odgovora pri testiranju.

  • Populacija i uzorak Osnovni skup ili populacija se sastoji od svih elemenata ili jedinica posmatranja ije karakteristike ispitujemo pojedinaca (bia), stvari ili predmeta. Osnovni skup koji se prouava naziva se jo i ciljnom populacijom. Svi elementi osnovnog skupa su istorodni, ali ne i istovetni.

  • Populacija i uzorak Idealno bi bilo kada bi mogli da analiziramo svaku jedinicu populacije, meutim u praksi to gotovo nikada nije mogue.Zbog toga se u statistici donoenje sudova i zakljuaka o celini pojave vri na osnovu prouavanja i poznavanja odreenog broja statistikih jedinica, odnosno na osnovu dela osnovnog skupa - uzorka.

  • Populacija i uzorak Jedinica posmatranja ili element uzorka ili osnovnog skupa jeste odreeni subjekat ili objekat (na primer: osoba, firma, predmet, drava) o kojem se prikupljaju podaci, odnosno, na kojem se odreena pojava statistiki posmatra.

  • Populacija i uzorak Adekvatan uzorak mora da ispuni principe: - nepristrasnosti, - reprezentativnosti i - ekonominosti.

    Nepristrasnost uzorka se postie nainom i metodama odabiranja uzorka.

  • Populacija i uzorak Reprezentativnost - uzorak treba da obuhvati one statistike jedinice koje e u sebi nositi sve karakteristike osnovnog skupaKvalitet, tanost i preciznost rezultata istraivanja su direktno proporcionalni reprezentativnosti uzorka. Reprezentativnost uzorka zavisi od varijabilnosti vrednosti posmatranog obeleja unutar skupa i od veliine uzorka.

  • Populacija i uzorak Ekonominost je princip koji nameu finansijska i vremenska ogranienja.

    Veliki uzorak zahteva vie finansijskih i ljudskih resursa, kao i vremena za ispitivanje.

    Princip ekonominosti je sutinski suprotan principu reprezentativnosti.

  • Jednostavan sluajan uzorak Kada svaka jedinica iz populacije ima jednaku ansu da bude izabrana uzorak je sluajan, randomiziran (engl. random sample). Metode sluajnog izbora:- Lutrijska metoda- Tablice sluajnih brojeva- Raunarski generator sluajnih brojeva.Prvo se odreuje okvir izbora, odnosno populacija iz koje se bira. Zatim se svakoj statistikoj jedinici dodeljuje identifikacioni brojNa kraju se ovi brojevi koriste da bi se nekom od metoda sluajnog izbora izvrilo izdvajanje uzorka.

  • Sistematski uzorak Kada se izbor statistikih jedinica u uzorak vri po nekom sistemu.Na primer, sprovodimo anketu birajui svaki deseti broj telefona iz telefonskog imenika, pri emu samo prvi broj izaberemo metodom sluajnog izbora. U nekim sluajevima taj nain izbora nosi rizik da bude pristrasan.Jednostavniji je od metode sluajnog uzorka jer nije neophodna lista svih statistikih jedinica, pa se u praksi esto primenjuje. Meutim, pri tome valja biti oprezan pri donoenju zakljuaka.

  • Viestepeni uzorak Kod velike i rairene populacije.Na primer, elimo da utvrdimo zastupljenost povienog krvnog pritiska kod odraslog stanovnitva cele drave, koje broji 5 miliona ljudi, na uzorku od 10000 ispitanika.Prvo se iz liste naselja sluajnim izborom izdvoji odreeni broj naselja. Zatim se iz tih naselja prema popisnim podacima izabere sluajnim izborom srazmeran broj stanovnika.Viestepeni uzorak daje dobre podatke za populaciju u celini, ali ne i za pojedina naselja jer broj ispitanika u njima ipak nije dovoljan za zakljuivanje.

  • Stratifikovani uzorak Kada je potrebno analizirati neku pojavu u celoj populaciji, ali i posebno po populacionim grupama od posebnog interesa stratumima.

    Svaki stratum je podpopulacija koja bi trebalo da je homogena, a izmeu pojedinih stratuma se oekuju znaajne razlike. Za svaki stratum se odreuje poseban sluajni uzorak. Veliina uzoraka iz stratuma je obino proporcionalna udelima stratuma u celokupnoj populaciji, ali to nije pravilo.

    Stratifikovani uzorci se mogu podeliti na proporcionalne i neproporcionalne.

  • Viefazni uzorak

    Kada je komplikovano ili skupo sve elemente istraivanja sprovesti na svim ispitanicima iz uzorka. Tada deo istraivanja sprovodimo samo na poduzorku.

  • Klaster uzorak Slian je viestepenom uzorku, samo to se sluajni izbor ne sprovodi za pojedinane ispitanike, ve po odreenim grupama - klasterima, na primer po ulicama ili domainstvima.

    Vrste odabira uzoraka se mogu meusobno kombinovati. Ovo vai za sve vrste izbora, osim za jednostavni sluajni uzorak.

  • Obeleja

    Obeleje (promenljiva, varijabla) je merljiva ili opisna karakteristika koja se razlikuje izmeu pojedinih subjekata ispitivanja.

  • Podatak Vrednost promenljive koja se odnosi na jednu jedinicu posmatranja naziva se opservacijom ili podatkom.Serija podataka ili statistiki niz je skup podataka koji se odnosi na jednu ili vie promenljivih. Podaci prikupljeni o razliitim obelejima osnovnog skupa ili uzorka u istom vremenskom periodu nazivaju se strukturnim serijama podataka (podacima preseka ili uporednim podacima). Serija podataka prikupljenih za istu jedinicu posmatranja o jednoj istoj promenljivoj u razliitim vremenskim trenucima ili vremenskim periodima, naziva se vremenskom serijom.

  • Kvantitativna i kvalitativna obeleja

    Kvantitativna (numerika) obeleja se mere intervalnom i skalom odnosa.

    Kvalitativna (atributivna, kategorijska) obeleja se mere nominalnom i ordinalnom skalom.

  • Nezavisna i zavisna obeleja

    Obeleja iji se uticaj ispituje nazivaju se nezavisno promenljive ili faktori. Obeleja koja menjaju vrednost ili kategoriju pod uticajem nezavisnih faktora predstavljaju zavisno promenljive. Na primer, pri eksperimentu koji ispituje uticaj konzumiranja alkohola na brzinu reakcije, nezavisno promenljivu predstavlja broj popijenih alkoholnih pia, a zavisno promenljivu predstavlja vreme do reakcije.

  • Kontinuirana i diskontinuirana obeleja Neka obeleja (kao to je vreme reakcije) imaju neogranieni broj numerikih vrednosti, koje mogu biti i decimalne, a ona se nazivaju kontinuiranim (neprekidnim).

    Druge promenljive mogu imati samo cele vrednosti. Na primer, ako je obeleje ocena na ispitu tada su samo vrednosti 5, 6, 7, 8, 9 i 10 dozvoljene, to znai da se merenje vri estostepenom skalom. Takvo obeleje se naziva diskontinuirano (prekidno).

  • Statistiki parametar - pokazatelj Statistiki parametar je numerika (kvantitativna) mera nekog obeleja koja se izraunava na osnovu prikupljenih podataka. Na primer, prosena telesna teina uenika jedne srednje kole je statistiki parametar. Statistiki parametar se moe izraunati i za pojedinca, a ne samo za uzorak ili populaciju, ali je tada potrebno izvriti vie merenja. Na osnovu statistikih parametara uzorka mogu se procenjivati parametri celokupne populacije.

  • Statistiki parametar - pokazatelj Neki autori koriste termin statistik kao naziv za meru nekog obeleja koja se izraunava na osnovu prikupljenih podataka iz uzorka, dok termin parametar koriste kao naziv za meru dobijenu na celoj populaciji ili procenjenu za celu populaciju.

    Va nastavnik ne koristi ovakvu podelu termina jer je vrlo zbunjujua kada se u igru umea i engleski jezik (veoma esto) na kome izraz statistics znai jednostavno statistika.

  • Skale merenja Merenje predstavlja odreivanje vrednosti obeleja pojedinih jedinica posmatranja, na sistematizovan nain.

    Merne skale se mogu podeliti na: nominalne, ordinalne, intervalne i skale odnosa. Nominalne i ordinalne skale se primenjuju za atributivna obeleja, a intervalne i skale odnosa za numerika obeleja.

  • Nominalne skale Rasporeuju subjekte u grupe ili kategorije (modalitete) pojedinih opisnih (atributivnih) obeleja.Ove skale su kvalitativne jer ne daju nikakve kvantitativne informacije, odnosno nisu nam poznati pravac i veliina razlika izmeu pojedinih vrednosti.Primeri: pol (dva modaliteta) i brano stanje (etiri modaliteta). Modalitetima je mogue pridruiti numerike vrednosti, ali samo u svrhu oznaavanja (kodiranja). U analizi se porede uestalosti izmeu ovih modaliteta, a ne njihove vrednosti.

  • Ordinalne skale Rangiraju modalitete atributivnih obeleja po znaaju ili intenzitetu. Rangiranje moe biti od najmanje vanih do najvanijih, ali i obratno. Rangovi mogu imati numerike ili atributivne vrednosti, a intervali izmeu pojedinih vrednosti ne moraju biti identini. Na primer, studenti mogu ocenjivati kvalitet nastave na pojedinim predmetima ocenama: nisam zadovoljan/na 1, delimino sam zadovoljan/na 2 i u potpunosti sam zadovoljan/na 3. Intervali izmeu pojedinih ocena ne moraju biti podjednaki. Takoe, ocenjivanje je, umesto od 1 do 3, moglo da se vri i rangiranjem od 0 do 2 ili ak i od -1 do 1.

  • Intervalne skale Imaju merne jedinice koje predstavljaju identine intervale i zbog toga nam mogu pruiti informacije o apsolutnim razlikama izmeu izmerenih vrednosti.

    Formirane su tako da nemaju stvarnu nultu vrednost i zbog toga nam ne daju obavetenje o relativnim razlikama izmeu izmerenih vrednosti.

    Kao primer za intervalnu skalu moe posluiti Celzijusova skala za merenje temperature u stepenima (C).

    Intervalne skale su veoma este u psihologiji (na primer IQ skor. Da li je IQ nekoga ko je na MENSA testu postigao 0 poena zaista 0?).

  • Skale odnosa Sline su intervalnim skalama, ali one imaju i stvarnu nultu vrednost.

    Mogu nam pruiti i informacije o relativnim razlikama izmeu izmerenih vrednosti.

    Na primer, masa od 0 kg znai da mase zaista i nema. Prema tome, osoba sa 110 kg ima dvostruko veu masu tela od osobe sa 55 kg.

  • Merne skaleSkale merenja vrednosti obeleja imaju uticaj na izbor statistike metodologije za analizu podataka.Za numerika obeleja merena intervalnom skalom ili skalom odnosa moemo izraunati srednje vrednosti i poredimo ih najee parametrijskim testovima. Za obeleja merena ordinalnom skalom moemo raunati srednje vrednosti, ali je ovakav postupak diskutabilan. Kod njih je ispravnije koristiti medijanu kao meru centralne tendencije, a vrednosti porediti neparametrijskim testovima. Ova zadnja tvrdnja je pod velikim znakom pitanja u psihologiji!

  • Stepen slobode Pri bilo kom izraunavanju stepen slobode predstavlja broj nezavisnih vrednosti na kojima se bazira rezultat. Drugim reima, broj stepeni slobode je broj lanova nekog izraunavanja koji mogu slobodno uzeti bilo koju vrednost, a da se pri tome rezultat ne promeni.On se odreuje u zavisnosti od vrste izraunavanja. Uzmimo da zbir etiri broja: X1, X2, X3 i X4 iznosi 30. Bilo koja tri od ova etiri broja mogu slobodno uzeti bilo koje vrednosti, ali e zato etvrti broj morati da uzme tano odreenu vrednost da bi zbir iznosio 30. Prema tome, kod izraunavanja zbira samo jedan od N sabiraka ne moe slobodno uzimati bilo koju vrednost, pa broj stepeni slobode iznosi: ss=N-1, u naem primeru: ss=4-1=3.

  • HVALA NA PANJI