STATISTIKA 5. predavanje · 5. predavanje Doc.dr. Tadeja Kraner Šumenjak. ... kot pod prvo točko,...

STATISTIKA

5. predavanje

Doc.dr. Tadeja Kraner Šumenjak

PORAZDELITVE VZORČNIH

STATISTIK

Imejmo vzorec velikosti n. Na tem vzorcu ima

spremenljivka X vrednosti: x1, x2,…, xn.

Vzorčna statistika je poljubna funkcija

vzorčnih vrednosti f(x1, x2,…, xn). Poznamo veliko

vzorčnih statistik: kvantili, mere sredine, mere

variabilnosti.

Nekatere vzorčne statistike so zelo pomembne.

X je številska statistična spremenljivka, za katero sta

najpomembnejši vzorčni statistiki:

Vzorčna aritmetična sredina:

Vzorčni standardni odklon:

ns x x

Če za X privzamemo normalno porazdelitev

N(M, ), je ocena za M, s pa ocena za σ. To

spoznanje posreduje matematična statistika.

Posebno vlogo pri statističnem sklepanju ima z-

statistika

in t-statistika, ki je znana pod imenom

Studentova statistika

Spomnimo se populacije vseh vzorcev velikosti n,

vemo da je ta številka lahko ogromna. Na vsakem

od teh vzorcev ima vzorčna statistika svojo

vrednost.

Vzorčni statistiki u priredimo slučajno

spremenljivko U, njeno poznavanje je potrebno

za sklepanje iz vzorca na populacijo.

Pogledali bomo verjetnostno porazdelitev za

nekaj najpomembnejših vzorčnih statistik.

Porazdelitev vzorčnih aritmetičnih

sredin

Če je slučajna spremenljivka X na populaciji

porazdeljena N(M,σ), potem je slučajna

spremenljivka na populaciji vseh vzorcev

velikosti n porazdeljena .

OPOMBA: ta izrek velja, ko gre za vzorčenje z

vračanjem enot. Razlika pa je zanemarljiva,če je

populacija zelo velika, zato v praksi ne ločujemo.

( , )N Mn

Izrek nam pove, da so tudi aritmetične sredine vzorcev

z n elementi porazdeljene normalno. Ob tem sta

aritmetična sredina osnovne množice in aritmetična

sredina aritmetičnih sredin vzorcev enaki. Standardni

odklon porazdelitve aritmetičnih sredin je enak

kvocientu standardnega odklona osnovne statistične

množice in korena iz števila enot v vzorcu.

CENTRALNI LIMITNI IZREK

Slučajna spremenljivka se pri velikih vzorcih porazdeljuje

približno normalno tudi tedaj, ko verjetnostna porazdelitev

slučajne spremenljivke X na osnovni populaciji ni normalna.

Centralni limitni izrek lahko uporabimo v praksi, če je velikost

vzorca večja od 30.

Primer

Psihologi trdijo, da je v populaciji IQ porazdeljen normalno

N(100,15).

Tvorimo vzorce velikosti 4. Potem velja IQ (100,7,5).

115 100( 115) ( ) ( 2) 0,0228

2,3% vzorcev velikosti 4 ima vzorčno aritmetično sredino nad 115.

Tvorimo vzorce velikosti 25 in si zastavim

P IQ P Z P Z

o enako vprašanje.

Primer

Iz populacije, ki je normalno porazdeljena M=50 in σ=10 so

vzorčili vzorce velikosti n=25. Pri kolikšnem odstotku vzorcev

lahko pričakujemo vrednosti aritmetičnih sredin med 48,2 in

51,7? V katerih mejah je 90 % vseh vrednosti?

Porazdelitev t-statistik

Spoznali smo že dejstvo: če je ( , ), je ( , ).

XPosledično je spremenljivka Z= (0,1).

Če poznamo oba parametra normalne porazdelitve M in , iz vzorca velikosti

izračunamo x in nato vredno

X N M X N Mn

st z-statistike:

x Z= .

Angleški statistik W. Gosset, znan pod psevdonimom Student,

je v izrazu za z nadomestil parameter z njegovo vzorčno

oceno s in tako opredelil -statistiko:

Ugotovil je, da se pri majhnih vzor

cih verjetnostna porazdelitev

t-statistike bistveno loči od standardizirane normalne porazdelitve,

pri velikih vzorcih pa je ta porazdelitev zelo blizu standardizirane

normalne porazdelitve.

Izrek Na populaciji vzorcev velikosti je slučajna spremenljivka

porazdeljena po Studentovi porazdelitvi z n-1 prostostnimi stopnjami.

Zapišemo T ( 1).

t SP n

Lastnosti

Gostota verjetnosti za t-porazdelitev je po obliki

podobna gostoti verjetnosti za N(0,1). Funkcija je

zvezna, definirana na celotni realni osi. Je

simetrična okoli 0.

Parameter imenujemo stopnje prostosti, ki

določajo njeno obliko.

V limiti je Studentova porazdelitev enaka

standardizirani normalni porazdelitvi.

Porazdelitev vzorčnih varianc

Naj bo ( , ). Zamislimo si, da na vsakem vzorcu

velikosti izračunamo vzorčno varianco :

1( ) .

Vsak vzorec generira svojo vrednost. Tem vrednostim

priredimo slučajno spremenljivko S .

s x xn

Zanima nas njena

verjetnostna porazdelitev.

Slučajna spremenljivka X je porazdeljena normalno

s povprečno vrednostjo M in standardnim odklonom

σ. Na populaciji vzorcev velikosti n je porazdelitev za

S2 podana s -porazdelitvijo z n-1 prostostnimi

stopnjami:

nS SP n

Lastnosti

Je zvezna porazdelitev, definirana na pozitivnem

delu realne osi.

Stopnje prostosti določajo obliko porazdelitve. Za

SP=1 in SP=2 ima posebno obliko.

Ko je SP majhno število, je porazdelitev

asimetrična v desno, ko se SP povečuje, se

asimetrija zmanjšuje.

S povečevanjem SP(gre proti neskončno), postaja

čedalje bolj podobna normalni porazdelitvi

N(SP,SP0.5).

F-porazdelitev

Naj bosta X in Y neodvisni spremenljivki. Če je

spremenljivka X porazdeljena po zakonu 2(m) in

spremenljivka Y porazdeljena po zakonu 2(n),

je slučajna spremenljivka

porazdeljena po zakonu F(m, n).

Porazdelitev F(m, n) je določena z dvema prostostnima

stopnjama m in n.

OCENJEVANJE PARAMETROV-OCENJEVANJE

ARITMETIČNE SREDINE

Spomnimo se:

Glivenkov izrek: Porazdelitvena funkcija vzorca

z naraščanjem števila enot v vzorcu z verjetnostjo

1 konvergira k porazdelitveni funkciji osnovne

statistične množice.

Navedeni izrek nam pove, da čim večje je število enot v

vzorcu, bolj je frekvenčna porazdelitev vzorca podobna

frekvenčni porazdelitvi osnovne statistične množice.

Zato se bosta pri dovolj velikem številu enot v vzorcu (n

je vsaj 100) aritmetična sredina in standardni odklon

vzorca le malo razlikovala od aritmetične sredine in

standardnega odklona celotne množice.

S pomočjo dosedanjih ugotovitev določimo z vzorcem n

enot aritmetično sredino osnovne statistične množice.

To lahko naredimo na dva načina in sicer na osnovi:

•točkovne ocene

•intervalne ocene

•Za točkovno oceno je zaželena nepristranskost.

Ocena je nepristranska, če je povprečje vseh vzorčnih

ocen enako ocenjevanemu parametru. Zato je

je nepristranska ocena za M

je nepristranska ocena za

Intervalna ocena parametra

Intervalna ocena parametra je t.i. interval zaupanja. To je

slučajni interval, vezan na pripadajoči slučajni vzorec.

Definicija:

Naj označuje parameter, ki ga ocenjujemo, vrednost

je vnaprej predpisana verjetnost, 0< 1. Interval (L , )

imenujemo interval zaupanja za parameter , če velja:

P(L < ) 1 .

V našem primeru

bo to M.

Komentar

Standardne vrednosti, ki jih uporabljamo za

verjetnost α, so: 0,05, 0,01 ali 0,001. Verjetnost

1- α imenujemo zaupanje. Običajno zaupanje

izražamo v %, govorimo npr. o 95% zaupanju.

L1 oz. L2 je spodnja oz. zgornja meja intervala

zaupanja, L1 oz. L2 sta slučajni spremenljivki.

Pri vsakem vzorcu imata drugo vrednost. Vsak

slučajni vzorec generira svoj interval

zaupanja (l1,l2).

V populaciji vseh vzorcev velikosti n je odstotek

intervalov, ki vsebujejo parameter Θ, enak

100(1-α).

Za posamezni interval zaupanja ne vemo, ali je

parameter Θ vsebovan v tem intervalu ali ne.

Trdimo lahko, da je ta interval z verjetnostjo (1-α)

eden tistih, ki vsebujejo parameter Θ.

INTERVAL ZAUPANJA ZA POVPREČNO

VREDNOST

Ločimo:

Osnovna statistična množica porazdeljena

normalno po zakonu N(M, ) in je znana.

Osnovna statistična množica porazdeljena

normalno po zakonu N(M, ) in ni znana.

Veliki vzorci.

•Ta situacija v praksi le redko nastopa, vendar je

zaradi konstrukcije intervala zaupanja najlažja.

•Izpeljava temelji

N(M, ) in je znana

Spoznali smo že dejstvo: če je ( , ), je ( , ).

XPosledično je spremenljivka Z= (0,1).

X N M X N Mn

P z Z z

Z=1,96 pri 5% tveganju

Širino tega intervala lahko zapišemo z obrazcem:

x z M x zn n

Stopnja Delež v celotni populaciji

tveganja obeh osenčenih

samo enega osenčenega

5 % 0,05 0,025

1 % 0,01 0,005

0,01 % 0,001 0,0005

Porazdelitev aritmetičnih sredin

vzorcev.

Pri 5 % tveganju ena osenčena površina

0,025-ti del celotne površine.

Če iščemo 95% interval zaupanja za aritmetično

sredino populacije, tedaj s pomočjo tabel za

standardizirano normalno porazdelitev, določimo

vrednost za Z tako, da bo veljalo:

H(Z)=0,475

Z=1,96

Interval je z verjetnostjo 0,95 eden tistih, ki vsebuje

povprečno vrednost celotne populacije.

n196 196, , 5% tveganje

Če iščemo 99% interval zaupanja za aritmetično

H(Z)=0,495

Z=2,58

pri 1% tveganju

nx 58,258,2

Če iščemo 99,9% interval zaupanja za aritmetično

H(Z)=0,4995

Z=3,29

pri 0,1% tveganju

nx 29,329,3

Primer

Izračunajmo 90% in 95% interval zaupanja za

povprečno maso zdravila v stekleničkah, pri čemer

1, 9 in 10,5.n x

N(M, ) in ni znana

Standardni odklon ni podan, ampak ga ocenimo

iz podatkov. Interval zaupanja izpeljemo enako

kot pod prvo točko, le da standardizirano

normalno porazdelitev nadomesti Studentova

porazdelitev z n-1 prostostnimi stopnjami:

s sx t M x t

Odčitaš pri (n-1) prostostnih

stopnjah.

Veliki vzorci

Če so vzorci tako veliki, da velja centralni limitni

izrek, izračunamo interval zaupanja za

povprečno vrednost takole

s sx z M x z

PRIMER

Denimo, da želimo ugotoviti, s 5 % tveganjem,

povprečno maso 21 dni starih piščancev. V ta

namen smo, namesto vseh piščancev, stehtali

vzorec 105 piščancev in dobili frekvenčno

porazdelitev mas prikazano v preglednici:

Masa piščancev (g) Število piščancev

nad 550 do 580 2

nad 580 do 610 8

nad 610 do 640 8

nad 640 do 670 18

nad 670 do 700 16

nad 700 do 730 20

nad 730 do 760 20

nad 760 do 790 8

nad 790 do 820 5

Masa piščancev (g) fk xk fkxk f xk k

nad 550 do 580 2 565 1130 638450

nad 580 do 610 8 595 4760 2832200

nad 610 do 640 8 625 5000 3125000

nad 640 do 670 18 655 11790 7722450

nad 670 do 700 16 685 10960 7507600

nad 700 do 730 20 715 14300 10224500

nad 730 do 760 20 745 14900 11100500

nad 760 do 790 8 775 6200 4805000

nad 790 do 820 5 805 4025 3240125

Skupaj 105 73065 51195825

nf xk k

1 73065

105695 86,

15,335886,695105

511958251

n196 196, ,

95,5796,186,695

95,5796,186,695 M

Primer

Izračunajmo 95% in 99% interval zaupanja za

povprečno oceno na kolokviju.

Dani so rezultati za vzorec:

12,45,23, 67, 68,90, 34,0, 45,77.

Primer

Z vzorcem 150 zabojev smo dobili naslednje podatke:

Z 1 % tveganjem ocenite povprečni procent gnilega sadja v

osnovni množici. Pri tem predpostavite, da je standardni

odklon osnovne množice enak standardnemu odklonu

vzorca. Nalogo rešite tudi brez te predpostavke. Narišite

še gornjo frekvenčno porazdelitev!

% gnilega sadja število zabojev

nad 1 do 3

nad 3 do 6

nad 6 do 10

nad 10 do 15

SKLEPI

Na širino intervala vpliva:

-zaupanje

-variabilnost proučevane spremenljivke, ki jo

izraža s

-število enot v vzorcu

Če želimo, da se širina prepolovi moramo, moramo

zvečati število enot v vzorcu vsaj za 4-krat.

V izrazu za odklon je izraz

nStandardna

napaka ocene.

PARAMETRIČNI PREIZKUSI ZNAČILNOSTI

Parametrični preizkusi značilnosti so

namenjeni testiranju parametričnih hipotez,

to je domnev o vrednosti neznanih parametrov

statistične spremenljivke X. Na primer praviloma

testiramo ničelno hipotezo H0, ki pravi, da je

parameter q=q0, proti alternativni hipotezi H1, ki

pravi q≠q0 , na stopnji značilnosti testa α. Na

osnovi tega pri preizkusu značilnosti ničelno

hipotezo H0:

bodisi zavrnemo,

bodisi ne zavrnemo.

V prvem primeru rečemo, da med hipotetičnimi in eksperimentalnimi podatki obstaja značilna razlika (ali razlika je signifikantna) in hipotezo H0 zavrnemo.

V drugem primeru pa razlika med hipotetičnimi in eksperimentalnimi vrednostmi ni značilna oz. ni statistično pomembna, zato hipoteze H0 ne zavrnemo.

Pri testu značilnosti lahko naredimo samo t.i. napako prve vrste, to pomeni, da smo zavrnili pravilno hipotezo H0. Verjetnost za to napako je predpisana, s stopnjo značilnosti α in znaša običajno 0,05 ali 0,01.

ZAPOMNI SI:

Pri preizkusu značilnosti H0 proti H1 , ničelno

hipotezo H0 ali zavrnemo (torej sprejmemo H1) ali o

njej ne odločimo!

PARAMETRIČNI PREIZKUSI ZNAČILNOSTI POTEKAJO VEDNO NA

NASLEDNJI NAČIN:

1. Postavimo ničelno in alternativno hipotezo. Opravka imamo

bodisi z dvostranskim testom

H0 (q=q0) proti H1 (q≠q0)

bodisi z enim od enostranskih testov

H0 (q=q0) oz. H0 (q≤q0) proti H1 (q>q0),

H0 (q=q0) oz. H0 (q≥q0) proti H1 (q<q0).

2. Izberemo stopnjo značilnosti testa α (običajno 0,05 ali 0,01).

3. Glede na velikost vzorca ali obravnavanega problema izberemo primerno testno statistiko U.

4. Glede na porazdelitev statistike U in

parameter α določimo kritično območje testa w0,

to je podmnožica realnih števil izbrana tako, da

je verjetnost dogodka, da ob pravilni hipotezi H0

vrednost testne statistike U leži v njej, manjša

ali enaka α.

5. Izračunamo eksperimentalno vrednost testne

statistike ue. Če ue pripada w0, potem hipotezo

H0 zavrnemo. Če ue ≠w0, potem hipoteze H0 ne

zavrnemo.

KOMENTAR

Če pade izračunana vrednost za testno statistiko

zunaj 95% intervala, potem ničelno hipotezo pri

5% tveganju zavrnemo, čeprav je gotovo, da v 5%

vseh primerov neizbežno pade ven (napaka prve

vrste).

Kritično območje testa

Zakaj ne sprejmemo ničelne hipoteze?

Zagrešimo pa lahko še eno napako, sprejmemo

ničelno hipotezo, ko je napačna. Verjetnost za to

napako ne poznamo. Tej napaki pravimo napaka

druge vrste. To pomeni, da drži ena od

alternativnih hipotez. To pomeni, da naša

izračunana vrednost pripada neki drugi vzorčni

distribuciji.

TESTI, KI JIH BOMO OBRAVNAVALI:

Testiranje hipotetične aritmetične sredine (standardni odklon populacije je znan ali veliki vzorci

Testiranje hipotetične aritmetične sredine (mali vzorci)

Testiranje enakosti dveh aritmetičnih sredin (neodvisni vzorci)

Testiranje enakosti dveh aritmetičnih sredin (odvisni vzorci)

Analiza variance….

TESTIRANJE HIPOTETIČNE ARITMETIČNE

SREDINE (VELIKI VZORCI)

Primer

Stroj polni neko snov v stekleničke in sicer je

norma 50 mg na stekleničko. Zaradi slučajnih

vplivov odmerki nihajo. Privzeti smemo, da so

odmerki porazdeljeni normalno. Če stroj dela v

skladu s predpisi, za maso odmerka velja

Zanima nas ali je M=50mg?

mg)mg,X~N( 550

Izvedemo naslednji postopek. S slučajno izbiro

izberemo določeno število steklenic v kontrolni

vzorec. Naj bo n=25. V vsaki steklenici stehtamo

odmerek in dobimo vzorčno aritmetično sredino .

Formuliramo dve hipotezi:

Ničelna: M=50

Alternativna:M≠50

Privzemimo, da poznamo standardni odklon

populacije =5.

Preizkušanje statističnih domnev izhaja iz

predpostavke, da je ničelna domneva pravilna. Če je

to res je porazdelitev vzorčnih aritmetičnih sredin

v kontrolnih vzorcih velikosti 25 normalna, njeno

povprečje je 50mg, standardni odklon pa .

To porazdelitev imenujemo ničelna porazdelitev. Za

to porazdelitev velja: približno dve tretjini vzorcev

velikosti 25 ima med 49 in 51, približno 95%

vzorcev ima med 48 in 52. Če bi za določen vzorec

dobili 55, bi zagotovo zavrnili ničelno domnevo, ker

izjemno malo tvegamo, ko zavrnemo to hipotezo.

Vnaprej določimo α, imenujemo tudi stopnja

značilnosti. Na osnovi α razdelimo vrednosti

za na dve območji:

Območje, kjer osnovno hipotezo zavrnemo.

Območje, kjer osnovno hipotezo obdržimo.

Vrednost, ki razločuje obe vrednosti se imenuje

kritična vrednost.

H0 obdržimo H0 zavrnemo H0 zavrnemo

Kritična

vrednost

Za naš primer naj bo α=0,05. Kritična vrednost je z=1,96. Torej

ničelno domnevo obdržimo, če je v intervalu 50 1,96∙1mg.

Testno statistiko z izračunamo po formuli (standardizirana

normalna porazdelitev vzorčnih aritmetičnih sredin):

Primer:

Poglejmo podatke iz enega kontrolnega vzorca:

Upoštevajmo, da je =5mg.

61,0 51,2 47,8 49,9 50,3 49,0 50,1 49,9 47,5 51,2

52,1 60,1 46,6 52,1 62,2 54,2 53,1 51,1 49,9 47,9

53,3 53,0 49,0 49,8 50,2

H sprejmemo tveganju 5% pri 96,1

H zavrnemo tveganju 5% pri 96,1

507,51z

Rezultati niso statistično značilni. Ničelne hipoteze ne

moremo zavrniti.

Sedaj pa izhajamo iz dejstva, da standardnega odklona populacije ne poznamo, kar je v bistvu bolj realistično.

Če je vzorec dovolj velik, potem upoštevamo, da je

in postopamo enako kot v prejšnjem primeru (n>100).

Pri malih vzorcih pa z-statistiko nadomesti Studentova t-statistika, ki je porazdeljena po Studentovi porazdelitvi z n-1 stopnjami prostosti.

PRIMER

Za prejšnji primer ocenimo standardni odklon

populacije iz podatkov: s=4,026

Izračunamo testno statistiko

507,51t

0247,4

1979,1624

257,51

Iz tabel odčitamo testno statistiko:

tveganju5% pri 064,2)24(kritt

Sprejmemo alternativno hipotezo. Rezultati so

statistično značilni.

p-vrednost je najmanjša stopnja značilnosti pri

kateri še lahko zavrnemo ničelno hipotezo.

Če je p-vrednost manjša od predpisane α, ničelno

domnevo zavrnemo.

Semenarna zagotavlja, da je kalivost semena

95 %. Z vzorcem velikosti 100 enot smo dobili

povprečno kalivost 94 %. Varianca populacije

znaša 16. Preverite z 1 % tveganjem, če je

trditev semenarne pravilna!

Oglejmo si primer, ko želimo ugotoviti ali imajo v

hlevu s piščanci pasme Hubbard po 21 dneh vzreje

povprečno maso 687 gramov, kot jo za to starost

navaja selektor.

666 859 769

692 492 773

515 822 760

706 669 824

719 608 606

768 592 709

655 624 633

653 678 633

STATISTIKA 5. predavanje · 5. predavanje Doc.dr. Tadeja Kraner Šumenjak. ... kot pod prvo točko,...

Documents

Transcript of STATISTIKA 5. predavanje · 5. predavanje Doc.dr. Tadeja Kraner Šumenjak. ... kot pod prvo točko,...

Predavanje 7

Predavanje show

I PREDAVANJE VI PREDAVANJE

Predavanje Java

AAS Predavanje

CCNA - Predavanje

STATISTIKA 2. predavanjefkbv.um.si/images/stories/matematika/2pred-stat1.pdf · 2012. 3. 27. · STATISTIKA 2. predavanje Doc.dr. Tadeja Kraner Šumenjak. FREKVENČNE PORAZDELITVE

Predavanje - Svitkuvanje

mm- PREDAVANJE

PREDAVANJE RIJEKA

9. predavanje

Predavanje SOK

STATISTIKA 3. predavanjefkbv.um.si/images/stories/matematika/3pred-stat.pdf · 2012. 3. 30. · STATISTIKA 3. predavanje Doc.dr. Tadeja Kraner Šumenjak. SREDNJE VREDNOSTI(MERE CENTRALNE

Predavanje 1

Predavanje I - Uvodno Predavanje Iz Poslovnih Finansija

Predavanje 01

Predavanje III

Predavanje 6

Predavanje UR

Predavanje XII