Post on 16-Jan-2020
PORAZDELITVE VZORČNIH
STATISTIK
Imejmo vzorec velikosti n. Na tem vzorcu ima
spremenljivka X vrednosti: x1, x2,…, xn.
Vzorčna statistika je poljubna funkcija
vzorčnih vrednosti f(x1, x2,…, xn). Poznamo veliko
vzorčnih statistik: kvantili, mere sredine, mere
variabilnosti.
Nekatere vzorčne statistike so zelo pomembne.
X je številska statistična spremenljivka, za katero sta
najpomembnejši vzorčni statistiki:
Vzorčna aritmetična sredina:
Vzorčni standardni odklon:
1
1 n
i
i
x xn
2 2
1
1( )
1 1
n
i
i
ns x x
n n
Če za X privzamemo normalno porazdelitev
N(M, ), je ocena za M, s pa ocena za σ. To
spoznanje posreduje matematična statistika.
Posebno vlogo pri statističnem sklepanju ima z-
statistika
in t-statistika, ki je znana pod imenom
Studentova statistika
x
x Mz
n
x Mt
s
n
Spomnimo se populacije vseh vzorcev velikosti n,
vemo da je ta številka lahko ogromna. Na vsakem
od teh vzorcev ima vzorčna statistika svojo
vrednost.
Vzorčni statistiki u priredimo slučajno
spremenljivko U, njeno poznavanje je potrebno
za sklepanje iz vzorca na populacijo.
Pogledali bomo verjetnostno porazdelitev za
nekaj najpomembnejših vzorčnih statistik.
Porazdelitev vzorčnih aritmetičnih
sredin
IZREK
Če je slučajna spremenljivka X na populaciji
porazdeljena N(M,σ), potem je slučajna
spremenljivka na populaciji vseh vzorcev
velikosti n porazdeljena .
OPOMBA: ta izrek velja, ko gre za vzorčenje z
vračanjem enot. Razlika pa je zanemarljiva,če je
populacija zelo velika, zato v praksi ne ločujemo.
X
( , )N Mn
Izrek nam pove, da so tudi aritmetične sredine vzorcev
z n elementi porazdeljene normalno. Ob tem sta
aritmetična sredina osnovne množice in aritmetična
sredina aritmetičnih sredin vzorcev enaki. Standardni
odklon porazdelitve aritmetičnih sredin je enak
kvocientu standardnega odklona osnovne statistične
množice in korena iz števila enot v vzorcu.
CENTRALNI LIMITNI IZREK
Slučajna spremenljivka se pri velikih vzorcih porazdeljuje
približno normalno tudi tedaj, ko verjetnostna porazdelitev
slučajne spremenljivke X na osnovni populaciji ni normalna.
Centralni limitni izrek lahko uporabimo v praksi, če je velikost
vzorca večja od 30.
X
Primer
Psihologi trdijo, da je v populaciji IQ porazdeljen normalno
N(100,15).
Tvorimo vzorce velikosti 4. Potem velja IQ (100,7,5).
115 100( 115) ( ) ( 2) 0,0228
7,5
2,3% vzorcev velikosti 4 ima vzorčno aritmetično sredino nad 115.
Tvorimo vzorce velikosti 25 in si zastavim
N
P IQ P Z P Z
o enako vprašanje.
Primer
Iz populacije, ki je normalno porazdeljena M=50 in σ=10 so
vzorčili vzorce velikosti n=25. Pri kolikšnem odstotku vzorcev
lahko pričakujemo vrednosti aritmetičnih sredin med 48,2 in
51,7? V katerih mejah je 90 % vseh vrednosti?
Porazdelitev t-statistik
Spoznali smo že dejstvo: če je ( , ), je ( , ).
XPosledično je spremenljivka Z= (0,1).
Če poznamo oba parametra normalne porazdelitve M in , iz vzorca velikosti
izračunamo x in nato vredno
X N M X N Mn
MN
n
n
st z-statistike:
x Z= .
M
n
Angleški statistik W. Gosset, znan pod psevdonimom Student,
je v izrazu za z nadomestil parameter z njegovo vzorčno
oceno s in tako opredelil -statistiko:
x.
Ugotovil je, da se pri majhnih vzor
t
Mt
s
n
cih verjetnostna porazdelitev
t-statistike bistveno loči od standardizirane normalne porazdelitve,
pri velikih vzorcih pa je ta porazdelitev zelo blizu standardizirane
normalne porazdelitve.
Izrek Na populaciji vzorcev velikosti je slučajna spremenljivka
porazdeljena po Studentovi porazdelitvi z n-1 prostostnimi stopnjami.
Zapišemo T ( 1).
n
X MT
S
n
t SP n
Lastnosti
Gostota verjetnosti za t-porazdelitev je po obliki
podobna gostoti verjetnosti za N(0,1). Funkcija je
zvezna, definirana na celotni realni osi. Je
simetrična okoli 0.
Parameter imenujemo stopnje prostosti, ki
določajo njeno obliko.
V limiti je Studentova porazdelitev enaka
standardizirani normalni porazdelitvi.
Porazdelitev vzorčnih varianc
2
2 2
1
2
Naj bo ( , ). Zamislimo si, da na vsakem vzorcu
velikosti izračunamo vzorčno varianco :
1( ) .
1
Vsak vzorec generira svojo vrednost. Tem vrednostim
priredimo slučajno spremenljivko S .
n
i
i
X N M
n s
s x xn
Zanima nas njena
verjetnostna porazdelitev.
Izrek
Slučajna spremenljivka X je porazdeljena normalno
s povprečno vrednostjo M in standardnim odklonom
σ. Na populaciji vzorcev velikosti n je porazdelitev za
S2 podana s -porazdelitvijo z n-1 prostostnimi
stopnjami:
2
2 2
2
1( 1)
nS SP n
Lastnosti
Je zvezna porazdelitev, definirana na pozitivnem
delu realne osi.
Stopnje prostosti določajo obliko porazdelitve. Za
SP=1 in SP=2 ima posebno obliko.
Ko je SP majhno število, je porazdelitev
asimetrična v desno, ko se SP povečuje, se
asimetrija zmanjšuje.
S povečevanjem SP(gre proti neskončno), postaja
čedalje bolj podobna normalni porazdelitvi
N(SP,SP0.5).
F-porazdelitev
Naj bosta X in Y neodvisni spremenljivki. Če je
spremenljivka X porazdeljena po zakonu 2(m) in
spremenljivka Y porazdeljena po zakonu 2(n),
je slučajna spremenljivka
ZnX
mY
porazdeljena po zakonu F(m, n).
Porazdelitev F(m, n) je določena z dvema prostostnima
stopnjama m in n.
Glivenkov izrek: Porazdelitvena funkcija vzorca
z naraščanjem števila enot v vzorcu z verjetnostjo
1 konvergira k porazdelitveni funkciji osnovne
statistične množice.
Navedeni izrek nam pove, da čim večje je število enot v
vzorcu, bolj je frekvenčna porazdelitev vzorca podobna
frekvenčni porazdelitvi osnovne statistične množice.
Zato se bosta pri dovolj velikem številu enot v vzorcu (n
je vsaj 100) aritmetična sredina in standardni odklon
vzorca le malo razlikovala od aritmetične sredine in
standardnega odklona celotne množice.
S pomočjo dosedanjih ugotovitev določimo z vzorcem n
enot aritmetično sredino osnovne statistične množice.
To lahko naredimo na dva načina in sicer na osnovi:
•točkovne ocene
•intervalne ocene
•Za točkovno oceno je zaželena nepristranskost.
Ocena je nepristranska, če je povprečje vseh vzorčnih
ocen enako ocenjevanemu parametru. Zato je
je nepristranska ocena za M
je nepristranska ocena za
x
s
Intervalna ocena parametra
Intervalna ocena parametra je t.i. interval zaupanja. To je
slučajni interval, vezan na pripadajoči slučajni vzorec.
Definicija:
1 2
1 2
Naj označuje parameter, ki ga ocenjujemo, vrednost
je vnaprej predpisana verjetnost, 0< 1. Interval (L , )
imenujemo interval zaupanja za parameter , če velja:
P(L < ) 1 .
L
L
V našem primeru
bo to M.
Komentar
Standardne vrednosti, ki jih uporabljamo za
verjetnost α, so: 0,05, 0,01 ali 0,001. Verjetnost
1- α imenujemo zaupanje. Običajno zaupanje
izražamo v %, govorimo npr. o 95% zaupanju.
L1 oz. L2 je spodnja oz. zgornja meja intervala
zaupanja, L1 oz. L2 sta slučajni spremenljivki.
Pri vsakem vzorcu imata drugo vrednost. Vsak
slučajni vzorec generira svoj interval
zaupanja (l1,l2).
V populaciji vseh vzorcev velikosti n je odstotek
intervalov, ki vsebujejo parameter Θ, enak
100(1-α).
Za posamezni interval zaupanja ne vemo, ali je
parameter Θ vsebovan v tem intervalu ali ne.
Trdimo lahko, da je ta interval z verjetnostjo (1-α)
eden tistih, ki vsebujejo parameter Θ.
INTERVAL ZAUPANJA ZA POVPREČNO
VREDNOST
Ločimo:
Osnovna statistična množica porazdeljena
normalno po zakonu N(M, ) in je znana.
Osnovna statistična množica porazdeljena
normalno po zakonu N(M, ) in ni znana.
Veliki vzorci.
•Ta situacija v praksi le redko nastopa, vendar je
zaradi konstrukcije intervala zaupanja najlažja.
•Izpeljava temelji
N(M, ) in je znana
2 2
Spoznali smo že dejstvo: če je ( , ), je ( , ).
XPosledično je spremenljivka Z= (0,1).
( ) 1
X N M X N Mn
MN
n
P z Z z
Z=1,96 pri 5% tveganju
Stopnja Delež v celotni populaciji
tveganja obeh osenčenih
delov
samo enega osenčenega
dela
5 % 0,05 0,025
1 % 0,01 0,005
0,01 % 0,001 0,0005
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
x
p(x)
Porazdelitev aritmetičnih sredin
vzorcev.
Pri 5 % tveganju ena osenčena površina
0,025-ti del celotne površine.
Če iščemo 95% interval zaupanja za aritmetično
sredino populacije, tedaj s pomočjo tabel za
standardizirano normalno porazdelitev, določimo
vrednost za Z tako, da bo veljalo:
H(Z)=0,475
Z=1,96
Interval je z verjetnostjo 0,95 eden tistih, ki vsebuje
povprečno vrednost celotne populacije.
x
nM x
n196 196, , 5% tveganje
Če iščemo 99% interval zaupanja za aritmetično
sredino populacije, tedaj s pomočjo tabel za
standardizirano normalno porazdelitev, določimo
vrednost za Z tako, da bo veljalo:
H(Z)=0,495
Z=2,58
pri 1% tveganju
nxM
nx 58,258,2
Če iščemo 99,9% interval zaupanja za aritmetično
sredino populacije, tedaj s pomočjo tabel za
standardizirano normalno porazdelitev, določimo
vrednost za Z tako, da bo veljalo:
H(Z)=0,4995
Z=3,29
pri 0,1% tveganju
nxM
nx 29,329,3
Primer
Izračunajmo 90% in 95% interval zaupanja za
povprečno maso zdravila v stekleničkah, pri čemer
je
1, 9 in 10,5.n x
N(M, ) in ni znana
Standardni odklon ni podan, ampak ga ocenimo
iz podatkov. Interval zaupanja izpeljemo enako
kot pod prvo točko, le da standardizirano
normalno porazdelitev nadomesti Studentova
porazdelitev z n-1 prostostnimi stopnjami:
2 2
s sx t M x t
n n
Odčitaš pri (n-1) prostostnih
stopnjah.
Veliki vzorci
Če so vzorci tako veliki, da velja centralni limitni
izrek, izračunamo interval zaupanja za
povprečno vrednost takole
2 2
s sx z M x z
n n
PRIMER
Denimo, da želimo ugotoviti, s 5 % tveganjem,
povprečno maso 21 dni starih piščancev. V ta
namen smo, namesto vseh piščancev, stehtali
vzorec 105 piščancev in dobili frekvenčno
porazdelitev mas prikazano v preglednici:
Masa piščancev (g) Število piščancev
nad 550 do 580 2
nad 580 do 610 8
nad 610 do 640 8
nad 640 do 670 18
nad 670 do 700 16
nad 700 do 730 20
nad 730 do 760 20
nad 760 do 790 8
nad 790 do 820 5
Masa piščancev (g) fk xk fkxk f xk k
2
nad 550 do 580 2 565 1130 638450
nad 580 do 610 8 595 4760 2832200
nad 610 do 640 8 625 5000 3125000
nad 640 do 670 18 655 11790 7722450
nad 670 do 700 16 685 10960 7507600
nad 700 do 730 20 715 14300 10224500
nad 730 do 760 20 745 14900 11100500
nad 760 do 790 8 775 6200 4805000
nad 790 do 820 5 805 4025 3240125
Skupaj 105 73065 51195825
x
nf xk k
1 73065
105695 86,
95,57
15,335886,695105
511958251
2
2222
ss
xxfn
s kk
xs
nM x
s
n196 196, ,
105
95,5796,186,695
105
95,5796,186,695 M
Primer
Izračunajmo 95% in 99% interval zaupanja za
povprečno oceno na kolokviju.
Dani so rezultati za vzorec:
12,45,23, 67, 68,90, 34,0, 45,77.
Primer
Z vzorcem 150 zabojev smo dobili naslednje podatke:
Z 1 % tveganjem ocenite povprečni procent gnilega sadja v
osnovni množici. Pri tem predpostavite, da je standardni
odklon osnovne množice enak standardnemu odklonu
vzorca. Nalogo rešite tudi brez te predpostavke. Narišite
še gornjo frekvenčno porazdelitev!
% gnilega sadja število zabojev
do 1
nad 1 do 3
nad 3 do 6
nad 6 do 10
nad 10 do 15
59
43
26
17
5
SKLEPI
Na širino intervala vpliva:
-zaupanje
-variabilnost proučevane spremenljivke, ki jo
izraža s
-število enot v vzorcu
Če želimo, da se širina prepolovi moramo, moramo
zvečati število enot v vzorcu vsaj za 4-krat.
V izrazu za odklon je izraz
s
nStandardna
napaka ocene.
PARAMETRIČNI PREIZKUSI ZNAČILNOSTI
Parametrični preizkusi značilnosti so
namenjeni testiranju parametričnih hipotez,
to je domnev o vrednosti neznanih parametrov
statistične spremenljivke X. Na primer praviloma
testiramo ničelno hipotezo H0, ki pravi, da je
parameter q=q0, proti alternativni hipotezi H1, ki
pravi q≠q0 , na stopnji značilnosti testa α. Na
osnovi tega pri preizkusu značilnosti ničelno
hipotezo H0:
bodisi zavrnemo,
bodisi ne zavrnemo.
V prvem primeru rečemo, da med hipotetičnimi in eksperimentalnimi podatki obstaja značilna razlika (ali razlika je signifikantna) in hipotezo H0 zavrnemo.
V drugem primeru pa razlika med hipotetičnimi in eksperimentalnimi vrednostmi ni značilna oz. ni statistično pomembna, zato hipoteze H0 ne zavrnemo.
Pri testu značilnosti lahko naredimo samo t.i. napako prve vrste, to pomeni, da smo zavrnili pravilno hipotezo H0. Verjetnost za to napako je predpisana, s stopnjo značilnosti α in znaša običajno 0,05 ali 0,01.
ZAPOMNI SI:
Pri preizkusu značilnosti H0 proti H1 , ničelno
hipotezo H0 ali zavrnemo (torej sprejmemo H1) ali o
njej ne odločimo!
PARAMETRIČNI PREIZKUSI ZNAČILNOSTI POTEKAJO VEDNO NA
NASLEDNJI NAČIN:
1. Postavimo ničelno in alternativno hipotezo. Opravka imamo
bodisi z dvostranskim testom
H0 (q=q0) proti H1 (q≠q0)
bodisi z enim od enostranskih testov
H0 (q=q0) oz. H0 (q≤q0) proti H1 (q>q0),
H0 (q=q0) oz. H0 (q≥q0) proti H1 (q<q0).
2. Izberemo stopnjo značilnosti testa α (običajno 0,05 ali 0,01).
3. Glede na velikost vzorca ali obravnavanega problema izberemo primerno testno statistiko U.
4. Glede na porazdelitev statistike U in
parameter α določimo kritično območje testa w0,
to je podmnožica realnih števil izbrana tako, da
je verjetnost dogodka, da ob pravilni hipotezi H0
vrednost testne statistike U leži v njej, manjša
ali enaka α.
5. Izračunamo eksperimentalno vrednost testne
statistike ue. Če ue pripada w0, potem hipotezo
H0 zavrnemo. Če ue ≠w0, potem hipoteze H0 ne
zavrnemo.
KOMENTAR
Če pade izračunana vrednost za testno statistiko
zunaj 95% intervala, potem ničelno hipotezo pri
5% tveganju zavrnemo, čeprav je gotovo, da v 5%
vseh primerov neizbežno pade ven (napaka prve
vrste).
Kritično območje testa
Zakaj ne sprejmemo ničelne hipoteze?
Zagrešimo pa lahko še eno napako, sprejmemo
ničelno hipotezo, ko je napačna. Verjetnost za to
napako ne poznamo. Tej napaki pravimo napaka
druge vrste. To pomeni, da drži ena od
alternativnih hipotez. To pomeni, da naša
izračunana vrednost pripada neki drugi vzorčni
distribuciji.
TESTI, KI JIH BOMO OBRAVNAVALI:
Testiranje hipotetične aritmetične sredine (standardni odklon populacije je znan ali veliki vzorci
Testiranje hipotetične aritmetične sredine (mali vzorci)
Testiranje enakosti dveh aritmetičnih sredin (neodvisni vzorci)
Testiranje enakosti dveh aritmetičnih sredin (odvisni vzorci)
Analiza variance….
)s
TESTIRANJE HIPOTETIČNE ARITMETIČNE
SREDINE (VELIKI VZORCI)
Primer
Stroj polni neko snov v stekleničke in sicer je
norma 50 mg na stekleničko. Zaradi slučajnih
vplivov odmerki nihajo. Privzeti smemo, da so
odmerki porazdeljeni normalno. Če stroj dela v
skladu s predpisi, za maso odmerka velja
Zanima nas ali je M=50mg?
mg)mg,X~N( 550
Izvedemo naslednji postopek. S slučajno izbiro
izberemo določeno število steklenic v kontrolni
vzorec. Naj bo n=25. V vsaki steklenici stehtamo
odmerek in dobimo vzorčno aritmetično sredino .
Formuliramo dve hipotezi:
Ničelna: M=50
Alternativna:M≠50
Privzemimo, da poznamo standardni odklon
populacije =5.
x
H
H
MMH
MMH
:
:
1
0
Preizkušanje statističnih domnev izhaja iz
predpostavke, da je ničelna domneva pravilna. Če je
to res je porazdelitev vzorčnih aritmetičnih sredin
v kontrolnih vzorcih velikosti 25 normalna, njeno
povprečje je 50mg, standardni odklon pa .
To porazdelitev imenujemo ničelna porazdelitev. Za
to porazdelitev velja: približno dve tretjini vzorcev
velikosti 25 ima med 49 in 51, približno 95%
vzorcev ima med 48 in 52. Če bi za določen vzorec
dobili 55, bi zagotovo zavrnili ničelno domnevo, ker
izjemno malo tvegamo, ko zavrnemo to hipotezo.
x
125
5
n
x
x
Vnaprej določimo α, imenujemo tudi stopnja
značilnosti. Na osnovi α razdelimo vrednosti
za na dve območji:
Območje, kjer osnovno hipotezo zavrnemo.
Območje, kjer osnovno hipotezo obdržimo.
Vrednost, ki razločuje obe vrednosti se imenuje
kritična vrednost.
x
n
Mxz H
H0 obdržimo H0 zavrnemo H0 zavrnemo
Kritična
vrednost
Za naš primer naj bo α=0,05. Kritična vrednost je z=1,96. Torej
ničelno domnevo obdržimo, če je v intervalu 50 1,96∙1mg.
Testno statistiko z izračunamo po formuli (standardizirana
normalna porazdelitev vzorčnih aritmetičnih sredin):
x
Primer:
Poglejmo podatke iz enega kontrolnega vzorca:
Upoštevajmo, da je =5mg.
61,0 51,2 47,8 49,9 50,3 49,0 50,1 49,9 47,5 51,2
52,1 60,1 46,6 52,1 62,2 54,2 53,1 51,1 49,9 47,9
53,3 53,0 49,0 49,8 50,2
1
1
H sprejmemo tveganju 5% pri 96,1
H zavrnemo tveganju 5% pri 96,1
z
z
7,1
25
5
507,51z
Rezultati niso statistično značilni. Ničelne hipoteze ne
moremo zavrniti.
Sedaj pa izhajamo iz dejstva, da standardnega odklona populacije ne poznamo, kar je v bistvu bolj realistično.
Če je vzorec dovolj velik, potem upoštevamo, da je
in postopamo enako kot v prejšnjem primeru (n>100).
Pri malih vzorcih pa z-statistiko nadomesti Studentova t-statistika, ki je porazdeljena po Studentovi porazdelitvi z n-1 stopnjami prostosti.
s
n
s
Mxt H
PRIMER
Za prejšnji primer ocenimo standardni odklon
populacije iz podatkov: s=4,026
Izračunamo testno statistiko
112,2
25
026,4
507,51t
0247,4
1979,1624
257,51
24
67211
67211
22
2
s
s
xi
Iz tabel odčitamo testno statistiko:
tveganju5% pri 064,2)24(kritt
Sprejmemo alternativno hipotezo. Rezultati so
statistično značilni.
p-vrednost je najmanjša stopnja značilnosti pri
kateri še lahko zavrnemo ničelno hipotezo.
Če je p-vrednost manjša od predpisane α, ničelno
domnevo zavrnemo.
Semenarna zagotavlja, da je kalivost semena
95 %. Z vzorcem velikosti 100 enot smo dobili
povprečno kalivost 94 %. Varianca populacije
znaša 16. Preverite z 1 % tveganjem, če je
trditev semenarne pravilna!