Wzorcowy program studiów licencjackich kierunku Informatyka ...
STATYSTYKA - Kolegiakolegia.sgh.waw.pl/pl/KAE/struktura/ISiD/Documents/WZORY.pdf · STATYSTYKA...
Transcript of STATYSTYKA - Kolegiakolegia.sgh.waw.pl/pl/KAE/struktura/ISiD/Documents/WZORY.pdf · STATYSTYKA...
1
STATYSTYKA
PODSTAWOWE WZORY DOZWOLONE
NA EGZAMINIE NA STUDIACH LICENCJACKICH
Opracowanie przygotowane przez dr Marię Wieczorek na podstawie:
1. P. Kuszewski, J. Podgórski: Statystyka. Wzory i tablice. SGH, Warszawa, 2008
2. M. Wieczorek: Statystyka. Lubię to! Zbiór zadań. SGH, Warszawa 2013
2
1. Statystyki opisowe rozkładu empirycznego
Dystrybuanta empiryczna
dla x < x1
Fn(x) =
i
s
sw1
dla 1 ii xxx i=1,2,…k-1
1 dla kxx
Średnia arytmetyczna
n
j
jxn
x1
1
k
i
iinxn
x1
1=
i
k
i
iwx1
i
k
i
inxn
x
1
1 =
i
k
i
i wx1
Mediana
parzystengdy
xx
enieparzystngdyx
me nn
n
2
2
2
2
2
1
m
m
mnm
m
m
mmw
hxFx
n
hxn
nxme
0000
2
1
2
Kwantyl rzędu p
p
p
pnppw
hxFpxk 00
Wariancja:
obciążona
n
j
j
n
j
j xnxn
xxn
s1
22
1
22 11
3
k
i
ii
k
i
ii xnnxn
nxxn
s1
22
1
22 11
k
i
ii
k
i
ii xwxwxxs1
22
1
22
nieobciążona
n
j
j
n
j
j xnxn
xxn
s1
22
1
22
1
1
1
1
k
i
ii
k
i
ii xnnxn
nxxn
s1
22
1
22
1
1
1
1
Odchylenie standardowe
2ss
Współczynnik zmienności
%)100(x
sV
Rozstęp
minmax xx
Rozstęp ćwiartkowy
13 QQ
Odchylenie ćwiartkowe
2
13 QQQ
Współczynnik zmienności (pozycyjny)
%100me
QV
Współczynnik asymetrii
3
'
3
s
MA gdzie trzeci moment centralny:
n
j
j xxn
M1
3'
3
1
lub
k
i
ii nxxn
M1
3'
3
1
4
2. Rozkład zmiennej losowej
Funkcja prawdopodobieństwa zmiennej losowej skokowej X
P(X = xi) = pi i=1,2,…. przy czym 1i
ip
Dystrybuanta zmiennej losowej skokowej X
xpxFxx
i
i
)(
Wartość oczekiwana zmiennej losowej skokowej X
i
ii pxXE )(
Wariancja zmiennej losowej
D2(X) = E[X - E(X)]
2 = E(X
2) – [E(X)]
2
Wariancja zmiennej losowej skokowej X
2222 )()()( XEpxpXExXD i
i
ii
i
i
Standaryzacja zmiennej losowej X
)(
)(
XD
XEXU
5
3. Wybrane typy rozkładów
Rozkład zero-jedynkowy (dwupunktowy)
P (X = 1) = p
P(X = 0) = 1-p
przy czym: pXE )( ; )1()( ppXD
Rozkład dwumianowy
liczby sukcesów: k= 0, 1, 2,….n
przy czym: npXE )( ; )1()( pnpXD
częstości sukcesów: k= 0, 1, 2,….n
przy czym: pWE )( ; n
ppWD
)1()(
Rozkład normalny N(m,σ)
2
2
2
2
1)(
mx
exf
x
przy czym: E(X) = m; D(X) = σ
Rozkład normalny standardowy N(0,1)
2
2
2
1)(
u
euf
u
przy czym: E(U)=0; D(U) = 1
knk ppk
nkXP
)1()(
knk ppk
n
n
kWP
)1(
6
4. Rozkłady statystyk z próby
Założenia Wielkość
próby Rozkład statystyki
Rozkłady dokładne średniej arytmetycznej z próby
X: N(m, σ)
σ ‒ znane
próba
dowolna
X: N(m, σ)
σ ‒ nieznane
próba mała
n ≤ 30
t; v = n ‒ 1
Rozkłady dokładne różnicy średnich z dwóch prób
X1: N(m1, σ1)
X2: N(m2, σ2)
σ1, σ2 ‒ znane
próby
dowolne
X1: N(m1, σ)
X2: N(m2, σ)
σ ‒ nieznane, ale jednakowe
próby małe
t; v = n1 + n2 ‒ 2
Rozkłady graniczne: średniej, różnicy średnich, częstości, różnicy częstości
X ma dowolny rozkład (niekoniecznie
normalny) ze średnią m i odchyleniem
standardowym σ.
próba duża
X1 i X2 mają dowolne rozkłady
(niekoniecznie normalne) z parametrami
odpowiednio m1 i σ1 oraz m2 i σ2.
próby duże
n
i
i XXn
s
gdzie
ns
mXt
1
22 )(1
1
2
2
2
1
2
12121 ,:
nnmmNXX
2
)1()1(
)11
(
)()(
21
2
22
2
112
21
2
2121
nn
snsns
gdzie
nns
mmXXt
p
p
nmNX
,:
nmNasX
,.:
2
2
2
1
2
12121 ,.:
nnmmNasXX
7
Populacja ma rozkład zero-jedynkowya; X
ma rozkład dwumianowy z parametrami n i
p.
próba duża
n ≥ 100
Populacje zero-jedynkowe; X1 i X2 mają
rozkłady dwumianowe z parametrami
odpowiednio n1 i p1 oraz n2 i p2.
próby duże
a Z populacji o rozkładzie zero-jedynkowym losujemy niezależnie n elementów. X ‒ liczba elementów wyróżnionych w
próbie.
n
pppNasW
)1(,.:
n
ppWDpWE
n
XW
)1()()(
2
22
1
112121
)1()1(,:
n
pp
n
ppppasNWW
2
2
1
121
n
X
n
XWW
8
5. Przedziały ufności
Założenia Wielkość
próby Przedział ufności Współczynnik ufności
Przedział ufności dla średniej m
Populacja
normalna
X: N(m, σ)
m ‒ nieznane
σ – znane
próba
dowolna
1
nuXm
nuXP
P(‒uα < U < uα) = 1 ‒ α
tzn.
P(│U│ ≥ uα) = α
Populacja
normalna
X: N(m, σ)
m, σ –
nieznane
próba
mała
n ≤ 30
11,1,
n
stXm
n
stXP nn
P(‒tα,n ‒ 1 < t < tα,n‒1) = 1
‒ α
tzn.
P(│t│ ≥ tα,n‒1) = α
Populacja o
dowolnym
rozkładzie
m i σ –
nieznane
próba
duża
n > 30
1
n
suXm
n
suXP
P(‒uα < U < uα) = 1 ‒ α
tzn.
P(│U│ ≥ uα) = α
Przedział ufności dla parametru p w zero-jedynkowym rozkładzie populacji
Populacja o
rozkładzie
zero-
jedynkowym
p ‒ nieznane
próba
duża
n ≥ 100
1
)ˆ1(ˆˆ
)ˆ1(ˆˆ
n
ppupp
n
ppupP
P(‒uα < U < uα) = 1 ‒ α
tzn.
P(│U│ ≥ uα) = α
Minimalna liczebność próby przy szacowaniu m
2
22
d
un
d - dopuszczalny maksymalny błąd szacunku
Minimalna liczebność próby przy szacowaniu p
2
2 )1(
d
ppun
d – dopuszczalny, maksymalny błąd szacunku
9
6. Testowanie hipotez statystycznych
Testy istotności
Hipoteza
zerowa Założenia
Wielkość
próby Statystyka testująca i jej rozkład
H0: m = m0 populacja normalna
X: N(m, σ)
σ ‒ znane
próba
dowolna
N(0, 1)
populacja normalna
X: N(m, σ)
σ ‒ nieznane
próba mała
n ≤ 30
t; v = n ‒ 1
populacja normalna
X: N(m, σ)
σ ‒ nieznane
lub
dowolny (nieznany)
rozkład populacji
próba duża
n > 30
as. N(0, 1)
H0: m1 = m2 populacje normalne
X1: N(m1, σ1)
X2: N(m2, σ2)
σ1, σ2 ‒ znane
próby
dowolne
N(0, 1)
populacje normalne
X1: N(m1, σ1)
X2: N(m2, σ2)
σ1, σ2 ‒ nieznane, ale
jednakowe
próby małe
t; v = n1 + n2 ‒ 2
populacje normalne
X1: N(m1, σ1)
X2: N(m2, σ2)
σ1, σ2 ‒ nieznane
lub dowolne (nieznane)
rozkłady populacji
próby duże
as. N(0, 1)
H0: mR = m0 próby zależne
różnice Ri mają rozkład
normalny
σR ‒ nieznane
próby
dowolne
t; v = n ‒ 1
gdzie:
nmX
U
0
ns
mXt 0
ns
mXU 0
2
2
2
1
2
1
21
nn
XXU
2
11
11
21
2
22
2
112
21
2
21
nn
snsnsgdzie
nns
XXt
p
p
2
2
2
1
2
1
21
n
s
n
s
XXU
n
i
iR
n
i
ii
n
i
i
RRn
sn
XX
n
R
R1
221
21
1
1
1)(
ns
mRt
R
0
10
H0: p = p0 populacja o rozkładzie
zero-jedynkowym
próba duża
n > 100
as. N(0, 1)
gdzie:
H0: p1 = p2 populacje o rozkładzie
zero-jedynkowym
próby duże
as. N(0, 1)
gdzie:
H0: σ2 = σ0
2
H1: σ2 > σ0
2
populacja normalna
parametry nieznane
próba
dowolna
Χ2; v = n ‒ 1
lub
gdzie: s2 ‒ wariancja nieobciążona
2 ‒ wariancja obciążona
H0: σ12
= σ22
H1: σ12
> σ22
populacje normalne
parametry nieznane
próby
dowolne
F; v1 = n1 ‒ 1 (st. sw. licznika)
v2 = n2 ‒ 1 (st. sw. mianow.)
lub 1~
1~
2
2
22
1
2
11
nsn
nsnF
gdzie: s12 i s2
2 ‒ wariancje nieobciążone
12 i 2
2 ‒ wariancje obciążone
Test zgodności
χ2=
r
I i
iir
I i
ii
np
npn
n
nn
1
2
1
2 )(
ˆ
)ˆ( v= r – k - 1
n
pp
ppU
00
0
1
ˆ
21
21
11)ˆ1(ˆ
ˆˆ
nnpp
ppU
21
21ˆnn
XXp
2
22
1
11
ˆˆn
Xp
n
Xp
n
Xp ˆ
2
0
22 )1(
sn
2
0
22
~
sn
2
2
2
1
s
sF
11
7. Analiza wariancji
H0: m1 = m2 =…. = mr
H1: mi ≠ mj dla co najmniej jednej pary i , j
Średnia ogólna
Średnia grupowa
SKC = SKW + SKM
v1 = r - 1 ; v2 = n - r
Obszar krytyczny: P( F ≥ Fα ) = α
i
i
n
k
ki
i
i
r
i
ii
r
i
n
k
ki
yn
y
nyn
yn
y
1
11 1
1
11
211 1
2
1 1
2yynyyyy i
r
i
i
r
i
n
k
iki
r
i
n
k
ki
ii
2
2
w
m
s
sF
rn
SKWsoraz
r
SKMs wm
22
1
12
8. Zmienna losowa dwuwymiarowa
Funkcja prawdopodobieństwa zmiennej losowej (X,Y)
),( jiij yYxXPp i,j =1,2, …. przy czym 1i j
ijp
Funkcja prawdopodobieństwa rozkładu brzegowego zmiennej losowej X
)( i
j
iji xXPpp i=1,2,… przy czym 1
i
ip
Funkcja prawdopodobieństwa rozkładu brzegowego zmiennej losowej Y
)( j
i
ijj yYPpp j=1,2,… przy czym 1
j
jp
Funkcja prawdopodobieństwa rozkładu warunkowego zmiennej losowej X
j
ij
jip
pyYxXP
)|( i,j = 1,.2,….
Funkcja prawdopodobieństwa rozkładu warunkowego zmiennej losowej Y
i
ij
ijp
pxXyYP )|( i,j = 1,.2,….
Warunek niezależności zmiennych losowych skokowych X i Y
jiij ppp dla wszystkich par i, j
Kowariancja zmiennych losowych X i Y
)()(),cov( YEYXEXEYX
Kowariancja zmiennych losowych skokowych X i Y
ijj
i j
i pYEyXExYX )()(),cov(
Współczynnik korelacji zmiennych losowych X i Y
)()(
),cov(
YDXD
YX
13
9. Badanie zależności dwóch cech
Rozkłady brzegowe
Średnie
Wariancje
Rozkłady warunkowe
Średnie
Wariancje
Średnie ogólne (brzegowe) wyliczone ze średnich warunkowych
n
nx
x
l
j
jj
1
n
ny
y
k
i
ii
1
Kowariancja
dane indywidualne:
n
i
iii
n
i
ixy yxnyxn
yyxxn
c11 1
1
1
1
k
i
jjiji
jj
i
ijji
xj xnnxnn
nxx
s1
22
2
2
1
1
1
l
j
iiijj
ii
j
ijij
yi ynnynn
nyy
s1
22
2
2
1
1
1
j
k
i
iji
jn
nx
x
1
i
l
j
ijj
in
ny
y1
n
nx
x
k
i
ii
1
n
ny
y
l
j
jj
1
k
i
ii
k
i
ii
x xnnxnn
nxx
s1
221
2
2
1
1
1
l
j
jj
l
j
jj
y ynnynn
nyy
s1
221
2
2
1
1
1
14
dane pogrupowane w tablicy korelacyjnej:
Test niezależności
k
i ij
ijijl
j n
nn
1
2
1
2
ˆ
)ˆ( v=(k-1)(l-1)
Współczynnik zbieżności V-Cramera
1)-n(m
2V gdzie m=min(k,l)
Współczynnik korelacji liniowej Pearsona
Test na nieskorelowanie zmiennych
21 2
nr
rt v=n-2
Współczynnik korelacji rang Spearmana
)1(
6
12
1
2
nn
d
r
n
i
i
d
yx
xy
xyyxss
crr
k
i
l
j
ijjiijj
k
i
l
j
ixy yxnnyxn
nyyxxn
c1 11 1 1
1
1
1
15
10. Klasyczny model regresji liniowej
Y = E(Y|X = xi)+εi = αxi + β + εi i=1,2,…n
gdzie:
E(εi ) = 0
D2(εi )=E(εi
2)=σ
2
cov(εi,εj)=0 dla i≠j
εi : N(0,σ)
Funkcja regresji liniowej: ˆˆˆ ii xy
Parametry strukturalne:
Parametry stochastyczne
a) Wariancja i odchylenie standardowe składnika resztowego
ei = yi - i - reszty
yi – wartości empiryczne
i =α xi+ - wartości teoretyczne
b) Standardowe błędy ocen parametrów:
x
y
xyx
xy
n
i
i
n
i
ii
n
i
n
i
i
i
n
i
i
n
i
in
i
ii
s
sr
s
c
xx
yyxx
n
x
x
n
yx
yx
2
1
2
1
1
2
12
11
1̂
xy ˆˆ
2
1
2
2
n
e
s
n
i
i
e
2
ee ss
2
2
1
2
12
2
1
2
2
ˆ)1(
)( x
e
n
i
n
i
i
i
e
n
i
i
e
sn
s
n
x
x
s
xx
ss
2
1
22
1
2
1
2
1
22
1
2
1
22
ˆ)1( x
n
i
ie
n
i
n
i
ii
n
i
ie
n
i
i
n
i
ie
snn
xs
xxn
xs
xxn
xs
s
16
Współczynnik determinacji:
2
2
1
2
1
2
1
2
1
2
1
2
1
2
2
)1(
)2(11
ˆ
1
ˆ
y
e
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
sn
sn
yy
e
yy
yy
yy
yy
r
Przedział ufności dla α
1)ˆˆ( ˆ2,ˆ2, ststP nn
Test dla hipotezy H0: α = α0
ˆ
0ˆ
st
, v=n-2
Test dla hipotezy H0: α = 0
ˆ
ˆ
st , v= n-2
Prognoza Y dla X=x
ˆˆˆ xy
Standardowy błąd prognozy Y dla X=x
n
i
i
e
p
x
xx
xx
nsys
1
2
2
)(
)(11)(
Przedział ufności dla prognozowanej wartości Y
1)](ˆˆ)(ˆ[ 2,2,
p
xnx
p
xnx ystyyystyP
17
11. Analiza szeregów czasowych
Wskaźniki wahań sezonowych dla szeregu czasowego bez trendu
y
yO i
i i=1, 2, ….d względne
yyS ii i= 1, 2,.…d absolutne
przy czym: yorazyi - średnia w poszczególnych podokresach cyklu i średnia ogólna
Średnia ruchoma zwykła
q
qr
rtt yq
y12
1 t=q + 1, q + 2,….., n – q; q= 1, 2,….
Średnia ruchoma scentrowana
1
1 2
1
2
1
2
1 q
qr
qtrtqtt yyyq
y
Wahania sezonowe multiplikatywne
Indywidualne wskaźniki sezonowości
( t - średnie ruchome)
Surowe wskaźniki sezonowości: średnie arytmetyczne z wskaźników indywidualnych
Wskaźnik korygujący
d – liczba podokresów
Oczyszczone wskaźniki sezonowości
kOO ii ' (i=1,2,…d)
przy czym
Eliminacja wahań multiplikatywnych
t
t
y
y
),...2,1(1
1' diy
y
nO
iNt t
t
i
i
d
i
iO
dk
1
'
dOd
i
i 1
i
i
tt Nt
O
yy ~
18
Wahania sezonowe addytywne
Indywidualne różnice
( t - średnie ruchome)
Surowe odchylenia sezonowe: średnie arytmetyczne różnic
Wskaźnik korygujący
d – liczba podokresów
Absolutne oczyszczone odchylenia sezonowe
kSS ii ' (i=1,2,…d)
przy czym
Eliminacja wahań addytywnych
tt yy
),...2,1(1
1' diyyn
SiNt
tt
i
i
d
i
iSd
k1
'1
01
d
i
iS
iitt NtSyy ~
19
12. Indeksy statystyczne
Przyrost absolutny
Δt = yt – yt-1 t = 1,……n - 1
Przyrost względny
t
t
ty
t = 1,……n – 1
Indeks indywidualny jednopodstawowy
t
t
tty
yi / t = 0, 1,……n – 1
Indeks indywidualny łańcuchowy
1
1/
t
t
tty
yi t = 0, 1,……n – 1
Średnie tempo zmian w okresie (0, n-1)
r(0,n-1) = 1gi gdzie 1
0
11
1
1
1/
nn
n
n
t
ttgy
yii
Indeksy agregatowe wartości, ilości i cen ( sumowanie w indeksach agregatowych po j
składnikach agregatu)
j p
j
j
ip
p
1
0 indywidualny indeks cen
0
1
j
j
qjq
qi
indywidualny indeks ilości
Agregatowy indeks wartości:
j
jj
j
jj
j
j
j
j
wqp
qp
w
w
I00
11
0
1
20
Agregatowy indeks cen:
Ogólna postać standaryzacyjna:
j
constjtj
j
constjtj
pqp
qp
I0
1
a) według formuły Laspeyresa:
j
jopj
j
jo
j
jopj
j
jojo
j
jojopj
j
jj
j
jj
pL uiw
wi
qp
qpi
qp
qp
I00
01
b) według formuły Paaschego:
j pj
j
j pj
j
j
j
j pj
jj
j
jj
j
jj
j
jj
pP
i
u
i
w
w
i
qp
qp
qp
qp
I11
1
11
11
10
111
c) według formuły Fishera:
F p L pP pI I I
Agregatowy indeks ilości (masy fizycznej):
Ogólna postać standaryzacyjna:
j
constjtj
j
constjtj
qpq
pq
I0
1
a) według formuły Laspeyresa:
j
joqj
j
jo
j
joqj
j
jojo
j
jojoqj
j
jj
j
jj
qL uiw
wi
qp
qpi
qp
qp
I00
10
21
b) według formuły Paaschego:
j qj
j
j qj
j
j
j
j qj
jj
j
jj
j
jj
j
jj
qP
i
u
i
w
w
i
qp
qp
qp
qp
I11
1
11
11
01
111
c) według formuły Fishera:
F q L qP qI I I
Równość indeksowa
qFpFqLpPqPpLw IIIIIII