Post on 20-Aug-2020
1
STATYSTYKA MATEMATYCZNA
WYKŁAD 1
Wiadomości wstępne
2
Statystyka to dyscyplina naukowa, której zadaniem jest wykrywanie, analiza i opis prawidłowości występujących w procesach masowych.
3
Populacja to zbiorowość podlegająca badaniu statystycznemu. Aby populację określić jednoznacznie charakteryzujemy ją pod względem: – rzeczowym
– czasowym
– przestrzennym (terytorialnym).
4
Cecha to właściwość elementów populacji ze względu na którą prowadzimy badanie statystyczne. Warianty to wartości cechy (cecha powinna mieć przynajmniej dwa warianty).
5
Przykład Populacja: Studenci II semestru Wydziału Elektroniki WAT, wg stanu na 1.03.2015. Cechy: płeć, wzrost, kolor oczu, ocena na egzaminie z matematyki po
I semestrze, ulubiony tygodnik, wysokość miesięcznych dochodów, czas poświęcony na naukę w tygodniu
poprzedzającym ostatnią sesję egzaminacyjną.
6
Przykład Populacja: Samochody osobowe zarejestrowane w Warszawie, wg stanu na 1.09.2015. Cechy: kolor karoserii, przebieg, średnie zużycie paliwa na 100 km, marka, czas osiągania prędkości 100 km/godz.
7
Uproszczona klasyfikacja cech:
8
Badanie statystyczne może być: – pełne (obejmuje całą populację), – częściowe (obejmuje część populacji – próbę).
9
Próba powinna być reprezentatywna tzn. rozkład wariantów badanej cechy w próbie powinien być zbliżony do rozkładu w całej populacji.
10
George Gallup 1901-1984
Pionier w dziedzinie badania opinii publicznej. Rozwinął technikę doboru grupy reprezentatywnej
11
Rok 1936 - wybory prezydenckie w USA. Franklin Delano Roosvelt - Partia Demokratyczna, Alf Landon - Partia Republikańska. "Literary Digest" 10 mln ankiet (zwrot ok. 2mln), - nieprawidłowa prognoza. Gallup 4000 ankiet (w 1935 założył pierwszy na świecie instytut badania opinii publicznej) - prawidłowa prognoza.
Wyniki: Roosvelt - 60,8%, Landon - 36,5%.
12
Uwaga Badania pełne nie zawsze są możliwe lub celowe (badania niszczące, duża próba, wysokie koszty).
13
„Humor Polski” – lata 80-te
14
Liczebność próby. Dla reprezentatywnej próby dorosłej liczebności Polski zwykle 1000 – 1300 osób.
Jerzy Spława-Neyman (1894 - 1981) polski i amerykański matematyk i statystyk.
Wprowadził pojęcie przedziału ufności.
15
ROZKŁADY PODSTAWOWYCH STATYSTYK X – zmienna losowa – odpowiednik badanej cechy, (X1, X2, ...,Xn) – próba losowa (zmienna losowa n wymiarowa, Xi – niezależne zmienne losowe o takim samym rozkładzie jak X (taką próbę nazywamy próbą prostą). Jeśli xi jest wartością zmiennej Xi (i = 1, 2, ..., n) to ciąg (x1, x2, ..., xn) nazywamy realizacją próby (są to dane statystyczne).
16
Statystyka to praktycznie dowolna funkcja od próby
Y = g(X1, X2, ..., Xn)
Statystyka przekształca informację zawartą w próbie czyniąc prostszym wnioskowanie o rozkładzie cechy w populacji.
17
Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić o jej rozkładzie. Statystyka ma rozkład dokładny, jeśli jest spełniony dla każdego n. Statystyka ma rozkład asymptotyczny, jeśli jest spełniony, gdy n dąży do nieskończoności.
18
Statystyki podstawowe:
X Xn
Xn ii
n
1
1 średnia z próby
Gdy Xi mają rozkład zerojedynkowy (1 – sukces, 0 – porażka) to średnią możemy zapisać w postaci
n
YW n
gdzie Yn jest liczbą sukcesów w próbie
Ten szczególny przypadek średniej nazywamy średnią częstością sukcesu.
19
n
inin XX
nSS
1
222 1
wariancja z próby
Uwaga. 2
1
22 1n
n
ii XX
nS
2
1
21n
n
inin SXX
nSS
odchylenie standardowe z próby
n
nn
X
SVV
Współczynnik zmienności (dla cech o wariantach dodatnich)
20
n
inin XX
nSS
1
222
1
1ˆˆ
wariancja z próby – nieobciążona
n
iin mX
nSS
1
22020 1
wariancja z próby dla danej wartości oczekiwanej m.
21
Uwaga
22
1ˆ
nn Sn
nS
22 ˆ1nn S
n
nS
zatem dla dużych n
22ˆnn SS
22
Momenty zwykłe,
kik X
nM
1 – moment rzędu k cechy X (M1 = nX ).
li
kikl YX
nM
1 – moment rzędu k, l jednocześnie
badanych cech (X, Y). Momenty centralne,
k
ik XXn
M1~ – moment rzędu k cechy X .
l
i
k
ikl YYXXn
M1~ – moment rzędu k, l jednocześnie
badanych cech (X, Y).
23
Rozkłady niektórych statystyk (n>1): Jeśli cecha X ma rozkład N(m, ), to:
a) statystyka X n ma rozkład N mn
,
,
b) statystyka 1
n
S
mX
n
n
ma rozkład Studenta
z n - 1 stopniami swobody,
c) statystyka 2
20
nnS
ma rozkład chi kwadrat
z n stopniami swobody,
d) statystyka 2
2
nnS
ma rozkład chi kwadrat
z n - 1 stopniami swobody,
d') statystyki X n i Sn2
są zmiennymi losowymi niezależnymi (zachodzi też własność odwrotna),
24
Jeśli cecha X ma rozkład N(m1, 1) a cecha Y ma rozkład N(m2, 2), (próby niezależne odpowiednio n1 i n2 elementowe) to:
e) statystyka 21 nn YX ma rozkład
2
22
1
21
21 ,nn
mmN
,
gdy X ma rozkład N(m, ), Y ma rozkład N(m, ), to
e’) statystyka 21
2121
22
21
)2(
21
21
nn
nnnn
SnSn
YX
nn
nn
ma rozkład Studenta z n1 + n2 - 2 stopniami swobody,
f) statystyka 22
2
21
2
)(ˆ
)(ˆ
2
1
YS
XS
n
n
ma rozkład Snedecora 1,1 21 nnF ,
25
Ad. a) Zmienna losowa
n
iin X
nX
1
1 jako suma
niezależnych zmiennych losowych o rozkładach normalnych pomnożona przez stałą ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.
mmnn
mn
XEn
Xn
EXEn
i
n
ii
n
iin
1111
111
n
nnn
XDn
Xn
DXDn
i
n
ii
n
iin
22
21
2
21
2
21
22 1111
zatem n
XD n
26
Ad. b) wykorzystamy a), d), d'),
Ponieważ
)1(
1
2
2
n
nS
nmX
nS
mX
n
n
n
n
licznik ma rozkład N(0, 1)
2
2
nnS
ma rozkład chi kwadrat z n - 1 stopniami
swobody, Statystyki te są niezależne.
Zatem (z definicji) statystyka 1
nS
mX
n
n
ma
rozkład Studenta z n - 1 stopniami swobody,
27
Ad. a), d, d') Niech (Y1, Y2, ...,Yn) – próba losowa dla cechy o rozkładzie N(0, 1).
Niech
n
iiY
nY
1
1 i
n
ii YYK
1
2
Aby wykazać a), d, d') wystarczy pokazać, że te statystyki są niezależne i mają rozkłady:
Y ma rozkład
nN
1,0
K ma rozkład chi kwadrat z n - 1 stopniami swobody
bo X ma rozkład taki jak Y
a K ma rozkład 2
2
nnS
( Kn
mXmX
nXX
nS
n
i
nin
inin
2
1
22
1
22 1
)
28
1. Określamy zmienne losowe
n
iikik YcZ
1, k = 1, ...., n
za pomocą ortonormalnej macierzy C = [cki].
Pierwszy wiersz ma jednakowe elementy równe n
1
(taka macierz zawsze istnieje). Zmienne Zk mają rozkład normalny. 2. mk = E(Zk) = 0, cov(Zk, Zj) = 0 dla k j (z niezależności Y1, Y2, ...,Yn i ortogonalności C) Zatem Z1, Z2, ...,Zn są niezależne (funkcje mierzalne niezależnych zmiennych losowych są niezależne) o rozkładzie N(0, 1).
3. Skoro
n
ii
n
iii Y
nYcZ
1111
1 to
n
ZY 1 , zatem Y ma
rozkład
nN
1,0
4. Liniowe przekształcenie ortonormalne zachowuje
normę zatem
n
ii
n
ii YZ
1
2
1
2
.
Zatem
n
ii
n
ii
n
ii Z
nn
ZZ
nYY
nn
K
2
22
1
1
22
1
2 111
co oznacza z definicji rozkładu chi kwadrat, że K ma rozkład chi kwadrat z n - 1 stopniami swobody.
5. Y i K jako funkcje mierzalne niezależnych zmiennych losowych są niezależne.
29
Ad. e) Zmienna losowa 21 nn YX jako różnica
niezależnych zmiennych losowych o rozkładach normalnych (punkt a)) ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.
1nX ma rozkład
1
11,
nmN
,
2nY ma rozkład
2
22 ,
nmN
,
212121mmYEXEYXE nnnn
2
22
1
21222
2121 nnYDXDYXD nnnn
zatem
2
22
1
21
21 nnYXD nn
.
30
Ad. f) korzystając z d) mamy
1,1
1
2
1
1
22
22
2
21
21
1
22
2
2
2
21
2
1
1
22
2
21
2
21
2
1
2
1
2
1
2
1
1
1
1
1
)(
1
1
)(
1
1
)(1
)(1
)(ˆ
)(ˆ
nn
n
n
n
n
n
n
n
n
F
Yn
Yn
YSn
n
XSn
n
YSn
n
XSn
n
YS
XS
31
Uwaga. 1) Ciąg średnich z próby jest zbieżny (wg
prawdopodobieństwa) do wartości oczekiwanej m rozpatrywanej cechy (zakładamy, że EX = m istnieje),
2) Ciąg wariancji z próby jest zbieżny (wg prawdopodobieństwa) do wariancji 2 rozpatrywanej cechy (zakładamy, że D2X = 2 > 0 istnieje),
3) Gdy spełnione są założenia punktu 1) i 2) to średnia ma dla dużych n w przybliżeniu rozkład
N mn
,
(rozkład asymptotyczny)
W szczególności średnia częstość sukcesu n
YW n
ma rozkład asymptotyczny
n
pppN
)1(, ,
gdzie p – prawdopodobieństwo sukcesu.
32
Uogólnienie
Jeśli cecha X ma momenty odpowiednio wysokiego rzędu to momenty te mają rozkłady asymptotyczne normalne. Moment Mk ma asymptotyczny rozkład
n
mmmN kk
k
22,
Moment kM~
ma asymptotyczny rozkład
n
kkN kkkkk
k
212
22112 2
,
33
Przykład Dochód miesięczny (zł) w pewnej populacji osób ma rozkład normalny N(1600; 300). a) Jakie jest prawdopodobieństwo, że średni miesięczny dochód 25 osób z tej populacji wynosi mniej niż 1500 zł? b) Jakie jest prawdopodobieństwo, że miesięczny dochód osób z tej populacji wynosi mniej niż 1500 zł? Rozwiązanie
a) 25X – średni miesięczny dochód 25 osób,
60,160025
300,160025 NNX
04745,095254,01)67,1(1)67,1(
67,160
16001500
60
1600)1500( 25
25
YP
XPXP
34
b) X – wysokość miesięcznego dochodu,
300,1600NX
3707,06293,01)33,0(1)33,0(
33,0300
16001500
300
1600)1500(
YP
XPXP
j
Wniosek Rozkład średniej charakteryzuje się mniejszym odchyleniem standardowym niż rozkład badanej cechy.
35
Przykład Błędy pomiarów wykonywanych dalmierzem mają rozkład normalny o odchyleniu standardowym 0,1 m. Dokonano 15 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchylenie standar- dowe z tych pomiarów będzie większe niż 0,07 m?
36
Rozwiązanie
Statystyka: 2
2
1,0
15S ma rozkład chi kwadrat z
15 – 1 = 14 stopniami swobody Zatem
91,035,7
1,0
0049,015
1,0
15)0049,0()07,0(
14
22
2
2
YP
SPSPSP
37
Przykład X, Y dochody (setki zł) pracowników w firmach A i B. Zakładamy, że X – N(23,4), Y – N(25, 3). Oblicz prawdopodobieństwo, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B. Rozwiązanie
Statystyka: 3664 YX ma rozkład
36
3
64
4,2523
22
N ,
zatem
002,09979,01)86,2(186,21
36
9
64
16
)2523(
36
9
64
16
)2523()0()( 3664
36643664
YP
YXPYXPYXP
Zatem szansa, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B jest znikomo mała.
L.Kowalski 28.09.2017