STATYSTYKA MATEMATYCZNA WYKŁAD 1statystyka.rezolwenta.eu.org/Materialy/sm-w-1-2015.pdf ·...

STATYSTYKA MATEMATYCZNA

WYKŁAD 1

Wiadomości wstępne

Statystyka to dyscyplina naukowa, której zadaniem jest wykrywanie, analiza i opis prawidłowości występujących w procesach masowych.

Populacja to zbiorowość podlegająca badaniu statystycznemu. Aby populację określić jednoznacznie charakteryzujemy ją pod względem: – rzeczowym

– czasowym

– przestrzennym (terytorialnym).

Cecha to właściwość elementów populacji ze względu na którą prowadzimy badanie statystyczne. Warianty to wartości cechy (cecha powinna mieć przynajmniej dwa warianty).

Przykład Populacja: Studenci II semestru Wydziału Elektroniki WAT, wg stanu na 1.03.2015. Cechy: płeć, wzrost, kolor oczu, ocena na egzaminie z matematyki po

I semestrze, ulubiony tygodnik, wysokość miesięcznych dochodów, czas poświęcony na naukę w tygodniu

poprzedzającym ostatnią sesję egzaminacyjną.

Przykład Populacja: Samochody osobowe zarejestrowane w Warszawie, wg stanu na 1.09.2015. Cechy: kolor karoserii, przebieg, średnie zużycie paliwa na 100 km, marka, czas osiągania prędkości 100 km/godz.

Uproszczona klasyfikacja cech:

Badanie statystyczne może być: – pełne (obejmuje całą populację), – częściowe (obejmuje część populacji – próbę).

Próba powinna być reprezentatywna tzn. rozkład wariantów badanej cechy w próbie powinien być zbliżony do rozkładu w całej populacji.

George Gallup 1901-1984

Pionier w dziedzinie badania opinii publicznej. Rozwinął technikę doboru grupy reprezentatywnej

Rok 1936 - wybory prezydenckie w USA. Franklin Delano Roosvelt - Partia Demokratyczna, Alf Landon - Partia Republikańska. "Literary Digest" 10 mln ankiet (zwrot ok. 2mln), - nieprawidłowa prognoza. Gallup 4000 ankiet (w 1935 założył pierwszy na świecie instytut badania opinii publicznej) - prawidłowa prognoza.

Wyniki: Roosvelt - 60,8%, Landon - 36,5%.

Uwaga Badania pełne nie zawsze są możliwe lub celowe (badania niszczące, duża próba, wysokie koszty).

„Humor Polski” – lata 80-te

Liczebność próby. Dla reprezentatywnej próby dorosłej liczebności Polski zwykle 1000 – 1300 osób.

Jerzy Spława-Neyman (1894 - 1981) polski i amerykański matematyk i statystyk.

Wprowadził pojęcie przedziału ufności.

ROZKŁADY PODSTAWOWYCH STATYSTYK X – zmienna losowa – odpowiednik badanej cechy, (X1, X2, ...,Xn) – próba losowa (zmienna losowa n wymiarowa, Xi – niezależne zmienne losowe o takim samym rozkładzie jak X (taką próbę nazywamy próbą prostą). Jeśli xi jest wartością zmiennej Xi (i = 1, 2, ..., n) to ciąg (x1, x2, ..., xn) nazywamy realizacją próby (są to dane statystyczne).

Statystyka to praktycznie dowolna funkcja od próby

Y = g(X1, X2, ..., Xn)

Statystyka przekształca informację zawartą w próbie czyniąc prostszym wnioskowanie o rozkładzie cechy w populacji.

Statystyka jako funkcja od zmiennej losowej jest też zmienną losową i możemy mówić o jej rozkładzie. Statystyka ma rozkład dokładny, jeśli jest spełniony dla każdego n. Statystyka ma rozkład asymptotyczny, jeśli jest spełniony, gdy n dąży do nieskończoności.

Statystyki podstawowe:

1 średnia z próby

Gdy Xi mają rozkład zerojedynkowy (1 – sukces, 0 – porażka) to średnią możemy zapisać w postaci

gdzie Yn jest liczbą sukcesów w próbie

Ten szczególny przypadek średniej nazywamy średnią częstością sukcesu.

inin XX

wariancja z próby

Uwaga. 2

inin SXX

odchylenie standardowe z próby

Współczynnik zmienności (dla cech o wariantach dodatnich)

inin XX

wariancja z próby – nieobciążona

iin mX

22020 1

wariancja z próby dla danej wartości oczekiwanej m.

22 ˆ1nn S

zatem dla dużych n

22ˆnn SS

Momenty zwykłe,

1 – moment rzędu k cechy X (M1 = nX ).

kikl YX

1 – moment rzędu k, l jednocześnie

badanych cech (X, Y). Momenty centralne,

ik XXn

M1~ – moment rzędu k cechy X .

ikl YYXXn

M1~ – moment rzędu k, l jednocześnie

badanych cech (X, Y).

Rozkłady niektórych statystyk (n>1): Jeśli cecha X ma rozkład N(m, ), to:

a) statystyka X n ma rozkład N mn

b) statystyka 1

ma rozkład Studenta

z n - 1 stopniami swobody,

c) statystyka 2

ma rozkład chi kwadrat

z n stopniami swobody,

d) statystyka 2

ma rozkład chi kwadrat

z n - 1 stopniami swobody,

d') statystyki X n i Sn2

są zmiennymi losowymi niezależnymi (zachodzi też własność odwrotna),

Jeśli cecha X ma rozkład N(m1, 1) a cecha Y ma rozkład N(m2, 2), (próby niezależne odpowiednio n1 i n2 elementowe) to:

e) statystyka 21 nn YX ma rozkład

21 ,nn

gdy X ma rozkład N(m, ), Y ma rozkład N(m, ), to

e’) statystyka 21

ma rozkład Studenta z n1 + n2 - 2 stopniami swobody,

f) statystyka 22

ma rozkład Snedecora 1,1 21 nnF ,

Ad. a) Zmienna losowa

1 jako suma

niezależnych zmiennych losowych o rozkładach normalnych pomnożona przez stałą ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

22 1111

zatem n

Ad. b) wykorzystamy a), d), d'),

Ponieważ

licznik ma rozkład N(0, 1)

ma rozkład chi kwadrat z n - 1 stopniami

swobody, Statystyki te są niezależne.

Zatem (z definicji) statystyka 1

rozkład Studenta z n - 1 stopniami swobody,

Ad. a), d, d') Niech (Y1, Y2, ...,Yn) – próba losowa dla cechy o rozkładzie N(0, 1).

ii YYK

Aby wykazać a), d, d') wystarczy pokazać, że te statystyki są niezależne i mają rozkłady:

Y ma rozkład

K ma rozkład chi kwadrat z n - 1 stopniami swobody

bo X ma rozkład taki jak Y

a K ma rozkład 2

1. Określamy zmienne losowe

iikik YcZ

1, k = 1, ...., n

za pomocą ortonormalnej macierzy C = [cki].

Pierwszy wiersz ma jednakowe elementy równe n

(taka macierz zawsze istnieje). Zmienne Zk mają rozkład normalny. 2. mk = E(Zk) = 0, cov(Zk, Zj) = 0 dla k j (z niezależności Y1, Y2, ...,Yn i ortogonalności C) Zatem Z1, Z2, ...,Zn są niezależne (funkcje mierzalne niezależnych zmiennych losowych są niezależne) o rozkładzie N(0, 1).

3. Skoro

ZY 1 , zatem Y ma

rozkład

4. Liniowe przekształcenie ortonormalne zachowuje

normę zatem

co oznacza z definicji rozkładu chi kwadrat, że K ma rozkład chi kwadrat z n - 1 stopniami swobody.

5. Y i K jako funkcje mierzalne niezależnych zmiennych losowych są niezależne.

Ad. e) Zmienna losowa 21 nn YX jako różnica

niezależnych zmiennych losowych o rozkładach normalnych (punkt a)) ma rozkład normalny. Obliczymy jej parametry korzystając z własności wartości oczekiwanej i wariancji.

1nX ma rozkład

2nY ma rozkład

212121mmYEXEYXE nnnn

2121 nnYDXDYXD nnnn

21 nnYXD nn

Ad. f) korzystając z d) mamy

Uwaga. 1) Ciąg średnich z próby jest zbieżny (wg

prawdopodobieństwa) do wartości oczekiwanej m rozpatrywanej cechy (zakładamy, że EX = m istnieje),

2) Ciąg wariancji z próby jest zbieżny (wg prawdopodobieństwa) do wariancji 2 rozpatrywanej cechy (zakładamy, że D2X = 2 > 0 istnieje),

3) Gdy spełnione są założenia punktu 1) i 2) to średnia ma dla dużych n w przybliżeniu rozkład

(rozkład asymptotyczny)

W szczególności średnia częstość sukcesu n

ma rozkład asymptotyczny

)1(, ,

gdzie p – prawdopodobieństwo sukcesu.

Uogólnienie

Jeśli cecha X ma momenty odpowiednio wysokiego rzędu to momenty te mają rozkłady asymptotyczne normalne. Moment Mk ma asymptotyczny rozkład

mmmN kk

Moment kM~

ma asymptotyczny rozkład

kkN kkkkk

22112 2

Przykład Dochód miesięczny (zł) w pewnej populacji osób ma rozkład normalny N(1600; 300). a) Jakie jest prawdopodobieństwo, że średni miesięczny dochód 25 osób z tej populacji wynosi mniej niż 1500 zł? b) Jakie jest prawdopodobieństwo, że miesięczny dochód osób z tej populacji wynosi mniej niż 1500 zł? Rozwiązanie

a) 25X – średni miesięczny dochód 25 osób,

60,160025

300,160025 NNX

04745,095254,01)67,1(1)67,1(

67,160

16001500

1600)1500( 25

b) X – wysokość miesięcznego dochodu,

300,1600NX

3707,06293,01)33,0(1)33,0(

33,0300

16001500

1600)1500(

Wniosek Rozkład średniej charakteryzuje się mniejszym odchyleniem standardowym niż rozkład badanej cechy.

Przykład Błędy pomiarów wykonywanych dalmierzem mają rozkład normalny o odchyleniu standardowym 0,1 m. Dokonano 15 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchylenie standardowe z tych pomiarów będzie większe niż 0,07 m?

Rozwiązanie

Statystyka: 2

15S ma rozkład chi kwadrat z

15 – 1 = 14 stopniami swobody Zatem

91,035,7

0049,015

15)0049,0()07,0(

SPSPSP

Przykład X, Y dochody (setki zł) pracowników w firmach A i B. Zakładamy, że X – N(23,4), Y – N(25, 3). Oblicz prawdopodobieństwo, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B. Rozwiązanie

Statystyka: 3664 YX ma rozkład

4,2523

002,09979,01)86,2(186,21

)2523(

)2523()0()( 3664

36643664

YXPYXPYXP

Zatem szansa, że średni dochód 64 wylosowanych pracowników firmy A jest większy niż średni dochód 36 wylosowanych pracowników firmy B jest znikomo mała.

L.Kowalski 28.09.2017

STATYSTYKA MATEMATYCZNA WYKŁAD 1statystyka.rezolwenta.eu.org/Materialy/sm-w-1-2015.pdf ·...

Documents

Transcript of STATYSTYKA MATEMATYCZNA WYKŁAD 1statystyka.rezolwenta.eu.org/Materialy/sm-w-1-2015.pdf ·...

Statystyka w

Statystyka finansowa

Statystyka 1 2011 [tryb zgodno ci] · Literatura B. Pułaska – Turyna: Statystyka dla ekonomistów. Difin, Warszawa 2011 M. Sobczyk: Statystyka aspekty praktyczne i teoretyczne,

Tuzzi statystyka pl

Statystyka – zadania, część 2

Statystyka opisowa_zestaw1[1]

Statystyka Opisowa 2014 część 2 - | Wydział Matematyki ...math.uni.lodz.pl/.../upload/materialy/Statystyka_Opisowa_Wyklad4.pdf · „Statystyka” , Lucjan Kowalski. 4. „Statystyka

Laboratorium 4 statystyka statistica

STATYSTYKA DLA BYSTRZAKA

Statystyka Po Ludzku

Statystyka matematyczna - wmii.uwm.edu.plwmii.uwm.edu.pl/~akis/statystyka/statystyka_01.pdf · Statystyka zajmuje si¦ opisywaniem i analiz¡ zjawisk masowych otaczaj¡cej czªowieka

STATYSTYKA OPISOWA Plan wykładów - SGGWkgohz.sggw.pl/wp-content/uploads/2019/10/statystyka... · 2019. 10. 6. · STATYSTYKA OPISOWA Plan wykładów Próba –własności, porządkowanie,

Statystyka matematyczna i stosowana

Statystyka opisowa (1)

Statystyka Zajęcia 1

M. Sobczyk - statystyka

Statystyka II wyklady

Statystyka w doświadczalnictwie

STATYSTYKA - KOLOROWE LICZBY

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne …home.agh.edu.pl/~adan/wyklady/siod4-2014.pdf · 2014-03-28 · Statystyka i opracowanie danych – W4 Rozkład normalny