Statystyka matematyczna i stosowana

87
Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

description

Statystyka matematyczna i stosowana. Kurs d la Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa : http:// im.pwr.wroc.pl /~ mbogdan. Wykładowca : Małgorzata Bogdan Biuro : C-11 , p. 2.04 Godziny konsultacji : śr . 1 2 : 00 - 14 : 0 0 , czw . 14:30 – 15:30 - PowerPoint PPT Presentation

Transcript of Statystyka matematyczna i stosowana

Page 1: Statystyka matematyczna i stosowana

Statystyka matematyczna i stosowana

Kurs dla Informatyki MatematycznejSemestr zimowy 2007/2008

Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

Page 2: Statystyka matematyczna i stosowana

Wykładowca : Małgorzata Bogdan Biuro: C-11, p.2.04 Godziny konsultacji: śr. 12:00-14:00, czw. 14:30 – 15:30 Telefon: 320 21 03 Email:

[email protected]

Page 3: Statystyka matematyczna i stosowana

Oceny Dwa kolokwia: 18 listopada i 23

stycznia (na wykładzie) 50+50=100pkt.

Aktywność na ćwiczeniach – extra Laboratoria – 40 pkt ≥ 90 % (126 pt) bdb, 90% - 80 % (125 - 112 pt) db +, itd. dst , ≥ 70 pkt

Page 4: Statystyka matematyczna i stosowana

Podreczniki

Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II

Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III

Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

Page 5: Statystyka matematyczna i stosowana

Listy zadań na ćwiczenia i laboratoria dostępne w internecie

Zachęcam do zadawania pytań na wykładzie

Page 6: Statystyka matematyczna i stosowana

Dane Używamy danych, aby

odpowiedzieć na pytania dotyczące badanych populacji

Na ogół dane charakteryzują się losową zmiennością

Oceniamy informację zawartą w danych

Page 7: Statystyka matematyczna i stosowana

Czym jest statystyka?• Nauka rozumienia danych i

podejmowania decyzji w obliczu losowości

• Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

Page 8: Statystyka matematyczna i stosowana

Przykład 1 Pewne badania dotyczą wpływu aktywności

fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ?

Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy

cholesterolu Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację

ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np.

apetyt

Page 9: Statystyka matematyczna i stosowana

Przykład 2 Eksperyment mikromacierzowy

porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ?

Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ?

Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

Page 10: Statystyka matematyczna i stosowana

Przykład 3 W artykule prasowym czytamy, że 80%

pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania.

Czy przeprowadzone badania upoważniają do takiej konkluzji?

Page 11: Statystyka matematyczna i stosowana

Przykład 4 Reakcja owiec na bakterie wąglika

Reakcja Szczepione Nie szczepione

Śmierć 0 24

Przeżycie 24 0

Procent przetrwania

100 % 0 %

Page 12: Statystyka matematyczna i stosowana

Przykład 5Rozwój raka wątroby u myszy

E. coli Wolne od zarazków

Rak wątroby 8 19

Zdrowa 5 30

Suma 13 49

Procent myszy z rakiem wątroby

62 % 39 %

Page 13: Statystyka matematyczna i stosowana

Sygnał i szum Przykład 4 – brak zmienności (??):

mocna konkluzja Przykład 5 – duża zmienność:

słaba konkluzja Jak duża musi być próba, abyśmy w

oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

Page 14: Statystyka matematyczna i stosowana

Losowość Dane na ogół charakteryzują się

zmiennością Matematycznie modelujemy tą

zmienność używając rachunku prawdopodobieństwa

Page 15: Statystyka matematyczna i stosowana

Przykłady Prognoza pogody-

prawdopodobieństwo deszczu wynosi 80%

Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49

Page 16: Statystyka matematyczna i stosowana

Schemat badań naukowych

Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

Page 17: Statystyka matematyczna i stosowana

Próba, Zmienna Próba:

Obserwacje lub wyniki eksperymentu Reprezentuje konkretną realizację

eksperymentu Przykłady:

Wysokość 10 kłosów żyta (10 obserwacji)

Poziom(y) hemoglobiny u 35 dawców Kolor i kształt ziaren grochu

Page 18: Statystyka matematyczna i stosowana

Próba, Zmienna cd. Rozmiar próby:

“n” np. n=10, n=35, n=556

Zmienna: to co mierzymy tu: wysokość, poziom hemoglobiny, kolor i kształt

Page 19: Statystyka matematyczna i stosowana

Zmienne

Jakościowe Ilościowe

Porządkowe Nie porządkowe Ciągłe Dyskretne

Rodzaje zmiennych

Page 20: Statystyka matematyczna i stosowana

Zmienne jakościowe (kategoryczne)

Jakościowe – kwalifikujące do kategorii Porządkowe, np. wybory w ankiecie:

nigdy, rzadko, czasami, często, zawsze

Nie porządkowe, np.: kolor i kształt

Page 21: Statystyka matematyczna i stosowana

Zmienne ilościowe (liczbowe) Ilościowe – wynik jest liczbą

Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych

elementów, liczba gładkich i żółtych groszków

Page 22: Statystyka matematyczna i stosowana

Oznaczenia Zmienne: X,Y,Z; np.Y=wzrost

(pojęcie) Obserwacja: x,y,z; np. y=182cm

(wynik) Próba: y1,y2,…,yn (wielokrotne

obserwacje) Rozmiar próby: n, czasem n1,n2

Page 23: Statystyka matematyczna i stosowana

Próba a próbka Biolog mierzy poziom glukozy we

krwi 20 ludzi. „20 próbek krwi”? (biolog) „Jedna próba 20 pomiarów

glukozy.” (statystyk) Będziemy używali “pomiar” tam,

gdzie biolog użyłby słowa “próba”.

Page 24: Statystyka matematyczna i stosowana

Statystyki opisowe: Tabela częstościGroszki:gładkie/pomarszczone, zielone/żółte

Klasy Liczba

Gładkie, żółte 315

Gładkie, zielone 108

Pomarszczone, żółte 101

Pomarszczone, zielone 32

Page 25: Statystyka matematyczna i stosowana

Wykres słupkowy (dane jakościowe)

groszki generacji F2

0

100

200

300

400

round,yellow

round,green

wrinkled,yellow

wrinkled,green

liczn

ość

Page 26: Statystyka matematyczna i stosowana

Wykształcenie Liczba (*1000000)

Procent

Podstawowe lub zawodowe

4.7 12.3

Szkoła średnia 11.8 30.7

Szkoła policealna

10.9 28.3

Licencjat 8.5 22.1

Wykształcenie wyższe

2.5 6.6

Page 27: Statystyka matematyczna i stosowana

Wykres słupkowy

Page 28: Statystyka matematyczna i stosowana

Wykres kołowy

Page 29: Statystyka matematyczna i stosowana

Dane ilościowe dyskretne

Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).

Page 30: Statystyka matematyczna i stosowana

Dane

10 12 10 7 14 11

14 11 10 13 10 10

8 11 7 13 12 13

10 8 5 11 11 12

11 11 9 8 12 10

9 11 10 12 10 9

Page 31: Statystyka matematyczna i stosowana

Rozkład liczebności

Liczba potomstwa Liczba macior

5 1

6 0

7 2

8 3

9 3

10 9

11 8

12 5

13 3

14 2

Page 32: Statystyka matematyczna i stosowana

Histogram liczebności

0123456789

10

5 6 7 8 9 10 11 12 13 14

Liczność miotu

Lic

zba

(m

ac

ior)

Page 33: Statystyka matematyczna i stosowana

Histogram (liczebności) Grupowanie podobnych obserwacji

zwykle jest pomocne Prawie zawsze postępujemy tak z

danymi ciągłymi Definiujemy “klasy” (przedziały)

obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

Page 34: Statystyka matematyczna i stosowana

Jak wybierać klasy:Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki)Rozmiar (szerokość) klas (przedziałów) jest zwykle taki samUżywamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); więcej, gdy próba jest duża

Page 35: Statystyka matematyczna i stosowana

Przykład Dane : długość łodygi papryki (n=15)

12.4 12.2 13.4 10.9 12.2

12.1 11.8 13.5 12 14.1

12.7 13.2 12.6 11.9 13.1

Page 36: Statystyka matematyczna i stosowana

Min=10.9, max=14.1, zakres=max-min=3.2

Wybieramy szerokość klasy, np. 0.5 i początek 10.5, aby pokryć zakres 10.5 – 14.5.

Zliczamy liczby wystąpień i rysujemy histogram.

Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt

Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji

Page 37: Statystyka matematyczna i stosowana

Tabela liczebności (klas)

Klasa

Liczność

10.5 - 10.99 1

11.0 - 11.49 0

11.5 - 11.99 2

12.0 - 12.49 5

12.5 - 12.99 2

13.0 - 13.49 3

13.5 - 13.99 1

14.0 - 14.49 1

Page 38: Statystyka matematyczna i stosowana

Histogram liczebności

0246

10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -

10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Klasa

Lic

zno

ść

Page 39: Statystyka matematyczna i stosowana

Przykład: Stężenia serum CK

121 82 100 151 68 58

95 145 64 201 101 163

84 57 139 60 78 94

119 104 110 113 118 203

62 83 67 93 92 110

25 123 70 48 95 42

Page 40: Statystyka matematyczna i stosowana

Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

Page 41: Statystyka matematyczna i stosowana

Serum CK Liczność

20 - 39 1

40 - 59 4

60 - 79 7

80 - 99 8

100 - 119 8

120 - 139 3

140 - 159 2

160 - 179 1

180 - 199 0

200 - 219 2

Suma 36

Page 42: Statystyka matematyczna i stosowana
Page 43: Statystyka matematyczna i stosowana

Opis histogramu: Centralny szczyt (moda) w

okolicach 100 J/L Zasadnicza masa rozkładu między

40 a 140 J/L Niesymetryczny–skośny na prawo

Page 44: Statystyka matematyczna i stosowana

Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas)

Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu

Do tego odcinka wpada:42% (15 z 36) wartości CK

Page 45: Statystyka matematyczna i stosowana

Nierówna szerokość klas Powierzchnia pod histogramem nie jest

proporcjonalna do liczności W tak „spaczonym’’ histogramie (patrz

dalej) powierzchnia między 140 a 220J/L stanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowią tylko 14% obserwacji)

Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas)

Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

Page 46: Statystyka matematyczna i stosowana
Page 47: Statystyka matematyczna i stosowana
Page 48: Statystyka matematyczna i stosowana

Histogram częstości

Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n

Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

Page 49: Statystyka matematyczna i stosowana

Histogram liczebności

0

1

2

3

4

5

6

10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -

10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Klasa

Licz

ność

Histogram częstości

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 -

10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Długość łodygiCz

ęsto

ść

Page 50: Statystyka matematyczna i stosowana

Diagram łodygi i liścia (Stem and leaf plot)

Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje.

Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym

Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)

Page 51: Statystyka matematyczna i stosowana

Diagram łodygi i liścia (Stem and leaf plot) cd.

Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest „liściem”.

Dostajemy „obrócony’’ histogram Ograniczenie: trudniej manipulować

liczbą klas

Page 52: Statystyka matematyczna i stosowana

Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów

81 85 93 93 99 76

75 84 78 84 81 82

89 81 96 82 74 70

84 86 80 70 131 75

88 102 115 89 82 79

106

Page 53: Statystyka matematyczna i stosowana

Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie

ogony (spłaszczony) Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

Page 54: Statystyka matematyczna i stosowana

Statystyka Statystyka – liczbowa

charakterystyka danych Przykłady statystyk:

próba: y1=24,y2=35, y3=26 ,y4=36 min=24, max=36, rozstęp= 36-24=12 Opis danych: kształt, centrum, rorzut

Page 55: Statystyka matematyczna i stosowana

Miary położenia rozkładu Średnia z próby:• symbol oznacza liczbę; arytmetyczną

średnią z obserwacji• Symbol oznacza pojęcie średniej z

próby• Średnia jest „środkiem ciężkości” zbioru

danych

y

Y

Page 56: Statystyka matematyczna i stosowana

Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y1=11, y2=13,…, y6=1

6

1 2 61

... 11 13 ... 1 56

56 / 6 9.33

ii

y y y y

y

Page 57: Statystyka matematyczna i stosowana

Odchylenia

1 1 11 9.33 1.67i idev y y

dev y y

Σ devi= ?

Page 58: Statystyka matematyczna i stosowana

Mediana próbkowa: Środkowa obserwacja jeżeli n

jest nieparzyste Średnia z dwóch środkowych

wartości gdy n jest parzyste

Page 59: Statystyka matematyczna i stosowana

Przykłady Przykład 1 (n = 5)

Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana =

Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana =

Page 60: Statystyka matematyczna i stosowana

Średnia a mediana Przykład 1 cd. (n = 5)

Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3

Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3

Page 61: Statystyka matematyczna i stosowana

Średnia a mediana Mediana dzieli powierzchnię histogramu

na połowę Jest odporna – nie mają na nią wpływu

obserwacje „odstające” Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na

średnią – średnia nie jest odporna

Page 62: Statystyka matematyczna i stosowana

Średnia a mediana Jeżeli histogram jest w przybliżeniu

symetryczny, to średnia i mediana są zbliżone.

Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana.

Obie te miary położenia są jednakowo ważne.

Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).

Page 63: Statystyka matematyczna i stosowana

Miary położenia cd.:Kwartyle Kwartyle dzielą zbiór danych na

cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana

grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy

obserwacji większych niż Q2.

Page 64: Statystyka matematyczna i stosowana

Przykład Dane: 3 5 6 2 1 7 4

Page 65: Statystyka matematyczna i stosowana

Przykład (n=15)

7 12 8 2 4 3 5 5

4 3 4 5 6 9 3

Page 66: Statystyka matematyczna i stosowana

Rozstęp międzykwartylowy IRQ=Q3-Q1 (inter-quartile

range)

Page 67: Statystyka matematyczna i stosowana

Wykres ramkowy (Boxplot) Boxplot – graficzna reprezentacja:

mediany, kwartyli, maximum i minimum z danych.

„Ramka” („pudełko”) powstaje z obrysowania kwartyli

Linie („wąsy”) ciągą się do wartości najmniejszej i największej.

Page 68: Statystyka matematyczna i stosowana

BoxPlot

02468

1012

Page 69: Statystyka matematyczna i stosowana

Zmodyfikowany Boxplot Obserwacja odstająca:

błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp.

Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR

Page 70: Statystyka matematyczna i stosowana

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16

Page 71: Statystyka matematyczna i stosowana

Przykładowy zmodyfikowany wykres ramkowy (boxplot)

510

15

Page 72: Statystyka matematyczna i stosowana

Miary rorzutu:

Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania

Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji

Standardowe odchylenie / Wariancja Współczynnik zmienności (CV)

Page 73: Statystyka matematyczna i stosowana

Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od

średniej są obserwacje.

2

1

2 2

1

( ) /( 1) (definition)

( ) /( 1) (calculations)

n

ii

n

ii

s y y n

y ny n

Page 74: Statystyka matematyczna i stosowana

W mianowniku jest n-1:

2 2 2

1 1

,where1

( )n n

i ii i

SSs

n

SS y y y ny

Page 75: Statystyka matematyczna i stosowana

Próbkowa wariancja: s2

Przeciętny kwadrat odległości od średniej próbkowej: s2

Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane

Page 76: Statystyka matematyczna i stosowana

Dlaczego n-1 ? s2 jest nieobciążonym

estymatorem wariancji w populacji (te pojęcia wyjaśnimy później)

Σ devi=0 stąd

n-1 stopni swobody = n-1 jednostek informacji

1

1

n

n ii

dev dev

Page 77: Statystyka matematyczna i stosowana

Miary rozrzutu, cd. Współczynnik zmienności (CV)

Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4)

Rozstęp =

ysCV /

Page 78: Statystyka matematyczna i stosowana

Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4

średnia: s z definicji: SS =

wariancja: s2 = s=

y

Page 79: Statystyka matematyczna i stosowana

Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec.

Współczynnik zmienności: CV=

Page 80: Statystyka matematyczna i stosowana

Ogólne uwagi Duże s=duży rozrzut. Małe s=mały

rozrzut. Jeżeli histogram (rozkład ) jest w

kształcie dzwonu („normalny”), to około: 68% obserwacji jest w odległości 1 s

od średniej 95% obserwacji jest w odległości 2 s

od średniej 99% obserwacji jest w odległości 3 s

od średniej

Page 81: Statystyka matematyczna i stosowana

Nierówność Czebyszewa Nawet, gdy rozkład nie jest

normalny to co najmniej 75% obserwacji jest w

odległości 2 s od średniej co najmniej 89% obserwacji jest w

odległości 3 s od średniej.

Page 82: Statystyka matematyczna i stosowana

Przykład

13 14 12 14 13

12 17 14 13 19

14 11 10 14 15

13 20 20 18 12

Page 83: Statystyka matematyczna i stosowana

Przykład cd Średnia = 14.4, odchylenie

standardowe s = 2.9. y

Page 84: Statystyka matematyczna i stosowana

Ocena s z histogramu

Odcinekzawiera około 95 % danych.

Ocena s = (długość I) /4.

Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu).

( 2 , 2 )I y s y s

Page 85: Statystyka matematyczna i stosowana

Przykład (puls po ćwiczeniach) 95 % pomiarów jest pomiędzy 75 a

125

Faktyczne s = 13.4

Page 86: Statystyka matematyczna i stosowana

Porównanie miar rozrzutu i położenia

Miary rozrzutu służą do oszacowania zmienności w danych.

Odporność: Załóżmy, że mamy dość skupiony

„dzwonowy” (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację

zastąpimy bardzo dużą wartością?

Page 87: Statystyka matematyczna i stosowana

Mediana

Rozstęp

Średnia

Kwartyle i rozstęp międzykwartylowy

Standardowe odchylenie