Programy hodowlane i pakiety statystyczne
description
Transcript of Programy hodowlane i pakiety statystyczne
Programy hodowlane i pakiety statystyczne
dr Tomasz Strabel /programy/dr Maciej Szydłowski /pakiety/
http://jay.au.poznan.pl/~strabelregulamin + program
Plan na dziś
1. Przypomnienie paru terminów i metod statystycznych
2. Podstawy pracy z pakietem Statistica
3. Zadania ćwiczeniowe
Gdzie szukać danych?
•http://lib.stat.cmu.edu/datasets
•http/support.sas.com/training/forms/hecftp1.html
•http://www.amstat.org/publications/jse/datasets/moore/
•dane w pakiecie R
Relacje między zmiennymi
• Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób.
• Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.
Dwie podstawowe cechy relacji
• Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża.
• Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).
Wspólna postać większości testów statystycznych.
• Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej)
• Np. wariancja spowodowana wpływem rasy do pozostałej wariancji.
• Jak duży to musi stosunek, żeby uznać go za istotny?
Czy 40% wyjaśnionej zmienności jest
wystarczające do uznania relacji za istotną?
• Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną.
• Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności.
• Czy coś jest istotne czy nie, zależy od poziomu istotności.
Poziom istotności
• Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji.
• Malejący wskaźnik wiarygodności rezultatu.
• Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.
Jaki wynik jest istotny?
• Graniczny poziom istotności jest sprawą umowną
• Utrwalona tradycja:– p Ł 0.05 – wynik statystycznie istotny– p Ł 0.01 – wynik wysoce istotny
Jak wyliczyć poziom istotności?
• Obliczenia są złożone i różne w różnych przypadkach.
• Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego.
• Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).
Rozkład normalny
• Ma kształt dzwonu i zależy od średniej i odch. stand.
• 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej
• 95% przypadków w przedziale ±2 odch. stand.
Jak stwierdzić czy rozkład jest normalny?
• Wykresy normalności• Testy normalności
Wykres normalności
• Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y).
• W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.
Testy normalności
• Test Kołmogorowa-Smirnowa (znana średnia i wariancja)
• Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek)
• Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)
Co, jeżeli zmienna nie ma rozkładu normalnego?
• Transformacja danych
• Testy niezależne od rozkładu (nie parametryczne) – mają małą moc!
• Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?
Centralne twierdzenie graniczne
Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.
Jeszcze jeden powód popularności testów opartch
na rozkładzie normalnym
Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej.
Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.
Istotność statystyczna a liczba przeprowadzonych
analiz• Im więcej analiz przeprowadzimy, tym
większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne)
• 10 zmiennych to 45 korelacji i ok. 2 korelacji z p Ł 0,05
• Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?
test t
• Testowanie pojedynczej średniej
• Porównanie średnich w dwóch grupach:
– Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową
– Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień
Testowanie pojedynczej średniej
Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)?
Założenie: rozład normalny
Testowanie różnic między dwiema grupami – grupy
niezależne• Czy rasa wbp i pbz mają różne tempo
przyrostu? (Statistica: Test t dla prób niezależnych w grupach)
• Próby nie muszą być duże, np. po 10 obserwacji.
• Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .
Testowanie różnic między dwiema grupami – c.d.
• Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa
• Nie wszyscy się z tym zgadzają!
Pakiet Statistica
Import danych tekstowych
1 2
3
4
5
Pamiętaj! Zamień kropki na przecinki
Podstawowe statystyki opisowe
Podstawowe statystyki opisowe
Podstawowe statystyki opisowe
Wykres ramka-wąsyWy kres ramka-wąsy
Średnia = 832,4433 Średnia±Odch.std = (723,5168, 941,3698) Średnia±1,96*Odch.std = (618,9474, 1045,9392)
przy rost600
650
700
750
800
850
900
950
1000
1050
1100
Wykresy rozkładu
histogram - słupek proporcjonalny do liczby obserwacji w przedziale
wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.:
7° 000038
4 wartości = 7,0
1 wartość = 7,3
1 wartość = 7,8
Histogram – 2 cechy
Wykres łodyga-liść
Rozkład normalny
Cecha o rozkładzie normalnymWy kres normalności: cecha2
48 50 52 54 56 58 60 62 64 66 68 70
Wartość
-4
-3
-2
-1
0
1
2
3
4
Warto
ść
no
rmaln
a
Cecha o innym rozkładzieWy kres normalności: cecha_f izjo
0 2 4 6 8 10 12 14 16
Wartość
-4
-2
0
2
4
6
8
Warto
ść
no
rma
lna
Testy normalności
Wykresy skategoryzowane
Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie.
Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.
Histogram skategor.: cecha_f izjo
rasa: wbp cecha_f izjo = 128*2*normal(x; 2,4297; 1,8177)rasa: pbz cecha_f izjo = 109*2*normal(x; 2,4778; 1,2432)
rasa: L990 cecha_f izjo = 151*2*normal(x; 2,1383; 1,0369)
cecha_f izjo
Lic
zba
ob
s.
rasa: wbp
-2 0 2 4 6 8 10 12 14 16 180
20
40
60
80
100
120
140
rasa: pbz
-2 0 2 4 6 8 10 12 14 16 18
rasa: L990
-2 0 2 4 6 8 10 12 14 16 180
20
40
60
80
100
120
140
Wy kres ramka-wąsy :
Średnia Średnia±Odch.std Średnia±1,96*Odch.std
wbp pbz L990
rasa
500
600
700
800
900
1000
1100
1200
prz
yro
st
Wykresy powierzchniowe 3W
Wykresy powierzchniowe 3W- funkcje wygładzania
powierzchni• Liniowa. Do punktów na wykresie
rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY).
• Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia.
• Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni
Wykres macierzowyKorelacje (dane 9v *388c)
przyrost dzienny
% mięsa w tuszy
stężenie leptyny
Porównanie średnich
AGE: Age (years)SEX: Sex (1=Male, 2=Female).SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker)QUETELET: Quetelet (weight/(height^2))VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No)CALORIES: Number of calories consumed per day.FAT: Grams of fat consumed per day.FIBER: Grams of fiber consumed per day.ALCOHOL: Number of alcoholic drinks consumed per week.CHOLESTEROL: Cholesterol consumed (mg per day).BETADIET: Dietary beta-carotene consumed (mcg per day).RETDIET: Dietary retinol consumed (mcg per day)BETAPLASMA: Plasma beta-carotene (ng/ml)RETPLASMA: Plasma Retinol (ng/ml)
Plasma-Retinolhttp://lib.stat.cmu.edu/datasets
Zadania
1. Oblicz średnie2. Utwórz skategoryzowane (względem
nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu
3. Narysuj histogramy spożycia kalorii i cholesterolu
4. Przetestuj normalność spożycia kalorii i cholesterolu
5. Czy płeć różnicuje spożycie alkoholu lub cholesterolu?
Dla chętnychCPS_85_Wages
http://lib.stat.cmu.edu/datasets
1. Czy zarobki mają rozkład normalny?2. Jakie są średnie zarobki i ich zróżnicowanie w
grupie mężczyzn i kobiet?3. Czy zarobki zależą od płci?4. Czy zawarcie związku małżeńskiego może się
przełożyć na zwiększone zarobki?5. Czy przynależność do związku zawodowego
zwiększa zarobki?