Podstawy statystyki dla psychologów - zajęcia 13 - wprowadzenie do ANOVA
-
Upload
karol-wolski -
Category
Education
-
view
6.139 -
download
0
description
Transcript of Podstawy statystyki dla psychologów - zajęcia 13 - wprowadzenie do ANOVA
Podstawy statystyki dla psychologów
Jednoczynnikowa ANOVA
Zajęcia 13.
Karol Wolski
ANOVA – po co nam to?
• Czasami chcemy porównać więcej niż jedna grupę, np. siedem grup poddanych różnemu leczeniu. Co możemy zrobić?
• Pierwsza myśl, zrobić test t i porównać wszystkie 21 możliwych par
• Dlaczego nie? Zauważmy, że gdy obierzemy tę strategię, to błędy I rodzaju dla wszystkich analiz sumują nam się, a prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej rośnie do ok. 0,66
– 𝑝 = 1 − (0,95)21
• I jeszcze jedno nawet jeśli wykonamy wszystkie 21 porównań to i tak nie mamy obrazu całości, mamy jego 21 części
ANOVA – wprowadzenie
• Jednoczynnikowa ANOVA pozwala na porównywanie dwóch lub więcej grup jednocześnie.
• Jest blisko spokrewniona z testem t. W przypadku porównania dwóch grup obie techniki dają tożsame oszacowania. Test t można więc potraktować jako specyficzny przykład ANOVY
ANOVA – wprowadzenie
• Pomimo tego, że mówimy o analizie wariancji technika ta posłuży nam do testowania różnic pomiędzy średnimi
• Stąd H0 : 𝜇𝐴 = 𝜇𝐵 = 𝜇𝐶 = ⋯ = 𝜇𝑘 – Gdzie k oznacza liczbę warunków
eksperymentalnych/grup – Oczywiście hipoteza alternatywna zakłada, że mamy
przynajmniej jedną różnicę, niezależnie pomiędzy, który dwie średnimi
– Może ona być jedna, a może być ich kilka – Nie ma sensu mówić o hipotezie kierunkowej jeśli k>2
ANOVA – wprowadzenie
• Całkowite zróżnicowanie między wszystkimi wynikami podzielić możemy na:
– Zróżnicowanie wewnątrzgrupowe (inherentne) – jest ono niezależne od warunku eksperymentalnego, wynika np. z losowej zmienności próby – inaczej nazywane błędem
– Zróżnicowanie międzygrupowe – zróżnicowanie średnich dla różnych warunków eksperymentalnych będące efektem zróżnicowania inherentnego oraz manipulacji eksperymentalnej
ANOVA – wprowadzenie
• Logika ANOVA – W skrócie ANOVA polega na dokonaniu dwóch
niezależnych oszacowań wariancji populacyjnej oraz porównaniu ich ze sobą
– Pierwsze oszacowanie (wewnątrzgrupowe) oszacowanie tzw. wariancji błędu dokonywane jest na podstawie oszacowań wariancji w poszczególnych grupach oraz wyciągnięciu z nich
średniej 𝑠2
𝑘
– Drugie (międzygrupowe)
ANOVA – podział sum kwadratów
• Każdy pojedynczy wynik jak otrzymaliśmy możemy zapisać jako:
– X=średnia generalna + efekt oddziaływań + zróżnicowanie inherentne
– Gdzie: średnia generalna to średnia ze wszystkich
wyników, oznaczać ją będziemy: 𝑋
– Czyli: 𝑋 = 𝑋 + 𝑋 − 𝑋 + 𝑋 − 𝑋
• 𝑋 oznacza średnią z grupy, z której pochodzi dany X
ANOVA – podział sum kwadratów
• Idąc dalej każdy wynik możemy zapisać jako jego odchylenie od średniej generalnej:
𝑋 − 𝑋 = 𝑋 − 𝑋 + 𝑋 − 𝑋
• To daje nam już możliwość obliczenia sumy kwadratów odchyleń od średniej generalnej oraz dla zróżnicowania wew. i międzygrupowego
– 𝑆𝑆𝑐𝑎ł. = 𝑤𝑠𝑧𝑦𝑠𝑡𝑘𝑖𝑒 (𝑋 − 𝑋 )2
– 𝑆𝑆𝑤𝑒𝑤. = 𝑤𝑠𝑧𝑦𝑠𝑡𝑘𝑖𝑒 (𝑋 − 𝑋 )2
– 𝑆𝑆 𝑚𝑖𝑒𝑑𝑧. = (𝑋 𝑖 −𝑘𝑛𝑖
𝑋 )2 • Gdzie k – liczba grup, 𝑛𝑖 - liczba wyników i-tej grupie, a 𝑋 𝑖 - średnia
i-tej grupy
ANOVA – podział sum kwadratów
• Zatem:
– 𝑆𝑆𝑐𝑎ł𝑎. = 𝑆𝑆𝑚𝑖𝑒𝑑𝑧. + 𝑆𝑆𝑤𝑒𝑤.
– Ponieważ: 𝑋 − 𝑋 = 𝑋 − 𝑋 + 𝑋 − 𝑋
ANOVA – stopnie swobody
– 𝑑𝑓𝑐𝑎ł. = 𝑛𝑐𝑎ł − 1
– 𝑑𝑓𝑤𝑒𝑤. = 𝑛𝑐𝑎ł − 𝑘
– 𝑑𝑓𝑚𝑖𝑒𝑑𝑧. = 𝑘 − 1
– 𝑑𝑓𝑐𝑎ł. = 𝑑𝑓𝑚𝑖𝑒𝑑𝑧. + 𝑑𝑓𝑤𝑒𝑤.
ANOVA – oszacowanie wariancji
• Ogólnie wariancję oszacować możemy według wzoru 𝑠2 =
𝑆𝑆
𝑑𝑓
• Mamy więc:
• 𝑠𝑤𝑒𝑤.2 =
𝑆𝑆𝑤𝑒𝑤.
𝑑𝑓𝑤𝑒𝑤.
𝑜𝑠𝑧𝑎𝑐𝑜𝑤𝑎𝑛𝑖𝑎𝜎2 - oszacowanie
wariacji wewnątrzgrupowej (błędu)
• 𝑠𝑚𝑖𝑒𝑑𝑧.2 =
𝑆𝑆𝑚𝑖𝑒𝑑𝑧.
𝑑𝑓𝑚𝑖𝑒𝑑𝑧.
𝑜𝑠𝑧𝑎𝑐𝑜𝑤𝑎𝑛𝑖𝑎𝜎2 + 𝑒𝑓𝑒𝑘𝑡 𝑜𝑑𝑑𝑧𝑖𝑎ł𝑦𝑤𝑎ń –
oszacowanie wariacji międzygrupowej
ANOVA – stosunek F
• Hipoteza zerowa jest utrzymywana jeśli stosunek tych dwóch wariancji jest równy (w granicach błędu losowego)
• 𝐹 =𝑠𝑚𝑖𝑒𝑑𝑧.2
𝑠𝑤𝑒𝑤.2 =
𝑤𝑎𝑟.𝑖𝑛ℎ𝑒𝑟𝑒𝑛𝑡𝑛𝑎+𝑒𝑓𝑒𝑘𝑡
𝑤𝑎𝑟.𝑖𝑛ℎ𝑒𝑟𝑒𝑛𝑡𝑛𝑎
• Jeśli hipoteza zerowa jest prawdziwa to F=1
• Jeśli nie, to stosunek F powinien być większy – Skąd wiadomo o ile większy? Odnosimy to do
rozkładu F (tak jak wcześniej do rozkładu t)
Rozkład F dla różnych df
• Tablica: http://pl.wikisource.org/wiki/Tablica_rozk%C5%82adu_F_Snedecora
Wikipedia
Rozkład F dla różnych df
• Rozkład jest zawsze prawoskośny, stąd cały obszar odrzucenia znajduje się po jednej stronie rozkładu
• Wartość F nie może być mniejsza od zera (oszacowania wariancji nie mogą być bowiem mniejsze nić zero, w końcu są kwadratami SS)
• Jeśli F<1 to zapewne mamy do czynienia z jakimś błędem próby
Założenia ANOVA
• Rozkład normalny w populacjach
• Homogeniczność wariancji
• Dobór do każdej z prób jest niezależny
• Próby wybierane losowo zgodnie ze schematem losowania zwrotnego.
ANOVA – wielkość efektu
• Miara ta należy do rodziny r (nazywamy ją eta kwadrat):
– η2 =𝑆𝑆𝑚𝑖𝑒𝑑𝑧.
𝑆𝑆𝑐𝑎ł.
Co dalej?
• ANOVA odpowiada nam na pytanie, czy gdzieś jest różnica, pytanie co różni się od czego?
• Mamy do wyboru dwie opcje dalszej analizy
– Porównania post hoc – nie wymagają one wcześniejszych założeń
– Porównania zaplanowane
Porównania post hov
• Aby użyć, któregoś z testów pozwalającego dokonać porównań post hoc, musimy najpierw otrzymać istotny stosunek F
• Jednym z takich testów jest test HSD Tukeya • W przypadków tych testów, nie narażamy się na
sumowanie się błędów I rodzaju, dlaczego? – Ponieważ nie używamy tutaj rozkładu, średnie istotne
stat. to po prostu takie średnie, które będą się różnić o daną wartość
– Różnice te jednak muszą być większe niż te wymagane przez test t, aby nie narażać nas na błąd I rodzaju
Porównania zaplanowane
• Planujemy wcześniej co będziemy porównywać, nie zawsze interesują nas wszystkie porównania
• Nie jest wymagana istotność F
• Aby je wykonać stosujemy test t dla prób niezależnych, jednak jako błąd przyjmujemy wartość 𝑠𝑤𝑒𝑤.
2 co daje nam dokładniejsze oszacowanie, a nie obliczamy go tylko na podstawie porównywanych grup