Podstawy statystyki dla psychologów - zajęcia 13 - wprowadzenie do ANOVA

Podstawy statystyki dla psychologów

Jednoczynnikowa ANOVA

Zajęcia 13.

Karol Wolski

ANOVA – po co nam to?

• Czasami chcemy porównać więcej niż jedna grupę, np. siedem grup poddanych różnemu leczeniu. Co możemy zrobić?

• Pierwsza myśl, zrobić test t i porównać wszystkie 21 możliwych par

• Dlaczego nie? Zauważmy, że gdy obierzemy tę strategię, to błędy I rodzaju dla wszystkich analiz sumują nam się, a prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej rośnie do ok. 0,66

– 𝑝 = 1 − (0,95)21

• I jeszcze jedno nawet jeśli wykonamy wszystkie 21 porównań to i tak nie mamy obrazu całości, mamy jego 21 części

ANOVA – wprowadzenie

• Jednoczynnikowa ANOVA pozwala na porównywanie dwóch lub więcej grup jednocześnie.

• Jest blisko spokrewniona z testem t. W przypadku porównania dwóch grup obie techniki dają tożsame oszacowania. Test t można więc potraktować jako specyficzny przykład ANOVY


• Pomimo tego, że mówimy o analizie wariancji technika ta posłuży nam do testowania różnic pomiędzy średnimi

• Stąd H0 : 𝜇𝐴 = 𝜇𝐵 = 𝜇𝐶 = ⋯ = 𝜇𝑘 – Gdzie k oznacza liczbę warunków

eksperymentalnych/grup – Oczywiście hipoteza alternatywna zakłada, że mamy

przynajmniej jedną różnicę, niezależnie pomiędzy, który dwie średnimi

– Może ona być jedna, a może być ich kilka – Nie ma sensu mówić o hipotezie kierunkowej jeśli k>2


• Całkowite zróżnicowanie między wszystkimi wynikami podzielić możemy na:

– Zróżnicowanie wewnątrzgrupowe (inherentne) – jest ono niezależne od warunku eksperymentalnego, wynika np. z losowej zmienności próby – inaczej nazywane błędem

– Zróżnicowanie międzygrupowe – zróżnicowanie średnich dla różnych warunków eksperymentalnych będące efektem zróżnicowania inherentnego oraz manipulacji eksperymentalnej


• Logika ANOVA – W skrócie ANOVA polega na dokonaniu dwóch

niezależnych oszacowań wariancji populacyjnej oraz porównaniu ich ze sobą

– Pierwsze oszacowanie (wewnątrzgrupowe) oszacowanie tzw. wariancji błędu dokonywane jest na podstawie oszacowań wariancji w poszczególnych grupach oraz wyciągnięciu z nich

średniej 𝑠2

𝑘

– Drugie (międzygrupowe)

ANOVA – podział sum kwadratów

• Każdy pojedynczy wynik jak otrzymaliśmy możemy zapisać jako:

– X=średnia generalna + efekt oddziaływań + zróżnicowanie inherentne

– Gdzie: średnia generalna to średnia ze wszystkich

wyników, oznaczać ją będziemy: 𝑋

– Czyli: 𝑋 = 𝑋 + 𝑋 − 𝑋 + 𝑋 − 𝑋

• 𝑋 oznacza średnią z grupy, z której pochodzi dany X


• Idąc dalej każdy wynik możemy zapisać jako jego odchylenie od średniej generalnej:

𝑋 − 𝑋 = 𝑋 − 𝑋 + 𝑋 − 𝑋

• To daje nam już możliwość obliczenia sumy kwadratów odchyleń od średniej generalnej oraz dla zróżnicowania wew. i międzygrupowego

– 𝑆𝑆𝑐𝑎ł. = 𝑤𝑠𝑧𝑦𝑠𝑡𝑘𝑖𝑒 (𝑋 − 𝑋 )2

– 𝑆𝑆𝑤𝑒𝑤. = 𝑤𝑠𝑧𝑦𝑠𝑡𝑘𝑖𝑒 (𝑋 − 𝑋 )2

– 𝑆𝑆 𝑚𝑖𝑒𝑑𝑧. = (𝑋 𝑖 −𝑘𝑛𝑖

𝑋 )2 • Gdzie k – liczba grup, 𝑛𝑖 - liczba wyników i-tej grupie, a 𝑋 𝑖 - średnia

i-tej grupy


• Zatem:

– 𝑆𝑆𝑐𝑎ł𝑎. = 𝑆𝑆𝑚𝑖𝑒𝑑𝑧. + 𝑆𝑆𝑤𝑒𝑤.

– Ponieważ: 𝑋 − 𝑋 = 𝑋 − 𝑋 + 𝑋 − 𝑋

ANOVA – stopnie swobody

– 𝑑𝑓𝑐𝑎ł. = 𝑛𝑐𝑎ł − 1

– 𝑑𝑓𝑤𝑒𝑤. = 𝑛𝑐𝑎ł − 𝑘

– 𝑑𝑓𝑚𝑖𝑒𝑑𝑧. = 𝑘 − 1

– 𝑑𝑓𝑐𝑎ł. = 𝑑𝑓𝑚𝑖𝑒𝑑𝑧. + 𝑑𝑓𝑤𝑒𝑤.

ANOVA – oszacowanie wariancji

• Ogólnie wariancję oszacować możemy według wzoru 𝑠2 =

𝑆𝑆

𝑑𝑓

• Mamy więc:

• 𝑠𝑤𝑒𝑤.2 =

𝑆𝑆𝑤𝑒𝑤.

𝑑𝑓𝑤𝑒𝑤.

𝑜𝑠𝑧𝑎𝑐𝑜𝑤𝑎𝑛𝑖𝑎𝜎2 - oszacowanie

wariacji wewnątrzgrupowej (błędu)

• 𝑠𝑚𝑖𝑒𝑑𝑧.2 =

𝑆𝑆𝑚𝑖𝑒𝑑𝑧.

𝑑𝑓𝑚𝑖𝑒𝑑𝑧.

𝑜𝑠𝑧𝑎𝑐𝑜𝑤𝑎𝑛𝑖𝑎𝜎2 + 𝑒𝑓𝑒𝑘𝑡 𝑜𝑑𝑑𝑧𝑖𝑎ł𝑦𝑤𝑎ń –

oszacowanie wariacji międzygrupowej

ANOVA – stosunek F

• Hipoteza zerowa jest utrzymywana jeśli stosunek tych dwóch wariancji jest równy (w granicach błędu losowego)

• 𝐹 =𝑠𝑚𝑖𝑒𝑑𝑧.2

𝑠𝑤𝑒𝑤.2 =

𝑤𝑎𝑟.𝑖𝑛ℎ𝑒𝑟𝑒𝑛𝑡𝑛𝑎+𝑒𝑓𝑒𝑘𝑡

𝑤𝑎𝑟.𝑖𝑛ℎ𝑒𝑟𝑒𝑛𝑡𝑛𝑎

• Jeśli hipoteza zerowa jest prawdziwa to F=1

• Jeśli nie, to stosunek F powinien być większy – Skąd wiadomo o ile większy? Odnosimy to do

rozkładu F (tak jak wcześniej do rozkładu t)

Rozkład F dla różnych df

• Tablica: http://pl.wikisource.org/wiki/Tablica_rozk%C5%82adu_F_Snedecora

Wikipedia

Rozkład F dla różnych df

• Rozkład jest zawsze prawoskośny, stąd cały obszar odrzucenia znajduje się po jednej stronie rozkładu

• Wartość F nie może być mniejsza od zera (oszacowania wariancji nie mogą być bowiem mniejsze nić zero, w końcu są kwadratami SS)

• Jeśli F<1 to zapewne mamy do czynienia z jakimś błędem próby

Założenia ANOVA

• Rozkład normalny w populacjach

• Homogeniczność wariancji

• Dobór do każdej z prób jest niezależny

• Próby wybierane losowo zgodnie ze schematem losowania zwrotnego.

ANOVA – wielkość efektu

• Miara ta należy do rodziny r (nazywamy ją eta kwadrat):

– η2 =𝑆𝑆𝑚𝑖𝑒𝑑𝑧.

𝑆𝑆𝑐𝑎ł.

Co dalej?

• ANOVA odpowiada nam na pytanie, czy gdzieś jest różnica, pytanie co różni się od czego?

• Mamy do wyboru dwie opcje dalszej analizy

– Porównania post hoc – nie wymagają one wcześniejszych założeń

– Porównania zaplanowane

Porównania post hov

• Aby użyć, któregoś z testów pozwalającego dokonać porównań post hoc, musimy najpierw otrzymać istotny stosunek F

• Jednym z takich testów jest test HSD Tukeya • W przypadków tych testów, nie narażamy się na

sumowanie się błędów I rodzaju, dlaczego? – Ponieważ nie używamy tutaj rozkładu, średnie istotne

stat. to po prostu takie średnie, które będą się różnić o daną wartość

– Różnice te jednak muszą być większe niż te wymagane przez test t, aby nie narażać nas na błąd I rodzaju

Porównania zaplanowane

• Planujemy wcześniej co będziemy porównywać, nie zawsze interesują nas wszystkie porównania

• Nie jest wymagana istotność F

• Aby je wykonać stosujemy test t dla prób niezależnych, jednak jako błąd przyjmujemy wartość 𝑠𝑤𝑒𝑤.

2 co daje nam dokładniejsze oszacowanie, a nie obliczamy go tylko na podstawie porównywanych grup

Podstawy statystyki dla psychologów - zajęcia 13 - wprowadzenie do ANOVA

Education

Transcript of Podstawy statystyki dla psychologów - zajęcia 13 - wprowadzenie do ANOVA