problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...

© Copyright StatSoft Polska, 2016

Poziom istotności i granica rozsądku- problem porównań wielokrotnych

w badaniach naukowych

dr Dariusz Danel

Instytut Immunologii i Terapii DoświadczalnejPolskiej Akademii Nauk

Zastosowania statystyki i data mining w badaniach naukowych

Warszawa, 12 października 2016


Testowanie hipotez

■ Testowanie statystyczne (Stanisz 2006):

1. formułowanie hipotezy zerowej (H0) oraz alternatywnej (H1)

2. określenie poziomu istotności statystycznej,

3. wyliczenie wartości testu statystycznego dla danych z próby,

4. porównanie wartości testu z wartościami krytycznymi dla danego poziomu istotności,

5. podjęcie decyzji o przyjęciu H0 lub jej odrzuceniu i przyjęciu H1na określonym poziomie istotności


Poziom istotności statystycznej α i błąd I rodzaju

■ Prawdopodobieństwo uzyskania wyniku testu, który uprawnia do odrzucenia H0 i przyjęcia H1, gdy H0 jest poprawna,

■ Maksymalne akceptowalne ryzyko pomyłki (α)

■ pomyłka = błąd I rodzaju: nie da się go uniknąć

■ P(10 x orzeł na 10 rzutów rzetelną monetą) = 0,001

■ Poziom α (np. α = 0,05)

■ prawdopodobieństwo pojawienia się określonego (istotnego)wyniku przez czysty przypadek

■ prawdopodobieństwo pojawienia się wyniku fałszywieistotnego statystycznie („fałszywie pozytywnego”)

■ Poziom p – ryzyko pomyłki określone dla danego testu

p < α wynik istotny statystycznie


Błąd II rodzaju i wartość β

■ błąd II rodzaju = przyjęcie, „podtrzymanie” H0 w sytuacji gdy w rzeczywistości prawdziwą jest H1

■ Oznacza przeoczenie prawdziwego zjawiska

■ Zwyczajowo ryzyko pomyłki β = 0,20.

■ Można zminimalizować, ale bez przebadania całej populacji generalnej nie da się wykluczyć


Błąd I rodzaju vs. Błąd II rodzaju

■ Zmniejszenie poziomu α powoduje zwiększenie poziomu β i odwrotnie

■ Zwyczajowo uważa się, że błąd I rodzaju jest groźniejszy,ponieważ podważa „bezpieczną” hipotezę zerową

Grafika; http://grasshopper.com/blog/the-errors-of-ab-testing-your-conclusions-can-make-things-worse/


Porównania wielokrotne – inflacja poziomu α.

■ Cel badań naukowych: odrzucić H0 i ogłosić światu nowe odkrycie

Ryzyko pomylenia się α = 0,05 („zrobienia z siebie głupca” odrzucając prawdziwą H0)

Prawdopodobieństwo „nie pomylenia się”: Pn = 1–α = 1–0,05 = 0,95

Tylko dla pojedynczego testu!

Przy k=2-krotnym testowaniu – koniunkcja zdarzeń:

Prawdopodobieństwo „nie pomylenia się”: Pn = (1-0,05) x (1–0,05) = 0,952 = 0,9025

Ryzyko pomylenia się co najmniej raz Pp = 1- 0,952 = 0,0975

Przy k=6-krotnym testowaniu: Pp = 1-(1- α)k = 1-(1-0,05)6 = 0,265

Sporo!


Porównanie (testowanie) wielokrotne – praktyka badawcza, którapolega na wykorzystaniu tego samego zbioru danych doprzeprowadzenia więcej niż jednego testu statystycznego (Tukey,1977).

■ Przykład: Badanie istotności różnic płciowych w liczbie elementówmorfotycznych krwi

■ N=1000 ♀♀ + 1000 ♂♂

■ Porównanie liczby:

■ erytrocytów - ok

■ limfocytów - x

■ trombocyty - x

■ leukocyty - x

Porównania wielokrotne – definicja


Metody kontroli błędu I rodzaju

■ Eksperymenty czynnikowe typu ANOVA

■ Porównania wielokrotne między średnimi przeprowadzane są „z automatu” w ramach analizy post-hoc

■ Metody (w większości) pozwalają kontrolować błąd I rodzaju

■ Szczegółowy opis: Stanisz, 2007


■ Gdy brak formalnego modelu statystycznego:

■ Typowe porównania wielokrotne

■ Poprawka Bonferroniego

■ Poprawka Šidák’a

■ Poprawka Holm-Bonferroniego (sekwencyjna poprawka Bonferroniego)

■ Głowna zasada:

■ redukcja poziomu istotności statystycznej w zależności od liczby porównań

■ gdy rozpatrywana wartość testowa p jest mniejszaod zredukowanego poziomu α test jest

istotny statystycznie

Metody kontroli błędu I rodzaju


■ Poprawka Bonferroniego

■ Najpopularniejsza, najprostsza

■ Dla całej rodziny porównań redukuje poziom α według wzoru:

α’ = α/k,

gdzie k to liczba porównań wielokrotnych (testowanych hipotez)

■ Wynik istotny na poziomie α gdy p< α/k

■ Np. dla 5 porównań wielokrotnych zredukowany poziom istotności α=0,05 wynosi α’ = α/k = 0,05/5 = 0,01

■ Tylko wartości p


Właściwości poprawek na porównania wielokrotne

■ Ze wzrostem liczby porównań znacznie obniża się progowy poziom α

– są bardziej konserwatywne

■ Nie uwzględniają zasady:

„kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p”

■ Groźny „efekt uboczny”:zwiększenie ryzyka błędu II rodzaju

Liczba porównań k

Zredukowany poziom α=0,05

5 α’=0,01

10 α’=0,005


Konsekwencje nierozsądnego stosowania poprawek

■ Filozoficzno-etyczne & finansowe

■ Nauki medyczne – zdrowie i życie:

■ Wykrycie większej skuteczność leczenia Metody A niż Metody B (p =0,02) zależy… od tego czy do porównań włączono Metodę C (α’ = 0,05/3 = 0,017)

■ Większa skuteczność nowego leku X niż leku Y zależy od tego ile innych leków włączono do porównań (ryzyko strat finansowych i szans na opracowanie nowego leku)


■ Uczciwość i rzetelność naukowa

■ „badacz jest karany za rzetelne i dokładne badania”

■ Np. 4 testy wielokrotne współczynników korelacji: p1 = 0,03; p2 =0,16; p3 = 0,26; p4 = 0,04

■ Zastosowanie poprawek brak wyników istotnych (α’ = 0,0125)

Konsekwencje nierozsądnego stosowania poprawek

Co robić???

■ Być uczciwym? Opisać rzetelnie badanie i walczyć (latami) o publikację nieistotnych wyników (publication bias)

■ Oszukać? Opisać tylko dwa istotne wyniki i zataić nieistotne (data fishing)

■ Pokombinować? Dla każdego istotnego wynikunapisać osobny artykuł (data slicing)


1. Zachować zdrowy rozsądek

■ Rozsądna kontrola błędu α:

■ Diagnozowanie chorób – np. 40 testów, co najmniej 1 test istotny statystycznie: p=0,87

■ Badania psychologiczne – baterię testów

■ Eksploracja danych bez konkretnych hipotez badawczych

Dylemat naukowca α czy β? co wybrać, co robić?


2. Rozważyć liczbę testów istotnych stat., a nie tylko wartości p

Uwaga i koncentracja (test D2 – 15 zmiennych), a aktywność układu autonomicznego (1 zmienna)

„…kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p…”


7/15 wyników p


3. Obliczyć wielkość efektu (effect size)

p < α – informuje że badane zjawisko najprawdopodobniej istnieje

p – nie mówi jak ważny/znaczący jest badany efekt

Sposoby obliczenia wielkości efektu np. Nakagawa & Cuthill (2007), Sullivan & Fein (2012), STATISTICA



4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych

■ Koncepcja False Discovery Rate (FDR) i q-value

■ Podejście klasyczne – kontrola ryzyka odrzucenia przynajmniej 1 prawdziwej H0

■ Podejście FDR - kontrola frakcji wyników fałszywie istotnych

Wynik fałszywie istotny – uznany za istotny gdy w rzeczywistości jest nieistotny (błąd I rodzaju)

𝐹𝐷𝑅 =nwyników fałszywie istotnych stat.

n wszystkich wynikówwyananych za istotnte stat.



4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych c.d.

■ Koncepcja False Discovery Rate (FDR) i q-value

■ q-value – prawdopodobieństwo, że określony wynik, który został nazwany istotnym jest w rzeczywistości nieistotny

Gdy q mniejsze od wartości krytycznej np. q


Podsumowanie

■ Wykonując porównania wielokrotne, częste w nauce, badacz naraża się na błąd I rodzaju, czyli wyniki przypadkowo istotne statystycznie.

■ Błąd I rodzaju jest groźny i należy go kontrolować.

■ Ale nie obsesyjne! (można przeoczyć ważnych efekty i zjawiska).

■ Istnieje wiele metod ułatwiających rozwiązanie problemu porównań wielokrotnych.

■ Nie ma metody uniwersalnej.

■ Pozostaje zachowanie zdrowego rozsądku.

problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...

Documents

Transcript of problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...