problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...
Transcript of problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...
-
© Copyright StatSoft Polska, 2016
Poziom istotności i granica rozsądku- problem porównań wielokrotnych
w badaniach naukowych
dr Dariusz Danel
Instytut Immunologii i Terapii DoświadczalnejPolskiej Akademii Nauk
Zastosowania statystyki i data mining w badaniach naukowych
Warszawa, 12 października 2016
-
© Copyright StatSoft Polska, 2016
Testowanie hipotez
■ Testowanie statystyczne (Stanisz 2006):
1. formułowanie hipotezy zerowej (H0) oraz alternatywnej (H1)
2. określenie poziomu istotności statystycznej,
3. wyliczenie wartości testu statystycznego dla danych z próby,
4. porównanie wartości testu z wartościami krytycznymi dla danego poziomu istotności,
5. podjęcie decyzji o przyjęciu H0 lub jej odrzuceniu i przyjęciu H1na określonym poziomie istotności
-
© Copyright StatSoft Polska, 2016
Poziom istotności statystycznej α i błąd I rodzaju
■ Prawdopodobieństwo uzyskania wyniku testu, który uprawnia do odrzucenia H0 i przyjęcia H1, gdy H0 jest poprawna,
■ Maksymalne akceptowalne ryzyko pomyłki (α)
■ pomyłka = błąd I rodzaju: nie da się go uniknąć
■ P(10 x orzeł na 10 rzutów rzetelną monetą) = 0,001
■ Poziom α (np. α = 0,05)
■ prawdopodobieństwo pojawienia się określonego (istotnego)wyniku przez czysty przypadek
■ prawdopodobieństwo pojawienia się wyniku fałszywieistotnego statystycznie („fałszywie pozytywnego”)
■ Poziom p – ryzyko pomyłki określone dla danego testu
p < α wynik istotny statystycznie
-
© Copyright StatSoft Polska, 2016
Błąd II rodzaju i wartość β
■ błąd II rodzaju = przyjęcie, „podtrzymanie” H0 w sytuacji gdy w rzeczywistości prawdziwą jest H1
■ Oznacza przeoczenie prawdziwego zjawiska
■ Zwyczajowo ryzyko pomyłki β = 0,20.
■ Można zminimalizować, ale bez przebadania całej populacji generalnej nie da się wykluczyć
-
© Copyright StatSoft Polska, 2016
Błąd I rodzaju vs. Błąd II rodzaju
■ Zmniejszenie poziomu α powoduje zwiększenie poziomu β i odwrotnie
■ Zwyczajowo uważa się, że błąd I rodzaju jest groźniejszy,ponieważ podważa „bezpieczną” hipotezę zerową
Grafika; http://grasshopper.com/blog/the-errors-of-ab-testing-your-conclusions-can-make-things-worse/
-
© Copyright StatSoft Polska, 2016
Porównania wielokrotne – inflacja poziomu α.
■ Cel badań naukowych: odrzucić H0 i ogłosić światu nowe odkrycie
Ryzyko pomylenia się α = 0,05 („zrobienia z siebie głupca” odrzucając prawdziwą H0)
Prawdopodobieństwo „nie pomylenia się”: Pn = 1–α = 1–0,05 = 0,95
Tylko dla pojedynczego testu!
Przy k=2-krotnym testowaniu – koniunkcja zdarzeń:
Prawdopodobieństwo „nie pomylenia się”: Pn = (1-0,05) x (1–0,05) = 0,952 = 0,9025
Ryzyko pomylenia się co najmniej raz Pp = 1- 0,952 = 0,0975
Przy k=6-krotnym testowaniu: Pp = 1-(1- α)k = 1-(1-0,05)6 = 0,265
Sporo!
-
© Copyright StatSoft Polska, 2016
Porównanie (testowanie) wielokrotne – praktyka badawcza, którapolega na wykorzystaniu tego samego zbioru danych doprzeprowadzenia więcej niż jednego testu statystycznego (Tukey,1977).
■ Przykład: Badanie istotności różnic płciowych w liczbie elementówmorfotycznych krwi
■ N=1000 ♀♀ + 1000 ♂♂
■ Porównanie liczby:
■ erytrocytów - ok
■ limfocytów - x
■ trombocyty - x
■ leukocyty - x
Porównania wielokrotne – definicja
-
© Copyright StatSoft Polska, 2016
Metody kontroli błędu I rodzaju
■ Eksperymenty czynnikowe typu ANOVA
■ Porównania wielokrotne między średnimi przeprowadzane są „z automatu” w ramach analizy post-hoc
■ Metody (w większości) pozwalają kontrolować błąd I rodzaju
■ Szczegółowy opis: Stanisz, 2007
-
© Copyright StatSoft Polska, 2016
■ Gdy brak formalnego modelu statystycznego:
■ Typowe porównania wielokrotne
■ Poprawka Bonferroniego
■ Poprawka Šidák’a
■ Poprawka Holm-Bonferroniego (sekwencyjna poprawka Bonferroniego)
■ Głowna zasada:
■ redukcja poziomu istotności statystycznej w zależności od liczby porównań
■ gdy rozpatrywana wartość testowa p jest mniejszaod zredukowanego poziomu α test jest
istotny statystycznie
Metody kontroli błędu I rodzaju
-
© Copyright StatSoft Polska, 2016
■ Poprawka Bonferroniego
■ Najpopularniejsza, najprostsza
■ Dla całej rodziny porównań redukuje poziom α według wzoru:
α’ = α/k,
gdzie k to liczba porównań wielokrotnych (testowanych hipotez)
■ Wynik istotny na poziomie α gdy p< α/k
■ Np. dla 5 porównań wielokrotnych zredukowany poziom istotności α=0,05 wynosi α’ = α/k = 0,05/5 = 0,01
■ Tylko wartości p
-
© Copyright StatSoft Polska, 2016
Właściwości poprawek na porównania wielokrotne
■ Ze wzrostem liczby porównań znacznie obniża się progowy poziom α
– są bardziej konserwatywne
■ Nie uwzględniają zasady:
„kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p”
■ Groźny „efekt uboczny”:zwiększenie ryzyka błędu II rodzaju
Liczba porównań k
Zredukowany poziom α=0,05
5 α’=0,01
10 α’=0,005
-
© Copyright StatSoft Polska, 2016
Konsekwencje nierozsądnego stosowania poprawek
■ Filozoficzno-etyczne & finansowe
■ Nauki medyczne – zdrowie i życie:
■ Wykrycie większej skuteczność leczenia Metody A niż Metody B (p =0,02) zależy… od tego czy do porównań włączono Metodę C (α’ = 0,05/3 = 0,017)
■ Większa skuteczność nowego leku X niż leku Y zależy od tego ile innych leków włączono do porównań (ryzyko strat finansowych i szans na opracowanie nowego leku)
-
© Copyright StatSoft Polska, 2016
■ Uczciwość i rzetelność naukowa
■ „badacz jest karany za rzetelne i dokładne badania”
■ Np. 4 testy wielokrotne współczynników korelacji: p1 = 0,03; p2 =0,16; p3 = 0,26; p4 = 0,04
■ Zastosowanie poprawek brak wyników istotnych (α’ = 0,0125)
Konsekwencje nierozsądnego stosowania poprawek
Co robić???
■ Być uczciwym? Opisać rzetelnie badanie i walczyć (latami) o publikację nieistotnych wyników (publication bias)
■ Oszukać? Opisać tylko dwa istotne wyniki i zataić nieistotne (data fishing)
■ Pokombinować? Dla każdego istotnego wynikunapisać osobny artykuł (data slicing)
-
© Copyright StatSoft Polska, 2016
1. Zachować zdrowy rozsądek
■ Rozsądna kontrola błędu α:
■ Diagnozowanie chorób – np. 40 testów, co najmniej 1 test istotny statystycznie: p=0,87
■ Badania psychologiczne – baterię testów
■ Eksploracja danych bez konkretnych hipotez badawczych
Dylemat naukowca α czy β? co wybrać, co robić?
-
© Copyright StatSoft Polska, 2016
2. Rozważyć liczbę testów istotnych stat., a nie tylko wartości p
Uwaga i koncentracja (test D2 – 15 zmiennych), a aktywność układu autonomicznego (1 zmienna)
„…kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p…”
Dylemat naukowca α czy β? co wybrać, co robić?
7/15 wyników p
-
© Copyright StatSoft Polska, 2016
3. Obliczyć wielkość efektu (effect size)
p < α – informuje że badane zjawisko najprawdopodobniej istnieje
p – nie mówi jak ważny/znaczący jest badany efekt
Sposoby obliczenia wielkości efektu np. Nakagawa & Cuthill (2007), Sullivan & Fein (2012), STATISTICA
Dylemat naukowca α czy β? co wybrać, co robić?
-
© Copyright StatSoft Polska, 2016
4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych
■ Koncepcja False Discovery Rate (FDR) i q-value
■ Podejście klasyczne – kontrola ryzyka odrzucenia przynajmniej 1 prawdziwej H0
■ Podejście FDR - kontrola frakcji wyników fałszywie istotnych
Wynik fałszywie istotny – uznany za istotny gdy w rzeczywistości jest nieistotny (błąd I rodzaju)
𝐹𝐷𝑅 =nwyników fałszywie istotnych stat.
n wszystkich wynikówwyananych za istotnte stat.
Dylemat naukowca α czy β? co wybrać, co robić?
-
© Copyright StatSoft Polska, 2016
4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych c.d.
■ Koncepcja False Discovery Rate (FDR) i q-value
■ q-value – prawdopodobieństwo, że określony wynik, który został nazwany istotnym jest w rzeczywistości nieistotny
Gdy q mniejsze od wartości krytycznej np. q
-
© Copyright StatSoft Polska, 2016
Podsumowanie
■ Wykonując porównania wielokrotne, częste w nauce, badacz naraża się na błąd I rodzaju, czyli wyniki przypadkowo istotne statystycznie.
■ Błąd I rodzaju jest groźny i należy go kontrolować.
■ Ale nie obsesyjne! (można przeoczyć ważnych efekty i zjawiska).
■ Istnieje wiele metod ułatwiających rozwiązanie problemu porównań wielokrotnych.
■ Nie ma metody uniwersalnej.
■ Pozostaje zachowanie zdrowego rozsądku.