Post on 29-May-2015
Klinisk forskning och statistik
Jonas Ranstam PhD
RC Syd och Lunds Universitet Email: jonas.ranstam@med.lu.se
Modern klinisk forskning sedan 1948
Source: Pubmed
Cohort study of smoking and lung cancer (1954) Bradford Hill & Doll
Case-control study of smoking and lung cancer (1950) Bradford Hill & Doll
Randomized clinical trial of streptomycin and tubercolosis (1948)Bradford Hill & MRC
Source: Pubmed
Cohort study of smoking and lung cancer (1954) Bradford Hill & Doll
Case-control study of smoking and lung cancer (1950) Bradford Hill & Doll The digital era starts (more data stored digitally than in an analog manner)Randomized clinical trial of streptomycin and tubercolosis (1948) IBM PCBradford Hill & MRC SAS SPSS Univac
Science and uncertainty
“If you thought that science was certain - well, that is just an error on your part.”
Richard P. Feynman
Osäkerhet i klinisk forskning
Generalisering från urval till population
Generaliseringsproblem
1. Fragmentariska observationer
2. Individuell variabilitet
3. Oundvikliga mätfel
4. Ofullständiga grundkunskaper
5. Etablerade “fakta” ibland felaktiga
Science of UncertaintyStatistics
Osäkerhet och vetenskaplig rapportering
Sju återkommande missförstånd
1. Variation är onaturligt
2. Absoluta och relativa risker
3. Orsak och verkan
4. Statistisk signifikans
5. Analysenhet
6. Observation och generalisering
7. Regression-to-the-mean
1. Variation är onaturligt
Variation är onaturligt
En normalfördelnings medelvärde uppfattas ofta som “naturligt” medan avvikelser från medelvärdet uppfattas som något “onaturligt”.
Hela normalfördelning är dock “normal”, variation är både naturlig och ofrånkomlig.
Variation är onaturligt
Exempel: Öppna jämförelser
Att en omoperations- eller komplikationsrisk varierar mellan olika sjukhus beror på varierade vårdkvalitet.
Om all vård var lika bra skulle alla sjukhus ha samma revisionsrisk (i alla fall efter justering för case-mix).
Variation är onaturligt
Exempel: Sjukdomskluster
Anhopningar av kroniska sjukdomar (t.ex. hjärntumörer eller leukemier) i ett begränsat geografiskt område har alltid en miljöbetingad förklaring.
Något motsvarande är aldrig aktuellt för “anti-kluster”.
2. Orsak och verkan
Orsak och verkan
Autentiska rubriker i svenska dagstidningar:
“Choklad sänker kroppsvikten”,
“Kaffe skyddar mot bröstcancer”,
“Kaffe bra för hjärtat”,
“Lättmjölk skyddar mot stroke”,
“Tandborstning skyddar hjärnan”, etc.
Orsak och verkan
Enstaka observationella studier kan inte ge bevis för orsakssamband. Fyndens osäkerhet kan inte beräknas.
1. Selektion (ej randomisering)2. Komorbiditet (ej inklusionskriterier)3. Compliance (ej monitorering)4. Behandlingsinteraktioner (ej kontroll)5. Osystematisk responsbestämning (ej blindning)6. Mass-signifikans (ej analysplan)7. Etc.
Orsak och verkan
I en välgjord randomiserad prövning kan fyndens osäkerhet bestämmas med relativt god tillförlitlighet.
Evidence levels
1. Strong evidence from at least one systematic review of multiple well-designed randomized controlled trials.
2. Strong evidence from at least one properly designed randomized controlled trial of appropriate size.
3. Evidence from well-designed trials such as pseudorandomized or non-randomized trials, cohort studies, time series or matched case-controlled studies.
4. Evidence from well-designed non-experimental studies from more than one center or research group or from case reports.
5. Opinions of respected authorities, based on clinical evidence, descriptive studies or reports of expert committees.
Any claim coming from an observational study is most likely to be wrong
12 randomised trials have tested 52 observational claims (about the effects of vitamine B6, B12, C, D, E, beta carotene, hormone replacement therapy, folic acid and selenium).
“They all confirmed no claims in the direction of the observational claim. We repeat that figure: 0 out of 52. To put it in another way, 100% of the observational claims failed to replicate. In fact, five claims (9.6%) are statistically significant in the opposite direction to the observational claim.”
Stanley Young and Allan Karr, Significance, September 2011
3. Absoluta och relativa risker
Absoluta och relativa risker
I klinisk forskning arbetar man oftast med relativa effektmått (t.ex. RR, OR, HR, SMR).
För den enskilde individens risk och för folkhälsokonsekvenser är absoluta risker mera relevanta (t.ex. risk, riskdifferens och attributerbar risk).
Absoluta och relativa risker
En relativ risk på 1.2 att drabbas av malignt melanom efter solariesolning innebär inte att den enskilde solariesolarens risk är 20%.
Den absoluta risken för en solariesolare att inom en 25 årsperiod, drabbas av malignt melanom är betydligt lägre, kanske 1%.
4. Statistisk signifikans
Statistisk signifikans
P-värdet anger sannolikheten att ett visst fynd enbart finns i det observerade urvalet (inte i den bakomliggande population som observationerna representerar).
För att en generaliseringen ska kunna anses ha empirisk evidens krävs oftast att denna sannolikhet (p-värdet) är mindre än 5%.
Statistisk signifikans - tolkning
Positiva fynd
Statistisk signifikans beror på antalet observationer, säger inget om den kliniska betydelsen av ett visst fynd.
Därför är det oklokt att enbart redovisa p-värdet av ett fynd.
Storleken av en viss effekt eller skillnad måste också beaktas.
Statistisk signifikans - tolkning
Negativa fynd
Statistisk insignifikans är “absence of evidence, not evidence of absence”.
Därför är det oklokt att enbart redovisa om statistisk signifikans föreligger eller ej.
Det kan vara viktigt att veta hur stor effekt eller skillnad som kan finnas i populationen.
Statistisk signifikans - tolkning
Frågan om en viss faktor har en effekt (oavsett om den är kliniskt relevant eller ej) kan besvaras med ett p-värde, men effektskattningar redovisas bäst med konfidensintervall.
Ex:
P = 0.013
RR = 2.4 (1.3 – 3.8)
Effekt
0Kliniskt signifikanta effekter
KonfidensintervallStatistisk och klinisk signifikans
P-värdeStatistisk signifikans enbart
p < 0.05 eller n.s.
Statistisk signifikans - multiplicitet
Observationella studier
Sannolikheten att med 5% signifikansnivå få en falsk positiv test är 5% vid varje test (då H0 är sann).
Sannolikheten för minst ett falskt positivt test ökar med antalet hypoteser som testas, s.k. mass-signifikans.
Statistisk signifikans - multiplicitet
Observationella studier
I observationella studier prioriteras validitet före precision, multiplicitetsproblemen är i praktiken oviktiga.
Statistisk signifikans - multiplicitet
Experiment (kliniska prövningar)
Statistisk precision hålls under kontroll genom att man:
1. skiljer mellan konfirmativa och explorativa endpoints,
2. hierarkiskt strukturerar konfirmativa endpoints
3. ev. p-värdeskorrigerar.
5. Analysenhet
Analysenhet
Pseudoreplikation
Två råttor har samplats från en fördelning med ett medelvärde (μ) av 50 och en standardav-vikelse (σ) av 10, och tio mätningar av en god-tycklig effekt mäts.
Analysenhet - problem
6. Observation och generalisering
Observation och generalisering
P-värden och konfidensintervall avser förhållanden i den population till vilken generaliseringen görs, inte i det observerade materialet.
Ex:
Mean weight gain did not differ between the two groups (3.1 vs. 5.7 kg, p = 0.08).
Generalisering
Meningslösa tester
Syftet med randomisering i en klinisk prövning är att garantera att de olika behandlingarna prövas på patienter från samma population (förhindra systematiska urval).
Slumpmässig obalans kan förväntas.
Den observerade obalansen är ingen generaliserbar egenskap (om randomisering utförts).
Generalisering
Meningslösa tester
Systematisk obalans i en observationell studie kan leda till fel vid skattning av effekt (s.k. confounding).
Felet kan justeras bort med regressionsanalys.
Stepwise regression är en dålig metod, justerar utifrån statistisk precision inte kliniskt relevant obalans.
Generalisering
Meningslösa tester
Ett alternativ till justering med regressionsanalys är matchning.
Ofta testas matchningsresultatet för att avgöra om matchningen “lyckats”.
Den observerade obalansen representerar ingen generaliserbar egenskap.
7. Regression-to-the-mean
Regression-to-the-mean
Individer med extrema värden vid en mätning, som t.ex. högt HbA1c, kan bli utvalda för behandling.
När deras värden mäts igen ligger deras medelvärde närmare populationens medelvärde, dvs. lägre.
Betyder detta att behandlingen var framgångsrik?
Regression-to-the-mean
Nej, inte nödvändigtvis!
De utvalda individernas HbA1c-värden hade gått ned även utan behandling.
Exempel på RTMHbA1c vid diagnos: Medelvärde = 4.0, SD = 1.4HbA1c efter 12 mån: Medelvärde = 4.0, SD = 1.4Antal observationer: 1000Korrelationskoefficient: 0.8Behandlingseffekt: Ingen
Exempel på RTMHbA1c vid diagnos: Medelvärde = 6.7, SD = 0.9HbA1c efter 12 mån: Medelvärde = 6.2, SD = 0.6Antal observationer: 71Behandlingseffekt: 0.5 P-värde: <0.0001
RTM =
Regression-to-the-mean
Regression-to-the-mean
Förklarar varför man kan få positiva resultat av behandling med
- placebo,
- homeopatiska läkemedel,
- bibelläsning,
- etc.
Regression-to-the-mean
För att studera reella förändringar
1. Jämför med kontrollgrupp och justera för skillnader vid baseline eller
2. jämför med förväntade RTM-effekter.
Ett mikroliv
Detta föredrag har ungefär motsvarat ett mikroliv (lite drygt 30 min av förväntad livslängd).
Andra sätt att förlora ett mikroliv på är att:
- röka 2 cigaretter
- dricka 1 liter starköl
- ha 5 kg övervikt en dag
Tack för uppmärksamheten!