Download - Maîtrise des biais en épidémiologie quantitative

Maîtrise des biais en épidémiologie quantitative

Florence Carpentier

Plan

1. Présentation de l’épidémiologie analytique

2. Déterminer et quantifier une association

3. Biais

4. Prise en compte des biais

2

I. Épidémiologie analytique

(explicative ou étiologique)

II. 1. Objectifs

• Recherche les causes d’un problème de santé– Quels sont les facteurs influençant l'incidence des problèmes de santé ?– Quels sont leurs rôles ?

• Analyser l’association entre maladie et facteur d’expositionex : le cancer du colon et la consommation de viande rouge

– Tester (statistiquement) si les risques sont différents entre sujets exposés ou non à certains facteurs

– Estimer l’écart entre ces risques

4

facteur de risque ≠ facteur causal

• Facteur de risque : Toute variable liée statistiquement à une modification de l'événement étudié.

• Facteur causal :Facteur dont une modification en fréquence entraîne une modification de la fréquence de l’évènement étudié.

• Attention,

Relation statistique ≠ lien prouvé ex : consommation de glace et mort par noyade

5

Facteur et indicateur de risque

• Il existe une définition plus précise qui distingue:– Facteur de risque : élément associé à la pathologie avec

causalité établie

– Indicateur de risque : élément associé à la pathologie sans en être la cause

• Par la suite, on s’intéressera à l’association (le lien) entre

– une Exposition (= un Facteur)

– Avec une maladie

6

II.3. Les schémas d’étude

• Comparer les risques entre sujets exposés ou non

Études expérimentales

Études observationnelles

Exposition des sujets aux facteurs

« déterminée » par l’expérimentateur

Observée(sans intervention)

Permet d’identifier

facteurs causaux facteurs de risques

7

L’approche observationnelle

• Répartition des expositions entre individus malades/non malades

• Ces expositions sont-elles plus fréquentes chez les malades que chez les non malades?

• Idéal : comparaison « toutes choses égales par ailleurs »i.e. seule l’exposition au facteur étudié varie

• Problème :Les individus exposés/non exposés sont-ils vraiment comparablesen dehors de l’exposition au facteur considéré ?

8

Les schémas d’études

• Enquêtes de cohorte

• Enquête exposés/non exposés

• Enquêtes cas/témoins

• Enquêtes transversales :

– recueil en une seule fois de l’information concernant la maladie et l’exposition (enquête rétrospective)

• Enquêtes expérimentales

– notion de robustesse des études

• Expérimentale > exposés/non exposés > cohorte > cas témoins > tranversales

9

10

Enquêtes de cohorte

• Choix d’un grand nombre d’individus bien-portant(cohorte)

• Recueil de données concernant les facteurs auxquels ils sont exposés

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

M

M

1

2

3

4

5

Décès

• Suivis de tous les individus au cours du temps :

Développent-ils la maladie ?

• Si suivi régulier � données longitudinales

Tableau de présentation

Maladescas

non maladestémoins

Total

Exposés a b a+b

Non exposés c d c+d

a+c b+d n=a+b+c+d

•

11

II. Déterminer et quantifier une association

Déterminer si un facteur et une maladie sont associés.

• Le facteur est-il lié statistiquement à la maladie?

– Comparaison

• incidence chez les exposés/non-exposés

• exposition chez les malades/non malades (cas/témoins)

• Sont-elles significativement différentes ?

– Exposition et maladie sont-elles indépendantes?

– � Test du χ² d’indépendance

13

Quantifier une association : Pourquoi?

• Pourquoi est-ce important de quantifier une association ?

– P.value ne suffit pas !

– Connaître la « force » de l’association :

• Pour guider les recommandations cliniques et thérapeutiques

• Comparer différentes associations

• MAIS quantification ≠raisonnement !

14

Mesure de risque ou d’incidence

• Mesure du taux d’incidence de la maladie :

• nb nouveau cas / nb total

• Chez les exposés,Ie=R1 = a / (a+b)

• Chez les non exposés Ine=R0 = c / (c+d)

Malades non malades

Total

Exposés a b a+b

non exposés

c d c+d

a+c b+d n=a+b+c+d15

Mesures d’association

Modèle additif Modèle multiplicatif

Mesure d’association Différence de risque = ΔR = R1-R0

Risque relatif =RR= R1/ R0

Pas d’association ΔR =0 RR=1

facteur délétère ΔR >0 RR>1

facteur protecteur ΔR < 0 RR<1

ΔRAB ΔRA+ ΔRB RRA*RRB

• Estimation de la mesure d’association (précision : IC)

• Si IC de ΔR contient 0 ou IC de RR contient 1 ↔ H0 du test du χ² conservée. 16

Odds Ratio

• Cote (Odds en anglais) :– = Probabilité de survenue

d’un événement/ Probabilité de l’événement opposé

– =p/(1-p)

• Deux interprétations possibles de l’ Odds Ratio (OR)

• Rapport de cotes de risqueOR= OR1 / OR0 = ad/bc

• Cote de risque– Chez les exposés :

OR1= R1/(1-R1) = a/b– Chez les non exposés :

OR0= R0/(1-R0) = c/d

Malades non malades

Total

Exposés a b a+b

non exposés

c d c+d

a+c b+d n

• Rapport de cotes d’exposition :OR= OEC / OET = ad/bc

�Cote d’exposition

�Chez les cas : OEC=a/c

�Chez les témoins : OET=b/d17

Odds Ratio : interprétation

• Interprétation– Si OR>1 � facteur de risque

– Si OR<1 � facteur de protection

– L’interprétation plus complexe que celle du RR

• Si la prévalence de la maladie est faible (<5%),l’OR est une bonne approximation du RR ( =(a/(a+b))((c+d)/c)) ) car a+b≈b et c+d ≈d.

• Modèle multiplicatif

• Estimation de OR (précision IC)– Si IC contient 1 ↔ H0 du test du χ² conservée.

18

Lien OR et RR

)1(1 0 −+=

ORR

ORRR

R0 = risque de maladie dans la population des individus non exposés

19

Intervalle de confiance d’un RR et OR

Remarque :Utilisation de ln(RR) et ln(OR) pour le calcul des intervalles de confiance.Ces variables transformées ont des distributions qui tendent vers une loi normale.

20

ΔR, RR ou OR ? Que choisir ?

• On étudie un seul facteur : Equivalents

– ΔR=0 ↔ RR = 1 ↔ OR=1

– Pour deux expositions E1 et E2 :

• ΔR1>ΔR2 ↔ RR1>RR2 ↔ OR1>OR2

• Plusieurs facteurs

– Connaissance de la maladie Ex : cancer : modèle multi-étapes (ordonnées et irréversibles) �modèle multiplicatif

– Adéquation aux observations ( Entre deux populations, ΔR stable? RR stable ?)

– � Le plus souvent le modèle multiplicatif (OR, RR)21

RR, OR et types d’enquêtes

• Rappel :

– Cas-témoins : 2 échantillons malades/non malades

– Cohorte : Exposés/non exposés

• Estimation RR

– Nécessite les estimations de R0 et R1

– Possible dans les études cohortes, exposés-non exposés

– Impossible dans cas-témoins(proportion de malades choisie par l’expérimentateur � pas représentatif du risque de la maladie dans la population)

• Estimation OR

– Nécessite les estimations de R0 et R1 ou des cotes d’exposition chez les malades ou non malades

– Possible pour toutes les enquêtes

22

Exemple : Association Vitesse de croissance précoce et risque de surpoids à l’adolescence

• 325 adolescents (8 à 17 ans)

– Collecte de mesures anthropométriques dont la masse grasse

– Rétrospectivement : données de la petite enfance à partir desquelles sont estimées la vitesse de croissance (en hauteur) à partir d’un modèle mathématique

• Comparaison :

– Surpoids ou non

– Vitesse de croissance > 1 écart-type ou non

Il semble exister 2 périodes critiques dans la petite enfance : avant 6 mois et après 2 ans.

23

III. Les différents biais rencontrés enépidémiologie analytique

Biais en épidémiologie analytique

Biais : écart systématique entre l’estimation de la valeur d’une association entre une exposition et une maladie et la vraie valeur (inconnue) de cette association

• Les différents types de biais

– Biais de sélection

– Biais de classement

– Biais d’indication

– Biais de confusion

• Attention :

• Biais ≠ Erreurs aléatoires (autour de la vraie valeur)

Biais

(Espérance )

Erreur

(Variance)

Vraie valeur

Mesure

25

Les trois tâches majeures de l’épidémiologiste

• Avant les analyses :Prévenir les biais � protocoles des enquêtes

• Pendant les analyses :Les prendre en compte (les identifier et éliminer si possible)

• Après les analyses :Discuter des biais résiduels éventuels� la conclusion des analyses

• Toute enquête comporte des biais.Ils ne suppriment pas la valeur de l’enquête,mais limitent les conclusions.

26

Biais de sélection• Apparaît lors de l’échantillonnage

– Idéal : tirage aléatoire dans la population cible

– Pratique : Pas population cible mais une sélection

– Si la sélection est liée à la maladie, il y a un biais

• Exemple :

• questionnaire sur la santé

– Volontaires : svt plus soucieux de leur santé !!!

• Enquête entre exposition aux iso-cyanates et fonctions respiratoires dans une entrepriseTirage au sort des individus présents le 17 JanvierBiais ?

27

Biais de classement

• Origine du biaisErreur de mesure (maladie / exposition)

• non différentiel (erreur indépendante de la maladie)– Enquête entre tabagisme passif (exposition) et troubles

lipidiques (maladie) du sujet non fumeur

�Auto -évaluation du temps passé avec des fumeurs

⇒ Erreur probable sur mesure

• différentiel (erreur dépendante de la maladie)– Enquête entre « trouble du sommeil de l’enfant entre 0-6 mois

» et « mort subite de l’enfant » (MSE)

� Les parents traumatisés par la MSE vont plus souvent sur-estimer l’exposition de l’enfant décédé

28

Conséquence du biais de classement

• Biais de classement non différentiel– Erreur aléatoire (« bruit »)– La force de l’association est sous-estimée⇒ Les OR ou RR se « rapprochent » de 1

• Biais de classement différentiel– Erreur différente chez les malades/non malades

(ou exposés/non-exposés)– Si les malades

• sur-estiment l’exposition ⇒ OR ou RR sur-estimé• sous-estiment l’exposition ⇒ OR ou RR sous-estimé

– Pour éviter ce biais : mesure de l’exposition à l’aveugle de la maladie (et vice et versa)

29

Biais de confusion

• Illustration introductive n°1– Question : Quelle est l’association entre la fréquence respiratoire

d’une vache et la concentration élevée en éosinophiles (% parmi leucocytes totaux) ?

30

Biais de confusion

• Mais attention…

31

Biais de confusion

• Soit – E, exposition– M, maladie– X, exposition

• Un facteur de confusion (X) : Lors des analyses, si cette variable n’est pas prise en compte, elle crée un biais dans l’estimation de l’association entre E et M.

• Effet du facteur de confusion : imprévisible.

La véritable association entre E et M peut être – Renforcée, amoindrie, effacée, inversée la véritable

32

Origines du biais de confusion

• Origines diverses

– E n'a pas été « attribuée » à chaque individu indépendamment de ses caractéristiques (comme on le ferait dans l’approche expérimentale)

– E est associée à (au moins) une caractéristique de l’individu qui est l’une des vraies causes de la maladie

• Remarque

– Biais de confusion défini au niveau de la population

– Biais de classement défini au niveau individuel (pour chaque individu, on peut se demander s'il y a une erreur sur la mesure de E)

33

Déterminer un biais de confusion potentiel

• X est un facteur de confusion potentiel si

– X associée à E dans la population source (En pratique, avec p.value < 0,20)

– X est associée à M dans la population source (p.value < 0,20)

– X n’est pas une conséquence de M

• Ces 3 critères sont nécessaires (mais non suffisants) pour que X soit un facteur de confusion.

L.Desquilbet

34

Retour à l’exemple

– E = « fréquence respiratoire » (FR),

– X = « présence de larves»,

– M = « inflammation »

– « ? » = question de recherche

Exposition « présence de larves » est un facteur po tentiel de confusion :1) « Larves » est associée à «FR» 2) « Larves » est associée à « inflammation »3) « Larves » ne sont pas causée par « inflammation »

L.Desquilbet

35

Le biais de confusion

On a observé en brut (sans « Larves ») une somme

– de la vraie relation entre « FR » et « Inflammation » : -

– de la relation qui passe par « Larves » : ++

⇒ « Larves » a joué un fort rôle de confusion dans l’association entre « FR » et « Inflammation »

� « Larves » est un facteur de confusion pour l’association entre FR et inflammation

L.Desquilbet

36

IV. Prise en compte du biais de confusion

Différentes façons de prise en compte

• Lors de la rédaction du protocole

– Tirage au sort (approche d’intervention)

– Appariement (enquêtes cas-témoins)

– Restriction (possible mais réduction des données)

• Lors de l’analyse (biais de confusion)

– Stratification

– Standardisation

– Méthode d’ajustement par pondération par l’inverse des variances

– Ajustement(s) dans un modèle de régression multivarié

38

IV.1 La stratification Exemple sur le syndrome de Down (1)

Etudier l’association entre

• le rang de naissance de l’enfant (E)

• et le syndrome de Down (trisomie 21) (M)

L’âge maternel (X) est facteur de confusion potentiel• est associé au rang de naissance (E)• est associé à la présence de trisomie 21 chez l’enfant (M)• n’est pas une conséquencede (M) 39

La stratification – Exemple sur le syndrome de Down (2)

• Analyses brutes

– Analyse brute de l’association entre le rang de naissance (E) et le nombre de cas de trisomie 21 (M) pour 1000 naissances.

⇒⇒⇒⇒ Plus le rang est élevé,plus le risque detrisomie 21 est important

40

Exemple : Analyse stratifiée sur l’âge maternel

• A un âge maternel donné (X) , pas d’association entre E et M (le rang de naissance et la présence de trisomie 21 chez l’enfant).

L’association brute observée entre E et M totalemen t expliqué par l’âge maternel (X).

41

La stratification : Principe

• X : facteur de confusion pris en compte

• Stratification :

– estimer l’association entre E et M (calcul de l’OR ou du RR)

– selon les différentes valeurs (= strates) de X

⇒ On supprime par conséquent l’association entre X et E

42

La stratification : Remarques

• Nombre limité de facteurs de confusions

– Si N facteurs de confusion binaires� 2N strates à analysée

⇒ Nécessité d’utiliser la modélisation multivariée (régressions linéaire, logistique, …)

• Si l’association dans chacune des strates ≠ association brute ⇒ variable de stratification = facteur de confusion

• Techniques plus avancées qui à partir de la stratification calculent un indicateur commun aux différentes strates.Ex : calcul d’ajustement par pondération par l’inverse de la variance (pas vu ici)

43

IV.2. Modèles multivariés

• Avec les méthodes par stratification

– Nombre limité de facteurs de confusion pris en compte

– Considère seulement les variables qualitatives • Variable quantitave à transformer en classes (définies arbitrairement)

� peut conduire à des biais de confusion résiduel � toute l’information contenue dans X n’est pas prise en compte

⇒ La modélisation multivariée permet de résoudre ces problèmes,

– Modèles � Hypothèses à vérifier

– Méthodes plus délicates • Choix entre différents modèles

• Visualisation difficile

• Interprétation des coefficients difficiles (intéraction !!!)

44

Présentation des modèles multivariés

• Notations :

– E, exposition d’intérêt

– X1, X2, …, Xp, facteurs de confusion potentiels

• Un modèle multivarié est un modèle où la maladie (quantifiée par une valeur Y) est reliée par une fonction F aux expositions d’intérêt et aux facteurs de confusions potentiels.

– E(Y)=f(E,Xi)

• Rôles de E et des Xi

– Etude de l’association entre E et M : rôles dissymétriques

• En pratique, on étudie successivement plusieurs exposition E.Une même variable peut être X et E.

– Etude prédictive : rôles symétriques

45

Quel modèle de régression multivarié ?

• Le choix d’un modèle multivarié est dictée par la nature de la variable maladie (variable Y)

• Y quantitative : régression linéaire multiple (ANCOVA)

– Rappel

iidN

XEY

i

i

p

jjijii

²),0(~1

σε

εββα +++= ∑=

∑=

++=p

jjijii XEYE

1

)( ββα

46

Modèle (ou régression) logistique

• Y dichotomique, 0 ou 1 (malade/non-malade)

• Fréquence de la maladie est mesuré par un risque

– Etude de prévalence ou d’incidence au cours d’une période fixée

– Cas-Témoin

• Régression linéaire plus possible (Y =0 ou 1)

E

Y1

00

47

Les différences par rapport au modèle linéaire classique

• Y= 0 ou 1

– Hypothèse impossible : Y suit une loi normale

– Yi suit une loi binomiale de paramètre piE(Yi)=pi

• On ne peut plus écrire

– 0 ≤ pi ≤ 1

– Transformation nécessaire

• Plusieurs transformations possibles

• La plus usuelle la transformation logit

∑=

++==p

jjijiii XEYEp

1

)( ββα

48

Fonctions logistique et sigmoïde

Fonction logit Fonction sigmoïde (relation dose-effet)

Avec 0 <p< 1, -∞<logit(p)< +∞

Wikipedia

Avec -∞<x< +∞, 0<f(x)<1

49

Modèle logistique

)(~ ii pBerY

))(exp(1

1)(logit

1

1∑

∑

=

= ++−+=⇔++=

p

jjiji

i

p

jjijii

XE

pXEp

ββαββα

Remarque 1: Le modèle est multiplicatif (et pas additif comme le modèle linéaire classique).

Remarque 2: Le modèle logistique appartient aux modèles linéaires généralisés(cf cours de statistiques).

E

Y1

00

50

Interprétation des coefficients dans le modèle logistique

– Y = 0/1 (malade/non malade)

• 2 remarques préalables :

P=Pr(Y=1|E)= �

��((α+ βE) )

↔ log(

� )=logit(P)= α+ βE

OR1,0= �/(� �)

�/(� �)

↔ Ln(OR1,0)=logit(��)-logit(��)51

E, variable qualitative à 2 classes, E=1 ou 0

• P1=Pr(Y=1|E=1)

• P0=Pr(Y=1|E=0)

• Ln(OR)=logit(P1) –logit(P0)=(α+β)- α = β

logit(P1)= α+ βx1 = α+ β

logit(P0)= α+ βx0 = α

logit(P)= α+ βE

OR=exp(β)

52

E, variable qualitative à plusieurs classes

• Analogue à variable qualitative dans un modèle linéaire classique (ANOVA)

• Si E possède k classes,• Estimation de k βj

• Ajout d’une contrainte,Le plus souvent une classe est choisie comme témoin� β=0

• Pk=Pr(Y=1|E=k) P0=Pr(Y=1|E=temoin)logit(Pk)= α+ βk logit(P0)= α

• Log(ORk,0)= logit(Pk)-logit(P0)= βk

0Rk,0 =exp(βk )53

Exemple : étude de l’association entre tabagisme (E) et cancer de la vessie (M)

• Exposition : tabagisme, 4 classes

– 0 : non fumeur

– 1 : tabac brun

– 2 : tabac mixte

– 3 : tabac blond

• Classe témoin : non fumeur, β0=0

• Estimation obtenue : logit(^P)= -1.47+1.66 E1+2.56 E2+ 1.8 E3

05.6ˆ

94.12ˆ

26.5ˆ

8.1ˆ

2,0

56.2ˆ

2,0

66.1ˆ

1,0

"

2

1

===

===

===

eeRO

eeRO

eeRO

β

β

β

54

• Analogue au modèle de régression linéaire� Estimation d’un seul paramètre

• P(x)=Pr(Y=1|E=x)

•

• Log(ORx+1,x)= logit(P(x+1))-logit(P(x))= α+ β (x+1) –(α+ β x ) = β

• Attention : dépend de l’unité de E.

E, variable quantitative ou qualitative ordinale

logit(P(x))= α+ β x

logit(P(x+1))= α+ β (x+1)

0Rx+1,x =exp(β)55

• Ex : Nb moyen de cigarettes fumées par jour (E)

• Estimation obtenue du modèle logistique :

– Logit(^P)=-1.21+ 0.64 E• Ce qui donne :

– OR1,0=OR2,1=OR3,2=OR4,3=exp(0,64)=1,9

– OR2,0=OR3,1=OR4,2= exp( 0,64*2)= 3,6

– OR3,0=OR4,1= exp( 0,64*3)=6,8

– OR4,0=exp( 0,64*4)=12,9

Conso 0 1-19 20-39 40-59 >59

Codage de E 0 1 2 3 4

Exemple : étude de l’association entre

tabagisme (E) et cancer de la vessie (M)

56

Interprétation des coefficients dans le modèle

logistique multiple

Plusieurs variables

• E, facteurs d’intérêts

• Xj (j=1,…,p), facteurs de confusion potentiels

• La valeur des βi estimées dépendent de la présence des autres variables � Prise en compte des facteurs de confusion (Xi)

• ORa, ajusté sur les Xi

« variation du risque d’apparition de maladie lorsque seule la

variable E est modifiée, l’exposition aux variables Xi étant

inchangée »ORa=exp(β)

))(exp(1

1)(logit

1

1∑

∑

=

= ++−+=⇔++= p

jjiji

i

p

jjijii

XE

pXEp

ββαββα

57

• Estimation et tests, intervalles de confiance des paramètres

• Choix des modèles et sélection de variables

• …. (cf cours de statistiques)

58

Conclusions

Limiter les biais

• Objectif : estimation de l’OR (ou du RR) causal– Plus les biais sont nombreux, plus estimation éloignée (en

espérance)

• Limiter les biais de– Confusion : Identifier et prendre en compte – Sélection : Eviter les processus de sélection dépendant à la

fois de la maladie et de l’exposition d’intérêt principal (E)– Classement

• Différentiel : - Evaluer X à l’aveugle de la maladie- Evaluer la maladie à l’aveugle de toutes les expositions

• non différentiel : Réduire l’erreur aléatoire de mesure sur les expositions et sur la maladie

60

Interprétation d’une mesure d’association significative

• Si un OR brut quantifiant l’association entre E et M est significativement différent de 1

– On conclut à une association significative entre E et M.

– Dans la population, il y a de grandes chances pour que cette association existe

• Interdiction de mettre une quelconque notion de causalité avec un OR brut

61

Interprétation d’une mesure d’association non significative

Si un OR ajusté quantifiant l’association entre E et M n’est pas significativement différent de 1

• On ne peut pas conclure à une association significative entre E et M

• Biais ?La véritable association est peut-être masquée par des biais.Ont-ils été pris en compte (biais de confusion) ?

• Puissance statistique ? Etait-elle suffisante? • Si on pense que l’estimation est non (ou très peu) biaisée, on

conclut qu’à niveau égal des facteurs de confusion pris en compte, E ne semble ni augmenter ni diminuer les risques de présence de la maladie.

62