Maîtrise des biais en épidémiologie quantitative
Florence Carpentier
Plan
1. Présentation de l’épidémiologie analytique
2. Déterminer et quantifier une association
3. Biais
4. Prise en compte des biais
2
I. Épidémiologie analytique
(explicative ou étiologique)
II. 1. Objectifs
• Recherche les causes d’un problème de santé– Quels sont les facteurs influençant l'incidence des problèmes de santé ?– Quels sont leurs rôles ?
• Analyser l’association entre maladie et facteur d’expositionex : le cancer du colon et la consommation de viande rouge
– Tester (statistiquement) si les risques sont différents entre sujets exposés ou non à certains facteurs
– Estimer l’écart entre ces risques
4
facteur de risque ≠ facteur causal
• Facteur de risque : Toute variable liée statistiquement à une modification de l'événement étudié.
• Facteur causal :Facteur dont une modification en fréquence entraîne une modification de la fréquence de l’évènement étudié.
• Attention,
Relation statistique ≠ lien prouvé ex : consommation de glace et mort par noyade
5
Facteur et indicateur de risque
• Il existe une définition plus précise qui distingue:– Facteur de risque : élément associé à la pathologie avec
causalité établie
– Indicateur de risque : élément associé à la pathologie sans en être la cause
• Par la suite, on s’intéressera à l’association (le lien) entre
– une Exposition (= un Facteur)
– Avec une maladie
6
II.3. Les schémas d’étude
• Comparer les risques entre sujets exposés ou non
Études expérimentales
Études observationnelles
Exposition des sujets aux facteurs
« déterminée » par l’expérimentateur
Observée(sans intervention)
Permet d’identifier
facteurs causaux facteurs de risques
7
L’approche observationnelle
• Répartition des expositions entre individus malades/non malades
• Ces expositions sont-elles plus fréquentes chez les malades que chez les non malades?
• Idéal : comparaison « toutes choses égales par ailleurs »i.e. seule l’exposition au facteur étudié varie
• Problème :Les individus exposés/non exposés sont-ils vraiment comparablesen dehors de l’exposition au facteur considéré ?
8
Les schémas d’études
• Enquêtes de cohorte
• Enquête exposés/non exposés
• Enquêtes cas/témoins
• Enquêtes transversales :
– recueil en une seule fois de l’information concernant la maladie et l’exposition (enquête rétrospective)
• Enquêtes expérimentales
– notion de robustesse des études
• Expérimentale > exposés/non exposés > cohorte > cas témoins > tranversales
9
10
Enquêtes de cohorte
• Choix d’un grand nombre d’individus bien-portant(cohorte)
• Recueil de données concernant les facteurs auxquels ils sont exposés
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
M
M
1
2
3
4
5
Décès
• Suivis de tous les individus au cours du temps :
Développent-ils la maladie ?
• Si suivi régulier � données longitudinales
Tableau de présentation
Maladescas
non maladestémoins
Total
Exposés a b a+b
Non exposés c d c+d
a+c b+d n=a+b+c+d
•
11
II. Déterminer et quantifier une association
Déterminer si un facteur et une maladie sont associés.
• Le facteur est-il lié statistiquement à la maladie?
– Comparaison
• incidence chez les exposés/non-exposés
• exposition chez les malades/non malades (cas/témoins)
• Sont-elles significativement différentes ?
– Exposition et maladie sont-elles indépendantes?
– � Test du χ² d’indépendance
13
Quantifier une association : Pourquoi?
• Pourquoi est-ce important de quantifier une association ?
– P.value ne suffit pas !
– Connaître la « force » de l’association :
• Pour guider les recommandations cliniques et thérapeutiques
• Comparer différentes associations
• MAIS quantification ≠raisonnement !
14
Mesure de risque ou d’incidence
• Mesure du taux d’incidence de la maladie :
• nb nouveau cas / nb total
• Chez les exposés,Ie=R1 = a / (a+b)
• Chez les non exposés Ine=R0 = c / (c+d)
Malades non malades
Total
Exposés a b a+b
non exposés
c d c+d
a+c b+d n=a+b+c+d15
Mesures d’association
Modèle additif Modèle multiplicatif
Mesure d’association Différence de risque = ΔR = R1-R0
Risque relatif =RR= R1/ R0
Pas d’association ΔR =0 RR=1
facteur délétère ΔR >0 RR>1
facteur protecteur ΔR < 0 RR<1
ΔRAB ΔRA+ ΔRB RRA*RRB
• Estimation de la mesure d’association (précision : IC)
• Si IC de ΔR contient 0 ou IC de RR contient 1 ↔ H0 du test du χ² conservée. 16
Odds Ratio
• Cote (Odds en anglais) :– = Probabilité de survenue
d’un événement/ Probabilité de l’événement opposé
– =p/(1-p)
• Deux interprétations possibles de l’ Odds Ratio (OR)
• Rapport de cotes de risqueOR= OR1 / OR0 = ad/bc
• Cote de risque– Chez les exposés :
OR1= R1/(1-R1) = a/b– Chez les non exposés :
OR0= R0/(1-R0) = c/d
Malades non malades
Total
Exposés a b a+b
non exposés
c d c+d
a+c b+d n
• Rapport de cotes d’exposition :OR= OEC / OET = ad/bc
�Cote d’exposition
�Chez les cas : OEC=a/c
�Chez les témoins : OET=b/d17
Odds Ratio : interprétation
• Interprétation– Si OR>1 � facteur de risque
– Si OR<1 � facteur de protection
– L’interprétation plus complexe que celle du RR
• Si la prévalence de la maladie est faible (<5%),l’OR est une bonne approximation du RR ( =(a/(a+b))((c+d)/c)) ) car a+b≈b et c+d ≈d.
• Modèle multiplicatif
• Estimation de OR (précision IC)– Si IC contient 1 ↔ H0 du test du χ² conservée.
18
Lien OR et RR
)1(1 0 −+=
ORR
ORRR
R0 = risque de maladie dans la population des individus non exposés
19
Intervalle de confiance d’un RR et OR
Remarque :Utilisation de ln(RR) et ln(OR) pour le calcul des intervalles de confiance.Ces variables transformées ont des distributions qui tendent vers une loi normale.
20
ΔR, RR ou OR ? Que choisir ?
• On étudie un seul facteur : Equivalents
– ΔR=0 ↔ RR = 1 ↔ OR=1
– Pour deux expositions E1 et E2 :
• ΔR1>ΔR2 ↔ RR1>RR2 ↔ OR1>OR2
• Plusieurs facteurs
– Connaissance de la maladie Ex : cancer : modèle multi-étapes (ordonnées et irréversibles) �modèle multiplicatif
– Adéquation aux observations ( Entre deux populations, ΔR stable? RR stable ?)
– � Le plus souvent le modèle multiplicatif (OR, RR)21
RR, OR et types d’enquêtes
• Rappel :
– Cas-témoins : 2 échantillons malades/non malades
– Cohorte : Exposés/non exposés
• Estimation RR
– Nécessite les estimations de R0 et R1
– Possible dans les études cohortes, exposés-non exposés
– Impossible dans cas-témoins(proportion de malades choisie par l’expérimentateur � pas représentatif du risque de la maladie dans la population)
• Estimation OR
– Nécessite les estimations de R0 et R1 ou des cotes d’exposition chez les malades ou non malades
– Possible pour toutes les enquêtes
22
Exemple : Association Vitesse de croissance précoce et risque de surpoids à l’adolescence
• 325 adolescents (8 à 17 ans)
– Collecte de mesures anthropométriques dont la masse grasse
– Rétrospectivement : données de la petite enfance à partir desquelles sont estimées la vitesse de croissance (en hauteur) à partir d’un modèle mathématique
• Comparaison :
– Surpoids ou non
– Vitesse de croissance > 1 écart-type ou non
Il semble exister 2 périodes critiques dans la petite enfance : avant 6 mois et après 2 ans.
23
III. Les différents biais rencontrés enépidémiologie analytique
Biais en épidémiologie analytique
Biais : écart systématique entre l’estimation de la valeur d’une association entre une exposition et une maladie et la vraie valeur (inconnue) de cette association
• Les différents types de biais
– Biais de sélection
– Biais de classement
– Biais d’indication
– Biais de confusion
• Attention :
• Biais ≠ Erreurs aléatoires (autour de la vraie valeur)
Biais
(Espérance )
Erreur
(Variance)
Vraie valeur
Mesure
25
Les trois tâches majeures de l’épidémiologiste
• Avant les analyses :Prévenir les biais � protocoles des enquêtes
• Pendant les analyses :Les prendre en compte (les identifier et éliminer si possible)
• Après les analyses :Discuter des biais résiduels éventuels� la conclusion des analyses
• Toute enquête comporte des biais.Ils ne suppriment pas la valeur de l’enquête,mais limitent les conclusions.
26
Biais de sélection• Apparaît lors de l’échantillonnage
– Idéal : tirage aléatoire dans la population cible
– Pratique : Pas population cible mais une sélection
– Si la sélection est liée à la maladie, il y a un biais
• Exemple :
• questionnaire sur la santé
– Volontaires : svt plus soucieux de leur santé !!!
• Enquête entre exposition aux iso-cyanates et fonctions respiratoires dans une entrepriseTirage au sort des individus présents le 17 JanvierBiais ?
27
Biais de classement
• Origine du biaisErreur de mesure (maladie / exposition)
• non différentiel (erreur indépendante de la maladie)– Enquête entre tabagisme passif (exposition) et troubles
lipidiques (maladie) du sujet non fumeur
�Auto -évaluation du temps passé avec des fumeurs
⇒ Erreur probable sur mesure
• différentiel (erreur dépendante de la maladie)– Enquête entre « trouble du sommeil de l’enfant entre 0-6 mois
» et « mort subite de l’enfant » (MSE)
� Les parents traumatisés par la MSE vont plus souvent sur-estimer l’exposition de l’enfant décédé
28
Conséquence du biais de classement
• Biais de classement non différentiel– Erreur aléatoire (« bruit »)– La force de l’association est sous-estimée⇒ Les OR ou RR se « rapprochent » de 1
• Biais de classement différentiel– Erreur différente chez les malades/non malades
(ou exposés/non-exposés)– Si les malades
• sur-estiment l’exposition ⇒ OR ou RR sur-estimé• sous-estiment l’exposition ⇒ OR ou RR sous-estimé
– Pour éviter ce biais : mesure de l’exposition à l’aveugle de la maladie (et vice et versa)
29
Biais de confusion
• Illustration introductive n°1– Question : Quelle est l’association entre la fréquence respiratoire
d’une vache et la concentration élevée en éosinophiles (% parmi leucocytes totaux) ?
30
Biais de confusion
• Mais attention…
31
Biais de confusion
• Soit – E, exposition– M, maladie– X, exposition
• Un facteur de confusion (X) : Lors des analyses, si cette variable n’est pas prise en compte, elle crée un biais dans l’estimation de l’association entre E et M.
• Effet du facteur de confusion : imprévisible.
La véritable association entre E et M peut être – Renforcée, amoindrie, effacée, inversée la véritable
32
Origines du biais de confusion
• Origines diverses
– E n'a pas été « attribuée » à chaque individu indépendamment de ses caractéristiques (comme on le ferait dans l’approche expérimentale)
– E est associée à (au moins) une caractéristique de l’individu qui est l’une des vraies causes de la maladie
• Remarque
– Biais de confusion défini au niveau de la population
– Biais de classement défini au niveau individuel (pour chaque individu, on peut se demander s'il y a une erreur sur la mesure de E)
33
Déterminer un biais de confusion potentiel
• X est un facteur de confusion potentiel si
– X associée à E dans la population source (En pratique, avec p.value < 0,20)
– X est associée à M dans la population source (p.value < 0,20)
– X n’est pas une conséquence de M
• Ces 3 critères sont nécessaires (mais non suffisants) pour que X soit un facteur de confusion.
L.Desquilbet
34
Retour à l’exemple
– E = « fréquence respiratoire » (FR),
– X = « présence de larves»,
– M = « inflammation »
– « ? » = question de recherche
Exposition « présence de larves » est un facteur po tentiel de confusion :1) « Larves » est associée à «FR» 2) « Larves » est associée à « inflammation »3) « Larves » ne sont pas causée par « inflammation »
L.Desquilbet
35
Le biais de confusion
On a observé en brut (sans « Larves ») une somme
– de la vraie relation entre « FR » et « Inflammation » : -
– de la relation qui passe par « Larves » : ++
⇒ « Larves » a joué un fort rôle de confusion dans l’association entre « FR » et « Inflammation »
� « Larves » est un facteur de confusion pour l’association entre FR et inflammation
L.Desquilbet
36
IV. Prise en compte du biais de confusion
Différentes façons de prise en compte
• Lors de la rédaction du protocole
– Tirage au sort (approche d’intervention)
– Appariement (enquêtes cas-témoins)
– Restriction (possible mais réduction des données)
• Lors de l’analyse (biais de confusion)
– Stratification
– Standardisation
– Méthode d’ajustement par pondération par l’inverse des variances
– Ajustement(s) dans un modèle de régression multivarié
38
IV.1 La stratification Exemple sur le syndrome de Down (1)
Etudier l’association entre
• le rang de naissance de l’enfant (E)
• et le syndrome de Down (trisomie 21) (M)
L’âge maternel (X) est facteur de confusion potentiel• est associé au rang de naissance (E)• est associé à la présence de trisomie 21 chez l’enfant (M)• n’est pas une conséquencede (M) 39
La stratification – Exemple sur le syndrome de Down (2)
• Analyses brutes
– Analyse brute de l’association entre le rang de naissance (E) et le nombre de cas de trisomie 21 (M) pour 1000 naissances.
⇒⇒⇒⇒ Plus le rang est élevé,plus le risque detrisomie 21 est important
40
Exemple : Analyse stratifiée sur l’âge maternel
• A un âge maternel donné (X) , pas d’association entre E et M (le rang de naissance et la présence de trisomie 21 chez l’enfant).
L’association brute observée entre E et M totalemen t expliqué par l’âge maternel (X).
41
La stratification : Principe
• X : facteur de confusion pris en compte
• Stratification :
– estimer l’association entre E et M (calcul de l’OR ou du RR)
– selon les différentes valeurs (= strates) de X
⇒ On supprime par conséquent l’association entre X et E
42
La stratification : Remarques
• Nombre limité de facteurs de confusions
– Si N facteurs de confusion binaires� 2N strates à analysée
⇒ Nécessité d’utiliser la modélisation multivariée (régressions linéaire, logistique, …)
• Si l’association dans chacune des strates ≠ association brute ⇒ variable de stratification = facteur de confusion
• Techniques plus avancées qui à partir de la stratification calculent un indicateur commun aux différentes strates.Ex : calcul d’ajustement par pondération par l’inverse de la variance (pas vu ici)
43
IV.2. Modèles multivariés
• Avec les méthodes par stratification
– Nombre limité de facteurs de confusion pris en compte
– Considère seulement les variables qualitatives • Variable quantitave à transformer en classes (définies arbitrairement)
� peut conduire à des biais de confusion résiduel � toute l’information contenue dans X n’est pas prise en compte
⇒ La modélisation multivariée permet de résoudre ces problèmes,
– Modèles � Hypothèses à vérifier
– Méthodes plus délicates • Choix entre différents modèles
• Visualisation difficile
• Interprétation des coefficients difficiles (intéraction !!!)
44
Présentation des modèles multivariés
• Notations :
– E, exposition d’intérêt
– X1, X2, …, Xp, facteurs de confusion potentiels
• Un modèle multivarié est un modèle où la maladie (quantifiée par une valeur Y) est reliée par une fonction F aux expositions d’intérêt et aux facteurs de confusions potentiels.
– E(Y)=f(E,Xi)
• Rôles de E et des Xi
– Etude de l’association entre E et M : rôles dissymétriques
• En pratique, on étudie successivement plusieurs exposition E.Une même variable peut être X et E.
– Etude prédictive : rôles symétriques
45
Quel modèle de régression multivarié ?
• Le choix d’un modèle multivarié est dictée par la nature de la variable maladie (variable Y)
• Y quantitative : régression linéaire multiple (ANCOVA)
– Rappel
iidN
XEY
i
i
p
jjijii
²),0(~1
σε
εββα +++= ∑=
∑=
++=p
jjijii XEYE
1
)( ββα
46
Modèle (ou régression) logistique
• Y dichotomique, 0 ou 1 (malade/non-malade)
• Fréquence de la maladie est mesuré par un risque
– Etude de prévalence ou d’incidence au cours d’une période fixée
– Cas-Témoin
• Régression linéaire plus possible (Y =0 ou 1)
E
Y1
00
47
Les différences par rapport au modèle linéaire classique
• Y= 0 ou 1
– Hypothèse impossible : Y suit une loi normale
– Yi suit une loi binomiale de paramètre piE(Yi)=pi
• On ne peut plus écrire
– 0 ≤ pi ≤ 1
– Transformation nécessaire
• Plusieurs transformations possibles
• La plus usuelle la transformation logit
∑=
++==p
jjijiii XEYEp
1
)( ββα
48
Fonctions logistique et sigmoïde
Fonction logit Fonction sigmoïde (relation dose-effet)
Avec 0 <p< 1, -∞<logit(p)< +∞
Wikipedia
Avec -∞<x< +∞, 0<f(x)<1
49
Modèle logistique
)(~ ii pBerY
))(exp(1
1)(logit
1
1∑
∑
=
= ++−+=⇔++=
p
jjiji
i
p
jjijii
XE
pXEp
ββαββα
Remarque 1: Le modèle est multiplicatif (et pas additif comme le modèle linéaire classique).
Remarque 2: Le modèle logistique appartient aux modèles linéaires généralisés(cf cours de statistiques).
E
Y1
00
50
Interprétation des coefficients dans le modèle logistique
– Y = 0/1 (malade/non malade)
• 2 remarques préalables :
P=Pr(Y=1|E)= �
�����((α+ βE) )
↔ log(
� )=logit(P)= α+ βE
OR1,0= �/(� �)
�/(� �)
↔ Ln(OR1,0)=logit(��)-logit(��)51
E, variable qualitative à 2 classes, E=1 ou 0
• P1=Pr(Y=1|E=1)
• P0=Pr(Y=1|E=0)
• Ln(OR)=logit(P1) –logit(P0)=(α+β)- α = β
logit(P1)= α+ βx1 = α+ β
logit(P0)= α+ βx0 = α
logit(P)= α+ βE
OR=exp(β)
52
E, variable qualitative à plusieurs classes
• Analogue à variable qualitative dans un modèle linéaire classique (ANOVA)
• Si E possède k classes,• Estimation de k βj
• Ajout d’une contrainte,Le plus souvent une classe est choisie comme témoin� β=0
• Pk=Pr(Y=1|E=k) P0=Pr(Y=1|E=temoin)logit(Pk)= α+ βk logit(P0)= α
• Log(ORk,0)= logit(Pk)-logit(P0)= βk
0Rk,0 =exp(βk )53
Exemple : étude de l’association entre tabagisme (E) et cancer de la vessie (M)
• Exposition : tabagisme, 4 classes
– 0 : non fumeur
– 1 : tabac brun
– 2 : tabac mixte
– 3 : tabac blond
• Classe témoin : non fumeur, β0=0
• Estimation obtenue : logit(^P)= -1.47+1.66 E1+2.56 E2+ 1.8 E3
05.6ˆ
94.12ˆ
26.5ˆ
8.1ˆ
2,0
56.2ˆ
2,0
66.1ˆ
1,0
"
2
1
===
===
===
eeRO
eeRO
eeRO
β
β
β
54
• Analogue au modèle de régression linéaire� Estimation d’un seul paramètre
• P(x)=Pr(Y=1|E=x)
•
• Log(ORx+1,x)= logit(P(x+1))-logit(P(x))= α+ β (x+1) –(α+ β x ) = β
• Attention : dépend de l’unité de E.
E, variable quantitative ou qualitative ordinale
logit(P(x))= α+ β x
logit(P(x+1))= α+ β (x+1)
0Rx+1,x =exp(β)55
• Ex : Nb moyen de cigarettes fumées par jour (E)
• Estimation obtenue du modèle logistique :
– Logit(^P)=-1.21+ 0.64 E• Ce qui donne :
– OR1,0=OR2,1=OR3,2=OR4,3=exp(0,64)=1,9
– OR2,0=OR3,1=OR4,2= exp( 0,64*2)= 3,6
– OR3,0=OR4,1= exp( 0,64*3)=6,8
– OR4,0=exp( 0,64*4)=12,9
Conso 0 1-19 20-39 40-59 >59
Codage de E 0 1 2 3 4
Exemple : étude de l’association entre
tabagisme (E) et cancer de la vessie (M)
56
Interprétation des coefficients dans le modèle
logistique multiple
Plusieurs variables
• E, facteurs d’intérêts
• Xj (j=1,…,p), facteurs de confusion potentiels
• La valeur des βi estimées dépendent de la présence des autres variables � Prise en compte des facteurs de confusion (Xi)
• ORa, ajusté sur les Xi
« variation du risque d’apparition de maladie lorsque seule la
variable E est modifiée, l’exposition aux variables Xi étant
inchangée »ORa=exp(β)
))(exp(1
1)(logit
1
1∑
∑
=
= ++−+=⇔++= p
jjiji
i
p
jjijii
XE
pXEp
ββαββα
57
• Estimation et tests, intervalles de confiance des paramètres
• Choix des modèles et sélection de variables
• …. (cf cours de statistiques)
58
Conclusions
Limiter les biais
• Objectif : estimation de l’OR (ou du RR) causal– Plus les biais sont nombreux, plus estimation éloignée (en
espérance)
• Limiter les biais de– Confusion : Identifier et prendre en compte – Sélection : Eviter les processus de sélection dépendant à la
fois de la maladie et de l’exposition d’intérêt principal (E)– Classement
• Différentiel : - Evaluer X à l’aveugle de la maladie- Evaluer la maladie à l’aveugle de toutes les expositions
• non différentiel : Réduire l’erreur aléatoire de mesure sur les expositions et sur la maladie
60
Interprétation d’une mesure d’association significative
• Si un OR brut quantifiant l’association entre E et M est significativement différent de 1
– On conclut à une association significative entre E et M.
– Dans la population, il y a de grandes chances pour que cette association existe
• Interdiction de mettre une quelconque notion de causalité avec un OR brut
61
Interprétation d’une mesure d’association non significative
Si un OR ajusté quantifiant l’association entre E et M n’est pas significativement différent de 1
• On ne peut pas conclure à une association significative entre E et M
• Biais ?La véritable association est peut-être masquée par des biais.Ont-ils été pris en compte (biais de confusion) ?
• Puissance statistique ? Etait-elle suffisante? • Si on pense que l’estimation est non (ou très peu) biaisée, on
conclut qu’à niveau égal des facteurs de confusion pris en compte, E ne semble ni augmenter ni diminuer les risques de présence de la maladie.
62
Top Related