Stats

180
Université Pierre et Marie Curie Biostatistique PACES - UE4 2013 - 2014 Respon sables : F. Carrat et A. Mallet Auteu rs : F. Carrat, A. Mall et, V. Moric e Mise à jour : 21 octobre 2013 Relecture : V. Morice, A. Mallet, A.J. Valleron, F. Carrat et S. Tézenas

description

DISCLAIMER content not my property

Transcript of Stats

  • 5/27/2018 Stats

    1/179

    Universit Pierre et Marie Curie

    Biostatistique

    PACES - UE4

    2013 - 2014

    Responsables : F. Carrat et A. MalletAuteurs : F. Carrat, A. Mallet, V. Morice

    Mise jour : 21 octobre 2013

    Relecture : V. Morice, A. Mallet, A.J. Valleron, F. Carrat et S. Tzenas

  • 5/27/2018 Stats

    2/179

    2/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    3/179

    Sommaire

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 3/179

    Sommaire

    3 Sommaire

    9 Avant-propos

    11 Introduction

    11 1 La variabilit et lincertain12 2 La mesure dune grandeur 12 2.1 Units et quations aux dimensions13 2.2 Erreurs de mesure14 3 La dcision dans lincertain

    15 Chapitre 1 : Statistique(s) et Probabilit(s)

    15 1.1 Statistique15 1.2 Population et chantillon16 1.3 Statistique et probabilit

    19 Chapitre 2 : Rappels mathmatiques

    19 2.1 Ensembles, lments19 2.2 Oprations sur les ensembles21 2.3 Ensembles finis, dnombrables, non dnombrables21 2.4 Ensembles produits22 2.5 Familles densembles22 2.6 Autres rappels mathmatiques22 2.6.1 Rappel sur les sommes23 2.6.2 Rappel sur les intgrales

    25 Chapitre 3 : Elments de calcul des Probabilits

    25 3.1 Introduction26 3.2 Exprience alatoire, ensemble fondamental et vnements27 3.3 Oprations sur les vnements27 3.4 Rgles du calcul des probabilits29 3.5 Remarque29 3.6 Illustration de quelques ensembles probabiliss29 3.6.1 Ensemble probabilis fini30 3.6.2 Ensemble fini quiprobable30 3.6.3 Ensembles probabiliss infinis

  • 5/27/2018 Stats

    4/179

    Sommaire

    4/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    30 3.6.3.1 Cas dnombrable31 3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

    33 Chapitre 4 : Probabilit Conditionnelle ; Indpendance et Thormede Bayes

    33 4.1 Probabilit conditionnelle34 4.2 Thorme de la multiplication35 4.3 Diagramme en arbre36 4.4 Thorme de Bayes38 4.5 Indpendance entre vnements38 4.6 Indpendance, inclusion et exclusion de deux vnements

    41 Chapitre 5 : Evaluation de lintrt diagnostique des informationsmdicales

    41 5.1 Introduction41 5.1.1 Le diagnostic42 5.1.2 Les informations mdicales42 5.1.3 Situation exprimentale et estimation43 5.2 Les paramtres de lvaluation43 5.2.1 Sensibilit et spcificit44 5.2.2 Valeurs prdictives44 5.2.3 Comparaison des deux couples de paramtres45 5.2.4 Choix dun seuil : courbes ROC

    47 5.3 Estimation des paramtres de lvaluation47 5.3.1 Un chantillon reprsentatif47 5.3.1.1 Les donnes47 5.3.1.2 Estimation de la sensibilit et de la spcificit48 5.3.1.3 Estimation des valeurs prdictives49 5.3.2 Deux chantillons reprsentatifs

    51 Chapitre 6 : Variables alatoires

    51 6.1 Dfinition dune variable alatoire52 6.2 Variables alatoires finies52 6.2.1 Reprsentation dune loi de probabilit finie52 6.2.2 Esprance mathmatique dune variable finie55 6.2.3 Variance et cart-type dune variable finie55 6.2.4 Loi de probabilit produit57 6.2.5 Variables alatoires indpendantes57 6.2.6 Fonction de rpartition58 6.3 Variables infinies dnombrables (hors programme)59 6.4 Variables alatoires continues61 6.5 Extension de la notion de variable alatoire

  • 5/27/2018 Stats

    5/179

    Sommaire

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 5/179

    63 Chapitre 7 : Exemples de distributions

    63 7.1 Lois discrtes63 7.1.1 Loi de Bernoulli63 7.1.2 Loi binomiale

    66 7.1.3 Loi de Poisson67 7.2 Lois continues67 7.2.1 Loi normale67 7.2.1.1 Dfinition67 7.2.1.2 Proprits70 7.2.2 Loi du 2 (chi-2)70 7.2.2.1 Dfinition71 7.2.2.2 Proprits71 7.2.3 Loi de Student (hors programme)72 7.2.4 Loi exponentielle (hors programme)73 7.3 Application de la Loi de Poisson linterprtation dun risque sanitaire

    possible qui na pas encore t observ73 7.3.1 Introduction73 7.3.2 Le problme direct 74 7.3.3 Problme inverse75 7.3.4 Application numrique75 7.3.5 Remarque

    77 Chapitre 8 : Statistiques descriptives

    77 8.1 Rappels et complments78 8.2 Reprsentation complte dune srie dexpriences78 8.2.1 Cas dune variable qualitative79 8.2.2 Cas dune variable quantitative discrte80 8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME81 8.3 Reprsentation simplifie dune srie dexpriences81 8.3.1 Indicateurs de localisation des valeurs81 8.3.2 Indicateurs de dispersion des valeurs82 8.4 Reformulation de la moyenne et de la variance observes82 8.4.1 Reformulation de la moyenne observe83 8.4.2 Reformulation de la variance observe

    84 8.5 Cas particulier dune variable deux modalits - Proportion84 8.5.1 Expression de lesprance mathmatique de X84 8.5.2 Expression de la variance de X85 8.5.3 Interprtation de la moyenne observe85 8.6 Conclusion : la variable alatoire moyenne arithmtique87 Rsum du chapitre

  • 5/27/2018 Stats

    6/179

    Sommaire

    6/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    89 Chapitre 9 : Fluctuations de la moyenne observe : la variablealatoire moyenne arithmtique

    89 9.1 Premire proprit de la variable alatoire moyenne arithmtique89 9.1.1 Un exemple

    90 9.1.2 Gnralisation91 9.2 Seconde proprit de la variable alatoire moyenne arithmtique : le thorme

    central limite92 9.3 Etude de la distribution normale (rappel)94 9.4 Application du thorme central limite. Intervalle de Pari (I. P.)94 9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe96 9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP)97 9.4.3 Lintervalle de pari dune variable alatoire98 Rsum du chapitre

    99 Chapitre 10 : Estimation - Intervalle de confiance

    99 10.1 Introduction100 10.2 Estimation ponctuelle100 10.2.1 Dfinition100 10.2.2 Proprits100 10.2.2.1 Biais101 10.2.2.2 Variance101 10.2.2.3 Erreur quadratique moyenne101 10.2.3 Exemple102 10.3 Estimation par intervalle - Intervalle de confiance102 10.3.1 Exemple dune proportion105 10.3.2 Intervalle de confiance approch dune proportion vraie 105 10.3.3 Intervalle de confiance approch dune moyenne vraie (variable

    continue)106 10.3.4 Applications106 10.3.4.1 Prcision dun sondage107 10.3.4.2 Prcision dune moyenne

    109 Chapitre 11 : Les tests dhypothses. Principes

    109 11.1 Un exemple concret (emprunt Schwartz)112 11.2 Principe gnral des tests dhypothses112 11.2.1 Les tapes de mises en uvre114 11.2.2 Justification de la rgle de dcision. Choix de 114 11.2.2.1 Interprtation de 114 11.2.2.2 Effet dun changement de valeur de 115 11.2.3 Justification des conclusions du test. Puissance dun test118 11.2.4 Amlioration de linterprtation du rejet de H0118 11.2.4.1 Notion de degr de signification

  • 5/27/2018 Stats

    7/179

    Sommaire

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 7/179

    119 11.2.4.2 Orientation du rejet120 11.3 Rappels et prcisions122 Rsum du chapitre

    123 Chapitre 12 : Quelques tests usuels

    123 12.1 Tests concernant des variables de Bernoulli123 12.1.1 Test dgalit dune proportion vraie une valeur donne (ou test de

    comparaison dune proportion observe une valeur donne)123 12.1.1.1 Mise en place du test124 12.1.1.2 Autre interprtation du paramtre z125 12.1.1.3 Nombre de sujets ncessaires125 12.1.2 Test dgalit de deux proportions vraies (ou test de comparaison de deux

    proportions observes)125 12.1.2.1 Mise en place du test

    127 12.1.2.2 Nombre de sujets ncessaires127 12.2 Tests concernant des variables quantitatives127 12.2.1 Tests impliquant une valeur donne128 12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de

    comparaison dune moyenne observe une valeur donne)129 12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) :

    test de Wilcoxon130 12.2.2 Tests de comparaison de variables quantitatives130 12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de

    deux moyennes observes)131 12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux

    distributions observes) : test de Mann-Whitney-Wilcoxon133 12.2.3 Cas des sries apparies133 12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies134 12.2.3.2 Test de symtrie de la distribution des diffrences135 Rsum du chapitre

    137 Chapitre 13 : Tests concernant des variables qualitatives

    137 13.1 Comparaison dune rpartition observe une rpartition donne ou test du 2dajustement

    138 13.1.1 Les tapes de mise en uvre142 13.1.2 Cas particulier : variable deux modalits143 13.2 Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit146 13.3 Test dindpendance entre deux variables qualitatives150 Rsum du chapitre

  • 5/27/2018 Stats

    8/179

    Sommaire

    8/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    151 Chapitre 14 : Liaison entre deux variables continues : notion decorrlation

    151 14.1 Introduction152 14.2 Abord du problme

    154 14.3 Un indicateur de covariation : le coefficient de corrlation158 14.4 Le coefficient de corrlation vrai 159 14.5 Test dgalit du coefficient de corrlation vrai 0161 Rsum du chapitre

    163 Chapitre 15 : Mthodologie des tudes pidmiologiques

    163 15.1 La causalit164 15.2 Dmarche exprimentale et dmarche dobservation165 15.3 Les essais randomiss

    165 15.3.1 Dfinition165 15.3.2 Comment limiter les biais dans le droulement dun essai thrapeutique

    randomis ? Aveugle et placebo166 15.3.3 Comment limiter les biais dans lanalyse dun essai thrapeutique

    randomis ? Intention de traiter167 15.4 Les tudes dobservation167 15.4.1 Cohortes - Cas-tmoins et tudes transversales168 15.4.2 Etudes prospectives et rtrospectives168 15.4.3 Donnes longitudinales169 15.4.4 En pratique169 15.5 Mesures dassociation utilises en pidmiologie170 15.6 Risque attribuable, proportion de cas vitables172 Rsum du chapitre

    173 Annexe A : Tables statistiques

    174 A.1 TABLE DE LA VARIABLE NORMALE REDUITE Z175 A.2 TABLE DU TEST DE WILCOXON176 A.3 TABLE DU TEST DE MANN-WHITNEY-WILCOXON177 A.4 TABLE DE 2178 A.5 TABLE DU COEFFICIENT DE CORRELATION179 A.6 TABLE DU t DE STUDENT

  • 5/27/2018 Stats

    9/179

    Avant-propos

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 9/179

    Avant-proposCe polycopi contient le cours de biostatistique de la PACES - UE4 - de la Facult de MdecinePierre et Marie Curie (Paris VI).

    On pourra trouver des complments dans le livre de A. J. Valleron :

    A.J. Valleron. UE4 : valuation des mthodes danalyse appliques aux sciences de la vie et de lasant. Elsevier-Masson (collection PassSant)

    Des QCM corriges sont en particulier disponibles dans le livre :

    V. Morice & A. Mallet. QCM corriges et commentes de Biostatistique. Ellipses 2012

    Pour en savoir plus :

    R. Beuscart et Collge des Enseignants de Biostatistique.Biostatistique . Omniscience, 2009

  • 5/27/2018 Stats

    10/179

    Avant-propos

    10/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    11/179

    Introduction

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 11/179

    IntroductionLa statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions quise posent en permanence au mdecin :

    1. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ?2. Quelle est la fiabilit dun examen complmentaire ?3. Quel est le risque de complication dun tat pathologique, et quel est le risque dun

    traitement ?4. Le traitement A est-il plus efficace que le traitement B ?

    1 La variabilit et lincertain

    Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmesbiologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale(lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposerla variabilit dune grandeur mesure en deux grandes composantes :

    variabilit totale = variabilit biologique + variabilit mtrologique

    La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la va-riabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peuttre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui faitque cette mme grandeur varie dun individu lautre.

    variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle

    La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dunathlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrenciedes autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindreque la variabilit inter.

    La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part lesconditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les

    erreurs induites par lappareil de mesure utilis.variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure

    La mesure de la pression artrielle peut grandement varier sur un individu donn suivant lesconditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recom-mandation vise minimiser la variabilit due aux conditions exprimentales. La prcision delappareil de mesure est une donne intrinsque de lappareil, et est fournie par le construc-teur.

  • 5/27/2018 Stats

    12/179

    Introduction

    12/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    2 La mesure dune grandeur

    2.1 Units et quations aux dimensions

    Les grandeurs mesures possdent la plupart du temps une unit. La distance entre Paris et Mar-seille se mesurera par exemple en kilomtres, lpaisseur dun cheveu en microns, le poids duneorange en grammes. Dans quelle mesure ces grandeurs peuvent-elles tre compares ? La distanceentre Paris et Marseille, et lpaisseur dun cheveu sont deux longueurs ; leur comparaison est pos-sible si on les mesure avec une unit commune, par exemple le mtre. En revanche, le poids delorange nest pas comparable aux longueurs prcdentes.Deux grandeurs qui peuvent tre compares sont dites possder la mme dimension. Elles peuventtre caractrises par leur dimension : on parlera par exemple de longueur. Les dimensions detoutes les grandeurs physiques peuvent sexprimer en fonction de sept dimensions de base : la lon-

    gueurnote L, la masse M, le temps T, lintensit lectrique I, la temprature , lintensitlumineuse J, et la quantit de matire N.Par exemple une vitesse est une longueur divise par un temps. On dira que sa dimension est LT-1.Plus prcisment, de lquation donnant la vitesse v en fonction de la distance dparcourue pendantle temps t, v=d/t, on dduit la relation entre les dimensions (notes entre crochets) des deuxmembres de lquation [v] = [d]/[t] = L T-1. Cette relation est appele quation aux dimensions.Une quation aux dimensions permet donc dexprimer la dimension de nimporte quelle grandeuren fonction des dimensions lmentaires, condition de connatre les relations entre elles. Elle per-met aussi une premire validation dune relation entre grandeurs physiques : les dimensions de la

    partie gauche et de la partie droite de la relation doivent tre identiques.Dterminons par exemple la dimension dune nergie ou dun travail, partir de la formule w =f.l(un travail est le produit dune force par une longueur). Une force est le produit dune masse parune acclration (f=m.) et une acclration est une longueur divise par le carr dun temps.Donc [w] = [f][l] = [m][l]t-2][l] = M L2T-2.Un autre intrt des quations aux dimensions concerne les units des grandeurs mesures. On d-finit un systme dunits en imposant des units aux 7 dimensions de base, les autres units de d-finissant laide des quations aux dimensions. Le systme dunits le plus utilis est le SystmeInternational, ou SI, dans lequel une longueur est mesure en mtres(m), une masse en kilo-grammes(kg), un temps en secondes(s), une intensit lectrique en ampres(A), une tempra-ture en degrs Kelvin(K), une intensit lumineuse en candelas(cd), et une quantit de matire enmoles(mol).

    Dans le systme international, certaines units drives sont videntes : une surface sexprime enmtres carrs. Dautres le sont moins. Citons lhertz pour une frquence, lepascalpour une pres-sion, lejoulepour une nergie ou un travail, le wattpour une puissance, le newtonpour une force,le coulombpour une charge lectrique, le voltpour une diffrence de potentiel, lohmpour unersistance, etc.Il existe des grandeurs sans dimension, calcules comme le rapport de deux grandeurs de mmedimension, mais qui possdent pourtant une unit. Un angle est une grandeur sans dimension me-sure en radiansdans le systme international.

  • 5/27/2018 Stats

    13/179

    Introduction

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 13/179

    2.2 Erreurs de mesure

    La mesure dune grandeur ne peut conduire une valeur exacte. En premier lieu, linstrument demesure possde ncessairement une prcision limite : une rgle gradue millimtre par millimtrene peut donner une meilleure prcision quun demi millimtre. En second lieu, la grandeur me-surer peut tre source de variabilit intra-individuelle : la rptition de la mesure avec le mme ins-trument et dans des conditions identiques conduit alors des rsultats diffrents. Enfin,linstrument de mesure peut tre mal talonn ou mal adapt et conduire un biais de mesuresystmatique : les valeurs mesures seront systmatiquement trop leves, ou systmatiquementtrop basses.Pour une grandeurX mesurer, on note Xlerreur de mesure. Cette erreur est gnralement fa-cilement connue si elle nest due qu un problme de prcision. Sil existe une variabilit intra-individuelle (raisonnablement faible), on fera intervenir lcart-type des mesures (voir chapitre 10

    page 99). Sixest la valeur mesure, la vraie valeur est donc comprise entrex-Xetx+X.Si une grandeur G nest pas mesure, mais dduite dautres grandeursX, Y,Z laide dune for-

    mule, lerreur G sur G doit se dduire des erreurs X, Y, ZsurX, Y, Z.Le plus souvent, on utilise un calcul bas sur la diffrentielle totale exacte de la formule. SiG =f(X,Y,Z), la diffrentielle totale exacte1est :

    Lerreur de mesure est alors donne par :

    Supposons par exemple devoir calculer une rsistanceR en mesurant lintensitIdu courant qui y

    circule et la diffrence de potentiel U ses bornes. La formule liant ces grandeurs estR =U/I. Onmesure U= 1000 volts 1 volt prs etI= 1 ampre 10-3ampre prs.

    La formule donneR = 1000 ohms et lerreur se calcule par

    Le calcul bas sur la diffrentielle totale exacte nest cependant quune approximation (on confondune courbe et sa tangente). Lorsque des calculs plus exacts sont possibles, ils sont prfrables. Ain-si, supposons avoir trouv 100 avec une prcision de 1 pour la mesure dune grandeurXet nousintresser la grandeur Y= 1/X.La formule de la diffrentielle totale exacte donne , donc une valeur de Ycom-

    prise entre 0,0099 et 0,0101.Mais puisque la vraie valeur deXest comprise entre 99 et 101, la vraie valeur de Yest en ralitcomprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101.

    1. Rappel : calculer la drive partielle dune fonction par rapport lune des variables consiste driver enassimilant les autres variables des constantes.

    fd f

    X------ Xd

    fY

    ------ Yd f

    Z------ Zd+ +=

    G f fX------ X f

    Y

    ------ Y fZ------ Z+ += =

    R UI-------- U

    I2

    ---- I+ 2= =

    Y X

    X2

    ------- 10 4= =

  • 5/27/2018 Stats

    14/179

    Introduction

    14/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    3 La dcision dans lincertain

    Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments luipermettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de ce

    qui est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen,ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statis-tiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout r-sultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuiesur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statis-tiques.De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescrip-tion, de dterminer dans une situation donne lexamen qui apportera la meilleure information dia-gnostique.

    Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique :

    Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche cli-nique qui ne peut saccomplir convenablement (dfinition de la question, mise en place du

    protocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique ri-goureuse.

    Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pid-mie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablementchoisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercherles stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des ap-

    plications relevant de lpidmiologie et de la sant publique. Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleur

    examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au dia-gnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patientdonn (choix du mdicament, posologie, etc).

    Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre lesmthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter unmode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine.Plus prcisment nous tudierons successivement :

    1. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisa-tion des mthodes statistiques.

    2. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plu-sieurs grandeurs observes.3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothse

    A plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de lacomparaison de deux traitements, o lhypothse A est que les deux traitements sont quiva-lents et lhypothse B est quils sont diffrents).

    4. Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeu-tique et diagnostique, et les applications aux essais thrapeutiques.

  • 5/27/2018 Stats

    15/179

    Statistique(s) et Probabilit(s)

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 15/179

    Chapitre 1

    Statistique(s) et Probabilit(s)Nous commencerons par dfinir les termes et les concepts importants.

    1.1 Statistique

    Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit quiconsiste en leur recueil, leur traitement et leur interprtation. Les termes statistique , oustatistiques (au pluriel) englobent ainsi plusieurs notions distinctes :

    1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, lerevenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nousvoyons que la notion fondamentale qui se dgage de cette numration est celle dePopulation. Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits(ensemble des mains de 5 cartes distribues au bridge...) de mme nature.

    2. La statistique en tant que science sintresse aux proprits des populations naturelles. Plusprcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dunepopulation. Cette population dobjets doit en outre tre soumise une variabilit, qui est due de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous in-tressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux).

    3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (ausingulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plusgrande valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite,la valeur de la moyenne arithmtique de ces valeurs, etc.

    1.2 Population et chantillonOn appellepopulationP un ensemble gnralement trs grand, voire infini, dindividus ou dobjetsde mme nature. Tous les mdecins de France constituent une population, de mme que lensembledes rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive.Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituantune population ; on travaille alors sur une partie de la population que lon appelle chantillon .Pour quun chantillon permette ltude de la variabilit des caractristiques dintrt de la popu-

  • 5/27/2018 Stats

    16/179

    Statistique(s) et Probabilit(s)

    16/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatifsi lesindividus le constituant ont t tirs au sort1dans la population. Si par exemple on souhaite dter-miner les caractristiques moyennes du poids et de la taille des prmaturs masculins on tireraau hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne.Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de

    caractristiques appeles variables ou caractres . Ces variables peuvent tre quantitatives (num-riques) ou qualitatives (non numriques) :

    quantitatives

    pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfantsdans une famille)

    qualitatives

    pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensitdune douleur classe en nulle, faible, moyenne, importante).

    1.3 Statistique et probabilit

    La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de mod-liser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard,

    puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la bio-logie).Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest par-tir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les fr-

    quences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire enjetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables lacomprhension des statistiques seront traits dans la premire partie du cours.Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatreles proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux popu-lations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaitesavoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il estncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de cetype est par exemple de considrer que la taille des individus suit une distribution gaussienne. A

    partir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une d-

    duction qui va du modle vers lexprience. A linverse, considrant un chantillon dune popula-tion on peut essayer de reconstruire le modle de la population.Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, enutilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen-

    1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la populationtudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui quiconsiste tirer des noms dans une urne qui contiendrait tous les noms possibles.

  • 5/27/2018 Stats

    17/179

    Statistique(s) et Probabilit(s)

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 17/179

    taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral re-prsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modlesmathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction induc-tive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des exp-riences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats

    exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ;dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit, lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant derfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans ladmarche statistique, en particulier dans le domaine des tests.

  • 5/27/2018 Stats

    18/179

    Statistique(s) et Probabilit(s)

    18/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    19/179

    Rappels mathmatiques

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 19/179

    Chapitre 2

    Rappels mathmatiques

    2.1 Ensembles, lments

    On appelle ensemble , toute liste ou collection dobjets bien dfinis, explicitement ou

    implicitement ; on appelle lments ou membres de lensemble les objets appartenant lensembleet on note :

    sip est un lment de lensembleA B est partie deA , ou sous ensemble deA , et lon note ou , si

    On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments :

    A = {1, 2, 3} X= {x :x est un entier positif}

    Notations :

    la ngation de est est lensemble vide Eest lensemble universel.

    2.2 Oprations sur les ensembles

    Soient A et B deux ensembles quelconques.

    Intersection

    Lintersection deA etB , note , est lensemble des lmentsx tels que et. Soit := {x : et }

    Le terme et est employ au sens six appartient la fois A et B

    p AB A A B x B x A

    x A x A

    A B x Ax BA B x A x B

    x AetB

  • 5/27/2018 Stats

    20/179

    Rappels mathmatiques

    20/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    Cas particulier : si , on dit queA etB sont disjoints.Runion

    La runion de A etB , note , est lensemble des lments x tels que ou. Soit := {x : ou }

    Le terme ou est employ au sens si x appartient A , ou B , ou A etB(car signifie et ).

    Complmentaire

    Le complmentaire deA est lensemble des lments de Equi nappartiennent pas A .

    Diffrence

    La diffrence entreA etB , ou complmentaire deBrelatif A , est lensemble des lmentsdeA qui nappartiennent pas B .

    A B

    A B

    E

    A B =

    A B x Ax BA B x A x B

    x AouBx AetB x A x B

    E

    B

    A B

    A

    CA A x:x A = =

    A

    E

    CA

    A B C= AB x:x Betx A =

    E

    A B

    C BA

  • 5/27/2018 Stats

    21/179

    Rappels mathmatiques

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 21/179

    Algbre des ensembles

    2.3 Ensembles finis, dnombrables, non

    dnombrables

    Un ensemble est finisil est vide () ou sil contient un nombre fini dlments ; sinon, il estinfini :

    A = {a1, a2, a3} est fini ;I= { } est infini.

    Un ensemble infini est dit dnombrablesi on peut faire correspondre de faon unique chaquelment de lensemble un entier naturel et un seul :

    A = {n : n est un entier pair} est infini dnombrable. Un ensemble infini est non dnombrabledans le cas contraire. Dans la pratique, les seuls en-

    sembles infinis non dnombrables que nous rencontrerons seront des intervalles de :{ } ou des intervalles de 2 : { }.

    2.4 Ensembles produits

    SoientA etB deux ensembles ; lensemble produit deA et deB , not , est lensemble de tousles couples ordonns (a ,b), avec et .Exemples :

    ,

    A A A= A A A=

    A B C A B C =

    A B C A B C =

    A B B A= A B B A=

    A B C A B A C = A B C A B A C =

    A A= A E A=

    A E E= A =

    A CA E= A CA =

    CCA A= CE = C E=

    C A B CA CB= C A B CA CB=

    x 0 1[ , ]

    x a b[ , ] x y :x a b[ , ] y c d[ , ]

    A Ba A b B

  • 5/27/2018 Stats

    22/179

    Rappels mathmatiques

    22/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    A = {a,b , c} ;B = {1, 2}= { (a , 1), (a , 2), (b, 1), (b , 2), (c , 1), (c , 2) }

    est le plan cartsien, chaque lment de tant dfini par son abscisse et sonordonne :

    2.5 Familles densembles

    Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces en-sembles font partie de la mme classe ou de la mme famille.

    Parties

    Soit un ensembleA quelconque. On appelle famille des parties deA lensemble des sous-ensembles deA .Exemple :A = {1, 2}

    Partition

    Une partition dun ensembleAest une subdivision deA en sous-ensembles disjoints dont

    la runion formeA .Notation

    Soit une famille densembles {Ai} = {A1,A2, ....,An , ....} qui peut tre finie ou non. Onnote :

    2.6 Autres rappels mathmatiques

    2.6.1 Rappel sur les sommes

    Soit {ai} une suite de termes ai . On note .Proprits :

    A B

    (a,b)b

    a

    P A 1 2 1 2{ , } { , }=

    Aii

    A1 A2 ... An ... =

    Aii

    A1 A2 ... An ... =

    aii 1=

    n

    a1 a2 ... an+ + +=

  • 5/27/2018 Stats

    23/179

    Rappels mathmatiques

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 23/179

    1.

    2.

    Si kest une constante (indpendante de i), elle peut tre sortie de la somme.

    2.6.2 Rappel sur les intgrales

    Dfinition

    Soit fune fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a ,b] estlaire sous la courbe defsur lintervalle [a ,b].Elle est note .

    Proprits

    1.

    2.

    3.

    Fonction primitive

    Soitfune fonction relle. Laire sous la courbe sur lintervalle varie lorsquon faitvarierx de - + Cette aire est une fonction Fdex , appele fonction primitive def. Elleest dfinie par :

    Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de va-riable (il sagit dune variable muette), diffrent de la borne dintgrationx .

    Proprits

    1. Si , alors

    Donc Fse dduit defpar intgration, etfse dduit de Fpar drivation.2.

    ai bi+ i

    aii

    bii

    +=

    kai i

    k aii

    =

    f x xda

    b

    f x xda

    b

    x

    x

    a b

    f x g x + xda

    b f x xda

    b g x xda

    b+=

    kf x xda

    b k f x xda

    b=

    f x xda

    b f x xda

    c f x xdc

    b+=

    ]- x]

    F x f d

    x=

    F x f d

    x= x

    dF x dx

    --------------=

    f x xda

    b F b F a =

  • 5/27/2018 Stats

    24/179

    Rappels mathmatiques

    24/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    25/179

    Elments de calcul des Probabilits

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 25/179

    Chapitre 3

    Elments de calcul des

    Probabilits

    3.1 IntroductionLe calcul des probabilits est la thorie mathmatique, donc fonde axiomatiquement, qui permetde modliser des phnomnes alatoires, ou non dterministes.De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul des

    probabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tombersur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir(phnomne alatoire).Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la phy-sique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loi

    dOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tensionaux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire lesrsultats dune exprience lorsquon contrle les causes.Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel.Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plus

    prcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observa-tion typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grandede croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractresde A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu cequon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dun

    phnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation de

    tels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.

  • 5/27/2018 Stats

    26/179

    Elments de calcul des Probabilits

    26/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    3.2 Exprience alatoire, ensemble

    fondamental et vnements

    Exprience alatoireOn sintresse ici aux seules expriences dont le rsultat nest pas prvisible, les exp-riences alatoires. Une exprience alatoire est aussi appele une preuve .

    Ensemble fondamental

    Pour une exprience alatoire donne, lensemble des rsultats possibles est appel len-semble fondamental, que nous noterons Edans la suite du cours. Chaque rsultatdexp-rience est un point de Eou un lment de E.

    Evnement

    Un vnementAest un sous ensemble de E, cest--dire un ensemble de rsultats.Lvnement {a}, constitu par un seul point de E, donc par un seul rsultat , est ap-

    pel vnement lmentaire.Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement im-possible.Lensemble Econtient tous les rsultats possibles : cest lvnement certain.Si Eest fini, ou infini dnombrable, tout sous-ensemble de Eest un vnement ; ce nest

    pas vrai si Eest non dnombrable (ceci sort du cadre de ce cours).On note parfois lensemble de tous les vnements.

    Exemples

    1. On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form parles 6 rsultats possibles :

    E= {1, 2, 3, 4, 5, 6}Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui estbien un sous ensemble de E.Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5},et lvnement correspondant lapparition dun 3 est C= {3}.

    2. Dans lexemple prcdent Etait fini et donc dnombrable ; Epeut tre infini dnom-brable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon ob-tienne pile ; lensemble fondamental correspondant est la suite des nombres entiersE= {1, 2, 3, ..., n , ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets,n tant aussi grand que lon veut.

    3. On vise avec une flchette une cible suffisamment grande ; si on admet que la flchetteest trs fine, comme le serait un point de la gomtrie, lespace fondamental est la sur-face de la cible qui est constitue de points et donc infinie et non dnombrable.

    a E

  • 5/27/2018 Stats

    27/179

    Elments de calcul des Probabilits

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 27/179

    3.3 Oprations sur les vnements

    Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A etBsont deux vnements, les oprations de combinaison sont :

    1. est lvnement qui se produit siA ouB (ou les deux) est ralis.Il est parfois not ouA ouB .

    2. est lvnement qui se produit siA etB sont raliss tous les deux.Il est parfois not ouA etB .

    3. est lvnement qui se produit quandA nest pas ralis. On lappelle aussi ngation deA .Il est parfois not , ou .

    Evnements incompatibles

    Quand deux vnementsA etB sont tels que , ils ne peuvent tre raliss si-

    multanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles.Systme complet dvnements

    On dit que les vnementsA1,A2, ...,An forment une famille complte si les Ai constituentune partition de E, cest--dire si :

    1. les vnements sont deux deux disjoints :2. ils couvrent tout lespace :

    Exemple

    Reprenons lexemple prcdent du jeu de ds :E= {1, 2, 3, 4, 5, 6},A = {2, 4, 6},B = {1, 2, 3, 5}, C= {3}.

    = apparition dun nombre pair ou premier= apparition dun nombre pair et premier= apparition dun nombre autre que 3

    :A et Csexcluent mutuellement.

    3.4 Rgles du calcul des probabilits

    Soit un ensemble fondamental E. Nous introduisons une fonction Prqui, tout vnementA , as-

    socie un nombre rel positif ou nul.Prest dite fonction de probabilit, et Pr(A) est appele probabilit de lvnementA , si les condi-tions ou rgles suivantes sont satisfaits :

    1. pour tout vnementA : une probabilit est positive ou nulle2. : la probabilit de lvnement certain est 13. : permet le calcul de la probabilit de la

    runion de deux vnements disjoints4. Soit un ensemble dnombrable (fini ou non) dvnements Ai deux deux disjoints

    A BA B+

    A BA B

    CA

    nonA A

    A B =

    i j Ai Aj = ,Ai

    i E=

    A B 1 2 3 4 5 6 =A B 2 =CC 1 2 4 5 6 =

    A C =

    Pr A 0Pr E 1=A B = Pr A B Pr A Pr B +=

  • 5/27/2018 Stats

    28/179

    Elments de calcul des Probabilits

    28/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    ( ), alors .

    Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduiredans le cas dun ensemble dvnements infini dnombrable.

    Proprits importantesdduites des quatre conditions prcdentes :1.

    SoitAun vnement quelconque.A et sont videmment disjoints puisque ;donc . Or ; donc . Do

    .2.

    A et son complmentaire sont disjoints, et leur runion forme E, de probabilit 1. Donc. Toute probabilit tant positive ou

    nulle, on obtient bien .3.

    A dmontrer en exercice, en notant que .4. Si , alors .

    A dmontrer en exercice, en notant que .

    5.A dmontrer en exercice, en remarquant que .

    6.A dmontrer en exercice, en remarquant que .

    Ai Aj = Pr A1 A2 ... Pr A1 Pr A2 ...+ +=

    Pr 0=A =

    Pr A Pr A Pr += A A= Pr A Pr A =Pr 0=Pr A 1

    CAPr E 1 Pr A CA Pr A Pr CA += = =

    Pr A 1Pr CA 1 Pr A =

    E A CA=A B Pr A Pr B B A CBA=

    CBA

    BA

    Pr CAB Pr A Pr A B = A CAB A B =

    CABB

    A

    A B

    Pr A B Pr A Pr B P r A B +=A B CAB B=

    CABB

    A

  • 5/27/2018 Stats

    29/179

    Elments de calcul des Probabilits

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 29/179

    3.5 Remarque

    Alors que , il existe des vnements non vides qui peuvent avoir une probabilit nulle.Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement

    impossible : il est alors dit presque impossible .

    Exemple

    Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papierquadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquerdans un carr donna une certaine valeur (par exemple celle du rapport de la surface ducarr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carrinfiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carrsi petit quil est devenu un point) nest pas impossible.

    De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque

    certain .

    3.6 Illustration de quelques ensembles

    probabiliss

    3.6.1 Ensemble probabilis fini

    Soit E= {a1, a2, ..., an} un ensemble fondamental fini. On probabilise cet ensemble en attribuant chaque point ai un nombrepi , probabilit de lvnement lmentaire {ai}, tel que :

    1.2.

    La probabilit dun vnement quelconqueA est la somme des probabilits des ai quil contient :

    ExempleOn jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fon-damental correspondant cette exprience est E= {0, 1, 2, 3} puisquon peut obtenircomme rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois pile ), 2 fois face , ou 3 fois face .On probabilise cet ensemble fini en donnant une valeur p0,p1,p2etp3aux vnements{0}, {1}, {2} et {3} ; comme par exemplep0 = 1/8,p1 = 3/8,p2 = 3/8 etp3 = 1/8.Considrons lvnementA tel quon ait au moins 2 fois face ,A = {a2, a3} :Pr(A) =p2 +p3 = 3/8 + 1/8 = 4/8 = 1/2

    Pr 0=

    pi 0p1 p2 ... pn+ + + 1=

    Pr A pia

    i A

    =

  • 5/27/2018 Stats

    30/179

    Elments de calcul des Probabilits

    30/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    3.6.2 Ensemble fini quiprobable

    Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabi-lit. On dit aussi quil sagit dun espace probabilis uniforme.E= {a1, a2, ..., an} et Pr({a1}) =p1, Pr({a2}) =p2, ..., Pr({an}) =pnavecp1 =p2 = ... =pn = 1/nLes jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie :

    jeu de ds : E= {1, 2, 3, 4, 5, 6} ;p1 =p2 =p3 =p4 =p5 =p6 = 1/6 jeu de cartes : E= {ensemble des cartes dun jeu de 52 cartes} ;pi = 1/52

    Proprit

    Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapportdu nombre de rsultats tel que A est vrai, sur le nombre dvnements de E.

    Remarque

    Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considrest quiprobable.

    Exemple

    On tire au hasard une carte dans un jeu de 52 cartes.Quelle est la probabilit de tirer un trfle ?

    Quelle est la probabilit de tirer un roi ?

    Quelle est la probabilit de tirer un roi de trfle ?

    Remarque

    Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insistersur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; cenest (de loin) pas le plus utile en mdecine.

    3.6.3 Ensembles probabiliss infinis

    3.6.3.1 Cas dnombrable

    On a alors un ensemble fondamental de la forme E= {a1, a2, ..., an , ...} comme dans le cas fini.Cet ensemble fondamental est probabilis en affectant chaque lment aiune valeur relle pitelle que :

    Pr tirer un trfle nombre de trflesnombre de cartes------------------------------------------

    1352------

    14---= = =

    Pr tirer un roi nombre de rois

    nombre de cartes-----------------------------------------

    452------

    113------= = =

    Pr tirer un roi de trfle 152------=

  • 5/27/2018 Stats

    31/179

    Elments de calcul des Probabilits

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 31/179

    et .

    La probabilit dun vnement quelconque est alors la somme des pi correspondant ses l-ments.

    Exemple 1

    A = {a25, a31, a43}Pr(A) =p25 +p31 +p43

    Exemple 2

    Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jus-qu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peutconstruire un espace probabilis en choisissant :

    Remarque :Le choix despi est arbitraire ; en ralit, il est justifi soit par des considrations a priori(dans le cas de lexprience prcdente on suppose que chaque jet constitue une exp-rience avec Pr(pile) =Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant).Il peut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ra-lisations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suitedu cours et constitue lobjet de lapproche statistique).

    3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

    Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas,en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltatactuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de lachute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le sa-tellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer la

    probabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe.Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourra

    prdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la pro-babilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum.Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit)

    la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc treassocies chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn estnulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent g-nralement partir dune densit (de probabilit) associe chaque point : lorsque les points dunergion ont une densit leve, la probabilit de chute dans cette rgion est leve.

    pi 0 pii 1=

    1=

    p112---= p2

    14---= ... pn

    12n-----= ... p 0=

  • 5/27/2018 Stats

    32/179

    Elments de calcul des Probabilits

    32/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    33/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 33/179

    Chapitre 4

    Probabilit Conditionnelle ;

    Indpendance et Thorme de

    Bayes

    4.1 Probabilit conditionnelle

    SoientA etB deux vnements quelconques dun ensemble fondamental Emuni dune loi de pro-babilit Pr. On sintresse ce que devient la probabilit de A lorsquon apprend queB est djralis, cest--dire lorsquon restreint lensemble des rsultats possibles EB .La probabilit conditionnelle deA , sachant que lvnementB est ralis, est note Pr(A /B) et estdfinie par la relation suivante :

    Equation 1 : probabilit conditionnelle

    Dans cette quation, les probabilits des vnements etB doivent tre calcules sur toutlensemble fondamental E, comme si on ne savait pas que B sest dj ralis. Sinon, on obtientvidemment Pr(B) = 1 .

    Figure 1 : probabilit conditionnelle

    Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o Eest un

    Pr A B Pr A B

    Pr B --------------------------=

    A B

    A B

    A B

  • 5/27/2018 Stats

    34/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    34/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notantle nombre dlments deA :

    Pr(A/B) traduit le rapport de la surface de sur la surface de B dans la figure 1.Toujours dans le cas o Eest quiprobable, on a

    Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiproba-bilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sanschercher une interprtation frquentiste dans tous les cas.

    Exemple

    On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation

    de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds aitdonn le rsultat 2 ?

    B = {somme des deux ds = 6}A = {au moins un des deux ds donne 2}B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}Nombre de ralisations de = {(2, 4), (4, 2)} = 2

    Do , alors que ( vrifier).

    4.2 Thorme de la multiplication

    Reprenons lquation 1, dfinition des probabilits conditionnelles :

    On en tire immdiatement

    Equation 2 : thorme de la multiplication

    Lquation 2peut se gnraliser facilement. SoientA1, ...,An des vnements quelconques dunespace probabilis ; partir de lquation 2, on montre :

    Exemple

    Une bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Cal-culer la probabilit pour que ces 3 objets soient dfectueux.Pr(1erdfectueux) = 4/10Pr(2medfectueux / 1erdfectueux) = 3/9

    A

    Pr A B A B

    E----------------- Pr B

    BE------ Pr A B

    A BB

    -----------------===

    A B

    Pr A B nombre de ralisations possibles deAetBen mme temps

    nombre de ralisations deB---------------------------------------------------------------------------------------------------------------------------------------------=

    A B

    Pr A B A B

    B-----------------

    25---= = Pr A

    1136------=

    Pr A B Pr A B

    Pr B --------------------------=

    Pr A B Pr A B Pr B Pr B A Pr A = =

    Pr A1 A2 ... An Pr A1 Pr A2 A1 Pr A3 A1 A2 ...Pr An A1 A2... An 1 =

  • 5/27/2018 Stats

    35/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 35/179

    Pr(3medfectueux / 1eret 2medfectueux) = 2/8Pr(1eret 2meet 3medfectueux) = 4/103/92/8 = 1/30.

    4.3 Diagramme en arbre

    On considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de r-sultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent dursultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cettesquence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculerla probabilit de chaque feuille de larbre.

    Exemple

    On sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine et

    Broussais (luniversit Pierre et Marie Curie a longtemps comport ces 3 CHU) taient res-pectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 =Pr(Russite/Piti)) ; onsait que 1/4 des tudiants de Paris VI taient Saint Antoine, 1/4 Broussais et 1/2 laPiti. Quelle tait la probabilit quun tudiant de Paris VI soit reu au concours ?

    R signifie russite et E chec.

    Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de lamultiplication, le produit des probabilits de chaque branche du chemin.Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme des

    probabilits dtre reu pour tout chemin aboutissant un tat R (reu).

    Saint Antoine

    Piti

    Broussais

    1/4

    1/2

    1/4

    0,15

    0,85

    0,20

    0,80

    0,10

    0,90

    R

    E

    R

    E

    R

    E

    Pr R Saint Antoine 0 1514---=

    Pr R Piti 0 2012---=

    Pr R Broussais 0 1014---=

    Pr R Pr R Saint Antoine Pr R Piti Pr R Broussais + +=

  • 5/27/2018 Stats

    36/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    36/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    4.4 Thorme de Bayes

    En reprenant lquation 2 page 34(section 4.2), on obtient la formule de Bayes :

    Equation 3 : formule de Bayes

    Le thorme est une forme dveloppe de cette formule que nous introduisons maintenant.Considrons des vnementsA1, ...,An tels quils forment une partitionde lensemble fondamen-tal E.Par dfinition, lesAi sexcluent mutuellement et leur union est E:

    SoitBun vnement quelconque

    De et de , on tire .Soit, par distributivit, .En remarquant que les sont exclusifs, puisque lesAi le sont, et en appliquant la 3

    mergledu calcul des probabilits on obtient la formule dite des probabilits totales :

    Equation 4 : probabilits totales

    En appliquant le thorme de la multiplication :

    Or, par la forme simple du thorme de Bayes, on aDo le thorme de Bayes :

    Equation 5 : thorme de Bayes

    Pr B A Pr A B Pr B Pr A

    --------------------------------------=

    i j Ai Aj = ; Ai

    i 1=

    n

    E=,

    A1

    A2

    A3

    B

    E A1 A2 ... An = B E B= B B A1 A2 ... An =B B A 1 B A 2 ... B A n =B Ai

    Pr B Pr B A1 Pr B A2 ... Pr B An + + +=

    Pr B Pr B A 1 Pr A1 Pr B A 2 Pr A2 ... Pr B A n Pr An + + +=

    Pr Ai B Pr B A i Pr Ai Pr B -----------------------------------------=

    Pr Ai B Pr B A i Pr Ai

    Pr B A 1 Pr A1 Pr B A 2 Pr A2 ... Pr B A n Pr An + + +----------------------------------------------------------------------------------------------------------------------------------------------------------=

  • 5/27/2018 Stats

    37/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 37/179

    Exemple 1

    Reprenons lexemple des rsultats au concours des tudiants de Paris VI.Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, ennotant C1, C2, C3les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement :Pr(R) = Pr(R/C1)Pr(C1) + Pr(R/C2)Pr(C2) + Pr(R/C3)Pr(C3)

    [noter que cest la mme chose que la somme des probabilits des chemins de larbre, quiconduisent un succs]Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la pro-

    babilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la pro-babilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilitdes causes).Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire.

    Avec Pr(C1) = 0,25 ; Pr(C2) = 0,50 ; Pr(C3) = 0,25 ;et Pr(R/C1) = 0,15 ; Pr(R/C2) = 0,20 ; Pr(R/C3) = 0,10.

    Do

    Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C2, sil est re-u, est plus grande que si lon ne sait rien (probabilit a priori Pr(C2) = 0,50).Cette faon de calculer les probabilits des causes connaissant les effets est essentielle enmdecine. En effet, le problme du diagnostic peut tre pos en ces termes.

    Exemple 2

    Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de

    labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre .Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmen-taire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une dou-leur.SoientD1,D2etD3les 3 diagnostics principaux (il y en a en fait au moins une douzaine)et exclusifs ; par exemple D1 = appendicite, D2 = perforation dulcre, D3 = autres dia-gnostics.Soit un signe s1pour lequel on connat Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3).Par exemple, s1 serait prsence dune fivre 38,5C ; Pr(s1/D1) = 0,90 ; Pr(s1/

    D2) = 0,30 ; et Pr(s1/D3) = 0,10.Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le

    nombre de sujets ayant le diagnostic D1 et prsentant le signe s1. De mme, on peutconnatre Pr(D1), Pr(D2) et Pr(D3).Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plus

    probable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/s1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lap-

    proche bayesienne au problme de laide au diagnostic.

    Pr C2 R Pr R C2 Pr C2

    Pr R C1 Pr C1 Pr R C2 Pr C2 Pr R C3 Pr C3 + +--------------------------------------------------------------------------------------------------------------------------------------------------=

    Pr C2 R 0 20 0 50

    0 15 0 25 0 20 0 50 0 10 0 25+ +------------------------------------------------------------------------------------------------------- 0 61= =

  • 5/27/2018 Stats

    38/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    38/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    4.5 Indpendance entre vnements

    On dit que deux vnements A etB sont indpendants si la probabilit pour que A soit ralis nestpas modifie par le fait queB se soit produit. On traduit cela par Pr(A /B) =Pr(A).

    Daprs la dfinition dune probabilit conditionnelle, , on tire ladfinition :

    A et B sont indpendants si et seulement si .La symtrie de cette dfinition implique quon a aussi bien Pr(A /B) =Pr(A) (A est indpendantdeB) que Pr(B / A) =Pr(B) (B est indpendant deA) : lapparition dun des deux vnementsninflue pas sur lapparition de lautre.

    Note

    Ce qui est dfini prcdemment est lindpendance de deux vnements. Si on considremaintenant 3 vnementsA ,B , C, on dira que ces 3 vnements sont indpendants :

    1. sils sont indpendants 2 2 :A indpendant deB ;A indpendant de C; etB ind-pendant de C

    2. et si . Cette condition nest pas une cons-quence des prcdentes.

    4.6 Indpendance, inclusion et exclusion de

    deux vnements

    Considrons deux vnementsA etB .

    1. Si (A est inclus dansB) : siA est ralis, alorsB aussi.

    Alors .

    Do et .

    A etB ne sont pas indpendants.

    Pr A B Pr A B

    Pr B --------------------------=

    Pr A B Pr A Pr B =

    Pr A B C Pr A Pr B Pr C =

    A B

    B

    A

    Pr A B Pr A =

    Pr B A Pr A B

    Pr A -------------------------- 1= = Pr A B

    Pr A B Pr B

    -------------------------- Pr A

    Pr B ---------------= =

  • 5/27/2018 Stats

    39/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 39/179

    2. Si (A etB sont exclusifs) : siA est ralis,Bne peut pas ltre.

    Alors .

    Do .

    De mmeA etB ne sont pas indpendants.

    A B =

    B

    A

    Pr A B Pr 0= =

    Pr A B Pr A B

    Pr B --------------------------

    0Pr B --------------- 0= = =

  • 5/27/2018 Stats

    40/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    40/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    41/179

    Evaluation de lintrt diagnostique des informations mdicales

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 41/179

    Chapitre 5

    Evaluation de lintrt

    diagnostique des informations

    mdicales

    5.1 Introduction

    La tche essentielle des mdecins est de traiter les patients. Pour prescrire un traitement, il faut sa-voir, plus ou moins prcisment selon les cas, ce dont souffre le malade. Pour rsumer en un seulterme un processus physiopathologique complexe, les mdecins ont cr des concepts : les dia-gnostics.La recherche du diagnostic est donc la premire tape de la consultation clinique. Pour parvenir

    au diagnostic, le mdecin accumule des informations, dont certaines lui sont spontanment livrespar le patient (le motif de la consultation, les symptmes), dautres doivent tre recherches maissont disponibles immdiatement (les signes physiques), dautres enfin sont dobtention plus oumoins difficile et coteuse (les rsultats dexamens complmentaires). De nouvelles procduresdiagnostiques apparaissent frquemment : on a vu, par exemple, lapparition des chographies, dela tomodensitomtrie (scanner), de lIRM, pour ne citer que le domaine de limagerie. Il nest biensr pas question deffectuer tous les examens complmentaires sur tous les malades : il faut donc

    prciser les indications de ces examens, ce qui repose sur lvaluation de leur intrt diagnostique.Avant daborder la mthodologie de lvaluation, nous reviendrons sur certains concepts utilissdans ce paragraphe.

    5.1.1 Le diagnostic

    On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut engnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnos-tiques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer :

    la symptomatologie

  • 5/27/2018 Stats

    42/179

    Evaluation de lintrt diagnostique des informations mdicales

    42/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    la physiopathologie et ltiologie la conduite thrapeutique

    En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : parexemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout si

    on sattend ce que la maladie gurisse spontanment.Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoirebinaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, lediagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notesMet

    (maladie prsente ou absente), ouD et (diagnostic vrai ou faux).

    5.1.2 Les informations mdicales

    On divise lensemble des informations mdicales en signes cliniques et signes complmentaires.

    Les signes cliniques sont diviss en signes fonctionnels ou symptmes, dcrits par le malade (spon-tanment ou par linterrogatoire) et signes physiques, recherchs par le mdecin. Les signes com-plmentaires peuvent tre biologiques ou radiologiques. Leur intrt peut tre :

    diagnostique (caractre malin ou bnin dune tumeur) thrapeutique (localisation prcise dune tumeur) pronostique (extension ganglionnaire)

    Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (pr-sence ou absence dun nodule sur une image) ou continues (cholestrolmie).

    Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not ). Dans la

    suite, on considre que la prsence du signe est vocateur de la maladieM.Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dunct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil,les valeurs sont dites pathologiques, et le signe binaire est prsent.

    5.1.3 Situation exprimentale et estimation

    Quand on cherche valuer lintrt diagnostique dun signe pour une affection, on recherche lesigne chez des individus prsentant ou non laffection considre. Deux situations exprimentales

    sont envisager :

    un chantillonreprsentatif dune population est constitu. On pourra estimer, partir de cetchantillon, toutes les probabilits dvnements par les frquences observes correspon-dantes (cette manire de faire sera revue plus tard,page 78) ;

    deux chantillonssont constitus, lun reprsentatif des individus pour lesquels le diagnosticest vrai, lautre reprsentatif des individus pour lesquels il est faux. Cette manire de procderest souvent la seule possible en pratique, surtout quand la maladie considre est rare. Il fautremarquer, cependant, quon ne peut plus estimer nimporte quelle probabilit par la fr-

    M D

    S

  • 5/27/2018 Stats

    43/179

    Evaluation de lintrt diagnostique des informations mdicales

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 43/179

    quence observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre.

    Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximationde lavraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 99.

    5.2 Les paramtres de lvaluation

    5.2.1 Sensibilit et spcificit

    La sensibilitdun signe pour une maladie est la probabilit que le signe soit prsent si le sujet estatteint de la maladie considre.

    Il sagit donc de la probabilit conditionnelle quon peut noter :Sensibilit = Se =Pr(S/M)

    Un test diagnostic est donc dautant plus sensible que les sujets atteints de la maladie prsententplus souvent le signe S.

    La spcificitdun signe pour une maladie est la probabilit que le signe soit absent si le sujet nestpas atteint de la maladie.De manire similaire, on a :

    Un test diagnostic est donc dautant plus spcifique que les sujets indemnes de la maladie pr-sentent moins souvent le signe S.

    Pour un examen parfait , cest--dire neffectuant aucune erreur, les valeurs de la sensibilit etde la spcificit sont gales 1.Si la prsence du signe est dfinie par un seuil de positivit , on observe que ces deux paramtresvarient en sens inverse lorsquon fait varier ce seuil. Ceci explique quun seul de ces deux para-mtres ne suffise pas valuer un examen. Supposons par exemple quon sintresse au signe tem-

    prature vis vis de la grippe. On considre que le signe est prsent si la temprature dpasse uncertain seuil, par exemple 39C. Si on augmente le seuil pour le porter 40C, la probabilit dedpasser le seuil (chez les sujets gripps) va diminuer, donc la sensibilit diminue. En revanche, la

    probabilit dtre en dessous du seuil (chez les sujets non gripps) va augmenter, donc la spcificitaugmente.Un test diagnostique de bonne sensibilit conduit un rsultat positif chez presque tous les ma-lades. Il est donc utilisable pour un dpistage. Si le test possde une bonne spcificit, il conduit un rsultat ngatif chez presque tous les non-malades. Il pourrait donc tre utilis en tant quexa-men de confirmation du diagnostic.Ces considrations sont bien sr schmatiques, dautres lments intervenant dans lvaluation,

    Spcificit Sp Pr S M = =

  • 5/27/2018 Stats

    44/179

    Evaluation de lintrt diagnostique des informations mdicales

    44/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexis-tence et les performances dautres examens concurrents...

    5.2.2 Valeurs prdictives

    En pratique, quand un mdecin reoit le rsultat dun examen complmentaire, positif ou ngatif,il ne sait pas si le patient souffre de laffection quil cherche diagnostiquer ou non, et les proba-

    bilits qui lintressent sexpriment de la manire suivante : quelle est la probabilit de prsencede la maladie M chez ce patient, sachant que lexamen a donn un rsultat positif (ou ngatif) ? Ces

    probabilits sont appeles valeurs prdictives. Plus prcisment, on a :

    la valeur prdictive positivedun signe pour une maladie est la probabilit que le sujet soitatteint de la maladie si le signe est prsent ;

    la valeur prdictive ngativedun signe pour une maladie est la probabilit que le sujet soit

    indemne de la maladie si le signe est absent.On peut noter ces paramtres :

    Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens in-verse, et doivent donc tre considres simultanment.

    Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de lafrquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalencede lamaladie). Il suffit dutiliser le thorme de Bayes :

    5.2.3 Comparaison des deux couples de paramtres

    En situation clinique, on a vu que les valeurs prdictives correspondent aux proccupations des m-decins, et elles pourraient sembler les meilleurs paramtres dvaluation. Pourtant, en ralit,cest la sensibilit et la spcificit qui sont le plus souvent utilises pour valuer les examens com-

    VPP Pr M S =

    VPN Pr M S =

    VPP Pr M S Pr S M Pr M

    Pr S M P M Pr S M Pr M +------------------------------------------------------------------------------------

    Se Pr M Se Pr M 1 Sp 1 Pr M +--------------------------------------------------------------------------------------------

    = =

    =

    VPN Pr M S Pr S M Pr M

    Pr S M P M Pr S M Pr M +------------------------------------------------------------------------------------

    Sp 1 Pr M 1 Se Pr M Sp 1 Pr M +

    --------------------------------------------------------------------------------------------

    = =

    =

  • 5/27/2018 Stats

    45/179

    Evaluation de lintrt diagnostique des informations mdicales

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 45/179

    plmentaires. La raison en est la suivante :

    la sensibilit dun examen pour une affection repose sur la dfinition de la population des malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas sus-ceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de m-

    decin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si onconsidre quelle repose aussi sur la dfinition de la maladie.

    Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et denon-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpen-dantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtredvaluation, mme si elles sont intressantes connatre pour un centre donn.

    5.2.4 Choix dun seuil : courbes ROCLorsquun examen fournit des rsultats de type continu, il faut dterminer le meilleur seuil entreles valeurs pathologiques et les valeurs normales. Lidal serait dobtenir une sensibilit et une sp-cificit gales 1. Ce nest gnralement pas possible, et il faut tenter dobtenir les plus fortes va-leurs pour ces deux paramtres, sachant quils varient en sens inverse.On saide pour ce choix dun outil graphique, la courbe ROC (Receiver OperatingCharacteristics). Une courbe ROC est le trac des valeurs de la sensibilit Se en fonction de 1-Sp.

  • 5/27/2018 Stats

    46/179

    Evaluation de lintrt diagnostique des informations mdicales

    46/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    Cet exemple (tir du livre de A.J. Valleron) montre 3 courbes ROC correspondant 3 examens dif-frents.La courbe A est celle obtenue pour lexemple prcdent de la temprature et de la grippe. Le pointde la courbe le plus proche du coin suprieur gauche du carr contenant la courbe (ici Se = 0,65,Sp = 0,75, et temprature = 39C)) est celui qui permet dobtenir un bon compromis entre sensibi-lit et spcificit (le coin suprieur gauche correspond Se = Sp = 1). En ralit, on ne choisira pas

    toujours ce point, car il faut aussi tenir compte des cots des erreurs diagnostiques : il peut parexemple tre beaucoup plus grave de ne pas dtecter une maladie, que de traiter tort.La courbe B correspond un examen qui napporte rien au diagnostic, puisque les variables signeet maladie sont ici indpendantes :La courbe C correspond un bon critre diagnostic pour lequel on peut obtenir simultanment desvaleurs leves de sensibilit et de spcificit.

    Se Pr S M 1 Sp Pr S M = = =

  • 5/27/2018 Stats

    47/179

    Evaluation de lintrt diagnostique des informations mdicales

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 47/179

    5.3 Estimation des paramtres de lvaluation

    5.3.1 Un chantillon reprsentatif

    5.3.1.1 Les donnes

    Quand on a un chantillon reprsentatif dune population, on peut rsumer les donnes de lexp-rience par un tableau de contingence 22, sur lequel sont indiqus les effectifs suivants :

    VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est prsent{S} ;

    FP (Faux Positifs) : la maladie est absente { } et le signe est prsent {S} ;

    FN (Faux Ngatifs) : la maladie est prsente {M) et le signe est absent { } ; VN (Vrais Ngatifs) : la maladie est absente { } et le signe est absent { }.

    Tableau 1

    5.3.1.2 Estimation de la sensibilit et de la spcificit

    Par dfinition, sensibilit = Se = Pr(S/M)On estime cette probabilit conditionnelle par le rapport des effectifs correspondants sur le tableaude contingence observ :

    Note : On notera de manire identique, suivant un usage tabli, les paramtres vrais, qui sont desprobabilits conditionnelles, et leurs estimations, qui sont des rapports deffectifs observs.

    Par exemple, calculons les estimateurs de ces paramtres dans le cas o on cherche diagnostiquerun diabte partir dun signe de la forme la glycmie mesure jeun est suprieure ... ). Pourdeux seuils donns S1et S2, on obtient les tableaux de contingence ci-dessous :

    a. Seuil S1

    M

    S VP FP

    FN VN

    M

    SM S

    M

    S

    Se VPVP FN+---------------------

    Spcificit Sp Pr S M VN

    VN FP+---------------------= =

  • 5/27/2018 Stats

    48/179

    Evaluation de lintrt diagnostique des informations mdicales

    48/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    Tableau 2

    b. Seuil S2

    Tableau 3

    On peut estimer les sensibilits et spcificits correspondant aux deux seuils par :Se190 / 100 = 0,90 ; Sp1300 / 500 = 0,60Se250 / 100 = 0,50 ; Sp2475 / 500 = 0,95.On retrouve ici le fait que sensibilit et spcificit varient en sens inverse.On constate dautre part que le seuil S1correspond une bonne sensibilit (lexamen est positifchez 90 % des malades), mais une spcificit mdiocre (lexamen est positif chez 40 % des non-malades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant treconfirm ultrieurement par un examen plus spcifique.Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour unexamen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confir-mation.

    5.3.1.3 Estimation des valeurs prdictives

    Les estimations sobtiennent partir du mme tableau des donnes :

    Par exemple, pour les tableaux de contingence vus ci-dessus, on a :VPP190 / 290 = 0,31 ; VPN1300 / 310 = 0,97VPP250 / 75 = 0, 67 ; VPN2475 / 525 = 0,90Ces rsultats peuvent sinterprter ainsi : en affirmant le diagnostic sur la base de la positivit delexamen, on se trompe dans 69 % des cas avec le seuil S1et 33 % des cas avec le seuil S2 ; et enliminant le diagnostic en constatant la ngativit de lexamen, on se trompe dans 3 % des cas avec

    M

    S 90 200

    10 300

    M

    S 50 2550 475

    M

    S

    M

    S

    VPP Pr M S VP

    VP FP+--------------------=

    VPN Pr M S VN

    VN FN+----------------------=

  • 5/27/2018 Stats

    49/179

    Evaluation de lintrt diagnostique des informations mdicales

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 49/179

    le seuil S1et 10 % des cas avec le seuil S2.

    5.3.2 Deux chantillons reprsentatifs

    Linconvnient du schma exprimental ci-dessus (un seul chantillon) est que, si la maladie estpeu frquente ou rare, il faut constituer un chantillon de trs grande taille pour obtenir un nombresuffisant de malades. Les non-malades, au contraire, seront trop nombreux. Cest pourquoi onconstituera souvent, en pratique, deux chantillons, un chantillon de malades et un chantillon denon-malades. On peut encore rsumer les rsultats par un tableau comme celui du tableau 1 page47, mais ce tableau doit tre interprt diffremment, les proportions respectives des malades etnon-malades ne correspondant plus la ralit : le rapport entre le nombre de malades et le nombrede non-malades du tableau dpend des tailles respectives choisies pour les deux chantillons, et naaucun lien avec la frquence de la maladie dans la population (la prvalence).On peut toujours estimer la sensibilit et la spcificit comme ci-dessus. En effet, la sensibilit par

    exemple est estime uniquement partir de VP et FN, donc de la rpartition des malades entre ceuxqui prsentent le signe et les autres. Or lchantillon des malades respecte cette rpartition.En revanche, lestimation prcdente des valeurs prdictives utilisait la rpartition entre maladeset non malades, que le tableau actuel ne reprsente pas correctement.Lestimation des valeurs prdictives reste cependant possible condition de connatre la prva-lence de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 page 44 :

    On remplacera dans ces formules la sensibilit et la spcificit par leurs estimations.

    VPPSe Pr M

    Se Pr M 1 Sp 1 Pr M +--------------------------------------------------------------------------------------------=

    VPNSp 1 Pr M

    1 Se Pr M Sp 1 Pr M +--------------------------------------------------------------------------------------------=

  • 5/27/2018 Stats

    50/179

    Evaluation de lintrt diagnostique des informations mdicales

    50/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

  • 5/27/2018 Stats

    51/179

    Variables alatoires

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 51/179

    Chapitre 6

    Variables alatoires

    6.1 Dfinition dune variable alatoire

    Considrons un ensemble fondamental Ecorrespondant une certaine exprience. Les lments

    de E, rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependantutile de faire correspondre un nombre chaque lment de E, en vue de faire ensuite des calculs.Pour un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre de

    points quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple la somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaquecarte.Une variable alatoireX, sur un ensemble fondamental E, est une application de Edans : toutrsultat possible de lexprience ( tout lment de E), la variable alatoireXfait correspondre unnombre.Lorsque Eest fini ou infini dnombrable, toute application de Edans est une variable alatoire.Lorsque Eest non dnombrable, il existe certaines applications de Edans qui ne sont pas desvariables alatoires. En effet, la dfinition rigoureuse dune variable alatoire Ximpose que toutintervalle de soit limage dun vnement de Epar lapplicationX. Cette condition est vrifie

    pour toute applicationXsi Eest fini ou dnombrable, puisque toute partie de Eest un vnement.Ce nest plus vrai si Eest non dnombrable. Heureusement, les applications choisies naturellementsont des variables alatoires.On parle de variable alatoire discrtelorsque la variable est une application de Edans un sous-ensemble discret de , le plus souvent Nou une partie de N. On parle sinon de variable alatoirecontinue.

    Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels que

    X() =a est not [X() =a], ou, en abrg,X=a.Pour deux nombres rels a et b(ab), lvnement constitu de tous les rsultats dexpriencetels que aX()b est not [aX()b] ou, en abrg, aXb .

    SiXet Ysont des variables alatoires dfinies sur le mme ensemble fondamental E, et si kestune constante, on peut montrer que les fonctions suivantes sont aussi des variables alatoires :(X+ Y)() =X() + Y() (X+ k)() =X() + k(kX)() = kX() (XY)() =X() Y()

    pour tout lment de E.

  • 5/27/2018 Stats

    52/179

    Variables alatoires

    52/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    6.2 Variables alatoires finies

    Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnralise-rons dans un second temps une variable alatoire infinie dnombrable, puis continue.

    SoitXune variable alatoire sur un ensemble fondamental E valeurs finies :X(E) = {x1,x2, ...,xn}.X(E) devient un ensemble probabilis si lon dfinit la probabilit Pr(X=xi) pour chaquexi , quelon notepi . Lensemble des valeurspi =Pr(X=xi) est appel distribution ou loi de probabilit de

    X.Puisque lespi sont des probabilits sur les vnements {X=x1,X=x2, ...,X=xn}, on a :

    et .

    6.2.1 Reprsentation dune loi de probabilit finieOn peut reprsenter la loi de probabilitpipar une table :

    Ou par un diagramme en btons :

    o la hauteur du bton positionn enxia pour valeurpi.

    6.2.2 Esprance mathmatique dune variable finieLesprance mathmatique cherche traduire la tendance centrale de la variable alatoire. Il sagitdune moyenne o chacune des valeursxi intervient dautant plus que sa probabilit est importante,cest--dire dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique(par-fois aussi appele vraie), ou esprance mathmatiquedune variableXpar

    .

    x1 x2 ........ xn

    p1 p2 ........ pn

    i pi 0 pii 1=

    n

    1=

    pi

    xixnx1 x2 x3 x4

    X E X xii 1=

    n

    pi x1p1 x2p2 ... xnpn+ + += = =

  • 5/27/2018 Stats

    53/179

    Variables alatoires

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 53/179

    Xpeut tre note sil ny a pas de confusion possible.

    Exemple

    On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespacefondamental est constitu par lensemble des couples ordonns

    E= {(1, 1), (1, 2), (1, 3), ..., (6, 6)}Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont qui-probables).Considrons la variable alatoire dfinie comme suit : soit r= (a , b) un lment quel-conque de E; on poseX(r) =X(a , b) = max(a , b)(la valeur deX(r) est gale a si a >b et bdans le cas contraire).

    Xest une variable alatoire sur EavecX(E) = {1, 2, 3, 4, 5, 6},et la loi de probabilit

    p1 = Pr(X= 1) = Pr({(1, 1)}) = 1/36 ;p2 = Pr(X= 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ;p3 = 5/36 ;p4 = 7/36 ;p5 = 9/36 ;p6 = 11/36.

    Soit :

    E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47

    Thormes

    1. SoitXune variable alatoire et kune constante relle. On a :E(kX) = kE(X)E(X+ k) = E(X) + k

    2. SoientXet Ydeux variables alatoires dfinies sur le mme espace fondamental E.On a :E(X+ Y) = E(X) + E(Y)

    xi 1 2 3 4 5 6

    pi 1/36 3/36 5/36 7/36 9/36 11/36

    E(X

    )

    1 2 3 4 5 6

    pi

    xi

  • 5/27/2018 Stats

    54/179

    Variables alatoires

    54/179 Biostatistique - Carrat, Mallet, Morice 2013 - 2014

    On en dduit que pour n variables alatoires Xi , dfinies sur le mme espacefondamental :

    (lesprance de la somme est la somme des esprances).

    Exemple

    Considrons lexprience du jeu de ds o E= {1, 2, 3, 4, 5, 6} uniforme (quiprobable).SoitX(E) une premire variable alatoire dfinie par

    X(E) = {1, 2, 3, 4, 5, 6}etpX1 =pX2 =pX3 =pX4 =pX5 =pX6 = 1/6E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6

    Soit Y(E) une seconde variable alatoire telle queY(E) = 1 si le chiffre tir est impairY(E) = 2 si le chiffre tir est pair.Donc Y(E) = {1, 2}

    pY1 = Pr({1, 3, 5}) = 1/2pY2 = Pr({2, 4, 6}) = 1/2E(Y) = 1/2 + 1 = 1,5

    Calculons maintenant la loi de (X+ Y)(E)(X+ Y)(r) =X(r) + Y(r)Pour r= 1, (X+ Y)(1) =X(1) + Y(1) = 1 + 1 = 2Pour r= 2, (X+ Y)(2) =X(2) + Y(2) = 2 + 2 = 4

    Pour r= 3, (X+ Y)(3) =X(3) + Y(3) = 3 + 1 = 4Pour r= 4, (X+ Y)(4) =X(4) + Y(4) = 4 + 2 = 6Pour r= 5, (X+ Y)(5) =X(5) + Y(5) = 5 + 1 = 6Pour r= 6, (X+ Y)(6) =X(6) + Y(6) = 6 + 2 = 8On a donc (X+ Y)(E) = {2, 4, 6, 8} etPr((X+ Y) = 2) = 1/6, Pr((X+ Y) = 4) = 2/6, Pr((X+ Y) = 6) = 2/6, Pr((X+ Y) = 8) = 1/6E(X+ Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6.

    Remarque

    Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y= g(X)dont les valeurs sonty1 = g(x1),y2 = g(x2), ...,yn = g(xn). Alors :

    Pr(Y=yi) = Pr[g(X) = g(xi)]Si g est une fonction monotone, on a g(X) = g(xi) X=xiDo Pr(Y=yi) = Pr(X=xi) =piDonc :

    On montre que ce rsultat reste valide, mme si g nest pas monotone.Par exemple, si lon doit calculer E(X2), on considre la variable Y=X2dont les valeurssonty1 =x1

    2,y2 =x22, ...,yn =xn

    2. Alors :

    E Xii 1=

    n

    E Xi

    i 1=

    n

    =

    E g X E Y yiPr Y yi=

    i 1=

    n

    g xi pii 1=

    n

    = = =

  • 5/27/2018 Stats

    55/179

    Variables alatoires

    2013 - 2014 Biostatistique - Carrat, Mallet, Morice 55/179

    On constate que pour calculer lesprance dun carr, il faut lever les valeurs x iau carr,mais pas les probabilitspi associes.

    6.2.3 Variance et cart-type dune variable finie

    Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersionautour de lesprance par une valeur (la variance ou lcart-type).La variance (vraie