Université Paris VI

download Université Paris VI

of 181

Transcript of Université Paris VI

  • 8/14/2019 Universit Paris VI

    1/181

    Universit Paris-VI

    Biostatistique

    PCEM1

    2009 - 2010

    Responsables : A. Mallet et A.J. ValleronAuteurs : J.L. Golmard, A. Mallet, V. Morice

    Mise jour : 15 octobre 2009

    Relecture : V. Morice, A. Mallet et S. Tzenas

  • 8/14/2019 Universit Paris VI

    2/181

    2/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    3/181

    Sommaire

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 3/181

    Sommaire

    3 Sommaire

    9 Avant-propos

    11 Introduction

    11 1 La variabilit et lincertain12 2 La dcision dans lincertain

    13 Chapitre 1 : Statistique(s) et Probabilit(s)

    13 1.1 Statistique13 1.2 Population et chantillon14 1.3 Statistique et probabilit

    17 Chapitre 2 : Rappels mathmatiques

    17 2.1 Ensembles, lments17 2.2 Oprations sur les ensembles19 2.3 Ensembles finis, dnombrables, non dnombrables19 2.4 Ensembles produits20 2.5 Familles densembles20 2.6 Autres rappels mathmatiques20 2.6.1 Rappel sur les sommes21 2.6.2 Rappel sur les intgrales

    23 Chapitre 3 : Elments de calcul des Probabilits

    23 3.1 Introduction24 3.2 Exprience alatoire, ensemble fondamental et vnements25 3.3 Oprations sur les vnements25 3.4 Rgles du calcul des probabilits27 3.5 Remarque27 3.6 Illustration de quelques ensembles probabiliss27 3.6.1 Ensemble probabilis fini28 3.6.2 Ensemble fini quiprobable28 3.6.3 Ensembles probabiliss infinis28 3.6.3.1 Cas dnombrable29 3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

  • 8/14/2019 Universit Paris VI

    4/181

    Sommaire

    4/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    31 Chapitre 4 : Probabilit Conditionnelle ; Indpendance et Thormede Bayes

    31 4.1 Probabilit conditionnelle32 4.2 Thorme de la multiplication

    33 4.3 Diagramme en arbre34 4.4 Thorme de Bayes36 4.5 Indpendance entre vnements36 4.6 Indpendance, inclusion et exclusion de deux vnements

    39 Chapitre 5 : Evaluation de lintrt diagnostique des informationsmdicales

    39 5.1 Introduction39 5.1.1 Le diagnostic

    40 5.1.2 Les informations mdicales40 5.1.3 Situation exprimentale et estimation41 5.2 Les paramtres de lvaluation41 5.2.1 Sensibilit et spcificit42 5.2.2 Valeurs prdictives42 5.2.3 Comparaison des deux couples de paramtres43 5.2.4 Choix dun seuil : courbes ROC45 5.3 Estimation des paramtres de lvaluation45 5.3.1 Un chantillon reprsentatif45 5.3.1.1 Les donnes45 5.3.1.2 Estimation de la sensibilit et de la spcificit46 5.3.1.3 Estimation des valeurs prdictives47 5.3.2 Deux chantillons reprsentatifs

    49 Chapitre 6 : Variables alatoires

    49 6.1 Dfinition dune variable alatoire50 6.2 Variables alatoires finies50 6.2.1 Reprsentation dune loi de probabilit finie50 6.2.2 Esprance mathmatique dune variable finie53 6.2.3 Variance et cart-type dune variable finie

    53 6.2.4 Loi de probabilit produit55 6.2.5 Variables alatoires indpendantes55 6.2.6 Fonction de rpartition56 6.3 Variables infinies dnombrables (hors programme)57 6.4 Variables alatoires continues59 6.5 Extension de la notion de variable alatoire

  • 8/14/2019 Universit Paris VI

    5/181

    Sommaire

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 5/181

    61 Chapitre 7 : Exemples de distributions

    61 7.1 Lois discrtes61 7.1.1 Loi de Bernoulli61 7.1.2 Loi binomiale

    64 7.1.3 Loi de Poisson65 7.2 Lois continues65 7.2.1 Loi normale65 7.2.1.1 Dfinition65 7.2.1.2 Proprits68 7.2.2 Loi du 2 (chi-2)68 7.2.2.1 Dfinition69 7.2.2.2 Proprits69 7.2.3 Loi de Student (hors programme)70 7.2.4 Loi exponentielle (hors programme)

    71 Chapitre 8 : Statistiques descriptives

    71 8.1 Rappels et complments72 8.2 Reprsentation complte dune srie dexpriences72 8.2.1 Cas dune variable qualitative73 8.2.2 Cas dune variable quantitative discrte74 8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME75 8.3 Reprsentation simplifie dune srie dexpriences75 8.3.1 Indicateurs de localisation des valeurs75 8.3.2 Indicateurs de dispersion des valeurs76 8.4 Reformulation de la moyenne et de la variance observes76 8.4.1 Reformulation de la moyenne observe77 8.4.2 Reformulation de la variance observe78 8.5 Cas particulier dune variable deux modalits - Proportion78 8.5.1 Expression de lesprance mathmatique de X78 8.5.2 Expression de la variance de X79 8.5.3 Interprtation de la moyenne observe79 8.6 Conclusion : la variable alatoire moyenne arithmtique81 Rsum du chapitre

    83 Chapitre 9 : Fluctuations de la moyenne observe : la variablealatoire moyenne arithmtique

    83 9.1 Premire proprit de la variable alatoire moyenne arithmtique83 9.1.1 Un exemple84 9.1.2 Gnralisation85 9.2 Seconde proprit de la variable alatoire moyenne arithmtique : le thorme

    central limite86 9.3 Etude de la distribution normale (rappel)

  • 8/14/2019 Universit Paris VI

    6/181

    Sommaire

    6/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    88 9.4 Application du thorme central limite. Intervalle de Pari (I. P.)88 9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe90 9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP)91 9.4.3 Lintervalle de pari dune variable alatoire92 Rsum du chapitre

    93 Chapitre 10 : Estimation - Intervalle de confiance

    93 10.1 Introduction94 10.2 Estimation ponctuelle94 10.2.1 Dfinition94 10.2.2 Proprits94 10.2.2.1 Biais95 10.2.2.2 Variance95 10.2.2.3 Erreur quadratique moyenne

    95 10.2.3 Exemple96 10.3 Estimation par intervalle - Intervalle de confiance96 10.3.1 Exemple dune proportion99 10.3.2 Intervalle de confiance approch dune proportion vraie 99 10.3.3 Intervalle de confiance approch dune moyenne vraie (variable

    continue)100 10.3.4 Applications100 10.3.4.1 Prcision dun sondage101 10.3.4.2 Prcision dune moyenne

    103 Chapitre 11 : Les tests dhypothses. Principes

    103 11.1 Un exemple concret (emprunt Schwartz)106 11.2 Principe gnral des tests dhypothses106 11.2.1 Les tapes de mises en uvre108 11.2.2 Justification de la rgle de dcision. Choix de 108 11.2.2.1 Interprtation de 108 11.2.2.2 Effet dun changement de valeur de 109 11.2.3 Justification des conclusions du test. Puissance dun test112 11.2.4 Amlioration de linterprtation du rejet de H0112 11.2.4.1 Notion de degr de signification

    113 11.2.4.2 Orientation du rejet115 Rsum du chapitre

    117 Chapitre 12 : Quelques tests usuels

    117 12.1 Tests concernant des variables de Bernoulli117 12.1.1 Test dgalit dune proportion vraie une valeur donne (ou test de

    comparaison dune proportion observe une valeur donne)117 12.1.1.1 Mise en place du test

  • 8/14/2019 Universit Paris VI

    7/181

    Sommaire

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 7/181

    118 12.1.1.2 Autre interprtation du paramtre z119 12.1.1.3 Nombre de sujets ncessaires119 12.1.2 Test dgalit de deux proportions vraies (ou test de comparaison de deux

    proportions observes)119 12.1.2.1 Mise en place du test

    121 12.1.2.2 Nombre de sujets ncessaires121 12.2 Tests concernant des variables quantitatives121 12.2.1 Tests impliquant une valeur donne122 12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de

    comparaison dune moyenne observe une valeur donne)123 12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) :

    test de Wilcoxon124 12.2.2 Tests de comparaison de variables quantitatives124 12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de

    deux moyennes observes)125 12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux

    distributions observes) : test de Mann-Whitney-Wilcoxon127 12.2.3 Cas des sries apparies127 12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies128 12.2.3.2 Test de symtrie de la distribution des diffrences129 Rsum du chapitre

    131 Chapitre 13 : Tests concernant des variables qualitatives

    131 13.1 Comparaison dune rpartition observe une rpartition donne ou test du 2dajustement

    132 13.1.1 Les tapes de mise en uvre136 13.1.2 Cas particulier : variable deux modalits137 13.2 Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit140 13.3 Test dindpendance entre deux variables qualitatives144 Rsum du chapitre

    145 Chapitre 14 : Liaison entre deux variables continues : notion decorrlation

    145 14.1 Introduction

    146 14.2 Abord du problme148 14.3 Un indicateur de covariation : le coefficient de corrlation152 14.4 Le coefficient de corrlation vrai 153 14.5 Test dgalit du coefficient de corrlation vrai 0155 Rsum du chapitre

    157 Chapitre 15 : A propos des tests dhypothses

    157 15.1 Rappels et prcisions

  • 8/14/2019 Universit Paris VI

    8/181

    Sommaire

    8/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    159 15.2 Jugement dinterprtation - La causalit

    161 Chapitre 16 : Analyse des dures de survie ou Analyse des dlais desurvenue dun vnement

    161 16.1 Contexte162 16.2 Comprendre une fonction de survie164 16.3 Estimation dune fonction de survie partir dobservations164 16.3.1 Quelques points de terminologie165 16.3.2 Forme gnrale des informations exprimentales165 16.3.3 Estimation dune fonction de survie par la mthode actuarielle168 16.3.4 Estimation dune fonction de survie par la mthode de Kaplan-Meer170 16.4 Comparaison de (deux) fonctions de survie estimes partir dobservations170 16.4.1 Le contexte170 16.4.2 Le test du log-rank approch

    175 Annexe A : Tables statistiques

    176 A.1 TABLE DE LA VARIABLE NORMALE REDUITE Z177 A.2 TABLE DU TEST DE WILCOXON178 A.3 TABLE DU TEST DE MANN-WHITNEY-WILCOXON179 A.4 TABLE DE 2180 A.5 TABLE DU COEFFICIENT DE CORRELATION181 A.6 TABLE DU t DE STUDENT

  • 8/14/2019 Universit Paris VI

    9/181

    Avant-propos

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 9/181

    Avant-proposCe polycopi contient le cours de biostatistique du PCEM1 de la Facult de Mdecine Pierre et Ma-rie Curie (Paris VI).

    On pourra trouver des complments dans le livre de A. J. Valleron :

    A.J. Valleron. Probabilits et statistiques . Masson (collection Abrgs, Cours+exos)

    Ce livre reprend le cours sous la forme de 24 fiches compltes de 140 exercices et 100 QCM cor-rigs.

  • 8/14/2019 Universit Paris VI

    10/181

    Avant-propos

    10/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    11/181

    Introduction

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 11/181

    IntroductionLa statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions quise posent en permanence au mdecin :

    1. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ?2. Quelle est la fiabilit dun examen complmentaire ?3. Quel est le risque de complication dun tat pathologique, et quel est le risque dun

    traitement ?

    4. Le traitement A est-il plus efficace que le traitement B ?

    1 La variabilit et lincertain

    Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmesbiologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale(lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposerla variabilit dune grandeur mesure en deux grandes composantes :

    variabilit totale = variabilit biologique + variabilit mtrologique

    La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la va-

    riabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peuttre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui fait

    que cette mme grandeur varie dun individu lautre.

    variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle

    La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dunathlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrenciedes autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindre

    que la variabilit inter. La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part les

    conditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les

    erreurs induites par lappareil de mesure utilis.

    variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure

    La mesure de la pression artrielle peut grandement varier sur un individu donn suivant lesconditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recom-

    mandation vise minimiser la variabilit due aux conditions exprimentales. La prcision delappareil de mesure est une donne intrinsque de lappareil, et est fournie par le construc-teur.

  • 8/14/2019 Universit Paris VI

    12/181

    Introduction

    12/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    2 La dcision dans lincertain

    Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments luipermettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de ce

    qui est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen,ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statis-tiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout r-

    sultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuiesur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statisti-ques.De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescrip-tion, de dterminer dans une situation donne lexamen qui apportera la meilleure information dia-gnostique.Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique :

    Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche cli-nique qui ne peut saccomplir convenablement (dfinition de la question, mise en place du

    protocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique ri-goureuse.

    Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pid-mie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablementchoisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercherles stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des ap-

    plications relevant de lpidmiologie et de la sant publique. Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleur

    examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au dia-gnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patientdonn (choix du mdicament, posologie, etc).

    Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre lesmthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter unmode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine.

    Plus prcisment nous tudierons successivement :

    1. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisa-tion des mthodes statistiques.

    2. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plu-sieurs grandeurs observes.

    3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothseA plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de lacomparaison de deux traitements, o lhypothse A est que les deux traitements sont quiva-lents et lhypothse B est quils sont diffrents).

    4. Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeu-tique et diagnostique, et les applications aux essais thrapeutiques.

  • 8/14/2019 Universit Paris VI

    13/181

    Statistique(s) et Probabilit(s)

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 13/181

    Chapitre 1

    Statistique(s) et Probabilit(s)Nous commencerons par dfinir les termes et les concepts importants.

    1.1 Statistique

    Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit qui con-siste en leur recueil, leur traitement et leur interprtation. Les termes statistique , ou statistiques(au pluriel) englobent ainsi plusieurs notions distinctes :

    1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, le

    revenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nousvoyons que la notion fondamentale qui se dgage de cette numration est celle dePopulation . Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits(ensemble des mains de 5 cartes distribues au bridge...) de mme nature.

    2. La statistique en tant que science sintresse aux proprits des populations naturelles. Plusprcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dune

    population. Cette population dobjets doit en outre tre soumise une variabilit, qui est due de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous in-tressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux).

    3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (ausingulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plus gran-de valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite, lavaleur de la moyenne arithmtique de ces valeurs, etc.

    1.2 Population et chantillonOn appellepopulation P un ensemble gnralement trs grand, voire infini, dindividus ou dobjetsde mme nature. Tous les mdecins de France constituent une population, de mme que lensemble

    des rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive.Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituantune population ; on travaille alors sur une partie de la population que lon appelle chantillon .Pour quun chantillon permette ltude de la variabilit des caractristiques dintrt de la popu-

  • 8/14/2019 Universit Paris VI

    14/181

    Statistique(s) et Probabilit(s)

    14/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatif si lesindividus le constituant ont t tirs au sort1 dans la population. Si par exemple on souhaite dter-miner les caractristiques moyennes du poids et de la taille des prmaturs masculins on tireraau hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne.Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de

    caractristiques appeles variables ou caractres . Ces variables peuvent tre quantitatives (num-riques) ou qualitatives (non numriques) :

    quantitatives

    pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfantsdans une famille)

    qualitatives

    pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensitdune douleur classe en nulle, faible, moyenne, importante).

    1.3 Statistique et probabilit

    La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de mod-liser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard,puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la bio-logie).Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest par-tir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les fr-quences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire en

    jetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables la

    comprhension des statistiques seront traits dans la premire partie du cours.Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatreles proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux popu-lations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaite

    savoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il estncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de cetype est par exemple de considrer que la taille des individus suit une distribution gaussienne. A

    partir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une d-

    duction qui va du modle vers lexprience. A linverse, considrant un chantillon dune popula-tion on peut essayer de reconstruire le modle de la population.Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, enutilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen-

    1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la populationtudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui qui con-siste tirer des noms dans une urne qui contiendrait tous les noms possibles.

  • 8/14/2019 Universit Paris VI

    15/181

    Statistique(s) et Probabilit(s)

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 15/181

    taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral re-prsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modlesmathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction induc-tive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des exp-riences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats

    exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ;dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit, lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant derfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans ladmarche statistique, en particulier dans le domaine des tests.

  • 8/14/2019 Universit Paris VI

    16/181

    Statistique(s) et Probabilit(s)

    16/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    17/181

    Rappels mathmatiques

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 17/181

    Chapitre 2

    Rappels mathmatiques

    2.1 Ensembles, lments

    On appelle ensemble , toute liste ou collection dobjets bien dfinis, explicitement ou

    implicitement ; on appelle lments ou membres de lensemble les objets appartenant lensembleet on note :

    sip est un lment de lensembleA B est partie deA, ou sous ensemble deA, et lon note ou , si

    On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments :

    A = {1, 2, 3} X= {x :x est un entier positif}

    Notations :

    la ngation de est est lensemble vide Eest lensemble universel.

    2.2 Oprations sur les ensembles

    Soient A et B deux ensembles quelconques.

    Intersection

    Lintersection deA etB, note , est lensemble des lmentsx tels que et. Soit := {x : et }

    Le terme et est employ au sens six appartient la fois A et B

    p AB A A B x B x A

    x A x A

    A B x Ax BA B x A x B

    x A etB

  • 8/14/2019 Universit Paris VI

    18/181

    Rappels mathmatiques

    18/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    Cas particulier : si , on dit queA etB sont disjoints.Runion

    La runion de A etB, note , est lensemble des lments x tels que ou

    . Soit := {x : ou }

    Le terme ou est employ au sens si x appartient A, ou B, ou A etB(car signifie et ).

    Complmentaire

    Le complmentaire deA est lensemble des lments deEqui nappartiennent pas A.

    Diffrence

    La diffrence entreA etB, ou complmentaire deB relatif A, est lensemble des lments

    deA qui nappartiennent pas B.

    A B

    A B

    E

    A B =

    A B x Ax BA B x A x B

    x A ouBx A etB x A x B

    E

    B

    A B

    A

    C A A x:x A{ }= =

    A

    E

    CA

    A B C= AB x :x B etx A{ }=

    E

    A B

    C BA

  • 8/14/2019 Universit Paris VI

    19/181

    Rappels mathmatiques

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 19/181

    Algbre des ensembles

    2.3 Ensembles finis, dnombrables, non

    dnombrables

    Un ensemble est fini sil est vide () ou sil contient un nombre fini dlments ; sinon, il estinfini :

    A = {a1, a2, a3} est fini ;

    I= { } est infini. Un ensemble infini est dit dnombrable si on peut faire correspondre de faon unique chaque

    lment de lensemble un entier naturel et un seul :A = {n : n est un entier pair} est infini dnombrable.

    Un ensemble infini est non dnombrable dans le cas contraire. Dans la pratique, les seuls en-

    sembles infinis non dnombrables que nous rencontrerons seront des intervalles de :{ } ou des intervalles de 2 : { }.

    2.4 Ensembles produits

    SoientA etB deux ensembles ; lensemble produit deA et deB, not , est lensemble de tousles couples ordonns (a , b), avec et .Exemples :

    ,

    A A A= A A A=

    A( B ) C A B C( )= A( B ) C A B C( )=

    A B B A= A B B A=

    A B C ( ) A B( ) A C( )= A B C( ) A B( ) A C( )=

    A A= A E A=

    A E E= A =

    A CA E= A CA =

    CCA A= CE = C E=

    C A B( ) CA CB= C A B( ) CA CB=

    x 0 1[ , ]

    x a b[ , ] x y,( ) : x a b[ , ] y c d[ , ],

    A Ba A b B

  • 8/14/2019 Universit Paris VI

    20/181

    Rappels mathmatiques

    20/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    A = {a, b , c} ;B = {1, 2}= { (a , 1), (a , 2), (b, 1), (b , 2), (c , 1), (c , 2) }

    est le plan cartsien, chaque lment de tant dfini par son abscisse et sonordonne :

    2.5 Familles densembles

    Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces ensem-bles font partie de la mme classe ou de la mme famille.

    Parties

    Soit un ensembleA quelconque. On appelle famille des parties deA lensemble des sous-ensembles deA.Exemple :A = {1, 2}

    Partition

    Une partition dun ensembleA est une subdivision deA en sous-ensembles disjoints dont

    la runion formeA.Notation

    Soit une famille densembles {Ai} = {A1,A2, ....,An , ....} qui peut tre finie ou non. Onnote :

    2.6 Autres rappels mathmatiques

    2.6.1 Rappel sur les sommes

    Soit {ai} une suite de termes ai . On note .

    Proprits :

    A B

    (a,b)b

    a

    P A( ) 1{ } 2{ } 1 2{ , }, ,{ , }=

    Aii

    A1 A2 ... An ... =

    Aii

    A1 A2 ... An ... =

    ai

    i 1=

    n

    a1 a2 ... an+ + +=

  • 8/14/2019 Universit Paris VI

    21/181

    Rappels mathmatiques

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 21/181

    1.

    2.

    Si kest une constante (indpendante de i), elle peut tre sortie de la somme.

    2.6.2 Rappel sur les intgrales

    Dfinition

    Soit f une fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a ,b] estlaire sous la courbe defsur lintervalle [a ,b].Elle est note .

    Proprits

    1.

    2.

    3.

    Fonction primitive

    Soitfune fonction relle. Laire sous la courbe sur lintervalle varie lorsquon faitvarierx de - +. Cette aire est une fonction Fdex , appele fonction primitive def. Elleest dfinie par :

    Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de va-riable (il sagit dune variable muette), diffrent de la borne dintgrationx .

    Proprits

    1. Si , alors

    Donc Fse dduit defpar intgration, etfse dduit de Fpar drivation.

    2.

    ai bi+( )i

    aii

    bii

    +=

    ka i( )i

    k aii

    =

    f x( ) xda

    b

    f x( ) xd

    a

    b

    x

    x( )

    a b

    f x( ) g x( )+( ) xda

    b

    f x( ) xdab

    g x( ) xdab

    +=

    kf x( ) xda

    b

    k f x( ) xdab

    =

    f x( ) xda

    b

    f x( ) xdac

    f x( ) xdcb

    +=

    ]- x],

    F x( ) f ( ) d

    x

    =

    F x( ) f ( ) d

    x

    = x( )dF x( )

    dx--------------=

    f x( ) xda

    b

    F b( ) F a( )=

  • 8/14/2019 Universit Paris VI

    22/181

    Rappels mathmatiques

    22/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    23/181

    Elments de calcul des Probabilits

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 23/181

    Chapitre 3

    Elments de calcul des

    Probabilits

    3.1 IntroductionLe calcul des probabilits est la thorie mathmatique, donc fonde axiomatiquement, qui permetde modliser des phnomnes alatoires, ou non dterministes.De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul desprobabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tombersur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir(phnomne alatoire).

    Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la phy-sique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loidOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tensionaux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire lesrsultats dune exprience lorsquon contrle les causes.Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel.Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plusprcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observa-tion typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grande

    de croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractresde A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu cequon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dunphnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation de

    tels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.

  • 8/14/2019 Universit Paris VI

    24/181

    Elments de calcul des Probabilits

    24/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    3.2 Exprience alatoire, ensemble

    fondamental et vnements

    Exprience alatoireOn sintresse ici aux seules expriences dont le rsultat nest pas prvisible, les exprien-ces alatoires. Une exprience alatoire est aussi appele une preuve .

    Ensemble fondamental

    Pour une exprience alatoire donne, lensemble des rsultats possibles est appel len-semble fondamental, que nous noteronsEdans la suite du cours. Chaque rsultat dexp-rience est un point deEou un lment deE.

    Evnement

    Un vnementA est un sous ensemble deE, cest--dire un ensemble de rsultats.Lvnement {a}, constitu par un seul point deE, donc par un seul rsultat , est ap-pel vnement lmentaire.Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement im-possible.

    LensembleEcontient tous les rsultats possibles : cest lvnement certain.SiEest fini, ou infini dnombrable, tout sous-ensemble deEest un vnement ; ce nestpas vrai siEest non dnombrable (ceci sort du cadre de ce cours).

    On note parfois lensemble de tous les vnements.Exemples

    1. On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form par

    les 6 rsultats possibles :

    E= {1, 2, 3, 4, 5, 6}

    Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui estbien un sous ensemble deE.

    Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5},et lvnement correspondant lapparition dun 3 est C= {3}.

    2. Dans lexemple prcdentEtait fini et donc dnombrable ;Epeut tre infini dnom-brable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon ob-tienne pile ; lensemble fondamental correspondant est la suite des nombres entiers

    E= {1, 2, 3, ..., n , ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets,

    n tant aussi grand que lon veut.

    3. On vise avec une flchette une cible suffisamment grande ; si on admet que la flchetteest trs fine, comme le serait un point de la gomtrie, lespace fondamental est la sur-face de la cible qui est constitue de points et donc infinie et non dnombrable.

    a E

  • 8/14/2019 Universit Paris VI

    25/181

    Elments de calcul des Probabilits

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 25/181

    3.3 Oprations sur les vnements

    Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A etBsont deux vnements, les oprations de combinaison sont :

    1. est lvnement qui se produit siA ouB (ou les deux) est ralis.Il est parfois not ouA ouB .

    2. est lvnement qui se produit siA etB sont raliss tous les deux.

    Il est parfois not ouA etB.3. est lvnement qui se produit quandA nest pas ralis. On lappelle aussi ngation de

    A.Il est parfois not , ou .

    Evnements incompatibles

    Quand deux vnementsA etB sont tels que , ils ne peuvent tre raliss si-

    multanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles.Systme complet dvnements

    On dit que les vnementsA1,A2, ...,An forment une famille complte si les Ai constituent

    une partition deE, cest--dire si :

    1. les vnements sont deux deux disjoints :

    2. ils couvrent tout lespace :

    Exemple

    Reprenons lexemple prcdent du jeu de ds :

    E= {1, 2, 3, 4, 5, 6},A = {2, 4, 6},B = {1, 2, 3, 5}, C= {3}.= apparition dun nombre pair ou premier

    = apparition dun nombre pair et premier

    = apparition dun nombre autre que 3:A et Csexcluent mutuellement.

    3.4 Rgles du calcul des probabilits

    Soit un ensemble fondamentalE. Nous introduisons une fonction Prqui, tout vnementA , as-

    socie un nombre rel positif ou nul.Prest dite fonction de probabilit, et Pr(A) est appele probabilit de lvnementA , si les condi-tions ou rgles suivantes sont satisfaits :

    1. pour tout vnementA : une probabilit est positive ou nulle2. : la probabilit de lvnement certain est 13. : permet le calcul de la probabilit de la

    runion de deux vnements disjoints4. Soit un ensemble dnombrable (fini ou non) dvnements Ai deux deux disjoints

    A BA B+

    A BA B

    CA

    nonA A

    A B =

    i j( ) Ai Aj =( ),Ai

    i

    E=

    A B 1 2 3 4 5 6, , , , ,{ }=A B 2{ }=

    CC 1 2 4 5 6, , , ,{ }=A C =

    Pr A( ) 0Pr E( ) 1=A B =( ) Pr A B( ) Pr A( ) Pr B( )+=( )

  • 8/14/2019 Universit Paris VI

    26/181

    Elments de calcul des Probabilits

    26/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    ( ), alors .

    Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduiredans le cas dun ensemble dvnements infini dnombrable.

    Proprits importantes dduites des quatre conditions prcdentes :

    1.SoitA un vnement quelconque.A et sont videmment disjoints puisque ;donc . Or ; donc . Do

    .2.

    A et son complmentaire sont disjoints, et leur runion formeE, de probabilit 1. Donc. Toute probabilit tant positive ou nul-

    le, on obtient bien .3.

    A dmontrer en exercice, en notant que .4. Si , alors .

    A dmontrer en exercice, en notant que .

    5.A dmontrer en exercice, en remarquant que .

    6.

    A dmontrer en exercice, en remarquant que .

    Ai Aj = Pr A1 A2 ... ( ) Pr A1( ) Pr A2( ) ...+ +=

    Pr ( ) 0=A =

    Pr A ( ) Pr A( ) Pr ( )+= A A= Pr A ( ) Pr A( )=Pr ( ) 0=Pr A( ) 1

    CAPr E( ) 1 Pr A CA( ) Pr A( ) Pr CA( )+= = =

    Pr A( ) 1Pr CA( ) 1 Pr A( )=

    E A CA=A B Pr A( ) Pr B( )B A CBA=

    CBA

    BA

    Pr CAB( ) Pr A( ) Pr A B( )=A CA B A B( )=

    CABB

    A

    A B

    Pr A B( ) Pr A( ) Pr B( ) Pr A B( )+=A B( ) CAB B=

    CABB

    A

  • 8/14/2019 Universit Paris VI

    27/181

    Elments de calcul des Probabilits

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 27/181

    3.5 Remarque

    Alors que , il existe des vnements non vides qui peuvent avoir une probabilit nulle.Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement

    impossible : il est alors dit presque impossible .

    Exemple

    Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papier

    quadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquerdans un carr donna une certaine valeur (par exemple celle du rapport de la surface ducarr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carrinfiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carrsi petit quil est devenu un point) nest pas impossible.

    De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque

    certain .

    3.6 Illustration de quelques ensembles

    probabiliss

    3.6.1 Ensemble probabilis finiSoitE= {a1, a2, ..., an} un ensemble fondamental fini. On probabilise cet ensemble en attribuant chaque point ai un nombrepi , probabilit de lvnement lmentaire {ai}, tel que :

    1.2.

    La probabilit dun vnement quelconqueA est la somme des probabilits des ai quil contient :

    ExempleOn jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fon-damental correspondant cette exprience est E= {0, 1, 2, 3} puisquon peut obtenir com-me rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois pile ),

    2 fois face , ou 3 fois face .On probabilise cet ensemble fini en donnant une valeur p0,p1,p2 etp3 aux vnements{0}, {1}, {2} et {3} ; comme par exemplep0 = 1/8,p1 = 3/8,p2 = 3/8 etp3 = 1/8.Considrons lvnementA tel quon ait au moins 2 fois face ,A = {a2, a3} :Pr(A) =p2 +p3 = 3/8 + 1/8 = 4/8 = 1/2

    Pr ( ) 0=

    pi 0p1 p2 ... pn+ + + 1=

    Pr A( ) piai A=

  • 8/14/2019 Universit Paris VI

    28/181

    Elments de calcul des Probabilits

    28/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    3.6.2 Ensemble fini quiprobable

    Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabi-lit. On dit aussi quil sagit dun espace probabilis uniforme.

    E= {a1, a2, ..., an} et Pr({a1}) =p1, Pr({a2}) =p2, ..., Pr({an}) =pnavecp1 =p2 = ... =pn = 1/nLes jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie :

    jeu de ds :E= {1, 2, 3, 4, 5, 6} ;p1 =p2 =p3 =p4 =p5 =p6 = 1/6 jeu de cartes :E= {ensemble des cartes dun jeu de 52 cartes} ;pi = 1/52

    Proprit

    Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapport

    du nombre de rsultats tel que A est vrai, sur le nombre dvnements deE.Remarque

    Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considrest quiprobable.

    Exemple

    On tire au hasard une carte dans un jeu de 52 cartes.

    Quelle est la probabilit de tirer un trfle ?

    Quelle est la probabilit de tirer un roi ?

    Quelle est la probabilit de tirer un roi de trfle ?

    Remarque

    Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insistersur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; cenest (de loin) pas le plus utile en mdecine.

    3.6.3 Ensembles probabiliss infinis

    3.6.3.1 Cas dnombrable

    On a alors un ensemble fondamental de la forme E= {a1, a2, ..., an , ...} comme dans le cas fini.Cet ensemble fondamental est probabilis en affectant chaque lment ai une valeur relle pitelle que :

    Pr tirer un trfle( ) nombre de trflesnombre de cartes------------------------------------------ 13

    52------ 1

    4---= = =

    Pr tirer un roi( ) nombre de roisnombre de cartes----------------------------------------- 4

    52------ 1

    13------= = =

    Pr tirer un roi de trfle( ) 152------=

  • 8/14/2019 Universit Paris VI

    29/181

    Elments de calcul des Probabilits

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 29/181

    et .

    La probabilit dun vnement quelconque est alors la somme des pi correspondant ses l-ments.

    Exemple 1

    A = {a25, a31, a43}Pr(A) =p25 +p31 +p43

    Exemple 2

    Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jus-qu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peutconstruire un espace probabilis en choisissant :

    Remarque :Le choix despi est arbitraire ; en ralit, il est justifi soit par des considrations a priori(dans le cas de lexprience prcdente on suppose que chaque jet constitue une exprien-ce avec Pr(pile) = Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant). Ilpeut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses rali-sations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suitedu cours et constitue lobjet de lapproche statistique).

    3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

    Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas,en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltatactuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de lachute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le sa-tellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer laprobabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe.Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourra

    prdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la pro-babilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum.Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit)

    la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc treassocies chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn estnulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent g-nralement partir dune densit (de probabilit) associe chaque point : lorsque les points dunergion ont une densit leve, la probabilit de chute dans cette rgion est leve.

    pi 0 pii 1=

    1=

    p11

    2---= p2

    1

    4---= ... pn

    1

    2n-----= ... p 0=, , , , ,

  • 8/14/2019 Universit Paris VI

    30/181

    Elments de calcul des Probabilits

    30/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    31/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 31/181

    Chapitre 4

    Probabilit Conditionnelle ;

    Indpendance et Thorme de

    Bayes

    4.1 Probabilit conditionnelle

    SoientA etB deux vnements quelconques dun ensemble fondamental Emuni dune loi de pro-babilit Pr. On sintresse ce que devient la probabilit de A lorsquon apprend queB est djralis, cest--dire lorsquon restreint lensemble des rsultats possiblesEB.La probabilit conditionnelle deA, sachant que lvnementB est ralis, est note Pr(A/B) et estdfinie par la relation suivante :

    Equation 1 : probabilit conditionnelle

    Dans cette quation, les probabilits des vnements etB doivent tre calcules sur tout

    lensemble fondamentalE, comme si on ne savait pas queB sest dj ralis. Sinon, on obtientvidemment Pr(B) = 1 .

    Figure 1 : probabilit conditionnelle

    Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o Eest un

    Pr A B( ) Pr A B( )Pr B( )

    --------------------------=

    A B

    A B

    A B

  • 8/14/2019 Universit Paris VI

    32/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    32/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notantle nombre dlments deA :

    Pr(A/B) traduit le rapport de la surface de sur la surface de B dans la figure 1.Toujours dans le cas oEest quiprobable, on a

    Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiproba-bilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sanschercher une interprtation frquentiste dans tous les cas.

    Exemple

    On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation

    de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds aitdonn le rsultat 2 ?

    B = {somme des deux ds = 6}A = {au moins un des deux ds donne 2}B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}Nombre de ralisations de = {(2, 4), (4, 2)} = 2

    Do , alors que ( vrifier).

    4.2 Thorme de la multiplication

    Reprenons lquation 1, dfinition des probabilits conditionnelles :

    On en tire immdiatement

    Equation 2 : thorme de la multiplication

    Lquation 2 peut se gnraliser facilement. SoientA1, ...,An des vnements quelconques dunespace probabilis ; partir de lquation 2, on montre :

    Exemple

    Une bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Cal-

    culer la probabilit pour que ces 3 objets soient dfectueux.Pr(1er dfectueux) = 4/10Pr(2me dfectueux / 1er dfectueux) = 3/9

    A

    Pr A B( ) A BE

    ----------------- Pr B( ) BE------ Pr A B( ) A B

    B-----------------=,=,=

    A B

    Pr A B( ) nombre de ralisations possibles de A etB en mme tempsnombre de ralisations deB

    ---------------------------------------------------------------------------------------------------------------------------------------------=

    A B

    Pr A B( ) A BB

    ----------------- 25---= = Pr A( ) 11

    36------=

    Pr A B( ) Pr A B( )Pr B( )

    --------------------------=

    Pr A B( ) Pr A B( )Pr B( ) Pr B A( )Pr A( )= =

    Pr A1 A2 ... An ( ) Pr A1( )Pr A2 A1( )Pr A3 A1 A2( )( )...Pr An A1 A2... An 1( )( )=

  • 8/14/2019 Universit Paris VI

    33/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 33/181

    Pr(3me dfectueux / 1er et 2me dfectueux) = 2/8Pr(1er et 2me et 3me dfectueux) = 4/103/92/8 = 1/30.

    4.3 Diagramme en arbreOn considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de r-

    sultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent dursultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cettesquence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculerla probabilit de chaque feuille de larbre.

    Exemple

    On sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine et

    Broussais (luniversit Pierre et Marie Curie a longtemps comport ces 3 CHU) taient res-pectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 = Pr(Russite/Piti)) ; onsait que 1/4 des tudiants de Paris VI taient Saint Antoine, 1/4 Broussais et 1/2 la

    Piti. Quelle tait la probabilit quun tudiant de Paris VI soit reu au concours ?

    R signifie russite et E chec.

    Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de lamultiplication, le produit des probabilits de chaque branche du chemin.Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme desprobabilits dtre reu pour tout chemin aboutissant un tat R (reu).

    Saint Antoine

    Piti

    Broussais

    1/4

    1/2

    1/4

    0,15

    0,85

    0,20

    0,80

    0,10

    0,90

    R

    E

    R

    E

    R

    E

    Pr R Saint Antoine( ) 0 15,1

    4---=

    Pr R Piti( ) 0 20,1

    2---=

    Pr R Broussais( ) 0 10,1

    4---=

    Pr R( ) Pr R Saint Antoine( ) Pr R Piti( ) Pr R Broussais( )+ +=

  • 8/14/2019 Universit Paris VI

    34/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    34/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    4.4 Thorme de Bayes

    En reprenant lquation 2 page 32 (section 4.2), on obtient la formule de Bayes :

    Equation 3 : formule de Bayes

    Le thorme est une forme dveloppe de cette formule que nous introduisons maintenant.Considrons des vnementsA1, ...,An tels quils forment une partition de lensemble fondamen-talE.Par dfinition, lesAi sexcluent mutuellement et leur union estE:

    SoitB un vnement quelconque

    De et de , on tire .Soit, par distributivit, .En remarquant que les sont exclusifs, puisque lesAi le sont, et en appliquant la 3

    me rgle

    du calcul des probabilits on obtient la formule dite des probabilits totales :

    Equation 4 : probabilits totales

    En appliquant le thorme de la multiplication :

    Or, par la forme simple du thorme de Bayes, on aDo le thorme de Bayes :

    Equation 5 : thorme de Bayes

    Pr B A( ) Pr A B( )Pr B( )Pr A( )

    --------------------------------------=

    i j( ) Ai Aj =( ) ; Ai

    i 1=

    n

    E=,

    A1

    A2

    A3

    B

    E A1 A2 ... An = B E B= B B A1 A2 ... An ( )= B B A 1( ) B A 2( ) ... B A n( ) =B Ai

    Pr B( ) Pr B A1( ) Pr B A2( ) ... Pr B An( )+ + +=

    Pr B( ) Pr B A 1( )Pr A1( ) Pr B A 2( )Pr A2( ) ... Pr B A n( )Pr An( )+ + +=

    Pr Ai B( )Pr B A

    i( )Pr A

    i( )

    Pr B( )-----------------------------------------=

    Pr Ai B( )Pr B A i( )Pr Ai( )

    Pr B A 1( )Pr A1( ) Pr B A 2( )Pr A2( ) ... Pr B A n( )Pr An( )+ + +----------------------------------------------------------------------------------------------------------------------------------------------------------=

  • 8/14/2019 Universit Paris VI

    35/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 35/181

    Exemple 1

    Reprenons lexemple des rsultats au concours des tudiants de Paris VI.Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, ennotant C1, C2, C3 les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement :Pr(R) = Pr(R/C1)Pr(C1) + Pr(R/C2)Pr(C2) + Pr(R/C3)Pr(C3)

    [noter que cest la mme chose que la somme des probabilits des chemins de larbre, quiconduisent un succs]Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la pro-babilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la pro-babilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilitdes causes).Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire.

    Avec Pr(C1) = 0,25 ; Pr(C2) = 0,50 ; Pr(C3) = 0,25 ;

    et Pr(R/C1) = 0,15 ; Pr(R/C2) = 0,20 ; Pr(R/C3) = 0,10.

    Do

    Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C2, sil est re-u, est plus grande que si lon ne sait rien (probabilit a priori Pr(C2) = 0,50).Cette faon de calculer les probabilits des causes connaissant les effets est essentielle en

    mdecine. En effet, le problme du diagnostic peut tre pos en ces termes.Exemple 2

    Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de

    labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre .Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmen-taire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une dou-

    leur.SoientD1,D2 etD3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine)et exclusifs ; par exempleD1 = appendicite,D2 = perforation dulcre, D3 = autres dia-

    gnostics.Soit un signe s1 pour lequel on connat Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3).Par exemple, s1 serait prsence dune fivre 38,5C ; Pr(s1/D1) = 0,90 ; Pr(s1/

    D2) = 0,30 ; et Pr(s1/D3) = 0,10.Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le

    nombre de sujets ayant le diagnosticD1 et prsentant le signe s1. De mme, on peut con-natre Pr(D1), Pr(D2) et Pr(D3).Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plusprobable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/s1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lap-proche bayesienne au problme de laide au diagnostic.

    Pr C2 R( )Pr R C2( )Pr C2( )

    Pr R C1( )Pr C1( ) Pr R C2( )Pr C2( ) Pr R C3( )Pr C3( )+ +--------------------------------------------------------------------------------------------------------------------------------------------------=

    Pr C2 R( )0 20, 0 50,

    0 15, 0 25, 0 20, 0 50, 0 10, 0 25,+ +------------------------------------------------------------------------------------------------------- 0 61,= =

  • 8/14/2019 Universit Paris VI

    36/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    36/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    4.5 Indpendance entre vnements

    On dit que deux vnements A etB sont indpendants si la probabilit pour que A soit ralis nestpas modifie par le fait queB se soit produit. On traduit cela par Pr(A /B) = Pr(A).

    Daprs la dfinition dune probabilit conditionnelle, , on tire ladfinition :

    A et B sont indpendants si et seulement si .La symtrie de cette dfinition implique quon a aussi bien Pr(A /B) = Pr(A) (A est indpendantdeB) que Pr(B /A) = Pr(B) (B est indpendant deA) : lapparition dun des deux vnementsninflue pas sur lapparition de lautre.

    Note

    Ce qui est dfini prcdemment est lindpendance de deux vnements. Si on considre

    maintenant 3 vnementsA,B , C, on dira que ces 3 vnements sont indpendants :

    1. sils sont indpendants 2 2 :A indpendant deB ;A indpendant de C; etB ind-pendant de C

    2. et si . Cette condition nest pas une cons-

    quence des prcdentes.

    4.6 Indpendance, inclusion et exclusion de

    deux vnements

    Considrons deux vnementsA etB.

    1. Si (A est inclus dansB) : siA est ralis, alorsB aussi.

    Alors .

    Do et .

    A etB ne sont pas indpendants.

    Pr A B( ) Pr A B( )Pr B( )

    --------------------------=

    Pr A B( ) Pr A( ) Pr B( )=

    Pr A B C ( ) Pr A( )Pr B( )Pr C( )=

    A B

    B

    A

    Pr A B( ) Pr A( )=

    Pr B A( ) Pr A B( )Pr A( )

    -------------------------- 1= = Pr A B( ) Pr A B( )Pr B( )

    -------------------------- Pr A( )Pr B( )---------------= =

  • 8/14/2019 Universit Paris VI

    37/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 37/181

    2. Si (A etB sont exclusifs) : siA est ralis,B ne peut pas ltre.

    Alors .

    Do .

    De mmeA etB ne sont pas indpendants.

    A B =

    B

    A

    Pr A B( ) Pr ( ) 0= =

    Pr A B( ) Pr A B( )Pr B( )

    -------------------------- 0Pr B( )--------------- 0= = =

  • 8/14/2019 Universit Paris VI

    38/181

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    38/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    39/181

    Evaluation de lintrt diagnostique des informations mdicales

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 39/181

    Chapitre 5

    Evaluation de lintrt

    diagnostique des informations

    mdicales

    5.1 Introduction

    La tche essentielle des mdecins est de traiter les patients. Pour prescrire un traitement, il faut sa-voir, plus ou moins prcisment selon les cas, ce dont souffre le malade. Pour rsumer en un seulterme un processus physiopathologique complexe, les mdecins ont cr des concepts : les dia-gnostics.La recherche du diagnostic est donc la premire tape de la consultation clinique. Pour parvenirau diagnostic, le mdecin accumule des informations, dont certaines lui sont spontanment livrespar le patient (le motif de la consultation, les symptmes), dautres doivent tre recherches mais

    sont disponibles immdiatement (les signes physiques), dautres enfin sont dobtention plus oumoins difficile et coteuse (les rsultats dexamens complmentaires). De nouvelles procduresdiagnostiques apparaissent frquemment : on a vu, par exemple, lapparition des chographies, dela tomodensitomtrie (scanner), de lIRM, pour ne citer que le domaine de limagerie. Il nest biensr pas question deffectuer tous les examens complmentaires sur tous les malades : il faut donc

    prciser les indications de ces examens, ce qui repose sur lvaluation de leur intrt diagnostique.Avant daborder la mthodologie de lvaluation, nous reviendrons sur certains concepts utilissdans ce paragraphe.

    5.1.1 Le diagnostic

    On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut engnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnosti-ques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer :

    la symptomatologie

  • 8/14/2019 Universit Paris VI

    40/181

    Evaluation de lintrt diagnostique des informations mdicales

    40/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    la physiopathologie et ltiologie la conduite thrapeutique

    En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : parexemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout si

    on sattend ce que la maladie gurisse spontanment.Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoirebinaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, lediagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notes Met

    (maladie prsente ou absente), ouD et (diagnostic vrai ou faux).

    5.1.2 Les informations mdicales

    On divise lensemble des informations mdicales en signes cliniques et signes complmentaires.

    Les signes cliniques sont diviss en signes fonctionnels ou symptmes, dcrits par le malade (spon-tanment ou par linterrogatoire) et signes physiques, recherchs par le mdecin. Les signes com-

    plmentaires peuvent tre biologiques ou radiologiques. Leur intrt peut tre :

    diagnostique (caractre malin ou bnin dune tumeur) thrapeutique (localisation prcise dune tumeur)

    pronostique (extension ganglionnaire)

    Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (pr-sence ou absence dun nodule sur une image) ou continues (cholestrolmie).Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not ). Dans la

    suite, on considre que la prsence du signe est vocateur de la maladieM.Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dun

    ct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil,les valeurs sont dites pathologiques, et le signe binaire est prsent.

    5.1.3 Situation exprimentale et estimation

    Quand on cherche valuer lintrt diagnostique dun signe pour une affection, on recherche lesigne chez des individus prsentant ou non laffection considre. Deux situations exprimentales

    sont envisager :

    un chantillon reprsentatif dune population est constitu. On pourra estimer, partir de cetchantillon, toutes les probabilits dvnements par les frquences observes correspondan-tes (cette manire de faire sera revue plus tard, page 72) ;

    deux chantillons sont constitus, lun reprsentatif des individus pour lesquels le diagnostic

    est vrai, lautre reprsentatif des individus pour lesquels il est faux. Cette manire de procderest souvent la seule possible en pratique, surtout quand la maladie considre est rare. Il fautremarquer, cependant, quon ne peut plus estimer nimporte quelle probabilit par la frquen-

    M D

    S

  • 8/14/2019 Universit Paris VI

    41/181

    Evaluation de lintrt diagnostique des informations mdicales

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 41/181

    ce observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre.

    Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximation de lavraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 93.

    5.2 Les paramtres de lvaluation

    5.2.1 Sensibilit et spcificit

    La sensibilit dun signe pour une maladie est la probabilit que le signe soit prsent si le sujet estatteint de la maladie considre.

    Il sagit donc de la probabilit conditionnelle quon peut noter :

    Sensibilit = Se =Pr(S /M)

    Un test diagnostic est donc dautant plus sensible que les sujets atteints de la maladie prsententplus souvent le signe S.

    La spcificit dun signe pour une maladie est la probabilit que le signe soit absent si le sujet nestpas atteint de la maladie.De manire similaire, on a :

    Un test diagnostic est donc dautant plus spcifique que les sujets indemnes de la maladie prsen-tent moins souvent le signe S.

    Pour un examen parfait , cest--dire neffectuant aucune erreur, les valeurs de la sensibilit etde la spcificit sont gales 1.Si la prsence du signe est dfinie par un seuil de positivit , on observe que ces deux paramtresvarient en sens inverse lorsquon fait varier ce seuil. Ceci explique quun seul de ces deux param-tres ne suffise pas valuer un examen. Supposons par exemple quon sintresse au signe temp-rature vis vis de la grippe. On considre que le signe est prsent si la temprature dpasse uncertain seuil, par exemple 39C. Si on augmente le seuil pour le porter 40C, la probabilit dedpasser le seuil (chez les sujets gripps) va diminuer, donc la sensibilit diminue. En revanche, la

    probabilit dtre en dessous du seuil (chez les sujets non gripps) va augmenter, donc la spcificitaugmente.Un test diagnostique de bonne sensibilit conduit un rsultat positif chez presque tous les mala-des. Il est donc utilisable pour un dpistage. Si le test possde une bonne spcificit, il conduit unrsultat ngatif chez presque tous les non-malades. Il pourrait donc tre utilis en tant quexamende confirmation du diagnostic.Ces considrations sont bien sr schmatiques, dautres lments intervenant dans lvaluation,

    Spcificit Sp Pr S M( )= =

  • 8/14/2019 Universit Paris VI

    42/181

    Evaluation de lintrt diagnostique des informations mdicales

    42/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexisten-ce et les performances dautres examens concurrents...

    5.2.2 Valeurs prdictives

    En pratique, quand un mdecin reoit le rsultat dun examen complmentaire, positif ou ngatif,

    il ne sait pas si le patient souffre de laffection quil cherche diagnostiquer ou non, et les proba-bilits qui lintressent sexpriment de la manire suivante : quelle est la probabilit de prsencede la maladie M chez ce patient, sachant que lexamen a donn un rsultat positif (ou ngatif) ? Ces

    probabilits sont appeles valeurs prdictives. Plus prcisment, on a :

    la valeur prdictive positive dun signe pour une maladie est la probabilit que le sujet soitatteint de la maladie si le signe est prsent ;

    la valeur prdictive ngative dun signe pour une maladie est la probabilit que le sujet soit

    indemne de la maladie si le signe est absent.

    On peut noter ces paramtres :

    Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens in-verse, et doivent donc tre considres simultanment.

    Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de lafrquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalence de lamaladie). Il suffit dutiliser le thorme de Bayes :

    5.2.3 Comparaison des deux couples de paramtres

    En situation clinique, on a vu que les valeurs prdictives correspondent aux proccupations des m-decins, et elles pourraient sembler les meilleurs paramtres dvaluation. Pourtant, en ralit,cest la sensibilit et la spcificit qui sont le plus souvent utilises pour valuer les examens com-

    VPP Pr M S( )=

    VPN Pr M S( )=

    VPP Pr M S( ) Pr S M( )Pr M( )Pr S M( )P M( ) Pr S M( )Pr M( )+------------------------------------------------------------------------------------

    Se Pr M( )Se Pr M( ) 1 Sp( ) 1 Pr M( )( )+--------------------------------------------------------------------------------------------

    = =

    =

    VPN Pr M S( ) Pr S M( )Pr M( )Pr S M( )P M( ) Pr S M( )Pr M( )+------------------------------------------------------------------------------------

    Sp 1 Pr M( )( )1 Se( ) Pr M( ) Sp 1 Pr M( )( )+

    --------------------------------------------------------------------------------------------

    = =

    =

  • 8/14/2019 Universit Paris VI

    43/181

    Evaluation de lintrt diagnostique des informations mdicales

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 43/181

    plmentaires. La raison en est la suivante :

    la sensibilit dun examen pour une affection repose sur la dfinition de la population des malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas sus-ceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de m-

    decin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si onconsidre quelle repose aussi sur la dfinition de la maladie.

    Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et denon-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpen-dantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtredvaluation, mme si elles sont intressantes connatre pour un centre donn.

    5.2.4 Choix dun seuil : courbes ROCLorsquun examen fournit des rsultats de type continu, il faut dterminer le meilleur seuil entreles valeurs pathologiques et les valeurs normales. Lidal serait dobtenir une sensibilit et une sp-cificit gales 1. Ce nest gnralement pas possible, et il faut tenter dobtenir les plus fortes va-leurs pour ces deux paramtres, sachant quils varient en sens inverse.On saide pour ce choix dun outil graphique, la courbe ROC ( Receiver OperatingCharacteristics ). Une courbe ROC est le trac des valeurs de la sensibilit Se en fonction de 1-Sp.

  • 8/14/2019 Universit Paris VI

    44/181

  • 8/14/2019 Universit Paris VI

    45/181

    Evaluation de lintrt diagnostique des informations mdicales

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 45/181

    5.3 Estimation des paramtres de lvaluation

    5.3.1 Un chantillon reprsentatif

    5.3.1.1 Les donnes

    Quand on a un chantillon reprsentatif dune population, on peut rsumer les donnes de lexp-rience par un tableau de contingence 22, sur lequel sont indiqus les effectifs suivants :

    VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est prsent

    {S} ; FP (Faux Positifs) : la maladie est absente { } et le signe est prsent {S} ;

    FN (Faux Ngatifs) : la maladie est prsente {M) et le signe est absent { } ; VN (Vrais Ngatifs) : la maladie est absente { } et le signe est absent { }.

    Tableau 1

    5.3.1.2 Estimation de la sensibilit et de la spcificit

    Par dfinition, sensibilit = Se = Pr(S /M)On estime cette probabilit conditionnelle par le rapport des effectifs correspondants sur le tableaude contingence observ :

    Note : On notera de manire identique, suivant un usage tabli, les paramtres vrais, qui sont desprobabilits conditionnelles, et leurs estimations, qui sont des rapports deffectifs observs.

    Par exemple, calculons les estimateurs de ces paramtres dans le cas o on cherche diagnostiquerun diabte partir dun signe de la forme la glycmie mesure jeun est suprieure ... ). Pourdeux seuils donns S1 et S2, on obtient les tableaux de contingence ci-dessous :

    a. Seuil S1

    M

    S VP FP

    FN VN

    M

    SM S

    M

    S

    SeVP

    VP FN+---------------------

    Spcificit Sp Pr S M( )VN

    VN FP+---------------------= =

  • 8/14/2019 Universit Paris VI

    46/181

    Evaluation de lintrt diagnostique des informations mdicales

    46/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    Tableau 2

    b. Seuil S2

    Tableau 3

    On peut estimer les sensibilits et spcificits correspondant aux deux seuils par :Se1 90 / 100 = 0,90 ; Sp1 300 / 500 = 0,60Se2 50 / 100 = 0,50 ; Sp2 475 / 500 = 0,95.On retrouve ici le fait que sensibilit et spcificit varient en sens inverse.

    On constate dautre part que le seuil S1 correspond une bonne sensibilit (lexamen est positifchez 90 % des malades), mais une spcifit mdiocre (lexamen est positif chez 40 % des non-malades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant tre confir-

    m ultrieurement par un examen plus spcifique.Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour unexamen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confir-mation.

    5.3.1.3 Estimation des valeurs prdictives

    Les estimations sobtiennent partir du mme tableau des donnes :

    Par exemple, pour les tableaux de contingence vus ci-dessus, on a :VPP1 90 / 290 = 0,31 ; VPN1 300 / 310 = 0,97VPP2 50 / 75 = 0, 67 ; VPN2 475 / 525 = 0,90Ces rsultats peuvent sinterprter ainsi : en affirmant le diagnostic sur la base de la positivit delexamen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et enliminant le diagnostic en constatant la ngativit de lexamen, on se trompe dans 3 % des cas avec

    M

    S 90 200

    10 300

    M

    S 50 2550 475

    M

    S

    M

    S

    VPP Pr M S( )VP

    VP FP+

    --------------------=

    VPN Pr M S( )VN

    VN FN+----------------------=

  • 8/14/2019 Universit Paris VI

    47/181

    Evaluation de lintrt diagnostique des informations mdicales

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 47/181

    le seuil S1 et 10 % des cas avec le seuil S2.

    5.3.2 Deux chantillons reprsentatifs

    Linconvnient du schma exprimental ci-dessus (un seul chantillon) est que, si la maladie estpeu frquente ou rare, il faut constituer un chantillon de trs grande taille pour obtenir un nombre

    suffisant de malades. Les non-malades, au contraire, seront trop nombreux. Cest pourquoi onconstituera souvent, en pratique, deux chantillons, un chantillon de malades et un chantillon denon-malades. On peut encore rsumer les rsultats par un tableau comme celui du tableau 1 page

    45, mais ce tableau doit tre interprt diffremment, les proportions respectives des malades etnon-malades ne correspondant plus la ralit : le rapport entre le nombre de malades et le nombrede non-malades du tableau dpend des tailles respectives choisies pour les deux chantillons, et naaucun lien avec la frquence de la maladie dans la population (la prvalence).On peut toujours estimer la sensibilit et la spcificit comme ci-dessus. En effet, la sensibilit par

    exemple est estime uniquement partir de VP et FN, donc de la rpartition des malades entre ceuxqui prsentent le signe et les autres. Or lchantillon des malades respecte cette rpartition.En revanche, lestimation prcdente des valeurs prdictives utilisait la rpartition entre maladeset non malades, que le tableau actuel ne reprsente pas correctement.Lestimation des valeurs prdictives reste cependant possible condition de connatre la prvalen-ce de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 page 42 :

    On remplacera dans ces formules la sensibilit et la spcificit par leurs estimations.

    VPPSe Pr M( )

    Se Pr M( ) 1 Sp( ) 1 Pr M( )( )+--------------------------------------------------------------------------------------------=

    VPNSp 1 Pr M( )( )

    1 Se( ) Pr M( ) Sp 1 Pr M( )( )+

    --------------------------------------------------------------------------------------------=

  • 8/14/2019 Universit Paris VI

    48/181

    Evaluation de lintrt diagnostique des informations mdicales

    48/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

  • 8/14/2019 Universit Paris VI

    49/181

    Variables alatoires

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 49/181

    Chapitre 6

    Variables alatoires

    6.1 Dfinition dune variable alatoire

    Considrons un ensemble fondamentalEcorrespondant une certaine exprience. Les lments

    deE, rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependantutile de faire correspondre un nombre chaque lment de E, en vue de faire ensuite des calculs.Pour un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre depoints quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple

    la somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaquecarte.Une variable alatoireX, sur un ensemble fondamentalE, est une application deEdans : toutrsultat possible de lexprience ( tout lment deE), la variable alatoireXfait correspondre unnombre.LorsqueEest fini ou infini dnombrable, toute application deEdans est une variable alatoire.LorsqueEest non dnombrable, il existe certaines applications deEdans qui ne sont pas desvariables alatoires. En effet, la dfinition rigoureuse dune variable alatoireX impose que toutintervalle de soit limage dun vnement deEpar lapplicationX. Cette condition est vrifiepour toute applicationXsiEest fini ou dnombrable, puisque toute partie deEest un vnement.Ce nest plus vrai siEest non dnombrable. Heureusement, les applications choisies naturellementsont des variables alatoires.On parle de variable alatoire discrte lorsque la variable est une application deEdans un sous-ensemble discret de , le plus souvent N ou une partie de N. On parle sinon de variable alatoirecontinue.

    Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels que

    X() = a est not [X() = a], ou, en abrg,X= a .Pour deux nombres rels a et b (a b), lvnement constitu de tous les rsultats dexpriencetels que a X() b est not [a X() b] ou, en abrg, a Xb .

    SiXet Ysont des variables alatoires dfinies sur le mme ensemble fondamental E, et si kestune constante, on peut montrer que les fonctions suivantes sont aussi des variables alatoires :

    (X+ Y)() =X() + Y() (X+ k)() =X() + k(kX)() = kX() (XY)() =X() Y()pour tout lment deE.

  • 8/14/2019 Universit Paris VI

    50/181

    Variables alatoires

    50/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    6.2 Variables alatoires finies

    Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnralise-rons dans un second temps une variable alatoire infinie dnombrable, puis continue.

    SoitXune variable alatoire sur un ensemble fondamental E valeurs finies :X(E) = {x1,x2, ...,xn}.X(E) devient un ensemble probabilis si lon dfinit la probabilit Pr(X= xi) pour chaquexi , que

    lon notepi . Lensemble des valeurspi = Pr(X= xi) est appel distribution ou loi de probabilit deX.Puisque lespi sont des probabilits sur les vnements {X=x1,X=x2, ...,X=xn}, on a :

    et .

    6.2.1 Reprsentation dune loi de probabilit finieOn peut reprsenter la loi de probabilitpi par une table :

    Ou par un diagramme en btons :

    o la hauteur du bton positionn enxi a pour valeurpi.

    6.2.2 Esprance mathmatique dune variable finie

    Lesprance mathmatique cherche traduire la tendance centrale de la variable alatoire. Il sagit

    dune moyenne o chacune des valeursxi intervient dautant plus que sa probabilit est importante,cest--dire dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique (par-fois aussi appele vraie), ou esprance mathmatique dune variableXpar

    .

    x1 x2 ........ xn

    p1 p2 ........ pn

    i( ) pi, 0 pii 1=

    n

    1=

    pi

    xixnx1 x2 x3 x4

    X E X( ) xii 1=

    n

    pi x1p1 x2p2 ... xnpn+ + += = =

  • 8/14/2019 Universit Paris VI

    51/181

    Variables alatoires

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 51/181

    Xpeut tre note sil ny a pas de confusion possible.

    Exemple

    On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespacefondamental est constitu par lensemble des couples ordonns

    E= {(1, 1), (1, 2), (1, 3), ..., (6, 6)}Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont qui-probables).Considrons la variable alatoire dfinie comme suit : soit r= (a , b) un lment quelcon-que deE; on poseX(r) = X(a , b) = max(a , b)(la valeur deX(r) est gale a si a > b et b dans le cas contraire).

    Xest une variable alatoire sur EavecX(E) = {1, 2, 3, 4, 5, 6},et la loi de probabilit

    p1 = Pr(X= 1) = Pr({(1, 1)}) = 1/36 ;p2 = Pr(X= 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ;

    p3 = 5/36 ;p4 = 7/36 ;p5 = 9/36 ;p6 = 11/36.

    Soit :

    E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47

    Thormes

    1. SoitXune variable alatoire et kune constante relle. On a :

    E(kX) = kE(X)

    E(X+ k) =E(X) + k

    2. SoientXet Ydeux variables alatoires dfinies sur le mme espace fondamental E.

    On a :

    E(X+ Y) =E(X) +E(Y)

    xi 1 2 3 4 5 6

    pi 1/36 3/36 5/36 7/36 9/36 11/36

    E(X)1 2 3 4 5 6

    pi

    xi

  • 8/14/2019 Universit Paris VI

    52/181

    Variables alatoires

    52/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    On en dduit que pour n variables alatoires Xi , dfinies sur le mme espacefondamental :

    (lesprance de la somme est la somme des esprances).

    Exemple

    Considrons lexprience du jeu de ds oE= {1, 2, 3, 4, 5, 6} uniforme (quiprobable).SoitX(E) une premire variable alatoire dfinie par

    X(E) = {1, 2, 3, 4, 5, 6}etpX1 =pX2 =pX3 =pX4 =pX5 =pX6 = 1/6

    E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6

    Soit Y(E) une seconde variable alatoire telle queY(E) = 1 si le chiffre tir est impair

    Y(E) = 2 si le chiffre tir est pair.Donc Y(E) = {1, 2}

    pY1 = Pr({1, 3, 5}) = 1/2pY2 = Pr({2, 4, 6}) = 1/2

    E(Y) = 1/2 + 1 = 1,5

    Calculons maintenant la loi de (X+ Y)(E)

    (X+ Y)(r) =X(r) + Y(r)Pour r= 1, (X+ Y)(1) =X(1) + Y(1) = 1 + 1 = 2Pour r= 2, (X+ Y)(2) =X(2) + Y(2) = 2 + 2 = 4

    Pour r= 3, (X+ Y)(3) =X(3) + Y(3) = 3 + 1 = 4Pour r= 4, (X+ Y)(4) =X(4) + Y(4) = 4 + 2 = 6Pour r= 5, (X+ Y)(5) =X(5) + Y(5) = 5 + 1 = 6

    Pour r= 6, (X+ Y)(6) =X(6) + Y(6) = 6 + 2 = 8On a donc (X+ Y)(E) = {2, 4, 6, 8} et

    Pr((X+ Y) = 2) = 1/6, Pr((X+ Y) = 4) = 2/6, Pr((X+ Y) = 6) = 2/6, Pr((X+ Y) = 8) = 1/6

    E(X+ Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6Or on retrouve bien ce rsultat en utilisantE(X) +E(Y) = 21/6 + 3/2 = 30/6.

    Remarque

    Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y= g(X)dont les valeurs sonty1 = g(x1),y2 = g(x2), ...,yn = g(xn). Alors :

    Pr(Y=yi) = Pr[g(X) = g(xi)]Si g est une fonction monotone, on a g(X) = g(xi) X=xiDo Pr(Y=yi) = Pr(X=xi) =piDonc :

    On montre que ce rsultat reste valide, mme si g nest pas monotone.Par exemple, si lon doit calculerE(X2), on considre la variable Y=X2 dont les valeurssonty1 =x1

    2,y2 =x22, ...,yn =xn

    2. Alors :

    E Xi

    i 1=

    n

    E Xi( )

    i 1=

    n

    =

    E g X( )( ) E Y( ) yiPr Y yi=( )

    i 1=

    n

    g xi( )pii 1=

    n

    = = =

  • 8/14/2019 Universit Paris VI

    53/181

    Variables alatoires

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 53/181

    On constate que pour calculer lesprance dun carr, il faut lever les valeurs x i au carr,mais pas les probabilitspi associes.

    6.2.3 Variance et cart-type dune variable finie

    Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersion

    autour de lesprance par une valeur (la variance ou lcart-type).La variance (vraie ou thorique) deX, note var(X) ou , est dfinie par :

    Lcart-type deX, not ou , est dfini par .Xpeut tre note sil ny a pas de confusion possible.

    Remarques :

    1. On dmontre facilement queEn effet :

    2. , par dfinition

    3. Soit X une variable alatoire de moyenne et de variance 2.

    On dfinit la variable centre rduite par .

    On peut montrer facilement (faites lexercice) queE(Y) = 0 et var(Y) =E(Y2) = 1.4. Si a est une constante, on montre que var(X+ a) = var(X) et var(aX) = a2var(X).

    6.2.4 Loi de probabilit produit

    SoientXet Ydeux variables alatoires finies sur le mme espace fondamental Eayant pour imagerespective :

    X(E) = {x1,x2, ...,xn}

    E X2( ) E Y( ) yiPr Y yi=( )

    i 1=

    n

    xi2pi

    i 1=

    n

    = = =

    X2

    X2

    var X( ) E X X( )2( ) o X E X( )== =

    X( ) X X( ) X var X( )= =

    var X( ) E X2( ) X2=

    E X X( )2( ) xi X( )

    2pi

    i 1=

    n

    xi2

    2Xxi X2+( )pi

    i 1=

    n

    = =

    E X X( )2( ) xi

    2pi 2X xi

    i 1=

    n

    pi X2

    pi

    i 1=

    n

    +i 1=

    n

    =

    E X X( )2( ) xi

    2pi 2X

    2 X2+

    i 1=

    n

    E X2( ) X

    2= =

    X2

    0

    YX

    -------------=

  • 8/14/2019 Universit Paris VI

    54/181

    Variables alatoires

    54/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    Y(E) = {y1,y2, ...,ym}.Considrons lensemble produit

    X(E)Y(E) = {(x1,y1), (x1,y2), ..., (xn ,ym)}(ensemble des couples (xi , yj) pour i = 1, ..., n etj = 1, ..., m)Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit du

    couple ordonn (xi , yj) par que lon notepxi ,yj. Cette loi de probabilitdeX, Yest appele distribution jointe deXet Y.

    Les probabilits et

    sont souvent appeles lois de probabilit marginales deXet de Y. Il sagit simplement de leurs dis-tributions.

    La loi de probabilitpxi ,yj possde, bien entendu, les proprits dune loi :

    1.

    2.

    Soient X et Y les esprances deXet de Y, X et Y leurs cart-types. On montre facilement quevar(X+ Y) = X

    2 + Y2 + 2cov(X, Y), o cov(X, Y) reprsente la covariance deX et Y et est d-

    finie par :

    De mme que pour la variance (voir section 6.2.3), on a :cov(X, Y) =E(XY) - XYLa covariance deXet Yse note aussi XY.

    Une notion drive de la covariance est celle de corrlation entreXet Y, dfinie par :

    x1 x2 x3 ..... xn

    y1 px1,y1 px2,y1 py1

    y2 px1,y2 py2

    .....

    ym px1,ym

    px1 px2 1

    Pr X xi=[ ] Y yj=[ ]( )

    XY

    xii 1 n,=

    yj1 m,=

    pxi p xi yj,

    j 1=

    m

    = pyj p xi yj,i 1=

    n

    =

    p xi yj, 0 i j,,

    pxi yj,

    j 1=

    m

    i 1=

    n

    1=

    cov X Y,( ) E X X( ) Y Y( )[ ]= xi X( ) yj Y( )p xi yj,j 1=

    m

    i 1=

    n

    =

    X Y,( ) cov X Y,( )XY

    ------------------------=

  • 8/14/2019 Universit Paris VI

    55/181

    Variables alatoires

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 55/181

    On peut vrifier que(X, Y) = (Y,X)

    (X,X) = 1

    (aX + b , cY + d) = (X, Y) si a et c non nuls

    6.2.5 Variables alatoires indpendantes

    SoientXet Ydeux variables alatoires sur un mme espace fondamental E.Xet Ysont indpen-dantes si tous les vnementsX=xi et Y=yj sont indpendants :

    pour tous les couples (i,j).Autrement dit, sipxi etpyj sont les distributions respectives deXet Y, les variables sont indpen-dantes si et seulement si on a

    pxi ,yj =pxipyj(la probabilit conjointe est gale au produit des probabilits marginales).Il en dcoule les proprits importantes suivantes : siXet Ysont indpendantes, on a (attention larciproque nest pas toujours vraie)

    1. E(XY) =E(X)E(Y)2. var(X+ Y) = var(X) + var(Y)3. cov(X, Y) = 0 et (X, Y) = 0

    6.2.6 Fonction de rpartition

    SiXest une variable alatoire, on dfinit sa fonction de rpartition F(x) par

    SiXest une variable alatoire discrte on a

    Dans tous les cas, F(x) est une fonction monotone croissante, cest--direDe plus

    et

    1 X Y,( ) 1

    Pr X xi=[ ] Y yj=[ ]( ) Pr X xi=( ) Pr Y yj=( )=

    F x( ) Pr X x( ) pour toutx =F x( ) Pr X xi=( )

    xi x= pi

    xi x=

    F a( ) F b( ) si a b

    F x( )x

    lim 0= F x( )x lim 1=

  • 8/14/2019 Universit Paris VI

    56/181

    Variables alatoires

    56/181 Biostatistique - Golmard, Mallet, Morice 2009 - 2010

    Cet exemple montre la distribution de probabilits dune variable alatoire finie et la fonction derpartition correspondante. La fonction de rpartition est une fonction en escalier. Les discontinui-ts se produisent pour les valeursx possdant des probabilits non nulles. Pour chacune de ces va-

    leurs dex , la hauteur dune discontinuit est la probabilit dex .

    6.3 Variables infinies dnombrables (hors

    programme)

    Tout ce qui a t vu prcdemment dans le cas o E est fini (E= {s1, s2, ..., sn}) se gnralise(nous ne verrons pas les dmonstrations) au cas oEest infini dnombrable ; on aura par exemple

  • 8/14/2019 Universit Paris VI

    57/181

    Variables alatoires

    2009 - 2010 Biostatistique - Golmard, Mallet, Morice 57/181

    La somme converge linfini versE(X), toutes les autres proprits sont conserves, les sommesdevenant des sries.

    6.4 Variables alatoires continues

    La gnralisation au continu est dlicate et mme difficile si on ne dispose pas doutils mathma-tiques hors du champ de ce cours.Nous nous contenterons de procder par analogie avec le cas discret.Une variable alatoireXdont lensemble imageX(E) est un intervalle de est une variable ala-toire continue (continue par opposition discrte, cf supra).

    Rappelons que, par dfinition dune variable alatoire, est un vnement deE dont laprobabilit est bien dfinie.

    On dfinit la loi de probabilit deX, ou distribution deX, laide dune fonctionf(x), appele den-sit de probabilit deX, telle que

    Remarques

    1. Sifest donne, la probabilit est la surface sous la courbe entre a et b

    2. Le passage du discret au continu transforme les sommes en intgrales et p i en f(x)dx.

    X E X( ) xii 1=

    pi= =

    a X b

    f x( ) xda

    b

    Pr a X b ( )=

    Pr a X b ( )

    Pr a X b ( )f(