Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests...

28
Millot Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4 e édition

Transcript of Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests...

Page 1: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

M i l l o t

Mil

lot

Comprendre et réaliserles tests statistiques à l’aide de R

Manuel de biostatistique

Com

pren

dre

et ré

alise

r les

test

s st

atist

ique

l’aid

e de

R

Ce livre s’adresse aux étudiants, médecins et chercheurs désirant réaliser des tests alors qu’ils débutent en statistique.

Une approche simple et détaillée

Illustré par 88 figures et accompagné d’exercices avec cor-rection, l’ouvrage aborde la statistique de la manière la plus simple qui soit, sans démonstration mathématique, mais en insistant sur les détails, afin de bien maîtriser toutes les subtilités des tests.

Des notions essentielles traitées en profondeur

L’ouvrage explore des points fondamentaux en statistique : la check-list à effectuer avant de réaliser un test, la gestion des individus extrêmes, l’origine de la p value, la puissance ou la conclusion d’un test. Il explique comment choisir un test à partir de ses propres données. Il décrit 35 tests statis-tiques sous forme de fiches, dont 24 non paramétriques, ce qui couvre la plupart des tests à une ou deux variables observées. Il traite de toutes les subtilités des tests, comme les corrections de continuité, les corrections de Welch pour le test t et l’anova, ou les corrections de p value lors des comparaisons multiples. Il propose un exemple d’application

de chaque test à l’aide de R, en incluant toutes les étapes du test, et notamment l’analyse graphique des données.

R, le logiciel de référence

L’originalité de ce manuel est de proposer non seulement une explication très détaillée sur l’utilisation des tests les plus classiques, mais aussi la possibilité de réaliser ces tests à l’aide de R, logiciel de référence en statistique, gratuit, disponible sur Internet et compatible avec Windows, Mac OS et Linux. L’autre originalité est de proposer l’ensemble des exemples d’application des tests à partir d’un seul fichier de données, ce qui facilite la compréhension et le passage éventuel vers d’autres logiciels d’analyse. Ce fichier, ainsi que l’intégralité du code R de ce manuel, est disponible en ligne.

Gaël MILLOT, Docteur en Génétique Humaine, Maître de Conférence en Génétique et Biostatistique à l’Univer-sité Pierre et Marie Curie (Paris VI), responsable du pôle Statistique de la plateforme Hub-C3BI de l’Institut Pasteur.

L’auteur reverse la moitié de ses droits d’auteur à différents organismes de recherche sur les maladies génétiques.

Comprendre et réaliserles tests statistiques à l’aide de R

Manuel de biostatistique

M i l l o t

a �La 4e édition de la référence dans le domaine des tests statistiques et de R

a �Accessible aux débutants : aucun prérequis nécessaire en mathématiques ou en informatique

a �Nombreux exemples d’application et exercices corrigés

4e édition

9 782807 302914

ISBN : 978-2-8073-0291-4

Con

cept

ion

grap

hiqu

e : P

rim

o&Pr

imo®

Ph

oto

: Sta

tion

aryT

rave

ller

- is

tock

phot

o.co

m

9782807302914_RETESTA_CV+NOTO.indd 1 05/12/2017 10:11

Page 2: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd
Page 3: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

Comprendre et réaliser les tests statistiques à l’aide de R

Manuel de biostatistique

4e édition

Millot

9782807302914_RETESTA_INT.indd A9782807302914_RETESTA_INT.indd A 21/11/2017 10:2621/11/2017 10:26

Page 4: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

© De Boeck Supérieur s.a., 2018 4e édition

Rue du Bosquet, 7 - 1348 Louvain-la-Neuve

Tous droits réservés pour tous pays.

Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou

totalement le présent ouvrage, de le stocker dans une banque de données ou de le communiquer au public, sous

quelque forme et de quelque manière que ce soit.

Dépôt légal :

Bibliothèque nationale, Paris: janvier 2018

Bibliothèque royale de Belgique, Bruxelles: 2018/13647/002 ISBN 978-2-8073-0291-4

Pour toute information sur notre fonds et les nouveautés dans votre domaine de spécialisation,

consultez notre site web: www.deboecksuperieur.com

9782807302914_RETESTA_INT.indd B9782807302914_RETESTA_INT.indd B 21/11/2017 10:2621/11/2017 10:26

Page 5: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

Comprendre et réaliser

les tests statistiques à l'aide de R

4ème édition

"Aucun chercheur – sauf s'il est assuré d'avoir du génie et, en outre, beaucoup de chance – ne peut plus

ignorer la méthode statistique" (Schwartz, 1963)

"You know nothing, Jon Snow" (Free Falk Ygritte, 301 AL)

9782807302914_RETESTA_INT.indd 19782807302914_RETESTA_INT.indd 1 21/11/2017 10:2621/11/2017 10:26

Page 6: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

SOMMAIRE

ABREVIATIONS ET SYMBOLES .................................................................................................................. 15

CHAPITRE 1 : PRESENTATION DE R ......................................................................................................... 17

1.1. Introduction .................................................................................................................................................. 17

1.2. Installation et description de l'interface R classique ................................................................................. 171.2.1. Installation de R sous Windows et macOS ...................................................................................... 171.2.2. Installation de packages ................................................................................................................... 181.2.3. Récupérer des manuels d'aide .......................................................................................................... 201.2.4. Découverte ....................................................................................................................................... 20

1.3. Installation et description de RStudio ........................................................................................................ 221.3.1. Installation ....................................................................................................................................... 221.3.2. Console (panneau inférieur gauche) ................................................................................................ 231.3.3. Panneau d'édition (supérieur gauche) .............................................................................................. 241.3.4. Panneau "environnement et historique" (supérieur droit) ................................................................ 241.3.5. Panneau d'outils (inférieur droit) ..................................................................................................... 25

1.3.5.1. Onglet Files ....................................................................................................................... 251.3.5.2. Onglet Plots ....................................................................................................................... 261.3.5.3. Onglet Packages ................................................................................................................ 261.3.5.4. Onglet Help ....................................................................................................................... 281.3.5.5. Onglet Viewer .................................................................................................................... 28

1.4. Description des principaux attributs de R ................................................................................................. 281.4.1. L'instruction ..................................................................................................................................... 281.4.2. Les objets ......................................................................................................................................... 29

1.4.2.1. Les objets de données ........................................................................................................ 291.4.2.2. Les fonctions...................................................................................................................... 30

1.4.3. Les opérateurs .................................................................................................................................. 321.4.4. Les attributs spéciaux ....................................................................................................................... 33

1.5. Premiers pas : R est une calculatrice .......................................................................................................... 34

1.6. Manipulation des objets de données ........................................................................................................... 341.6.1. Création d'objets de données ............................................................................................................ 34

1.6.1.1. Création par écriture .......................................................................................................... 351.6.1.2. Création par importation de fichiers .................................................................................. 421.6.1.3. Création par utilisation du tableur de R ............................................................................. 46

1.6.2. Description d'un objet de données ................................................................................................... 471.6.2.1. La fonction length() ..................................................................................................... 471.6.2.2. La fonction mode() ......................................................................................................... 481.6.2.3. La fonction typeof() ..................................................................................................... 491.6.2.4. La fonction class() ....................................................................................................... 501.6.2.5. La fonction str() ............................................................................................................ 511.6.2.6. La fonction attributes() ........................................................................................... 521.6.2.7. La fonction summary() .................................................................................................. 53

1.6.3. Analyse et modification des données dans un objet de données ...................................................... 551.6.3.1. Vecteurs ............................................................................................................................. 551.6.3.2. Matrices ............................................................................................................................. 561.6.3.3. Data frames ........................................................................................................................ 611.6.3.4. Listes.................................................................................................................................. 691.6.3.5. Facteurs .............................................................................................................................. 731.6.3.6. Tables ................................................................................................................................ 76

1.7. Notion d'import et export ............................................................................................................................ 781.7.1. Sauver des lignes de code et les réimporter dans RStudio ............................................................... 781.7.2. Sourcer du code ............................................................................................................................... 79

9782807302914_RETESTA_INT.indd 79782807302914_RETESTA_INT.indd 7 21/11/2017 10:2621/11/2017 10:26

Page 7: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

8 Sommaire

1.7.3. Exporter des données au format texte, csv, etc. ............................................................................... 791.7.4. Sauvegarder et réimporter des objets de données au format R ........................................................ 81

1.8. Fonctions de statistique descriptive ............................................................................................................ 82

1.9. Manipuler les instructions conditionnelles ou répétées en boucles .......................................................... 851.9.1. Attributs de condition ...................................................................................................................... 851.9.2. Attributs de répétition ...................................................................................................................... 87

1.10. Graphiques ................................................................................................................................................. 901.10.1. Découverte de la fenêtre graphique ............................................................................................... 901.10.2. Différents types de graphique ........................................................................................................ 91

1.10.2.1. Description des fonctions classiques ............................................................................... 911.10.2.2. Arguments communs de ces fonctions ............................................................................ 97

1.10.3. Ajout d'éléments sur un graphique ................................................................................................. 991.10.4. Paramètres graphiques ................................................................................................................... 991.10.5. Manipulation des polices de caractères ........................................................................................ 1031.10.6. Manipulation des couleurs ........................................................................................................... 1091.10.7. Tracer plusieurs graphiques côte à côte dans une même fenêtre.................................................. 1231.10.8. Gérer plusieurs fenêtres graphiques ............................................................................................. 125

1.10.8.1. Interface R classique ...................................................................................................... 1251.10.8.2. Interface RStudio ........................................................................................................... 126

1.10.9. Exporter un graphique.................................................................................................................. 1281.10.9.1. Interface R classique ...................................................................................................... 1281.10.9.2. Interface RStudio ........................................................................................................... 130

1.10.10. Le package ggplot2 .................................................................................................................... 1301.10.10.1. Présentation de l'approche graphique .......................................................................... 1301.10.10.2. Syntaxe ........................................................................................................................ 1341.10.10.3. Exemples de graphiques .............................................................................................. 1381.10.10.4. la fonction qplot() .................................................................................................. 1571.10.10.5. Comment gérer les graphiques classiques de R avec ceux de ggplot2 ........................ 159

1.11. Création de fonctions ............................................................................................................................... 1601.11.1. Notions de base ............................................................................................................................ 1601.11.2. Récupération des résultats générés par function(){} ........................................................... 1631.11.3. Fonctions avec arguments ............................................................................................................ 1641.11.4. Création d'opérateurs ................................................................................................................... 1701.11.5. Notion d'environnement ............................................................................................................... 1701.11.6. Fonctions primitives et fonctions clôtures ................................................................................... 1801.11.7. Accès au code des fonctions prédéfinies de R ............................................................................. 1831.11.8. Toute action dans R fait appel à une fonction .............................................................................. 187

1.12. Exercices ................................................................................................................................................... 187

1.13. Correction des exercices .......................................................................................................................... 189

CHAPITRE 2 : NOTIONS DE BASE DE LA STATISTIQUE .................................................................... 197

2.1. Introduction ................................................................................................................................................ 197

2.2. Définitions de la statistique, de la population et de l'échantillon ........................................................... 198

2.3. L'individu .................................................................................................................................................... 200

2.4. Les variables aléatoires .............................................................................................................................. 2012.4.1. Définition ....................................................................................................................................... 2012.4.2. Deux types de variables aléatoires ................................................................................................. 205

2.4.2.1. Variable quantitative ........................................................................................................ 2052.4.2.2. Variable qualitative .......................................................................................................... 205

9782807302914_RETESTA_INT.indd 89782807302914_RETESTA_INT.indd 8 21/11/2017 10:2621/11/2017 10:26

Page 8: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

9Sommaire

2.4.3. Particularités de certaines variables qualitatives ............................................................................ 2062.4.3.1. Exclusivité des classes ..................................................................................................... 2062.4.3.2. Classes appariées ............................................................................................................. 2072.4.3.3. Cas des variables fixées ................................................................................................... 208

2.4.4. Observer la distribution des valeurs d'une variable quantitative : l'histogramme .......................... 2102.4.4.1. Choix du nombre de classes ............................................................................................ 2102.4.4.2. Fixer l'intervalle des classes ............................................................................................. 2102.4.4.3. Ordonnée en effectif, proportion ou densité .................................................................... 2112.4.4.4. La fonction hist() de R ............................................................................................... 212

2.4.5. Observer la distribution des valeurs d'une variable qualitative ...................................................... 2142.4.6. Limite entre l'aspect quantitatif et qualitatif d'une variable ........................................................... 215

2.5. Les différents types de tableaux de données ............................................................................................ 2182.5.1. Cas standard ................................................................................................................................... 2182.5.2. Le tableau disjonctif complet pour les variables qualitatives ......................................................... 2182.5.3. Le tableau de contingence pour une ou deux variables qualitatives .............................................. 219

2.6. Avant d'entreprendre toute analyse statistique : la check-list ............................................................... 220

2.7. Les paramètres de statistique descriptive les plus employés .................................................................. 2212.7.1. La moyenne et la médiane ............................................................................................................. 2212.7.2. Les quantiles .................................................................................................................................. 2232.7.3. La variance, l'écart type et le coefficient de variation .................................................................... 2232.7.4. La covariance ................................................................................................................................. 2242.7.5. Le coefficient de corrélation linéaire de Pearson ........................................................................... 227

2.8. Exercices ..................................................................................................................................................... 229

2.9. Corrections des exercices ........................................................................................................................... 230

CHAPITRE 3 : DEMARCHE SCIENTIFIQUE ET ERREURS ASSOCIEES .......................................... 236

3.1. Formulation de la question scientifique ................................................................................................... 2363.1.1. Décalage entre la question posée et l'approche envisagée ............................................................. 2363.1.2. Faits supposés avérés ..................................................................................................................... 237

3.2. Organisation de l'étude scientifique ......................................................................................................... 2383.2.1. Individus non semblables ............................................................................................................... 2383.2.2. Conditions environnementales non semblables ............................................................................. 239

3.3. Interprétation du résultat .......................................................................................................................... 242

3.4. La gestion des individus extrêmes (outliers en anglais) ........................................................................... 243

3.5. Conclusion .................................................................................................................................................. 245

CHAPITRE 4 : LES ETAPES D'UN TEST STATISTIQUE ....................................................................... 246

4.1. Introduction à lire avant de se lancer dans ce chapitre .......................................................................... 246

4.2. Les deux hypothèses statistiques ............................................................................................................... 248

4.3. La Variable de Test (VT) ........................................................................................................................... 2504.3.1. Définition ....................................................................................................................................... 2504.3.2. Différents types de VT ................................................................................................................... 250

4.3.2.1. Tests paramétriques et non paramétriques ....................................................................... 2514.3.2.2. Estimateur et VT .............................................................................................................. 2524.3.2.3. VT et distribution de probabilité ...................................................................................... 252

4.4. Distributions de probabilité ...................................................................................................................... 2534.4.1. Définition de la distribution de probabilité et de la loi de probabilité ............................................ 253

9782807302914_RETESTA_INT.indd 99782807302914_RETESTA_INT.indd 9 21/11/2017 10:2621/11/2017 10:26

Page 9: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

10 Sommaire

4.4.2. Paramètres d'une distribution de probabilité .................................................................................. 2534.4.2.1. Cas des variables discrètes : quantile, probabilité et fonction de répartition ................... 2534.4.2.2. Cas des variables continues : quantile, densité de probabilité et fonction de répartition . 2554.4.2.3. Calcul de la probabilité de voir apparaître une valeur de variable continue .................... 257

4.4.3. Comment utiliser les distributions de probabilité connues avec R................................................. 2604.4.4. Différentes lois de probabilité discrètes ......................................................................................... 261

4.4.4.1. Loi binomiale ................................................................................................................... 2614.4.4.2. Loi multinomiale ............................................................................................................. 2674.4.4.3. Loi de Pascal et loi binomiale négative ........................................................................... 2694.4.4.4. Loi géométrique ............................................................................................................... 2724.4.4.5. Loi hypergéométrique ...................................................................................................... 2744.4.4.6. Loi de Poisson ................................................................................................................. 276

4.4.5. Différentes lois de probabilité continues........................................................................................ 2784.4.5.1. Loi normale ou de Laplace-Gauss ................................................................................... 2784.4.5.2. Loi normale centrée réduite ............................................................................................. 2824.4.5.3. Loi exponentielle ............................................................................................................. 2854.4.5.4. Loi gamma ....................................................................................................................... 2864.4.5.5. Loi de 2 .......................................................................................................................... 2894.4.5.6. Loi de Fisher-Snedecor .................................................................................................... 2914.4.5.7. Loi de Student .................................................................................................................. 294

4.4.6. Distributions de probabilité qui ne suivent pas de loi connue ........................................................ 2964.4.6.1. Distribution de probabilité de Mann-Whitney ................................................................. 2964.4.6.2. Distribution de probabilité de Wilcoxon.......................................................................... 3014.4.6.3. Distribution de probabilité du test des signes de Wilcoxon ............................................. 307

4.4.7. Rapport entre toutes ces distributions de probabilité ..................................................................... 3124.4.8. Remarques importantes .................................................................................................................. 313

4.4.8.1. Ne pas confondre la loi de probabilité d'une variable mesurée et celle d'une VT ............ 3134.4.8.2. Simulation avec R de la fluctuation d'une VT due à l'échantillonnage ............................ 3144.4.8.3. Importance du tirage aléatoire des individus dans la formation de l'échantillon ............. 317

4.5. Hypothèse H0, distribution de probabilité de la VT et échantillon : le cocktail magique de l'obtention de la p value ............................................................................................................................................... 318

4.6. Conclusion d'un test statistique et les deux risques d'erreurs associés .................................................. 3214.6.1. Conclure, c'est deux vérités, deux décisions soit quatre probabilités ............................................. 3214.6.2. L'hypothèse H0 et le risque : définitions ..................................................................................... 3234.6.3. La correction de la p value ou du seuil de rejet .......................................................................... 325

4.6.3.1. Le problème soulevé ........................................................................................................ 3254.6.3.2. La technique de Bonferroni ............................................................................................. 3284.6.3.3. La technique séquentielle (Holm) .................................................................................... 3294.6.3.4. La méthode de Benjamini & Hochberg (BH) .................................................................. 3314.6.3.5. Quand appliquer la correction ? ....................................................................................... 3324.6.3.6. Comment choisir la méthode de correction à appliquer ? ................................................ 335

4.6.4. L'hypothèse H1 et son influence sur le risque ............................................................................. 3354.6.4.1 Le problème de l'hypothèse H1 ......................................................................................... 3354.6.4.2. Test bilatéral et unilatéral ................................................................................................ 3364.6.4.3. Obtenir la p value en test bilatéral et unilatéral ............................................................... 3394.6.4.4. Placer les seuils de rejet en test bilatéral et unilatéral .................................................. 3424.6.4.5. Comment choisir entre test bilatéral et unilatéral ? .......................................................... 347

4.6.5. Le risque et la puissance 1- du test ........................................................................................... 3484.6.5.1. Retour sur les définitions du risque et de la puissance 1- ........................................... 3494.6.5.2. Variations de et 1- suivant la distribution de probabilité de la VT sous H1 ................ 349

4.6.6. et en termes de faux positifs et faux négatifs .......................................................................... 3554.6.7. Propriétés de la puissance 1- ........................................................................................................ 357

4.6.7.1 A lire avant de se lancer dans ce paragraphe .................................................................... 3574.6.7.2. La puissance d'un test diminue quand décroît le seuil ..................................................... 3574.6.7.3. La puissance d'un test croît quand augmente l'effectif n de l'échantillon ........................ 3594.6.7.4. La puissance d'un test augmente avec l'écart entre les paramètres testés ......................... 365

4.6.8. Le danger de considérer la p value comme un indicateur de forte ou faible significativité ........... 367

9782807302914_RETESTA_INT.indd 109782807302914_RETESTA_INT.indd 10 21/11/2017 10:2621/11/2017 10:26

Page 10: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

11Sommaire

4.6.9. Alors comment fixer la puissance d'un test ? ................................................................................. 3694.6.9.1. Considérations générales ................................................................................................. 3694.6.9.2. Réaliser des abaques ........................................................................................................ 3714.6.9.3. Les fonctions disponibles sous R ..................................................................................... 3734.6.9.4. Le ncp des lois de probabilité de VT sous R ................................................................... 375

4.6.10. Comment conclure finalement ? .................................................................................................. 379

4.7. Récapitulation ............................................................................................................................................. 381

4.8. Exercices ..................................................................................................................................................... 382

4.9. Correction des exercices ............................................................................................................................ 385

CHAPITRE 5 : LES TESTS STATISTIQUES .............................................................................................. 401

5.1. A lire absolument avant d'utiliser un test ................................................................................................ 401

5.2. Quel test appliquer et quelle fonction de R utiliser ? .............................................................................. 410

Comparaison d'effectifs et de proportions ......................................................................................................... 413

5.3. 2 de conformité.......................................................................................................................................... 4145.3.1. Méthode ......................................................................................................................................... 4145.3.2. Exemple avec R ............................................................................................................................. 4185.3.3. Tests de comparaisons deux à deux ............................................................................................... 425

5.4. 2 d'homogénéité ........................................................................................................................................ 4295.4.1. Méthode ......................................................................................................................................... 4295.4.2. Exemples avec R ............................................................................................................................ 4355.4.3. Tests de comparaisons deux à deux ............................................................................................... 444

5.5. Test G .......................................................................................................................................................... 4475.5.1. Méthode ......................................................................................................................................... 4475.5.2. Exemples avec R ............................................................................................................................ 4505.5.3. Tests de comparaisons deux à deux ............................................................................................... 451

5.6. Test exact de Fisher .................................................................................................................................... 4545.6.1. Tableau de contingence 2 2 ........................................................................................................ 454

5.6.1.1. Méthode ........................................................................................................................... 4545.6.1.2. Exemples avec R ............................................................................................................. 460

5.6.2. Tableau de contingence c k ......................................................................................................... 4715.6.2.1. Méthode ........................................................................................................................... 4715.6.2.2. Exemple avec R ............................................................................................................... 4725.6.2.3. Tests de comparaisons deux à deux ................................................................................. 474

5.7. Test de Mantel-Haenszel ............................................................................................................................ 4765.7.1. Méthode ......................................................................................................................................... 4765.7.2. Exemples avec R ............................................................................................................................ 4825.7.3. Tests de comparaisons deux à deux ............................................................................................... 489

5.8. Comparaison d'une proportion observée à une proportion théorique .................................................. 4915.8.1. Méthode ......................................................................................................................................... 4915.8.2. Exemples avec R ............................................................................................................................ 494

5.9. Comparaison de deux proportions observées .......................................................................................... 5055.9.1. Méthode ......................................................................................................................................... 5055.9.2. Exemples avec R ............................................................................................................................ 509

5.10. Comparaison de deux proportions en séries appariées (test de Mac Nemar) ..................................... 5145.10.1. Méthode ....................................................................................................................................... 5145.10.2. Exemples avec R .......................................................................................................................... 519

9782807302914_RETESTA_INT.indd 119782807302914_RETESTA_INT.indd 11 21/11/2017 10:2621/11/2017 10:26

Page 11: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

12 Sommaire

5.11. Comparaison de plusieurs proportions observées ................................................................................. 5255.11.1. Méthode ....................................................................................................................................... 5255.11.2. Exemple avec R ........................................................................................................................... 5285.11.3. Tests de comparaisons deux à deux ............................................................................................. 532

5.12. Comparaison de plusieurs proportions observées à plusieurs proportions théoriques...................... 5375.12.1. Méthode ....................................................................................................................................... 5375.12.2. Exemple avec R ........................................................................................................................... 5405.12.3. Tests de comparaisons deux à deux ............................................................................................. 544

Comparaison de moyennes ................................................................................................................................ 545

5.13. Le test t de Student de comparaison de moyennes ................................................................................ 5465.13.1. Comparaison d'une moyenne observée à une valeur théorique .................................................... 546

5.13.1.1. Méthode ......................................................................................................................... 5465.13.1.2. Exemples avec R ........................................................................................................... 548

5.13.2. Comparaison de deux moyennes observées ................................................................................. 5545.13.2.1. Méthode ......................................................................................................................... 5545.13.2.2. Exemple avec R ............................................................................................................. 557

5.13.3. Comparaison de deux moyennes observées avec variances différentes (test de Welch) ............. 5605.13.3.1. Méthode ......................................................................................................................... 5605.13.3.2. Exemples avec R ........................................................................................................... 561

5.13.4. Comparaison de deux moyennes observées en séries appariées .................................................. 5675.13.4.1. Méthode ......................................................................................................................... 5675.13.4.2. Exemple avec R ............................................................................................................. 570

5.14. Comparaison d'au moins deux moyennes observées ............................................................................. 5755.14.1. Anova (analyse de variances à un facteur) ................................................................................... 575

5.14.1.1. Méthode ......................................................................................................................... 5755.14.1.2. Exemple avec R ............................................................................................................. 580

5.14.2. Anova avec variances différentes (correction de Welch) ............................................................. 5835.14.2.1. Méthode ......................................................................................................................... 5835.14.2.2. Exemple avec R ............................................................................................................. 584

5.14.3. Tests de comparaisons deux à deux ............................................................................................. 587

Comparaison de médianes ................................................................................................................................. 590

5.15. Comparaison d'une médiane observée à une valeur théorique (test des signes de Wilcoxon) .......... 5915.15.1. Méthode ....................................................................................................................................... 5915.15.2. Exemples avec R .......................................................................................................................... 597

5.16. Comparaison de deux médianes observées (test de Mann-Whitney-Wilcoxon) ................................. 6055.16.1. Méthode ....................................................................................................................................... 6055.16.2. Exemples avec R .......................................................................................................................... 614

5.17. Comparaison de deux médianes observées en séries appariées (test des signes de Wilcoxon) .......... 6235.17.1. Méthode ....................................................................................................................................... 6235.17.2. Exemples avec R .......................................................................................................................... 632

5.18. Comparaison d'au moins deux médianes observées .............................................................................. 6405.18.1. Test de Kruskal-Wallis ................................................................................................................ 640

5.18.1.1. Méthode ......................................................................................................................... 6405.18.1.2. Exemple avec R ............................................................................................................. 6445.18.1.3. Tests de comparaisons deux à deux ............................................................................... 650

5.18.2. Test des médianes ........................................................................................................................ 6535.18.2.1. Méthode ......................................................................................................................... 6535.18.2.2. Exemple avec R ............................................................................................................. 6575.18.2.3. Tests de comparaisons deux à deux ............................................................................... 660

9782807302914_RETESTA_INT.indd 129782807302914_RETESTA_INT.indd 12 21/11/2017 10:2621/11/2017 10:26

Page 12: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

13Sommaire

Comparaison de variances ................................................................................................................................. 662

5.19. Comparaison de deux variances observées ............................................................................................ 6635.19.1. Test de Fisher-Snedecor ............................................................................................................... 663

5.19.1.1. Méthode ......................................................................................................................... 6635.19.1.2. Exemple avec R ............................................................................................................. 666

5.19.2. Test d'Ansari-Bradley .................................................................................................................. 6705.19.2.1. Méthode ......................................................................................................................... 6705.19.2.2. Exemples avec R ........................................................................................................... 678

5.20. Comparaison d'au moins deux variances observées ............................................................................. 6885.20.1. Test de Bartlett ............................................................................................................................. 688

5.20.1.1. Méthode ......................................................................................................................... 6885.20.1.2. Exemple avec R ............................................................................................................. 691

5.20.2. Test de Fligner- Killeen ............................................................................................................... 6955.20.2.1. Méthode ......................................................................................................................... 6955.20.2.2. Exemple avec R ............................................................................................................. 699

5.20.3. Tests de comparaisons deux à deux ............................................................................................. 704

Corrélations entre variables ............................................................................................................................... 705

5.21. Test du coefficient de corrélation linéaire de Pearson .......................................................................... 7065.21.1. Méthode ....................................................................................................................................... 7065.21.2. Exemple avec R ........................................................................................................................... 712

5.22. Test du coefficient de corrélation de Spearman .................................................................................... 7175.22.1. Méthode ....................................................................................................................................... 7175.22.2. Exemples avec R .......................................................................................................................... 724

5.23. Test du coefficient de corrélation de Kendall ........................................................................................ 7325.23.1. Méthode ....................................................................................................................................... 7325.23.2. Exemples avec R .......................................................................................................................... 737

5.24. Test de 2 ................................................................................................................................................... 7425.24.1. Méthode ....................................................................................................................................... 7425.24.2. Exemple avec R ........................................................................................................................... 743

5.25. Tests de corrélations multiples ................................................................................................................ 744

Comparaison de distributions ............................................................................................................................ 746

5.26. Ajustement d'une distribution observée à une distribution théorique ................................................ 7475.26.1. Introduction .................................................................................................................................. 7475.26.2. Test de 2 de conformité .............................................................................................................. 748

5.26.2.1. Méthode ......................................................................................................................... 7485.26.2.2. Exemple avec R ............................................................................................................. 751

5.26.3. Test de Kolmogorov-Smirnov ..................................................................................................... 7565.26.3.1. Méthode ......................................................................................................................... 7565.26.3.2. Exemple avec R ............................................................................................................. 762

5.26.4. Test de Shapiro-Wilk ................................................................................................................... 7695.26.4.1. Méthode ......................................................................................................................... 7695.26.4.2. Exemple avec R ............................................................................................................. 774

5.27. Comparaison de deux distributions observées (test de Kolmogorov-Smirnov) .................................. 7785.27.1. Méthode ....................................................................................................................................... 7785.27.2. Exemple avec R ........................................................................................................................... 783

Autres tests .......................................................................................................................................................... 789

5.28. Tests autour de la régression ................................................................................................................... 7905.28.1. Introduction .................................................................................................................................. 7905.28.2. Principe de la régression linéaire simple ...................................................................................... 791

9782807302914_RETESTA_INT.indd 139782807302914_RETESTA_INT.indd 13 21/11/2017 10:2621/11/2017 10:26

Page 13: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

14 Sommaire

5.28.3. Comparaison d'une régression observée à une régression nulle ................................................... 7945.28.3.1. Méthode ......................................................................................................................... 7945.28.3.2. Exemple avec R ............................................................................................................. 803

5.28.4. Comparaison d'une régression observée à une régression théorique............................................ 8145.28.4.1. Méthode ......................................................................................................................... 8145.28.4.2. Exemples avec R ........................................................................................................... 817

5.29. Test autour de la survie ........................................................................................................................... 8225.29.1. Introduction .................................................................................................................................. 8225.29.2. Comparaison de deux courbes de survie (test du logrank) ........................................................... 828

5.29.2.1. Méthode ......................................................................................................................... 8285.29.2.2. Exemple avec R ............................................................................................................. 836

ANNEXES ......................................................................................................................................................... 847

01. Formule développée de la variance et de la covariance ..................................................................... 84702. L'estimateur ........................................................................................................................................ 84803. Distribution normale de variables mesurées et théorème central limite ............................................. 85504. Rappel des moyennes et variances des distributions de probabilité ................................................... 85705. Rappel sur les combinaisons .............................................................................................................. 85806. Passage du 2 au Z2 dans le cas de la comparaison d'une proportion observée à une proportion

théorique .......................................................................................................................................... 86007. Passage du 2 au Z2 dans le cas de la comparaison de deux proportions observées .......................... 86108. Retrouver la formule de la VT à partir de la formule du 2 dans le cas de la comparaison de plusieurs

proportions observées ...................................................................................................................... 86409. Estimation de la fluctuation de la VT 2 avec correction de continuité de Yates .............................. 86510. Comment se comportent les différents couples de proportions (pG1/F1 , pG1/F2), (pG2/F1 , pG2/F2), (pF1/G1 ,

pF1/G2) et (pF2/G1 , pF2/G2) lors d'un test exact de Fisher sur tableau de contingence 2 2 ................. 86811. Anova et régression linéaire sont liées ............................................................................................... 87112. Procédure lorsque la fonction solve() n'est pas utilisable ............................................................. 87613. Précisions sur la médiane et autres quantiles ..................................................................................... 87714. Rendre non paramétrique un test paramétrique ................................................................................. 87915. Définitions autour des faux positifs et faux négatifs .......................................................................... 88316. Exemples graphiques avec R ............................................................................................................. 88617. Exécution des codes du chapitre 5 depuis un fichier ......................................................................... 89218. Edition des graphiques du chapitre 5 dans un fichier de type "pdf" .................................................. 89319. Différences entre les fonctions sort(), rank() et order() ...................................................... 89420. Les objets de mode "expression", "call" et "name" pour manipuler du code sans l'exécuter ............. 89521. Symboles mathématiques et formats particuliers dans les graphiques ............................................... 89922. Comparaison de chaînes de caractères ............................................................................................... 90223. Identifier des chaînes de caractères à l'aide d'expressions régulières ................................................. 90424. Modifier le format d'affichage des nombres ...................................................................................... 91025. Problème de virgule flottante et d'entier long .................................................................................... 91626. Principaux attributs de R .................................................................................................................... 918

REFERENCES .................................................................................................................................................. 942

REMERCIEMENTS ........................................................................................................................................ 944

INDEX ................................................................................................................................................................ 945

9782807302914_RETESTA_INT.indd 149782807302914_RETESTA_INT.indd 14 21/11/2017 10:2621/11/2017 10:26

Page 14: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd
Page 15: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

ABREVIATIONS ET SYMBOLES Seuls sont répertoriés ici les abréviations et symboles qui ne sont pas systématiquement définis au-dessous des formules statistiques. Ils proviennent généralement du chapitre 4.

risque de rejeter l'hypothèse H0 alors que H0 est vraie (risque de 1ère espèce) seuil seuil de rejet de l'hypothèse H0 risque de conserver l'hypothèse H0 alors que H0 est fausse (risque de 2ème espèce)

1- puissance d'un test risque de 3ème espèce réel écart réel entre deux paramètres seuil limite de pertinence pour l'écart entre deux paramètres moyenne au niveau d'une population f moyenne de la taille des femmes dans la population du Guateverde h moyenne de la taille des hommes dans la population du Guateverde écart type au niveau d'une population 2 variance au niveau d'une population f écart type de la taille des femmes dans la population du Guateverde h écart type de la taille des hommes dans la population du Guateverde infini knC combinaison d'ordre k des n éléments, s'écrit également

kn

k

1i somme des i éléments, i prenant les valeurs 1, 2, ..., k

ddl degrés de liberté (df en anglais pour degrees of freedom) f(k) distribution de probabilité de la variable discrète X ou fonction de masse de X f(xi) distribution de probabilité de la variable continue x ou densité de probabilité de x F(k) fonction de répartition de la variable discrète X F(xi) fonction de répartition de la variable continue x H0 hypothèse principale ou hypothèse nulle H1 hypothèse alternative m moyenne au niveau d'un échantillon mh moyenne de la taille des hommes du Guateverde dans un échantillon mf moyenne de la taille des femmes du Guateverde dans un échantillon M estimateur de la moyenne d'un échantillon et, ce qui revient au même, VT du test

de comparaison d'une moyenne observée à une valeur théorique sur grand échantillon

Mcalc valeur de l'estimateur de moyenne calculée à partir d'un échantillon Mseuil valeur de la VT M au-dessus ou au-dessous de laquelle H0 est rejetée (test

unilatéral) Mseuil inf valeur de la VT estimateur de moyenne M au-dessous de laquelle H0 est rejetée

(test bilatéral) Mseuil sup valeur de la VT estimateur de moyenne M au-dessus de laquelle H0 est rejetée

(test bilatéral) ncp non central parameter (paramètre de non-centralité) OS Operating system (système d'exploitation) p soit p value soit probabilité

9782807302914_RETESTA_INT.indd 159782807302914_RETESTA_INT.indd 15 21/11/2017 10:2621/11/2017 10:26

Page 16: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

16 Abréviations et symboles

P(x = 4) probabilité que x = 4 s écart type au niveau d'un échantillon sM écart type de l'estimateur M (équivalent de la SEM) SEM Standard Error of the Mean (erreur type en français) x variable aléatoire continue X variable aléatoire (ce peut être une mesure ou une VT) Xcalc valeur de la VT calculée à partir d'un échantillon Xseuil valeur de la VT au-dessus ou au-dessous de laquelle l'hypothèse H0 est rejetée

(test unilatéral) Xseuil inf valeur de la VT au-dessous de laquelle l'hypothèse H0 est rejetée (test bilatéral) Xseuil sup valeur de la VT au-dessus de laquelle H0 est rejetée (test bilatéral) VT Variable de Test

9782807302914_RETESTA_INT.indd 169782807302914_RETESTA_INT.indd 16 21/11/2017 10:2621/11/2017 10:26

Page 17: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

CHAPITRE 1

PRESENTATION DE R

1.1. Introduction

R a été créé par deux membres du département de statistique de l'université d'Auckland : Ross Ihaka et Robert Gentleman, également dénommés R & R (Ihaka and Gentleman, 1996). Il n'a depuis cessé d'évoluer et aujourd'hui son développement est assuré par la fondation R (The R Foundation) et par la contribution de personnes du monde entier (contributors). R est un logiciel qui utilise son propre langage, dérivé du langage informatique S, spécialement développé pour la statistique (Becker et al., 1988; Chambers and Hastie, 1992). On parle donc de logiciel R, de langage R ou d'environnement R. Son succès provient du fait que : (1) il est gratuit, (2) il est compatible avec les systèmes d'exploitation les plus utilisés (Windows, macOS, Linux), (3) des documentations sont disponibles en ligne, (4) il est intégré dans un nombre grandissant de logiciels ou d'environnements de programmation et (5) il est très puissant. La plupart des fonctions statistiques de calcul et de graphique sont disponibles dans la version de base. Si ce n'est pas le cas, vous pouvez trouver des fonctions supplémentaires dans des packages élaborés par des statisticiens et disponibles sur le net. En dernier recours, pour ceux qui exigent des fonctions particulièrement pointues, vous pouvez modifier des programmes à partir des codes disponibles ou bien en écrire vous-même en langage R afin de réaliser ce que vous souhaitez (voir le paragraphe 1.11 et Genolini, 2010). Dans cet ouvrage, nous présenterons toutes les informations nécessaires à l'utilisation de R, au travers de deux interfaces : la version classique de R et celle de RStudio. Le terme "interface R classique" (et parfois plus simplement "interface R") sera employé lorsqu'il sera nécessaire de distinguer l'interface classique de l'interface RStudio. Sinon, le simple terme "R" désignera l'environnement R d'une manière générale, sans distinguer les deux interfaces.

1.2. Installation et description de l'interface R classique

1.2.1. Installation de R sous Windows et macOS

Le logiciel R est téléchargeable sur le site http://www.r-project.org/. Il faut ensuite cliquer sur Download, CRAN, CRAN signifiant Comprehensive R Archive Network (Réseau d'archives de R globales). Choisissez un site miroir en France, les téléchargements seront probablement plus rapides. Vous trouverez ensuite un encadrement légendé Download and install R. Il est préférable, dans un premier temps, d'utiliser la version 3.3.3 de R, soit celle employée dans cet ouvrage. Lorsque vous aurez pris l'habitude de R, vous pourrez vous reporter vers la version la plus récente.

Pour Windows, cliquez sur Download R for Windows, ensuite sur base, puis sur Previous releases, sur R 3.3.3 et enfin sur Download R 3.3.3 for Windows (71 megabytes, 32/64 bit). Le programme d'installation est alors téléchargé sur votre ordinateur. Il suffit de cliquer dessus et de suivre les instructions. Un dossier portant le

9782807302914_RETESTA_INT.indd 179782807302914_RETESTA_INT.indd 17 21/11/2017 10:2621/11/2017 10:26

Page 18: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

18 Chapitre 1. Présentation de R

nom de la version de R téléchargée est créé (R-3.3.3 dans notre cas). Il est situé, à partir du disque dur C:, dans la série de dossiers suivante : Programmes / R (l'adresse de localisation étant C:\Program Files\R). Dans ce dossier se trouve le dossier library qui comprend les packages de base de R (nous y reviendrons dans le paragraphe 1.2.2). Un autre élément utile doit être localisé : le fichier .Rdata. Celui-ci n'est pas apparent au début. Il contiendra tous les objets que vous créerez et sauvegarderez dans R. Sur mon ordinateur, il apparaîtra, à partir du disque dur C:, dans la série de dossiers suivante : Utilisateurs / Gael / Mes documents (l'adresse de localisation étant C:\Users\Gael\Documents). Un autre fichier peut apparaître au même endroit que le fichier .RData, c'est le fichier .Rhistory. Il contient les dernières instructions exécutées dans la console, mais il présente peu d'intérêt lorsqu'on se sert d'un éditeur de code (voir le paragraphe 1.2.4).

Pour macOS, cliquez sur Dowload R for (Mac) OS X, puis sur old (en bas de page) et enfin sur R-3.3.3.pkg. Le programme d'installation est alors téléchargé sur votre ordinateur. Il suffit de cliquer dessus et de suivre les instructions pour que R soit installé. Les deux éléments library et .Rdata décrits dans la version R de Windows sont également installés dans la version R de macOS. Attention : .Rdata sera présent dans le répertoire racine de l'utilisateur (l'icône "Maison" sur la gauche de la fenêtre d'exploration, ou touches Shift + cmd + h) mais il sera caché. Il est alors plus simple d'utiliser le terminal de macOS pour manipuler ce fichier. Quant au dossier library, il se trouve en cliquant, à partir du disque dur, dans la série de dossiers suivante : Bibliothèque / Frameworks / R.framework / Versions / 3.3 / Resources (l'adresse de localisation étant /Library/Frameworks/R.framework/Versions/3.3/ Resources).

1.2.2. Installation de packages

Un package est une compilation d'outils qui ne se trouve pas dans l'installation de base du logiciel R. Pour en disposer, il faut le télécharger. Ceci peut s'effectuer soit "automatiquement", c'est-à-dire directement depuis l'interface R, soit "manuellement", c'est-à-dire depuis le site internet de R. Commençons par la première technique. Lorsque l'interface R est démarrée, une barre de menus apparaît dans la partie supérieure de la fenêtre.

Pour Windows, cliquez sur le menu Packages puis sur Installer le(s) package(s) :

Dans la fenêtre ouverte, sélectionnez un site français. Dans la fenêtre suivante ouverte, sélectionnez le ou les packages que vous souhaitez installer. Ceux-ci sont alors placés dans le dossier library décrit dans le paragraphe 1.2.1 précédent.

Pour macOS, cliquez sur le menu Packages & Données puis sur Installateur de Package :

9782807302914_RETESTA_INT.indd 189782807302914_RETESTA_INT.indd 18 21/11/2017 10:2621/11/2017 10:26

Page 19: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

191.2. Installation et description de l’interface R classique

Dans le haut de la fenêtre ouverte, sélectionnez CRAN (binaries) puis cliquez sur Acquérir Liste. Sélectionnez un site français puis le ou les packages que vous souhaitez installer, et cliquez sur Installer/Mettre à Jour. Ceux-ci sont alors placés dans le dossier library décrit dans le paragraphe 1.2.1 précédent.

Si l'interface R présente des difficultés à reconnaître les paramètres proxy utilisés par votre ordinateur pour accéder à internet, ou si vous n'êtes pas administrateur de l'ordinateur, il est possible de récupérer "manuellement" des packages depuis le site internet de R.

Pour Windows, reprenez la procédure de téléchargement du logiciel R mais cliquez sur contrib au lieu de base. Cliquez ensuite sur le dossier de la version de R installée (par exemple 3.3/ dans notre cas). Puis sélectionnez le package souhaité, dans sa version la plus récente (par exemple coin_1.2-1.zip). Un fichier ".zip" est enregistré sur votre disque dur. Décompressez-le. Trouvez le dossier décompressé sans le numéro de version (par exemple coin) et glissez-le dans le dossier library décrit dans le paragraphe 1.2.1 précédent. Si vous n'êtes pas administrateur de l'ordinateur, glissez le dossier décompressé sur le bureau.

Pour macOS, reprenez la procédure de téléchargement du logiciel R mais cliquez sur mavericks au lieu de old. Avec des versions de R autre que 3.3.3, il faudra peut-être cliquer sur leopard ou el-capitan, etc., au lieu de mavericks. Cliquez ensuite sur contrib/ puis sur le dossier de la version de R que vous avez installée (par exemple 3.3/ dans notre cas), puis sur le package souhaité, dans sa version la plus récente (par exemple coin_1.2-1.tgz). Un fichier ".tgz" est enregistré sur votre disque dur. Décompressez celui-ci en cliquant dessus. Trouvez le dossier décompressé sans le numéro de version (par exemple coin) et glissez-le dans le dossier library décrit dans le paragraphe 1.2.1 précédent. Si vous n'êtes pas administrateur de l'ordinateur, glissez le dossier décompressé sur le bureau.

Pour être activé, un package doit être chargé dans l'environnement de travail de R. Si le package coin est dans le dossier library, écrire la commande suivante dans la console : > library("coin")

Si le package est situé ailleurs dans l'ordinateur, employer plutôt la commande suivante : > library(coin, lib.loc = "C:/Users/Gael/Desktop/") # la zone en grisé correspond

au chemin absolu du dossier coin. Cette notion de chemin, reliée à la position du dossier coin dans l'ordinateur, sera abordée dans le paragraphe 1.6.1.2

Les packages dont vous aurez besoin dans ce livre sont : coin, dichromat, ellipse, gdata, ggplot2, ggrepel, gplots, gtools, lubridate, MASS, pROC, RColorBrewer, scatterplot3d, splines, survival, et tcltk. Commencez par vérifier s'ils sont présents dans votre dossier library, et récupérez-les si besoin. Ces packages requièrent souvent d'autres packages, qui sont automatiquement installés, sauf si l'installation est "manuelle", mais dans ce cas, R précisera quels sont les packages manquants.

9782807302914_RETESTA_INT.indd 199782807302914_RETESTA_INT.indd 19 21/11/2017 10:2621/11/2017 10:26

Page 20: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

20 Chapitre 1. Présentation de R

1.2.3. Récupérer des manuels d'aide

Dans la page d'accueil de R, au lieu de cliquer sur Download, CRAN, cliquez sur Documentation Manuals, ce qui vous donne accès à la documentation officielle de R, ainsi qu'au lien contributed documentation. Avec ce lien, vous trouverez la documentation de collaborateurs, dont certaines en français.

1.2.4. Découverte

Lorsque R est démarré, une fenêtre appelée console apparaît. Exemple pour Windows :

Et pour macOS :

9782807302914_RETESTA_INT.indd 209782807302914_RETESTA_INT.indd 20 21/11/2017 10:2621/11/2017 10:26

Page 21: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

211.2. Installation et description de l’interface R classique

C'est dans cette fenêtre que nous lançons des instructions : création ou modification de données, exécution de fonctions, tests statistiques sur nos données, etc. En bas se trouve le symbole ">", appelé le prompt. A sa droite se trouve le curseur. Au-dessus de la fenêtre se trouve une série d'icônes et encore au-dessus le menu.

Pour Windows, cliquez sur le menu Aide puis Console. Une fenêtre apparaît donnant les raccourcis clavier pratiques. Notez que des raccourcis classiques (Ctrl+c, Ctrl+v, etc.) sont compatibles dans R. Cliquez sur le menu Fichier et Sauver l'environnement de travail pour sauvegarder les objets, que vous venez de créer, dans un fichier .Rdata (voir le paragraphe 1.7.4). Vous pouvez arrêter un calcul qui dure trop longtemps avec l'icône "STOP" ou appuyer sur la touche "Echappe" du clavier.

Pour macOS, notez que la plupart des raccourcis classiques (cmd+c, cmd+v, etc.) sont compatibles dans R. Cliquez sur le menu Espace de Travail et Enregistrer l'Espace de Travail pour sauvegarder les objets, que vous venez de créer, dans un fichier .Rdata (voir le paragraphe 1.7.4). Vous pouvez arrêter un calcul qui dure trop longtemps avec l'icône "STOP" ou appuyer sur la touche "Echappe" du clavier.

Conseil important aux débutants : écrivez votre code dans un éditeur de code, plutôt que directement dans la console, puis exécutez le code à l'aide des commandes dédiées (voir le paragraphe 1.3 concernant l'éditeur de RStudio) ou bien copiez-collez vos lignes de code dans la console pour l'exécution. Et s'il y a des erreurs, corrigez-les dans l'éditeur puis recommencez la procédure d'exécution. Trois avantages à cela : (1) un gain de temps important car vous évitez de ressaisir des lignes qui ont déjà été notées, (2) si vous avez beaucoup d'instructions, elles seront plus facile à lire, à manipuler et à modifier dans un éditeur (par exemple, vous pouvez facilement rechercher une ligne de commande avec un mot clé) et (3) Il n'existe pas d'alerte dans R sauf lorsqu'on quitte le logiciel. Ce dernier point est important à savoir. Vous pouvez modifier ou perdre des données sans vous en rendre compte. Ainsi, si vous n'avez pas sauvegardé votre code (procédure expliquée dans le paragraphe 1.7.1), le seul moyen de récupérer l'erreur est de recommencer l'écriture du code. L'interface R propose un éditeur, très rudimentaire sous Windows (menu Fichier et Nouveau script), et plutôt bien fait sous macOS (menu Fichier et Nouveau Document). Il existe également des logiciels qui sont des éditeurs de code spécifiquement développés pour le langage R, avec de nombreuses fonctionnalités facilitant l'écriture, la correction et la visualisation post-exécution du code (voir la liste complète sur la page R anglaise de Wikipédia). L'un d'eux, RStudio, a rapidement acquis une place de choix parmi les utilisateurs du langage R et, à ce titre, il sera introduit dans le paragraphe 1.3 suivant. Dans des cas très particuliers (par exemple la présentation d'un code et de ses résultats), vous pouvez vous servir de logiciel de traitements de texte pour écrire votre code. Microsoft Word peut éventuellement convenir puisque la plupart des mises en forme du texte n'affecte pas l'exécution du code lors du copier-coller. Attention néanmoins avec les traitements de texte : il est indispensable de désactiver toutes les mises en forme automatique du texte (pas de changement des guillemets anglophones "" en guillemets français «» par exemple). Pour les utilisateurs avancés, il est préférable d'employer R Markdown, en installant le package rmarkdown sous RStudio (voir le site http://rmarkdown.rstudio.com/lesson-1.html). Pour finir sur l'écriture du code, nous verrons dans le paragraphe 1.7.1 comment sauvegarder des lignes de code, et comment réimporter ces lignes dans R.

9782807302914_RETESTA_INT.indd 219782807302914_RETESTA_INT.indd 21 21/11/2017 10:2621/11/2017 10:26

Page 22: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

22 Chapitre 1. Présentation de R

1.3. Installation et description de RStudio

RStudio est un environnement, dit de développement intégré (IDE en anglais pour integrated development environment). Il a été développé par Joseph J. Allaire, qui dirige la compagnie RStudio inc (voir le site http://rstudio.com). En plus de la console classique de R, cet environnement présente plusieurs panneaux, formant une interface conviviale qui facilite grandement les manipulations dans R. On le rappelle, le terme "interface R classique" sera employé lorsqu'il sera nécessaire de distinguer l'interface R classique de l'interface RStudio. Le simple terme "R" désignera l'environnement R d'une manière générale, sans distinguer les deux interfaces. Il s'adressera donc aussi bien à l'interface R classique qu'à RStudio.

1.3.1. Installation

Le logiciel R doit être installé en priorité (voir le paragraphe 1.2). La dernière version de RStudio est disponible à cette adresse : https://www.rstudio.com/products/rstudio/download/. Si besoin, certaines versions antérieures de RStudio sont également mises à disposition (tester l'adresse : https://support.rstudio.com/hc/en-us/articles/206569407-Older-Versions-of-RStudio ou l'adresse https://support.rstudio.com/hc/en-us/articles/200716783-RStudio-Release-History pour comparer les versions). Il suffit ensuite de suivre les instructions d'installation affichées par votre ordinateur. Attention : la version de RStudio décrite dans cet ouvrage est la version 1.0.136. Les informations relatives à l'utilisation de RStudio sont disponibles à l'adresse suivante : https://support.rstudio.com/hc/en-us/. Le site internet fournit également des cheat sheets, qui sont des fiches résumé très pratiques (https://www.rstudio.com/resources/cheatsheets/). La fenêtre de RStudio est plus elaborée que celle de l'interface R classique. Elle présente un menu et une barre d'icônes, dans la partie supérieure de la fenêtre, ainsi que quatre panneaux, dont trois composés d'onglets :

9782807302914_RETESTA_INT.indd 229782807302914_RETESTA_INT.indd 22 21/11/2017 10:2621/11/2017 10:26

Page 23: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

231.3. Installation et description de RStudio

1.3.2. Console (panneau inférieur gauche)

Le panneau principal de RStudio est la console, située par défaut dans le coin inférieur gauche de la fenêtre. Souvent, la console occupe toute la partie gauche. Cliquez dans ce cas sur l'icône "Dossier" en haut à droite de la console :

Le panneau "Console" correspond à la console de l'interface R classique, avec quelques propriétés supplémentaires, comme par exemple une aide à l'écriture du code. Ce panneau est considéré comme le principal car les autres panneaux ne sont pas essentiels à l'écriture et l'exécution du code. En bas de la console se trouve le symbole ">", appelé le prompt et à sa droite se trouve le curseur. Les instructions peuvent être directement tapées ou copiées-collées à partir du prompt, mais comme expliqué dans le paragraphe 1.2.4, il est préférable de se servir du panneau d'édition. En haut du panneau, à droite du mot "Console", se trouve le chemin du répertoire de travail (par défaut ~/; ce qui signifie home directory, soit C:\Users\Gael\Documents sur mon ordinateur). C'est dans ce répertoire que seront enregistrés les fichiers par défaut, dont les fichiers .RData et .Rhistory (voir le paragraphe 1.2.4). L'icône "Flèche" à droite affiche le contenu du répertoire de travail dans l'onglet File du panneau inférieur droit. Ce répertoire de travail peut être modifié en cliquant, dans le menu, sur

9782807302914_RETESTA_INT.indd 239782807302914_RETESTA_INT.indd 23 21/11/2017 10:2621/11/2017 10:26

Page 24: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

24 Chapitre 1. Présentation de R

Session / Set Working Directory / Choose Directory (voir également les fonctions getwd() et setwd() dans l'annexe 26). Enfin, une icône "STOP" apparaît, en haut à droite du panneau, quand du code est exécuté. Cliquez dessus si besoin pour arrêter une exécution trop longue.

1.3.3. Panneau d'édition (supérieur gauche)

Le panneau supérieur gauche est le panneau d'édition. Voir le paragraphe 1.3.2 si ce panneau n'est pas apparent. Comme expliqué dans le paragraphe 1.2.4, il est important d'écrire et de corriger son code dans cet éditeur, plutôt que dans la console, puis d'exécuter le code depuis cet éditeur. Noter que les raccourcis classiques de Windows (Ctrl+c, Ctrl+v, Ctrl+z, Ctrl+a, Ctrl+f, etc.) ou de macOS (cmd+c, cmd+v, cmd+z, cmd+a, cmd+f, etc.) sont compatibles dans le panneau, ce qui signifie que le code de cet ouvrage, disponible sur le site https://c3bi.pasteur.fr/gael-millot-livres/, peut être copié-collé dans l'éditeur de RStudio. Le menu File / New File / R Script ouvre un nouvel onglet d'édition :

Change d'onglet

Sort l'onglet du panneau et l'affiche en nouvelle fenêtre

Enregistre le code

Exécute le code quand il est enregistré

Rechercher / remplacer

Outils

Compilation R Markdown

Nombre total de lignes de code et position du curseur

Fonctions créées dans le code

Exécute la ligne sur le curseur ou le code sélectionné

Réexécute la précédente exécution

Sauve le code dans le fichier caché .active-rstudio-document temporaire et exécute le code

Format du code écrit

Cliquer sur le coin inferieur droit du panneau ouvre un menu. La sélection d'un thème ("R Script" sur l'exemple ci-dessus) ne modifie pas le code mais simplement le système de visualisation en couleur, la mise en forme et l'aide à l'écriture de ce code. Pour exécuter un code écrit dans le panneau d'édition, sélectionnez le code et cliquez sur l'icône "Run". Le code est alors exécuté dans la console. La sauvegarde et réimportation de lignes de code seront abordées dans le paragraphe 1.7.1.

1.3.4. Panneau "environnement et historique" (supérieur droit)

L'onglet Environment permet de gérer les objets inclus dans les différents environnements de R. La notion d'environnement est développée dans le paragraphe 1.11, et la gestion des objets (import et export) dans le paragraphe 1.7.4. L'icône "Import Dataset" facilite l'import de fichiers de données dans RStudio (voir le paragraphe 1.6.1.2).

9782807302914_RETESTA_INT.indd 249782807302914_RETESTA_INT.indd 24 21/11/2017 10:2621/11/2017 10:26

Page 25: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

251.3. Installation et description de RStudio

Ouvre un fichier .RData(fonction load())

Sauve les objets dans un fichier .RData (fonction save.image())

Affiche les objets de l'environnement

Ouvre un fichier de données(fonction read.table() et équivalent)

Efface tous les objets de l'environnement de travail (fonction rm(list = ls()))

Recherche dans l'environnement

Affichage "liste" ou "grille"

Rafraichir

L'onglet History gère l'historique des commandes exécutées dans la console, ce qui présente peu d'intérêt si le code est systématiquement écrit et géré dans le panneau d'édition.

Ouvre un fichier .Rhistory

Enregistre l'historique dans un fichier .Rhistory

Exécute les lignes sélectionnées de l'historique

Colle les lignes sélectionnées de l'historique dans le panneau d'édition

Efface les lignes sélectionnées

Efface l'historique

Recherche

1.3.5. Panneau d'outils (inférieur droit)

Le panneau inférieur droit présente 5 onglets : Files, Plots, Packages, Help et Viewer.

1.3.5.1. Onglet Files

Cet onglet permet de naviguer dans les répertoires de l'ordinateur. Les icônes situées dans la partie supérieure de l'onglet regroupent les fonctions classiques de gestion des fichiers et dossiers. Noter qu'en cliquant sur l'icône "More", il est possible de gérer le répertoire de travail (voir le paragraphe 1.3.2) :

9782807302914_RETESTA_INT.indd 259782807302914_RETESTA_INT.indd 25 21/11/2017 10:2621/11/2017 10:26

Page 26: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

26 Chapitre 1. Présentation de R

1.3.5.2. Onglet Plots

Cet onglet affiche les résultats graphiques de R. Ce n'est pas tout à fait l'équivalent de la fenêtre graphique de l'interface classique de R. C'est une version plus élaborée au sens où l'onglet Plots propose un historique des graphiques affichés. Nous y reviendrons dans le paragraphe 1.10.1.

Historique des graphiques

Affichage dans une nouvelle fenêtre

Exporte le graphique

Efface le graphique affiché

Supprime l'historique des graphiques

1.3.5.3. Onglet Packages

Cet onglet affiche et gère l'ensemble des packages disponibles sur l'ordinateur.

9782807302914_RETESTA_INT.indd 269782807302914_RETESTA_INT.indd 26 21/11/2017 10:2621/11/2017 10:26

Page 27: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

271.3. Installation et description de RStudio

Installe des packages

Recherche des mises à jour des packagesinstallés

Rechercher Rafraichit la liste des packages

Supprime le package de l'ordinateur

Active le package dans l'environnement de travail

Un package est une compilation d'outils qui ne se trouve pas dans l'installation de base du logiciel R. Pour obtenir un package depuis internet, cliquez sur l'icône "Install" et spécifiez le nom du package que vous souhaitez dans la nouvelle fenêtre :

Le package est installé par défaut dans le dossier library du logiciel R (voir le paragraphe 1.2.1) et il apparaît dans la liste de l'onglet Packages de RStudio.Un package a parfois besoin d'outils se trouvant dans d'autres packages. Cliquer sur Install dependencies pour télécharger ces packages additionnels. Si cette méthode ne fonctionne pas (en particulier si vous n'êtes pas administrateur de l'ordinateur), une alternative est de récupérer "manuellement" les packages, comme expliqué dans le paragraphe 1.2.2. Pour être activé, un package doit être chargé dans l'environnement de travail de RStudio. Par exemple, si le package coin est dans le dossier library, écrire la commande suivante dans la console : > library("coin")

Si le package est situé ailleurs dans l'ordinateur, employer plutôt la commande suivante : > library(coin, lib.loc = "C:/Users/Gael/Desktop/") # la zone en grisé correspond

au chemin absolu du dossier coin. Cette notion de chemin, reliée à la position du dossier coin dans l'ordinateur, sera abordée dans le paragraphe 1.6.1.2

Les packages dont vous aurez besoin dans ce livre sont indiqués dans le paragraphe 1.2.2.

9782807302914_RETESTA_INT.indd 279782807302914_RETESTA_INT.indd 27 21/11/2017 10:2621/11/2017 10:26

Page 28: Millot Comprendre et réaliser Millot les tests ... · Comprendre et réaliser les tests statistiques à l’aide de R Manuel de biostatistique 4e édition Millot 99782807302914_RETESTA_INT.indd

M i l l o t

Mil

lot

Comprendre et réaliserles tests statistiques à l’aide de R

Manuel de biostatistique

Com

pren

dre

et ré

alise

r les

test

s st

atist

ique

l’aid

e de

R

Ce livre s’adresse aux étudiants, médecins et chercheurs désirant réaliser des tests alors qu’ils débutent en statistique.

Une approche simple et détaillée

Illustré par 88 figures et accompagné d’exercices avec cor-rection, l’ouvrage aborde la statistique de la manière la plus simple qui soit, sans démonstration mathématique, mais en insistant sur les détails, afin de bien maîtriser toutes les subtilités des tests.

Des notions essentielles traitées en profondeur

L’ouvrage explore des points fondamentaux en statistique : la check-list à effectuer avant de réaliser un test, la gestion des individus extrêmes, l’origine de la p value, la puissance ou la conclusion d’un test. Il explique comment choisir un test à partir de ses propres données. Il décrit 35 tests statis-tiques sous forme de fiches, dont 24 non paramétriques, ce qui couvre la plupart des tests à une ou deux variables observées. Il traite de toutes les subtilités des tests, comme les corrections de continuité, les corrections de Welch pour le test t et l’anova, ou les corrections de p value lors des comparaisons multiples. Il propose un exemple d’application

de chaque test à l’aide de R, en incluant toutes les étapes du test, et notamment l’analyse graphique des données.

R, le logiciel de référence

L’originalité de ce manuel est de proposer non seulement une explication très détaillée sur l’utilisation des tests les plus classiques, mais aussi la possibilité de réaliser ces tests à l’aide de R, logiciel de référence en statistique, gratuit, disponible sur Internet et compatible avec Windows, Mac OS et Linux. L’autre originalité est de proposer l’ensemble des exemples d’application des tests à partir d’un seul fichier de données, ce qui facilite la compréhension et le passage éventuel vers d’autres logiciels d’analyse. Ce fichier, ainsi que l’intégralité du code R de ce manuel, est disponible en ligne.

Gaël MILLOT, Docteur en Génétique Humaine, Maître de Conférence en Génétique et Biostatistique à l’Univer-sité Pierre et Marie Curie (Paris VI), responsable du pôle Statistique de la plateforme Hub-C3BI de l’Institut Pasteur.

L’auteur reverse la moitié de ses droits d’auteur à différents organismes de recherche sur les maladies génétiques.

Comprendre et réaliserles tests statistiques à l’aide de R

Manuel de biostatistique

M i l l o t

a �La 4e édition de la référence dans le domaine des tests statistiques et de R

a �Accessible aux débutants : aucun prérequis nécessaire en mathématiques ou en informatique

a �Nombreux exemples d’application et exercices corrigés

4e édition

9 782807 302914

ISBN : 978-2-8073-0291-4

Con

cept

ion

grap

hiqu

e : P

rim

o&Pr

imo®

Ph

oto

: Sta

tion

aryT

rave

ller

- is

tock

phot

o.co

m

9782807302914_RETESTA_CV+NOTO.indd 1 05/12/2017 10:11