Incertitudes : bonnes et mauvaises pratiques · Lors de l'utilisation d'une droite d'étalonnage,...

15
Incertitudes : bonnes et mauvaises pratiques Hervé This avril 2015 Dans la Lettre de l'Académie d'agriculture de France [1], la question des "bonnes pratiques de la recherche scientifique" a été esquissée. Ici, on propose d'examiner, sous la forme d'un cours organisé comme une suite d'exercices , les bonnes et les mauvaises pratiques pour l'expression des incertitudes sur les résultats de mesure et de calcul. En fin de cours, l'étudiant est invité à consulter les documents officiels. La caractérisation quantitative des phénomènes est la deuxième étape de la recherche scientifique [2], la séquence complète étant : - identification d'un phénomène que l'on explore - caractérisation quantitative du phénomène - réunion des données quantitatives en lois synthétiques - recherche de mécanismes compatibles quantitativement avec les lois - recherche d'une prévision théorique testable - test expérimental de la prévision théorique Comme chaque étape de cette séquence, la caractérisation obéit à des règles de bonne pratique, et, notamment, la production de résultats de mesure conduit à des valeurs que le bon sens et les règles de bonnes pratiques doivent conduire à valider [3]. La répétition des expériences et des mesures est une des façons de procéder, mais la production de résultats (le plus souvent différents) doit alors être assortie de leur comparaison, ce qui impose de confronter les valeurs déterminées à leur dispersion [4]. Pour quantifier cette dernière, diverses méthodes sont possibles [5], selon les circonstances expérimentales. Une première façon consiste à répéter une expérience (laquelle peut être complexe, fondée sur de nombreuses étapes élémentaires) et à déterminer quantitativement la dispersion des mesures d'une grandeur x (un dosage, par exemple) par l'estimateur nommé "écart-type expérimental" s : n est le nombre d'expériences, la i -ième valeur déterminée, et la moyenne de ces n valeurs [5]. Exercice 1 Soit une balance électronique de précision. On pèse un pilulier lavé et séché, et l'on obtient les masses (en g) : 1.0021, 1.0021, 1.0022, 1.0020

Transcript of Incertitudes : bonnes et mauvaises pratiques · Lors de l'utilisation d'une droite d'étalonnage,...

Incertitudes : bonnes et mauvaises pratiques

Hervé Thisavril 2015

Dans la Lettre de l'Académie d'agriculture de France [1], la question des "bonnes pratiques de la recherche scientifique" a été esquissée. Ici, on propose d'examiner, sous la forme d'un cours organisé comme une suite d'exercices, les bonnes et les mauvaises pratiques pour l'expression des incertitudes

sur les résultats de mesure et de calcul. En fin de cours, l'étudiant est invité à consulter les documents officiels.

La caractérisation quantitative des phénomènes est la deuxième étape de la recherche scientifique [2], laséquence complète étant : - identification d'un phénomène que l'on explore- caractérisation quantitative du phénomène- réunion des données quantitatives en lois synthétiques- recherche de mécanismes compatibles quantitativement avec les lois - recherche d'une prévision théorique testable- test expérimental de la prévision théoriqueComme chaque étape de cette séquence, la caractérisation obéit à des règles de bonne pratique, et, notamment, la production de résultats de mesure conduit à des valeurs que le bon sens et les règles de bonnes pratiques doivent conduire à valider [3]. La répétition des expériences et des mesures est une des façons de procéder, mais la production de résultats (le plus souvent différents) doit alors être assortie de leur comparaison, ce qui impose de confronter les valeurs déterminées à leur dispersion [4]. Pour quantifier cette dernière, diverses méthodes sont possibles [5], selon les circonstances expérimentales.

Une première façon consiste à répéter une expérience (laquelle peut être complexe, fondée sur de nombreuses étapes élémentaires) et à déterminer quantitativement la dispersion des mesures d'une grandeur x (un dosage, par exemple) par l'estimateur nommé "écart-type expérimental" s :

où n est le nombre d'expériences, la i-ième valeur déterminée, et la moyenne de ces n valeurs [5].

Exercice 1Soit une balance électronique de précision. On pèse un pilulier lavé et séché, et l'on obtient les masses (en g) : 1.0021, 1.0021, 1.0022, 1.0020

1.1. Calcule la valeur moyenne et l'écart-type des valeurs.

1.2. Pourquoi penses-tu que l'on utilise l'expression

plutot que l'expression dans la racine carrée ?

On pèse le même pilulier à l'aide d'une balance qui n'affiche qu'un chiffre décimal, de sorte que l'on obtient maintenant les valeurs : 1.0, 1.0, 1.0, 1.0

1. 3. Quel est alors l'écart-type expérimental ? Ici, si l'on calculait la somme des carrés des écarts à la moyenne, on trouverait qu'elle est nulle, mais on sait bien que l'incertitude n'est pas nulle, puisque les valeurs sont entre 9.95 et 1.05. L'écart est de 0.1. A noter que cette observation est une introduction à la différence entre incertitudes de type A et detype B.

A noter pour tes recherches en ligne : il est bon de bien distinguer la précision et la sensitibilité d'une

nommé échelon.

1. 4. Comment penses-tu que l'on doive alors afficher l'incertitude sur la masse du pilulier ?

Toutefois cette méthode n'est pas toujours praticable, notamment quand la détermination détruit le système matériel original sur lequel s'effectue la détermination. Par exemple, si l'on dose du glucose dans un échantillon d'une carotte particulière, une analyse qui extrairait ce glucose ne pourrait être répétée. Pour apprécier l'incertitude sur la grandeur d'intérêt, on doit alors "propager des incertitudes", en partantd'une détermination des incertitudes élémentaires afférentes à toutes les étapes de l'expérience.

Exercice 2

Considérons, par exemple, le cas élémentaire où l'on prépare une solution en dissolvant une masse m d'un soluté dans une masse M de solvant.

2.1. Qu'est-ce que la concentration massique ? Les grandeurs ont des noms internationalement déterminés par des organismes officiels internationaux. Pour la chimie, l'organisme principal est l'International Union of Pure and AppliedChemistry, IUPAC. La grandeur nommée concentration massique est définie par :

.

Puisque les masses m et M sont incertaines, la concentration massique c l'est aussi, et la question est d'exprimer l'incertitude sur la concentration massique c en fonction des incertitudes avec lesquelles on connaît m et M. A noter que, selon les cas, ces dernières intertitudes seront soit l'écart-type sur leurdétermination, soit la précision d'affichage de l'instrument de mesure (quand cette dernière est faible, et que la dispersion des mesures est nulle).

2.2. Comment déterminerais-tu l'incertitude sur la concentration massique en fonction des incertitudes sur m et M ?

2.3. L'incertitude résultant de l'utilisation d'une droite d'étalonnageAutre exemple, également fréquent lors d'analyses chimiques : si l'on mesure une aire A d'un signal (par exemple, l'aire d'un signal de chromatographie ou de spectroscopie), alors l'utilisation d'une courbe d'étalonnage (en anglais calibration) permet de remonter à la concentration c.

2.3.1. Comment connaître la concentration d'une solution dont on a déterminé l'aire du signal, par une méthode de mesure chromatrique ou spectroscopique, si l'on a établi une droite d'étalonnage ? Puisque l'équation de la droite d'étalonnage est , alors la concentration c d'une

solution qui conduit à l'aire A est donnée par l'égalité .

2.3.2. Souvent, les droites d'étalonnages sont la partie linéaire d'une variation

Pourquoi ne conserve-t-on que la partie linéaire ?

2.3.3. Lors de l'utilisation d'une droite d'étalonnage, les aires étant connues avec incertitude, il y a lieu d'exprimer la concentration c en l'assortissant d'une incertitude. Comment la calculerais-tu ? Observons pour commencer que l'incertitude sur la concentration doit être déterminée à partirdes incertitudes sur la courbe d'étalonnage (exprimée par les coefficients a et b) et sur l'aire A.

Dans tous les cas, il s'agit de considérer la valeur finale que l'on cherche comme une valeur d'une fonction de plusieurs variables.

De ce fait, le problème de la détermination des incertitudes expérimentales est le suivant : connaissant les incertitudes sur les variables, comment déterminer l'incertitude sur la valeur de la fonction de toutes les variables ?

La réponse de la communauté et deux pratiques erronnées

De nombreuses publications métrologiques donnent des guides pour répondre à cette question. Notamment, en 2008, le Joint Committee for Guides in Metrology (JCGM) du Bureau international des poids et mesures (BIPM) a publié un document intitulé

[7], qui décrit très généralement les bonnes pratiques en matière de détermination d'incertitudes de mesure et de composition de ces incertitudes. Il yaura donc lieu de s'y reporter, mais on veut ici exposer simplement la question discutée dans ce document, parce que les faits pédagogiques montrent que les étudiants comprennent souvent mieux quand des exemples sont fournis avant les résultats généraux (un fait qui reste à établir quantitativement).

Exercice 3Considérons le cas simple de la détermination de l'incertitude sur une concentration massique, connaissant l'incertitude sur les masses m et sur M du soluté et du solvant. Que ces incertitudes soient données par un écart-type expérimental ou par la précision d'un instrument de mesure, il est formellement juste de reconnaître que la concentration massique c est une fonction des deux variablesm et M.

3.1. Exprime la différentielle de la concentration massique

3.2. Si tu n'y es pas parvenu, considère la concentration massique comme une fonction c = c(m,M) et exprime la différentielle de cette fonction (sinon passe à 4)

3.3. Si tu n'as pas réussi à faire 3.2

3.1.2.1. Donne l'expression de la différentielle d'une fonction c = c(m)On commence par écrire :

D'où l'on tire :

(3.3.5.1)(3.3.5.1)

(3.3.6.1)(3.3.6.1)

(3.3.5.2)(3.3.5.2)

3.1.2.2. Considère maintenant une fonction c = c(m,M) de deux variables. Si la seconde variable (M) est constante, comment peut s'écrire la différentielle dela fonction?

3.1.2.3. Et si la première variable est constante, que serait la différentielle de lafonction ?

3.1.2.4. Du coup, que serait la différentielle d'une fonction de deux variables ?

3.1.2.5. Calculer la dérivée partielle de la fonction c(m,M)=m/M par rapport à m

1M

3.1.2.6. Calculer la dérivée partielle de la fonction c(m,M)=m/M par rapport à M

3.1.2.7. Exprime la différentielle de c (m, M) en fonction des deux dérivées partielles précédemment calculées

(4.3.1)(4.3.1)

(4.2.1)(4.2.1)

(4.1.2)(4.1.2)

(4.2.2)(4.2.2)

(4.3.2)(4.3.2)

(4.1.1)(4.1.1)

Les documents antérieurs au GUM proposent de passer aux incertitudes en écrivant :

Toutefois le JCGM a retenu l'expression :

Exercice 4On veut montrer ici que les deux pratiques précédentes sont voisines.

4.1. Calcule l'expression |a| + |b| pour les couples (a,b) suivants : (2, 3), (2, 21), (2, -3), (2, -19), (-3, 4), (-3, 23), (-2, -3), (-2, -21)

4.2. Calcule l'expression pour les couples (a,b) suivants : (2,3), (2, 21), (2, -3), (2, -19), (-3, 4), (-3, 23), (-2, -3), (-2, -21)

4.3. Compare les résultats couple à couple. Qu'observes-tu ?

4.4. Peux-tu expliquer ce résultat que tu as obtenu ?

(4.4.1)(4.4.1)

On observe que, pour une des deux valeurs nulle, la différence est nulle. C'est quand les deux grandeurs ont la même valeur que la différence est maximale. Géométriquement, on comprend que la valeur absolue correspond à la somme des modules de deux vecteurs, alors que la racine carrée de la somme du carré de leur module correspond à la diagonale d'un triangle rectangle dont ces vecteurs sont des côtés de l'angle droit. L'hypothénuse est plus petite que la somme des modules.

On retiendra que la différence entre les deux méthodes tient en quelque sorte à la "distance" qui est utilisée. Il existe en effet différentes façon de mesurer un écart. Par exemple, entre Paris et le château de Versailles, Google Maps donne une distance de 22,7 km. Toutefois, cette distance par la route la plus courte n'est pas la distance à vol d'oiseau. De surcroît, alors que le trajet dure 31 minutes pendant la nuit (sans excès de vitesse), il peut durer plus de 2 heures et demie, si on le fait vers 8 heures 45, le matin. Il y a donc lieu de considérer diverses "distances". La distance en "valeurs absolues" est la distance de Manhattan, alors que la racine carrée de la somme des carrés est la distance euclidienne.

On observe que ces deux pratiques sont voisines, mais mettent en oeuvre des distances mathématiques différentes [8] ; de surcroît, quand ce calcul est impraticable, le GUM propose la mise en oeuvre de la méthode de Monte-Carlo [9] (cette méthode est présentée plus loin).

A contrario, il convient d'éviter la pratique suivante : - mesure de et

- puis calcul des valeurs , et détermination d'un écart-type à partir de ces trois valeurs (sans

attendre, on notera qu'il n'y a pas de raison a priori à associer à plutôt qu'à un ). Cette pratique correspond au calcul d'une grandeur et'(c) :

On évitera également la pratique suivante : - mesure de et

- puis détermination des valeurs croisées

- et calcul de l'écart type sur ces de valeurs.

Pour mieux comprendre la raison pour laquelle les deux dernières méthodes sont fautives, on propose d'explorer un exemple numérique : on verra que les deux dernières façons, non conformes aux règles de bonnes pratiques retenues par le BIPM, conduisent à sous-estimer les incertitudes.

Exercice 5Trois valeurs de m et 3 valeurs de M ont été déterminées (en g), à l'aide d'une balance de précision :

5.1. Pour ces deux variables m et M, en considérant que les trois valeurs forment une population (de trois objets, donc), calcule les moyennes (respectivement moym et moyM) et les écarts-types (respectivement ecartpm et ecartpM).

5.2. Considère maintenant les trois valeurs comme un échantillon, et calcule un estimateur de la moyenne et de l'écart-type vrais

(6.1.1)(6.1.1)

5.3. Calcule maintenant l'écart-type tel que préconisé par le GUM

5.4. Compare ce résultat à celui que tu obtiens par une distance de Manhattan (valeurs absolues), à la place de la distance euclidienne (racine carrée de la somme des carrés)Avec une distance de Manhattan à la place de la distance euclidienne, on aurait :

6.041090e-05

La valeur obtenue est du même ordre de grandeur, et un peu supérieure, ce qui est tout à fait admissible, étant donné que l'écart-type d'un échantillon ne donne qu'un ordre de grandeur de l'écart-type réel, comme on le verra plus loin.

Par la méthode de Monte-Carle, enfin, une hypothèse doit être explicitement faite sur la répartition des valeurs de m et de M, puisqu'il s'agit de tirer au hasard des valeurs et de calculer les valeurs correspondantes de c, pour, finalement, déterminer l'écart-type. Le GUM spécifie les conditions d'application de la technique.

Exercice 6

6.1. Pour la troisième méthode, commence par créer une population expérimentale gaussienne de moyenne 1.0017 et d'écart type 0.0000578792 pour m

(7.1)(7.1)

(6.2.1)(6.2.1)

6.2. Puis crée une population expérimentale de moyenne 10 et d'écart-type 0.00173205 pour M

6.3. Tire maintenant au hasard un grand nombre N de fois des valeurs de m et de M (le GUM préconise d'effectuer tirages)

6.4. Calcule les valeurs de c, leur moyenne et leur écart-type

Tu observes que la valeur obtenue est plus petite d'un ordre de grandeur que celles qui sont calculées par la méthode retenue, à partir des dérivées partielles.

Exercice 7. Compare ces valeurs à celles qui seraient données par la première méthode fautive

(7.2)(7.2)

(7.3)(7.3)

On détermine l'écart-type pour ces 3 valeurs :

On observe qu'il y a une différence entre les deux méthodes, mais, surtout, que l'écart-type est plus petit d'un ordre de grandeur pour la méthode qui n'est pas celle qui est préconisée.

Exercice 8. Pour la méthode -également fautive- qui consiste à produire 9 valeurs de la concentration massique

On détermine alors l'écart type pour ces 9 valeurs :

Là encore, le résultat est plus petit d'un ordre de grandeur de celui qui est préconisé par le JCGM. Pourquoi est-ce gênant ? Parce que l'écart-type est une description conventionnelle de la dispersion, comme on peut s'en apercevoir expérimentalement (tout ce qui suit se démontre : voir [5]).

Exercice 9.

9.1. Crée une population normalement distribuée autour d'une valeur 100, avec un écart-type égal à 1.

9.2. Puis à 200 reprises, tire trois échantillons, et calcule chaque fois l'estimateur de l'écart-type de la population.

(7.2)(7.2)

9.3. Affiche ces 200 écart-types

Tu observes que la variabilité est considérable : alors que l'écart-type est fixé à 1, par construction du problème, les écarts-types expérimentaux sont répartis entre 0 et 2. Evidemment, une détermination d'un écart-type expérimental sur plus de 3 valeurs donne un meilleurrésultat.

9.4. Fais les mêmes calculs que précédemment, mais avec 6 tirages

(7.2)(7.2)

9.5. Et avec 15 tirages

(7.2)(7.2)

Cet exercice montre de surcroît les précautions à prendre lors de l'utilisation d'une méthode de Monte-Carlo, et elles justifient de choisir parfois plutôt du répartition des valeurs qui ne soit pas gaussienne, mais rectangulaire [10]. Pourquoi des pratiques qui ne sont pas les bonnes restent-elles parfois utilisées ? On a signalé [1] que l'on ne trouve pas sur Internet de guides complet de bonnes pratiques scientifiques, ce qui semble devoir être une condition au moins nécessaire pour que les scientifiques en aient connaissance, les discutent, et les appliquent le cas échéant. Ici, on n'a considéré qu'un détail de l'activité scientifique : la description des résultats expérimentaux, et seulement sur l'exemple, sans entrer dans des considérations théoriques indispensables, mais on propose de considérer qu'il est sans doute préférable de faire venir la théorie après l'exemple, parce que les apprenants comprennent mieux, alors, l'intérêt des formalismes qu'ils devront ensuite découvrir. Les académies pourraient jouer le rôle de dépositaires de documents utiles à l'activité scientifique, puisque c'est un fait que les institutions scientifiques ne se sont pas données cette mission, et j'appelle évidemment les confrères, et plus généralement les collègues, à abonder dans ce sens par des documents qui dépasseront celui-ci, limité à un cas bien traité par le BIPM.

Références

(7.2)(7.2)

[1] Hervé This, Aidez les enfants !, Lettre de l'Académie d'agriculture de France, N°27, 15 février 2015, pp. 8-9. [2] Hervé This, Cours de gastronomie moléculaire N°1 : Science, technologie, technique (culinaires) : quelles relations ?, Editions Quae/Belin, Paris, 2011. [3] ACS Guidelines for Data Acquisition and Data QUality Evaluation in Environmental Chemistry, Anal. Chem. 1980, 52, 2242-2249 [4] Hervé This, Cours de gastronomie moléculaire N°2 : Les précisions culinaires, Editions Quae/Belin, Paris, 2013. [5] Daniel C. Harris, Quantitative Chemical Analysis, W. H. Freeman and Company, New York, 7e ed, 2007. [6] [7] www.bipm.org, dernier accès 6 avril 2015. [8] Jean-Luc Verley, Espaces métriques, dans Dictionnaire des mathématiques ; algèbre, analyse, géométrie, éd. Albin Michel, Paris, p. 652-653.[9] Christian Robert et George Casella, Monte Carlo Statistical Methods, Springer-Verlag, coll. «

[10] N. Bédiat, Méthode numérique de propagation des incertitudes de mesure (Méthode de Monte Carlo), NTV 06/022, Note technique internet CETIAT, 2006.