Chapitre 4: Mesures de dispersion et mesure de forme stat4.pdf · dans un four et la tête dans une...

22
MESURES DE DISPERSION ET DE FORME 49 3OCMath – Jt 2017 Chapitre 4: Mesures de dispersion et mesure de forme Le statisticien est un homme qui, ayant les pieds dans un four et la tête dans une armoire frigorifique, se considère comme, en moyenne, à la bonne température! Introduction Le chapitre précédent a été consacré à l'étude des mesures de tendance centrale. Elles indiquent autour de quelle valeur se situent les données, mais ne donnent pas une description suffisante de la variable statistique. Par exemple, si on désire comparer les 2 groupes d'élèves proposés dans les diagrammes ci-dessous: x = …… x = …… Mais pourtant, les 2 distributions ne sont pas identiques. Les distributions peuvent être comparées à une douche. Si elle est en position « jet étroit », presque toute l’eau est concentrée sur un seul point, c’est-à-dire le jet n’arrose pratiquement que la valeur moyenne. Si la douche est en position « pluie », l’eau est dispersée plus largement : il y a de grands écarts par rapport à la moyenne. 1 Pour mettre en évidence cette différence, il faut mesurer la dispersion des données autour de cette mesure de tendance centrale. Nous allons étudier quelques mesures de dispersions. 1 Illustrations de Peter Fejes : Statistiques (les stats en bulles) / Pearson Education

Transcript of Chapitre 4: Mesures de dispersion et mesure de forme stat4.pdf · dans un four et la tête dans une...

MESURES DE DISPERSION ET DE FORME 49

3OCMath – Jt 2017

Chapitre 4: Mesures de dispersion et mesure de forme

Le statisticien est un homme qui, ayant les pieds dans un four et la tête dans une armoire frigorifique, se considère comme, en moyenne, à la bonne température!

Introduction

Le chapitre précédent a été consacré à l'étude des mesures de tendance centrale. Elles indiquent autour de quelle valeur se situent les données, mais ne donnent pas une description suffisante de la variable statistique. Par exemple, si on désire comparer les 2 groupes d'élèves proposés dans les diagrammes ci-dessous:

x =…… x =…… Mais pourtant, les 2 distributions ne sont pas identiques. Les distributions peuvent être comparées à une douche. Si elle est en position « jet étroit », presque toute l’eau est concentrée sur un seul point, c’est-à-dire le jet n’arrose pratiquement que la valeur moyenne. Si la douche est en position « pluie », l’eau est dispersée plus largement : il y a de grands écarts par rapport à la moyenne.

1

Pour mettre en évidence cette différence, il faut mesurer la dispersion des données autour de cette mesure de tendance centrale. Nous allons étudier quelques mesures de dispersions.

1 Illustrations de Peter Fejes : Statistiques (les stats en bulles) / Pearson Education

50 CHAPITRE 4

3OCMath – Jt 2017

§4.1 Les mesures de dispersion absolue

L'étendue:

L'étendue d'une variable discrète est la différence entre la plus grande et la plus petite modalité. Il n'y a pas de notation particulière pour l'étendue.

L'étendue d'une variable continue est la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe.

L'écart moyen:

L'écart moyen EM est la moyenne pondérée des valeurs absolues des écarts à la moyenne:

EM =1

Nni xi − x

i=1

k

∑ = f i xi − x i=1

k

Question: Pourquoi doit-on considérer cette valeur absolue ?

Ne pourrait-on pas définir une mesure de dispersion par f i xi − x ( )i=1

k

∑ ?

L'écart interquartile:

L'écart interquartile est l'écart entre le 1er et le 3ème quartile:

Q = Q3 – Q1

La variance:

La variance σ2 d'une variable statistique est la moyenne pondérée des carrés des écarts à la moyenne:

σ2 =1

Nni xi − x ( )2

i=1

k

∑ = f i xi − x ( )2i=1

k

L'écart-type:

L'écart-type σ est la racine carrée de la variance: σ = σ2

Exercice 4.1:

En reprenant la situation d'introduction:

Calculer les différentes mesures de dispersion.

MESURES DE DISPERSION ET DE FORME 51

3OCMath – Jt 2017

Modèle 1:

V.S quantitative discrète

Alain qui est gardien de but de l'équipe de hockey de son école, note évidemment le nombre de buts encaissés à chaque match. Il a résumé sa dernière saison dans le tableau ci-dessous:

xi ni fi Fi fi xi 0 5 0,093 0,093 0,000 0,242 0,631 1 12 0,222 0,315 0,222 0,358 0,577 2 14 0,259 0,574 0,519 0,158 0,097 3 8 0,148 0,722 0,444 0,058 0,022 4 7 0,130 0,852 0,519 0,180 0,250 5 4 0,074 0,926 0,370 0,177 0,423 6 2 0,037 0,963 0,222 0,126 0,425 7 1 0,019 0,981 0,130 0,081 0,357 10 1 0,019 1 0,185 0,137 1,011

TOTAUX 54 1 2,611 1,516 3,793 Calculer les mesures de dispersion de cette distribution.

Exercice 4.2:

La compagnie TEHOU a révélé les chiffres des absences de ses employés syndiqués pour le mois dernier:

Nombre de jours

d'absence Nombre

d'employés 0 36 1 42 2 20 3 11 4 3 5 2 12 1

a) Calculer l'étendue, l'écart moyen et l'écart interquartile. b) Calculer la proportion des employés ayant manqué plus de

deux jours de travail.

Indication: la fonction = abs(…) d'OpenOffice permet de calculer la valeur absolue d'un nombre.

52 CHAPITRE 4

3OCMath – Jt 2017

Modèle 2:

V.S quantitative continue

Le magasin de vêtements ROBA étudie depuis 90 jours ses ventes de jupes. Les données recueillies ont été regroupées en classes:

[bi-1 ; bi[ xi ni fi Fi fi xi [12 ; 16[ 14 5 0,056 0,056 0,778 0,711 9,102 [16 ; 20[ 18 11 0,122 0,178 2,200 1,076 9,465 [20 ; 24[ 22 16 0,178 0,356 3,911 0,853 4,096 [24 ; 28[ 26 21 0,233 0,589 6,067 0,187 0,149 [28 ; 32[ 30 15 0,167 0,756 5,000 0,533 1,707 [32 ; 36[ 34 12 0,133 0,889 4,533 0,960 6,912 [36 ; 40[ 38 8 0,089 0,978 3,378 0,996 11,150 [40 ; 44[ 42 2 0,022 1 0,933 0,338 5,134

TOTAUX : 90 1 26,8 5,653 47,716

Calculer les mesures de dispersion de cette distribution.

Exercice 4.3:

André a pris en note le coût de son marché hebdomadaire pendant 50 semaines. Il a regroupé ses données en classes :

Coût en Euros Nombre de semaines

[40 ; 50[ 1 [50 ; 60[ 2 [60 ; 70[ 4 [70 ; 80[ 6 [80 ; 90[ 23 [90 ; 100[ 7 [100 ; 110[ 4 [110 ; 120[ 2 [120 ; 130[ 1

a) Calculer l'étendue, l'écart moyen et l'écart interquartile. b) Calculer la proportion des marchés dont le coût excède 100 €.

MESURES DE DISPERSION ET DE FORME 53

3OCMath – Jt 2017

Exercice 4.4:

Calculer la variance et l'écart-type.

Modalités Effectifs

25 4 30 8 35 11 38 15 41 18 52 12 55 7 60 5

Formule de Koenig:

Samuel Koenig

mathématicien allemand (1712-1757)

Nous venons de calculer des écarts-types en nous référant à la définition. Cependant, ce calcul risque de devenir laborieux si la moyenne n'est pas un nombre entier : on a à traiter des "écarts à la moyenne" non entiers avec d'inévitables arrondis, d'où des calculs lourds et forcément peu précis. Pour alléger ces calculs, on utilise plutôt une des formules suivantes:

σ2 = fi xi − x ( )2i=1

k

∑ est "remplacé" par σ2 = f ixi2

i=1

k

∑⎛

⎝ ⎜

⎠ ⎟ − x 2

σ2 =1

Nni xi − x ( )2

i=1

k

∑ est "remplacé" par σ2 =1

Nnixi

2

i=1

k

∑⎛

⎝ ⎜

⎠ ⎟ − x 2

la variance = la moyenne des carrés – le carré de la moyenne

Preuve:

On ajoute au tableau de distribution des effectifs la colonne des

termes fixi2 en lieu et place des termes fi xi − x ( )2 et on

applique la formule de Koenig.

54 CHAPITRE 4

3OCMath – Jt 2017

Modèle 3:

En reprenant le modèle précédent:

[bi-1 ; bi[ xi ni fi Fi fi xi fi xi

2

[12 ; 16[ 14 5 0,056 0,056 0,778 0,711 9,102 10,889 [16 ; 20[ 18 11 0,122 0,178 2,200 1,076 9,465 39,600 [20 ; 24[ 22 16 0,178 0,356 3,911 0,853 4,096 86,044 [24 ; 28[ 26 21 0,233 0,589 6,067 0,187 0,149 157,733 [28 ; 32[ 30 15 0,167 0,756 5,000 0,533 1,707 150,000 [32 ; 36[ 34 12 0,133 0,889 4,533 0,960 6,912 154,133 [36 ; 40[ 38 8 0,089 0,978 3,378 0,996 11,150 128,356 [40 ; 44[ 42 2 0,022 1 0,933 0,338 51,340 39,200

TOTAUX : 90 1 26,8 5,653 47,716 765,956

Ainsi la variance vaut:

Exercice 4.5:

Calculer la variance et l'écart-type.

Classes Effectifs [6 ; 10[ 2 [10 ; 14[ 9 [14 ; 18[ 16 [18 ; 22[ 15 [22 ; 26[ 7 [26 ; 30[ 1

Exercice 4.6:

Une étude des salaires annuels des employés d'une grande compagnie a donné les résultats suivants:

Classe Effectifs

[20'000 ; 22'000[ 80 [22'000 ; 24'000[ 130 [24'000 ; 26'000[ 340 [26'000 ; 28'000[ 210 [28'000 ; 30'000[ 120 [30'000 ; 36'000[ 120

a) Calculer les mesures de tendance centrale. b) Calculer la variance et l'écart-type.

MESURES DE DISPERSION ET DE FORME 55

3OCMath – Jt 2017

Exercice 4.7:

Pourquoi n'est-il pas possible d'avoir pour une variable

statistique fixi2

i=1

k

∑ =10 et fixii=1

k

∑ = 5 ?

Exercice 4.8:

La maison de jeu PROBA a demandé à son croupier de noter pendant 60 jours consécutifs combien de fois par jour on obtient le 00 au jeu de la roulette. Le croupier a présenté les données suivantes:

Nombre de 00 par jour 7 8 9 10 11 12 13 14 15 16

Nombre de jours 1 3 6 9 14 11 7 6 2 1

a) Calculer les mesures de tendance centrale. b) Calculer la variance et l'écart-type.

Exercice 4.9:

Claude s'entraîne dans le but de participer à une course d'un kilomètre. Il a noté pour chacune de ses 60 dernières courses d'entraînement son temps en secondes:

261 265 269 273 276 277 281 284 285 287

262 266 271 274 276 278 281 284 286 288

262 266 271 274 276 278 282 284 286 290

263 266 272 275 276 278 282 284 287 290

264 266 272 275 276 279 282 285 287 290

265 268 272 275 277 279 282 285 287 292

Regrouper les données en classes de largeur 5 en prenant b0 = 260. Construire le tableau complet de distribution des fréquences. a) Calculer les mesures de tendance centrale. b) Calculer l'écart-type et l'écart moyen.

§4.2 Choix et comparaison des mesures de dispersion absolue

Le choix de la mesure de tendance centrale implique le choix de la mesure de dispersion:

mode ↔ étendue médiane ↔ écart interquartile moyenne ↔ écart-type ou écart moyen Les 5 mesures que nous venons de définir visent un même objectif: mesurer la dispersion des valeurs d'une variable statistique. Elles ont de par leur définition des caractéristiques, des avantages et des inconvénients. L'objectif du prochain exercice est de les reconnaître selon leurs caractéristiques.

56 CHAPITRE 4

3OCMath – Jt 2017

Exercice 4.10:

1ère mesure:

2ème mesure:

3ème mesure:

4ème mesure:

5ème mesure:

De quelle mesure parle-t-on? Elle tient compte de toutes les données et elle accorde le même poids à chacun des écarts; elle est donc moins influencée que la variance par les données extrêmes. Elle se prête mal aux manipulations algébriques. Elle est simple à calculer et à interpréter. Elle ne tient pas compte de toutes les données; elle n'est donc pas influencée par les données extrêmes. Elle est utilisée lorsque la distribution des valeurs est fortement dissymétrique. Dans ce cas, on utilise la médiane comme mesure de tendance centrale. Son calcul est plus long et son interprétation est moins immédiate. Elle tient compte de toutes les données. Elle se prête bien aux manipulations algébriques. Le carré des écarts accorde du poids aux grands écarts; elle est ainsi fortement influencée par les données extrêmes. Elle est, avec l'écart-type, la mesure de dispersion la plus utilisée. Elle est très simple à calculer et à interpréter. Elle ne tient pas compte de toutes les données; elle n'utilise que les valeurs extrêmes. Elle est utilisée pour donner une idée sommaire et rapide de la dispersion et pour déterminer les largeurs de classes lorsqu'on fait un regroupement en classes. Elle a les mêmes caractéristiques que la variance. Elle est, avec la variance, la mesure de dispersion la plus utilisée.

Exercice 4.11:

Calculer les mesures de tendance centrale et de dispersion des données suivantes:

Classe Effectifs

[32 ; 38[ 16 [38 ; 44[ 186 [44 ; 50[ 191 [50 ; 56[ 196 [56 ; 62[ 221 [62 ; 68[ 121 [68 ; 74[ 69

MESURES DE DISPERSION ET DE FORME 57

3OCMath – Jt 2017

§4.3 Mesures de dispersion relative

Pour caractériser la distribution des valeurs d'une variable statistique, on utilise généralement une mesure de tendance centrale et une mesure de dispersion. On peut donner par exemple la médiane et l'intervalle interquartile. Dans la grande majorité des cas, on caractérise la distribution des valeurs par la moyenne et l'écart-type. Si l'écart-type d'une variable est égal à 10, peut-on dire que les données sont très dispersées? Bien sûr, cela dépend de l'ordre de grandeur des données. Il est donc nécessaire parfois de mesurer la dispersion relative.

Le coefficient de variation

Le coefficient de variation CV d'une variable statistique est le ratio entre l'écart-type et la moyenne exprimé sous la forme d'un pourcentage:

CV =σx

Le coefficient de variation est un indicateur de l'homogénéité de la population. On considère qu'un coefficient de variation inférieur à 15% indique que la population est homogène, tandis qu'un coefficient supérieur à 15% indique que les valeurs sont relativement dispersées. Le coefficient de variation est une mesure sans unité et indépendante de l'ordre de grandeur. On peut donc l'utiliser pour comparer la dispersion de variables statistiques avec des ordres de grandeur et des unités différentes.

Modèle 4:

Calculer le coefficient de variation dans le cas d'une V.S discrète

xi ni fi fi xi fi xi

2 0 5 0,093 0,000 0,000 1 12 0,222 0,222 0,222 2 14 0,259 0,519 1,037 3 8 0,148 0,444 1,333 4 7 0,130 0,519 2,074 5 4 0,074 0,370 1,852 6 2 0,037 0,222 1,333 7 1 0,019 0,130 0,907 10 1 0,019 0,185 1,852

TOTAUX 54 1 2,611 10,611

58 CHAPITRE 4

3OCMath – Jt 2017

Modèle 5:

Calculer le coefficient de variation dans le cas d'une V.S continue

[bi-1 ; bi[ xi ni fi fi xi fi xi2

[12 ; 16[ 14 5 0,056 0,778 10,889 [16 ; 20[ 18 11 0,122 2,200 39,600 [20 ; 24[ 22 16 0,178 3,911 86,044 [24 ; 28[ 26 21 0,233 6,067 157,733 [28 ; 32[ 30 15 0,167 5,000 150,000 [32 ; 36[ 34 12 0,133 4,533 154,133 [36 ; 40[ 38 8 0,089 3,378 128,356 [40 ; 44[ 42 2 0,022 0,933 39,200

TOTAUX : 90 1 26,800 765,956

Exercice 4.12:

Lise et Michel sont deux professeurs de statistiques. Chacun a fait passer à ses élèves un examen sur la statistique descriptive. Lise a corrigé sur 100 points et Michel sur 50 points.

Classe de Lise 42 53 60 67 75 83 86 93

46 56 61 67 78 83 86 95

47 58 61 68 81 84 88 96

48 59 64 69 81 85 88 97

51 60 66 73 81 86 91 98

Classe de Michel 20 28 37 39 41 42 45 48 50

21 30 38 39 42 43 46 48

25 33 39 40 42 43 47 48

27 35 39 40 42 43 47 49

28 36 39 40 42 44 47 49

Déterminer la classe la plus homogène. Largeur des classes: • 10 pour la classe de Lise; • 5 pour celle de Michel.

MESURES DE DISPERSION ET DE FORME 59

3OCMath – Jt 2017

§4.4 L'inégalité de Bienaymé – Tchebychev

Irénée-Jules Bienaymé mathématicien français

(1796-1878)

Pafnouti Tchebychev mathématicien russe

(1821-1894)

Dans la définition même de l'écart-type, on retrouve la moyenne. Il semble donc naturel de croire qu'il y a une relation entre l'écart-type et la moyenne. On sait que plus l'écart-type est petit plus les données sont concentrées autour de la moyenne. On peut préciser davantage cette relation dans une version "faible" de l'inégalité de Bienaymé-Tchebychev:

La proportion des données comprises dans l'intervalle

] x − k ⋅σ ; x + k ⋅σ [ est supérieure à 1−1

k2 (pour k ≥ …)

k = 2 ] x − 2 ⋅ σ ; x + 2 ⋅ σ [ 1−1

22=3

4= 75%

k = 3 ] x − 3 ⋅ σ ; x + 3⋅ σ [ 1−1

32=8

9≅ 89%

Exercice 4.13:

On considère la v.s. correspondant aux montants des factures d'un restaurant lausannois (par pers.). a) Calculer x et σ . b) Utiliser théorème de Bienaymé-Tchebychev pour les valeurs

de k comprises entre 2 et 5. c) Utiliser la courbe des fréquences cumulées donnée ci-dessous

pour estimer les proportions réelles des données comprises dans les intervalles ] x − k ⋅σ ; x + k ⋅σ [ pour k compris entre 1 et 5.

d) Comparer.

Montant de la facture

Nombre de factures

[0 ; 10[ 12

[10 ; 20[ 28

[20 ; 30[ 63

[30 ; 40[ 46

[40 ; 50[ 20

[50 ; 60[ 16

[60 ; 70[ 11

[70 ; 100[ 4

60 CHAPITRE 4

3OCMath – Jt 2017

Exercice 4.14:

On considère une variable statistique telle que x = 50 et σ = 5. Quelle est la proportion minimum de données que l'on retrouve dans l'intervalle [35 ; 65] ?

§4.5 Mesures de forme: coefficients de dissymétrie

Introduction:

On peut chercher à caractériser la forme d'une distribution de fréquences au moyen de coefficients appropriés. On comparera volontiers ces distributions de fréquences avec celle obtenue, par le fruit du hasard, en faisant tomber des billes sur une grille ajourée. Le polygone des fréquences "lissé" admet une forme caractéristique de courbe en cloche. Une telle situation est appelée "loi normale".

Les distributions peuvent aussi présenter une asymétrie ou un aplatissement par rapport à la courbe normale. Les deux types de mesures de forme sont les mesures d'asymétrie ou de dissymétrie et les mesures d'aplatissement.

La distribution des valeurs est symétrique si le polygone des fréquences est symétrique par rapport à un axe vertical passant par son sommet. Dans un tel cas, le mode, la médiane et la moyenne se confondent.

MESURES DE DISPERSION ET DE FORME 61

3OCMath – Jt 2017

La distribution des valeurs est dissymétrique à droite si la portion du polygone des fréquences située à droite du sommet est plus longue que l'autre.

Dans ce cas M0 < M < x

La distribution des valeurs est dissymétrique à gauche si la portion du polygone des fréquences située à gauche du sommet est plus longue que l'autre.

Dans ce cas x < M < M0

Le coefficient de dissymétrie de Pearson :

Karl Pearson mathématicien britannique

(1857 -1936)

Il existe différentes manières de caractériser et de mesurer la dissymétrie. Karl Pearson a proposé de définir un coefficient de dissymétrie basé sur les écarts entre les mesures de tendance centrale. Il a observé que dans les distributions des valeurs modérément dissymétriques, la distance entre la moyenne et le mode est approximativement le triple de la distance entre la moyenne et la médiane. Il a donc proposé, ce que l'on appelle maintenant le coefficient de dissymétrie de Pearson :

β1 =3 x − M( )

σ

Il divise par l'écart-type pour avoir une mesure de dissymétrie relative indépendante de l'unité de mesure. La distribution des valeurs est symétrique quand ce coefficient est nul. Elle a une dissymétrie à droite ou à gauche suivant le signe du coefficient de dissymétrie. Sa valeur est généralement comprise entre -1 et +1: β1 < 0 distribution dissymétrique à gauche β1 = 0 distribution symétrique β1 > 0 distribution dissymétrique à droite

62 CHAPITRE 4

3OCMath – Jt 2017

Exercice 4.15:

La discothèque PDO a commandé une étude sur l'âge de ses clients. Les résultats sont présentés sous la forme du tableau de distribution des fréquences:

Groupes d'âges Effectifs

[16 ; 18[ 121

[18 ; 20[ 364

[20 ; 22[ 206

[22 ; 24[ 115

[24 ; 26[ 87

[26 ; 28[ 50

[28 ; 30[ 36

[30 ; 50[ 21

a) Calculer l'âge médian, l'âge moyen et l'écart-type. b) Calculer le coefficient de dissymétrie de Pearson. Interpréter,

puis comparer avec son histogramme

Exercice 4.16:

Voici des histogrammes ainsi que des diagrammes à moustaches montrant des situations éventuellement dissymétriques. Associer chaque dissymétrie à son histogramme et à son diagramme:

dissymétrie à gauche – dissymétrie à droite – symétrie symétrie – dissymétrie à droite

MESURES DE DISPERSION ET DE FORME 63

3OCMath – Jt 2017

Le coefficient de dissymétrie de Yule – Kendall :

George Yule mathématicien britannique

(1871 –1951)

Maurice Kendall mathématicien britannique

(1907-1983)

Yule et Kendall ont proposé de définir un coefficient de dissymétrie basé sur la position relative des quartiles. Dans une distribution symétrique, les quartiles sont situés à égale distance de chaque côté de la médiane. Par conséquent:

Q3 −Q2( ) − Q2 −Q1( ) = 0

Si la distribution est dissymétrique, l'égalité ci-dessus n'est plus vraie. L'expression de gauche sera positive ou négative suivant le sens de l'asymétrie. Pour obtenir un coefficient d'asymétrie indépendant de l'unité de mesure, ils utilisent un ratio. Le coefficient dissymétrie de Yule et Kendall mesure l'asymétrie à partir de la position relative des quartiles par rapport à la médiane:

CY =Q3 +Q1 − 2Q2

Q3 −Q1

La valeur du coefficient de Yule et Kendall est toujours comprise entre -1 et +1 et son signe indique le sens de l'asymétrie : - 1 ≤ CY < 0 distribution dissymétrique à gauche CY = 0 distribution symétrique 0 < CY ≤ 1 distribution dissymétrique à droite

Exercice 4.17:

Reprendre les données numériques de l'exercice 4.15 afin d'en calculer le coefficient de dissymétrie de Yule et Kendall, puis interpréter la valeur obtenue.

Exercice 4.18:

Dans quel cas CY = -1 ? CY = 0 ? CY = 1 ? Démontrer: -1 ≤ CY ≤ 1

64 CHAPITRE 4

3OCMath – Jt 2017

Le coefficient de dissymétrie de Fischer :

Ronald Fischer mathématicien britannique

(1890-1962)

Ronald Fischer a proposé un coefficient basé sur les écarts par rapport à la moyenne des valeurs en utilisant le moment centré d'ordre 3. Il est difficile de justifier intuitivement le coefficient de dissymétrie de Fischer :

γ1 =μ3σ3

où μ3 = fi xi − x ( )3i=1

k

et σ = σ2 = μ2 = fi xi − x ( )2i=1

k

∑ écart-type

Le signe du coefficient de Fischer indique le sens de la dissymétrie : γ1 < 0 distribution dissymétrique à gauche γ1 = 0 distribution symétrique γ1 > 0 distribution dissymétrique à droite

Exercice 4.19:

Reprendre les données numériques de l'exercice 4.15 afin d'en calculer le coefficient de dissymétrie de Fischer, puis interpréter la valeur obtenue.

Remarque importante:

Les résultats varient considérablement d'un coefficient d'asymétrie à l'autre. Ils permettent de comparer deux ou plusieurs distributions. Il est alors évident que les comparaisons doivent être faites avec le même coefficient.

Exercice 4.20:

Diane a demandé à chacun de ses élèves d'apprécier son enseignement en lui donnant une note entre 1 et 10. Les résultats sont condensés dans le tableau:

Note 4 5 6 7 8 9

Nombre d'élèves 1 3 6 15 12 3

a) Calculer la note médiane et la note moyenne. b) Calculer l'écart-type. c) Calculer le coefficient de variation. Interpréter. d) Calculer tous les coefficients de dissymétrie. Interpréter. e) Visualiser le tout sur un histogramme.

MESURES DE DISPERSION ET DE FORME 65

3OCMath – Jt 2017

§4.5 Mesures de forme: coefficients d'aplatissement

Le coefficient d'aplatissement de Pearson :

Les mesures d'aplatissement font partie des mesures qui caractérisent la forme d'une distribution. Elles caractérisent le degré d'aplatissement de la distribution par rapport à l'aplatissement de la distribution normale («courbe en cloche»2). Il est alors utile de pouvoir mesurer si la forme de la distribution présente une déviation par rapport à l'aplatissement de la distribution normale. Une distribution est platicurtique ou hyponormale si la courbe est plus aplatie que la courbe normale; elle est leptocurtique ou hypernormale si la courbe est plus pointue que la courbe normale.

Pour mesurer l'aplatissement de la courbe, on utilise le coefficient β2 de Pearson basé sur le moment centré d'ordre 4:

β2 =μ4σ4

où μ4 = fi xi − x ( )4i=1

k

∑ et σ2 =μ2 = fi xi − x ( )2i=1

k

∑ variance

β2 > 3 courbe leptocurtique ou hypernormale β2 = 3 courbe normale β2 < 3 courbe platicurtique ou hyponormale

2 La courbe "en cloche" de Gauss représentée ci-dessus correspond à la courbe représentative de f (x) =

1

2πe−(x−a )2

2

66 CHAPITRE 4

3OCMath – Jt 2017

Exercice 4.21:

Voici la distribution des tarifs horaires des électriciens de l'association CHOC

Tarif horaire Nombre de membres

[20 ; 23[ 66

[23 ; 26[ 244

[26 ; 29[ 321

[29 ; 32[ 506

[32 ; 35[ 113

[35 ; 38[ 46 [38 ; 41[ 13

Calculer le coefficient d'aplatissement de Pearson.

Exercice 4.22:

Voici la distribution du nombre d'élèves par classe pour l'ensemble des gymnases d'un canton:

Nombre d'élèves

par classe Nombre de classe

16 8

17 17

18 33

19 128

20 206

21 173

22 85

23 72

24 51 25 14

Calculer le coefficient de variation, les coefficients de dissymétrie et de forme. Interpréter.

MESURES DE DISPERSION ET DE FORME 67

3OCMath – Jt 2017

§4.7 Transformation affine d'une variable statistique

Exemple d'intro:

Un professeur de statistique a fait passer un examen à ses étudiants. La correction a été faite sur une échelle de 50. Les résultats sont donnés dans le tableau suivant:

[bi-1 ; bi[ xi ni fi Fi [5 ; 10[ 7,5 8 0,103 0,103 [10 ; 15[ 12,5 16 0,205 0,308 [15 ; 20[ 17,5 30 0,385 0,692 [20 ; 25[ 22,5 12 0,154 0,846 [25 ; 30[ 27,5 7 0,090 0,936 [30 ; 35[ 32,5 4 0,051 0,987 [35 ; 40[ 37,5 1 0,013 1

TOTAUX 78 1

Voulant obtenir des notes sur 100, il décide de doubler chaque résultat. Il se rend compte que les résultats sont très faibles et ajoute encore 10 points à chaque note. Si on désigne la note obtenue à l'examen par X et par Y la note transformée, on a Y = …………

Pour bien saisir les effets de la transformation affine, distinguons bien les deux étapes. La première étape consiste à doubler les notes. Soit W = …… la nouvelle variable. Considérons la distribution des fréquences de W:

[bi-1 ; bi[ wi ni fi Fi [10 ; 20[ 15 8 0,103 0,103 [20 ; 30[ 25 16 0,205 0,308 [30 ; 40[ 35 30 0,385 0,692 [40 ; 50[ 45 12 0,154 0,846 [50 ; 60[ 55 7 0,090 0,936 [60 ; 70[ 65 4 0,051 0,987 [70 ; 80[ 75 1 0,013 1

TOTAUX 78 1 On modifie les bornes des classes de manière à retrouver le même regroupement en classes. Les effectifs et les fréquences ne sont pas modifiés; seules les bornes des classes et les milieux des classes sont multipliés par le facteur 2. Ajoutons maintenant la seconde étape de la transformation en ajoutant 10 points aux notes doublées. Soit Y = ……… = 2X + 10 la nouvelle variable obtenue. Considérons la distribution:

68 CHAPITRE 4

3OCMath – Jt 2017

[bi-1 ; bi[ yi ni fi Fi [20 ; 30[ 25 8 0,130 0,103 [30 ; 40[ 35 16 0,205 0,308 [40 ; 50[ 45 30 0,385 0,692 [50 ; 60[ 55 12 0,154 0,846 [60 ; 70[ 65 7 0,090 0,936 [70 ; 80[ 75 4 0,051 0,987 [80 ; 90[ 85 1 0,013 1

TOTAUX 78 1

Encore une fois les effectifs et les fréquences demeurent les mêmes alors que les bornes des classes et les milieux des classes augmentent de 10 unités. Observons maintenant graphiquement, sur un polygone des fréquences, l'effet des 2 étapes de cette transformation affine :

Tous les points du polygone des fréquences conservent la même ordonnée, mais

l'abscisse est multipliée par 2.

Le polygone des fréquences est tout à fait identique au précédent, mais il est

déplacé de 10 unités vers la droite.

En résumé:

Le facteur b d'une transformation affine Y = aX + b translate horizontalement la distribution et le polygone des fréquences, alors que le facteur a dilate horizontalement (ou contracte si a < l), la distribution et le polygone des fréquences. Les mêmes observations sont valables pour l'histogramme.

Observons l'effet de cette transformation affine sur quelques mesures de tendance centrale et de dispersion:

X

W

Y

x 18,36 w 36,72 y 46,72 M0(X) 17,69 M0(W) 35,38 M0(Y) 45,38 M(X) 17,44 M(W) 34,88 M(Y) 44,88 σX2 38,34 σW

2 153,36 σY2 153,36

σX 6,19 σW 12,38 σY 12,38

MESURES DE DISPERSION ET DE FORME 69

3OCMath – Jt 2017

Théorème:

Soit X une variable statistique quantitative et Y = aX + b une transformation affine.

1) M0(Y) = a · M0(X) + b 2) M(Y) = a · M(X) + b 3) y = a ⋅ x + b 4) Étendue de Y = a · Étendue de X 5) EM(Y) = a · EM(X) 6) σY

2 = a2 ⋅ σX2

7) σY = a ⋅ σX 8) Q(Y) = a · Q(X)

Preuve de y = a ⋅ x + b:

Modèle 6:

Soit X une variable statistique et la transformation affine: Y = 1000x + 500.

Déduire directement les mesures de tendance centrale et de dispersion de la variable Y de celles de X:

x =18,5 ⇒ y = σX2 = 3,45 ⇒ σY

2 = σX =1,86 ⇒ σY =

70 CHAPITRE 4

3OCMath – Jt 2017

Exercice 4.23:

L'association des locataires du quartier fait une étude sur le prix des loyers. L'association a recueilli les données suivantes:

Prix du loyer Nombre de logements

455 8

465 16

475 25

485 34

495 23

505 11

515 5

a) Calculer le prix moyen, l'écart-type et l'écart moyen. b) Si tous les propriétaires réunis en association décident

d'augmenter les prix de 10 % pour parer à l'augmentation générale des coûts et, en plus, d'un montant de Fr 20.- pour couvrir une taxe spéciale, quels seront le nouveau prix moyen et le nouvel écart-type ?

Exercice 4.24:

On désire effectuer une mini-étude statistique sur la température (en [°] Fahrenheit) mesurée au centre d’une grande ville américaine et ceci entre le mois d’avril et le mois de septembre.

Avril Mai Juin Juillet Août Septembre 52,5 62,7 71,6 76,8 75,5 68,2

a) Calculer la température moyenne, l’écart-type3.

b) Cette étude devant être publiée en Europe, il s’agit de transcrire ces informations en [°] Celsius à l’aide de la formule :

C = 59(F – 32).

Calculer alors la moyenne, l’écart-type en [°] Celsius.

Exercice 4.25:

Soit X une variable statistique quantitative et Y = ax + b une transformation affine. Démontrer les formules suivantes: a) σY

2 = a2 ⋅ σX2 b) σY = a ⋅ σX

3 Savez-vous que votre calculatrice admet un mode statistique qui vous permet directement de calculer ces valeurs attendues ?? N'hésitez pas à me le demander !!

EchelleCelsius

EchelleFahrenheit

100

C F

212

32

–148–100

0