Post on 21-Jun-2022
STATISTIQUE DESCRIPTIVE MES 2018-2019
2
« L'objet de la méthode statistique est la réduction des données. Une
masse de données doit être remplacée par un petit nombre de quantités
représentant correctement cette masse, et contenant autant que possible la
totalité de l'information pertinente contenue dans les données d'origine. Cet
objectif est accompli par la construction d'une population infinie hypothétique.
La statistique comporte des problèmes de spécification apparaissant à travers
le choix de la forme mathématique de la population, des problèmes
d'estimation, impliquant le choix de méthodes de calcul de quantités dérivées
de l'échantillon, que nous appellerons statistiques, construites pour estimer les
valeurs des paramètres de la population hypothétique, et enfin des problèmes
de distribution ».
FISCHER
STATISTIQUE DESCRIPTIVE MES 2018-2019
3
INTRODUCTION
Dans une acception précise et scientifique, on appelle statistique une
mesure calculée à partir de données provenant d’un échantillon. Dans une
acception plus globale, la notion de statistique représente l’ensemble de la
théorie statistique qui traite des propriétés des populations dans leurs
ensembles.
L'apparition du mot « statistique » lui-même est relativement récente,
surtout en comparaison de l'activité correspondante de recueil des données,
qui remonte à la plus haute antiquité. On associe souvent la création du
terme statistique, issu du latin statisticum : qui a trait à l'Etat, à l’école
allemande de Gottingue, et plus particulièrement à Gottfried Achenwall
(1746). Il est plus probable cependant que ce dernier a seulement été le
premier à proposer un enseignement traitant de statistique. L'emploi du mot
est plus ancien puisque l'on possède une Biblioteca Statistica datant de 1701
et un Microscopium Statisticum de 1672. En remontant plus encore dans le
temps, le mot statistique appartient au langage administratif français
colbertien : Jean Meyer mentionne l'existence d'une déclaration des biens,
charges, dettes et statistiques des communautés de la généralité de
Bourgogne établie par Claude Bouchu, intendant de Bourgogne, de 1666 à
1669.
Par contre, l'apparition du besoin statistique de posséder des données
chiffrées précède sa dénomination de plusieurs millénaires. A son origine, il
est le fait de chefs d'Etat (ou de ce qui en tient lieu à l’époque) désireux de
connaître des éléments de leur puissance : population, potentiel militaire,
richesses, etc. L’idée de recensement, ou de liste d'inventaire, apparaît donc
de façon tout à fait naturelle dans l’histoire, impliquant en outre une
impression de précision de la plus haute qualité. Dans cette perspective, le
terme statistique ou statistiques est utilisé pour indiquer un ensemble de
données disponibles à propos d’un phénomène déterminé.
Dans une acception plus moderne et plus complète du mot, la
statistique est considérée comme une discipline ayant trait à des données
numériques. Elle comprend un ensemble de techniques devant conduire à
l’acquisition de connaissances générales à partir de données incomplètes, à
partir d’un système scientifique rigoureux guidant le recueil de données, leur
organisation, leur analyse et leur interprétation, pour autant qu’on puisse
leur donner une forme numérique. On distingue deux sous-ensembles de
techniques :
• celles relatives à la statistique descriptive ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
4
• celles relatives à la statistique inférentielle.
Le but essentiel des statistiques descriptives est de représenter
l’information d’une façon compréhensible et utilisable. La statistique
inférentielle, de son côté, a pour fonction d’aider à la généralisation de cette
information ou, plus spécifiquement, de faire des inférences (à propos des
populations) basées sur des échantillons de ces populations. D'une manière
générale, il s'agit donc d'induire du particulier au général. Le plus souvent,
ce passage ne pourra se faire que moyennant des hypothèses de type
probabilistes. Les termes de statistique inférentielle, statistique inductive et
statistique mathématique sont eux aussi quasiment synonymes.
La statistique intervient dans de nombreux domaines, fort différents les
uns des autres. Ainsi trouve-t-on sa place autant dans la production
industrielle que dans la recherche océanographique, dans la conception de
systèmes de contrôle du trafic aérien, que dans les services de l’Etat afin
d’estimer le coût de la vie, etc.
Ce cours présente les concepts fondamentaux de la statistique
descriptive et décrit les méthodes le plus souvent utilisées dans la pratique.
Il ne nécessite pas au préalable d’avoir suivi un cours élémentaire de
statistique, mais seulement de posséder une bonne aptitude pour les
raisonnements quantitatifs et un minimum de connaissances
mathématiques. L’accent sera mis beaucoup plus sur l’explication des
méthodes exposées et leur utilisation que sur les justifications
mathématiques des différents résultats. Les exercices permettent à l’étudiant
de tester sa capacité à passer de la théorie à la pratique. Ils suivent l’ordre
de progression du cours. En fin, on trouvera dans ce cours des illustrations
ou des graphiques mais aussi, toujours dans un souci pédagogique,
plusieurs exercices demandant aux étudiants l’usage d’un tableur de calcul
comme Excel.
Ce cours s’adresse en priorité aux étudiants de première licence
ECOPO, et de sciences économiques et de gestion, mais aussi à tous les
étudiants des formations dont le cursus comprend une initiation à la
statistique descriptive.
STATISTIQUE DESCRIPTIVE MES 2018-2019
5
Chapitre premier
VOCAVULAIRE DE LA STATISTIQUE DESCRIPTIVE
Ce chapitre est consacré à la définition de la statistique descriptive ainsi
que des différents termes qui en constituent le vocabulaire de base.
1.1. Définition
Il existe de nombreuses définitions (plusieurs centaines), celle que nous
donnons ici est celle de Bernard PY : « La statistique descriptive est un
ensemble de méthodes permettant de décrire et d'analyser, de façon
quantifiée, des phénomènes repérés par des éléments nombreux, de même
nature, susceptibles d'être dénombrés et classés. »
Deux points importants ressortent de cette définition :
—Ensemble de méthodes : la statistique descriptive ne contient aucune
théorie, mais seulement des outils d'investigation et de mesure des données
chiffrées.
—Décrire et analyser, de façon quantifiée, des phénomènes repérés par des
éléments nombreux : décrire, i.e. faire des tableaux, des graphiques, calculer
des moyennes afin de faire ressortir la signification.
1.2. Description d'une population
1.2.1. Population et individu
Une population est l’ensemble des éléments auxquels se rapportent les
données étudiées. En statistique, le terme population s’applique à des
ensembles de toute nature : étudiants d’une académie, productions d’une
usine, poissons d’une rivière, entreprises d’un secteur donné, etc. Dans une
population donnée, chaque élément est appelé individu ou unité statistique.
La collecte d’informations sur une population peut être effectuée sur la
totalité des individus ; on parle d’enquête exhaustive. Lorsque la taille de la
population étudiée est élevée, de telles enquêtes sont fort coûteuses ou
impossibles, et le cas échéant, leurs résultats sont très longs à ressembler
peuvent être dépassés avant même la fin de l’enquête. C’est la raison pour
laquelle on a souvent recours au sondage.
1.2.2. L'échantillon
On appelle échantillon l’ensemble des individus sur le quel on a repéré
ou mesuré effectivement une donnée.
STATISTIQUE DESCRIPTIVE MES 2018-2019
6
1° Représentativité d'un échantillon
Un individu isolé n’est pas représentatif. Un échantillon, par contre, est
représentatif d’une population lorsqu’il permet de décrire cette population
dans son centre, mais aussi dans sa diversité.
2° Tirage d'un échantillon
Un échantillon se tire à partir d’une base de sondage, i.e. à partir
d’une liste, d’un répertoire ou d’un plan avec un certain procédé de tirage.
On distingue :
—Un échantillonnage aléatoire simple, qui est une méthode d’échantillonna-
ge pour choisir 𝑛 unités parmi les 𝑁 de la population, de sorte que chacun
des (𝑛𝑁) échantillons possibles ait la même probabilité d’être sélectionnée.
—Par un échantillonnage par grappes, il s’agit dans un premier temps de
diviser la population en sous-ensembles appelées grappes. L’avantage de
l’échantillonnage par grappes réside dans le fait qu’il n’est pas ́nécessaire de
numéroter tous les individus de la population. L’échantillonnage par grappes
consiste alors à choisir un échantillon aléatoire de grappes puis à observer,
pour chacune de ces grappes, tous les individus y appartenant.
—L’échantillonnage par quotas est une méthode d’échantillonnage non
aléatoire. L’échantillon est choisi de façon à constituer une image aussi fidèle
que possible de la population. La méthode des quotas se base sur la
répartition connue de la population pour un certain nombre de caractères
(sexe, âge, catégorie socioprofessionnelle,...). On fait ensuite l’hypothèse que
les différents caractères de la population sont connus, c’est-à-dire que si
l’échantillon est représentatif pour les caractères de contrôle, il le sera aussi
pour la variable étudiée. L’échantillon est construit en respectant la
distribution de la population et en choisissant un certain taux de sondage
(quotas). Ensuite la désignation des personnes à interroger est laissée au
choix de l’enquêteur.
—Pour l’échantillonnage stratifié, on divise dans un premier temps la
population en sous-populations appelées strates. Ces strates ne doivent pas
s’interpénétrer et l’ensemble de ces strates doit constituer l’ensemble de la
population. Une fois que les strates ont été déterminées, on tire un
échantillon aléatoire (pas forcement de même taille) de chacune des strates,
cet échantillonnage étant fait indépendamment dans différentes strates.
—L’Echantillonnage systématique est un échantillonnage aléatoire. Les
individus sont prélevés dans la population à des intervalles fixes en termes
de temps, d’espace ou d’ordre d’occurrences, les premiers étant tiré au
hasard.
STATISTIQUE DESCRIPTIVE MES 2018-2019
7
1.2.3. Caractères et variables
Dans une population, par exemple celle des étudiants d’une faculté, les
unités sont repérées par le nom et le prénom des étudiants (on a donc une
liste). Si l'on souhaite étudier cette population, on va retenir certains critères
d’étude comme le sexe, la filière principale à laquelle chaque étudiant se
rattache, les matières optionnelles qu'il a choisi, l’âge, le poids, la taille, etc.
Parmi ces critères, certains sont quantitatifs, comme l’âge, le poids, la
taille. On peut en effet effectuer des calculs numériques sur ces critères :
poids moyen, taille maximale, taille minimale, etc. D’autres critères ne sont
pas quantifiables, car on ne peut pas effectuer de calculs dessus. Ils sont
qualitatifs. C’est le cas du sexe par exemple. On peut connaître l’effectif
masculin et l’effectif féminin d’une population, mais la notion de « sexe
moyen » n’a pas de sens et ne peut d’ailleurs pas être calculée.
Afin de différencier les deux type de critères, les critères qualitatifs sont
appelés des caractères et les critères quantitatifs des variables. On désigne
par modalités les différentes catégories d’un caractère qualitatif et on qualifie
de valeurs les différents chiffres d’une variable.
1.2.3.1. Modalités
a) Modalités ordinales
Les modalités d'un caractère qualitatif, si elles ne peuvent pas être
mesurées quantitativement, sont parfois susceptibles d'être classées. Ce sont
des modalités ordinales.
Exemple 1.1
Un questionnaire de satisfaction demande aux consommateurs d'évaluer
une prestation en cochant l’une des six catégories suivantes :
(a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f)
excellente.
Il s'agit de modalités ordinales puisqu'elles peuvent être hiérarchisées : une
prestation excellente est meilleure qu'une prestation bonne, etc. La
différence avec des valeurs quantitatives est qu'on ne peut dire, par exemple,
si une prestation jugée excellente est deux fois ou quatre fois meilleure
qu'une prestation décrite comme moyenne. On peut effectuer un classement,
non une quantification.
Remarque 1.1
Certaines modalités ordinales peuvent néanmoins être transformées en
valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent
l'apparence de modalités qualitatives ordinales.
STATISTIQUE DESCRIPTIVE MES 2018-2019
8
Exemple 1.2
Des chemises sont classées par taille : XS, S, M, L, XL, XXL, XXXL.
Il s'agit de modalités faussement ordinales. En réalité il existe un tableau de
correspondance qui explicitera à quelle taille en cm chacune de ces
catégories correspond.
b) Modalités nominales
Les modalités d'un caractère qualitatif qui ne peuvent pas être classées
ou hiérarchisées sont dites nominales.
Exemple 1.3
On demande à un échantillon de personnes ce qu'évoque pour elles un
parfum. Plus précisément, elles doivent cocher une des cases suivantes :
(a) aventure, (b) sensualité, (c) confort, (d) nostalgie.
Il est clair qu'aucune comparaison ni hiérarchisation ne peuvent être
établies entre ces modalités. Elles sont nominales.
Remarque
Certaines modalités purement nominales sont parfois codées avec des
chiffres. Par exemple, le sexe des individus d'une population sera codé par
"1" pour les hommes et par "2" pour les femmes. Il s'agit bien là d'une
tentative de quantification d'une variable purement nominale. On parle alors
de variables pseudo-numériques. On peut en effet de cette façon calculer
une moyenne, qui sera en fait la proportion des hommes dans la population
ou dans l'échantillon.
1.2.3.2. Variables quantitatives
Nous avons vu qu'une variable quantitative est une variable dont les
modalités ont des valeurs numériques. Par exemple l'âge, la température, le
revenu, la pression atmosphérique, le nombre de membres d'une famille, la
durée d'un conflit international sont toutes des variables quantitatives. Une
distinction fondamentale concernant les variables quantitatives est celle
effectuée entre les variables discrètes et les variables continues.
a) Variable discrète
Une variable quantitative est dite discrète si l’étendue des valeurs
possibles est dénombrable, c'est-a-dire si les valeurs peuvent être énumérées
sous la forme d'une liste de chiffres (a1, a2,...) ou plus souvent d'entiers
naturels (0,1,2,3,...). Quelques exemples de variables discrètes sont :
— le nombre de personnes dans une famille ;
— le nombre de mots dans une phrase ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
9
— le nombre d'accidents survenus dans une journée ;
— le nombre d’étoiles visibles à un certain moment de la soirée.
b) Variables continues
Une variable quantitative est dite continue si les valeurs possibles ne
sont pas dénombrables. L'ensemble de ces valeurs est constitué par la
totalité de l’intervalle défini selon l’étendue de la variable. Citons quelques
exemples de variables continues :
— le poids d'un nouveau-né ;
— la longueur d'une table ;
— la fréquence d'une onde ;
— le volume d'un chargement.
STATISTIQUE DESCRIPTIVE MES 2018-2019
10
Chapitre deuxième
LES TABLEAUX
Le statisticien se trouve souvent confronté à une quantité imposante de
données dont il est difficile de tirer des conclusions probantes. Pour une
meilleure interprétation, il est primordial que les données traitées soient
triées et classées. Pour que l’organisation des données soit efficace, elle doit
être simple et parlante. Cela implique qu'elle doit retenir l’information
essentielle contenue dans ces données, sans pour autant négliger les aspects
particuliers de leur structure. A cet effet, les tableaux constituent le premier
moyen de représentation des données statistiques. Etant donné l'abondance
des présentations tabulaires, nous n'étudierons ici que les principales.
2.1. Le dépouillement des observations
Les observations portent, nous l’avons vu, soit sur des variables
s’exprimant numériquement, soit sur des variables non numériques ou
caractères. Elles parviennent à la personne chargée du dépouillement sous
forme d’une quantité de données, en vrac, plus ou moins importante.
2.1.1. Notions de série statistique
On appelle série statistique la suite des valeurs prises par une variable
𝑋 sur les unités des observations. Le nombre d’unités d’observations est noté
𝑛. Les valeurs de la variable 𝑋 sont notées 𝑥1, 𝑥2, … , 𝑥𝑛.
2.1.2. Ordonnancement et classement
Il n’est pas facile de travailler sur une série en « vrac », aussi est-il
nécessaire de l’ordonner.
1° Notion d'ordre
Ordonner les données d’une série statistique, c’est disposer les données
selon certains rapports logiques. Ces rapports logiques peuvent être de :
a) Nature arithmétique
On distingue généralement l’ordre croissant et l’ordre décroissant. Une série
ordonnée donne une meilleure connaissance de l’information, puisqu’on y
découvre aisément la valeur minimale et la valeur maximale du phénomène
étudié.
b) Natures diverses
En gestion (surtout pour les séries qualitatives) il est possible d’utiliser de
nombreux ordres tels que : ordre alphabétique, ordre chronologique, ordre
géographique ou ordre alphanumérique, etc.
STATISTIQUE DESCRIPTIVE MES 2018-2019
11
2° Pointage
Une même valeur peut être rencontrée plusieurs fois dans une série
statistique. Il est alors possible de condenser l’information en établissant un
tableau de dépouillement comprenant trois colonnes.
a) La première colonne indique, selon l’ordre choisi, les modalités du
caractère (ou les valeurs de la variable) représentées par la notation 𝑥𝑖.
b) La deuxième colonne enregistre le dénombrement qui s’effectue en
inscrivant une barre sur la ligne représentant la valeur (ou modalité) lue.
Pour faciliter le comptage, les barres sont rassemblées par groupes de 5,
Soir par la méthode dite « du balai »
Soit par la méthode dite « du pendu »
c) La troisième colonne récapitule l’effectif de chaque valeur.
Exemples 2.1
Soit un échantillon de 50 achats de boissons non-alcoolisées largement
rependues : Coca-cola, Sprite, Dr Pepper, Pepsi, Coca Light, Sprite, Pepsi,
Coca-cola, Pepsi, Dr Pepper, Sprite, Coca Light, Pepsi, Coca-cola, Dr Pepper,
Coca-cola, Coca-cola, Coca Light, Pepsi, Coca-cola, Coca-cola, Pepsi, Coca
Light, Pepsi, Coca-cola, Pepsi, Coca Light, Sprite, Coca-cola, Pepsi, Coca
Light, Coca-cola, Pepsi, Coca-cola, Dr Pepper, Pepsi, Coca-cola, Coca Light,
Pepsi, Coca-cola, Dr Pepper, Coca-cola, Coca Light, Coca-cola, Coca-cola,
Coca-cola, Coca-cola, Coca-cola, Pepsi, Sprite.
On obtient ainsi le tableau de distribution de fréquences
Tableau 2.1
Boissons non-alcoolisées Dénombrement Fréquences
Coca-cola 19
Coca Light 8
Dr Pepper 5
Pepsi 13
Sprite 5
Total 50
Exemples 2.2
On a mesuré la taille de 20 personnes et les résultats sont (en cm) : 148,
165, 145, 173, 148, 145, 152, 178, 135, 170, 170, 170, 142, 148, 165, 175,
178, 178, 178, 178.
Il s'agit d'une variable continue (la taille), mais dont les valeurs sont ici
connues individuellement. On peut aussi effectuer un regroupement par
classe car certaines tailles, comme 170 ou 178, apparaissent plusieurs fois.
STATISTIQUE DESCRIPTIVE MES 2018-2019
12
Tableau 2.2
Taille Dénombrement Fréquences
135 1
142 1
145 2
148 3
152 1
165 2
170 3
173 1
175 1
178 5
Total 20
Remarque 2.1
On prendra soin de toujours indiquer la source des données, afin que
l’utilisateur du tableau puisse éventuellement s’y référer. Il est également
important d’ajouter toute note utile pour la compréhension des données
(l’unité de mesure qui a été utilisée,…)
2.2. Réalisation d'un tableau
2.2.1. Présentation d'un tableau statistique
Selon que la variable est discrète ou continue, le tableau se présente de
la façon suivante :
1° Tableau concernant une variable discrète
Exemple 2.3
Distribution du personnel d’une entreprise en fonction du nombre d’enfants
Tableau 2.3
Nombre d’enfants 𝑥𝑖 Effectif
0 12
1 31
2 29
3 11
4 4
5 2
6 et + 1
total 90
Remarque 2.2
Le tableau 2.3 se lit ainsi :
STATISTIQUE DESCRIPTIVE MES 2018-2019
13
12 membres du personnel n’ont pas d’enfants ;
31 membres du personnel ont 1 enfant ;…
2° Tableau concernant une variable continue
Exemple 2.4
Distribution de la taille de 20 personnes (en cm) :
Tableau 2.4
Classes Effectifs
[130-140[ 1
[140-150[ 6
[150-160[ 1
[160-170[ 2
[170-180[ 10
Total 20
Remarque 2.3
Le tableau 2.4 se lit ainsi : une personne mesure entre 130 et 140 cm, 6
personnes mesurent entre 140 et 150 cm, etc.
Lorsque les unités statistiques sont groupées par classes, on calcule un
centre de classe, désigné par 𝑐𝑖, qui est égal à la moyenne des extrémités de
classes. En raison de l’hypothèse d’équirepartition, le centre de classe sera le
représentant de toute la classe.
2.2.2. Notion de fréquence
La deuxième colonne d’un tableau de valeur enregistre le nombre de fois
que la valeur de la variable, mentionnée dans la première colonne, a été
rencontrée. Il s’agit d’une fréquence 𝑓𝑖 et celle-ci peut apparaitre sous divers
aspects selon les critères ou impératifs retenus.
1° Fréquence absolue. Fréquence relative
a) La fréquence absolue comme son nom l’indique, donne le nombre d’unités.
b) La fréquence relative est calculée en divisant chaque fréquence absolue
par l’effectif total de la population. En d’autres termes, cette fréquence est
exprimée en valeur relative. Multipliée par 100, elle donne un pourcentage.
Pour chaque valeur 𝑥𝑖 d’une variable, on définie la fréquence de l’effectif 𝑛𝑖
comme suit :
𝑓𝑖 =𝑛𝑖𝑛 ; 𝑖 = 1, … , 𝐼
Cette quantité exprime l’importance relative de la valeur 𝑥𝑖 dans la série
observée. Les fréquences sont bien sure reliées entre elles par la relation
STATISTIQUE DESCRIPTIVE MES 2018-2019
14
∑𝑓𝑖 = 1
𝐼
𝑖=1
Exemple 2.5
A partir de l’exemple 2.1 nous obtenons le nouveau tableau suivant :
Tableau 2.5
Boissons non-alcoolisées Fréquences relative Fréquences en %
Coca-cola 0,38 38
Coca Light 0,16 16
Dr Pepper 0,10 20
Pepsi 0,26 26
Sprite 0,10 10
Total 1 100
Exemple 2.6
A partir de l’exemple 2.4, on obtient la distribution de fréquences suivante :
Tableau 2.6
Classes Fréquences relative Fréquences en %
[130-140[ 0,05 5
[140-150[ 0,3 30
[150-160[ 0,05 5
[160-170[ 0,1 10
[170-180[ 0,5 50
Total 1 100
Remarque 2.4
Pour les fréquences relatives, le tableau 2.6 se lit ainsi : 5 % de personnes
mesurent entre 130 et 140 cm, 30 % mesurent entre 140 et 150 cm, etc.
2° Fréquence simple. Fréquence cumulée
a) Les fréquences simples, qu’elles soient absolues ou relatives, indique
comment se distribue la variable par rapport aux différentes modalités.
b) Les fréquences cumulées, qu’elles soient absolues ou relatives, indiquent
comment se repartit la variable par rapport aux différentes modalités.
Il existe par ailleurs deux catégories de fréquences cumulées :
Les fréquences cumulées croissantes qui indiquent combien d’unités de
la population sont caractérisées par une valeur inférieure à… ;
Les fréquences cumulées décroissantes qui indiquent combien d’unités
de la population sont caractérisées par une valeur supérieure à… ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
15
Exemple 2.7
Reprenons l’exemple 2.4,
Tableau 2.7
Classes Fréquences Fréquences cumulées croissantes (↓)
Fréquences cumulées décroissantes (↑)
[130-140[ 1 1 20
[140-150[ 6 7 19
[150-160[ 1 8 13
[160-170[ 2 10 12
[170-180[ 10 20 10
Tableau 2.8
Classes Fréquences Fréquences cumulées croissantes en %
Fréquences cumulées décroissantes en %
[130-140[ 1 5 100
[140-150[ 6 35 95
[150-160[ 1 40 65
[160-170[ 2 50 60
[170-180[ 10 100 50
Remarques 2.5
1. La lecture du tableau 2.8 précédent indique :
50% de personnes mesurent moins de 170 cm ;
60% de personnes mesurent plus de 160 cm ;
2. La série de nombres des fréquences cumulées croissantes n’est pas
symétrique par rapport à la série des fréquences cumulées décroissantes.
2.3. Groupement des données en clases (Méthode de Sturge)
Si le nombre d’observations est élevé, une autre condensation est
possible. Elle consiste à déterminer des classes qui pourront contenir
plusieurs valeurs de la variable.
a) L’amplitude des classes, i.e. l’importance du groupement, doit être
déterminée de façon telle que le nombre de classes ne soit :
ni trop faible, car on risquerait de perdre la finesse de l’analyse.
ni trop importante, ce qui se traduirait par une remise en question de
l’avantage du groupement.
b) Le bornage est un problème également délicat. En mathématique, il est
recommandé de définir conventionnellement le bornage, en utilisant la
notation suivante [𝑎, 𝑏[ , i.e. borne inferieure comprise et borne supérieure
exclue.
STATISTIQUE DESCRIPTIVE MES 2018-2019
16
Voici une méthode qui aide à grouper les données sans nuire à
l’analyse :
Soit la formule
𝑘 = 1 +10 log 𝑛
3
où 𝑘 est le nombre de classe, 𝑛 la taille de l’échantillon.
1. On calcul d’abord l’étendue de la série : 𝑑 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛;
2. On calcul ensuite l’intervalle de classe : 𝑎 =𝑑
𝑘−1;
3. On détermine l’étendue de travail :𝜔 = 𝑎 ∙ 𝑘;
4. On détermine la limite inferieure de la classe : 𝐿𝑖 = 𝑥𝑚𝑖𝑛 −𝑎
2;
5. On détermine la limite supérieure de la classe : 𝐿𝑠 = 𝐿𝑖 + 𝜔.
Exemple 2.8
Soit l’échantillon de 40 individus :
49,61,55,48,59,49,56,55,50,59,51,51,56,53,57,57,50,50,53,55,52,55,50,57,
54,51,56,54,53,56,53,52,51,53,53,52,56,52,53.
Appliquons la méthode de Sturge :
𝑘 = 1 +10 log 40
3= 6,3 ⇒ 𝑘 = 6
1. 𝑑 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 61 − 48 = 13
2. 𝑎 =𝑑
𝑘−1=
13
5= 2,6
3. 𝜔 = 𝑎 ∙ 𝑘 = 2,6 ∙ 6 = 15,6
4. 𝐿𝑖 = 𝑥𝑚𝑖𝑛 −𝑎
2= 48 −
2,6
2= 46,7
5. 𝐿𝑠 = 𝐿𝑖 + 𝜔 = 15,6 + 46,7 = 62,3
On obtient ainsi le tableau :
Tableau 2.9
Classes 𝑥𝑖 𝑛𝑖 𝑓𝑖 ↓ ↑ [46,7-49,3[ 48,0 3 0,075 3 40
[49,3-51,9[ 50,6 8 0,200 11 37
[51,9-54,5[ 53,2 14 0,350 25 29
[54,5-57,1[ 55,8 12 0,300 37 15
[57,1-59,7[ 58,4 2 0,050 39 3
[59,7-62,3[ 61 1 0,025 40 1
STATISTIQUE DESCRIPTIVE MES 2018-2019
17
Chapitre troisième
LES GRAPHIQUES
3.1. Rôle de la représentation graphique
Le graphique est un mode d’expression qui permet visuellement de
saisir et de mémoriser un certain nombre d’informations. C’est pourquoi,
lors de la présentation de résultats statistiques et complémentairement aux
tableaux, on utilise souvent une représentation graphique.
Celle-ci peut répondre à deux types d’objectif :
—être un moyen de communication et permettre de « véhiculer » une
information. C’est ainsi que certains graphiques figurent dans des articles de
journaux, des brochures de présentation de résultats commerciaux ou
comptable même dans certaines publicités. Ne dit-on pas qu’un bon
graphique vaut mieux qu’un long discours.
—être un instrument de travail et permettre une vue d’ensemble du
phénomène étudié, ce qui en facilite l’analyse.
La diversité des présentations graphiques ne connait d’autres limites
que celles de l’imagination. Nous nous bornerons dans ce chapitre à passer
en revue les graphiques les plus connus et les mieux adaptés aux données
qu’il s’agit de représenter.
3.2. Graphique d’une variable discrète
La représentation graphique des fréquences simples d’une variable
discrète peut s’effectuer sous la forme de graphique en bâtons.
Un diagramme en bâtons est construit dans un système d’axes
rectangulaires où les valeurs de la variable statistique sont portées en
abscisse. A partir de chaque 𝑥𝑖 on trace un segment de droite verticale dont
la hauteur est proportionnelle à l’effectif correspondant. On peut retenir
indifféremment une échelle qui explicite les effectifs, ou une échelle qui
explicite les fréquences.
Exemple 3.1
On a relevé le nombre d’enfants de 100 familles choisies au hasard. Le
tableau ci-après donne les principales caractéristiques de cette étude.
Tableau 3.1
𝑥𝑖 1 2 3 4 5 6 7 8 Total
𝑛𝑖 20 25 30 10 6 4 3 2 100
Le diagramme en bâton de la distribution sera :
STATISTIQUE DESCRIPTIVE MES 2018-2019
18
Figure 3.1
Remarque 3.1
Dans le cas d’une variable discrète, il ne faut pas joindre les sommets des
bâtons car, par définition, il n’existe pas de valeur intermédiaire entre deux
positions de la variable.
3.3. Graphique d’une variable continue
3.3.1. Histogramme
La représentation graphique des fréquences simples d’une variable
continue peut s’effectuer sous la forme d’un histogramme. Dans la
construction d’un histogramme, à la ième classe correspond un rectangle
dont la base est l’intervalle [𝑥𝑖 , 𝑥𝑖+1[ et dont la surface est proportionnelle à la
fréquence. Si les classes ont toutes la même amplitude, les hauteurs des
rectangles sont proportionnelles aux fréquences 𝑓𝑖 (où à l’effectif 𝑛𝑖). Dans le
cas où les classes sont d’amplitudes inégales, la hauteur du rectangle
correspondant à la ième classe d’amplitude 𝑎𝑖 sera ℎ𝑖 = 𝑓𝑖 𝑎𝑖⁄ . La surface du
rectangle représentant la ième classe sera aussi égale à 𝑓𝑖.
Exemple 3.2
Considérons les tranches de revenus dans une population de 100 individus :
Tableau 3.2
Tranches Revenus (en €)
[0-1000[ 20
[1000-2000[ 40
[2000-3000[ 30
[3000-4000[ 10
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8
STATISTIQUE DESCRIPTIVE MES 2018-2019
19
La représentation graphique se fait alors sous forme d’histogramme,
graphique dans lequel chaque classe est représentée par un rectangle dont
la surface est proportionnelle à l’importance de cette classe dans la
population.
Figure 3.2
Exemple 3.3
Reconsidérons l’exemple 3.2 où les classes sont d’amplitudes inégales :
Tableau 3.3
Tranches Revenus (en €) ℎ𝑖 [0-1000[ 20 0,02
[1000-3000[ 70 0,035
[3000-4000[ 10 0,01
Figure 3.3
0
5
10
15
20
25
30
35
40
45
[0-1000[ [1000-2000[ [2000-3000[ [3000-4000[
0
0,005
0,01
0,015
0,02
0,025
0,03
0,035
0,04
[0-1000[ [1000-3000[ [3000-4000[
STATISTIQUE DESCRIPTIVE MES 2018-2019
20
Remarque 3.2
Dans certaines séries, on trouve des intervalles de clases indéterminés. Il en
est ainsi dans l’exemple suivant dans lequel la dernière classe n’est pas
bornée :
Tableau 3.4
𝑥𝑖 Fréquences
0 à 20 2
20 à 40 15
40 à 60 6
60 à plus 3
Il faut alors attribuer une borne supérieure à cette classe en conciliant la
vraisemblance et la commodité des calculs. On considérera, par exemple, un
intervalle de 60 à 80, si on souhaite qu’aucune variable ne puisse dépasser
la valeur 80.
3.3.2. Le polygone des fréquences
Le polygone des fréquences, obtenu en joignant par des segments de droite
les milieux des bases supérieures des rectangles, permet de rendre compte
de la continuité de la variable.
Exemple 3.4
Le polygone des fréquences de données du tableau 3.2 donne :
Figure 3.4
3.3.3. La courbe de fréquences
Lorsque l’intervalle des classes est très petit et les données suffisamment
nombreuses, la ligne du polygone des fréquences tend à devenir une courbe
0
5
10
15
20
25
30
35
40
45
[0-1000[ [1000-2000[ [2000-3000[ [3000-4000[
STATISTIQUE DESCRIPTIVE MES 2018-2019
21
appelée courbe des fréquences.
3.4. Graphique d’un caractère qualitatif
Diagramme en bâtons (même principe que pour les variables discontinues).
Exemple 3.5
En 1952, les recettes du budget de la France se présentaient de la façon
suivante (en milliards de francs) :
Tableau 3.5
Sources de recettes Montant
Taxe sur la valeur ajoutée 348
Impôt sur le revenu 163
Impôt sur les sociétés 71
Taxe sur les produits pétroliers 54
Autres impôts 161
Recettes non fiscale 41
Total 838
Le caractère étudié, la nature du budget de l’Etat est un caractère qualitatif.
Les diverses sources de recettes du budget de l’Etat sont représentées par
des points sur l’axe des ordonnées. Pour chaque abscisse, on porte un
segment vertical dont la longueur est proportionnelle au montant
correspondant à recette (effectif).
Figure 3.5
0
50
100
150
200
250
300
350
400
Taxe sur lavaleur
ajoutée
Impôt sur lerevenu
Impôt sur lessociétés
Taxe sur lesproduits
pétroliers
Autresimpôts
Recettesnon fiscale
STATISTIQUE DESCRIPTIVE MES 2018-2019
22
3.5. Diagramme circulaire
Les anglo-saxons l’appellent « Pie Chart », i.e, littéralement « graphique en
tarte ». En France, on l’appelle le camembert. Ce graphique universel
convient à toutes les données, dès l’instant où il s’agit d’exprimer de parts ou
des pourcentages.
Ainsi, ce graphique, aussi appelé diagramme circulaire (ou diagramme à
secteur), représente un disque qui sera partagé en secteur dont les aires
seront proportionnelles aux effectifs, donc aux fréquences.
Exemple 3.6
Considérons le tableau 3.4. Dans le diagramme circulaire, chaque secteur a
une surface proportionnelle à l’importance de la recette dans le budget.
L’angle au centre représente une modalité, et est donc proportionnelle à
l’importance de la recette dans le budget.
Figure 3.6
Taxe sur la valeur ajoutée;
348
Impôt sur le revenu; 163
Impôt sur les sociétés; 71
Taxe sur les produits
pétroliers; 54
Autres impôts; 161
Recettes non fiscale; 41
STATISTIQUE DESCRIPTIVE MES 2018-2019
23
Chapitre quatrième
LES CARACTERISTIQUES DE TENDANCE CENTRALE ET DE
POSITON
Le tableau de distribution d’une variable statistique présente
l’information recueillie sur cette variable. Une représentation graphique en
fournit un portrait pour appréhender plus facilement la globalité de
l’information. On peut désirer aller plus loin en cherchant à caractériser la
représentation visuelle par des éléments synthétiques.
Ces derniers, véritables résumés quantitatifs d’une distribution
statistique, doivent renseigner :
—d’une part sur la position des valeurs centrales ;
—d’autres part sur la dispersion des valeurs autour de cette tendance
centrale.
Il est possible, en fin, de rechercher des caractéristiques qui renseigne
sur : la forme plus ou moins symétrique de la courbe et le degré
d’aplatissement de cette dernière. (Ces deux caractéristiques sont en règle
générale moins utilisées que les deux premières). Ce chapitre sera consacré à
l’étude de paramètres de position tels que les moyennes, le mode et la
médiane. Nous exposerons leur mode de calcul et leur signification en
distinguant, pour chacune d’elles, le cas des données non groupées et le cas
des données regroupées (soit par valeurs, soit par classes).
4.1. Conditions de Yule
Le statisticien britannique Yule a énoncé un certain nombre de
propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci
doivent être d’une part, des résumés « maniables » et d’autre part, les plus
exhaustifs possibles relativement à l’information contenue dans les données.
Dans son schéma, une caractéristique statistique doit être une valeur-type :
1. définie de façon objective et donc indépendante de l’observateur ;
2. dépendante de toutes les observations ;
3. de signification concrète pour être comprise par des non-spécialistes ;
4. simple à calculer ;
5. peu sensible aux fluctuations d’échantillonnage ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
24
6. se prêtant aisément aux opérateurs mathématiques classiques.
En réalité, on ne dispose pas de caractéristiques répondant simultanément à
ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis
guidé par la spécificité de l’étude en cours.
4.2. Les moyennes
4.2.1. Moyenne arithmétique
1. Définition
a) Moyenne arithmétique simple
La moyenne arithmétique d’une série 𝑥1, 𝑥2, … , 𝑥𝑛 se définit comme étant
égale à la somme des observations divisée par l’effectif 𝑛 de la série, et est
notée �̅�,
�̅� =𝑥1 + 𝑥2 +⋯+ 𝑥𝑛
𝑛=1
𝑛∑𝑥𝑖
𝑛
𝑖=1
Exemple 4.1
Soit la série 3,4,7,9,11,13,17,19
La moyenne arithmétique est
�̅� =3 + 4 + 7 + 9 + 11 + 13 + 17 + 19
8= 10,375
Remarques 4.1
1. Au vu de la relation précédente, la moyenne arithmétique ne se conçoit
que si les valeurs observées sont numériques. Une série dont les valeurs
sont mesurées sur une échelle qualitative ne possède donc pas de moyenne
arithmétique.
2. Ce paramètre est unique : une série ne peut pas posséder plusieurs
moyennes arithmétiques distinctes.
3. Il est utile de noter que la moyenne arithmétique est rarement une valeur
observée, ce qui donne à �̅� un statut différent des 𝑥𝑖.
b) Moyenne arithmétique pondérée
Lorsque la variable statistique est donnée sous forme de tableau de
distribution, i.e. quand les valeurs de la variable sont affectées d’une
fréquence, la moyenne arithmétique s’écrit alors :
STATISTIQUE DESCRIPTIVE MES 2018-2019
25
�̅� =𝑓1𝑥1 + 𝑓2𝑥2 +⋯+ 𝑓𝑛𝑥𝑛
𝑓1 + 𝑓2 +⋯+ 𝑓𝑛=
1𝑛∑ 𝑓𝑖𝑥𝑖𝑛𝑖=1
∑ 𝑓𝑖𝑛𝑖=1
Exemple 4.2
Soit le tableau ci-dessous :
Tableau 4.1
𝑥𝑖 𝑛𝑖 25 10
8 16
4 25
12 20
Alors on peut calculer la moyenne arithmétique par :
�̅� =10 ∙ 25 + 16 ∙ 8 + 25 ∙ 4 + 20 ∙ 12
10 + 16 + 25 + 20=718
71= 10,11268
Remarque 4.2
Dans le cas de données groupées en classes, le calcul est le même, en
ramenant chaque observation au centre de sa classe, ceci en raison de
l’hypothèse d’equirépartition à l’intérieur des classes.
2. Propriétés
Première propriété. La moyenne arithmétique est une caractéristique qui
satisfait à toutes les conditions de Yule, sauf à la condition 5 : une
observation « extrême » (exceptionnellement élevée ou faible) peut avoir une
forte incidence sur sa valeur.
Deuxième propriété. La somme algébrique des écarts d’une série de valeurs
𝑥𝑖, à la moyenne �̅� est nulle.
Chaque écart est, en effet, de la forme :
𝑥𝑖 − �̅�
La somme algébrique des écarts est :
∑𝑥𝑖 − �̅� =∑𝑥𝑖 −∑�̅�
Or : ∑𝑥𝑖 = 𝑛�̅�, car �̅� =∑𝑥𝑖
𝑛 et ∑ �̅� = 𝑛�̅�
Donc, ∑𝑥𝑖 − �̅� = ∑𝑥𝑖 −∑ �̅� = 𝑛�̅� − 𝑛�̅� = 0
STATISTIQUE DESCRIPTIVE MES 2018-2019
26
Troisième propriété. La somme des carrés des écarts d’une série de valeurs
𝑥𝑖 par rapport à 𝑥0 est minimale pour 𝑥0 = �̅�.
Cette somme est de la forme :
∑(𝑥𝑖 − 𝑥0)2
On peut écrire en introduisant la moyenne arithmétique �̅� :
∑(𝑥𝑖 − 𝑥0)2 =∑(𝑥𝑖 − �̅� + �̅� − 𝑥0)
2 =∑[(𝑥𝑖 − �̅�) + (�̅� − 𝑥0)]2
=∑(𝑥𝑖 − �̅�)2 + 2(�̅� − 𝑥0)∑(𝑥𝑖 − 𝑥0) +∑(�̅� − 𝑥0)
2
Or ∑(𝑥𝑖 − 𝑥0) = 0 (première propriété), d’où
∑(𝑥𝑖 − 𝑥0)2 =∑(𝑥𝑖 − �̅�)
2 +∑(�̅� − 𝑥0)2
Cette relation porte le nom de théorème de Koenig. On démontre que la
moyenne arithmétique est l’abscisse du centre de gravité de l’aire de
l’histogramme des fréquences.
Quatrième Propriété. Si on agrège deux ensembles 𝐸1 et 𝐸2 d’observations,
le premier d’effectif 𝑛1 et de moyenne �̅�1, le second d’effectif 𝑛2 et de moyenne
�̅�2 , la moyenne �̅� de la série agrégée 𝐸 (d’effectif 𝑛 = 𝑛1 + 𝑛2 ) s’exprime, à
partir des paramètres de 𝐸1 et 𝐸2 , par la relation :
�̅� =𝑛1�̅�1 + 𝑛2�̅�2
𝑛
Exemple 4.3
Soient les ensembles 𝐸1 = {1,2,3,4,5} et 𝐸2 = {10,11,12}
Désignons par �̅�1 et �̅�2 leurs moyennes arithmétiques et par 𝑛1 et 𝑛2 leurs
effectifs respectifs :
𝑛1 = 5, �̅�1 = 3, 𝑛2 = 3, �̅�2 = 11
Alors :
�̅� =𝑛1�̅�1 + 𝑛2�̅�2
𝑛=5 ∙ 3 + 3 ∙ 11
8= 6
4.2.2. Moyenne géométrique
Lorsque les valeurs d’une série statistique varient selon une croissance
géométrique ou exponentielle, il est préférable de substituer, à la moyenne
arithmétique, la moyenne géométrique.
STATISTIQUE DESCRIPTIVE MES 2018-2019
27
1. Définition
a) Moyenne géométrique simple
La moyenne géométrique des 𝑛 valeurs positives d’une variable est la
racine nième du produit de ces valeurs.
𝐺 = √𝑥1𝑥2…𝑥𝑛𝑛 = √∏𝑥𝑖
𝑛
𝑖=1
𝑛
Exemple 4.4
Soit la série 3,4,7,9,11,13,17,19
La moyenne géométrique simple est
𝐺 = √3 ∙ 4 ∙ 7 ∙ 9 ∙ 11 ∙ 12 ∙ 17 ∙ 198
= 8,768
Exemple 4.5
Le chiffre d’affaire mensuel (en million de francs) d’un nouveau produit a été,
au cours des six derniers mois, de : 256,332,432,562,731,950.
𝐺 = √256 ∙ 332 ∙ 432 ∙ 562 ∙ 731 ∙ 9506
= 492
b) Moyenne géométrique pondérée
Lorsque les valeurs de la variable sont affectées d’une fréquence, la
moyenne géométrique est donnée par la formule :
𝐺 = √𝑥1𝑓1 × 𝑥2
𝑓2 × …× 𝑥𝑛𝑓𝑛
𝑁
dans laquelle 𝑁 = ∑𝑓𝑖
2. Calcul
Pour calculer la moyenne géométrique pondérée, on peut passer par le
logarithme népérien (ln) :
ln 𝐺 =1
𝑁(𝑓1 ln 𝑥1 + 𝑓2 ln 𝑥2 +…+ 𝑓𝑛 ln 𝑥𝑛) =
1
𝑁∑𝑓𝑖 ln 𝑥𝑖
𝑛
𝑖=1
⇒ 𝐺 = exp(1
𝑁∑𝑓𝑖 ln 𝑥𝑖
𝑛
𝑖=1
)
Exemple 4.6
Considérons le tableau 4.1. On peut calculer la moyenne géométrique par :
STATISTIQUE DESCRIPTIVE MES 2018-2019
28
𝐺 = √∏𝑥𝑖𝑓𝑖
𝑛
𝑖=1
𝑁
= [∏𝑥𝑖𝑓𝑖
𝑛
𝑖=1
]
1 𝑁⁄
= [2510 ∙ 816 ∙ 425 ∙ 1220]1 71⁄
ln 𝐺 =1
71(10 ln 25 + 16 ln 8 + 25 ln 4 + 20 ln 12) = 2,1100704
⇒ 𝐺 = 𝑒2,1100704 ≅ 8,2488
4.2.3. Moyenne harmonique
a) Moyenne harmonique simple
La moyenne harmonique est l’inverse de la moyenne arithmétique des
inverses des valeurs.
𝐻 =∑ 𝑓𝑖𝑛𝑖=1
∑1𝑥𝑖
𝑛𝑖=1
=𝑛
∑1𝑥𝑖
𝑛𝑖=1
Exemple 4.7
Soit la série 3,4,7,9,11,13,17,19. La moyenne harmonique de cette série est
égale à :
𝐻 =8
13 +
14 +
17 +
19 +
111 +
113 +
117 +
119
= 7,165
b) Moyenne harmonique pondérée
Lorsque les valeurs de la variable sont affectées d’une fréquence, la
moyenne harmonique devient :
𝐻 =𝑛
∑𝑓𝑖𝑥𝑖
𝑛𝑖=1
Exemple 4.8
Reconsidérons le tableau 4.1. Soit à calculer la moyenne harmonique
pondérée :
𝐻 =𝑛
∑𝑓𝑖𝑥𝑖
𝑛𝑖=1
=71
1025+168 +
254 +
2012
= 6,882
La moyenne harmonique peut être utilisée lorsqu’il est possible d’attribuer
un sens réel aux inverses des données, en particulier pour les taux de
STATISTIQUE DESCRIPTIVE MES 2018-2019
29
changes, les taux d’équipement, le pouvoir d’achat, les vitesses. Elle est
notamment utilisée dans les calculs d’indices.
Exemple 4.9
Une petite usine abrite 2 machines. La première produit 500 pièces à la
vitesse de 100 pièces par heure. La seconde produit 300 pièces à la vitesse de
60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de
pièces par heure) de production de l’usine.
Vitesse moyenne =Nombre total des pièces produites
Nombre d′heures de produiction
Vitesse moyenne =800
500100 +
30060
=800
100= 80pieces/heures
4.2.4. Moyenne quadratique
a) Moyenne quadratique simple
Parfois, on souhaite obtenir une caractéristique de tendance centrale
ayant une valeur positive là où le calcul de la moyenne arithmétique simple
aurait donné zéro. Soit par exemple la série de chiffres {−4,−2,0,2,4}.
Dans un tel cas, on calcul la moyenne quadratique simple en additionnant le
carré de toutes les valeurs de la série divisé par le nombre d'observations et
en prenant la racine carrée du résultat. Autrement dit,
𝑄 = √(−4)2 + (−2)2 + (0)2 + (2)2 + (4)2
5= √8 ≅ 2,83
Ainsi la moyenne quadratique simple d’une série est :
𝑄 = √1
𝑛∑𝑥𝑖
2
𝑛
𝑖=1
Exemple 4.10
Soit la série 3,4,7,9,11,13,17,19. La moyenne quadratique de cette série est
égale à :
𝑄 = √32 + 42 + 72 + 92 + 112 + 132 + 172 + 192
8= 11,699
STATISTIQUE DESCRIPTIVE MES 2018-2019
30
b) Moyenne quadratique pondérée
Lorsque les valeurs de la variable sont affectées d’une fréquence, la
moyenne quadratique devient :
𝑄 = √1
𝑛∑𝑛𝑖𝑥𝑖
2
𝑛
𝑖=1
Exemple 4.11
Reconsidérons le tableau 4.1. Le calcul de la moyenne quadratique pondérée
donne le tableau ci-dessous :
Tableau 4.2
𝑥𝑖 𝑛𝑖 𝑥𝑖2 𝑛𝑖𝑥𝑖
2
25 10 625 6250
8 16 64 1024
4 25 16 400
12 20 144 2880
Ainsi,
𝑄 = √1
𝑛∑𝑛𝑖𝑥𝑖
2
𝑛
𝑖=1
= √10554
71= 12,1921
4.2.5. Comparaison de différents types de moyennes
Les moyennes arithmétique et quadratique attribuent beaucoup
d’influence aux éléments les plus élevés des séries (la moyenne quadratique
plus que la moyenne arithmétique). En revanche, les moyennes géométrique
et harmonique réduisent l’influence des observations les plus grandes et
augmentent celle des plus petites (la moyenne géométrique moins que la
moyenne harmonique).
De plus, on peut classer les moyennes arithmétique �̅�, géométrique 𝐺,
harmonique 𝐻 et quadratique 𝑄 de la manière suivante :
𝐻 < 𝐺 < �̅� < 𝑄
Si l’on reprend les observations de l’exemple 4.12 : 3,4,7,9,11,13,17,19; on a :
𝐻 = 7,165 < 𝐺 = 8,768 < �̅� = 10,375 < 𝑄 = 11,699
STATISTIQUE DESCRIPTIVE MES 2018-2019
31
4.3. Le mode
1. Définition
Le mode est la valeur de la variable qui correspond à la fréquence
maximale (en abrégé 𝑚).
2. Calcul
a) Cas d’une variable discontinue
Lorsque la variable statistique est discrète, le mode se définit à l’aide du
tableau de distribution ou du diagramme en bâtons. Lorsqu’il n’y a qu’un
mode, la série est dite unimodale. Quand la série possède deux valeurs
admettant des fréquences maximales égales, elle est dite bimodale. Elle est
dite plurimodale lorsqu’elle possède plusieurs modes.
Exemple 4.12
Tableau 4.3
𝑥𝑖 𝑛𝑖 10 3
15 5
20 11
25 15
30 8
35 4
40 2
Le mode vaut :𝑚 = 25
b) Cas d’une variable continue
Lorsque La variable statistique est continue, la classe modale est la
classe correspondant à la fréquence maximale. Par convention, le mode est
égal au centre de la classe. Mais cette détermination n’est absolument pas
précise, car elle dépend du découpage en classe retenu ; son intérêt est
limité par cette imprécision. Lorsque les données sont groupées en clase
d’amplitude égales, le mode est donné par :
𝑚 = 𝑥𝑖inf + 𝑎 (
𝑑1𝑑1 + 𝑑2
)
où
𝑥𝑖inf : borne inférieure de la classe modale ;
𝑎 : amplitude de la classe modale ;
𝑑1 = 𝑛𝑖 − 𝑛𝑖−1 : différence entre la fréquence de la classe modale et la
fréquence de la classe précédente ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
32
𝑑2 = 𝑛𝑖 − 𝑛𝑖+1 : différence entre la fréquence de la classe modale et la
fréquence de la classe suivante.
Exemple 4.13
Soit le tableau ci-après
Tableau 4.4
𝑥𝑖 𝑛𝑖
[0 − 5[ 2
[5 − 10[ 7
[10 − 15[ 18
[15 − 20[ 3
Alors le mode donne :
𝑚 = 𝑥𝑖inf + 𝑎 (
𝑑1𝑑1 + 𝑑2
) = 10 + 5 (11
11 + 15) = 12,115
3. Propriété
Le mode satisfait aux conditions 1,3 et 4 de Yule, mais cette valeur de
tendance centrale ne remplit pas la cinquième condition. En effet, elle est
très sensible aux fluctuations d’échantillonnage.
4.4. La médiane
1. Définition
La médiane d’une série est la valeur qui partage cette série,
précédemment classée, en deux séries aux effectifs égaux.
2. Calcul
La médiane ne se calcul que pour les données quantitatives et son mode
de calcul dépend du type de données.
a) Cas d’une variable discontinue
Il n’existe pas, en général, de valeur médiane, sauf dans l’hypothèse où
la série possède un nombre de termes impair et connu individuellement,
comme l’exemple ci-après
4 6 7 9 11 𝟏𝟐 13 17 18 21 22
Si 𝑛 est pair, on se heurte à une difficulté dans la définition de la
médiane. En effet, toute observation située entre l’observation de 𝑛 2⁄ et la
suivante satisfait à la propriété désirée. On dit alors que ces deux
observations définissent un intervalle médian. Son usage n’est pas ainsi
simple que celui d’une valeur. Aussi, lorsque les observations sont
numériques, on décide généralement (par convention !) de définir comme
STATISTIQUE DESCRIPTIVE MES 2018-2019
33
médiane la moyenne arithmétique des deux observations qui délimitent cet
intervalle :
𝑀𝑒 =𝑥(𝑛 2⁄ ) + 𝑥(𝑛 2⁄ )+1
2
Cette façon de posséder assure l’unicité de la médiane. Ainsi, par exemple, la
série 1,3,7,8,9,15 a pour médiane la valeur 7,5 obtenue en prenant la moyenne
arithmétique entre la troisième observation et la quatrième observation.
b) Cas d’une variable continue
Lorsque les effectifs sont groupées en classes, le calcul de la médiane
nécessite d’appliquer la formule :
𝑀𝑒 = 𝑥𝑖inf + 𝑎𝑖 (
𝑛2 − 𝑁
(𝑥𝑖−1)
𝑛𝑖)
où
𝑥𝑖inf : borne inferieure de la classe médiane ;
𝑁(𝑥𝑖−1) : effectif strictement inférieur à 𝑥𝑖 ;
𝑥𝑖 : classe médiane ;
𝑎𝑖 : amplitude de la classe médiane.
𝑛𝑖 : effectif de la classe médiane
Exemple 4.14
Soit le tableau ci-après
Tableau 4.5
𝑥𝑖 𝑛𝑖 𝑁(𝑥𝑖)
[0 − 5[ 2 2
[5 − 10[ 7 9
[10 − 15[ 18 27
[15 − 20[ 3 30
𝑚 = 𝑥𝑖inf + 𝑎𝑖 (
𝑛2 − 𝑁
(𝑥𝑖−1)
𝑛𝑖) = 10 + 5 (
15 − 9
18) = 11,666
3. Propriété
Une seule observation très élevée (ou très faible) peut influencer
fortement la moyenne, alors que la médiane peut supporter sans être
modifiée qu’une moitié des observations soit très élevée (ou très faible) : on
STATISTIQUE DESCRIPTIVE MES 2018-2019
34
dit que la médiane est résistante. La médiane satisfait aux conditions 1,3,4
et 5 de Yule.
Dans le cas de distribution unimodale, la médiane est fréquemment
comprise entre la moyenne arithmétique et le mode, et plus proche de la
moyenne que du mode. Si la distribution est symétrique, ces trois
caractéristiques de tendance centrale sont confondues.
4.5. Le choix de la caractéristique
Si la variable ne peut être ordonnée rationnellement, la seule
caractéristique possible est le mode. Si la variable peut être ordonnée, il est
conseillé d’utiliser la médiane, mais si la variable est mesurable, il est
préférable d’utiliser la moyenne.
4.6. Les fractiles
Les fractiles sont des paramètres de position que nous étudions dès
maintenant, car bien qu’ils ne soient pas de paramètres de tendance
centrale, ils se rapprochent par leur définition et leur mode de calcul de la
médiane. Ce sont des valeurs ordonnées symétriquement par rapport à cette
dernière.
4.6.1. Les quartiles
Les quartiles sont des valeurs de la variable qui partagent l’effectif rangé
par ordre croisant, en quatre sous-ensembles aux effectifs égaux. Il existe
donc trois quartiles (en abrégé, 𝑄1, 𝑄2 et 𝑄3). Par définition, 𝑄2est l’expression
de la médiane. 𝑄1 est la valeur de la variable :
telle que l’effectif des valeurs qui lui sont inférieures représentent au
plus 25% de l’effectif total ;
telle que l’effectif des valeurs qui lui sont supérieures représentent au
plus 75% de l’effectif total.
4.6.2. Les déciles et les quantiles
De la même façon, les déciles (𝐷1 à 𝐷9) sont définis comme des valeurs
de la variable qui partagent l’effectif rangé par ordre croissant en dix sous-
ensembles aux effectifs égaux.
En fin, les centiles (𝐶1 à 𝐶99 ) partagent l’effectif total en cent sous-
ensembles équivalents. Les remarques qui ont été faites sur la médiane et les
quartiles s’appliquent également aux déciles et aux centiles.
STATISTIQUE DESCRIPTIVE MES 2018-2019
35
Chapitre cinquième
PARAMETRES DE DISPERSION
En complément du chapitre précédent qui étudiait les caractéristiques
de tendance centrale d’une distribution, le présent chapitre s’intéresse à la
variabilité des données au sein d’une série. Ainsi, une fois la moyenne
connue, on peut compléter la connaissance d’une série pour apprécier dans
quelle mesure les données sont dispersées ou au contraire concentrées
autour de la moyenne.
Les caractéristiques de dispersion et/ou de concentration sont
nombreuses. Nous étudierons ici les plus fréquemment utilisées : l’intervalle
de variation, la variance, l’écart-type, le coefficient de variation et les
intervalles interquartiles et interdéciles.
5.1. L’intervalle de variation
Ce paramètre, également appelé étendue est le plus simple, mais aussi
le moins significatif.
Définition 5.1
L’intervalle de variation, est la différence entre la plus grande valeur et
la plus petite valeur de la variable
𝑒 = 𝑥𝑀 − 𝑥𝑚
𝑥𝑀 : valeur maximale et 𝑥𝑚 : valeur minimale
Exemple 5.1
Soient deux élèves dont les notes dans quatre matières ont été les suivantes
Élève A : { 8, 9, 11, 12}
Élève B : {2, 4, 16, 18}
L’étendue des notes de A est 12 − 8 = 4, tandis que l’étendue des notes de B
est 18 – 2 = 16. On notera pourtant que la moyenne des deux élèves est de
10. Mais B a des notes beaucoup plus dispersées que A. En fait, si on fait le
rapport 16/4, on voit que les notes de B sont 4 fois plus dispersées que celles
de A.
Cet exemple montre l’utilité de l’intervalle de variation pour avoir une
première idée de la dispersion. Mais l’indicateur est assez limité, car il est
trop sensible aux valeurs extrêmes comme le montre l’exemple ci-après.
STATISTIQUE DESCRIPTIVE MES 2018-2019
36
Exemple 5.2
Soit la série suivante {1016, 774, 1008, 8, 1001, 999, 1100}
Il est commode de classer les chiffres par ordre croissant :
{8, 774, 999, 1001, 1008, 1016, 1100}
L’intervalle de variation est donc donné par 𝐼𝑉 = 1100 – 8 = 1092 . On
constate que la valeur de l’intervalle de variation est exagérément augmentée
par la présence du chiffre 8.
5.2. Intervalle interquartile
Définition 5.2
L’intervalle interquartile mesure l’étendue des 50% de valeurs situées
au milieu d’une série de données classées.
Il se calcule en procédant par les quatre étapes suivantes :
1) Classement des données de la série par ordre croissant.
2) Trouver la médiane de la série pour séparer celle-ci en deux séries : la
première série contient les données inférieures à la médiane et la seconde les
données supérieures à la médiane.
3) Déterminer la médiane des deux nouvelles séries, sans inclure dans
aucune d’elle la médiane de la série initiale. La médiane de la première série
est appelée « premier quartile » et désigné par 𝑄1. La médiane de la seconde
série est appelée « troisième quartile » et désigné par 𝑄3.
4) Calculer l’intervalle interquartile par la formule :
𝐼𝑄 = 𝑄3 − 𝑄1
Les exemples ci-après illustrent les notions de quartiles et d’intervalle
interquartile dans le cas de données groupées ou non groupées
Exemple 5.3
Soit la série de chiffres suivants, où aucune valeur n’est répétée. Le nombre
de chiffres est impair.
{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6,5}
1) Afin de déterminer l’intervalle interquartile, classons d’abord les données
de la plus petite à la plus grande.
{1, 3, 4, 5, 6, 7, 9, 11, 12, 14, 15, 16, 17, 19, 20}
STATISTIQUE DESCRIPTIVE MES 2018-2019
37
2) Déterminons la médiane et séparons la série en deux « sous-séries » :
{1, 3, 4, 5, 6, 7, 9, 𝟏𝟏 , 12, 14, 15, 16, 17, 19, 20}
3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries
{1, 3, 4, 𝟓 , 6, 7, 9} {12, 14, 15, 𝟏𝟔 ,17, 19, 20}
4) Il ne reste plus qu’à calculer l’intervalle interquartile :
𝐼𝑄 = 𝑄3 − 𝑄1 = 16 − 5 = 11
Exemple 5.4
Soit la série de chiffres suivants, où aucune valeur n’est répétée. Cette fois,
le nombre de chiffres est pair.
{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6}
1) Afin de déterminer l’intervalle interquartile, classons d’abord les données
de la plus petite à la plus grande.
{1,3,4, 6,7,9,11,12,14,15,16,17,19,20}
2) Déterminons l’intervalle médian, puis la médiane et séparons la série en
deux séries.
Ici, (𝑛 + 1)/2 = (14 + 1)/2 = 7,5. L’intervalle médian est donc constitué par la
7ème et la 8ème valeur, c’est-à-dire [11 − 12]. Et la médiane (11 + 12)/2 = 11,5.
3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries
1ère série : { 1,3,4, 𝟔 , 7,9,11}, 𝑀𝑒 = 6
2ème série : {12,14,15, 𝟏𝟔 , 17,19,20 }, 𝑀𝑒 = 16
4) Il ne reste plus qu’à calculer l’intervalle interquartile :
𝐼𝑄 = 𝑄3 − 𝑄1 = 16 − 6 = 10
Exemple 5.5
Soit le tableau suivant, où les valeurs ont été regroupées par classes
Tableau 5.1
𝑋𝑖 [0 − 4[ [4 − 8[ [8 − 12[ [12 − 16[ [16 − 20[ 𝑛𝑖 4 8 5 6 4
STATISTIQUE DESCRIPTIVE MES 2018-2019
38
1) Afin de déterminer l’intervalle interquartile, ajoutons une ligne pour les
effectifs cumulés
Tableau 5.2
𝑋𝑖 [0 − 4[ [4 − 8[ [8 − 12[ [12 − 16[ [16 − 20[ 𝑛𝑖 4 8 5 6 4
∑𝑛𝑖 4 12 𝟏𝟕 23 27
D’où, 𝑛 = 27 2⁄ = 13.5
2) Déterminons la médiane de la série par la méthode étudiée au chapitre
précédent dans le cas des données groupées par classe
𝑀𝑒 = 𝑥𝑖𝑖𝑛𝑓
+ 𝑎𝑖 ∙ [
𝑛2 − 𝑁
(𝑥𝑖−1)
𝑛𝑖] = 8 + 4 ∙ [
13.5 − 12
5] = 9.2
3) Rang de 𝑄1 =27
4= 6,75 ; rang compris dans la classe [4 − 8[ .
Valeur de 𝑄1 = 4 + 4(6,75−4
8) = 5,375.
4) Rang de 𝑄3 =27
4. 3 = 20,25 ; rang compris dans la classe [8 − 25[ .
Valeur de 𝑄3 = 12 + 4 (20,25−17
6) = 14,167
5) 𝐼𝑄 = 𝑄3 − 𝑄1 = 8,792
5.3. Variance, Ecart-type et coefficient de variation
La variance, l’écart-type et le coefficient de variation sont les indicateurs
les plus fréquemment utilisés pour mesurer la dispersion d’une série. Ces
indicateurs renseignent sur la dispersion des données autour de la moyenne.
Plus les données sont concentrées autour de la moyenne, plus les valeurs de
ces trois indicateurs sont faibles. Inversement, plus les données sont
dispersées autour de la moyenne, plus ces trois indicateurs sont élevés.
5.3.1. La variance
Définition 5.3
La variance d’une série statistique est la moyenne arithmétique des
carrés des écarts des variables par rapport à la moyenne arithmétique.
Ce paramètre est donc défini par l’expression :
STATISTIQUE DESCRIPTIVE MES 2018-2019
39
𝜎2 =1
𝑛∑(𝑥𝑖 − �̅�)
2
𝑛
𝑖=1
,
lorsque les données sont connues individuellement ou qu’elles ne se répètent
pas. En revanche, lorsque les données sont groupées par valeurs, on
applique la formule :
𝜎2 =1
𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)
2
𝑛
𝑖=1
.
En fin, lorsque les données sont groupées en classes, c’est le centre de classe
𝑐𝑖 qui remplace 𝑥𝑖 dans la formule précédente.
Remarques 5.1
1. La variance ne se conçoit que si la variable d’intérêt est numérique
2. Si une série ne contient que des valeurs toutes identiques, sa variance est
nulle.
3. Comme la moyenne arithmétique, la variance est sensible à la présence de
valeurs aberrantes, non seulement parce que ces valeurs seront éloignées de
�̅�, mais aussi parce que leur présence va éloigner �̅� des autres valeurs.
a) Détermination directe
Pour calculer la variance directement, on applique successivement les étapes
suivantes :
1. Calcul de la moyenne
2. Calcul des écarts à la moyenne
3. Calcul des carrés des écarts à la moyenne
4. Somme des carrés des écarts à la moyenne
5. Division par 𝑛.
STATISTIQUE DESCRIPTIVE MES 2018-2019
40
Exemple 5.6
Soit la série {2,5,7,1,9,13,6,15,8,16}
Tableau 5.5
𝑥𝑖 (𝑥𝑖 − �̅�) (𝑥𝑖 − �̅�)2
2 -6.2 38.44
5 -3.2 10.24
7 -1.2 1.44
1 -7.2 51.84
9 0.8 0.64
13 4.8 23.04
6 -2.2 4.84
15 6.8 46.24
8 -0.2 0.04
16 7.8 60.84
Calcul préalable de la moyenne �̅� =1
10∑ 𝑥𝑖 = 8.210𝑖=1
Calcul de la variance : 𝜎2 =1
10∑ (𝑥𝑖 − �̅�)
2 =237.6
10= 23.7610
𝑖=1
Lorsque la moyenne arithmétique est une valeur entière, les calculs sont
assez simples, mais lorsque le terme �̅� est un nombre décimal (comme dans
ce cas), l’élévation au carré des écarts devient plus difficile. L’utilisation de
machines à calculer élimine cette difficulté !!!
Propriété
Soit une série statistique d’effectif 𝑛1, de moyenne �̅�1 et de variance 𝜎12,
qui est jointe à une seconde série d’effectif 𝑛2, de moyenne �̅�2 et de variance
𝜎22, et que l’on souhaite déterminer la variance 𝜎2 de la série globale à partir
des paramètres des séries partielles. Nous avons déjà vu comment calculer
la moyenne �̅� de la serie globale. On peut aussi montrer que 𝜎2 peut s’ecrire
comme suit :
𝜎2 =𝑛1𝜎1
2 + 𝑛2𝜎22
𝑛1 + 𝑛2+𝑛1(�̅�1 − �̅�)
2 + 𝑛2(�̅�2 − �̅�)2
𝑛1 + 𝑛2
Exemple 5.7
Soit le série ordonnée {1,2,3,4,5,10,11,12} partagée en deux séries :
𝐸1 = {1,2,3,4,5} et 𝐸2 = {10,11,12}
STATISTIQUE DESCRIPTIVE MES 2018-2019
41
Les moyennes de 𝐸1et 𝐸2 valent respectivement �̅�1 = 3 et �̅�2 = 11. Le calcul de
la variance nous fournit les valeurs 𝜎12 = 2 et 𝜎2
2 = 0,67 . Nous avons par
ailleurs une moyenne globale �̅� = 6.
La variance peut se calculer à partir de la série globale. Elle vaut :
𝜎2 =5 ∙ 2 + 3 ∙ 2 3⁄
8+5 ∙ 9 + 3 ∙ 25
8= 16,5
b) Expression développée de la variance
𝜎2 =1
𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)
2 =1
𝑛∑(𝑛𝑖𝑥𝑖
2 − 2𝑛𝑖𝑥𝑖�̅� + 𝑛𝑖�̅�2)
𝑛
𝑖=1
𝑛
𝑖=1
=1
𝑛∑𝑛𝑖𝑥𝑖
2
𝑛
𝑖=1
−2�̅�
𝑛∑𝑛𝑖
𝑛
𝑖=1
𝑥𝑖 +�̅�2
𝑛∑𝑛𝑖
𝑛
𝑖=1
D'où
𝜎2 =1
𝑛∑𝑛𝑖𝑥𝑖
2
𝑛
𝑖=1
− �̅�2
Moyenne des carrés-carré de la moyenne.
Cette relation est connue sous le nom de «Théorème de Koenig ».
Exemple 5.8
Soit le tableau suivant :
Tableau 5.6
𝑥𝑖 2 6 9 11 15
𝑛𝑖 5 9 4 3 5
Les étapes 1 à 5 sont facilitées par les dispositions en tableau
Tableau 5.7
𝑥𝑖 𝑛𝑖 𝑛𝑖𝑥𝑖 𝑥𝑖2 𝑛𝑖𝑥𝑖
2
2 5 10 4 20
6 9 54 36 324
9 4 36 81 324
11 3 33 121 363
15 5 75 225 1125
Calcul préalable de la moyenne : �̅� =1
26∑ 𝑛𝑖𝑥𝑖 =
208
26= 85
𝑖=1
Calcul de la variance : 𝜎2 =1
26∑ 𝑛𝑖𝑥𝑖
2 − �̅�2 =1
26∙ 2156 − 82 = 18.92315
𝑖=1
STATISTIQUE DESCRIPTIVE MES 2018-2019
42
5.3.2. L’Ecart-type
L’écart-type est égal à la racine carrée positive de la variance :
𝜎 = √1
𝑛∑𝑛𝑖(𝑥𝑖 − �̅�)2𝑛
𝑖=1
= √1
𝑛∑𝑛𝑖𝑥𝑖
2
𝑛
𝑖=1
− �̅�2
Naturellement, si aucune valeur n’est répétée ou si les données ne sont pas
regroupées par valeurs, on aura :
𝜎 = √1
𝑛∑(𝑥𝑖 − �̅�)2𝑛
𝑖=1
= √1
𝑛∑𝑥𝑖
2
𝑛
𝑖=1
− �̅�2
Exemple 5.9
Soit la série {2,5,7,1,9,13,6,15,8,16}
La variance de cette série a déjà été calculée dans l’exemple 5.7. Elle est
égale à 23,76. L’écart-type est : 𝜎 = √23.76 ≅ 4.87
Exemple 5.10
Soit le tableau suivant :
Tableau 5.8
𝑥𝑖 2 6 9 11 15
𝑛𝑖 5 9 4 3 5
La variance de cette série a été aussi calculée dans l’exemple 5.8. Elle est
égale à 18,9231. L’écart-type est: 𝜎 = √18.9231 ≅ 4.35
Propriétés
1. L’écart-type satisfait aux conditions 1,2 et 6 de Yule ; l’écart-type est plus
sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la
moyenne, en raison des élévations au carré.
2. On montre que la variance est le plus petit écart quadratique moyen, i.e.
𝑣𝑎𝑟(𝑥) ≤1
𝑛∑(𝑥𝑖 − 𝐶)
2 pout tout 𝐶
𝑛
𝑖=1
3. L’inégalité de Bienaymé-Tchebychev. Elle indique que, quelle que soit la
distribution statistique étudiée, un intervalle construit en retranchant ou en
ajoutant deux fois l’écart-type à la moyenne arithmétique contient plus de
trois quarts de l’effectif total.
�̅� ± 2𝜎 → 75% des observations
STATISTIQUE DESCRIPTIVE MES 2018-2019
43
Dans le cas d’une distribution symétrique i.e. où la moyenne, la médiane et
le mode ont même valeur (dite distribution normale), l’effectif des
observations est pour les intervalles suivants égal à :
�̅� ±2
3𝜎 → 75% , �̅� ± 2𝜎 → 95% , �̅� ± 𝜎 → 68% , �̅� ± 3𝜎 → 99,9%
4. Détermination des valeurs réduites et centrées réduites. Si 𝑥𝑖 est une série
statistique, la série 𝑦𝑖 des valeurs réduites est définie par :
𝑦𝑖 =𝑥𝑖𝜎
Diviser chaque observations par l’écart-type 𝜎 nous donne une série de
valeurs sans dimension dont la variance (et l’écart-type) valent 1.
Nous avons en effet,
𝜎𝑦2 =
𝜎𝑥2
𝜎𝑥2= 1
D’autre part, les valeurs centrées réduites 𝑧𝑖 sont définies par
𝑧𝑖 =𝑥𝑖 − �̅�
𝜎𝑥
On constate aisément que ces valeurs sont aussi sans dimension, de
moyenne nulle et de variance égale à 1.
5.3.3. Le Coefficient de variation
Défini seulement pour des variables positives, le coefficient de variation
(𝐶𝑉 ) facilite les comparaisons, car il est une valeur « sans dimension »,
indépendante des unités de mesure de 𝑥𝑖 . Il décrit l’écart-type comme
pourcentage de la moyenne arithmétique. Son expression est la suivante :
𝐶𝑉 =𝜎
�̅�∙ 100
Plus le 𝐶𝑉 est élevé, plus la dispersion autour de la moyenne est élevée. On
peut construire d’autres coefficients de ce type en utilisant les statistiques
d’ordre comme les quartiles et les déciles ; citons :
L’interquartile relatif : 𝑄3−𝑄1
𝑄2
L’interquartile relatif : 𝐷9−𝐷1
𝐷5
Exemple 5.11
On connaît les salaires mensuels bruts en euros des employés de la
même entreprise, à 10 ans d’intervalle. Les données sont groupées par
classe. Le nombre d’employés est passé de 200 en 1994 à 280 en 2004. On
veut savoir si la dispersion des salaires à augmenté. Pour cela on va calculer
le coefficient de variation en 1994 et en 2004.
STATISTIQUE DESCRIPTIVE MES 2018-2019
44
Tableau 5.9
Salaires Effectifs 1994 Effectifs 1994
1000-2000 40 56
2000-3000 70 118
3000-4000 80 92
4000-5000 5 10
5000-10000 5 4
On notera tout d’abord que les données sont groupées par classes de
valeurs. Dès lors, il convient de calculer 𝑐𝑖, le centre de chaque classe, qui
tiendra lieu de 𝑥𝑖 dans les différents calculs. Les tableaux ci-après indiquent
les calculs intermédiaires nécessaires pour obtenir le coefficient de variation
des salaires, respectivement en 1994 et en 2004.
Pour l’année 1994 :
Tableau 5.10
Salaires 𝑛𝑖 𝑐𝑖 𝑛𝑖𝑐𝑖 𝑐𝑖2 𝑛𝑖𝑐𝑖
2
1000-2000 40 1500 60000 2250000 90000000
2000-3000 70 2500 175000 6250000 43750000
3000-4000 80 3500 280000 12250000 98000000
4000-5000 5 4500 22500 20250000 101250000
5000-10000 5 7500 37500 5625000 28125000
Calculons la moyenne, la variance et l’écart-type à partir des calculs
intermédiaires du tableau 5.10 :
�̅� =1
200∑𝑛𝑖𝑐𝑖 =
575000
200= 2875
5
𝑖=1
𝜎 = √1890000000
200− (2875)2 = 1088.29
Et le coefficient de variation des salaires pour l’année 1994 est donc égal à :
𝐶𝑉1994 =𝜎
�̅�∙ 100 =
1088.29
2875∙ 100 = 37.85%
STATISTIQUE DESCRIPTIVE MES 2018-2019
45
Refaisons les calculs pour l’année 2004
Tableau 5.11
Salaires 𝑛𝑖 𝑐𝑖 𝑛𝑖𝑐𝑖 𝑐𝑖2 𝑛𝑖𝑐𝑖
2
1000-2000 56 1500 84000 2250000 126000000
2000-3000 118 2500 295000 6250000 73750000
3000-4000 92 3500 322000 12250000 98000000
4000-5000 10 4500 45000 20250000 112700000
5000-10000 4 7500 30000 5625000 225000000
Calculons la moyenne, la variance et l’écart-type à partir des calculs
intermédiaires du tableau 5.11 :
�̅� =1
280∑𝑛𝑖𝑐𝑖 =
775000
280= 2771.43
6
𝑖=1
𝜎 = √2418000000
280− (2771.13)2 = 977.189
Et le coefficient de variation des salaires pour l’année 2004 est donc égal à :
𝐶𝑉2004 =𝜎
�̅�∙ 100 =
977.189
2771.43∙ 100 = 35.26%
L’écart-type représente 37.83 % de la moyenne arithmétique en 1994, et
35.25 % en 2004. En comparant les deux coefficients de variation, on
constate que la dispersion des salaires s’est réduite.
STATISTIQUE DESCRIPTIVE MES 2018-2019
46
Chapitre sixième
CARACTERISTIQUES DE LA FORME
Dans les deux chapitres précédents, nous avons traité de la localisation
du centre de la courbe et de la dispersion des valeurs autour de ce centre.
Outre ces deux paramètres, il est possible, en approfondissant l’analyse, de
rechercher à préciser la forme d’une distribution au moyen de
caractéristiques mesurant son asymétrie et son aplatissement.
6.1. Caractéristique d’asymétrie
On a coutume de distinguer trois types de distributions selon qu’elles
sont dissymétriques à gauche, symétrique ou dissymétrique à droite.
Souvent l’analyse du diagramme en boîtes (ou de l’histogramme des effectifs)
nous permet de nous rendre compte du caractère symétrique ou non d’une
distribution. L’examen d’une boîte à moustaches permet aussi de se faire
une idée sur cette question selon que la boîte et les moustaches sont
symétriques ou, au contraire, de plus petite amplitude à gauche
(asymétrique à gauche) ou à droite (asymétrique à droite).
1. Coefficient d’asymétrie de Fisher
Définition 6.1
Le moment centré d’ordre 𝑟 d’une distribution est égal à la moyenne
arithmétique des puissances d’ordre 𝑟 des écarts (𝑥𝑖 − �̅�) :
𝑚𝑟 =1
𝑛∑𝑓𝑖(𝑥𝑖 − �̅�)
𝑟
𝑛
𝑖=1
Remarque 6.1
Le moment centré 𝑚1 est nul, et le moment centré 𝑚2 n’est autre que la
variance et ne peut etre nul, comme tous les moments centrés d’ordre pair,
que si toutes les observations ont la même valeur. Le moment centré d’ordre
trois est défini par :
𝑚3 =1
𝑛∑𝑓𝑖(𝑥𝑖 − �̅�)
3
𝑛
𝑖=1
Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se
mesure au moyen du coefficient d’asymétrie de Fisher :
𝛾1 =𝑚3
𝜎𝑥3
où 𝜎𝑥3 est le cube de l’écart-type.
STATISTIQUE DESCRIPTIVE MES 2018-2019
47
2. Coefficient d’asymétrie de Yule et Kendall
Le Coefficient d’asymétrie de Yule et Kendall est basé sur les positions
des 3 quartiles (premier quartile, médiane et troisième quartile), et est
normalisé par la distance interquartile
𝐴𝑦 =(𝑄3 −𝑀𝑒) − (𝑀𝑒 − 𝑄1)
𝑄3 − 𝑄1
3. Coefficient d’asymétrie de Pearson
Le Coefficient d’asymétrie de Pearson est basé sur une comparaison de
la moyenne et du mode, et est standardisé par l’écart-type :
𝛽1 =�̅� − 𝑚
𝜎𝑥
Remarque 6.2
Tous les coefficients d’asymétrie ont la même propriété, ils sont nuls si
la distribution est symétrique, négatifs si la distribution est étirée vert la
gauche, et positifs si la distribution est étirée vers la droite.
Exemple 6.1
Soit la distribution suivante :
Tableau 6.1
Classes 𝑛𝑖 𝑥𝑖 𝑛𝑖𝑥𝑖 𝑛𝑖𝑥𝑖2 𝑛𝑖𝑥𝑖
3
50-60 8 55 440 24200 1331000
60-70 10 65 650 42250 2746250
70-80 16 75 1200 90000 6750000
80-90 14 85 1190 101150 8597750
90-100 10 95 950 90250 8573750
100-110 5 105 525 55125 5788125
110-120 2 115 230 26450 3041750
Total 65 5185 429425 36828625
𝑚 = 75,𝑀𝑒 = 79.1, 𝑄1 = 68.1, 𝑄3 = 90.7
Le coefficient s’asymétrie de Fisher :
𝛾1 =𝑚3
𝜎𝑥3 =
1337.31
3680.8= 0.363
Le Coefficient d’asymétrie de Yule et Kendall :
𝐴𝑦 =(𝑄3 −𝑀𝑒) − (𝑀𝑒 − 𝑄1)
𝑄3 − 𝑄1= 0.03
Le Coefficient d’asymétrie de Pearson :
𝛽1 =�̅� −𝑀𝑜𝑑𝑒
𝜎𝑥=
4.8
15.44= 0.3
STATISTIQUE DESCRIPTIVE MES 2018-2019
48
La distribution est donc légèrement oblique à gauche.
6.2. Caractéristiques d’aplatissement
1. Coefficient d’aplatissement
L’aplatissement est mesuré par le coefficient de Person
𝛽2 =𝑚4
𝜎𝑥4
ou le coefficient d’aplatissement de Fisher
𝛾2 = 𝛽2 − 3 =𝑚4
𝜎𝑥4− 3
où 𝑚4 est le moment centré d’ordre 4, et 𝜎𝑥4 est le carré de la variance.
Une courbe est mésokurtique si 𝛾2 ≅ 0.
Une courbe est leptokurtique si 𝛾2 > 0. Elle est plus pointue et possède
des queues plus longues
Une courbe est platykurtique si 𝛾2 < 0 . Elle est plus arrondie et
possède des queues plus courtes.
Exemple 6.2
On veut étudier l’aplatissement de la distribution du chiffre d’affaires
journalier de soixante-quinze épiceries. Calculons le coefficient de Pearson
sur le relevé des données suivantes :
Tableau 6.2
Chiffre d’affaires (Euros)
Fréquences
215-235 4
235-255 6
255-275 13
275-295 22
295-315 15
315-335 6
335-355 5
355-375 4
STATISTIQUE DESCRIPTIVE MES 2018-2019
49
Le moment centré d’ordre 4 de l’échantillon est donnée par :
Tableau 6.3
𝑥𝑖 𝑥𝑖 − 𝑥 𝑓𝑖 𝑓𝑖(𝑥𝑖 − 𝑥)4
225 -65.6 4 74075629.16
245 -45.60 6 25942428.06
265 -25.60 13 5583457.48
285 -5.60 22 21635.69
305 14.40 15 644972.54
325 34.40 6 8402045.34
345 54.40 5 43789058.05
365 74.40 4 122560841.32
281020067.84
Comme 𝜎𝑥 = 33.88,
𝛽2 =𝑚4
𝜎𝑥4=
175∙ 281020067.84
(33.88)4= 2.84
Puis que 𝛽2 est inférieur à 3, on peut conclure que la distribution du chiffre
d’affaire journalier dans soixante-quinze épiceries est platycurtique, i.e. plus
aplatie que la distribution normale.
2. Représentation graphique
Remarques 6.3
1. Le coefficient d’asymétrie et le coefficient d’aplatissement sont des valeurs
sans dimension, ce qui permet de comparer plusieurs distributions entre
elles.
2. Les paramètres de forme et d’aplatissement ne sont affectés ni par un
changement d’unité, ni par un changement d’origine.
STATISTIQUE DESCRIPTIVE MES 2018-2019
50
Chapitre septième
ETUDE DE L'AJUSTEMENT ET DE LA CORRELATION
Il est fréquemment nécessaire d’étudier les liens qui peuvent exister
entre les deux (ou plus de deux) dimensions qui caractérisent une
population statistique. Pour qualifier ces liens on parle de liaison statistique,
de corrélation mais, c’est important de le préciser, il n’est jamais question de
causalité, la statistique descriptive n’ayant pas pour objet de prouver des
causalités.
En fait, le lien de corrélation entre deux phénomènes est un lien
intermédiaire entre d’une part, la liaison fonctionnelle que l’on note 𝑦 = 𝑓(𝑥).
Par exemple, la circonférence d’un cercle est fonction de la grandeur de son
rayon ; d’autre part, l’indépendance totale. Par exemple, l’évolution du prix
de l’essence et celle des cotisations de sécurité sociale.
Dans ce chapitre, on se bornera à l’étude des séries à deux dimensions
𝑋 et 𝑌. Cela offre déjà un large éventail de possibilités si l’on se souvient que
chacune de ces dimensions peut être quantitative, qualitative et que les
données peuvent être groupées dans chaque cas par valeur ou groupées par
classe. Dans toute la suite, nous ne considérons que les données
quantitatives.
7.1. Nuage de points
Il s’agit des représentations graphiques des différents couples de deux
caractères. Ils permettent de visualiser globalement le lien de dépendance
statistique. Nous représentons ci-après, un nuage de points.
Figure 7.1
0
50
100
150
200
250
300
350
400
0 10 20 30 40 50
STATISTIQUE DESCRIPTIVE MES 2018-2019
51
Quoique la très grande majorité des relations réelles entre variables ne
soient pas linéaires, c’est néanmoins l’ajustement linéaire qui est retenu
dans de nombreux cas, pour trois raisons :
1. L’ajustement linéaire est beaucoup plus simple à traiter
mathématiquement.
2. Beaucoup de relations sont approximativement linéaires si l’on
prend un intervalle de variation suffisamment petit.
3. Certaines relations peuvent être rendues linéaires par un
changement de variable appropriée (généralement une
transformation logarithmique).
7.2. Caractéristique d’un couple de deux variables
7.2.1. Covariance
Considérons une série statistique bivariée (𝑥𝑖, 𝑦𝑖) . Pour introduire le
concept de coefficient de corrélation, nous allons présenter au préalable la
covariance, définie par l’expression
𝑐𝑜𝑣(𝑥, 𝑦) =1
𝑛∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)
𝑛
𝑖=1
dans laquelle �̅� et �̅� designent les moyennes des séries marginales. Ce
coefficient peut être positif ou négatif selon la position des observations par
rapport au centre de gravité (�̅�, �̅�).
La covariance s’inspire des réflexions qui sont à la base de la
construction des variances. Elle possède d’ailleurs des propriétés
semblables, à l’exception du fait (comme nous l’avons déjà mentionné) qu’elle
peut être positive ou négative. On peut en particulier montrer que :
𝑐𝑜𝑣(𝑥, 𝑦) =1
𝑛∑ 𝑥𝑖𝑦𝑖 − �̅��̅�𝑛𝑖=1
𝑐𝑜𝑣(𝑥, 𝑦) = 𝑐𝑜𝑣(𝑦, 𝑥)
𝑐𝑜𝑣(𝑥, 𝑥) = 𝑣𝑎𝑟 (𝑥)
𝑣𝑎𝑟(𝑥 + 𝑦) = 𝑣𝑎𝑟(𝑥) + 𝑣𝑎𝑟(𝑦) + 2𝑐𝑜𝑣(𝑥, 𝑦)
|𝑐𝑜𝑣(𝑥, 𝑦)| ≤ √𝑣𝑎𝑟(𝑥)𝑣𝑎𝑟(𝑦)
7.2.2. Coefficient de corrélation linéaire
On appelle coefficient de corrélation linéaire entre deux variables
statistiques 𝑋 et 𝑌, le rapport de leur covariance par le produit de leur écart-
types
STATISTIQUE DESCRIPTIVE MES 2018-2019
52
𝑟(𝑥, 𝑦) =𝑐𝑜𝑣(𝑥, 𝑦)
𝜎𝑥𝜎𝑦
Remarque 7.1
Le coefficient de corrélation est un nombre sans dimension. Compris
entre 0 et ±1 , il est toujours du signe de ∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1 qui peut être
négatif, positif ou nul.
Si 𝑟 est proche de +1, les deux phénomènes sont en relation étroite, et
leur sens de variation est identique : à un accroissement de 𝑥
correspond un accroissement de 𝑦.
Si 𝑟 est proche de −1, les deux phénomènes sont en relation étroite,
mais leur sens de variation est inverse.
Si 𝑟 est compris entre −0.5 et +0.5, il n’y a pas de veritable relation
linéaire entre 𝑥 et 𝑦. Cela peut provenir d’une indépendance ou d’une
relation non linéaire entre les deux phénomènes 𝑥 et 𝑦 (exponentielle,
hyperbolique,…). Le nuage de points est dans ce cas très intensif.
7.3. Ajustement linéaire par la méthode des moindres carrés
7.3.1. Principe et recherche de paramètres
Les points (𝑥𝑖, 𝑦𝑖) forment un nuage dont on cherche une approximation
dans un but de simplification. Mais qui dit simplification dit déformation :
nous voudrions qu’elle soit minimale ; encore faut-il préciser ce que l’on
entend par là. Disons tout de suite que le choix du critère sera arbitraire
même si l’on tente de le justifier par des considérations plus ou moins
intuitives. On peut vouloir par exemple :
o préserver au mieux les distances entre points.
o préserver au mieux les angles des droites joignant les points
Il n’existe pas de moyen de satisfaire à toutes ces exigences à la fois. Il nous
faut donc choisir. Nous allons chercher la meilleure droite au sens de
moindres carrés, i.e. telle que
∑|𝑀𝑖𝐻𝑖|2
𝑛
𝑖=1
soit minimum.
Les distances sont comptées parallèlement à l’un des axes des coordonnées :
nous avons choisi ici l’axe des ordonnées. Il s’agit de déterminer la droite 𝐷
d’équation 𝑦 = 𝑎𝑥 + 𝑏 telle que :
𝐹(𝑎, 𝑏) =∑ (𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏))2𝑛
𝑖=1
soit minimum.
STATISTIQUE DESCRIPTIVE MES 2018-2019
53
Figure 7.2
Nous constatons alors que cette distance est fonction de deux inconnues 𝑎 et
𝑏. Pour déterminer le minimum d’une fonction à deux variables, nous devons
d’abord calculer puis annuler simultanément les deux dérivées premières
partielles.
𝜕𝐹
𝜕𝑎= −2∑ 𝑥𝑖(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)
𝑛
𝑖=1= −2(∑ 𝑥𝑖
𝑛
𝑖=1𝑦𝑖 − 𝑎∑ 𝑥𝑖
2𝑛
𝑖=1− 𝑏∑ 𝑥𝑖
𝑛
𝑖=1)
𝜕𝐹
𝜕𝑏= −2∑ (𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)
𝑛
𝑖=1= −2(∑ 𝑦𝑖
𝑛
𝑖=1− 𝑎∑ 𝑥𝑖
𝑛
𝑖=1− 𝑏𝑛)
L’annulation simultanée de ces deux dérivées partielles, nous amène à
résoudre le système ci-dessous :
{
𝑎∑ 𝑥𝑖2
𝑛
𝑖=1+ 𝑏∑ 𝑥𝑖 =∑ 𝑥𝑖
𝑛
𝑖=1𝑦𝑖
𝑛
𝑖=1
𝑎∑ 𝑥𝑖𝑛
𝑖=1+ 𝑏𝑛 =∑ 𝑦𝑖
𝑛
𝑖=1
soit encore
{𝑎∑ 𝑥𝑖
2𝑛
𝑖=1+ 𝑏𝑛�̅� =∑ 𝑥𝑖
𝑛
𝑖=1𝑦𝑖
𝑎𝑛�̅� + 𝑏𝑛 = 𝑛�̅�
La seconde équation nous indique que
𝑏 = �̅� − 𝑎�̅�
En remplaçant 𝑏 par sa valeur dans la premiere equation, nous obtenons :
𝑎∑ 𝑥𝑖2
𝑛
𝑖=1+ (�̅� − 𝑎�̅�)𝑛�̅� =∑ 𝑥𝑖
𝑛
𝑖=1𝑦𝑖
D’où nous tirons :
𝑎 (1
𝑛∑ 𝑥𝑖
2 − �̅�2𝑛
𝑖=1) =
1
𝑛∑ 𝑥𝑖
𝑛
𝑖=1𝑦𝑖 − �̅��̅�
0
20
40
60
80
100
120
140
160
180
200
0 10 20 30 40 50 60
STATISTIQUE DESCRIPTIVE MES 2018-2019
54
Cette équation s’écrit encore :
𝑎𝜎𝑥2 = 𝑐𝑜𝑣 (𝑥, 𝑦)
D’où
𝑎 =𝑐𝑜𝑣 (𝑥, 𝑦)
𝜎𝑥2
Pour savoir si ces deux valeurs 𝑎 et 𝑏 nous donnent une distance minimale,
il nous faut établir la matrice [𝐻] (matrice du Hessien), matrice formée à
partir des dérivées partielles secondes et croisées, et montrer que ses
déterminants mineurs sont strictement positifs. Ici nous avons
[𝐻] =
[ 𝜕2𝐹
𝜕𝑎2𝜕2𝐹
𝜕𝑎𝜕𝑏𝜕2𝐹
𝜕𝑏𝜕𝑎
𝜕2𝐹
𝜕𝑏2 ]
= [2∑ 𝑥𝑖
2𝑛
𝑖=12𝑛�̅�
2𝑛�̅� 2𝑛
]
det[𝐻] = 4𝑛𝜎𝑥2
Remarques 7.2
1. La droite de moindres carrés passe par le point de coordonnées (�̅�, �̅�)
qu’on appelle parfois le centre de gravité ou point moyen du nuage.
2. La droite des moindres carrés a pour équation
𝑦 − �̅� =𝑐𝑜𝑣 (𝑥, 𝑦)
𝜎𝑥2(𝑥 − �̅�)
7.3.2. Procédés du calcul
Nous venons de démontrer que la droite qui minimise les écarts passe
par un point caractéristique, le point moyen de coordonnes (�̅�, �̅�) et que sa
pente
𝑎 =𝑐𝑜𝑣 (𝑥, 𝑦)
𝜎𝑥2=
1𝑛∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1
1𝑛∑ (𝑥𝑖 − �̅�)𝑛𝑖=1
2=∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)𝑛𝑖=1
∑ (𝑥𝑖 − �̅�)𝑛𝑖=1
2
Posons
{𝑋𝑖 = 𝑥𝑖 − �̅�𝑌𝑖 = 𝑦𝑖 − �̅�
⇒ 𝑎 =∑(𝑋𝑖𝑌𝑖)
∑𝑋𝑖2
Ainsi, l’ajustement s’effectue aisément selon les étapes suivantes :
1. Calculer �̅� et �̅�.
2. Calculer 𝑋𝑖 et 𝑌𝑖 . On mesure les différents écarts (𝑥𝑖 − �̅�) et (𝑦𝑖 − �̅�) (Faire
très attention aux signes).
3. Faire les produits 𝑋𝑖 𝑌𝑖 en respectant la règle des signes, puis en faire la
somme.
4. Elever au carré les valeurs 𝑋𝑖 et en faire la somme.
STATISTIQUE DESCRIPTIVE MES 2018-2019
55
5. Calcul de 𝑎.
6. Calcul de 𝑏.
7. Définir l’équation de la droite dans sa forme générale 𝑦 = 𝑎𝑥 + 𝑏.
La droite de régression sert d’abord à vérifier l’existence d’une relation
linéaire et la nature de celle-ci et en suite à faire des prévisions. Ainsi, nous
pouvons utiliser l’équation de la droite de 𝑌 associée à une valeur de 𝑋 que
l’on se donne.
Exemple 7.1
Une application importante de l’analyse de la régression en comptabilité
concerne l’estimation des coûts. En collectant des données sur les quantités
et sur les coûts et en utilisant la méthode des moindres carrés pour estimer
l’équation de la relation liant les quantités et les coûts, un comptable peut
estimer les coûts associés à une opération de fabrication particulière.
Considérez l’échantillon suivant de quantités et des coûts de production.
Tableau 7.1
𝑥𝑖 𝑦𝑖
12 809
15 860
18 930
21 1110
25 1121
28 1245
31 1380
a) Utiliser ces données pour estimer l’équation de la régression qui peut
servir à prévoir le coût total de la production d’une quantité donnée.
b) Quel est le coût variable par unité produite ?
c) La société prévoit de produire 35 unités le mois prochain. Quel est le coût
estimé de cette opération ?
Solution
a) La droite des moindres carrés est 𝑦 = 29,59𝑥 + 430,9
b) Le coût variable par unité produite est 29,59
c) Le coût estimé de cette opération pour 35 unités est 𝑦 = 29,59 ∙ 35 + 430,9 =
1.466,55
STATISTIQUE DESCRIPTIVE MES 2018-2019
56
Figure 7.3
7.4. Les droites de régression
Dans le cas de séries à deux variables ( 𝑥 et 𝑦 ), il est possible de
considérer successivement chaque variable comme variable expliquée, puis
comme variable explicative. Dans ces conditions, nous pouvons calculer
deux droites de régression.
a) La droite de régression de 𝑦 en 𝑥 d’équation 𝑦 = 𝑎𝑥 + 𝑏, permettant de
déterminer 𝑦 connaissant 𝑥.
b) La droite de régression de 𝑥 en 𝑦 d’équation 𝑥′ = 𝑎′𝑦 + 𝑏′, permettant de
déterminer 𝑥 connaissant 𝑦.
7.4.1. La droite de régression de y en x : 𝒚 = 𝒂𝒙 + 𝒃
L’équation de cette droite se détermine aisément en appliquant la
méthode des moindres carrés développée dans la section précédente.
Rappelons que cette droite passe par le point moyen (�̅�, �̅�) du nuage de
points et que la valeur de sa pente se détermine par la formule suivante :
𝑎 =∑(𝑋𝑖𝑌𝑖)
∑𝑋𝑖2
avec 𝑋𝑖 = 𝑥𝑖 − �̅� et 𝑌𝑖 = 𝑦𝑖 − �̅�.
7.4.2. La droite de régression de x en y : 𝒙′ = 𝒂′𝒚 + 𝒃′
L’équation de cette droite se détermine tout aussi aisément. Elle passe
par le point moyen du nuage de points (�̅�, �̅�) et a pour pente la valeur
suivante :
𝑎′ =∑(𝑌𝑖𝑋𝑖)
∑𝑌𝑖2
y = 29,591x + 430,9
0
200
400
600
800
1000
1200
1400
1600
0 5 10 15 20 25 30 35
STATISTIQUE DESCRIPTIVE MES 2018-2019
57
Soit encore
𝑥 − �̅� =𝑐𝑜𝑣 (𝑥, 𝑦)
𝑣𝑎𝑟(𝑦)(𝑦 − �̅�)
Exemple 7.2
Reprenons l’exemple 7.1. La droite de régression de 𝑥 en 𝑦 est :
𝑥 = 0,032𝑦 − 13,34
Figure 7.4
Remarques 7.3
1. Les deux droites de régression ont des coefficient directeurs (𝑎 et 𝑎′) de
même signe. En effet, les dénominateurs de ceux-ci sont toujours positifs et
leurs numérateurs identiques.
2. Les deux droites de régressions (𝐷 et 𝐷′) ne sont confondues que dans le
cas où : 𝑎′ =1
𝑎⇒ 𝑎𝑎′ = 1
En effet, 𝑦 = 𝑎𝑥 et 𝑥 = 𝑎′𝑦 ⇒ 𝑦 =1
𝑎′𝑥
7.5. Corrélation et causalité
Le plus souvent, l’étude des relations entre deux variables a pour but
plus ou moins avoué d’apprécier dans quelle mesure l’une de deux variables,
dite variable explicative, exerce une influence causale sur l’autre, dite
variable expliquée. Malheureusement, ainsi que nous l’avons indiqué en
introduction, la corrélation n’implique pas la causalité, pour diverses raisons
que nous ne donnons pas ici.
x = 0,032y - 13,34
0
5
10
15
20
25
30
35
0 200 400 600 800 1000 1200 1400 1600
STATISTIQUE DESCRIPTIVE MES 2018-2019
58
Chapitre huitième
LES INDICES STATISTIQUES
Pour l’étude des problèmes économiques et sociaux, on a souvent
besoin de décrire les variations de grandeurs simples telles que le prix du
baril de pétrole, la production de blé, le taux de fécondité, etc. Ces
comparaisons dans le temps (ou dans l’espace) se font généralement en
effectuant le rapport des valeurs de la grandeur considérée à deux dates
différentes (ou en deux lieux distincts) ; on parle d’indice élémentaire.
Mais, il est important d’être en mesure de suivre les évolutions de
grandeurs complexes telles que le niveau général des prix, la production
industrielle, les exportations, etc. Celles-ci peuvent être résumées par une
caractéristique de tendance centrale d’indices élémentaires, ce qui amène à
la construction d’indice synthétiques.
Toute caractéristique de tendance centrale, notamment les différents
types de moyennes, présentent à la fois des avantages et des inconvénients.
Il n’est pas possible de proposer une méthode unique de construction des
indices synthétiques. Il existe différentes formules. On va exposer les plus
utilisées. De par l’importance que revêtent ces indicateurs d’évolution dans
les discussions économiques et politique, il est nécessaire de bien
comprendre leur élaboration, d’analyser leurs modes de construction et
d’étudier leurs propriétés.
8.1. Indices élémentaires
a) Définition
On appelle indice élémentaire d’un phénomène mesurable, le rapport
des valeurs prises par le phénomène aux temps 𝑗 (époque ou année
courante) et 0 (époque ou année de base)
𝐼𝑗 0⁄ =𝑃𝑗
𝑃0∗ 100
Ce rapport est aussi appelé indice simple, indice analytique, indice particulier.
Exemple 8.1
Une entreprise a payé à l’époque 𝑡0 une matière première 𝑋, 30 $ le kg, trois
ans plus tard (en 𝑡3), elle la paye 36 $ le kg. Calculer 𝐼3 0⁄ .
𝐼3 0⁄ =36
30∗ 100 = 120
STATISTIQUE DESCRIPTIVE MES 2018-2019
59
b) Propriétés
1. Identité
Un indice jouit de cette propriété lorsqu’il prend la valeur 100 pour
l’année de base, ce qui peut se noter :
𝐼0 0⁄ =𝑃0𝑃0∗ 100 = 100
2. Réversibilité
𝐼1 0⁄ =1
𝐼0 1⁄
3. Transferabilité
Un indice est transférable si :
𝐼𝑗 0⁄ = 𝐼𝑗 𝑘⁄ ∗ 𝐼𝑘 0⁄
Remarques 8.1
1. Il est possible d’effectuer des changements de base sur les indices
simples. En effet, puisque :
𝐼𝑗 0⁄ = 𝐼𝑗 𝑘⁄ ∗ 𝐼𝑘 0⁄
On a :
𝐼𝑗 𝑘⁄ =𝐼𝑗 0⁄
𝐼𝑘 0⁄
En d’autres termes, connaissant l’indice simple ( 𝐼𝑗 0⁄ ) d’une grandeur à
l’époque 𝑗 par rapport à une époque de base 0, il est possible de calculer ce
même indice (𝑗) par rapport à une autre base (𝑘 par exemple) à partir du
premier indice (𝐼𝑗 0⁄ ) et de celui de la nouvelle base 𝑘 par rapport à l’ancienne
0 (𝐼𝑘 0⁄ ). On dit que la base 0 peut être transférée, ce qui signifie que les
indices peuvent se calculer par rapport :
Soit à une base identique (ou fixe)
Soit, au contraire, à une base différente (ou mobile). L’intérêt de ce
deuxième type de calcul réside dans le fait qu’il fait apparaitre les
variations intermédiaires.
2. La généralisation de cette propriété conduit aux indices chaines. Ainsi on
peut écrire :
𝐼𝑗 0⁄ = 𝐼𝑗 𝑗−1⁄ ∗ 𝐼𝑗−1 𝑗−2⁄ ∗ 𝐼𝑗−2 𝑗−3⁄ ∗ … ∗ 𝐼2 1⁄ ∗ 𝐼1 0⁄
STATISTIQUE DESCRIPTIVE MES 2018-2019
60
8.2. Les indices synthétiques
Les indices élémentaires retracent l’évolution d’une seule grandeur
parfaitement définie et homogène. Mais, plus souvent, l’économiste ou le
dirigeant d’entreprise, si n’est le citoyen désire suivre les variations de
grandeurs complexes telles que les prix, la production industrielle.
Ces grandeurs complexes sont composées d’un nombre plus important de
grandeurs simples dont l’évolution est décrite par un indice élémentaire.
Ainsi les indices élémentaires montrent vite leurs limites quand nous
voulons étudier un ensemble de valeur. Il faut donc disposer d’outils
statistiques permettant de tenir compte de plusieurs composantes.
8.2.1. Valeur d’un panier de biens
Comment mesurer l’évolution d’une variable synthétique, la valeur d’un
panier de produits, sachant que la valeur de chaque produit est elle-même le
produit d’un prix par une quantité ?
Pour clarifier cette question, posons quelques définitions.
Soit 𝑉𝑖𝑡 = 𝑝𝑖𝑡𝑞𝑖𝑡 la valeur du bien 𝑖, à la date 𝑡 où 𝑝𝑖𝑡 représente le prix du bien
𝑖 à la date 𝑡 et 𝑞𝑖𝑡 sa quantité.
Maintenant, s’il y a 𝑛 produits dans le panier (𝑖 = 1, … , 𝑛), la valeur totale du
panier à la date 𝑡 s’écrira : 𝑉𝑖𝑡 = ∑ 𝑝𝑖𝑡𝑞𝑖𝑡𝑛𝑖=1 .
L’évolution de la valeur du panier entre deux dates dépend de
l’évolution du prix de chaque bien et de l’évolution de la quantité de chaque
bien. Il faut donc construire un indice synthétique qui permette d’imputer
l’évolution de la valeur du panier au composant prix ou à la composante
quantité. Plusieurs indices peuvent être envisagés. Nous étudierons
successivement les indices proposés par Laspeyres, Paasche et Fisher. Dans
chaque cas, nous définirons l’indice et nous illustrerons son mode de calcul
par un exemple.
8.2.2. Les indices de Laspeyres
L’économiste allemand Ernst Louis Etienne Laspeyres (1834-1913) a
proposé de calculer deux indices synthétiques qui portent son nom : l’indice
de Laspeyres des prix et l’indice de Laspeyres des quantités.
1) L'indice de Laspeyres des prix
L’indice de Laspeyres des prix mesure l’évolution entre deux dates 0 et
𝑡, des prix des biens qui composent un panier, en prenant comme référence
la valeur du panier à la date initiale ( 𝑡 = 0 ) et en supposant que les
quantités de biens dans le panier n’ont pas varié entre 0 et 𝑡.
L’indice de Laspeyres des prix se définit comme suit :
STATISTIQUE DESCRIPTIVE MES 2018-2019
61
𝐿𝑡 0⁄𝑃 =
∑ 𝑃𝑖𝑡𝑄𝑖0𝑛𝑖=1
∑ 𝑃𝑖0𝑄𝑖0𝑛𝑖=1
∗ 100
On voit ainsi que si les prix ne changent pas entre 0 et 𝑡 (c’est-à-dire si 𝑃𝑖𝑡 =
𝑃𝑖0), l’indice synthétique de Laspeyres des prix demeure égal à 100.
Exemple 8.2
Considérons le tableau suivant indiquant les prix respectifs de trois biens de
consommation à l’année de référence 0 et à l’année courante 𝑛 de même que
les quantités vendues à l’année de référence :
Tableau 8.1
Biens Quantités
vendues en
1970 (𝑄0)
(milliers)
Prix en
1970
(euros)
(𝑃0)
Prix en
1988
(euros)
(𝑃𝑛)
∑𝑃𝑛𝑄0 ∑𝑃0𝑄0
Lait 50.5 0.20 1.20 60.60 11.10
Pain 42.8 0.15 1.10 47.08 6.42
Beure 15.5 0.50 2.00 31.00 7.75
Total 138.68 24.27
Nous pouvons alors trouver l’indice de Laspeyres des prix :
𝐿𝑛 0⁄𝑃 =
∑𝑃𝑛𝑄0∑𝑃0𝑄0
∗ 100 =138.68
24.27∗ 100 = 571.4 %
2) L'indice de Laspeyres des quantités
L’indice de Laspeyres des quantités mesure l’évolution entre deux dates
0 et 𝑡, des quantités des biens qui composent un panier, en prenant comme
référence la valeur du panier à la date initiale (𝑡 = 0) et en supposant que les
prix des biens dans le panier n’ont pas varié entre 0 et 𝑡.
On a donc la formule suivante de l’indice de Laspeyres des quantités :
𝐿𝑡 0⁄𝑄 =
∑ 𝑃𝑖0𝑄𝑖𝑡𝑛𝑖=1
∑ 𝑃𝑖0𝑄𝑖0𝑛𝑖=1
∗ 100
On voit ainsi que si les quantités ne changent pas entre 0 et 𝑡 (c’est-à-dire si
𝑄𝑖𝑡 = 𝑄𝑖0 ), l’indice synthétique de Laspeyres des quantités demeure égal à
100.
STATISTIQUE DESCRIPTIVE MES 2018-2019
62
8.2.3. Les indices de Paasche
L’économiste allemand Hermann Paasche (1851-1925) a proposé de
calculer deux indices synthétiques qui portent son nom : l’indice de Paasche
des prix et l’indice de Paasche des quantités.
1) L'indice de Paasche des prix
L’indice de Paasche des prix mesure l’évolution entre deux dates 0 et 𝑡,
des prix des biens qui composent un panier, en prenant comme référence la
valeur du panier à la date terminale (𝑡) et en supposant que les quantités de
biens dans le panier n’ont pas varié entre 0 et 𝑡.
On a donc la formule suivante de l’indice de Paasche des prix :
𝑃𝑡 0⁄𝑃 =
∑ 𝑃𝑖𝑡𝑄𝑖𝑡𝑛𝑖=1
∑ 𝑃𝑖0𝑄𝑖𝑡𝑛𝑖=1
∗ 100
Exemple 8.3
Considérons le tableau fictif suivant indiquant les prix et les quantités
respectifs de trois biens de consommation à l’année de référence 0 et à
l’année courante 𝑛 :
Tableau 8.2
Biens Quantités
vendues en
1988 (𝑄𝑛)
(milliers)
Prix en
1970
(euros)
(𝑃0)
Prix en
1988
(euros)
(𝑃𝑛)
∑𝑃𝑛𝑄𝑛 ∑𝑃0𝑄𝑛
Lait 85.5 0.20 1.20 102.60 17.10
Pain 50.5 0.15 1.10 55.55 7.575
Beure 40.5 0.50 2.00 81.00 20.250
Total 239.15 44.925
Nous pouvons alors trouver l’indice de Paasche des prix
𝑃𝑛 0⁄𝑃 =
∑𝑃𝑛𝑄𝑛∑𝑃0𝑄𝑛
∗ 100 =239.15
44.925∗ 100 = 532.3 %
2) L'indice de Paasche des quantités
L’indice de Paasche des quantités mesure l’évolution entre deux dates 0
et 𝑡, des quantités des biens qui composent un panier, en prenant comme
référence la valeur du panier à la date terminale (𝑡) et en supposant que les
prix des biens dans le panier n’ont pas varié entre 0 et 𝑡.
On a donc la formule suivante de l’indice de Paasche des quantités :
STATISTIQUE DESCRIPTIVE MES 2018-2019
63
𝑃𝑡 0⁄𝑄 =
∑ 𝑃𝑖𝑡𝑄𝑖𝑡𝑛𝑖=1
∑ 𝑃𝑖𝑡𝑄𝑖0𝑛𝑖=1
∗ 100
8.2.4. Les indices de Fisher
L’économiste et mathématicien américain Irving Fisher a établi le
modèle de l’indice portant son nom en vue de pallier certains inconvénients
rencontrés par les indices de Laspeyres et de Paasche. Comme l’indice de
Laspeyres pondère les prix par les quantités de la période de base, il peut
surestimer l’augmentation du coût de la vie (car les gens peuvent avoir
réduit leur consommation des biens qui sont devenus proportionnellement
plus chers que les autres). A l’inverse, comme l’indice de Paasche utilise les
quantités de la période courante, il peut sous-estimer l’augmentation du
coût de la vie. L’indice de Fisher, la moyenne géométrique des deux indices
de Laspeyres et de Paasche, se veut donc un indice idéal représentant un
compromis entre ces deux indices.
1) L’indice de Fisher des prix
L’indice de Fisher des prix est la moyenne géométrique des indices de
prix de Laspeyres et de Paasche. On a donc la formule suivante de l’indice de
Fisher des prix :
𝐹𝑡 0⁄𝑃 = √𝐿𝑡 0⁄
𝑃 ∗ 𝑃𝑡 0⁄𝑃
2) L’indice de Fisher des quantités
L’indice de Fisher des quantités est la moyenne géométrique des indices
de quantités de Laspeyres et de Paasche. On a donc la formule suivante de
l’indice de Fisher des quantités :
𝐹𝑡 0⁄𝑄 = √𝐿𝑡 0⁄
𝑄 ∗ 𝑃𝑡 0⁄𝑄
Exemple 8.4
Considérons le tableau fictif suivant indiquant les prix et les quantités
respectifs de trois biens de consommation à l’année de référence 0 et à
l’année courante 𝑛 :
STATISTIQUE DESCRIPTIVE MES 2018-2019
64
Tableau 8.3
Biens Quantités
vendues
en 1970
(𝑄0)
(milliers)
Quantités
vendues
en 1988
(𝑄𝑛)
(milliers)
Prix
en
1970
(euros)
(𝑃0)
Prix
en
1988
(euros)
(𝑃𝑛)
∑𝑃𝑛𝑄𝑛 ∑𝑃0𝑄𝑛 ∑𝑃𝑛𝑄0 ∑𝑃0𝑄0
Lait 50.5 85.5 0.20 1.20 102.60 17.10 60.60 11.10
Pain 42.8 50.5 0.15 1.10 55.55 7.575 47.08 6.42
Beure 15.5 40.5 0.50 2.00 81.00 20.250 31.00 7.75
Total 239.15 44.925 138.68 24.27
L’indice de Laspeyres des prix est
𝐿𝑛 0⁄𝑃 =
∑𝑃𝑛𝑄0∑𝑃0𝑄0
∗ 100 =138.68
24.27∗ 100 = 571.4 %
L’indice de Paasche des prix est
𝑃𝑛 0⁄𝑃 =
∑𝑃𝑛𝑄𝑛∑𝑃0𝑄𝑛
∗ 100 =239.15
44.925∗ 100 = 532.3 %
L’indice de Fisher des prix est
𝐹𝑛 0⁄𝑃 = √𝐿𝑡 0⁄
𝑃 ∗ 𝑃𝑡 0⁄𝑃 = √532.3 ∗ 571.4 = 551.5 %
Remarques 8.2
1. Moyenne géométrique des indices de Laspeyres et Paasche la valeur de
l’indice de Fisher est comprise entre les valeurs de ces indices.
2. Il est aussi possible de calculer la moyenne arithmétique des indices des
Laspeyres et Paasche. L’indice ainsi obtenu est appelé indice de Sidgwick et
Drobisch.
3. On vérifie que pour une même période :
Indice des prix de Laspeyres * Indice des prix Paasche = Indice des quantités de
Laspeyres * Indice des quantités Paasche
STATISTIQUE DESCRIPTIVE MES 2018-2019
65
TRAVAUX PRATIQUES
1. Indiquer au moyen de lettres c ou d les quelles de variables suivantes sont
continues ou discrètes.
a) Une distance.
b) Un score de jeu.
c) Un poids de bébé.
d) L’accroissement de la taille d’une fleure.
e) l’âge réel d’une personne.
f) Le nombre de personnes dans une grande foule.
g) Le nombre d’étudiants dans une salle.
h) Les salaires des ouvriers.
2. Parmi les données suivantes spécifier celles qui sont discrètes et celles qui
sont continues.
a) Nombre d’actions vendues chaque jour à la bourse des valeurs.
b) Température enregistrée chaque heure dans un centre météorologique.
c) Durée de vie des tubes de télévisions fabriquées par une société.
d) Traitement annuelle des professeurs de l’université.
e) Longueurs de 1000 vis fabriquées dans une usine.
3. Etablir le domaine de chacune de variable suivante et spécifier si elles
sont continues ou discrètes.
a) Nombre L de litres d’eau contenu dans une machine à laver.
b) Nombre B de livres sur une étagère de bibliothèque.
c) Somme S de points obtenus en laçant une paire de dés.
d) Diamètre D d’une sphère.
e) Pays d’Afrique.
4. Parmi les données suivantes, quelles sont celles qui sont discrètes et
celles qui sont continues.
a) Nombre de centimètres de pluies qui tombent dans une ville pendant
différents mois de l’année.
STATISTIQUE DESCRIPTIVE MES 2018-2019
66
b) Vitesse d’une voiture en kilomètres à l’heure.
c) Nombre de billets de cent franc en circulation à Lubumbashi à chaque
instant.
5. Dans une entreprise, on veut étudier la situation matrimoniale du
personnel féminin. Quelle est la nature du caractère ? Quelles sont les
modalités que peuvent prendre ce caractère ?
6. Indiquer les différentes modalités des variables suivantes :
-situation familiale,
-numéro de département,
-résultats d’un jet de deux dés,
-valeur d’une carte tirée au hasard dans un jeu de 32 cartes où par
conventions les As sont comptés pour 15 points, les Habillés pour 10 points,
et les autres cartes pour leurs valeurs respectives.
7. Considérer une population hétérogène de N = 2500 individus et
décomposable en 5 strates c1, c2, …, c5 respectivement de N1 = 600, N2 =
450, N3 = 900, N4 = 170, N5 = 380. On souhaite en extraire un échantillon
représentatif de taille n = 250 individus. Comment procéder ?
8. Soit la série suivante, relative au nombre de bons de commande
enregistrés dans une journée pour une entreprise donnée, pendant un mois :
30,28,28,32,27,28,27,28,27,28,26,27,27,28,28,30,32,29,29,28,29,27,28,30,
32,28,28,27,27,29,29. Faite un tableau de dépouillement en utilisant la
méthode dite « du pendu ».
9. Par ordre alphabétique, les six noms de famille les plus courants aux
Etats-Unis sont Brown, Davis, Johnson, Jones, Smith et Williams (Time
Almanac 2006). Supposer qu’un échantillon de 50 individus dont le nom de
famille correspond à l’un de ces six noms, fournit les données suivantes :
Brown Williams Williams Williams Brown
Smith Jones Smith Johnson Smith
Davis Smith Brown Williams Johnson
Johnson Smith Smith Johnson Brown
Williams Davis Johnson Williams Johnson
Williams Johnson Jones Smith Brown
Johnson Smith Smith Brown Jones
Jones Jones Smith Smith Davis
Davis Jones Williams Davis Smith
Jones Johnson Brown Johnson Davis
STATISTIQUE DESCRIPTIVE MES 2018-2019
67
Résumer les données en construisant
a) Les distributions de fréquences relative et en pourcentage
b) Un diagramme en barres
c) Un diagramme circulaire
d) En vous basant sur ces données, quels sont les trois noms de
famille les plus courants ?
10. Considérons les répartitions des naissances des enfants suivant l’âge de
la mère :
Age de la mère Nombre d’enfants
Moins de 20 ans
De 20 à 24 ans
De 25 à 29 ans
De 30 à 34 ans
De 35 à 39 ans
De 40 ans et plus
28600
227600
277100
172600
110900
2378
a) Dresser un tableau où figureront les classes d’âge, les effectifs,
les fréquences, les effectifs cumulés et les fréquences cumulées.
b) Représenter l’histogramme des effectifs.
c) Représenter le polygone des fréquences.
11. Le tableau suivant donne l’âge en jour de 60 nouveaux – nés :
142 262 102 194 222 119 83 156 182 159 186 204
193 197 170 260 148 107 120 172 216 172 222 208
194 162 183 171 176 143 147 214 173 190 177 206
170 176 126 146 175 182 149 181 114 206 201 198
132 159 169 169 75 159 180 63 197 126 90 189
a) Etablir la distribution des effectifs (par la méthode de Sturge).
b) Construire un histogramme et un polygone de fréquence pour la
distribution des effectifs.
STATISTIQUE DESCRIPTIVE MES 2018-2019
68
12. Le restaurant-grill LEVEROCK, situé en front de mer, à Maderia Beach
en Floride demande à ses clients de remplir un questionnaire d’évaluation
du service, de la qualité de la nourriture, des cocktails, des prix et de
l’ambiance du restaurant. Chaque caractéristique est évaluée sur une
échelle allant d’excellent (E) à mauvais (M), en passant par très bon (T), bon
(B) et moyen (Mo). Utiliser les statistiques descriptives pour résumer les
données suivantes concernant la qualité de la nourriture. Quelle est votre
opinion concernant la qualité de la nourriture dans ce restaurant ?
B E T B Mo E T E E Mo
T E M T E B Mo E E E
T Mo B E T M T E T B
E B Mo E T E E B B E
T E E Mo T T E T E B
13. Le classement des 20 plus importants concerts en tournée aux Etats-
Unis et le prix moyen des billets d’entrée à ces concerts sont présentés ci-
dessous. La liste est basée sur les données fournies au magazine POLLSTAR
par les organisateurs des concerts (Associated Press, 21 Novembre 2003)
Concert Prix du billet d’entrée
BRUCE SPRINGSTEEN 72.40
DAVE MATTHEWS BAND 44.11
AEROSMITH /KISS 69.52
SHANIA TWAIN 61.80
FLEETWOOD MAC 78.34
RADIOHEAD 39.50
CHER 64.47
COUNTING CROWS 36.48
TIMBERLAKE/AGUILERA 74.43
MANA 46.48
TOBY 37.76
JAMES TAYLOR 44.93
ALABAMA 40.83
HAPER/JOHNSON 33.70
50 CENT 38.89
STEELY DAN 36.38
RED HOT CHILI PEPPERS 56.82
R.E.M. 46.16
AMERICAN IDOLS LIVE 39.11
MARIAH CAREY 56.08
Résumer les données en construisant ;
a) Une distribution de fréquence absolue et en pourcentage.
STATISTIQUE DESCRIPTIVE MES 2018-2019
69
b) Un diagramme en bâtons.
c) Quel est le concert le plus cher ? Et quel est le moins cher ?
d) Commenter les indications sur le prix moyen des billets de concert
fournis par ces données.
14. Quel est le prix moyen d’une action d’une société appartenant à l’indice
Dow Jones industriel ? Les données suivantes indiquent le prix d’une action
arrondi au dollar le plus proche en Janvier 2006 (The Wall Street Journal,
16 janvier 2006).
Société Prix d’une action
($)
Société Prix d’une action
($)
AIG 70 Caterpillar 62
Alcoa 29 Citigroup 49
Groupe Altria 76 Coca-Cola 41
American Express 53 Disney 26
AT&T 25 Dupont 40
Boeing 69 Exxon Mobil 61
a) Construire un diagramme en bâtons représentant ces données.
b) Quelles sont les actions les plus chères et les moins chères.
15. Soit le tableau suivant :
𝑋𝑖 Fréquence
4 2
6 5
8 8
10 10
12 4
14 1
Calculer les moyennes arithmétique, géométrique, harmonique et
quadratique puis vérifier la relation suivante : 𝑥𝐻 < 𝑥𝐺 < �̅� < 𝑥𝑄.
16. Calculer la moyenne arithmétique d’une série unique composée de deux
séries ayant respectivement 18 et 24 comme moyenne arithmétique, 5 et 6
comme taille respective.
17. L’indice Dow Jones voyage correspond au prix payé par les voyageurs
d’affaires pour une nuit d’hôtel dans les principales villes américaines (The
Wall Street journal, 16 Janvier 2004). Les prix moyens, en dollars, d’une
chambre d’hôtel dans 20 villes sont indiqués ci-dessous ;
STATISTIQUE DESCRIPTIVE MES 2018-2019
70
Atlanta 163, Boston 177, Chicago 166, Cleveland 126, Dallas 123, Denver
120, Detroit 144, Houston 173, Los Angeles 160, Miami 192, Minneapolis
125, La Nouvelle Orleans 167, New York 245, Orlando 146, Phoenix 139,
Pittsburgh 137, San Francisco 167, Seattle 162, Saint Louis 145,
Washington D.C. 207.
a) Quel est le prix moyen d’une chambre d’hôtel ?
b) Quelle est la médiane ?
c) Quel est le mode ?
d) Quel est le premier quartile ?
e) Quel est le troisième quartile ?
18. Soit la série statistique suivante :
Classes Fréquences
0-20 3
20-40 6
40-60 9
60-80 10
80-100 12
100-120 16
120-140 15
140-160 11
160-180 10
180-200 7
a) Tracer l’histogramme des fréquences et en déduire le mode.
b) Tracer le polygone des fréquences
c) Calculer la moyenne arithmétique
d) Déterminer la médiane
19. Pour tester la consommation d’essence, 13 automobiles ont parcouru
300 km dans des conditions de conduite similaire à celles obtenues en ville
et sur l’autoroute. Les données sur la consommation, en 𝑘𝑚 par gallon (un
gallon US vaut exactement 3,785 411 784 litres), sont présentées ci-
dessous :
Ville : 16.2 16.7 15.9 14.4 13.2 15.3 16.8 16.0 16.1 15.3 15.2 15.3 16.2
Autoroute : 19.4 20.6 18.3 19.6 19.2 17.4 17.2 18.6 19.0 21.1 19.4 18.5
18.7
Utiliser la moyenne, la médiane et le mode pour étudier les différences de
performance entre la conduite en ville et sur l’autoroute.
STATISTIQUE DESCRIPTIVE MES 2018-2019
71
20. Le coût des achats de consommations courantes tels que le logement,
l’essence, les services Internet, les impôts et les frais médicaux est fourni par
le Wall Street Journal (2 Janvier 2007). Voici un échantillon du coût habituel
des procédures de déclaration de l’impôt sur le revenu fournies par des
sociétés telles que H&R Block : 120,230,110,115,160,130,150,105,195,155,
360,120,120,140,100,115,180,235,255.
a) Calculer la moyenne, la médiane et le mode.
b) Calculer le premier et le troisième quartile.
21. Un groupe d’économistes a effectué des prévisions sur l’économie
américaine pour les six premiers mois de l’année 2007 (The Wall Street
Journal, 2 Janvier 2007). Les taux de croissance (en pourcentage) du
produit intérieur brut (PIB) estimés par 30 économistes sont les suivants :
2,6 3,1 2,3 2,7 3,4 0,9 8,6 2,8 2,0 2,4 2,7 2,7 2,7 2,9 3,1
2,8 1,7 2,3 2,8 3,5 0,4 2,5 2,2 1,9 1,8 1,1 2,0 2,1 2,5 0,5
a) Quelle est la prévision minimale pour le taux de croissance du
PIB ? Quelle est la prévision maximale ?
b) Calculer la moyenne, la médiane et le mode.
c) Calculer les premier et troisième quartiles.
d) Les économistes étaient-ils optimistes ou pessimistes ? Discuter.
22. Une entreprise d’accessoires automobiles fabrique deux types de
plaquettes de freins à disque.
-le premier type (A) assure un parcours moyen de 9000 km avec un écart-
type de 1500 km.
-le deuxième type (B) assure un parcours moyen de 18000 km avec un écart-
type de 2500 km.
Peut-on dire que le type (B) est meilleur que le type (A) ?
23. La société Walt Disney a acheté le studio d’animation Pixar pour 7,4
milliards de dollars (CNNMonney.com, 24 Janvier 2007). Une liste des films
d’animation produits par Disney et Pixar au cours des dix années
précédentes est fournie ci-dessous. Le chiffre d’affaires généré par ces films
est exprimé en millions de dollars. Calculer le chiffre d’affaires global, la
moyenne, la médiane, et les quartiles pour comparer le succès des films
produits par les deux sociétés. Est-ce que les statistiques fournissent au
moins une raison pour expliquer pourquoi Disney était intéressé par le
rachat de Pixar ? Discuter.
STATISTIQUE DESCRIPTIVE MES 2018-2019
72
Film Disney Chiffre d’affaires
Pocahontas 346
Le bossu de notre dame 325
Hercules 253
Mulan 304
Tarzan 448
Dinosaure 354
The emperor’s new groove 169
Lilo & Stitch 273
Treasure planet 110
Le livre de la jungle 2 136
Brother Bear 250
Nome on the range 104
Chicken little 249
Toy story 362
A bug’s life 363
Toy story 2 485
Monsters, Inc. 525
Finding nemo 865
Les incroyables 631
24. Un équipement home cinéma est la façon la plus simple et la plus
économique de récréer chez soi l’ambiance cinéma. Ci-dessous figure un
échantillon de prix (Consumer Reports Buying Guide, 2004). Deux types de
modèles sont distingués : le modèle avec le lecteur et sans lecteur DVD.
Modèles avec lecteur DVD
Prix ($)
Modèles sans lecteur DVD
Prix ($)
SONY HT-1800DP 450 PIONNER http-230 300
PIONNER HTD-330DP 300 SONY HT-DOW750 300
SONY HT-C800DP 400 KENWOOD HT B-306 360
PANASONIC SC-HT900 500 RCA RT-2600 290
PANASONIC SC-MTI 400 KENWOOD HT B-206 300
a) Calculer le prix moyen des modèles avec lecteur DVD et le prix
moyen des modèles sans lecteur DVD. Quel est le coût
supplémentaire d’un équipement home cinéma comprenant un
lecteur DVD ?
b) Calculer l’étendue, la variance et l’écart type de deux échantillons.
Que vous apprennent ces données concernant le prix des modèles
avec et sans lecteur DVD.
25. Les tarifs de location à la journée d’un véhicule dans un échantillon de
sept villes de l’Est des Etats-Unis figurent ci-dessous (The Wall Street
Journal, 16 Janvier 2004).
STATISTIQUE DESCRIPTIVE MES 2018-2019
73
Ville Tariffs journaliers ($)
Boston
Atlanta
Miami
New York
Orlando
Pittsburgh
Washington
43
35
34
58
30
30
36
a) Calculer la moyenne, la variance et l’écart-type des tarifs de
location.
b) Un échantillon similaire de sept villes de l’Ouest des Etats-Unis
relève un tarif de location moyen de 38 dollars par jour. La variance
et l’écart-type sont respectivement de 12,3 et 3,5. Discuter des
différences entre les tarifs de location des véhicules de l’Est et de
l’Ouest des Etats-Unis.
26. La société FLORIDA POWER & LIGHT (FP&L) a acquis la réputation de
réactiver rapidement ses installations électriques après des tempêtes.
Toutefois, durant la saison des ouragans en 2004 et 2005, il est apparu que
le processus historique de réparation d’urgences des systèmes électriques de
la société n’était plus aussi performant, (The Wall Street Journal, 16 Janvier
2006). Les données indiquant le nombre de jours nécessaires pour rétablir le
courant après sept ouragans en 2004 et 2005 sont présentes ci-dessous.
Ouragan Nombre de jours nécessaire pour rétablir le courant
Charley 13
Frances 12
Jeanne 8
Dennis 3
Katrina 8
Rita 2
Wilma 18
D’après cet échantillon, calculer les statistiques descriptives suivantes :
a) La moyenne, la médiane et le mode.
b) L’étendue et l’écart-type.
c) L’ouragan Wilma devrait-il être considéré comme une valeur
aberrante en termes de jours requis pour rétablir le courant ?
d) Les sept ouragans ont généré 10 millions d’interruptions du service
électrique. Est-ce que les statistiques montrent que FP&L devrait
revoir son processus de réparation d’urgence des systèmes
électriques ? Discuter.
STATISTIQUE DESCRIPTIVE MES 2018-2019
74
27. On a observé un échantillon de 50 valeurs d’un dosage (exprimé en cg
/litre). Le tableau ci-dessous en donne la répartition de 5 classes.
Classes Effectifs
30-60
60-90
90-120
120-150
150-180
7
11
14
11
7
a) Tracer l’histogramme et le polygone statistique des effectifs.
b) Calculer les valeurs typiques de position.
c) Calculer les valeurs typiques de dispersion.
d) Le polygone statistique des effectifs ressemble à quelle distribution
théorique. Justifier.
28. Même données de l’exercice précédent.
a) Calculer l’intervalle interquartile et en donner une interprétation.
b) Calculer le coefficient d’aplatissement (2ème coefficient de Fisher).
c) Calculer le coefficient d’asymétrie.
29. Soit la répartition de 100 ouvriers, selon le salaire horaire en francs
Classes Fréquence
18-20 10
20-22 20
22-24 38
24-26 25
26-28 7
a) Calculer le salaire horaire moyen
b) Calculer l’écart-type par rapport à ce salaire horaire
c) Interpréter les résultats.
30. Le tableau ci-dessous donne les débits mesurés du Rhin observés au
mois d’avril et mai des années 1937-1954 (l’unité choisie n’est pas précisée
car elle est sans importance ici)
STATISTIQUE DESCRIPTIVE MES 2018-2019
75
Années Avril Mai
1937 600 512
1938 237 211
1939 487 469
1940 560 370
1941 521 363
1942 423 272
1943 307 241
1944 390 253
1945 364 408
1946 284 233
1947 415 245
1948 255 199
1949 209 215
1950 230 297
1951 424 309
1952 528 303
1953 268 196
1954 242 166
On se propose de mettre en ordre ces données
a) Donnez une représentation globale des débits d’avril et de mai. On tracera
deux histogrammes de fréquences.
b) Calculez la moyenne �̅� des débits d’avril et la moyenne �̅� des débits de
mai.
c) Calculez les écart-types 𝜎1 et 𝜎2 des débits d’avril et de mai.
d) Comparez les débits d’avril et de mai en utilisant les résultats de la
deuxième et de la troisième question.
e) Comparer les débits d’avril et de mai en calculant le coefficient de
corrélation.
31. Construire pour les valeurs ci-dessous une distribution de fréquences
par la méthode de Sturge et dessinez l’histogramme correspondant.
Déterminer la médiane, la moyenne, l’écart-type, le domaine de variation, le
coefficient de variation.
184 170 188 175 142 196 172 212 208 172 190 180
193 231 188 184 181 141 211 154 190 186 159 190
163 160 198 187 191 201 150 228 214 180 188 191
STATISTIQUE DESCRIPTIVE MES 2018-2019
76
200 183 178 181 193 225 130 165 166 165 208 171
190 221 191 170 197 157 158 169 234 205 186 186
32. Un agent social mène une enquête sur la rémunération de salaire de 2
usines comprenant chacune 20 ouvriers. Voir le résultat obtenu.
Usine A
Salaire (en $) Effectif cumulé
70 2
80 9
150 12
200 16
250 17
300 20
Usine B
Salaire (en $) Effectif cumulé
50 1
100 7
150 12
200 18
250 20
a) Estimer le salaire moyen et l’écart-type de chaque distribution.
b) En vous basant sur les résultats en a), déterminer l’usine qui a une bonne
politique salariale. Commenter votre réponse.
33. La moyenne d’un examen de mathématique est 72 et l’écart-type 15.
Déterminer la note centrée réduite des étudiants ayant reçus les notes
respectives 60, 93, 72.
34. En se rapportant au problème précédent, trouver les notes
correspondants aux valeurs centrées réduites suivantes -1 et 1,6.
35. Un étudiant a obtenu 75 en statistique, 71 en mathématique et 85 en
comptabilité. A quel examen a-t-il le mieux réussi relativement. Les
moyennes et les écart-type sont respectivement 72 et 10, 68 et 7, 80 et 16.
36. Représenter graphiquement les points correspondants aux coordonnées
ci-après et tracer la droite qui ajuste le mieux le nuage de points obtenus
a)
X 9 8 7 5 5 3 2 1
Y 8 3 5 6 1 8 7 2
STATISTIQUE DESCRIPTIVE MES 2018-2019
77
b)
X 5 10 15 20 25 80 35 40 45
Y 103 106 109 112 117 121 124 127 131
37. Trouver la droite de régression de 𝑋 et 𝑌 des données de l’exercice
précédent et monter que les deux droites de régression se coupent au point
médian 𝑀(�̅�, �̅�).
38. Les températures journalières minimales et maximales de 12 villes
américaines sont regroupées dans le tableau suivant (La chaine météo, 25
Janvier 2004) :
Ville 𝑇° Max 𝑇° Min Ville 𝑇° Max 𝑇° Min
Albany 9 8 Los Angeles 62 47
Boise 32 26 Nouvelle Orléans 71 55
Cleveland 21 19 Portland 43 36
Denver 27 10 Providence 18 8
Des Moines 24 16 Raleigh 28 24
Detroit 20 17 Tulsa 55 38
Quelle est la température maximale moyenne ? Quelle est la température
minimale moyenne ? Quel est le coefficient de corrélation entre les
températures maximales et minimales ?
39. Dans les documents comptables d’une entreprise, on a relevé l’évolution
du poste « Frais de transport » au cours des dix dernières années (en
millions des francs).
𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡7 𝑡8 𝑡9 𝑡10 12,00 11.50 13,00 13,50 13,00 14,50 14,00 15,00 15,50 16,00
a) Représenter graphiquement cette série chronologique.
b) Faire un ajustement par la méthode des moindres carrés
c) Si la tendance générale persiste, quelle est l’estimation des « Frais de
transport » pour l’année suivante 𝑡11?
40. Les données suivantes indiquent les dépenses publicitaires annuelles en
millions de dollars et la part de marché de six sociétés automobiles
(Adversting Age, 23 Juin 2006)
STATISTIQUE DESCRIPTIVE MES 2018-2019
78
Société Publicité (en millions de $)
Part de marché (%)
DAIMLER CHRYSLER 1590 14.9
FORD MOTOR Co. 1568 18.6
GENERAL MOTOR Cop. 3004 26.2
HONDA MOTOR Co. 854 8.6
NISSAN MOTOR Co. 1023 6.3
TOYOTA MOTOR Corp. 1075 13.3
a) Représenter le nuage de point associé à ces données, avec pour variable
indépendante les dépenses publicitaires et pour variable dépendante la part
de marché.
b) Quelle relation entre les deux variables le nuage de point indique-t-il ?
c) Utiliser la méthode des moindres carrés pour développer l’équation de
régression estimée.
d) Interpréter la pente de l’équation de régression estimée.
e) Supposer que la société Honda pense que l’équation de la régression
estimée à la question (c) peut permettre d’estimer la part de marché de
l’année suivante. Prévoir la part de marché de Honda si la société décide
d’accroître ses dépenses publicitaires à 1200 millions de dollars l’année
suivante.
41. L’indice de production d’une entreprise a évolué de la façon suivante
Période Indice de
production
Période Indice de
production
𝑡0 172 𝑡6 212
𝑡1 180 𝑡7 227
𝑡2 190 𝑡8 225
𝑡3 193 𝑡9 226
𝑡4 200 𝑡10 240
𝑡5 210
a) Représenter graphiquement cette série.
b) Etablir l’équation de cette droite d’ajustement.
c) Procéder à un ajustement par la méthode des moindres carrés. Déterminer
l’équation, puis tracer cette fonction sur le graphique.
d) Peut-on estimer, à partir de cette dernière équation, quelle a été la période
de base (indice-100) ?
STATISTIQUE DESCRIPTIVE MES 2018-2019
79
42. Bergans de Norvège fabrique du matériel de plein air depuis 1908. Les
données suivantes indiquent la température (en degré Fahrenheit) et le prix
(en dollars) de 11 modèles de sac de couchage fabriqués par Bergans
(Backpacker 2006 Gear Guide)
Modèle Température (℉) Prix ($)
RANGER 3-SEASONS 12 319
RANGER SPRING 24 289
RANGER WINTER 3 389
RONDANE 3-SEASONS 13 239
RONDANE WINTER 4 289
SENJA SNOW 15 259
SENJA ZERO 25 229
SUPER LIGHT 45 129
TIGHT & LIGHT 25 199
RONDANE SUMMER 38 199
SENJA ICE 5 359
a) Représenter le nuage de points associé à ces données en utilisant la
température comme variable indépendante.
b) Quelle relation entre les deux variables le nuage de points indique-
t-il ?
c) Estimer par la méthode de moindres carrés l’équation de la
régression.
d) Estimer le prix d’un sac de couchage dont la température est de 20o
Fahrenheit.
43. L’entreprise Georges Sare S.A. utilise un parc automobile de six
véhicules (chacun étant affecté à une représentation). Le service financier
vous demande de calculer le coefficient de corrélation entre la consommation
d’essence (en litre aux 100 km) et le coût total d’utilisation (aux 100 km et
en francs)
Consommations aux 100 km (𝑥𝑖) 7,5 8,2 8,8 9,1 9,2 10,5
Coût total d’utilisation (𝑦𝑖) 62 67 67 74 80 88
44. Bien que les retards dans les grands aéroports soient maintenant moins
fréquents, il est utile de connaître les aéroports les plus susceptibles de
modifier votre planning. En plus, si votre avion arrive en retard dans un
aéroport où vous devez prendre un autre avion, quelle est la probabilité que
le départ de cet avion soit retardé pour vous permettre de prendre votre
correspondance ?
Les données suivantes indiquent le pourcentage d’arrivée et de départ en
retard, en août, dans 13 aéroports (Business 2.0, février 2002)
STATISTIQUE DESCRIPTIVE MES 2018-2019
80
Aéroport % d’arrivée en retard % de départ en retard
Atlanta 24 22
Charlotte 20 20
Chicago 30 29
Cincinnati 20 19
Dallas 20 22
Denver 23 23
Detroit 18 19
Houston 20 16
Minneapolis 18 18
Phoenix 21 22
Pittsburg 25 22
Salt Lake City 18 17
St Louis 16 16
a) Représenter le nuage de points associé à ces données, en
considérant le pourcentage d’arrivées en retard comme variable
indépendante.
b) Quelle relation le nuage de ce point indique-t-il entre les arrivées en
retards et les départs en retard ?
c) Utiliser la méthode des moindres carrés pour estimer l’équation de
la régression.
d) Supposer que le pourcentage d’arrivées en retard à l’aéroport de
Philadelphie en août était de 22 %. Quel est le pourcentage de
départ en retard estimé ?
45. La société Dupont-Lawille augmente son capital. L’expert-comptable à
relevé pendant les dix dernières semaines les cours (𝑥𝑖) de l’action « Dupont-
Lawille » en Bourse et les cours (𝑦𝑖) du droit de souscription.
x 200 205 210 220 225 210 210 200 180 190
y 16 18 19 19 21 20 19 17 18 18
a) Déterminer une relation linéaire permettant de déduire les cours du droit
de souscription du cours de l’action.
b) Déterminer une relation linéaire permettant de calculer le cours de
l’action, connaissant la valeur du droit de souscription.
c) Calculer le coefficient de corrélation.
46. Une application importante de l’analyse de la régression en comptabilité
concerne l’estimation des coûts. En collectant des données sur les quantités
et sur les coûts et en utilisant la méthode des moindres carrés pour estimer
l’équation de la relation liant les quantités et les coûts, un comptable peut
STATISTIQUE DESCRIPTIVE MES 2018-2019
81
estimer les coûts associés à une opération de fabrication particulière.
Considérez l’échantillon suivant de quantités et des coûts de production.
Volume de production Coût total ($)
400 4000
450 5000
550 5400
600 5900
700 6400
750 7000
a) Utiliser ces données pour estimer l’équation de la régression qui peut
servir à prévoir le coût total de la production d’une quantité donnée.
b) Quel est le coût variable par unité produite ?
c) La société prévoit 500 unités le mois prochain. Quel est le coût estimé de
cette opération ?
47. Le coût « y » d’une activité dans une entreprise textile peut être considéré
comme une fonction linéaire d’une production « x » : 𝑦 = 𝑎𝑥 + 𝑏
a) Déterminer les valeurs à prendre pour les constantes 𝑎 et 𝑏 en procédant
à l’ajustement linéaire des données numériques suivantes, résultant de
l’observation.
Unités de
production
10 15 20 25 40 50 60 80
Coût 280 420 525 580 905 1030 1380 1680
b) Estimer si possible le coût de l’activité correspondant à une production de
100 unités.
48. Les présidents des sociétés et les directeurs généraux sont-ils payés en
fonctions des bénéfices des sociétés ? Le tableau suivant regroupe des
données sur la variation en pourcentage du rendement des actions sur une
période de deux ans et la variable en pourcentage du salaire du président et
ces directeurs généraux après cette période de deux ans (Business week, 21
avril 1997).
a) Estimez l’équation de la régression en considérant le pourcentage du
rendement des actions en tant que variable indépendante.
STATISTIQUE DESCRIPTIVE MES 2018-2019
82
b) Quel est le coefficient de corrélation de l’échantillon ? Reflète-t-il une
relation forte ou faible entre le rendement des actions et le salaire des
directions
Société Variation de rendement
Variation de salaire
Dow Chemical 201,3 18
Rohn & Haas 146,5 28
Morton International 76,7 10
Union Carbide 158,2 28
Prascau -34,9 15
Air Products & Chemical 73,2 -9
Eastman Chemical -7,9 -20
49. L’indice Dow Jones Industriel (DJ) et l’indice standard & Poor’s 500 (S&P
500) sont utilisées pour mesurer les mouvements sur le marché boursier. Le
Dow Jones est fondé sur les mouvements de prix de 30 grandes sociétés, le
S&P est un indice composé de 500 actions. Certains disent que S&P 500 est
une meilleure mesure de la performance du marché boursier du fait de sa
base plus large. Les prix de clôture de deux indices pendant 20 semaines, à
partir du 09 septembre 2005 sont regroupés ci-dessous et dans le fichier en
ligne DJS&P 500 (Barron’s, 30 janvier 2006).
Date Dow Jones S&P 500 Date Dow Jones S&P 500
9-sept 10679 1241 18-nov 10766 1248
16-sept 10642 1238 25-nov 10932 1268
23-sept 10420 1215 02-dec 10878 1265
30-sept 10569 1229 09-dec 10779 1259
07-oct 10292 1196 16-dec 10876 1267
14-oct 10287 1187 23-dec 10823 1269
21-oct 10215 1180 30-dec 10718 1248
28-oct 10403 1198 03-janv 10960 1285
04-nov 10531 1220 13-janv 10960 1288
11-nov 10686 1235 20-janv 10667 1261
a) Représenter le nuage de points de cet ensemble de données, en
prenant pour variable indépendante l’indice DJ.
b) Estimer l’équation de la régression.
c) L’équation estimée de la régression est-elle bien adaptée aux
données ? Expliquer.
d) Supposer que le prix de clôture du Dow Jones sort de 11.000
points. Estimer les prix de clôture du S&P 500.
e) Devrons-nous être attentifs au fait que la valeur de l’indice Dow
Jones de 11.000 utilisée pour prévoir l’indice S&P 500 à la question
STATISTIQUE DESCRIPTIVE MES 2018-2019
83
(d) n’appartient pas à l’intervalle des données utilisées pour estimer
l’équation de la régression ?
50. Une entreprise a versé en 1970 40 000 $ pour rétribuer ses 120
employés. En juillet de la même année 30 employés supplémentaires ont été
embauchés par la compagnie qui, de ce fait a dû verser 6000 $ de plus qu’en
janvier. En prenant janvier 1970 comme année de référence, calculer :
a) L’indice de l’emploi (indice élémentaire de quantité) pour juillet
b) L’indice des frais de travail (indice élémentaire de valeur) pour juillet,
c) En se servant du résultat : l’indice élémentaire des prix multiplié par
l’indice élémentaire de quantité donne l’indice élémentaire de valeur, quelle
interprétation peut-on, dans ce cas, donner à l’indice élémentaire ?
51. Pendant l’année 𝑡0, le salaire horaire de base dans une branche d’activité
a évolué de la façon suivante :
J F M A M J
9,96 9,96 10,06 10,12 10,78 11,12
J A S O N D
12,32 12,32 12,32 13,01 13,02 13,82
a) Calculer l’indice d’évolution (base 100 en janvier) de janvier à décembre
b) Calculer le même indice à travers l’évolution de chaque mois (construisez
l’indice-chaine de l’année). Quel est l’intérêt de ce deuxième type de calcul ?
52. Trois produits A, B et C ont varié en quantité et en prix entre 𝑡0 et 𝑡1 de
la manière indiquée dans le tableau ci-dessous :
Produits 𝑡0 𝑡1 Prix Quantités Prix Quantités
A B C
3,50 12,20 4,40
15 5 12
10,30 23,80 7,60
16 5 11
En prenant pour époque de base 𝑡0, calculer :
a) Les indices de prix de Laspeyres et de Paasche.
b) Les indices de quantité de Laspeyres et de Paasche.
c) Les indices de prix et de quantités de Fisher.
STATISTIQUE DESCRIPTIVE MES 2018-2019
84
53. Les mesures en 1961 et en 1971 des prix unitaires et des quantités
consommées des articles A, B, C et D sont données dans le tableau ci-après
Articles
1961 1971
Prix 𝑃0 Quantité 𝑄0 Prix 𝑃1 Quantité 𝑄1
A 5 100 7 80
B 20 15 30 25
C 10 50 12 90
D 3 200 4 300
Calculer les indices synthétiques des prix en 1971, calculés sur la base 100
en 1961.
54. La production d’électricité en France, en 1938, a été de 21 milliards de
kWh ; en 1948, elle atteignait 30 milliards de kWh.
a) Quel était l’indice de la production d’électricité en 1948, calculé sur la
base 100 en 1938 ?
b) En 1958, cet indice calculé sur la base 100 en 1938 était 280 ; quelle a
été la production d’électricité en 1958 ?
55. En utilisant les renseignements consignés dans le tableau suivant :
Produits Date 𝑡0 Date 𝑡1
Prix unitaire
𝑃0
Quantités
𝑄0
Prix unitaire
𝑃1
Quantités
𝑄1
A 10 30 14 25
B 20 25 26 25
C 30 15 60 30
a) Les indices de prix de Laspeyres et de Paasche.
b) Les indices de quantité de Laspeyres et de Paasche.
e) Les indices de prix et de quantités de Fisher.
STATISTIQUE DESCRIPTIVE MES 2018-2019
85
56. On trouvera dans le tableau suivant le salaire mensuel moyen d’un
ouvrier africain dans le petit commerce pour la période de 1973 à 1980, ainsi
que l’indice des prix à la consommation pour la même période par rapport à
1973.
Année 1973 1974 1975 1976 1977 1978 1979 1980
Salaire
($) ((g
($)
96.00 102.40 108.80 114.50 120.65 130.10 130.52
140.25
Indice 105.1 115.6 125.3 135.0 140.1 150.6 170.4 215.8
a) Déterminer les salaires réels d’un ouvrier de 1973 à 1980, en considérant
1973 comme année de base.
b) Trouver le pouvoir d’achat du dollar pour les différentes années en
supposant qu’en 1947 le dollar avait une valeur correspondant réellement
au pouvoir d’achat d’un dollar.
57. Une entreprise utilise pour ses fabrications trois types de matières
premières qui sont notées respectivement A, B et C. En 2000 et 2004, les
prix observés et les quantités achetées par cette entreprise ont été les
suivants :
Matières premières
Prix par tonne en
euros
2000
Quantités achetées en tonnes en
2000
Prix par tonne en
euros
2004
Quantités achetées en tonnes en
2004
A 800 10 900 6
B 500 4 700 4
C 600 5 600 2
1. Calculez les indices élémentaires rendant compte de l’évolution des prix
de chacune des matières premières entre 2000 et 2004.
2. Calculez la moyenne arithmétique des indices élémentaires précédents
pondérés par la part des dépenses engagées par l’entreprise pour chacune de
ces matières premières en 2000. De quel indice s’agit-il ?
3. Effectuez le même calcul pour rendre compte de l’évolution des quantités
entre 2000 et 2004.
4. Calculez l’indice mesurant l’évolution globale des dépenses de matières
premières entre 2000 et 2004.
5. Déterminez, en utilisant les résultats des questions précédentes, les taux
de variation (exprimés en pourcentage) des prix, des quantités et de la
dépense totale. Comment s’explique l’évolution de la dépense totale ?
STATISTIQUE DESCRIPTIVE MES 2018-2019
86
QUELQUES STATISTIQUES SUR LA REPUBLIQUE DEMOCRATIQUE DU
CONGO
Les données suivantes proviennent de l’annuaire statistique 2014, produit
par l’Institut National de la Statistique (INS) de la République Démocratique
du Congo (RDC) avec l’appui technique et financier du Programme des
Nations Unies pour le Développement (PNUD). Il a ainsi été publié par le
ministère du plan et révolution de la modernité, en juillet 2015.
Dans chaque cas,
a) Représenter le nuage de point associé à ces données.
b) Quelle relation entre les deux variables le nuage de point indique-t-il ?
c) Utiliser la méthode des moindres carrés pour développer l’équation de
régression estimée.
d) Interpréter la pente de l’équation de régression estimée.
e) Si la tendance générale persiste, quelle sera l’estimation de la situation en
2020.
1. Evolution de la production de racines et tubercules (en tonnes)
Année Patate douce Igname Pomme de terre Manioc
2005 229760 84900 92720 14974470
2006 233110 85940 93140 14989440
2007 236508 86994 93561 14982412
2008 239958 88058 93985 14991107
2009 243457 89137 94411 15002879
2010 428392 90875 95213 31268811
2011 440407 92919 96023 32138534
2012 452669 95196 97848 33033366
2013 465067 97709 98704 33938252
2014 477804 100406 99572 34867925
2. Evolution de la production des Oléagineux (en tonnes)
Année Arachide Soja
2005 368110 14920
2006 368740 15530
2007 372773 16163
2008 377238 16824
2009 382202 17516
2010 389654 18566
2011 397372 19679
2012 405277 20053
2013 413342 20434
2014 421568 20943
STATISTIQUE DESCRIPTIVE MES 2018-2019
87
3. Evolution de la production de fruits (en tonnes)
Année Banane douce Banane plantain Banane à bière
2005 313970 487150 714050
2006 314470 487980 715050
2007 314970 488811 718056
2008 315472 489643 720067
2009 315973 490477 722084
2010 756280 2777820 715442
2011 767160 2855540 721523
2012 788520 2935047 727728
2013 810120 3815447 734132
2014 832312 4159932 740666
4. Evolution de l’effectif du cheptel par espèces (en têtes)
Année Bovins Ovins Caprins Porcins Volailles
2005 756940 899570 4021920 959080 19769000
2006 755500 900470 4027950 962701 19828437
2007 754060 801370 4033990 966333 19888053
2008 752630 902270 4040038 969997 19947848
2009 751200 903175 4046095 973676 20007822
2010 794773 904080 4052161 977379 20067452
2011 842459 904984 4058287 981158 20127655
2012 893006 905889 4064322 984952 20188039
2013 946585 906794 4070416 988761 20248604
2014 949425 909514 4082627 991727 20309351
5. Evolution de la production de céréales (en tonnes)
Année Maïs Riz paddy Sorgho
2005 1155260 315130 43260
2006 1155400 315480 43510
2007 1155540 316331 43761
2008 1155681 316934 44013
2009 1155822 317536 44268
2010 1782273 754872 44698
2011 1892657 709417 45136
2012 1938044 645174 45583
2013 1986099 811218 46034
2014 2015345 1019979 46080
STATISTIQUE DESCRIPTIVE MES 2018-2019
88
6. Evolution de la production de métaux (en tonnes)
Année Or Cuivre Cobalt
2005 592.17 16038.00 934.00
2006 328.09 22440.00 746.00
2007 143.73 185146.63 25296.26
2008 119.57 337430.00 42461.00
2009 166.61 309610.00 56103.00
2010 151.13 437755.00 84005.00
2011 309.41 499198.00 99475.00
2012 2812.62 619942.00 85433.00
2013 6111.97 922016.47 76592.51
2014 23936.72 1065744.39 76474.96
7. Evolution du prix moyen du MWh en USD
Année Prix moyen du MWh en USD
2005 30.45
2006 31.67
2007 39.24
2008 48.23
2009 45.42
2010 46.38
2011 45.62
2012 58.22
2013 68.68
2014 76.00
8. Evolution des abonnements de téléphonie mobile et de revenu de
téléphonie mobile en USD
Année Nombre d’abonnements de téléphonie mobile
Revenu de téléphonie mobile en USD
2003 1246225 264000000
2004 1990722 338000000
2005 2746094 428000000
2006 4415470 557674580
2007 6490080 667081714
2008 9937622 760717000
2009 9458557 612587411
2010 11604914 638842878
2011 15644877 790585893
2012 20258757 965439443
2013 28231900 1012517982
STATISTIQUE DESCRIPTIVE MES 2018-2019
89
9. Population de la RDC (en millier d’habitants) entre 2006-2015.
Année Population en millier
2006 55591
2007 57188
2008 58819
2009 60486
2010 62191
2011 63932
2012 65705
2013 67514
2014 69360
2015 71246
10. Répartition des naissances survenues entre 2003 et 2013
Année Naissances
2003 463999
2004 433120
2005 414189
2006 835418
2007 1375207
2008 982116
2009 984671
2010 767723
2011 975387
2012 712537
2013 1433702
STATISTIQUE DESCRIPTIVE MES 2018-2019
90
BIBLIOGRAPHIE
1. DODGE Y., Statistique. Dictionnaire encyclopédique, Springer, Paris,
2007.
2. DODGE Y., Premier pas en statistique, Springer, Paris, 2006.
3. VIDA A., Statistique descriptive et inférentielle avec Excel. Approche par
exemple, Presse Universitaire de Rennes, 2004.
4. GOLDFARD B. et C., Introduction à la méthode statistique, sixième
édition, Dunod, 2011.
5. MAZEROLLE F., Statistique descriptive, Gualino édition, 2006.
6. POSSIERE J.P., Mathématiques appliquées à la gestion, Coll Les Zoom’s,
2005.
7. GRANIER C. et GUILBAUD B., Statistique dans l’entreprise, Edition
Faucher, Paris, 1978.
8. GRANIER C. et GUILBAUD B., Statistique dans l’entreprise. Titre 4. Etude
de l’ajustement et de la corrélation, Edition Faucher, Paris, 1978.
9. BACCINI A., Statistique Descriptive Elémentaire, Publication de l’Institut
de Mathématiques de Toulouse, 2010.
10. TILLE Y., Résumé du cours de statistique descriptive, 2010.
11. SPIEGEL M. R., Théorie et applications de la statistique, Série Schaum,
Mc Graw-Hill Inc., Paris, 1979.
12. DROESEKE J.J. et TASSI P., Histoire de la statistique, 1990.
13. DROESEKE J.J., Eléments de statistique, Editions de l’Université de
Bruxelles, 1997.
14. LEBOUCHER L. et VOISIN M.J., Introduction à la statistique descriptive.
Cours et exercices avec tableur, Cepadues-Edition, Toulouse, 2011.
15. ANDERSON D., SWEENEY D. et WILLIAMS T., Essentials of Statistics for
busness and Economics, 5 th edition, Cegange Larning, 2009. Statistique
pour l’économie et la gestion, Traduction de la cinquième édition américaine
par BORSENBERGER C., de boeck, 2010.
STATISTIQUE DESCRIPTIVE MES 2018-2019
91
STATISTIQUE DESCRIPTIVE MES 2018-2019
92
STATISTIQUE DESCRIPTIVE MES 2018-2019
93