Post on 23-May-2018
Méthodologie et
traitement d'une enquête
L3 Econométrie
M. Fournier
Ch 2 – L'échantillonnage*
A. Définition de l'échantillon
B. L'échantillonnage aléatoire
C. L'échantillonnage non aléatoire
* Remerciements : F. Kohler, Université Paris V.
Ch 2 – L'échantillonnage
A. Définition de l'échantillon
B. L'échantillonnage aléatoire
C. L'échantillonnage non aléatoire
A. La base de sondage
Base de sondage = Population observée
(NB : différente de la population cible)
Deux types de bases de sondage :– Les nomenclatures
– Les bases de sondage indirectes
A. Les nomenclatures
Liste de noms et d’adresses qui donnentdirectement accès à des unités
Exemples :• Fichier clients• Fichier adhérents• Registres municipaux
A. Les bases de sondage
indirectes
Liste de « lieux » (géographiques ou non)qui donnent accès indirectement à desunités
Exemples :• Service d'une entreprise• Quartier d'une ville• Sortie de bureau de vote
A. Qualité de la base de
sondage
Exhaustivité : Aucun membre de lapopulation observée ne doit en être exclu
Unicité : Aucun « individu » ne doit y êtrereprésenté plusieurs fois
Actualité : Elle doit être « à jour »
NB : C'est le socle de l'enquête. Un biais àce niveau se répercute sur la totalité dutravail
A. Définition des unités de
l'enquête
L’unité d’échantillonnage Unité de la base de sondage
L’unité déclarante Unité qui fournit l’information qu’exige
l’enquête
L’unité d’analyse ou de référence C’est l’unité au sujet de laquelle l’information
est fournie
A. Exemples d'unités de
l'enquête
Enquête menée sur les nouveau-nés Unité d’échantillonnage :
Le ménage
Unité déclarante Le membre de la famille qui répond à l'enquête (l’un
des deux parents, la grand-mère, la nounou, etc.)
Unité d’analyse Le nouveau-né
A. Taille de l'échantillon
et degré de précision
Les résultats obtenus sur un échantillonne sont que des estimateurs des valeursrecherchées
Le degré de précision de ces estimateursdépend :
– De la taille de l'échantillon
– Du mode d'échantillonnage
A. La taille de l’échantillon
Une procédure d'échantillonnage esttoujours un compromis entre :
– le degré de précision
– le budget– le temps disponible– les contraintes logistiques
La nature de ce compromis dépend– de la taille et de la dispersion de la population
– du mode d'enquête et de la procédured'échantillonnage
Méthodes aléatoires
(probabiliste)
Chaque unité a une
probabilité non nulle
d’être sélectionnée
Méthodes non
aléatoires
(non probabiliste)
Deux approches pour
construire un échantillon
Ch 2 – L'échantillonnage
A. Définition de l'échantillon
B. L'échantillonnage aléatoire
C. L'échantillonnage non aléatoire
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs phases
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs phases
B1. L’échantillonnage
aléatoire simple
Chaque « individu » de la based'échantillonnage a la même probabilité d'être sélectionné pour figurer dansl’échantillon
Ce choix peut se faire avec remise ou sansremise : Avec remise : un individu peut être sélectionné
plusieurs fois Sans remise (cas le plus courant) : un
individu ne peut être sélectionné plus d'une fois
B1. L’échantillonnage
aléatoire simple
Avantages : – « Représentativité » statistique (par le
tirage aléatoire) assurée lorsque la taillede l'échantillon est grande
– Simplicité
Inconvénients :– Nécessite un accès exhaustif à la base
d'échantillonnage
– La représentativité n'est pas assurée si lataille de l'échantillon est faible
B1. Procédure SI :
échantillonnage sans remise
Une procédure simple pour obtenir unéchantillon de taille n :
1. On aloue aléatoirement un réel« random » (compris entre 0 et 1) àchaque individu
2. On trie les individus par la variablerandom et on sélectionne les n premiersindividus de la liste triée
B1. SI sous Excel
Données individuelles en lignes :1. insérer d'une nouvelle colonne2. dans cette colonne, tireraléatoirement un nombre compris entre0 et 1 pour chaque ligne par la fonction« =ALEA() »3. trier la base selon les valeurs de lanouvelle colonne4. sélectionner les n premiers individus
B1. Nombre d’échantillon
différents possibles
Si l’on note n la taille de l’échantillon et N la taille de la population.
→ Tirage avec remise :
→ Tirage sans remise :
On appelle la fraction de sondage
CN
n =N !
n ! N−n!
Nn
f =n
N
B1. Moyenne empirique et
échantillonnage SI
La moyenne empirique d'une variable Xsur l'échantillon
est un estimateur sans biais de lamoyenne de X, de variance :
X=∑
1
n
X i
n
Var X =1−n
N1
n
∑1
n
X i− X 2
n−1=1− f
Var X
n
B1. Moyenne empirique
pour un SI
La précision de l'estimateur augmente :
– avec la taille de l'échantillon,
– avec la fraction de sondage Si l'on a une estimation de Var(X), on
peut déterminer n de sorte à atteindreun niveau désiré de précision pour X
Var X =1− f Var X
n
B1. Proportions empiriques
pour un SI
Les proportions empiriques pour unevariable muette I sur l'échantillon
sont des estimateurs sans biais desproportions de variance :
p=∑
1
n
I i
n
Var p=1− f p 1− p
n−1
B1. Proportions empiriques
pour un SI
La précision de l'estimateur d'uneproportion augmente avec :
– La taille de l'échantillon
– La fraction de sondage La précision en points de % (Variance
et Ecart type) est plus faible pourdes proportions proches de 50%
NB : x (1-x) a son max en x = 1/2
Var p=1− f p 1− p
n−1
B1. Proportions empiriques
pour un SI
Pour un ordre de grandeur de laproportion attendue, on peutdéterminer n de sorte à atteindre leniveau désiré de précision pour p
Var p=1− f p 1− p
n−1
B1. Proportions empiriques
pour un SI
On a le plus souvent :– f « petit »
– N « grand »
→
Exercice : Pour p ≈ 50% et f ≈ 0, quel n faut il si on veut avoir un intervalle deconfiance d'une amplitude de 2 pointsde pourcentage ?
Var p≈p 1− p
n
B1. Proportions empiriques
pour un SI
Intervalle de confiance d'amplitude 0,002%à 95% (sous hypothèse de normalité) :
→
→
[0,5−1,96 .0,51−0,5
n;0,51,96.0,51−0,5
n ]1,96 .
0,5
n=0,01
n=[1,96 .0,5
0,01 ]2
1=9606
B1. Proportions empiriques
pour un SI
Intervalle de confiance pour un échantillonde 1000 individus et une proportion = 52 % :
→
[0,52−1,96 .0,52 .0,48
1000;0,521,96 .0,52 . 0,48
1000 ]p∈[0,49 ;0,55 ]
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs phases
B2. L’échantillonnage
systématique
Chaque individu de la base de sondageest numéroté de 1 jusqu’à N (son rang)
L’entier voisin de N/n est noté r et appeléraison de sondage ou pas de sondage
On choisit au hasard un entier naturel d entre 1 et r (point de départ)
On sélectionne l'échantillon des individusde rang d + i.r (d+r , d+2r, d+3r, d+4r...)
B2. L’échantillonnage
systématique
Avantages : – Facile à mettre en oeuvre (un seul
individu est choisi au hasard)
– Bonne répartition de l’échantillondans l’ensemble de la liste
– Si l'ordre des individus dans la basede sondage est distribuéealéatoirement, mêmes résultats quele SI
– Très utilisé en contrôle de qualité
B2. L’échantillonnage
systématique
Désavantages : – Les données peuvent être biaisées à
cause de la périodicité (pas de 12pour des données annuelles, de 7,pour des données quotidiennes...)
– Pas un échantillonnage aléatoire siles individus ne sont pas rangésaléatoirement dans la base desondage
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs phases
B3. L’échantillonnage
stratifié (STSI)
Démarche de sélection :1. On subdivise la population en strates(groupes relativement homogènes) qui sontmutuellement exclusives
2. On choisit un mode de répartition del'échantillon total entre les strates
3.Dans chacune des strates, on tire au hasard(SI) le nombre choisi d’individus
B3. L’échantillonnage
stratifié
Les variables de stratification doivent être :- Simples à utiliser
- Faciles à observer
- Étroitement reliées au thème de l’enquête
B3. L’échantillonnage
stratifié
Avantages : – Assure une certaine représentativité
– Limite le risque d'échantillons« extrêmes »
– Peut augmenter la précision
Désavantages : – Nécessite des informations sur et
dans la base de sondage
Exemple : Répartition géographique
B3. Estimateurs en
échantillonnage stratifié
Estimateur d'une proportion à partir de S échantillons de taille n
s tirés aléatoirement
dans S strates de taille Ns :
→ Variance de cet estimateur :
NB : fraction de sondage pour la strate s :
pstr=∑s=1
S N s
Nps
Var pstr =∑s=1
S
N s
N 2
1− f sps 1− ps
ns
f s=ns
N s
B3. Estimateurs en
échantillonnage stratifié
Estimateur de la moyenne de X à partir de S échantillons de taille n
s tirés aléatoirement
dans S strates de taille Ns :
→ Variance de cet estimateur :
NB : fraction de sondage pour la strate s :
X str=∑s=1
S N s
NX s
Var X str =∑s=1
S
N s
N 2
1− f sVars X ns
f s=ns
N s
B3. Echantillonnage stratifié
Développements
L’échantillonnage stratifié permet de réduire lavariance des estimateurs grâce à l'informationqui définit les strates
Il existe diverses procédures d'allocation des n unités de l'échantillon dans les différentesstrates
– Allocation égale ( ) – Allocation proportionnelle ( )– Allocation puissance– Allocation optimale
ns=Ctef s=ns /N s=Cte
B3. Variance d'une moyenne
(allocation proportionnelle)
Echantillonnage stratifié (fs ≈ 0) :
Echantillonnage aléatoire (décomposition de lavariance) :
→ si les valeurs moyennessont différentes entre les strates
Var X SI =∑s=1
S ns
n n−1 Xs− X
2
∑s=1
S ns−1nsn n−1
Vars X ns
Var X str =∑s=1
S
N s
N 2 Vars X ns
=∑s=1
S
nsn 2 Vars X ns
Var X str Var X SI
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs phases
B4. L’échantillonnage par
grappes
On sélectionne au hasard un certain nombred'unités primaires (grappes) pour représenter lapopulation.
On sélectionne tous les individus des grappeschoisies
Exemple :– Sélection au hasard de 20 écoles primaires
sur le département du Rhône (grappes)
– Enquêtes auprès de tous les enseignants deces écoles
B4. L’échantillonnage par
grappes
Avantages : – Ne nécessite pas une liste globale de la
population mais seulement des grappes.– Coûts logistiques réduits (déplacement,
logement des enquêteurs, etc.)– Coûts de suivi et de supervision réduits
Désavantage : – Moindre précision– Moindre variabilité (autocorrélation)– Perte de contrôle sur la taille finale de
l’échantillon.
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs
degrés
B6. L’échantillonnage en plusieurs phases
B5. L’échantillonnage à
plusieurs degrés
Première étape : Echantillonnage par grappes→ Nouvelle base de sondage
Deuxième étape : Echantillonnage aléatoire simple(SI) sur chaque grappe
→ Echantillon
NB : Les grappes peuvent elles-mêmes être définies enplusieurs étapes (vrai également pour B5)
Exemple :- Echantillon aléatoire de villes françaises- Au sein des villes, échantillon aléatoire de quartiers- Dans chaque quartier de chaque ville on fait unéchantillonnage SI de ménages
B5. L’échantillonnage à
plusieurs degrés
Avantages : – Mêmes avantages que l'échantillonnage
par grappes (coûts, etc.)
– Possibilité de contrôler la taille del’échantillon final
Désavantage : – Précision des résultats
B5. L’échantillonnage par
grappes à plusieurs degrés
Souvent utilisé pour les enquêtes « face à face »– Arbitrage coût – qualité– Imposé par la logistique (choix de quartiers
dans une ville, de villages dans undépartement, etc.)
Parfois implicitement utilisé :– Observations individuelles à partir
d'enquêtes ménages (grappe = ménage)– Observation salariales ou produit à partir
d'enquêtes entreprises (grappe =entreprise)
B5. L’échantillonnage par
grappes à plusieurs degrés
Question de compréhension : Explicitez clairement la différence entrel'échantillonnage par grappes à plusieurs degréset l'échantillonnage par strates
B. Les méthodes
d'échantillonnage aléatoire
B1. L’échantillonnage aléatoire simple
B2. L’échantillonnage systématique
B3. L’échantillonnage stratifié
B4. L’échantillonnage en grappes
B5. L’échantillonnage à plusieurs degrés
B6. L’échantillonnage en plusieurs
phases
B6. L’échantillonnage à
plusieurs phases
Phase 1 : Les données de base sontcollectées auprès d’un échantillon degrande taille
Phase 2 : – Les informations collectées en première
phase sont utilisées pour définir laprocédure d'échantillonnage d'un sous-échantillon
– Des données détaillées sont collectées surle sous-échantillon
B6. L’échantillonnage à
plusieurs phases
Exemple : Analyse des pratiques sportives
Phase 1 :
Echantillon aléatoire de grande taille comprenanttrès peu de questions dont :
– Pratiquez-vous un sport ?– Si oui, lequel
Phase 2 :
– Echantillonnage SI ou par strates (en utilisantles informations collectées en phase 1)
– Questionnaire complet (uniquement auprès desportifs)
B. L’échantillonnage
aléatoire - Conclusions
Le mode d'échantillonnage doit être choisi enfonction :
– De la question– Du budget
Pour chaque mode d'échantillonnage il existedes mesures de la précision des estimateurs :
→ Permet de définir la taille minimale del'échantillon pour une précision donnée
→ Permet anticiper le degré de précisionpour une taille d'échantillon donnée
Ch 2 – L'échantillonnage
A. Définition de l'échantillon
B. L'échantillonnage aléatoire
C. L'échantillonnage non
aléatoire
D. Les erreurs
C. Méthodes empirique ou
non aléatoires
Les méthodes non aléatoires sont des méthodes où :– La probabilité d'être enquêté n'est pas contrôlée
– L'échantillon final ne peut être considéré commeun échantillon aléatoire
ATTENTION : Beaucoup de ces méthodes sontbasées sur « le hasard »
!!! Au hasard ≠ Aléatoire !!!!
→ Ce sont des méthodes généralement peu fiables
C. Méthodes empirique ou
non aléatoires
Elles sont souvent utilisées Pour des études exploratoires Lorsque le budget est très limité Quand il est impossible ou non
envisageable d’utiliser la méthodealéatoire.
C. Méthodes non aléatoires
l’échantillonnage à l’aveuglette ou decommodité : « comme ça vient »
– Ex : les interviews dans la rue (hasard ≠ aléatoire !)
L’échantillonnage de volontaires : – Ex : Expériences médicales ou
psychologiques
L’échantillonnage au jugé : en fonction de« l’idée qu’on se fait » de la composition de lapopulation
– Ex : Clients « types » en marketing
C. Méthodes non aléatoires
La méthode des itinéraires : On impose àl'enquêteur un certain itinéraire en indiquant lespoints où il doit faire remplir un questionnaire
L’échantillonnage par quotas (aka « échantillonnage dirigé » ou « par choixraisonné ») : On demande aux enquêteurs defaire un nombre d’entrevues dans divers groupesétablis en fonction du secteur géographique, del’âge, du sexe ou d’autres caractéristiques…L’enquêteur doit respecter son quota.
C. La méthode des quotas
Largement utilisée dans les enquêtes d’opinion etles études de marché :
– Ne suppose pas de liste des individus de lapopulation
– Quotas définis à partir d'informationspubliques (répartition de la population parsexe, age, zones géographiques, CSP, etc.)
– Permet d'obtenir un échantillon« représentatif » de la population
– « Peut permettre » une bonne précision desmesures
C. La méthode des quotas
MAIS :– La « représentativité » porte uniquement sur
la structure selon les variables quidéfinissent les quotas : les autresdimensions sont ignorées et la structure decorrélation n'est pas assurée...
– La qualité dépend très fortement du contrôledes enquêteurs :
• RDC et 1er étages sur-représentés• Enquêtes concentrées sur des « îlots »• etc.
Pour en savoir plus
Les techniques de sondage P. Ardilly,édition TECHNIP 1994
http://www.unu.edu/unupress/food2/UIN12F/uin12f0c.htm
Méthodes non aléatoires
Avantages : – Moins coûteuses– Plus faciles à réaliser
Désavantages: – Faible qualité– Biais d'enquêteurs sur des quotas par
groupes (« 60 ans et plus » : plus facile detrouver un 60 qu'un 105...,Surreprésentation des RDC et 1er étages)
– Pas d'expression théorique de laprécision des mesures