POL1803: Analyse des techniques quantitatives Cours 2 Analyse univariée.
Transcript of POL1803: Analyse des techniques quantitatives Cours 2 Analyse univariée.
POL1803: Analyse destechniques quantitatives
Cours 2
Analyse univariée
Question à résoudre
Est-ce que le gouvernement de Jacques Parizeau a tenté de voler furtivement le référendum de 1995?
Programme
Analyse univariée:
– Distribution de fréquences
– Mesures de tendance centrale
– Mesures de variation
– Mesures d’asymétrie
Analyse univariée:– porte sur une seule variable à la fois
Analyse bivariée:– porte sur les relations entre deux
variables (une variable dépendante et une variable indépendante)
Analyse multivariée:– porte sur les relations entre plus de deux
variables
Trois types d’analyse
Pour répondre à plusieurs questions de recherche
Pour combler une précaution méthodologique
Utilité de l’analyse univariée
A) Distribution de fréquences (ex.: rangement, tableau et graphique)
B) Mesures de tendances centrales (ex.: moyenne, mode et médiane)
C) Mesures de variation (ex.: étendue, variance et écart-type)
D) Mesures d’asymétrie (ex.: coefficient d’asymétrie)
Outils de l’analyse univariée
A) Distribution de fréquences
Définition:
–le classement des données dans le but de les rendre intelligibles et parlantes
Données brutes422223033242432413330324123231.4434142244143233204423.23243223124410224434300222022241242202334202420434233124234421143414213432410421323443133424232021232234023143413423422442323.344333444243144143233314123421112412244244333.1233234320332143421232324344001220103101343314322322211141122023313424433311233334213022.4234230144241322422422130132222332234333230323423.32222331.242130213103412212234221123340204240142403202221234244222130341.434.2223141433342230024322430123121333333032122432001134313414112224404341311420.312233142221212332231144242001121344443214434311430010432211.223241424402332223034.34134413322224214243223032302234324234211432222012230321002243214224442213213231402131.4442124122234444123144434303433333332242123424322423123204.314442220413232042233310432142223130121322240323004134414204210344323301400424332341201114213133321431323132133321024242423422144230441321130232333311034440221234334244231004421222121211224112024222001233414122304242323323040323244232242201232202133434103443423241122014031241324122222202043342132104321343443301320242030341212244201234233330332244222331412233312313340042241321044331414343231123121313140323320234030322224233244240343241243231214342344232142222213230322113221314222333333412220123311330323.342123321203032034310220012442004212313221322131232433221123143221242402423340402342424444244224443233133443343000433124.32313222433312433224323424024321334312333333230010323142222241343322133102042411302223133343244.21422124244302330421221334100113203411032412.1423433231312223232322234333123224233234122222431131121241241311101141213331130023341124442434242330232132312233431344241123222242123112411342011214234100014103443444333.43402132213412113313234243243302443330323311223244322200312132232231343303244133333423321212442210202232414133334441341231104432333432422.23321324113412132212141231322141124331203122232232324.1340442432432344212222113041310344313444232313322322034244243341133.444101434411213324322142322310012320113122122213123132231421303331321040401332243221231114332222144342430424140231023112331242443241401432443222223242413434233322323422331233214343144434330301124404041323334241042334110122443214422424143420224241444313433443233432334131.313230214222012222443200042431024441244003243343033413434241232220231422324232333413344024432243110212321334234422441244412314.321323014113212044243231332341433240344123133334342322442423311323312332223223232422243323111222422312324242.23404311133232322223432123431231210033343333422121242044211323413243344442424321432322434342441314112343230411234.422422312444242313212433313321114424203240344224012333130.123102421312132231203042140334143340123333.22222341214444244320332023122342313411132423430323213312323443243343210321112414122243034122222413412414131114324132334432342301133211410443242232222432231242223434442213233304141122022323222134242213234421224.2322214133342332043443323434422344344323322233431310244433032133423224301331322233341322232421213133323032144444323423322442221224212003432312024324241344232323334142343433334323232243312242423131334234322023333213431323330023233143133221313232003223343232232222141434333243423421023132442423223222132222233444312412432433324034223142423232422123224344423232234232244233214132311442433324242342433311313113203244224123322232342324341220323203.103324.4231434222341331.33233234230124113133112244022422411111343143223210442411321443422420341104302434133432444413312241343424344202413322411242243303314341132334432202431144434231142443223422211331433432.143223342021214443422014324333324233334332.4214202143423421224234024324023420224.2314422210443214131342430232234402041434013221224301022413324332432133112302131100433144343322322242111313203424313224433342334413432343440131410131204131.414421412132143422321112234241440242112141034310211114234143134322424420341414413210241412421432142234114104213212224233011444121423410222442130204441240323432244423101232322122232321
Rangement simple des données....................................0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111112222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222223333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444
Tableau de fréquences
Niveau d'information
274 6,9
635 16,1
1116 28,3
1042 26,4
846 21,4
3913 99,1
36 ,9
3949 100,0
,00
1,00
2,00
3,00
4,00
Total
Valide
Système manquantManquante
Total
Fréquence Pourcentage
Tableau de fréquences
Nombres de bonnes réponses
Fréquence Pourcentage
0-9 10 1
10-19 30 3
20-29 80 8
30-39 150 15
40-49 200 20
50-59 275 27,5
60-69 140 14
70-79 65 6,5
80-89 35 3,5
90-100 15 1,5
Total 1000 100
Diagramme en bâtons
Niveau d'information
Nombre de bonnes réponses
4,003,002,001,00,00
%
30
20
10
0
Représentation graphique:erreurs et excellence
Origines et typologie
Cartographie avec données
Cartographie avec données
Cartographie avec données
Cartographie avec données
Série temporelle
Série temporelle
Combinaison espace et temps
Combinaison espace et temps
Diagramme en bâtons
Diagramme en bâtons
Diagramme de dispersion
Diagramme de dispersion
Diagramme de dispersion
Représentation graphique:erreurs et excellence
Comment maltraiter des données et mentir avec un graphique?
Aire visuelle et biais
Aire visuelle et biais
Aire visuelle et biais
Aire visuelle et biais
Aire visuelle et biais
Aire visuelle et biais
Contexte et intégrité
Contexte et intégrité
Contexte et intégrité
Contexte et intégrité
Échelles et intégrité
Échelles et intégrité
ANNEE
20012000199919981997
Valeu
r APP
UI
44,0
43,0
42,0
41,0
40,0
39,0
ANNEE
20012000199919981997
Valeu
r APP
UI
60,0
50,0
40,0
30,0
20,0
10,0
0,0
Ratio encre / données
Ratio encre / données
Ratio encre / données
Ratio encre / données
Ratio encre / données
Ratio encre / données
Ratio encre / données
L’usage de la couleur
L’usage de la couleur
L’usage de la couleur
L’usage de la couleur
L’usage de la couleur
Théorie loufoque, contenu loufoque, graphique loufoque
Principes de l’excellence graphique
L’excellence graphique c’est:
– la communication claire, précise et efficace d’idées complexes;
– véhiculer le plus grand nombre d’idées, dans le moins de temps possible, avec le moins d’encre possible, et avec le moins d’espace possible.
(Edward Tufte, 1983)
L’excellence graphique
Raconter une histoire
Raconter une histoire
A) Distribution de fréquences (ex.: rangement, tableau et graphique)
B) Mesures de tendances centrales (ex.: moyenne, mode et médiane)
C) Mesures de variation (ex.: étendue, variance et écart-type)
D) Mesures d’asymétrie (ex.: coefficient d’asymétrie)
Outils de l’analyse univariée
0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4
N = 13
Un exemple
B) Mesures de tendance centrale
Définition:
Mesures servant à décrire, à résumer, à l’aide d’une valeur unique, la grandeur typique, le milieu ou le centre d’un ensemble de données.
Le mode (Mo)
Définition:
La valeur la plus fréquente dans une série de données.
0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4
Mode = 3
Un exemple
Le mode (Mo)
Caractéristiques:
- parfois il n’y en a pas, parfois il y en a plus d’un
- fonctionne avec tous les types de variables
- insensible aux valeurs extrêmes
- peu utile pour l’inférence statistique
La médiane (Md)
Définition:
La valeur qui sépare une série d’observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d’observations.
La médiane (Md)
Formules:
N impair: N + l è observation
2
où N = nombre de cas
0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4
Médiane = N + l è obs. =
2
13 + l è obs. = 7 è obs = 2
2
Un exemple
La médiane (Md)
Formules:
N pair: (N/2)è obs. + (N/2 + l)è obs.
2
où N = nombre de cas
0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4
Médiane = (N/2)è obs. + (N/2 + l)è obs. = 2
(12/2)è obs. + (12/2 + l)è obs. = 6è obs. + 7èobs. 2 2
2 + 3 = 5 = 2,5 2 2
Un exemple
La médiane (Md)
Caractéristiques:
- affectée par le nombre d’observations, mais non par la valeur de toutes les observations
- insensible aux valeurs extrêmes
- moins utile que la moyenne pour l’inférence statistique parce qu’elle ne se prête pas à des manipulations mathématiques
La moyenne arithmétique (μ)
Définition:
La somme des observations divisée par le nombre d’observations.
Formule: x N
où = somme de …x = observation
N = nombre de cas
0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4
Moyenne = x =
N
28 = 2,15
13
Un exemple
La moyenne arithmétique (μ)
Caractéristiques:
- très familière, couramment utilisée
- influencée par toutes les observations
- peut être biaisée par des valeurs extrêmes
- propriétés mathématiques intéressantes et utiles pour l’inférence statistique
Comparaison des mesuresde tendance centrale
Distribution parfaitement symétrique Mo= Md = μ
Comparaison des mesuresde tendance centrale
Distribution asymétrique positive Mo< Md < μ
Comparaison des mesuresde tendance centrale
Distribution asymétrique négative Mo> Md > μ
Comparaison des mesuresde tendance centrale
Distribution bimodale Mode = mesure la plus représentative
C) Mesures de variation
Définition:
Mesures de la représentativité de la valeur moyenne d’une série d’observations.
0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4
μ = 2
0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4
μ = 2
Deux cas de figure
Visualiser la variation
L’écart-type ()
Définition:
La racine carrée de la moyenne des carrés des écarts entre chaque observation et la moyenne.
L’écart-type ()
Formule:
racine carrée de x N
où = somme de ...
x = observation
= moyenne
N = nombre de cas
x
0
0
1
1
2
2
2
3
3
3
3
4
4
Un exemple x -
0-2,15
0-2,15
1-2,15
1-2,15
2-2,15
2-2,15
2-2,15
3-2,15
3-2,15
3-2,15
3-2,15
4-2,15
4-2,15
x -
-2,15
-2,15
-1,15
-1,15
-0,15
-0,15
-0,15
0,85
0,85
0,85
0,85
1,85
1,85
(x –
4,62
4,62
1,32
1,32
0,02
0,02
0,02
0,72
0,72
0,72
0,72
3,42
3,42
x
= 21,66
x
N
= 21,66 = 1,67
13
Racine carrée de
x
N
= ¯ 1,67 = 1,29
0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4
Écart-type ( = 2
0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4
Écart-type ( = 0,82
Deux cas de figure
L’écart-type ()
Caractéristiques:
- fréquemment utilisé
- tient compte de tous les écarts
- assez sensible aux valeurs extrêmes
- propriétés mathématiques utiles pour l’inférence statistique
D) Mesures d’asymétrie
Le coefficient d’asymétrie
Définition:
Un indicateur de l’existence, de la direction et du degré d’asymétrie d’une distribution.
Formule: 3 ( - Md)
Un exemple: 3 (2,15-2) / 1,29 = 0,35
Le coefficient d’asymétrie si = Md : symétrie, coeff. d’asym. = 0
si Md : asymétrie, coeff. d’asym. 0
si > Md : asymétrie positive,
coefficient d’asymétrie > 0
si < Md : asymétrie négative,
coefficient d’asymétrie < 0
plus l’écart entre la moyenne et la médiane est grand, plus le coefficient d’asymétrie est grand
Les trois dimensions
On a seulement une image d’ensemble d’une distribution en considérant à la fois la tendance centrale, la variation et l’asymétrie.
Comme l’histoire des trois aveugles et l’éléphant.
Une application concrète
Le cas des bulletins de vote rejetés au référendum de 1995
Un premier coup d’oeil
Moyennes des bulletins rejetés dans les 125 circonscriptions du Québec selon le niveau d’appui du NON:
NON 50 NON 50
1,68 % 1,99 %
Interprétation: conspiration nationale pour voler le référendum
Analyse univariée
Toutes les
circonscriptions
Moyenne 1,79 Médiane 1,69 Écart-type 1,04
Analyse univariée
Bulletins rejetés
60
50
40
30
20
10
0
Sigma = 1,04
Moyenne = 1,79
N = 125,00
Analyse univariée
Toutes les
circonscriptions
Moyenne 1,79 Médiane 1,69 Écart-type 1,04
Sans deux
cas déviants
1,67
1,69
0,41
Un deuxième coup d’oeil
Moyennes des bulletins rejetés dans les 123 circonscriptions du Québec selon le niveau d’appui du NON:
NON 50 NON 50
1,68 % 1,68 %
Interprétation: 2 cas déviants, pas de conspiration nationale