Univarié / Multivarié
Transcript of Univarié / Multivarié
1
•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!
•Jeu de données bivarié: 2 nombres, surtout didactique.
!
!
•Jeu de données multivarié : une matrice
Univarié / Multivarié
(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4
(x1, x2, . . . , xn) 2 R2⇥n. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4(~x1, ~x2, . . . , ~xn) 2 R2⇥n
. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4
(x1, x2, . . . , xn) 2 Rd⇥n. Ex
0
BBB@
2
6664
541
20
...5
3
7775,
2
6664
427
18
...3
3
7775,
2
6664
635
23
...6
3
7775,
2
6664
834
27
...9
3
7775
1
CCCA2 Rd⇥4
1
•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!
•Jeu de données bivarié: 2 nombres, surtout didactique.
!
!
•Jeu de données multivarié : une matrice
Univarié / Multivarié
(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4
(x1, x2, . . . , xn) 2 R2⇥n. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4(~x1, ~x2, . . . , ~xn) 2 R2⇥n
. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4
(x1, x2, . . . , xn) 2 Rd⇥n. Ex
0
BBB@
2
6664
541
20
...5
3
7775,
2
6664
427
18
...3
3
7775,
2
6664
635
23
...6
3
7775,
2
6664
834
27
...9
3
7775
1
CCCA2 Rd⇥4
1
•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!
•Jeu de données bivarié: 2 nombres, surtout didactique.
!
!
•Jeu de données multivarié : une matrice
Univarié / Multivarié
(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4
(x1, x2, . . . , xn) 2 R2⇥n. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4
(x1, x2, . . . , xn) 2 Rd⇥n. Ex
0
BBB@
2
6664
541
20
...5
3
7775,
2
6664
427
18
...3
3
7775,
2
6664
635
23
...6
3
7775,
2
6664
834
27
...9
3
7775
1
CCCA2 Rd⇥4
2
statistiques!!
• statistique: fonction qui associe un (ou des) réels aux données.
!!!!!
• Ex: première et dernière statistiques d’ordre (min et max).
S(x1, . . . , xn) 2 Rp
statistique : donnees 7! reels
(x1, . . . , xn) 2 Rn 7!
2
4min
i=1,...,nxi
max
i=1,...,nxi
3
5
3
statistiques de tendance centrale• Moyenne
!
!
• Médiane • La médiane est le nombre tel que: la moitié des valeurs
du jeu sont plus grandes que , l’autre moitié plus petites.
!
• Mode (variable discrètes uniquement) • Valeur apparaissant le plus fréquemment dans le jeu de
données(x1, . . . , xn
) 2 Rn 7! argmax
x
h(x)
(x1, . . . , xn) 2 Rn 7! x =1
n
nX
i=1
xi 2 R
Medx
Medx
3
statistiques de tendance centrale• Moyenne
!
!
• Médiane • La médiane est le nombre tel que: la moitié des valeurs
du jeu sont plus grandes que , l’autre moitié plus petites.
!
• Mode (variable discrètes uniquement) • Valeur apparaissant le plus fréquemment dans le jeu de
données(x1, . . . , xn
) 2 Rn 7! argmax
x
h(x)
(x1, . . . , xn) 2 Rn 7! x =1
n
nX
i=1
xi 2 R
Medx
Medx
Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12
4
Ex : poids en kgs (arrondis) de bagages pré-enregistrés dans un avion
• Moyenne
!
• Médiane (après avoir réordonné toutes les valeurs) !
!
• Mode • 20: c’est le nombre qui apparaît le plus fréquemment.
statistiques de tendance centrale
5
moyenne
(x1, . . . , xn) 2 Rn 7! x =1
n
nX
i=1
xi 2 R
x = argminu2R
1
n
nX
i=1
(u� xi)2
• Interprétation “variationnelle”
6
médiane
Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12
6
médiane
Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12
0.5
6
médiane
Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12
0.5
Medx
6
médiane
Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12
• Interprétation “variationnelle”
Medx
2 argminu2R
1
n
nX
i=1
|u� xi|
7
mode
• Interprétation “variationnelle”
(x1, . . . , xn
) 2 Rn 7! argmax
x
h(x)
Mode
x
2 argmin
u2R
1
n
nX
i=1
1(u 6= xi)
8
variation autour du même thème…
p = 2
p = 1
p = 0
(x1, . . . , xn) 2 Rn 7! argminu2R
nX
i=1
|u� xi|p
9
•Remarques évidentes mais fondamentale:
!• les statistiques sont un
résumé des données. !
• en général, et surtout si p est petit devant n, elles impliquent une perte d’information !
• Ex: ces 2 histogrammes ont la même moyenne.
statistiques de tendance centrale
10
statistiques de dispersion• Variance / Ecart type.
• Ecart2 moyen des observations à leur moyenne.
!
!
!
• Déviation absolue moyenne • Ecart absolu moyen des observations à leur médiane
(x1, . . . , xn) 2 Rn 7! dx
=1
n
nX
i=1
|xi �Medx
| 2 R+
(x1, . . . , xn) 2 Rn 7! s
2x
=1
n
nX
i=1
(xi � x)2 2 R+
11
statistiques de dispersion!
•Ecart interquartile
!
!
!
!
•Remarque: Déviation et Ecart interquartile sont de la même unité que les observations, pas la variance.
•Exercice: interprétation des dispersions comme solutions de problèmes d’optimisation.
EI = Q3 � Q1, ou
Q1 = Med({xi|xi Med(x)),
Q3 = Med({xi|xi � Med(x))
12
Ex : notes sur 100 à un examen.
• Moyenne = 55
• Ecarts à la moyenne:
• Sommer les écarts n’a pas de sens…
•Considérons plutôt les carrés de ces écarts:
!
• Variance =
variance
Ecart-type =pVariance =
p27.33 = 5.228
13
•Quizz: quel jeu de données a la plus grande variance?
variance
14
Ecart inter-quartile!!
•La médiane scinde le jeu de données en 2.
!
•Les 2 autres quartiles scindent les données en 4
!
!
•On a donc
Ex : poids en kgs (arrondis) de bagages pré-enregistrés dans un avion
Q1 =19 + 20
2= 19.5,Q2 = Med =
20 + 21
2= 20.5,Q3 =
23 + 24
2= 23.5
15
Statistiques d’Ordre!!
•la première et dernière statistiques d’ordre ont un role important, elles synthétisent l’intervalle du jeu.
!
!
!
• La statistique d’ordre de rang k, notée est la k-ème plus petite valeur parmi les x:
(x1, x2, . . . , xn) 2 Rn
(x1, . . . , xn) 2 Rn 7!
2
4min
i=1,...,nxi
max
i=1,...,nxi
3
5
x(k)
Soit � permutation |x�1 x�2 · · · x�n ,
alors x(k) = x�k .
16
QuantileEx : On lance 20 fois un dé à 6 faces
!!
•La 6ème statistique d’ordre est…
•La 15ème statistique d’ordre est…
!
•Le quantile d’ordre alpha: ↵ 2 (0, 1), qx↵
= x([↵n])
Q1 = qx14, Med = qx1
2, Q3 = qx3
4
17
Box-plot!!
•Résumé de la répartition d’un jeu de données univarié
!
!
!
!
!!!
• Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%
17
Box-plot!!
•Résumé de la répartition d’un jeu de données univarié
!
!
!
!
!!!
• Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%
18
Utilisation des Box-plot
●
●
●
●
● ●●●●
●● ●●
● ●●
●
● ● ●● ●
●● ●
●
●●
● ●
●●
●●
●
●
●
●
●
● ●●
● ●
●
●
●
● ●
●●
●
● ●
● ●
● ●● ●
● ●●
biostatisticsmathematics
economicskinesiology
child psychologyphysics
family social sciencestatistics
electrical engineeringaerospace engineering and mechanics
ecology evolution and behavioreducational psychology
neuroscienceplant biological sciences
psychologycomputer science
microbiology immunology and cancer biologypharmacology
veterinary medicinebusiness administration
environmental healthhealth services research policy and administration
molecular cellular developmental biology and geneticscomparative and molecular biosciences
conservation biologybiochemistry molecular bio and biophysics
applied economicsnatural resources science and management
nursingwork and human resource education
civil engineeringeducational policy and administration
biomedical engineeringmechanical engineering
social workepidemiology
material science and engineeringchemical engineering
chemistrygeology
education work/community/family educationeducation curriculum and instruction
sociologygeography
englishmass communication
communication studiespolitical science
anthropologyhistory
0 100 200 300 400 500pages
https://beckmw.wordpress.com/2013/04/15/
18
Utilisation des Box-plot
●
●
●
●
● ●●●●
●● ●●
● ●●
●
● ● ●● ●
●● ●
●
●●
● ●
●●
●●
●
●
●
●
●
● ●●
● ●
●
●
●
● ●
●●
●
● ●
● ●
● ●● ●
● ●●
biostatisticsmathematics
economicskinesiology
child psychologyphysics
family social sciencestatistics
electrical engineeringaerospace engineering and mechanics
ecology evolution and behavioreducational psychology
neuroscienceplant biological sciences
psychologycomputer science
microbiology immunology and cancer biologypharmacology
veterinary medicinebusiness administration
environmental healthhealth services research policy and administration
molecular cellular developmental biology and geneticscomparative and molecular biosciences
conservation biologybiochemistry molecular bio and biophysics
applied economicsnatural resources science and management
nursingwork and human resource education
civil engineeringeducational policy and administration
biomedical engineeringmechanical engineering
social workepidemiology
material science and engineeringchemical engineering
chemistrygeology
education work/community/family educationeducation curriculum and instruction
sociologygeography
englishmass communication
communication studiespolitical science
anthropologyhistory
0 100 200 300 400 500pages
https://beckmw.wordpress.com/2013/04/15/
●
●
●
●
● ●●●●
●● ●●
● ●●
●
● ● ●● ●
●● ●
●
●●
● ●
●●
●●
●
●
●
●
●
● ●●
● ●
●
●
●
● ●
●●
●
● ●
● ●
● ●● ●
● ●●
biostatisticsmathematics
economicskinesiology
child psychologyphysics
family social sciencestatistics
electrical engineeringaerospace engineering and mechanics
ecology evolution and behavioreducational psychology
neuroscienceplant biological sciences
psychologycomputer science
microbiology immunology and cancer biologypharmacology
veterinary medicinebusiness administration
environmental healthhealth services research policy and administration
molecular cellular developmental biology and geneticscomparative and molecular biosciences
conservation biologybiochemistry molecular bio and biophysics
applied economicsnatural resources science and management
nursingwork and human resource education
civil engineeringeducational policy and administration
biomedical engineeringmechanical engineering
social workepidemiology
material science and engineeringchemical engineering
chemistrygeology
education work/community/family educationeducation curriculum and instruction
sociologygeography
englishmass communication
communication studiespolitical science
anthropologyhistory
0 100 200 300 400 500pages
19
2 jeux univariés: QQ-Plot•Si l'on dispose de 2 jeux univariés non directement reliés, on peut les comparer en utilisant des QQ-plots.
•Plutôt que de comparer les valeurs elles-mêmes, on se replie vers les quantiles.
•Un QQ-plot est le scatterplot des quantiles de x et y
(x1, . . . , . . . , xm), (y1, . . . , yn)
(qx.01, q
x
.02, . . . , qx
.5, qx
.99), (qy
.01, qy
.02, . . . , qy
.5, qy
.99)
20
2 jeux univariés: QQ-Plot• example: données du recensement. 7811 foyers. • acs <- read.csv(url(“http://stat511.cwick.co.nz/homeworks/acs_or.csv")) • 6749 salaires femmes, 7623 salaires hommes
21
corrélation: jeu de données bivarié
(x1, . . . , xn), (y1, . . . , yn) 2 Rn
•Covariance des deux jeux de données:
!
!
!
•Corrélation linéaire
⇢xy
=sxyp
sxx
syy
=sxy
sx
sy
s
xy
=1
n
nX
i=1
(xi
� x)(yi
� y)
(~x1, ~x2, . . . , ~xn) 2 R2⇥n. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4
21
corrélation: jeu de données bivarié
(x1, . . . , xn), (y1, . . . , yn) 2 Rn
•Covariance des deux jeux de données:
!
!
!
•Corrélation linéaire
⇢xy
=sxyp
sxx
syy
=sxy
sx
sy
s
xy
=1
n
nX
i=1
(xi
� x)(yi
� y)
�1 ⇢x
y
1
(~x1, ~x2, . . . , ~xn) 2 R2⇥n. Ex
✓541
20
�,
427
18
�,
635
23
�,
834
27
�◆2 R2⇥4
21
corrélation: jeu de données bivarié
(x1, . . . , xn), (y1, . . . , yn) 2 Rn
•Covariance des deux jeux de données:
!
!
!
•Corrélation linéaire
⇢xy
=sxyp
sxx
syy
=sxy
sx
sy
s
xy
=1
n
nX
i=1
(xi
� x)(yi
� y)
�1 ⇢x
y
1
22
scatterplot, jeu bivarié
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
22
scatterplot, jeu bivarié
Arnak Dalalyan
1
19
Nuage des points
Supposons que l’on dispose de deux séries numériques x1, . . . , xn
ety1, . . . , y
n
représentant les valeurs de deux variables prélevées sur n
individus.
Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.
Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x
i
, yi
).
A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).
Les 38 individus sont des pays, alors que les deux variables X et Y
sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.
0
2
4
6
8
10
Consommationd’energie
FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
22
scatterplot, jeu bivarié
Arnak Dalalyan
1
19
Nuage des points
Supposons que l’on dispose de deux séries numériques x1, . . . , xn
ety1, . . . , y
n
représentant les valeurs de deux variables prélevées sur n
individus.
Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.
Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x
i
, yi
).
A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).
Les 38 individus sont des pays, alors que les deux variables X et Y
sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.
0
2
4
6
8
10
Consommationd’energie
FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
22
scatterplot, jeu bivarié
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
23
droite de régression
Arnak Dalalyan
1
19
Nuage des points
Supposons que l’on dispose de deux séries numériques x1, . . . , xn
ety1, . . . , y
n
représentant les valeurs de deux variables prélevées sur n
individus.
Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.
Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x
i
, yi
).
A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).
Les 38 individus sont des pays, alors que les deux variables X et Y
sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.
0
2
4
6
8
10
Consommationd’energie
FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
23
droite de régression
Arnak Dalalyan
1
19
Nuage des points
Supposons que l’on dispose de deux séries numériques x1, . . . , xn
ety1, . . . , y
n
représentant les valeurs de deux variables prélevées sur n
individus.
Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.
Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x
i
, yi
).
A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).
Les 38 individus sont des pays, alors que les deux variables X et Y
sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.
0
2
4
6
8
10
Consommationd’energie
FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
y = ax+ b a =s
xy
s
x
, b = y � ax
•La droite de régression est
23
droite de régression
•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.
y = ax+ b a =s
xy
s
x
, b = y � ax
•La droite de régression est