Univarié / Multivarié

38
1 Jeu univarié: chaque mesure = 1 nombre, qté: n. Jeu de données bivarié: 2 nombres, surtout didactique. Jeu de données multivarié : une matrice Univarié / Multivarié (x 1 ,x 2 ,...,x n ) 2 R n . Ex:(541, 327, 635, 834) 2 R 4 (x 1 ,x 2 ,...,x n ) 2 R 2n . Ex 541 20 , 427 18 , 635 23 , 834 27 2 R 24 (~ x 1 , ~ x 2 ,..., ~ x n ) 2 R 2n . Ex 541 20 , 427 18 , 635 23 , 834 27 2 R 24 (x 1 ,x 2 ,...,x n ) 2 R dn . Ex 0 B B B @ 2 6 6 6 4 541 20 . . . 5 3 7 7 7 5 , 2 6 6 6 4 427 18 . . . 3 3 7 7 7 5 , 2 6 6 6 4 635 23 . . . 6 3 7 7 7 5 , 2 6 6 6 4 834 27 . . . 9 3 7 7 7 5 1 C C C A 2 R d4

Transcript of Univarié / Multivarié

Page 1: Univarié / Multivarié

1

•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!

•Jeu de données bivarié: 2 nombres, surtout didactique.

!

!

•Jeu de données multivarié : une matrice

Univarié / Multivarié

(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4

(x1, x2, . . . , xn) 2 R2⇥n. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4(~x1, ~x2, . . . , ~xn) 2 R2⇥n

. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4

(x1, x2, . . . , xn) 2 Rd⇥n. Ex

0

BBB@

2

6664

541

20

...5

3

7775,

2

6664

427

18

...3

3

7775,

2

6664

635

23

...6

3

7775,

2

6664

834

27

...9

3

7775

1

CCCA2 Rd⇥4

Page 2: Univarié / Multivarié

1

•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!

•Jeu de données bivarié: 2 nombres, surtout didactique.

!

!

•Jeu de données multivarié : une matrice

Univarié / Multivarié

(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4

(x1, x2, . . . , xn) 2 R2⇥n. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4(~x1, ~x2, . . . , ~xn) 2 R2⇥n

. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4

(x1, x2, . . . , xn) 2 Rd⇥n. Ex

0

BBB@

2

6664

541

20

...5

3

7775,

2

6664

427

18

...3

3

7775,

2

6664

635

23

...6

3

7775,

2

6664

834

27

...9

3

7775

1

CCCA2 Rd⇥4

Page 3: Univarié / Multivarié

1

•Jeu univarié: chaque mesure = 1 nombre, qté: n. !!

•Jeu de données bivarié: 2 nombres, surtout didactique.

!

!

•Jeu de données multivarié : une matrice

Univarié / Multivarié

(x1, x2, . . . , xn) 2 Rn. Ex:(541, 327, 635, 834) 2 R4

(x1, x2, . . . , xn) 2 R2⇥n. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4

(x1, x2, . . . , xn) 2 Rd⇥n. Ex

0

BBB@

2

6664

541

20

...5

3

7775,

2

6664

427

18

...3

3

7775,

2

6664

635

23

...6

3

7775,

2

6664

834

27

...9

3

7775

1

CCCA2 Rd⇥4

Page 4: Univarié / Multivarié

2

statistiques!!

• statistique: fonction qui associe un (ou des) réels aux données.

!!!!!

• Ex: première et dernière statistiques d’ordre (min et max).

S(x1, . . . , xn) 2 Rp

statistique : donnees 7! reels

(x1, . . . , xn) 2 Rn 7!

2

4min

i=1,...,nxi

max

i=1,...,nxi

3

5

Page 5: Univarié / Multivarié

3

statistiques de tendance centrale• Moyenne

!

!

• Médiane • La médiane est le nombre tel que: la moitié des valeurs

du jeu sont plus grandes que , l’autre moitié plus petites.

!

• Mode (variable discrètes uniquement) • Valeur apparaissant le plus fréquemment dans le jeu de

données(x1, . . . , xn

) 2 Rn 7! argmax

x

h(x)

(x1, . . . , xn) 2 Rn 7! x =1

n

nX

i=1

xi 2 R

Medx

Medx

Page 6: Univarié / Multivarié

3

statistiques de tendance centrale• Moyenne

!

!

• Médiane • La médiane est le nombre tel que: la moitié des valeurs

du jeu sont plus grandes que , l’autre moitié plus petites.

!

• Mode (variable discrètes uniquement) • Valeur apparaissant le plus fréquemment dans le jeu de

données(x1, . . . , xn

) 2 Rn 7! argmax

x

h(x)

(x1, . . . , xn) 2 Rn 7! x =1

n

nX

i=1

xi 2 R

Medx

Medx

Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12

Page 7: Univarié / Multivarié

4

Ex : poids en kgs (arrondis) de bagages pré-enregistrés dans un avion

• Moyenne

!

• Médiane (après avoir réordonné toutes les valeurs) !

!

• Mode • 20: c’est le nombre qui apparaît le plus fréquemment.

statistiques de tendance centrale

Page 8: Univarié / Multivarié

5

moyenne

(x1, . . . , xn) 2 Rn 7! x =1

n

nX

i=1

xi 2 R

x = argminu2R

1

n

nX

i=1

(u� xi)2

• Interprétation “variationnelle”

Page 9: Univarié / Multivarié

6

médiane

Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12

Page 10: Univarié / Multivarié

6

médiane

Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12

0.5

Page 11: Univarié / Multivarié

6

médiane

Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12

0.5

Medx

Page 12: Univarié / Multivarié

6

médiane

Med(x1, . . . , xn) = plus petit x tel que Fn(x) � 12

• Interprétation “variationnelle”

Medx

2 argminu2R

1

n

nX

i=1

|u� xi|

Page 13: Univarié / Multivarié

7

mode

• Interprétation “variationnelle”

(x1, . . . , xn

) 2 Rn 7! argmax

x

h(x)

Mode

x

2 argmin

u2R

1

n

nX

i=1

1(u 6= xi)

Page 14: Univarié / Multivarié

8

variation autour du même thème…

p = 2

p = 1

p = 0

(x1, . . . , xn) 2 Rn 7! argminu2R

nX

i=1

|u� xi|p

Page 15: Univarié / Multivarié

9

•Remarques évidentes mais fondamentale:

!• les statistiques sont un

résumé des données. !

• en général, et surtout si p est petit devant n, elles impliquent une perte d’information !

• Ex: ces 2 histogrammes ont la même moyenne.

statistiques de tendance centrale

Page 16: Univarié / Multivarié

10

statistiques de dispersion• Variance / Ecart type.

• Ecart2 moyen des observations à leur moyenne.

!

!

!

• Déviation absolue moyenne • Ecart absolu moyen des observations à leur médiane

(x1, . . . , xn) 2 Rn 7! dx

=1

n

nX

i=1

|xi �Medx

| 2 R+

(x1, . . . , xn) 2 Rn 7! s

2x

=1

n

nX

i=1

(xi � x)2 2 R+

Page 17: Univarié / Multivarié

11

statistiques de dispersion!

•Ecart interquartile

!

!

!

!

•Remarque: Déviation et Ecart interquartile sont de la même unité que les observations, pas la variance.

•Exercice: interprétation des dispersions comme solutions de problèmes d’optimisation.

EI = Q3 � Q1, ou

Q1 = Med({xi|xi Med(x)),

Q3 = Med({xi|xi � Med(x))

Page 18: Univarié / Multivarié

12

Ex : notes sur 100 à un examen.

• Moyenne = 55

• Ecarts à la moyenne:

• Sommer les écarts n’a pas de sens…

•Considérons plutôt les carrés de ces écarts:

!

• Variance =

variance

Ecart-type =pVariance =

p27.33 = 5.228

Page 19: Univarié / Multivarié

13

•Quizz: quel jeu de données a la plus grande variance?

variance

Page 20: Univarié / Multivarié

14

Ecart inter-quartile!!

•La médiane scinde le jeu de données en 2.

!

•Les 2 autres quartiles scindent les données en 4

!

!

•On a donc

Ex : poids en kgs (arrondis) de bagages pré-enregistrés dans un avion

Q1 =19 + 20

2= 19.5,Q2 = Med =

20 + 21

2= 20.5,Q3 =

23 + 24

2= 23.5

Page 21: Univarié / Multivarié

15

Statistiques d’Ordre!!

•la première et dernière statistiques d’ordre ont un role important, elles synthétisent l’intervalle du jeu.

!

!

!

• La statistique d’ordre de rang k, notée est la k-ème plus petite valeur parmi les x:

(x1, x2, . . . , xn) 2 Rn

(x1, . . . , xn) 2 Rn 7!

2

4min

i=1,...,nxi

max

i=1,...,nxi

3

5

x(k)

Soit � permutation |x�1 x�2 · · · x�n ,

alors x(k) = x�k .

Page 22: Univarié / Multivarié

16

QuantileEx : On lance 20 fois un dé à 6 faces

!!

•La 6ème statistique d’ordre est…

•La 15ème statistique d’ordre est…

!

•Le quantile d’ordre alpha: ↵ 2 (0, 1), qx↵

= x([↵n])

Q1 = qx14, Med = qx1

2, Q3 = qx3

4

Page 23: Univarié / Multivarié

17

Box-plot!!

•Résumé de la répartition d’un jeu de données univarié

!

!

!

!

!!!

• Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%

Page 24: Univarié / Multivarié

17

Box-plot!!

•Résumé de la répartition d’un jeu de données univarié

!

!

!

!

!!!

• Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%

Page 25: Univarié / Multivarié

18

Utilisation des Box-plot

● ●●●●

●● ●●

● ●●

● ● ●● ●

●● ●

●●

● ●

●●

●●

● ●●

● ●

● ●

●●

● ●

● ●

● ●● ●

● ●●

biostatisticsmathematics

economicskinesiology

child psychologyphysics

family social sciencestatistics

electrical engineeringaerospace engineering and mechanics

ecology evolution and behavioreducational psychology

neuroscienceplant biological sciences

psychologycomputer science

microbiology immunology and cancer biologypharmacology

veterinary medicinebusiness administration

environmental healthhealth services research policy and administration

molecular cellular developmental biology and geneticscomparative and molecular biosciences

conservation biologybiochemistry molecular bio and biophysics

applied economicsnatural resources science and management

nursingwork and human resource education

civil engineeringeducational policy and administration

biomedical engineeringmechanical engineering

social workepidemiology

material science and engineeringchemical engineering

chemistrygeology

education work/community/family educationeducation curriculum and instruction

sociologygeography

englishmass communication

communication studiespolitical science

anthropologyhistory

0 100 200 300 400 500pages

https://beckmw.wordpress.com/2013/04/15/

Page 26: Univarié / Multivarié

18

Utilisation des Box-plot

● ●●●●

●● ●●

● ●●

● ● ●● ●

●● ●

●●

● ●

●●

●●

● ●●

● ●

● ●

●●

● ●

● ●

● ●● ●

● ●●

biostatisticsmathematics

economicskinesiology

child psychologyphysics

family social sciencestatistics

electrical engineeringaerospace engineering and mechanics

ecology evolution and behavioreducational psychology

neuroscienceplant biological sciences

psychologycomputer science

microbiology immunology and cancer biologypharmacology

veterinary medicinebusiness administration

environmental healthhealth services research policy and administration

molecular cellular developmental biology and geneticscomparative and molecular biosciences

conservation biologybiochemistry molecular bio and biophysics

applied economicsnatural resources science and management

nursingwork and human resource education

civil engineeringeducational policy and administration

biomedical engineeringmechanical engineering

social workepidemiology

material science and engineeringchemical engineering

chemistrygeology

education work/community/family educationeducation curriculum and instruction

sociologygeography

englishmass communication

communication studiespolitical science

anthropologyhistory

0 100 200 300 400 500pages

https://beckmw.wordpress.com/2013/04/15/

● ●●●●

●● ●●

● ●●

● ● ●● ●

●● ●

●●

● ●

●●

●●

● ●●

● ●

● ●

●●

● ●

● ●

● ●● ●

● ●●

biostatisticsmathematics

economicskinesiology

child psychologyphysics

family social sciencestatistics

electrical engineeringaerospace engineering and mechanics

ecology evolution and behavioreducational psychology

neuroscienceplant biological sciences

psychologycomputer science

microbiology immunology and cancer biologypharmacology

veterinary medicinebusiness administration

environmental healthhealth services research policy and administration

molecular cellular developmental biology and geneticscomparative and molecular biosciences

conservation biologybiochemistry molecular bio and biophysics

applied economicsnatural resources science and management

nursingwork and human resource education

civil engineeringeducational policy and administration

biomedical engineeringmechanical engineering

social workepidemiology

material science and engineeringchemical engineering

chemistrygeology

education work/community/family educationeducation curriculum and instruction

sociologygeography

englishmass communication

communication studiespolitical science

anthropologyhistory

0 100 200 300 400 500pages

Page 27: Univarié / Multivarié

19

2 jeux univariés: QQ-Plot•Si l'on dispose de 2 jeux univariés non directement reliés, on peut les comparer en utilisant des QQ-plots.

•Plutôt que de comparer les valeurs elles-mêmes, on se replie vers les quantiles.

•Un QQ-plot est le scatterplot des quantiles de x et y

(x1, . . . , . . . , xm), (y1, . . . , yn)

(qx.01, q

x

.02, . . . , qx

.5, qx

.99), (qy

.01, qy

.02, . . . , qy

.5, qy

.99)

Page 28: Univarié / Multivarié

20

2 jeux univariés: QQ-Plot• example: données du recensement. 7811 foyers. • acs <- read.csv(url(“http://stat511.cwick.co.nz/homeworks/acs_or.csv")) • 6749 salaires femmes, 7623 salaires hommes

Page 29: Univarié / Multivarié

21

corrélation: jeu de données bivarié

(x1, . . . , xn), (y1, . . . , yn) 2 Rn

•Covariance des deux jeux de données:

!

!

!

•Corrélation linéaire

⇢xy

=sxyp

sxx

syy

=sxy

sx

sy

s

xy

=1

n

nX

i=1

(xi

� x)(yi

� y)

(~x1, ~x2, . . . , ~xn) 2 R2⇥n. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4

Page 30: Univarié / Multivarié

21

corrélation: jeu de données bivarié

(x1, . . . , xn), (y1, . . . , yn) 2 Rn

•Covariance des deux jeux de données:

!

!

!

•Corrélation linéaire

⇢xy

=sxyp

sxx

syy

=sxy

sx

sy

s

xy

=1

n

nX

i=1

(xi

� x)(yi

� y)

�1 ⇢x

y

1

(~x1, ~x2, . . . , ~xn) 2 R2⇥n. Ex

✓541

20

�,

427

18

�,

635

23

�,

834

27

�◆2 R2⇥4

Page 31: Univarié / Multivarié

21

corrélation: jeu de données bivarié

(x1, . . . , xn), (y1, . . . , yn) 2 Rn

•Covariance des deux jeux de données:

!

!

!

•Corrélation linéaire

⇢xy

=sxyp

sxx

syy

=sxy

sx

sy

s

xy

=1

n

nX

i=1

(xi

� x)(yi

� y)

�1 ⇢x

y

1

Page 32: Univarié / Multivarié

22

scatterplot, jeu bivarié

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

Page 33: Univarié / Multivarié

22

scatterplot, jeu bivarié

Arnak Dalalyan

1

19

Nuage des points

Supposons que l’on dispose de deux séries numériques x1, . . . , xn

ety1, . . . , y

n

représentant les valeurs de deux variables prélevées sur n

individus.

Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.

Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x

i

, yi

).

A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).

Les 38 individus sont des pays, alors que les deux variables X et Y

sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.

0

2

4

6

8

10

Consommationd’energie

FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

Page 34: Univarié / Multivarié

22

scatterplot, jeu bivarié

Arnak Dalalyan

1

19

Nuage des points

Supposons que l’on dispose de deux séries numériques x1, . . . , xn

ety1, . . . , y

n

représentant les valeurs de deux variables prélevées sur n

individus.

Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.

Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x

i

, yi

).

A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).

Les 38 individus sont des pays, alors que les deux variables X et Y

sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.

0

2

4

6

8

10

Consommationd’energie

FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

Page 35: Univarié / Multivarié

22

scatterplot, jeu bivarié

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

Page 36: Univarié / Multivarié

23

droite de régression

Arnak Dalalyan

1

19

Nuage des points

Supposons que l’on dispose de deux séries numériques x1, . . . , xn

ety1, . . . , y

n

représentant les valeurs de deux variables prélevées sur n

individus.

Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.

Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x

i

, yi

).

A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).

Les 38 individus sont des pays, alors que les deux variables X et Y

sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.

0

2

4

6

8

10

Consommationd’energie

FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

Page 37: Univarié / Multivarié

23

droite de régression

Arnak Dalalyan

1

19

Nuage des points

Supposons que l’on dispose de deux séries numériques x1, . . . , xn

ety1, . . . , y

n

représentant les valeurs de deux variables prélevées sur n

individus.

Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.

Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (x

i

, yi

).

A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).

Les 38 individus sont des pays, alors que les deux variables X et Y

sont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.

0

2

4

6

8

10

Consommationd’energie

FIGURE : Le nuage de points représentant les données de la Table 1.1(cf. poly).

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

y = ax+ b a =s

xy

s

x

, b = y � ax

•La droite de régression est

Page 38: Univarié / Multivarié

23

droite de régression

•Supposons que nous disposionsde 2 jeux de données, décrivant2 variables mesurées sur les mêmes n individus.

y = ax+ b a =s

xy

s

x

, b = y � ax

•La droite de régression est