Download - 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

1

Analyse discriminante

Michel Tenenhaus

2

Les objectifs de l’analyse discriminante

• Étude d’un tableau IndividusVariables : Les individus sont décrits par p variables X1,…, Xp.

• Les individus sont répartis en k classes selon les modalités d’une variable qualitative Y.

• Rechercher des variables discriminantes Zh, combinaisons linéaires des Xj, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante).

• Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).

3

Exemple : Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures moyennes journalières

• SOLEIL : Durée d’insolation

• CHALEUR : Nombre de jours de grande chaleur

• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

4

Les données 3064 1201 10 361 2

3000 1053 11 338 3

3155 1133 19 393 2

3085 970 4 467 3

3245 1258 36 294 1

3267 1386 35 225 1

3080 966 13 417 3

2974 1189 12 488 3

3038 1103 14 677 3

3318 1310 29 427 2

3317 1362 25 326 1

3182 1171 28 326 3

2998 1102 9 349 3

3221 1424 21 382 1

3019 1230 16 275 2

3022 1285 9 303 2

3094 1329 11 339 2

3009 1210 15 536 3

3227 1331 21 414 2

3308 1366 24 282 1

3212 1289 17 302 2

3361 1444 25 253 1

3061 1175 12 261 2

3478 1317 42 259 1

3126 1248 11 315 2

3458 1508 43 286 1

3252 1361 26 346 2

3052 1186 14 443 3

3270 1399 24 306 1

3198 1259 20 367 1

2904 1164 6 311 3

3247 1277 19 375 1

3083 1195 5 441 3

3043 1208 14 371 3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Température Soleil Chaleur Pluie Qualité

5

Analyse univariéeTempérature

Measures of Association

.799 .639Température * QualitéEta Eta Squared 121111N =

Qualité

MédiocreMoyenBon

Te

mp

éra

ture

3600

3500

3400

3300

3200

3100

3000

2900

2800

Report

Température

3306.36 11 92.06

3140.91 11 100.05

3037.33 12 69.34

3157.88 34 141.18

Qualité1

2

3

Total

Mean N Std. Deviation

2 Between Groups Sum of SquaresRapport de corrélation =

Total Sum of Squares

ANOVA Table

420067.4 2 210033.704 27.389 .000

237722.1 31 7668.456

657789.5 33

(Combined)Between Groups

Within Groups

Total

Température * Qualité

Sum ofSquares df Mean Square F Sig.

6

Analyse univariéeSoleil

Report

Soleil

1363.64 11 80.31

1262.91 11 71.94

1126.42 12 88.39

1247.32 34 126.62

QualitéBon

Moyen

Médiocre

Total


ANOVA Table

326909.1 2 163454.535 25.061 .000

202192.4 31 6522.335

529101.4 33


Within Groups

Total

Soleil * Qualité



.786 .618Soleil * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBon

So

leil

1600

1500

1400

1300

1200

1100

1000

900

7

Analyse univariéeChaleur

Report

Chaleur

28.55 11 8.80

16.45 11 6.73

12.08 12 6.30

18.82 34 10.02

QualitéBon

Moyen

Médiocre

Total


ANOVA Table

1646.570 2 823.285 15.334 .000

1664.371 31 53.689

3310.941 33


Within Groups

Total

Chaleur * Qualité



.705 .497Chaleur * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBonC

ha

leu

r

50

40

30

20

10

0

12

8

Analyse univariéePluie

Report

Pluie

305.00 11 52.29

339.64 11 54.99

430.33 12 104.85

360.44 34 91.40

QualitéBon

Moyen

Médiocre

Total



.594 .353Pluie * QualitéEta Eta Squared

ANOVA Table

97191.170 2 48595.585 8.440 .001

178499.2 31 5758.039

275690.4 33


Within Groups

Total

Pluie * Qualité


121111N =

Qualité

MédiocreMoyenBon

Plu

ie

800

700

600

500

400

300

200

100

9

Analyse factorielle discriminanteRecherche de la première variable discriminante

• On recherche une première variable discriminante centrée

séparant au mieux les k classes.

• On recherche des a1j conduisant à une variable Z1 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z1 sur le facteur Y définissant les classes.

• On choisit comme normalisation une variance intra-classes

de Z1 égale à 1.

p

1 10 1j jj 1

Z a a X

10

Calcul des variables discriminantessur les données d’origine

Canonical Discriminant Function Coefficients

.009 .000

.007 -.005

-.027 .128

-.006 .006

-32.876 2.165

Température

Soleil

Chaleur

Pluie

(Constant)

1 2

Function

Unstandardized coefficients

Z1 = .009*Température + .007*Soleil - .027*Chaleur - .006*Pluie - 32.876

11

NormalisationChaque X est centrée et normalisée par l’écart-typecommun aux classes (racine-carrée du carré moyenintra-classes) :

1

Température 3157.88X

7668.456

2

Soleil 1247.32X

6522.335

3

Chaleur 18.82X

53.689

4

Pluie 360.44X

5758.039

12

Calcul des variables discriminantes sur les données normalisées

Standardized CanonicalDiscriminant Function Coefficients

.750 -.004

.547 -.430

-.198 .935

-.445 .469

Température

Soleil

Chaleur

Pluie

1 2

Function

Z1 = .750*X1 + .547*X2 - .198*X3 - .445*X4

13

Analyse de la variance de Z1 sur la qualité


.875 .766Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité

Eta Eta Squared

ANOVA Table

101.645 2 50.822 50.822 .000

31.000 31 1.000

132.645 33


Within Groups

Total

Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité


121111N =

Qualité

MédiocreMoyenBon

Dis

crim

ina

nt

Sco

res

fro

m F

un

ctio

n 1

fo

r A

na

lysi

s 1

6

4

2

0

-2

-4

-6

Report

Discriminant Scores from Function 1 for Analysis 1

2.12 11 1.19

.15 11 .89

-2.08 12 .90

.00 34 2.00

QualitéBon

Moyen

Médiocre

Total


14

Analyse factorielle discriminanteRecherche de la deuxième variable discriminante

• On recherche une deuxième variable discriminante centrée et non corrélée à Z1

séparant au mieux les k classes.

• On recherche des a2j conduisant à une variable Z2 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z2 sur le facteur Y définissant les classes.

• On choisit comme normalisation une variance intra-classes

de Z2 égale à 1.

p

2 20 2 j jj 1

Z a a X

15

Analyse de la variance de Z2 sur la qualité

Report

Discriminant Scores from Function 2 for Analysis 1

.27 11 .96

-.51 11 1.02

.22 12 1.02

.00 34 1.03

QualitéBon

Moyen

Médiocre

Total



.349 .122Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité

Eta Eta Squared

ANOVA Table

4.296 2 2.148 2.148 .134

31.000 31 1.000

35.296 33


Within Groups

Total

Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité


121111N =

Qualité

MédiocreMoyenBon

Dis

crim

ina

nt

Sco

res

fro

m F

un

ctio

n 2

fo

r A

na

lysi

s 1

3

2

1

0

-1

-2

-3

16

Les deux variablesdiscriminantes

-.88 -.87

-2.33 -.09

-.99 .83

-2.73 .25

.74 1.72

2.23 .48

-2.75 1.11

-2.53 .24

-3.73 2.11

1.13 1.37

2.17 -.04

-.36 1.36

-2.02 -.54

1.55 -.53

-.73 -.79

-.31 -1.80

.34 -1.56

-2.45 .80

.79 .16

2.41 -.46

1.14 -.82

3.54 -.93

-.55 -1.10

3.18 1.95

.21 -1.28

4.12 1.22

1.47 .22

-1.68 .23

2.17 -.49

.35 .13

-2.10 -1.49

.87 -.05

-1.09 -.98

-1.18 -.34

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Variablediscriminante

Z1

Variablediscriminante

Z2

17

Le premier plan discriminant

Variable discriminante Z1

6420-2-4

Va

ria

ble

dis

crim

ina

nte

Z2

3

2

1

0

-1

-2

Qualité

Group Centroids

Médiocre

Moyen

Bon

34

33

32

31

30

29

28 27

26

25

24

2322

21

20

19

18

17

16

15

1413

12

11

10

9

8

7

6

5

4

3

2

1

18

Carte des qualités

Symbols used in territorial map

Symbol Group Label------ ----- --------------------

1 1 Bon 2 2 Moyen 3 3 Médiocre * Indicates a group centroid

Territorial Map

Canonical DiscriminantFunction 2 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 6.0 31 31 31 31 31 31 4.0 31 31 31 31 31 31 2.0 3221 32 21 32 21 32 21 32 21 * 32 21 * .0 32 21 32 21 32 * 21 32 21 32 21 32 21 -2.0 32 21 32 21 32 21 32 21 32 21 32 21 -4.0 32 21 32 21 32 21 32 21 32 21 32 21 -6.0 32 21 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0

Canonical Discriminant Function 1

Les droites frontièressont les médiatricesdes segments joignantles centres de gravitédes groupes

19

Variable discriminante Z1

6420-2-4

Var

iabl

e di

scrim

inan

te

Z2

3

2

1

0

-1

-2

Qualité

Group Centroids

Médiocre

Moyen

Bon

34

33

32

31

30

29

28 27

26

25

24

2322

21

20

19

18

1716

151413

12

11

10

9

8

7

6

5

4

3

2

1

Premier plan discriminant et carte des qualités

Une nouvelle observation est classée dans le groupe pour lequel la distance entre l’observation et le centre du groupe est la plus faible.

20

Température

Chaleur

Pluie

*** *

*

*g2* *

* **

*g3* *

*

*

** *

*

**

*

*

* **

*

g1* **

**

Premier plan discriminant et territoire des qualités

g*

Z1

Z2

g3 ****

g2 ****

g1 ****

Le premier plan discriminant contientles centres de gravité des groupes

*A

*B

Affecter une observation A à la classe la plus proche (gh) est équivalent à affecter la projection B à la classe la plus proche.

21

Distance carrée au centre de gravité dans le plan (Z1,Z2)

Case Summariesa

10.32 1.19 2.62

19.89 6.28 .16

10.02 3.11 1.55

23.49 8.83 .42

4.00 5.35 10.22

.06 5.34 18.65

24.39 11.00 1.24

21.66 7.74 .21

37.63 21.93 6.31

2.19 4.51 11.62

.10 4.34 18.16

7.33 3.78 4.28

17.81 4.70 .58

.97 1.98 13.75

9.24 .84 2.84

10.18 1.87 7.24

6.52 1.14 9.05

21.21 8.49 .48

1.79 .86 8.21

.62 5.13 20.62

2.15 1.08 11.43

3.45 11.66 32.85

9.00 .83 4.06

3.94 15.26 30.66

6.06 .59 7.49

4.90 18.80 39.42

.43 2.28 12.57

14.41 3.87 .16

.58 4.09 18.53

3.14 .45 5.92

20.91 6.00 2.91

1.65 .74 8.79

11.91 1.76 2.42

11.27 1.79 1.11

34 34 34

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

NTotal

DBON DMOYEN DMEDIOCRE

Limited to first 100 cases.a.

22

Prévision de la qualité pourune nouvelle année (obs. 35)

Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300

Prévoir sa qualité.

23

Prévision de laqualité pourune nouvelleannée (obs. 35)

Case Summariesa

1 -.88255 -.87154

2 -2.32546 -.09422

3 -.99486 .83296

4 -2.72686 .24724

5 .74360 1.72117

6 2.23089 .48432

7 -2.74699 1.10879

8 -2.53383 .23602

9 -3.73088 2.11364

10 1.13041 1.36843

11 2.17473 -.04282

12 -.35666 1.36423

13 -2.02108 -.54262

14 1.55211 -.53357

15 -.72946 -.78920

16 -.30606 -1.80302

17 .34347 -1.56328

18 -2.45448 .80177

19 .78584 .15937

20 2.40988 -.46304

21 1.13802 -.81821

22 3.53529 -.93260

23 -.55191 -1.09502

24 3.18211 1.94567

25 .20968 -1.28127

26 4.11917 1.22305

27 1.46680 .21664

28 -1.67615 .22582

29 2.16713 -.48896

30 .35244 .12658

31 -2.10225 -1.48623

32 .87424 -.04986

33 -1.09442 -.98466

34 -1.18190 -.33558

35 -2.02768 .56940

35 35 35

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

NTotal

Observation Z1 Z2


24

Prévision de la qualité pourune nouvelle année (obs. 35)

Canonical Discriminant Functions

Function 1

6420-2-4

Fu

nct

ion

2

3

2

1

0

-1

-2

Qualité

Group Centroids

Ungrouped Cases

Médiocre

Moyen

Bon

35

25

Résultats de l’analyse factorielle discriminante

Group Statistics

3306.36 92.06 11 11.000

1363.64 80.31 11 11.000

28.55 8.80 11 11.000

305.00 52.29 11 11.000

3140.91 100.05 11 11.000

1262.91 71.94 11 11.000

16.45 6.73 11 11.000

339.64 54.99 11 11.000

3037.33 69.34 12 12.000

1126.42 88.39 12 12.000

12.08 6.30 12 12.000

430.33 104.85 12 12.000

3157.88 141.18 34 34.000

1247.32 126.62 34 34.000

18.82 10.02 34 34.000

360.44 91.40 34 34.000

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

QualitéBon

Moyen

Médiocre

Total

Mean Std. Deviation Unweighted Weighted

Valid N (listwise)

Functions at Group Centroids

2.122 .272

.146 -.513

-2.079 .221

QualitéBon

Moyen

Médiocre

1 2

Function

Unstandardized canonical discriminantfunctions evaluated at group means

Z1 = Score prédictifde la qualité du vin construit à partir des variables météo.

26


Tests of Equality of Group Means

.361 27.389 2 31 .000

.382 25.061 2 31 .000

.503 15.334 2 31 .000

.647 8.440 2 31 .001

Température

Soleil

Chaleur

Pluie

Wilks'Lambda F df1 df2 Sig.

2Somme des carrés intra-classes (X)Wilks ' Lambda = 1

Somme des carrés totale (X)

27


Eigenvalues

3.279a 95.9 95.9 .875

.139a 4.1 100.0 .349

Function1

2

Eigenvalue % of Variance Cumulative %CanonicalCorrelation

First 2 canonical discriminant functions were used in theanalysis.

a.

2h

2h

Somme des carrés inter-classes (Z )Eigenvalue

Somme des carrés intra-classes (Z ) 1

s = Nombre maximum de variables discriminantes = k-1

= Eta

28

Test en analyse factorielle discriminante(données multinormales)

Wilks' Lambda

.205 46.712 8 .000

.878 3.828 3 .281

Test of Function(s)1 through 2

2

Wilks'Lambda Chi-square df Sig.

Test 1 through s (ici s=2)

Test : H0 : 1 = … = s = 0 (au niveau de la population)

H1 : au moins 1 > 0

Statistique : Wilks’ Lambda = (1-12)... (1-s

2)

Décision : On rejette H0 au risque si

s

2 2 2h 1

h 1

1n 1 (p k) ln (1 ) p(k 1)

2

29

Test m through s

Test : H0 : m = … = s = 0 (au niveau de la population)H1 : au moins m > 0

Statistique : Wilks’ Lambda = (1-m2)... (1-s

2)

Décision : On rejette H0 au risque si

s

2 2 2h 1

h m

1n 1 (p k) ln (1 ) (p m 1)(k m)

2

30

Corrélation intra-classes entre les X et les Z

Structure Matrix

.724* .584

.701* -.176

.525 .780*

-.398 .421*

Température

Soleil

Chaleur

Pluie

1 2

Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Largest absolute correlation between each variable andany discriminant function

*.

i

i i

nk

ij i ij ii 1 j 1

n nk k2 2

ij i ij ii 1 j 1 i 1 j 1

(x x )(z z )

cor(X, Z | Qualité)

(x x ) (z z )

31

** *

**

**

* ***

**

* ***

*

Z

Pluie

** *

**

*

** *

**

*

** *

**

*

Z

Pluie

** *

**

*** *

**

*

Visualisation d’une corrélation intra-classes

Corrélationglobale positive

Corrélationintra-classesnégative

32

Analyse discriminante bayesienne

Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe

La probabilité qu’une observation provienne de la classe« Y = h » sachant que « X = x = (x1,…, xp) » peut s’écrire :

h

h

g (x)

kg (x)

h 1

eP(Y h | X x)

e

avec des fonctions de classification gh(x) de la forme :

gh(x) = bh0 + bh1X1+ … + bhpXp

où les X sont les variables d’origine.

33

Les fonctions de classification gh(x)

Classification Function Coefficients

.818 .801 .782

.154 .145 .126

-7.010 -7.056 -6.903

-.046 -.040 -.022

-1350.819 -1285.420 -1212.706

Température

Soleil

Chaleur

Pluie

(Constant)

Bon Moyen Médiocre

Qualité

Fisher's linear discriminant functions

Elles sont calculées ici en supposant les 3 qualitésa priori équiprobables :

34

Calcul des probabilités de chaque qualitépour chaqueannée

Moyen .007 .668 .325 Moyen

Médiocre .000 .045 .955 Médiocre

Moyen .010 .311 .679 Médiocre


Bon .643 .328 .029 Bon

Bon .933 .066 .000 Bon



Médiocre .000 .000 1.000 Médiocre

Moyen .756 .237 .007 Bon

Bon .892 .107 .000 Bon

Médiocre .087 .513 .400 Moyen


Bon .622 .377 .001 Bon

Moyen .011 .723 .266 Moyen

Moyen .014 .923 .063 Moyen

Moyen .062 .920 .018 Moyen


Moyen .379 .606 .015 Moyen

Bon .905 .095 .000 Bon

Moyen .367 .630 .004 Moyen

Bon .984 .016 .000 Bon

Moyen .014 .823 .163 Moyen

Bon .997 .003 .000 Bon

Moyen .059 .912 .029 Moyen

Bon .999 .001 .000 Bon

Moyen .714 .284 .002 Bon


Bon .852 .148 .000 Bon

Bon .196 .755 .049 Moyen


Bon .383 .606 .011 Moyen

Médiocre .004 .580 .416 Moyen


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Qualité

Proba.d'appartenance

au Groupe "Bon"

Proba.d'appartenance auGroupe "Moyen"

Proba.d'appartenance au

Groupe "Médiocre" Groupe prédit

35

Qualité de la prévision

Qualité * Groupe prédit Crosstabulation

Count

9 2 11

2 8 1 11

2 10 12

11 12 11 34

Bon

Moyen

Médiocre

Qualité

Total

Bon Moyen Médiocre

Groupe prédit

Total

36

Validité de la qualité de la prévisionévaluée par Jack-knife

Classification Resultsb,c

9 2 0 11

2 8 1 11

0 2 10 12

7 4 0 11

2 8 1 11

0 2 10 12

QualitéBon

Moyen

Médiocre

Bon

Moyen

Médiocre

Count

Count

Original

Cross-validateda

Bon Moyen Médiocre

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than that case.

a.

79.4% of original grouped cases correctly classified.b.

73.5% of cross-validated grouped cases correctly classified.c.

37

Prévision de la qualité pourune nouvelle année

Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300

Prévoir sa qualité.

38

Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2

1. La prédiction de la qualité du vin à l’aide des territoires

de qualité construits sur le plan discriminant (Z1, Z2)

est équivalente à la prédiction de la qualité obtenue

par analyse discriminante bayesienne des variables

discriminantes (Z1, Z2).

2. L’analyse discriminante bayesienne des variables

d’origine (X1,…,Xp) et l’analyse discriminante bayesienne

des variables discriminantes (Z1, Z2) conduisent aux

mêmes probabilités calculées des modalités de Y.

39

Analyse discriminante bayesienne sur lesvariables discriminantes Z1, Z2

Moyen Moyen .007 .668 .325

Médiocre Médiocre .000 .045 .955

Moyen Médiocre .010 .311 .679


Bon Bon .643 .328 .029

Bon Bon .933 .066 .000



Médiocre Médiocre .000 .000 1.000

Moyen Bon .756 .237 .007

Bon Bon .892 .107 .000

Médiocre Moyen .087 .513 .400


Bon Bon .622 .377 .001

Moyen Moyen .011 .723 .266

Moyen Moyen .014 .923 .063

Moyen Moyen .062 .920 .018


Moyen Moyen .379 .606 .015

Bon Bon .905 .095 .000

Moyen Moyen .367 .630 .004

Bon Bon .984 .016 .000

Moyen Moyen .014 .823 .163

Bon Bon .997 .003 .000

Moyen Moyen .059 .912 .029

Bon Bon .999 .001 .000

Moyen Bon .714 .284 .002


Bon Bon .852 .148 .000

Bon Moyen .196 .755 .049


Bon Moyen .383 .606 .011

Médiocre Moyen .004 .580 .416


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Qualitéobservée

Qualitéprédite Prob(BON) Prob(MOYEN) Prob(MEDIOCRE)

40

Utilisation de la méthode de segmentation CARTY ordinale : le critère Ordered Twoing

Segment t Effectif = nt

Segment tdroit

Effectif = ntdroit

Segment tgauche

Effectif = ntgauche

X X = 0X = 1

2

Ordered Twoing 2( , ) ( | ) ( | )tg td

g d g dt

j

n nt t p Y j t p Y j t

nMax

41

Ordered Twoing

2

2

2

2

( , )

15 19

34

( | ) ( | )

15 19.80 .00 .158

34

g d

g dj

t t

p Y j t p Y j tMax

Règles d’arrêt :

- Improvement min = 0.01

- Effectif segment parent < 25

- Effectif segment descendant < 1

Classification

11 0 0

1 10 0

0 1 11

35.3% 32.4% 32.4%

ObservedBon

Moyen

Médiocre

Overall Percentage

Bon Moyen Médiocre

Predicted

Growing Method: CRTDependent Variable: Qualité

Risk

.059

.235

MethodResubstitution

Cross-Validation

Estimate

Growing Method: CRTDependent Variable: Qualité

Nb de groupespour CV = 25

42

Crossvalidation (Documentation SPSS)

Crossvalidation divides the sample into a number of subsamples, or folds. Tree models are then generated, excluding the data from each subsample in turn. The first tree is based on all of the cases except those in the first sample fold, the second tree is based on all of the cases except those in the second sample fold, and so on.

For each tree, misclassification risk is estimated by applying the tree to the subsample excluded in generating it.

• You can specify a maximum of 25 sample folds. The higher the value, the fewer the number of cases excluded for each tree model.

• Crossvalidation produces a single, final tree model. The crossvalidated risk estimate for the final tree is calculated as the average of the risks for all of the trees.

43

Deuxième exemple : les races caninesRace Taille Poids Vitesse Intell. Affect. Agress. Fonction

123456789101112131415161718192021222324252627

BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve

TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++

PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++

V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-

INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+

AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-

AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-

UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité

44

Le tableau disjonctif complet

Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________

Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1

xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

45

Analyse factorielle discriminante Y = FonctionX = variables indicatrices des caractéristiques physiques et psychiques des chiens

Canonical Discriminant Functions

Function 1

420-2-4-6

Fu

nct

ion

2

3

2

1

0

-1

-2

-3

fonction

Group Centroids

utilité

chasse

compagnie

utilité

chasse

compagnie

Functions at Group Centroids

1.295 -1.706

1.637 1.769

-3.461 .143

fonctioncompagnie

chasse

utilité

1 2

Function

Unstandardized canonical discriminantfunctions evaluated at group means

46

Premier plan discriminant

Z1

420-2-4-6

Z2

3

2

1

0

-1

-2

-3

fonction

utilité

chasse

compagnie

terre-neuve

teckel

setter

saint-bernard

pointer

pékinois

mastiff

levrier

labrador (chasse)

grand bleu de gascogne

fox-terrier

fox-houndepagneul français

epagneul breton

dogue allemand

dobermann

dalmatien (compagnie)

colley

cocker

chihuahua

caniche

bull-mastiff

bull-dog

boxer

berger allemand

basset

beauceron

47

Variables discriminantesbeauceron -2.45 -1.41

basset 2.08 1.12

berger allemand -3.46 -.80

boxer .55 -.27

bull-dog 1.23 -2.41

bull-mastiff -5.60 .49

caniche 1.74 -1.94

chihuahua 1.96 -1.80

cocker 1.52 -2.42

colley -.55 -1.19

dalmatien 2.45 -.05

dobermann -1.43 2.34

dogue allemand -3.61 .06

epagneul breton 1.44 .55

epagneul français 2.74 2.24

fox-hound .30 2.34

fox-terrier .85 -2.76

grd bleu de gasc 1.57 2.63

labrador 2.45 -.05

levrier 2.20 2.56

mastiff -3.86 .49

pékinois 1.96 -1.80

pointer .47 2.56

saint-bernard -4.59 -.12

setter 1.48 1.95

teckel 1.23 -2.41

terre-neuve -2.69 .10

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN Z1 Z2

48

Case Summariesa

beauceron utilité 14.12 26.81 3.43 3.43 Utilité

basset chasse 8.61 .62 31.68 .62 Chasse

berger allemand utilité 23.41 32.57 .89 .89 Utilité

boxer compagnie 2.61 5.35 16.24 2.61 Compagnie

bull-dog compagnie .50 17.63 28.56 .50 Compagnie

bull-mastiff utilité 52.29 53.96 4.68 4.68 Utilité

caniche compagnie .25 13.74 31.40 .25 Compagnie

chihuahua compagnie .45 12.87 33.20 .45 Compagnie

cocker compagnie .56 17.55 31.40 .56 Compagnie

colley compagnie 3.66 13.53 10.26 3.66 Compagnie

dalmatien compagnie 4.07 3.98 34.99 3.98 Chasse

dobermann utilité 23.84 9.76 8.94 8.94 Utilité

dogue allemand utilité 27.19 30.44 .03 .03 Utilité

epagneul breton chasse 5.13 1.51 24.23 1.51 Chasse

epagneul français chasse 17.70 1.44 42.88 1.44 Chasse

fox-hound chasse 17.37 2.11 18.98 2.11 Chasse

fox-terrier compagnie 1.32 21.17 26.99 1.32 Compagnie

grd bleu de gasc chasse 18.89 .75 31.47 .75 Chasse

labrador chasse 4.07 3.98 34.99 3.98 Chasse

levrier chasse 19.04 .95 37.95 .95 Chasse

mastiff utilité 31.38 31.87 .28 .28 Utilité

pékinois compagnie .45 12.87 33.20 .45 Compagnie

pointer chasse 18.89 1.99 21.29 1.99 Chasse

saint-bernard utilité 37.14 42.34 1.34 1.34 Utilité

setter chasse 13.43 .06 27.65 .06 Chasse

teckel compagnie .50 17.63 28.56 .50 Compagnie

terre-neuve utilité 19.10 21.47 .60 .60 Utilité

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN fonction DCOMP DCHASSE DUTILITÉ MIN PREDICT


Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z1, Z2)

49

Analyse discriminante bayesienne(sur les données d’origine transformées en indicatrices)

Classification Function Coefficients

.347 2.399 3.709

15.197 18.732 8.520

55.660 57.844 25.214

44.598 53.851 30.212

7.616 8.999 9.587

13.215 14.656 7.734

15.018 15.611 6.764

10.845 9.080 4.935

24.126 35.742 20.319

14.457 15.871 5.810

-44.558 -58.390 -18.913

T-

T+

P-

P+

V-

V+

I-

I+

Af-

Ag-

(Constant)

compagnie chasse utilité

fonction

Fisher's linear discriminant functions

Problème : Appliquer une méthode supposant la normalitésur des données binaires !!!!

50

Prévision de la fonction d’un chienCase Summariesa

beauceron utilité .00474 .00001 .99526 utilité

basset chasse .01807 .98193 .00000 chasse

berger allemand utilité .00001 .00000 .99999 utilité

boxer compagnie .79642 .20270 .00088 compagnie

bull-dog compagnie .99981 .00019 .00000 compagnie

bull-mastiff utilité .00000 .00000 1.00000 utilité

caniche compagnie .99882 .00118 .00000 compagnie

chihuahua compagnie .99799 .00201 .00000 compagnie

cocker compagnie .99980 .00020 .00000 compagnie

colley compagnie .95774 .00692 .03534 compagnie

dalmatien compagnie .48859 .51141 .00000 chasse

dobermann utilité .00035 .39788 .60177 utilité

dogue allemand utilité .00000 .00000 1.00000 utilité

epagneul breton chasse .14058 .85941 .00001 chasse

epagneul français chasse .00030 .99970 .00000 chasse

fox-hound chasse .00049 .99930 .00022 chasse

fox-terrier compagnie .99995 .00005 .00000 compagnie

grd bleu de gasc chasse .00011 .99988 .00000 chasse

labrador chasse .48859 .51141 .00000 chasse

levrier chasse .00012 .99988 .00000 chasse

mastiff utilité .00000 .00000 1.00000 utilité

pékinois compagnie .99799 .00201 .00000 compagnie

pointer chasse .00021 .99972 .00006 chasse

saint-bernard utilité .00000 .00000 1.00000 utilité

setter chasse .00125 .99875 .00000 chasse

teckel compagnie .99981 .00019 .00000 compagnie

terre-neuve utilité .00010 .00003 .99987 utilité

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN fonction

Probabilitiesof

Membershipin Group 1

Probabilitiesof


Probabilitiesof


PredictedGroup


51

Prévision de la fonction d’un chien

Classification Resultsb,c

9 1 0 10

0 9 0 9

0 0 8 8

90.0 10.0 .0 100.0

.0 100.0 .0 100.0

.0 .0 100.0 100.0

7 2 1 10

3 6 0 9

1 1 6 8

70.0 20.0 10.0 100.0

33.3 66.7 .0 100.0

12.5 12.5 75.0 100.0

fonctioncompagnie

chasse

utilité

compagnie

chasse

utilité

compagnie

chasse

utilité

compagnie

chasse

utilité

Count

%

Count

%

Original

Cross-validateda

compagnie chasse utilité

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, eachcase is classified by the functions derived from all cases other than that case.

a.

96.3% of original grouped cases correctly classified.b.

70.4% of cross-validated grouped cases correctly classified.c.