1
Analyse discriminante
Michel Tenenhaus
2
Les objectifs de l’analyse discriminante
• Étude d’un tableau IndividusVariables : Les individus sont décrits par p variables X1,…, Xp.
• Les individus sont répartis en k classes selon les modalités d’une variable qualitative Y.
• Rechercher des variables discriminantes Zh, combinaisons linéaires des Xj, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante).
• Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).
3
Exemple : Qualité des vins de Bordeaux
Variables observées sur 34 années (1924 - 1957)
• TEMPERATURE : Somme des températures moyennes journalières
• SOLEIL : Durée d’insolation
• CHALEUR : Nombre de jours de grande chaleur
• PLUIE : Hauteur des pluies
• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)
4
Les données 3064 1201 10 361 2
3000 1053 11 338 3
3155 1133 19 393 2
3085 970 4 467 3
3245 1258 36 294 1
3267 1386 35 225 1
3080 966 13 417 3
2974 1189 12 488 3
3038 1103 14 677 3
3318 1310 29 427 2
3317 1362 25 326 1
3182 1171 28 326 3
2998 1102 9 349 3
3221 1424 21 382 1
3019 1230 16 275 2
3022 1285 9 303 2
3094 1329 11 339 2
3009 1210 15 536 3
3227 1331 21 414 2
3308 1366 24 282 1
3212 1289 17 302 2
3361 1444 25 253 1
3061 1175 12 261 2
3478 1317 42 259 1
3126 1248 11 315 2
3458 1508 43 286 1
3252 1361 26 346 2
3052 1186 14 443 3
3270 1399 24 306 1
3198 1259 20 367 1
2904 1164 6 311 3
3247 1277 19 375 1
3083 1195 5 441 3
3043 1208 14 371 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Température Soleil Chaleur Pluie Qualité
5
Analyse univariéeTempérature
Measures of Association
.799 .639Température * QualitéEta Eta Squared 121111N =
Qualité
MédiocreMoyenBon
Te
mp
éra
ture
3600
3500
3400
3300
3200
3100
3000
2900
2800
Report
Température
3306.36 11 92.06
3140.91 11 100.05
3037.33 12 69.34
3157.88 34 141.18
Qualité1
2
3
Total
Mean N Std. Deviation
2 Between Groups Sum of SquaresRapport de corrélation =
Total Sum of Squares
ANOVA Table
420067.4 2 210033.704 27.389 .000
237722.1 31 7668.456
657789.5 33
(Combined)Between Groups
Within Groups
Total
Température * Qualité
Sum ofSquares df Mean Square F Sig.
6
Analyse univariéeSoleil
Report
Soleil
1363.64 11 80.31
1262.91 11 71.94
1126.42 12 88.39
1247.32 34 126.62
QualitéBon
Moyen
Médiocre
Total
Mean N Std. Deviation
ANOVA Table
326909.1 2 163454.535 25.061 .000
202192.4 31 6522.335
529101.4 33
(Combined)Between Groups
Within Groups
Total
Soleil * Qualité
Sum ofSquares df Mean Square F Sig.
Measures of Association
.786 .618Soleil * QualitéEta Eta Squared
121111N =
Qualité
MédiocreMoyenBon
So
leil
1600
1500
1400
1300
1200
1100
1000
900
7
Analyse univariéeChaleur
Report
Chaleur
28.55 11 8.80
16.45 11 6.73
12.08 12 6.30
18.82 34 10.02
QualitéBon
Moyen
Médiocre
Total
Mean N Std. Deviation
ANOVA Table
1646.570 2 823.285 15.334 .000
1664.371 31 53.689
3310.941 33
(Combined)Between Groups
Within Groups
Total
Chaleur * Qualité
Sum ofSquares df Mean Square F Sig.
Measures of Association
.705 .497Chaleur * QualitéEta Eta Squared
121111N =
Qualité
MédiocreMoyenBonC
ha
leu
r
50
40
30
20
10
0
12
8
Analyse univariéePluie
Report
Pluie
305.00 11 52.29
339.64 11 54.99
430.33 12 104.85
360.44 34 91.40
QualitéBon
Moyen
Médiocre
Total
Mean N Std. Deviation
Measures of Association
.594 .353Pluie * QualitéEta Eta Squared
ANOVA Table
97191.170 2 48595.585 8.440 .001
178499.2 31 5758.039
275690.4 33
(Combined)Between Groups
Within Groups
Total
Pluie * Qualité
Sum ofSquares df Mean Square F Sig.
121111N =
Qualité
MédiocreMoyenBon
Plu
ie
800
700
600
500
400
300
200
100
9
Analyse factorielle discriminanteRecherche de la première variable discriminante
• On recherche une première variable discriminante centrée
séparant au mieux les k classes.
• On recherche des a1j conduisant à une variable Z1 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z1 sur le facteur Y définissant les classes.
• On choisit comme normalisation une variance intra-classes
de Z1 égale à 1.
p
1 10 1j jj 1
Z a a X
10
Calcul des variables discriminantessur les données d’origine
Canonical Discriminant Function Coefficients
.009 .000
.007 -.005
-.027 .128
-.006 .006
-32.876 2.165
Température
Soleil
Chaleur
Pluie
(Constant)
1 2
Function
Unstandardized coefficients
Z1 = .009*Température + .007*Soleil - .027*Chaleur - .006*Pluie - 32.876
11
NormalisationChaque X est centrée et normalisée par l’écart-typecommun aux classes (racine-carrée du carré moyenintra-classes) :
1
Température 3157.88X
7668.456
2
Soleil 1247.32X
6522.335
3
Chaleur 18.82X
53.689
4
Pluie 360.44X
5758.039
12
Calcul des variables discriminantes sur les données normalisées
Standardized CanonicalDiscriminant Function Coefficients
.750 -.004
.547 -.430
-.198 .935
-.445 .469
Température
Soleil
Chaleur
Pluie
1 2
Function
Z1 = .750*X1 + .547*X2 - .198*X3 - .445*X4
13
Analyse de la variance de Z1 sur la qualité
Measures of Association
.875 .766Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité
Eta Eta Squared
ANOVA Table
101.645 2 50.822 50.822 .000
31.000 31 1.000
132.645 33
(Combined)Between Groups
Within Groups
Total
Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité
Sum ofSquares df Mean Square F Sig.
121111N =
Qualité
MédiocreMoyenBon
Dis
crim
ina
nt
Sco
res
fro
m F
un
ctio
n 1
fo
r A
na
lysi
s 1
6
4
2
0
-2
-4
-6
Report
Discriminant Scores from Function 1 for Analysis 1
2.12 11 1.19
.15 11 .89
-2.08 12 .90
.00 34 2.00
QualitéBon
Moyen
Médiocre
Total
Mean N Std. Deviation
14
Analyse factorielle discriminanteRecherche de la deuxième variable discriminante
• On recherche une deuxième variable discriminante centrée et non corrélée à Z1
séparant au mieux les k classes.
• On recherche des a2j conduisant à une variable Z2 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z2 sur le facteur Y définissant les classes.
• On choisit comme normalisation une variance intra-classes
de Z2 égale à 1.
p
2 20 2 j jj 1
Z a a X
15
Analyse de la variance de Z2 sur la qualité
Report
Discriminant Scores from Function 2 for Analysis 1
.27 11 .96
-.51 11 1.02
.22 12 1.02
.00 34 1.03
QualitéBon
Moyen
Médiocre
Total
Mean N Std. Deviation
Measures of Association
.349 .122Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité
Eta Eta Squared
ANOVA Table
4.296 2 2.148 2.148 .134
31.000 31 1.000
35.296 33
(Combined)Between Groups
Within Groups
Total
Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité
Sum ofSquares df Mean Square F Sig.
121111N =
Qualité
MédiocreMoyenBon
Dis
crim
ina
nt
Sco
res
fro
m F
un
ctio
n 2
fo
r A
na
lysi
s 1
3
2
1
0
-1
-2
-3
16
Les deux variablesdiscriminantes
-.88 -.87
-2.33 -.09
-.99 .83
-2.73 .25
.74 1.72
2.23 .48
-2.75 1.11
-2.53 .24
-3.73 2.11
1.13 1.37
2.17 -.04
-.36 1.36
-2.02 -.54
1.55 -.53
-.73 -.79
-.31 -1.80
.34 -1.56
-2.45 .80
.79 .16
2.41 -.46
1.14 -.82
3.54 -.93
-.55 -1.10
3.18 1.95
.21 -1.28
4.12 1.22
1.47 .22
-1.68 .23
2.17 -.49
.35 .13
-2.10 -1.49
.87 -.05
-1.09 -.98
-1.18 -.34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Variablediscriminante
Z1
Variablediscriminante
Z2
17
Le premier plan discriminant
Variable discriminante Z1
6420-2-4
Va
ria
ble
dis
crim
ina
nte
Z2
3
2
1
0
-1
-2
Qualité
Group Centroids
Médiocre
Moyen
Bon
34
33
32
31
30
29
28 27
26
25
24
2322
21
20
19
18
17
16
15
1413
12
11
10
9
8
7
6
5
4
3
2
1
18
Carte des qualités
Symbols used in territorial map
Symbol Group Label------ ----- --------------------
1 1 Bon 2 2 Moyen 3 3 Médiocre * Indicates a group centroid
Territorial Map
Canonical DiscriminantFunction 2 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 6.0 31 31 31 31 31 31 4.0 31 31 31 31 31 31 2.0 3221 32 21 32 21 32 21 32 21 * 32 21 * .0 32 21 32 21 32 * 21 32 21 32 21 32 21 -2.0 32 21 32 21 32 21 32 21 32 21 32 21 -4.0 32 21 32 21 32 21 32 21 32 21 32 21 -6.0 32 21 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0
Canonical Discriminant Function 1
Les droites frontièressont les médiatricesdes segments joignantles centres de gravitédes groupes
19
Variable discriminante Z1
6420-2-4
Var
iabl
e di
scrim
inan
te
Z2
3
2
1
0
-1
-2
Qualité
Group Centroids
Médiocre
Moyen
Bon
34
33
32
31
30
29
28 27
26
25
24
2322
21
20
19
18
1716
151413
12
11
10
9
8
7
6
5
4
3
2
1
Premier plan discriminant et carte des qualités
Une nouvelle observation est classée dans le groupe pour lequel la distance entre l’observation et le centre du groupe est la plus faible.
20
Température
Chaleur
Pluie
*** *
*
*g2* *
* **
*g3* *
*
*
** *
*
**
*
*
* **
*
g1* **
**
Premier plan discriminant et territoire des qualités
g*
Z1
Z2
g3 ****
g2 ****
g1 ****
Le premier plan discriminant contientles centres de gravité des groupes
*A
*B
Affecter une observation A à la classe la plus proche (gh) est équivalent à affecter la projection B à la classe la plus proche.
21
Distance carrée au centre de gravité dans le plan (Z1,Z2)
Case Summariesa
10.32 1.19 2.62
19.89 6.28 .16
10.02 3.11 1.55
23.49 8.83 .42
4.00 5.35 10.22
.06 5.34 18.65
24.39 11.00 1.24
21.66 7.74 .21
37.63 21.93 6.31
2.19 4.51 11.62
.10 4.34 18.16
7.33 3.78 4.28
17.81 4.70 .58
.97 1.98 13.75
9.24 .84 2.84
10.18 1.87 7.24
6.52 1.14 9.05
21.21 8.49 .48
1.79 .86 8.21
.62 5.13 20.62
2.15 1.08 11.43
3.45 11.66 32.85
9.00 .83 4.06
3.94 15.26 30.66
6.06 .59 7.49
4.90 18.80 39.42
.43 2.28 12.57
14.41 3.87 .16
.58 4.09 18.53
3.14 .45 5.92
20.91 6.00 2.91
1.65 .74 8.79
11.91 1.76 2.42
11.27 1.79 1.11
34 34 34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
NTotal
DBON DMOYEN DMEDIOCRE
Limited to first 100 cases.a.
22
Prévision de la qualité pourune nouvelle année (obs. 35)
Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300
Prévoir sa qualité.
23
Prévision de laqualité pourune nouvelleannée (obs. 35)
Case Summariesa
1 -.88255 -.87154
2 -2.32546 -.09422
3 -.99486 .83296
4 -2.72686 .24724
5 .74360 1.72117
6 2.23089 .48432
7 -2.74699 1.10879
8 -2.53383 .23602
9 -3.73088 2.11364
10 1.13041 1.36843
11 2.17473 -.04282
12 -.35666 1.36423
13 -2.02108 -.54262
14 1.55211 -.53357
15 -.72946 -.78920
16 -.30606 -1.80302
17 .34347 -1.56328
18 -2.45448 .80177
19 .78584 .15937
20 2.40988 -.46304
21 1.13802 -.81821
22 3.53529 -.93260
23 -.55191 -1.09502
24 3.18211 1.94567
25 .20968 -1.28127
26 4.11917 1.22305
27 1.46680 .21664
28 -1.67615 .22582
29 2.16713 -.48896
30 .35244 .12658
31 -2.10225 -1.48623
32 .87424 -.04986
33 -1.09442 -.98466
34 -1.18190 -.33558
35 -2.02768 .56940
35 35 35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
NTotal
Observation Z1 Z2
Limited to first 100 cases.a.
24
Prévision de la qualité pourune nouvelle année (obs. 35)
Canonical Discriminant Functions
Function 1
6420-2-4
Fu
nct
ion
2
3
2
1
0
-1
-2
Qualité
Group Centroids
Ungrouped Cases
Médiocre
Moyen
Bon
35
25
Résultats de l’analyse factorielle discriminante
Group Statistics
3306.36 92.06 11 11.000
1363.64 80.31 11 11.000
28.55 8.80 11 11.000
305.00 52.29 11 11.000
3140.91 100.05 11 11.000
1262.91 71.94 11 11.000
16.45 6.73 11 11.000
339.64 54.99 11 11.000
3037.33 69.34 12 12.000
1126.42 88.39 12 12.000
12.08 6.30 12 12.000
430.33 104.85 12 12.000
3157.88 141.18 34 34.000
1247.32 126.62 34 34.000
18.82 10.02 34 34.000
360.44 91.40 34 34.000
Température
Soleil
Chaleur
Pluie
Température
Soleil
Chaleur
Pluie
Température
Soleil
Chaleur
Pluie
Température
Soleil
Chaleur
Pluie
QualitéBon
Moyen
Médiocre
Total
Mean Std. Deviation Unweighted Weighted
Valid N (listwise)
Functions at Group Centroids
2.122 .272
.146 -.513
-2.079 .221
QualitéBon
Moyen
Médiocre
1 2
Function
Unstandardized canonical discriminantfunctions evaluated at group means
Z1 = Score prédictifde la qualité du vin construit à partir des variables météo.
26
Résultats de l’analyse factorielle discriminante
Tests of Equality of Group Means
.361 27.389 2 31 .000
.382 25.061 2 31 .000
.503 15.334 2 31 .000
.647 8.440 2 31 .001
Température
Soleil
Chaleur
Pluie
Wilks'Lambda F df1 df2 Sig.
2Somme des carrés intra-classes (X)Wilks ' Lambda = 1
Somme des carrés totale (X)
27
Résultats de l’analyse factorielle discriminante
Eigenvalues
3.279a 95.9 95.9 .875
.139a 4.1 100.0 .349
Function1
2
Eigenvalue % of Variance Cumulative %CanonicalCorrelation
First 2 canonical discriminant functions were used in theanalysis.
a.
2h
2h
Somme des carrés inter-classes (Z )Eigenvalue
Somme des carrés intra-classes (Z ) 1
s = Nombre maximum de variables discriminantes = k-1
= Eta
28
Test en analyse factorielle discriminante(données multinormales)
Wilks' Lambda
.205 46.712 8 .000
.878 3.828 3 .281
Test of Function(s)1 through 2
2
Wilks'Lambda Chi-square df Sig.
Test 1 through s (ici s=2)
Test : H0 : 1 = … = s = 0 (au niveau de la population)
H1 : au moins 1 > 0
Statistique : Wilks’ Lambda = (1-12)... (1-s
2)
Décision : On rejette H0 au risque si
s
2 2 2h 1
h 1
1n 1 (p k) ln (1 ) p(k 1)
2
29
Test m through s
Test : H0 : m = … = s = 0 (au niveau de la population)H1 : au moins m > 0
Statistique : Wilks’ Lambda = (1-m2)... (1-s
2)
Décision : On rejette H0 au risque si
s
2 2 2h 1
h m
1n 1 (p k) ln (1 ) (p m 1)(k m)
2
30
Corrélation intra-classes entre les X et les Z
Structure Matrix
.724* .584
.701* -.176
.525 .780*
-.398 .421*
Température
Soleil
Chaleur
Pluie
1 2
Function
Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
Largest absolute correlation between each variable andany discriminant function
*.
i
i i
nk
ij i ij ii 1 j 1
n nk k2 2
ij i ij ii 1 j 1 i 1 j 1
(x x )(z z )
cor(X, Z | Qualité)
(x x ) (z z )
31
** *
**
**
* ***
**
* ***
*
Z
Pluie
** *
**
*
** *
**
*
** *
**
*
Z
Pluie
** *
**
*** *
**
*
Visualisation d’une corrélation intra-classes
Corrélationglobale positive
Corrélationintra-classesnégative
32
Analyse discriminante bayesienne
Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe
La probabilité qu’une observation provienne de la classe« Y = h » sachant que « X = x = (x1,…, xp) » peut s’écrire :
h
h
g (x)
kg (x)
h 1
eP(Y h | X x)
e
avec des fonctions de classification gh(x) de la forme :
gh(x) = bh0 + bh1X1+ … + bhpXp
où les X sont les variables d’origine.
33
Les fonctions de classification gh(x)
Classification Function Coefficients
.818 .801 .782
.154 .145 .126
-7.010 -7.056 -6.903
-.046 -.040 -.022
-1350.819 -1285.420 -1212.706
Température
Soleil
Chaleur
Pluie
(Constant)
Bon Moyen Médiocre
Qualité
Fisher's linear discriminant functions
Elles sont calculées ici en supposant les 3 qualitésa priori équiprobables :
34
Calcul des probabilités de chaque qualitépour chaqueannée
Moyen .007 .668 .325 Moyen
Médiocre .000 .045 .955 Médiocre
Moyen .010 .311 .679 Médiocre
Médiocre .000 .015 .985 Médiocre
Bon .643 .328 .029 Bon
Bon .933 .066 .000 Bon
Médiocre .000 .008 .992 Médiocre
Médiocre .000 .023 .977 Médiocre
Médiocre .000 .000 1.000 Médiocre
Moyen .756 .237 .007 Bon
Bon .892 .107 .000 Bon
Médiocre .087 .513 .400 Moyen
Médiocre .000 .113 .886 Médiocre
Bon .622 .377 .001 Bon
Moyen .011 .723 .266 Moyen
Moyen .014 .923 .063 Moyen
Moyen .062 .920 .018 Moyen
Médiocre .000 .018 .982 Médiocre
Moyen .379 .606 .015 Moyen
Bon .905 .095 .000 Bon
Moyen .367 .630 .004 Moyen
Bon .984 .016 .000 Bon
Moyen .014 .823 .163 Moyen
Bon .997 .003 .000 Bon
Moyen .059 .912 .029 Moyen
Bon .999 .001 .000 Bon
Moyen .714 .284 .002 Bon
Médiocre .001 .135 .864 Médiocre
Bon .852 .148 .000 Bon
Bon .196 .755 .049 Moyen
Médiocre .000 .176 .824 Médiocre
Bon .383 .606 .011 Moyen
Médiocre .004 .580 .416 Moyen
Médiocre .004 .414 .582 Médiocre
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Qualité
Proba.d'appartenance
au Groupe "Bon"
Proba.d'appartenance auGroupe "Moyen"
Proba.d'appartenance au
Groupe "Médiocre" Groupe prédit
35
Qualité de la prévision
Qualité * Groupe prédit Crosstabulation
Count
9 2 11
2 8 1 11
2 10 12
11 12 11 34
Bon
Moyen
Médiocre
Qualité
Total
Bon Moyen Médiocre
Groupe prédit
Total
36
Validité de la qualité de la prévisionévaluée par Jack-knife
Classification Resultsb,c
9 2 0 11
2 8 1 11
0 2 10 12
7 4 0 11
2 8 1 11
0 2 10 12
QualitéBon
Moyen
Médiocre
Bon
Moyen
Médiocre
Count
Count
Original
Cross-validateda
Bon Moyen Médiocre
Predicted Group Membership
Total
Cross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than that case.
a.
79.4% of original grouped cases correctly classified.b.
73.5% of cross-validated grouped cases correctly classified.c.
37
Prévision de la qualité pourune nouvelle année
Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300
Prévoir sa qualité.
38
Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2
1. La prédiction de la qualité du vin à l’aide des territoires
de qualité construits sur le plan discriminant (Z1, Z2)
est équivalente à la prédiction de la qualité obtenue
par analyse discriminante bayesienne des variables
discriminantes (Z1, Z2).
2. L’analyse discriminante bayesienne des variables
d’origine (X1,…,Xp) et l’analyse discriminante bayesienne
des variables discriminantes (Z1, Z2) conduisent aux
mêmes probabilités calculées des modalités de Y.
39
Analyse discriminante bayesienne sur lesvariables discriminantes Z1, Z2
Moyen Moyen .007 .668 .325
Médiocre Médiocre .000 .045 .955
Moyen Médiocre .010 .311 .679
Médiocre Médiocre .000 .015 .985
Bon Bon .643 .328 .029
Bon Bon .933 .066 .000
Médiocre Médiocre .000 .008 .992
Médiocre Médiocre .000 .023 .977
Médiocre Médiocre .000 .000 1.000
Moyen Bon .756 .237 .007
Bon Bon .892 .107 .000
Médiocre Moyen .087 .513 .400
Médiocre Médiocre .000 .113 .886
Bon Bon .622 .377 .001
Moyen Moyen .011 .723 .266
Moyen Moyen .014 .923 .063
Moyen Moyen .062 .920 .018
Médiocre Médiocre .000 .018 .982
Moyen Moyen .379 .606 .015
Bon Bon .905 .095 .000
Moyen Moyen .367 .630 .004
Bon Bon .984 .016 .000
Moyen Moyen .014 .823 .163
Bon Bon .997 .003 .000
Moyen Moyen .059 .912 .029
Bon Bon .999 .001 .000
Moyen Bon .714 .284 .002
Médiocre Médiocre .001 .135 .864
Bon Bon .852 .148 .000
Bon Moyen .196 .755 .049
Médiocre Médiocre .000 .176 .824
Bon Moyen .383 .606 .011
Médiocre Moyen .004 .580 .416
Médiocre Médiocre .004 .414 .582
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Qualitéobservée
Qualitéprédite Prob(BON) Prob(MOYEN) Prob(MEDIOCRE)
40
Utilisation de la méthode de segmentation CARTY ordinale : le critère Ordered Twoing
Segment t Effectif = nt
Segment tdroit
Effectif = ntdroit
Segment tgauche
Effectif = ntgauche
X X = 0X = 1
2
Ordered Twoing 2( , ) ( | ) ( | )tg td
g d g dt
j
n nt t p Y j t p Y j t
nMax
41
Ordered Twoing
2
2
2
2
( , )
15 19
34
( | ) ( | )
15 19.80 .00 .158
34
g d
g dj
t t
p Y j t p Y j tMax
Règles d’arrêt :
- Improvement min = 0.01
- Effectif segment parent < 25
- Effectif segment descendant < 1
Classification
11 0 0
1 10 0
0 1 11
35.3% 32.4% 32.4%
ObservedBon
Moyen
Médiocre
Overall Percentage
Bon Moyen Médiocre
Predicted
Growing Method: CRTDependent Variable: Qualité
Risk
.059
.235
MethodResubstitution
Cross-Validation
Estimate
Growing Method: CRTDependent Variable: Qualité
Nb de groupespour CV = 25
42
Crossvalidation (Documentation SPSS)
Crossvalidation divides the sample into a number of subsamples, or folds. Tree models are then generated, excluding the data from each subsample in turn. The first tree is based on all of the cases except those in the first sample fold, the second tree is based on all of the cases except those in the second sample fold, and so on.
For each tree, misclassification risk is estimated by applying the tree to the subsample excluded in generating it.
• You can specify a maximum of 25 sample folds. The higher the value, the fewer the number of cases excluded for each tree model.
• Crossvalidation produces a single, final tree model. The crossvalidated risk estimate for the final tree is calculated as the average of the risks for all of the trees.
43
Deuxième exemple : les races caninesRace Taille Poids Vitesse Intell. Affect. Agress. Fonction
123456789101112131415161718192021222324252627
BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve
TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++
PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++
V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-
INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+
AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-
AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-
UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité
44
Le tableau disjonctif complet
Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________
Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon
45
Analyse factorielle discriminante Y = FonctionX = variables indicatrices des caractéristiques physiques et psychiques des chiens
Canonical Discriminant Functions
Function 1
420-2-4-6
Fu
nct
ion
2
3
2
1
0
-1
-2
-3
fonction
Group Centroids
utilité
chasse
compagnie
utilité
chasse
compagnie
Functions at Group Centroids
1.295 -1.706
1.637 1.769
-3.461 .143
fonctioncompagnie
chasse
utilité
1 2
Function
Unstandardized canonical discriminantfunctions evaluated at group means
46
Premier plan discriminant
Z1
420-2-4-6
Z2
3
2
1
0
-1
-2
-3
fonction
utilité
chasse
compagnie
terre-neuve
teckel
setter
saint-bernard
pointer
pékinois
mastiff
levrier
labrador (chasse)
grand bleu de gascogne
fox-terrier
fox-houndepagneul français
epagneul breton
dogue allemand
dobermann
dalmatien (compagnie)
colley
cocker
chihuahua
caniche
bull-mastiff
bull-dog
boxer
berger allemand
basset
beauceron
47
Variables discriminantesbeauceron -2.45 -1.41
basset 2.08 1.12
berger allemand -3.46 -.80
boxer .55 -.27
bull-dog 1.23 -2.41
bull-mastiff -5.60 .49
caniche 1.74 -1.94
chihuahua 1.96 -1.80
cocker 1.52 -2.42
colley -.55 -1.19
dalmatien 2.45 -.05
dobermann -1.43 2.34
dogue allemand -3.61 .06
epagneul breton 1.44 .55
epagneul français 2.74 2.24
fox-hound .30 2.34
fox-terrier .85 -2.76
grd bleu de gasc 1.57 2.63
labrador 2.45 -.05
levrier 2.20 2.56
mastiff -3.86 .49
pékinois 1.96 -1.80
pointer .47 2.56
saint-bernard -4.59 -.12
setter 1.48 1.95
teckel 1.23 -2.41
terre-neuve -2.69 .10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN Z1 Z2
48
Case Summariesa
beauceron utilité 14.12 26.81 3.43 3.43 Utilité
basset chasse 8.61 .62 31.68 .62 Chasse
berger allemand utilité 23.41 32.57 .89 .89 Utilité
boxer compagnie 2.61 5.35 16.24 2.61 Compagnie
bull-dog compagnie .50 17.63 28.56 .50 Compagnie
bull-mastiff utilité 52.29 53.96 4.68 4.68 Utilité
caniche compagnie .25 13.74 31.40 .25 Compagnie
chihuahua compagnie .45 12.87 33.20 .45 Compagnie
cocker compagnie .56 17.55 31.40 .56 Compagnie
colley compagnie 3.66 13.53 10.26 3.66 Compagnie
dalmatien compagnie 4.07 3.98 34.99 3.98 Chasse
dobermann utilité 23.84 9.76 8.94 8.94 Utilité
dogue allemand utilité 27.19 30.44 .03 .03 Utilité
epagneul breton chasse 5.13 1.51 24.23 1.51 Chasse
epagneul français chasse 17.70 1.44 42.88 1.44 Chasse
fox-hound chasse 17.37 2.11 18.98 2.11 Chasse
fox-terrier compagnie 1.32 21.17 26.99 1.32 Compagnie
grd bleu de gasc chasse 18.89 .75 31.47 .75 Chasse
labrador chasse 4.07 3.98 34.99 3.98 Chasse
levrier chasse 19.04 .95 37.95 .95 Chasse
mastiff utilité 31.38 31.87 .28 .28 Utilité
pékinois compagnie .45 12.87 33.20 .45 Compagnie
pointer chasse 18.89 1.99 21.29 1.99 Chasse
saint-bernard utilité 37.14 42.34 1.34 1.34 Utilité
setter chasse 13.43 .06 27.65 .06 Chasse
teckel compagnie .50 17.63 28.56 .50 Compagnie
terre-neuve utilité 19.10 21.47 .60 .60 Utilité
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN fonction DCOMP DCHASSE DUTILITÉ MIN PREDICT
Limited to first 100 cases.a.
Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z1, Z2)
49
Analyse discriminante bayesienne(sur les données d’origine transformées en indicatrices)
Classification Function Coefficients
.347 2.399 3.709
15.197 18.732 8.520
55.660 57.844 25.214
44.598 53.851 30.212
7.616 8.999 9.587
13.215 14.656 7.734
15.018 15.611 6.764
10.845 9.080 4.935
24.126 35.742 20.319
14.457 15.871 5.810
-44.558 -58.390 -18.913
T-
T+
P-
P+
V-
V+
I-
I+
Af-
Ag-
(Constant)
compagnie chasse utilité
fonction
Fisher's linear discriminant functions
Problème : Appliquer une méthode supposant la normalitésur des données binaires !!!!
50
Prévision de la fonction d’un chienCase Summariesa
beauceron utilité .00474 .00001 .99526 utilité
basset chasse .01807 .98193 .00000 chasse
berger allemand utilité .00001 .00000 .99999 utilité
boxer compagnie .79642 .20270 .00088 compagnie
bull-dog compagnie .99981 .00019 .00000 compagnie
bull-mastiff utilité .00000 .00000 1.00000 utilité
caniche compagnie .99882 .00118 .00000 compagnie
chihuahua compagnie .99799 .00201 .00000 compagnie
cocker compagnie .99980 .00020 .00000 compagnie
colley compagnie .95774 .00692 .03534 compagnie
dalmatien compagnie .48859 .51141 .00000 chasse
dobermann utilité .00035 .39788 .60177 utilité
dogue allemand utilité .00000 .00000 1.00000 utilité
epagneul breton chasse .14058 .85941 .00001 chasse
epagneul français chasse .00030 .99970 .00000 chasse
fox-hound chasse .00049 .99930 .00022 chasse
fox-terrier compagnie .99995 .00005 .00000 compagnie
grd bleu de gasc chasse .00011 .99988 .00000 chasse
labrador chasse .48859 .51141 .00000 chasse
levrier chasse .00012 .99988 .00000 chasse
mastiff utilité .00000 .00000 1.00000 utilité
pékinois compagnie .99799 .00201 .00000 compagnie
pointer chasse .00021 .99972 .00006 chasse
saint-bernard utilité .00000 .00000 1.00000 utilité
setter chasse .00125 .99875 .00000 chasse
teckel compagnie .99981 .00019 .00000 compagnie
terre-neuve utilité .00010 .00003 .99987 utilité
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN fonction
Probabilitiesof
Membershipin Group 1
Probabilitiesof
Membershipin Group 2
Probabilitiesof
Membershipin Group 3
PredictedGroup
Limited to first 100 cases.a.
51
Prévision de la fonction d’un chien
Classification Resultsb,c
9 1 0 10
0 9 0 9
0 0 8 8
90.0 10.0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
7 2 1 10
3 6 0 9
1 1 6 8
70.0 20.0 10.0 100.0
33.3 66.7 .0 100.0
12.5 12.5 75.0 100.0
fonctioncompagnie
chasse
utilité
compagnie
chasse
utilité
compagnie
chasse
utilité
compagnie
chasse
utilité
Count
%
Count
%
Original
Cross-validateda
compagnie chasse utilité
Predicted Group Membership
Total
Cross validation is done only for those cases in the analysis. In cross validation, eachcase is classified by the functions derived from all cases other than that case.
a.
96.3% of original grouped cases correctly classified.b.
70.4% of cross-validated grouped cases correctly classified.c.
Top Related