Mehdi ADDAR

16
Mehdi ADDAR Sylvain DOUSSET Manuel BOUILLON Aurélien TEXIER Bertrand LE MAROUILLE Maxime HAVEZ Encadrant : Farid BENINEL Classe A Class e B Indiv idu I ETUDES SUR LA CLASSIFICATION

description

ETUDES SUR LA CLASSIFICATION. Mehdi ADDAR. Maxime HAVEZ. Individu I. Sylvain DOUSSET. Bertrand LE MAROUILLE. Classe A. Classe B. Manuel BOUILLON. Aurélien TEXIER. Encadrant : Farid BENINEL. I - Présentation. Mehdi ADDAR. Maxime HAVEZ. Individu I. Sylvain DOUSSET. - PowerPoint PPT Presentation

Transcript of Mehdi ADDAR

Page 1: Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

ETUDES SUR LA CLASSIFICATION

Page 2: Mehdi ADDAR

2

• Les données• La méthode de classification

I - Présentation

• Méthode du favorite class model• Méthode du random choice

II - Mise en place d’une équipe de Classifieurs

• Différentes méthodes composante par composante• Méthode basée sur la distance au profil moyen

III - Classifieur Synthétique, Résultats et Interprétations

Page 3: Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

I - Présentation

Page 4: Mehdi ADDAR

4Etudes sur la Classification

•Données sur les clients d’une banque Allemande à Munich.

•Problématique d’une banque : Accorder ou non un prêt à un client?

I – Présentation des données

Client : Monsieur X• Compte courant• Montant total du crédit• Nombre des précédents crédits• Durée du dernier emploi• Age• Situation familiale• …

Page 5: Mehdi ADDAR

5Etudes sur la Classification

I – Présentation de la méthode de classification

Kredit

0 (refus) 1 (accord)

Individu à classifier

Classifieur synthétique grâce à un « choix social »

Combinaison d’équipes de classifieurs

Page 6: Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

II – Mise en place d’une équipe de classifieurs

Page 7: Mehdi ADDAR

7Etudes sur la Classification

•Créer une équipe de N classifieurs (N = nombre de classes de la variable à expliquer, pour N > 2).

•Prendre en compte les 4 covariables les plus corrélées à la variable à expliquer.

•Analyser les résultats obtenus.

II – Méthode du « favorite class model »

Dans notre cas, créer une équipe d’un classifieur

• taux d’erreur : 0,27• proportion d'erreur (Acceptation de

mauvais clients): 0.09733333

• Laufkont(Compte courant)• laufzeit(Durée en mois)

• moral(Paiement des crédits précédents)• Sparkont(Montant des réserves)

Page 8: Mehdi ADDAR

8

•Sélection aléatoire de 4 covariables parmi les D variables les plus corrélées à « Kredit ».

•On a ainsi solutions de classifieurs différents. Il est donc important de

les évaluer afin de déterminer ceux que l’on gardera.

- a = nombre d’individus correctement classés dans Clk et Cll.- b = nombre d’individus mal classés dans Clk et Cll.- c = nombre d’individus correctement classés dans Clk et mal dans Cll.- d = nombre d’individus mal classés dans Clk et bien dans Cll.

II – Méthode du « random choice »

D = 7Définition

d’un seuil = 0.1

Etudes sur la Classification

Page 9: Mehdi ADDAR

9Etudes sur la Classification

II – Méthode du « random choice » - Suite

Cla

ssif2

2

Cla

ssif4

Cla

ssif5

Cla

ssif1

7

Cla

ssif2

1

Cla

ssif6

Cla

ssif3

3

Cla

ssif9

Cla

ssif1

2

Cla

ssif8

Cla

ssif3

2

Cla

ssif3

Cla

ssif2

0

Cla

ssif2

8

Cla

ssif3

4

Cla

ssif1

1

Cla

ssif1

8

Cla

ssif7

Cla

ssif2

9

Cla

ssif2

Cla

ssif3

5

Cla

ssif1

3

Cla

ssif1

6

Cla

ssif1

0

Cla

ssif2

7

Cla

ssif2

3

Cla

ssif2

6

Cla

ssif1

9

Cla

ssif3

0

Cla

ssif1

Cla

ssif3

1

Cla

ssif1

5

Cla

ssif2

4

Cla

ssif1

4

Cla

ssif2

5

-1.0

-0.8

-0.6

-0.4

-0.2

0.0

Cluster Dendrogram

hclust (*, "median")Diversite

Hei

ght

Page 10: Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

III – Classifieur Synthétique, Résultats et Interprétations

Page 11: Mehdi ADDAR

11Etudes sur la Classification

III – Méthode composante par composante

•Utilisation des équipes de classifieurs obtenues précédemment et création d’un classifieur synthétique grâce à ces méthodes.

•Méthode du minimum.

•Même système pour les méthodes du maximum, de la moyenne, du produit, de la moyenne pondérée.•Pour la méthode du trimmed mean (moyenne tronquée), on retire 10% des classifieurs (parmi les plus éloignés à la moyenne des classifieurs), puis méthode de la moyenne standard.

Individu Classifieur 1 Classifieur 2 Classifieur 3 Classifieur Synthétique

1 0,3 0,9 0,7 0,3

2 0,6 0,1 0,6 0,1

3 0,8 0,8 0,7 0,7

4 0,4 0,8 0,5 0,4

Page 12: Mehdi ADDAR

12Etudes sur la Classification

III – Méthode composante par composante

Méthode du minimum Méthode du maximum

Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC : 0.7721743

Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC : 0.7721743

Page 13: Mehdi ADDAR

13Etudes sur la Classification

III – Méthode composante par composante

Méthode de la moyenne Méthode de la médiane

Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC : 0.814217

Proportion d'erreur : 0.2933333 Proportion d'erreur (Acceptation de mauvais clients): 0.02966667 AUC : 0.8069564

Page 14: Mehdi ADDAR

14Etudes sur la Classification

III – Méthode composante par composante

Méthode du produit Méthode Trimmed Mean

Proportion d'erreur : 0.3033333 Proportion d'erreur (Acceptation de mauvais clients): 0.02716667 AUC : 0.8171115

Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC : 0.8130887

Page 15: Mehdi ADDAR

15Etudes sur la Classification

III – Méthode basée sur la distance au profil moyen

•On utilise désormais une méthode qui opère par combinaison de composantes.

•Pour chaque individu, on calcule la distance au profil moyen de chacune des deux classes de la variable expliquée « Kredit ». Ce profil moyen est calculé selon les classifieurs.

•Ensuite on affecte l’individu à la classe avec laquelle il est le plus proche.

Individu Distance au profil moyen

ClassificationClasse 0 Classe 1

1 0,3 0,4 Classe 0

2 0,8 0,3 Classe 1

3 0,1 0,4 Classe 0

4 0,5 0,9 Classe 0

Proportion d'erreur : 0.2333333 AUC : 0.8080357

Page 16: Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

Conclusion