modèle de scoring pour la clientèle

Post on 08-Jul-2015

369 views 1 download

Tags:

Transcript of modèle de scoring pour la clientèle

ELABORATION D’UN MODÈLE DE SCORING POUR

LA CLIENTÈLE « ENTREPRISES »

Présenté par: FRIRAH Sara

EL RHARMOULI Ghita

Présenté le: 27 Juin 2013

Devant le jury :

M. Said Ramadan NSIRI Encadrant interne (INSEA)

M. Idriss EFFINA Examinateur (INSEA)

M. Alaaeddine BENNANI Encadrant externe (CAM)

Projet de Fin d’Etude

Introduction

Plan

I

II

III

IV

V

Contexte général du projet

Présentation de la base de données

Traitement et analyse univariée de la base de données

Elaboration d’un modèle de score pour les PME et GE

Automatisation des modèles sous VBA

Contexte général du projet

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Bale II

Exigence de

fonds propres

Procédure de

surveillance de

la gestion des

fonds propres

Discipline de

marché et

communication

financière

Pilier I Pilier II Pilier III Pilier I

Calcul du RC

Approche

standard

Approche NI

(Notation Interne)

(Fondation) (Avancée)

Dispositif Bâle II

Définition du défaut bâlois au sens 8/G/2010

1. Un retard de paiement de plus de 90 jours.

2. Un ou plusieurs arriérés de paiement de plus de 90

jours sur des crédits escompte.

3. Des dépassements persistants de plus de 90 jours.

4. Des comptes gelés depuis plus de 90 jours.

Retard de 90

jours

Notion du défaut

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

31/12/1131/12/12

Stock de dossiers

présentant un

encours

Observation du

Défaut

12 mois

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Horizon de prévision

Comment mesurer le

risque de crédit ?

L’entreprise va-t-elle

rembourser sa dette ?

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La problèmatique

Méthode statistique d’estimation de la probabilité de défaut de la contrepartie

Données historiques

& Quantifier Effets des caractéristiques des emprunteurs sur leur probabilité de

défaut

Isoler

Scoring

Score obtenu Score seuil

Prise de décision

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Scoring

Elaborer deux modèles de prédiction

Grandes Entreprises

( CA > 175 Mdhs)

Petites et Moyennes Entreprises

(10 Mdhs < CA< 175 Mdhs)

65 % des expositions brutes au

titre du risque de crédit

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Objectif du projet

Transformer sous

format numérique

Construire

la BD

Comparer les

méthodes

utilisées

Choisir les

variables

discriminantes

Elaborer deux

modèles

prédictifs

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Étapes du projet

Présentation de la base de données

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Population

entière

Nouvelle

base

50% des entreprises

défaillantes

50% des entreprises

non défaillantes

9% des entreprises

défaillantes

91% des entreprises

non défaillantes

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Echantillon de travail

TAILLE CA

Total Bilan

TC_CA

TC_RN

DYNAMISMEENDETTEMENT

DCT /AC

DLT/T Bilan

T DETTES/ FP

RENTABILITÉ

EBE / CA

FDR / AC

RN / FP

RN / CA

STRUCTURE

FP / Fin Permanent FDR / CA FDR / T Bilan FP / T Bilan BFR / CA

TRÉSORERIE TN / T Bilan LIQUIDITÉ AC / PC AUTRES

Age de l’entreprise

Ancienneté de la relation

Forme juridique

Ville

Secteur d’activité

Qualité de l’actionnariat

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Présentation des variables de la base de données

Traitement et analyse univariée de

la base de données

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Traitement des valeurs extrêmes

Numéro des observations associées aux

valeurs extrêmes du ratio T_Dettes / FP

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Discrétisation des variables

Manuelle

(CAM)

Automatique

sous SAS

Discrétisation

Intervalle <0.1 [0.1 ; 0.35 [ ≥0.35

Code 1 2 3

Fonds propres/ Total Bilan

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Manuelle

(CAM)

Discrétisation des variables

Intervalle < 5 ans 5-10 ans 10-15 ans > 15 ans

Code 0 1 2 3

Ancienneté de la relation avec CAM

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse univariée

Analyse

univariée

Analyse de

corrélation

Analyse

d’indépendance

Test de KHI-2 V de Cramer

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Test de KHI-2

Test de KHI-2

H0 : Absence de relation entre deux variables catégorielles

Thème Variable

Test de KHI-2

P-value V de

Cramer

CC

Taille CA 0.9494 0.0498 0.0498

T_Bilan 0.2706 0.1655 0.1633

Dynamisme TC_CA <0.0001 0.4731 0.4277

TC_RN 0.0084 0.2585 0.2503

Endettement DCT/AC <0.0001 0.3997 0.3711

DLT/T_Bilan 0.0121 0.2485 0.2412

T_Dettes/FP <0.0001 0.3874 0.3612

Rentabilité EBE/CA 0.0156 0.2694 0.2601

RN/CA 0.2524 0.1690 0 .1667

RN/FP 0.0040 0 .2726 0.2675

FDR/AC <0.0001 0.4206 0.3877

Structure FP/T_Bilan <0.0001 0.4050 0.3754

FP/Fin_Permnt <0,0001 0.2147 0.2099

FDR/T_Bilan 0,0371 0.4206 0.3877

FDR/CA <0,0001 0.4735 0.4279

BFR/CA <0,0001 0.4595 0.4175

Trésorerie TN/T_Bilan 0.0034 0.2458 0.2387

Liquidité AC/PC <0.0001 0.4392 0.4021

Autres Age_entp 0.0010 0.3634 0.3415

Dynamisme

TC_CA; TC_RN

Endettement

DCT/AC; DLT/T_Bilan;

T_Dettes/FP

Rentabilité

EBE/CA; RN/FP; FDR/AC

Structure

FP/T_Bilan; FP/Fin_Prmnt;

FDR/T_Bilan ; BFR/CA

Trésorerie

TN /T_Bilan

Autres

Age; Ville; Actionnariat

La variable CA

n’est pas retenue

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse de corrélation

V de Cramer

V de Cramer élevé signifie une forte corrélation entre deux variables catégorielles

FP/T_Bilan

et T_Dettes/FP

FDR/T_Bilan

et FDR/AC

FDR/CA

et FDR/AC

FDR/CA

et FDR/T_Bilan

Elaboration d’un modèle de score

pour les PME et GE

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

E (Yi/Xi=xi) = Pi =

Odds-ratios

facilement

interprétables

Modélise

directement une

probabilité

Pas d’hypothèse de

normalité ni

d’homoscédasticité

Données sans

valeurs

manquantes

Inconvénients

Avantages

La régression logistique

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les PME

Méthode

ascendante de

Wald sous SPSS

H0 : ‘βi = 0 ’

P-Value ≤ 5%

8 fois plus

suscéptible

de tomber

en défaut

Modalité 2 = [3;7[

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les PME

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Qualité de la modélisation

Test de vraisemblance

Récapitulatif des modèles

Etape -2log-vraisemblance R-deux de Cox & Snell R-deux de Nagelkerke

1 164,040 ,213 ,284

2 147,385 ,299 ,399

3 133,697 ,363 ,484

4 123,005 ,409 ,545

5 113,786 ,446 ,595

6 105,391 ,478 ,637

63,7%

Test de Hosmer-Lemshow

H0 : L’ajustement du modèle est bon

Etape Khi-Chi-deux ddl Sig.

6 10,737 8 ,217

> 5%

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : échantillon d’apprentissage

De/vers 0 1 % correct

0 59 13 81,9%

1 13 58 81,7%

Total 81,8%

Zone sous la courbe

Variable(s) de résultats tests:Groupe prédit

Zone Erreur Std.a

Signif.

asymptotiqueb

Intervalle de confiance 95%

asymptotique

Borne inférieure Borne supérieure

,839 ,036 ,000 ,769 ,909

Taux de bon classement

Indice de GINI = 68%

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La méthode Disqual pour les PME

ACM sur les

variables

qualitatives

Coordonnées

continues des

observations sur

les axes factoriels

Analyse

discriminante de

Fisher

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse des correspondances multiples

Inertie expliquée par les axes

Les 12 premiers axes expliquent environ de 64,70% de l’inertie totale

Axe factoriel

Observation

Application de l’AFD sur les variables continues

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher

Lambda 0,502

F (Valeur observée) 10,749

F (Valeur critique) 1,827

DDL1 12

DDL2 130

p-value < 0,0001

alpha 0,05

Significativité globale du modèle: lambda de Wilks

H0 : Les vecteurs moyens des deux classes sont égaux

Test de Box

-2Log(M) 162,087

F (Valeur observée) 1,192

F (Valeur critique) 1,277

DDL1 78

DDL2 62755

p-value 0.061

alpha 0,050

L’homogénéité des variances dans chacune des deux

classes est vérifiée

La fonction discriminante

Le modèle est discriminant

Coordonnées des modalités sur les 12 axes

F1

F1 2,378

F2 -0,157

F3 -1,089

F4 -0,068

F5 0,958

F6 0,235

F7 0,409

F8 0,489

F9 -0,418

F10 -0,551

F11 -0,269

F12 -0,343

F(x) = 2,378*F1-0,157*F2-1,089*F3-0,068*F4+0,958*F5+0,235*F6+0,409*F7

+0,489*F8-0,418*F9-0,551*F10-0,269*F11-0,343*F12

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher

Extrait des scores des modalités

Variables Modalités Score

modalités

1 -2,107

FP_Nets/T_Bilan 2 -0,416

3 1,647

1 -1,069

Trésorerie_Net/T_Bilan 2 -0,754

3 0,669

4 0,955

1 -2,097

AC/PC 2 -0,314

3 1,739

0 0,032

Actionnariat 1 1,414

2 -0,501

3 -1,047

Age-entp 1 2,388

Critère d’affectation

F1

0 0,982

1 -0,982

Fonctions aux barycentres F(x) > 0 l’entreprise est affectée à la classe des « saines »

F(x) < 0 L’entreprise est affectée à la classe des « défaillantes »

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0 0 0 0 1 1 1 1 1 1

Sen

sib

ilité

1 - Spécificité

Courbe ROC (AUC=0,926)

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation de modèle : échantillon d’apprentissage

De/vers 0 1 % correct

0 60 12 83%

1 9 62 87%

Total 85%

Zone sous la courbe

Variable(s) de résultats tests:Groupe prédit

Zone Erreur Std.a

Signif.

asymptotiqueb

Intervalle de confiance 95%

asymptotique

Borne inférieure Borne supérieure

,839 ,036 ,000 ,769 ,909

Taux de bon classement

Indice de GINI = 68%

Méthode statistique

1er échantillon test 2ème échantillon test

Taux de bon

classement

AUC Taux de bon

classement

AUC

Régression

logistique

80,6% 0,808 78,4% 0,753

Méthode Disqual 75,8% 0,758 75% 0,716

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : Les deux échantillons testComparaison des deux méthodes statistiques

La régression logistique est retenue pour la

classification des petites et moyennes entreprises

Classes

Probabilité de défaut

Taux du défautMinimum Maximum Moyenne Médiane

1

2

3

4

5

0.00124

0.08523

0.32262

0.61530

0.93138

0.08522

0.32261

0.61529

0.93137

0.99597

0.0338

0.1955

0.4668

0.8282

0.4059

0.0224

0.1740

0.4431

0.8293

0.4218

4%

17%

46%

86 %

96%

96%83%

54%

14%4%

4%17%

46%

86%96%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

1

0

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Critère d’affectation : Répartition en classes de risque

Analyse univariée

Corrélation

Dynamisme

TC_CA

TC_RN

Endettement

DCT/AC

DLT/T_Bilan

Rentabilité

RN/FP

Structure

FP/T_Bilan

Procéder à une

AFD

Test de BOX

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

p- value > 0,05

Analyse discriminante de Fisher pour les GE

p-value 0,061

alpha 0,05

Variable Lambda F DDL1 DDL2 p-value

TC_CA 0,815 15,867 1 70 0,000

TC_RN 0,932 5,140 1 70 0,026

Dettes_CT/AC 0,856 11,798 1 70 0,001

Dettes court terme

/ Actif circulant

Taux de

croissance du

chiffre d’affaires

Constante

F(x) = -2.122 + 2.018 TC_CA + 0.413 TC_RN + 2,224 Dettes_CT/AC

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Analyse discriminante de Fisher pour les GE

Taux de croissance

du résultat net

De \ Vers 0 1 Total %

correct

0 28 8 36 77,78%

1 4 32 36 88,89%

Total 32 40 72 83,33%

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0 0 1 1 1

Sen

sib

ilité

1 - Spécificité

Courbe ROC (AUC=0,867)

INDICE DE GINI

73%

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle : échantillon d'apprentissage

A E.S. Wald ddl Sig. Exp(B)

Etape 1a TC_CA -4,396 1,346 10,661 1 ,001 ,012

Constante ,469 ,297 2,493 1 ,114 1,598

Etape 2b TC_CA -5,282 1,598 10,928 1 ,001 ,005

Dettes_CT_AC -2,989 ,970 9,483 1 ,002 ,050

Constante 3,203 ,960 11,134 1 ,001 24,594

Etape 3c TC_CA -4,400 1,705 6,659 1 ,010 ,012

TC_RN -,795 ,379 4,409 1 ,036 ,452

Dettes_CT_AC -3,814 1,146 11,069 1 ,001 ,022

Constante 3,430 1,030 11,091 1 ,001 30,867

1

1 exp( 3, 430 4, 40 _ 0,795 _ 3,814 _ _ )P

TC CA TC RN Dettes CT AC

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

La régression logistique pour les GE

De/vers 0 1 % correct

0 29 7 80,6%

1 8 28 77,8%

Total 79,2%

INDICE DE GINI 58,4 %

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Qualité et validation du modèle

R² de Nagelkerke = 0,523 Le pouvoir explicatif est assez bon

L’aire sous la courbe de ROC est de 0,792

Méthode statistique

1er échantillon test 2ème échantillon test

Taux de bon

classement

AUC Taux de bon

classement

AUC

Régression

logistique

76% 0,768 73% 0,725

AFD 80% 0,805 82% 0,786

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Validation du modèle sur les deux échantillons test Comparaison des méthodes

L’analyse discriminante de Fisher est retenue pour la

classification des grandes entreprises

classeScore Probabilité de défaut

Taux du défaut

min max moyenne médiane min max moyenne médiane

1 49,28 100 67,09 67,08 0,0030 0,2200 0,086 0,052 6%

2 36,81 48,41 41,57 40,8 0,2201 0,4690 0,3665 0,38 19%

3 26,49 36,52 32,41 32,58 0,4691 0,6860 0,5681 0,566 67%

4 17,92 26,21 22,53 22,99 0,6861 0,8330 0,7629 0,7585 79%

5 0 17,35 11,647 11,46 0,8331 0,9150 0,8942 0,8915 86%

94%81%

33%21%

14%

6%19%

67%79%

86%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5

1

0

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Critère d’affectation : Répartition en classes de risque

Automatisation des modèles sous

VBA

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Utilisation de l’application sous VBA

Présentation de la

base de données

Traitement et analyse

univariée de la BD

Elaboration d’un modèle de

score pour les PME et GEAutomatisation

sous VBAContexte général

du projet

Exemple de l’application sous VBA

Conclusion

MERCI DE VOTRE ATTENTION

ELABORATION D’UN MODÈLE DE SCORING POUR

LA CLIENTÈLE « ENTREPRISES »

Présenté par: FRIRAH Sara

EL RHARMOULI Ghita

Présenté le: 27 Juin 2013

Devant le jury :

M. Said Ramadan NSIRI Encadrant interne (INSEA)

M. Idriss EFFINA Examinateur (INSEA)

M. Alaaeddine BENNANI Encadrant externe (CAM)

Projet de Fin d’Etude