Credit Scoring : biais d'échantillon ou réintégration ...
Transcript of Credit Scoring : biais d'échantillon ou réintégration ...
Credit Scoring :biais d’échantillon ou réintégration des refusés
Adrien Ehrhardt
Christophe Biernacki, Vincent Vandewalle,Philippe Heinrich, Sébastien Beben
Crédit Agricole Consumer FinanceINRIA Lille - Nord-Europe
Modal’s days 2017
19 janvier 2017
Sommaire1 Contexte
EntrepriseProduits et demandes de créditSystème d’acceptationCredit Scoring
2 Réintégration des refusésExemple Fuzzy AugmentationEtat de l’artFormalisation du problèmeMécanisme de manqueBon/mauvais modèleQuelle case en Credit Scoring ?Améliorer l’estimateur θf ?RésultatsAugmentation de la dimension
3 ConclusionAdrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 2 / 29
Contexte : Entreprise
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 4 / 29
Contexte : Produits et demandes de crédit I
Quelques chiffres :Encours gérés (2015) : 71 milliards e (26 milliards e en France)Produit Net Bancaire : 2 milliards eRésultat : +380 MeCoût du risque France : 200 Me
Produits :Facilités de paiement (exemple : en 3 fois)Prêt personnel (mensualité + échéance)Carte de crédit (revolving)
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 5 / 29
Contexte : Produits et demandes de crédit II
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 6 / 29
Contexte : Produits et demandes de crédit III
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 7 / 29
Contexte : Produits et demandes de crédit IV
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 8 / 29
Contexte : Système d’acceptation
X : vecteur a. des caractéristiquesY dans {0, 1} : remboursementAS dans {a, a} : f (X )AC dans {a, a} : g(X ,X c)Z dans {f, nf} : v. a. de financement
On oublie AS et AC dans la suite.
Y X
X c
Z
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 9 / 29
Contexte : Credit Scoring
∃θ = (θ0, . . . , θd) ∈ Rd+1 s.t. ∀x , ln(
P(Y = 1|x)P(Y = 0|x)
)= θ0+θ1x1+. . .+θdxd
n clients financés (Z = f)m clients non financés (Z = nf)x : features observées des clientsy : remboursement observé
x f (xnf) : features observées desclients financés (non financés)y f (ynf) : remboursement (non)observé des clients financés (nonfinancés)
`(θ; x, y)︸ ︷︷ ︸vraisemblance
complète
=n∑
i=1ln(pθ(yi |xi))+
n+m∑i=n+1
ln(pθ(yi |xi)) = `(θ; x f, y f)︸ ︷︷ ︸vraisemblance
observée
+`(θ; xnf, ynf)
Quel intérêt à utiliser xnf ?Quel risque à n’utiliser que (x f, y f) ?
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 10 / 29
Réintégration des refusés
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 11 / 29
Réintégration des refusés : Exemple Fuzzy Augmentation I
y f
ynf
y1...
ynNA...
NA
x f
xnf
x 11 · · · xd
1... ... ...x 1
n · · · xdn
x 1n+1 · · · xd
n+1... ... ...
x 1n+m · · · xd
n+m
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 12 / 29
Réintégration des refusés : Exemple Fuzzy Augmentation II
Abandon de xnf et construction de θf
y f
ynf
y1...
ynNA...
NA
x f
xnf
x 11 · · · xd
1... ... ...x 1
n · · · xdn
x 1n+1 · · · xd
n+1... ... ...
x 1n+m · · · xd
n+m
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 13 / 29
Réintégration des refusés : Exemple Fuzzy AugmentationIII
Remplacement de ynf par les proba données par θf
y f
ynf
y1...
ynpθf(yn+1 = 1|xn+1)
...pθf(yn+m = 1|xn+m)
x f
xnf
x 11 · · · xd
1... ... ...x 1
n · · · xdn
x 1n+1 · · · xd
n+1... ... ...
x 1n+m · · · xd
n+m
Apprendre θfuzzy sur le dataset résultant.Problème : θfuzzy = θf
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 14 / 29
Réintégration des refusés : Etat de l’art
[Feelders, 2000] : formalisation et approche par données manquantes.
[Viennet et al., 2006, Guizani et al., 2013, Banasik and Crook, 2007,Nguyen, 2016] : description de méthodes empiriques pour utiliser xnf.
[Viennet et al., 2006, Banasik and Crook, 2007] : la réintégration a unintérêt.
[Nguyen, 2016, Guizani et al., 2013] : la réintégration n’a pas d’intérêt.
[Kiefer and Larson, 2006] : étude de cas du mauvais modèle.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 15 / 29
Réintégration des refusés : Formalisation du problème
Objet d’intérêt : ptrue(y |x)
Proposition d’un modèle : pθ(y |x)
Problème (sans surprise. . . ) : estimerθ
Données :1 Cas idéal : xf, xnf et yf, ynf
2 Cas CACF : xf et yf
θtrue
θtrueθtrue
θopt
θtruef
θftrue
θtruef
θfopt
θ
θ
θf
θf
Model biasEstimation bias+ variance
Θ (model space)
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 16 / 29
Réintégration des refusés : Formalisation du problèmeEstimateurs :
1 Cas idéal :√
n + m(θ − θopt)L−−−−−→
n,m→∞Nd+1(0,Σθopt)
2 Cas CACF :√
n(θf − θfopt)
L−−−→n→∞
Nd+1(0,Σfθf
opt)
Question 1 : propriétés asymptotiques des deux estimateurs
(Q1) θopt?= θf
opt
(Q2) ARE(θf, θ) =
(ϕ
|Σθopt ||Σf
θfopt
|
) 1d+1
(Q2a) nn + m
a.s.−−−−−→n,m→∞
ϕ (Q2b) Σθopt?= Σf
θfopt
Réponse 1 (toujours sans surprise. . . ) : ça dépend.
1 Mécanisme des données manquantes ptrue(z |x)2 La vraie loi prédictive pθtrue(y |x) appartient-elle à Θ ?
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 17 / 29
Réintégration des refusés : Mécanisme de manque
MCAR : ∀ x , y , z , ptrue(z |x , y) = ptrue(z)→ Inadapté au Credit Scoring.MAR : ∀ x , y , z , ptrue(z |x , y) = ptrue(z |x)MNAR : ∃ x , y , z , ptrue(z |x , y) 6= ptrue(z |x)→ Influence du "feeling" des conseillers X c.
Y X
X c
Z
Ignorabilité :Les paramètres de ptrue(z |x , y) ne dépendent pas fonctionnellement deθtrue.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 18 / 29
Réintégration des refusés : Bon/mauvais modèle
Bon modèle : ∃ θtrue, ptrue(y |x) = pθtrue(y |x).→ Données réelles ⇒ hypothèse peu probable.Mauvais modèle : θopt minimise l’ignorance sur la vraie loi.→ Utilisation de la régression logistique pour sa robustesse à lamisspecification.
pθ(y |x , z)ptrue(z|x) MCAR MAR MNAR
True θfopt = θopt
θfopt = θopt Σf
θfopt
6= Σθopt θfopt 6= θopt
Misspecified Σfθf
opt= Σθopt θf
opt 6= θopt Σfθf
opt6= Σθopt
Σfθf
opt6= Σθopt
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 19 / 29
Réintégration des refusés : Quelle case en Credit Scoring ?
Mécanisme de manque :MCAR : la sélection des clients n’est pas aléatoire !MAR : vrai si X détermine Z (cas du score)MNAR : vrai si conseillers = oracles
On ne peut pas tester MNAR.
Bon modèle : non.Mais toutes les variables sont discrétisées : on peut approcher n’importequelle relation fonctionnelle entre la variable cible et chaque variablecontinue.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 20 / 29
Réintégration des refusés : Améliorer l’estimateur θf ?
Question 2 : Comment "sauter" dans une meilleure case ?
Leviers :Changer le modèle (i.e. l’espace Θ) régression logistique,Modéliser la sélection (i.e. pα(z |x , y)) relève de la croyance,Utiliser xnf.
Case 1 : MAR et bon modèleIdée : Améliorer la vitesse de convergenceProposition : Modèle génératif avec données manquantesCase 2 : MAR et mauvais modèleIdée : "Dé-biaiser" le modèle en corrigeant pθ(y |x)Proposition : Méthode "Augmentation" proche de l’Importance SamplingCase 3 : MNARIdée : "Dé-biaiser" le modèle en corrigeant pθ(y |x , z)Proposition : Méthode "Parcelling" : hypothèses invérifiables
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 21 / 29
Réintégration des refusés : Améliorer l’estimateur θf ?
Certaines méthodes sont ré-interprétables comme des hypothèses partielles sur la loi jointe.
6 méthodes testées :1 2 méthodes conduisent à θf
opt.2 1 méthode utilisant un algorithme sans garantie de convergence.3 Modèle génératif : biais de modèle important.4 Augmentation (MAR/mauvais modèle) : hypothèses non satisfaites.5 Parcelling (MNAR) : introduction d’a priori.
Réponse 2 : arbitrer entre (pas de réintégration) et (méthode Toto deréintégration), c’est comparer deux "prises de risque" inquantifiables.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 22 / 29
Réintégration des refusés : Résultats
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 23 / 29
Réintégration des refusés : Augmentation de la dimension
Gains hypothétiques de l’utilisation de xnf faibles
Grands gains potentiels de l’augmentation du nombre de prédicteurs :On agit sur le modèle.On abaisse le taux d’erreur de Bayes (classes séparables).
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 24 / 29
Conclusion
Le choix d’une méthode relève de la croyance.La formalisation a permis de clotûrer un débat resté empiriquejusqu’alors.Article en préparationSujet en cours : discrétisation
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 26 / 29
Merci pour votre attention !Questions ?
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 27 / 29
Banasik, J. and Crook, J. (2007).Reject inference, augmentation, and sample selection.European Journal of Operational Research, 183(3):1582–1594.
Feelders, A. (2000).Credit scoring and reject inference with mixture models.International Journal of Intelligent Systems in Accounting, Finance &Management, 9(1):1–8.
Guizani, A., Souissi, B., Ammou, S. B., and Saporta, G. (2013).Une comparaison de quatre techniques d’inférence des refusés dans leprocessus d’octroi de crédit.In 45 emes Journ’ees de statistique, page pp.
Kiefer, N. M. and Larson, C. E. (2006).Specification and informational issues in credit scoring.Available at SSRN 956628.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 28 / 29
Nguyen, H. T. (2016).Reject inference in application scorecards : evidence from France.Technical report, University of Paris West-Nanterre la Défense,EconomiX.Viennet, E., Soulié, F. F., and Rognier, B. (2006).Evaluation de techniques de traitement des refusés pour l’octroi decrédit.arXiv preprint cs/0607048.
Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 29 / 29