Credit Scoring : biais d'échantillon ou réintégration ...

29
Credit Scoring : biais d’Øchantillon ou rØintØgration des refusØs Adrien Ehrhardt Christophe Biernacki, Vincent Vandewalle, Philippe Heinrich, SØbastien Beben CrØdit Agricole Consumer Finance INRIA Lille - Nord-Europe Modal’s days 2017 19 janvier 2017

Transcript of Credit Scoring : biais d'échantillon ou réintégration ...

Credit Scoring :biais d’échantillon ou réintégration des refusés

Adrien Ehrhardt

Christophe Biernacki, Vincent Vandewalle,Philippe Heinrich, Sébastien Beben

Crédit Agricole Consumer FinanceINRIA Lille - Nord-Europe

Modal’s days 2017

19 janvier 2017

Sommaire1 Contexte

EntrepriseProduits et demandes de créditSystème d’acceptationCredit Scoring

2 Réintégration des refusésExemple Fuzzy AugmentationEtat de l’artFormalisation du problèmeMécanisme de manqueBon/mauvais modèleQuelle case en Credit Scoring ?Améliorer l’estimateur θf ?RésultatsAugmentation de la dimension

3 ConclusionAdrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 2 / 29

Contexte

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 3 / 29

Contexte : Entreprise

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 4 / 29

Contexte : Produits et demandes de crédit I

Quelques chiffres :Encours gérés (2015) : 71 milliards e (26 milliards e en France)Produit Net Bancaire : 2 milliards eRésultat : +380 MeCoût du risque France : 200 Me

Produits :Facilités de paiement (exemple : en 3 fois)Prêt personnel (mensualité + échéance)Carte de crédit (revolving)

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 5 / 29

Contexte : Produits et demandes de crédit II

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 6 / 29

Contexte : Produits et demandes de crédit III

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 7 / 29

Contexte : Produits et demandes de crédit IV

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 8 / 29

Contexte : Système d’acceptation

X : vecteur a. des caractéristiquesY dans {0, 1} : remboursementAS dans {a, a} : f (X )AC dans {a, a} : g(X ,X c)Z dans {f, nf} : v. a. de financement

On oublie AS et AC dans la suite.

Y X

X c

Z

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 9 / 29

Contexte : Credit Scoring

∃θ = (θ0, . . . , θd) ∈ Rd+1 s.t. ∀x , ln(

P(Y = 1|x)P(Y = 0|x)

)= θ0+θ1x1+. . .+θdxd

n clients financés (Z = f)m clients non financés (Z = nf)x : features observées des clientsy : remboursement observé

x f (xnf) : features observées desclients financés (non financés)y f (ynf) : remboursement (non)observé des clients financés (nonfinancés)

`(θ; x, y)︸ ︷︷ ︸vraisemblance

complète

=n∑

i=1ln(pθ(yi |xi))+

n+m∑i=n+1

ln(pθ(yi |xi)) = `(θ; x f, y f)︸ ︷︷ ︸vraisemblance

observée

+`(θ; xnf, ynf)

Quel intérêt à utiliser xnf ?Quel risque à n’utiliser que (x f, y f) ?

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 10 / 29

Réintégration des refusés

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 11 / 29

Réintégration des refusés : Exemple Fuzzy Augmentation I

y f

ynf

y1...

ynNA...

NA

x f

xnf

x 11 · · · xd

1... ... ...x 1

n · · · xdn

x 1n+1 · · · xd

n+1... ... ...

x 1n+m · · · xd

n+m

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 12 / 29

Réintégration des refusés : Exemple Fuzzy Augmentation II

Abandon de xnf et construction de θf

y f

ynf

y1...

ynNA...

NA

x f

xnf

x 11 · · · xd

1... ... ...x 1

n · · · xdn

x 1n+1 · · · xd

n+1... ... ...

x 1n+m · · · xd

n+m

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 13 / 29

Réintégration des refusés : Exemple Fuzzy AugmentationIII

Remplacement de ynf par les proba données par θf

y f

ynf

y1...

ynpθf(yn+1 = 1|xn+1)

...pθf(yn+m = 1|xn+m)

x f

xnf

x 11 · · · xd

1... ... ...x 1

n · · · xdn

x 1n+1 · · · xd

n+1... ... ...

x 1n+m · · · xd

n+m

Apprendre θfuzzy sur le dataset résultant.Problème : θfuzzy = θf

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 14 / 29

Réintégration des refusés : Etat de l’art

[Feelders, 2000] : formalisation et approche par données manquantes.

[Viennet et al., 2006, Guizani et al., 2013, Banasik and Crook, 2007,Nguyen, 2016] : description de méthodes empiriques pour utiliser xnf.

[Viennet et al., 2006, Banasik and Crook, 2007] : la réintégration a unintérêt.

[Nguyen, 2016, Guizani et al., 2013] : la réintégration n’a pas d’intérêt.

[Kiefer and Larson, 2006] : étude de cas du mauvais modèle.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 15 / 29

Réintégration des refusés : Formalisation du problème

Objet d’intérêt : ptrue(y |x)

Proposition d’un modèle : pθ(y |x)

Problème (sans surprise. . . ) : estimerθ

Données :1 Cas idéal : xf, xnf et yf, ynf

2 Cas CACF : xf et yf

θtrue

θtrueθtrue

θopt

θtruef

θftrue

θtruef

θfopt

θ

θ

θf

θf

Model biasEstimation bias+ variance

Θ (model space)

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 16 / 29

Réintégration des refusés : Formalisation du problèmeEstimateurs :

1 Cas idéal :√

n + m(θ − θopt)L−−−−−→

n,m→∞Nd+1(0,Σθopt)

2 Cas CACF :√

n(θf − θfopt)

L−−−→n→∞

Nd+1(0,Σfθf

opt)

Question 1 : propriétés asymptotiques des deux estimateurs

(Q1) θopt?= θf

opt

(Q2) ARE(θf, θ) =

|Σθopt ||Σf

θfopt

|

) 1d+1

(Q2a) nn + m

a.s.−−−−−→n,m→∞

ϕ (Q2b) Σθopt?= Σf

θfopt

Réponse 1 (toujours sans surprise. . . ) : ça dépend.

1 Mécanisme des données manquantes ptrue(z |x)2 La vraie loi prédictive pθtrue(y |x) appartient-elle à Θ ?

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 17 / 29

Réintégration des refusés : Mécanisme de manque

MCAR : ∀ x , y , z , ptrue(z |x , y) = ptrue(z)→ Inadapté au Credit Scoring.MAR : ∀ x , y , z , ptrue(z |x , y) = ptrue(z |x)MNAR : ∃ x , y , z , ptrue(z |x , y) 6= ptrue(z |x)→ Influence du "feeling" des conseillers X c.

Y X

X c

Z

Ignorabilité :Les paramètres de ptrue(z |x , y) ne dépendent pas fonctionnellement deθtrue.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 18 / 29

Réintégration des refusés : Bon/mauvais modèle

Bon modèle : ∃ θtrue, ptrue(y |x) = pθtrue(y |x).→ Données réelles ⇒ hypothèse peu probable.Mauvais modèle : θopt minimise l’ignorance sur la vraie loi.→ Utilisation de la régression logistique pour sa robustesse à lamisspecification.

pθ(y |x , z)ptrue(z|x) MCAR MAR MNAR

True θfopt = θopt

θfopt = θopt Σf

θfopt

6= Σθopt θfopt 6= θopt

Misspecified Σfθf

opt= Σθopt θf

opt 6= θopt Σfθf

opt6= Σθopt

Σfθf

opt6= Σθopt

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 19 / 29

Réintégration des refusés : Quelle case en Credit Scoring ?

Mécanisme de manque :MCAR : la sélection des clients n’est pas aléatoire !MAR : vrai si X détermine Z (cas du score)MNAR : vrai si conseillers = oracles

On ne peut pas tester MNAR.

Bon modèle : non.Mais toutes les variables sont discrétisées : on peut approcher n’importequelle relation fonctionnelle entre la variable cible et chaque variablecontinue.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 20 / 29

Réintégration des refusés : Améliorer l’estimateur θf ?

Question 2 : Comment "sauter" dans une meilleure case ?

Leviers :Changer le modèle (i.e. l’espace Θ) régression logistique,Modéliser la sélection (i.e. pα(z |x , y)) relève de la croyance,Utiliser xnf.

Case 1 : MAR et bon modèleIdée : Améliorer la vitesse de convergenceProposition : Modèle génératif avec données manquantesCase 2 : MAR et mauvais modèleIdée : "Dé-biaiser" le modèle en corrigeant pθ(y |x)Proposition : Méthode "Augmentation" proche de l’Importance SamplingCase 3 : MNARIdée : "Dé-biaiser" le modèle en corrigeant pθ(y |x , z)Proposition : Méthode "Parcelling" : hypothèses invérifiables

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 21 / 29

Réintégration des refusés : Améliorer l’estimateur θf ?

Certaines méthodes sont ré-interprétables comme des hypothèses partielles sur la loi jointe.

6 méthodes testées :1 2 méthodes conduisent à θf

opt.2 1 méthode utilisant un algorithme sans garantie de convergence.3 Modèle génératif : biais de modèle important.4 Augmentation (MAR/mauvais modèle) : hypothèses non satisfaites.5 Parcelling (MNAR) : introduction d’a priori.

Réponse 2 : arbitrer entre (pas de réintégration) et (méthode Toto deréintégration), c’est comparer deux "prises de risque" inquantifiables.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 22 / 29

Réintégration des refusés : Résultats

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 23 / 29

Réintégration des refusés : Augmentation de la dimension

Gains hypothétiques de l’utilisation de xnf faibles

Grands gains potentiels de l’augmentation du nombre de prédicteurs :On agit sur le modèle.On abaisse le taux d’erreur de Bayes (classes séparables).

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 24 / 29

Conclusion

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 25 / 29

Conclusion

Le choix d’une méthode relève de la croyance.La formalisation a permis de clotûrer un débat resté empiriquejusqu’alors.Article en préparationSujet en cours : discrétisation

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 26 / 29

Merci pour votre attention !Questions ?

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 27 / 29

Banasik, J. and Crook, J. (2007).Reject inference, augmentation, and sample selection.European Journal of Operational Research, 183(3):1582–1594.

Feelders, A. (2000).Credit scoring and reject inference with mixture models.International Journal of Intelligent Systems in Accounting, Finance &Management, 9(1):1–8.

Guizani, A., Souissi, B., Ammou, S. B., and Saporta, G. (2013).Une comparaison de quatre techniques d’inférence des refusés dans leprocessus d’octroi de crédit.In 45 emes Journ’ees de statistique, page pp.

Kiefer, N. M. and Larson, C. E. (2006).Specification and informational issues in credit scoring.Available at SSRN 956628.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 28 / 29

Nguyen, H. T. (2016).Reject inference in application scorecards : evidence from France.Technical report, University of Paris West-Nanterre la Défense,EconomiX.Viennet, E., Soulié, F. F., and Rognier, B. (2006).Evaluation de techniques de traitement des refusés pour l’octroi decrédit.arXiv preprint cs/0607048.

Adrien Ehrhardt (CACF - INRIA) Réintégration des refusés 19 janvier 2017 29 / 29