Post on 27-Jun-2015
Basilea II e i Rating InterniLezione 3 – Stima di un
modello di Rating
Federico De MarchiCredit Risk Management – Banca Carige
federico.demarchi@carige.it
Stima di un modello statisticoper la PD
• Fase 0 – Costruzione DB Sviluppo
• Fase 1 – Stima
• Fase 2 – Calibrazione
La stima di un modello statistico per il calcolo della PD si articola in 3 fasi:
Analisi delle caratteristiche di omogeneità e uniformità del portafoglio in esame su diversi assi d’analisi (regione, attività economica, ...)
Sviluppo di un modello statistico in grado di ordinare la clientela in base al rischio
Taratura del modello statistico sulla rischiosità media del portafoglio
CAVEAT:
NON ESISTE UNA METODOLOGIA UNIVERSALE E CORRETTA!!!
Passi principali della StimaPartiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
Quando la statistica non basta• L’analisi delle variabili non può prescindere dalla
conoscenza pregressa del mondo del credito e delle logiche che lo governano
• Se emergono fenomeni che contraddicono le attese, occorre approfondire le analisi ed eliminare eventuali (probabili!) errori
• Non sempre il modello più performante è il migliore che si possa ottenere:
– evitare l’overfitting
– ottimizzare la copertura del portafoglio (non tralasciare alcuna categoria di finanziamento)
• In definitiva, occorre cooperare con gli analisti del credito!
Un nome per ogni indicatore
Iindicatore
NMnumero mesi
NMCnumero mesi continuativi
Xnetto
sistema
Bbanca
UTutilizzo /
accordato
SCsconfino /accordato
SCOsconfinamento
RErevoca
AUautoliquidante
SCscadenza
TOTtotale cassa
CFfirma
TOBIStotale
cassa + firma
BRbreve
MLmedio-lungo
_Mmensile
_TMtrimestrale
_SMsemestrale
_CVcoeff. di var.
_C3trend trimestrale
_C6trend semestrale
Univariate – Tasso di missing• Analizziamo il Tasso di Missing di Buoni e Cattivi separatamente
• Se una categoria è di per sé poco presente nel portafoglio, i tassi di missing saranno necessariamente elevati, ma la variabile può essere comunque predittiva sulle controparti per cui è applicabile
• Il Tasso di missing corretto fornisce una misura più accurata
Esempio:
IBUTAU_C6 Popolazione Totale
Tasso di Missing
Presenza Autoliquidante
Tasso Missing Corretto
Buoni 5874 54% 3094 15,8%
Cattivi 222 49% 110 3,6%
Univariate – Medie Indicatori
• Si analizzano separatamente le medie di Buoni e Cattivi
• L’analisi serve per verificare eventuali errori e per capire se gli indicatori presentano le caratteristiche necessarie per entrare a far parte del modello
– Sono coerenti con le attese?
– Se si sviluppa su più anni, sono stabili nel tempo?
– Sono sufficientemente distinte?
Univariate – Accuracy Ratio• È l’indicatore di performance più comune. Viene chiamato
anche:
– Indice di Gini
– D di Somers
• Misura la capacità di grading dell’indicatore, ovvero l’efficacia nell’ordinare la popolazione in base alla sua rischiosità
• Viene usato sia per misurare la potenza predittiva di un indicatore che per valutare la bontà di un modello, o per comparare più modelli tra loro
Accuracy Ratio (AR)
AR =A
A + B
Modello migliore
Modello peggiore
Indicatore
Percentuale cumulata Popolazione
Per
cen
tual
e c
um
ula
ta C
att
ivi
100%
100%
A
B
Curva di Lorentz
Occorre innanzitutto ordinare la popolazione in base all’indicatore
D di Somers• Una coppia (B,C) consistente di un Buono ed un Cattivo, con
score sB e sC si dice:– Concordante se sB < sC;
– Neutra se sB = sC;
– Discordante se sB > sC.
• La D di Somers si calcola come:
D =# Coppie Concordanti - # Coppie Discordanti
# Coppie Totali
Thm.: Accuracy Ratio e D di Somers coincidono
Come interpretare l’AR• Per come è costruito, l’AR è compreso tra 0 e 100%. In generale, la bontà
di un modello si valuta in base alla scala:
Sufficiente Buono Ottimo
AR 50% - 60% 60% - 70% Oltre 70%
• L’intervallo di confidenza può essere stimato con metodologia bootstrap, oppure con le formule contenute nel Working Paper N.14 del Gruppo di Validazione di Basilea II (“Studies on the Validation of Internal Rating Systems”, disponibile online).
• L’intervallo di confidenza dipende fortemente dalla numerosità dei Cattivi (almeno 100)
Il grafico del Bad Rate
• Occorre ordinare le posizioni in base all’indicatore (i più rischiosi in fondo)
• Si divide quindi la popolazione in 20 percentili e si rileva il Bad Rate di ognuno
Bad Rate del Percentile
Interpolazione
Percentili di popolazione
Bad
Rat
e
100%
• Spesso l’analisi dell’AR si accompagna alla rappresentazione grafica del Bad Rate
Percentuali di ColonnaBuoni
effettiviCattivi
Effettivi
Buoni Previsti 60% 20%
Cattivi Previsti 40% 80%
Univariate – Il TCC• Il Tasso di Corretta Classificazione (TCC) misura la capacità
dell’indicatore di separare i Buoni dai Cattivi.• Dipende in maniera essenziale dal cutoff fissato
• TCC_Buoni = 60%
• TCC_Cattivi = 80%TCC =
TCC_Buoni + TCC_Cattivi2
Cutoff = Media_Buoni + Media_Cattivi
2
Matrice di Confusione
Distribuzione Buoni/Cattivi• Solitamente si accompagna al TCC il grafico della Distribuzione
Buoni/Cattivi
• Nuovamente, si ordina la popolazione in base all’indicatore (i più rischiosi in fondo), e si divide in 20 percentili e si calcolano le percentuali di Buoni e di Cattivi presenti in ciascun percentile (rispetto al totale dei Buoni e dei Cattivi, rispettivamente)
Cattivi
Buoni
Percentili di popolazione
% P
op
ola
zio
ne
30% cutoffMedia_B Media_C
Passi principali della StimaPartiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
Analisi della Correlazione
• Si esamina la correlazione a coppie delle variabili
• In fase di stima del modello, si può sostituire una variabile con un’altra molto correlata per cercare di ottenere modelli altrettanto predittivi ma con una miglior copertura del portafoglio
• Se una variabile entra nel modello con segno opposto a quello atteso, probabilmente è correlata con un’altra variabile di modello. In tal caso, bisogna rimuovere una delle due
Passi principali della StimaPartiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
Selezione della Short List• Abbiamo per ogni indicatore:
– Media Buoni e Cattivi– Tasso di Missing Corretto Buoni e Cattivi– AR– TCC– Correlazioni a coppie
• Raggruppiamo le variabili per la categoria cui fanno riferimento• Per ogni categoria individuiamo sottocategorie di indicatori che
descrivono lo stesso fenomeno• Per la selezione, all’interno di ogni sottocategoria:
– Eliminiamo le variabili con Tasso Missing troppo elevato– Eliminiamo variabili con medie buoni e cattive incoerenti con le attese– Delle altre variabili selezioniamo le più predittive per mezzo di una regressione
logistica– Aggiungiamo comunque quelle con AR più alto
– Usiamo la testa!
Passi principali della StimaPartiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
Attribuzione Numeri Neutri• La PROC LOGISTIC di SAS utilizza solo le righe per cui ha un set
informativo completo
• Occorre attribuire agli indicatori missing un valore neutro
• Noi determiniamo il numero neutro come:
NN_Ind1= (Media_Buoni + Media_Cattivi) / 2
• In questo modo riequilibriamo le numerosità ed attribuiamo in mancanza del dato un valore più prudenziale
Passi principali della StimaPartiamo da una Long List di indicatori (DB Stima).
• Analisi univariate dei singoli indicatori:– Tasso di missing
– Media dell’indicatore
– Accuracy Ratio
– Tasso di Corretta Classificazione
• Analisi multivariate (correlazione)
• Selezione di una Short List di indicatori
• Attribuzione Numeri Neutri
• Stima del modello
Stima del modello• Il modello viene stimato tramite regressione logistica con metodologia
stepwise e significatività al 99%
• Ogni indicatore deve entrare col segno atteso (correlazione)
• Ogni categoria deve essere rappresentata, per ottenere una maggior copertura del portafoglio e poter valutare qualsiasi controparte
• Parsimonia: è sempre meglio usare il minor numero di indicatori possibile
• Si comincia dalle variabili incluse nella Short List, ma può essere utile far ricorso anche alle variabili escluse in precedenza