Построение скоринговой карты на основе LGD

19
ПОСТРОЕНИЕ СКОРИНГОВОЙ КАРТЫ НА ОСНОВЕ LGD С ПОМОЩЬЮ КАТЕГОРИЗАЦИИ WOE В SAS ENTERPRISE MINER Энтони Ван Беркель, Bank of Monreal, Наим Сиддики, SAS Институт Перевод с английского – ИЦ Гевисста Введение Модуль кредитного скоринга в SAS Enterprise Miner широко используется для построения скоринговых карт на основе бинарной целевой переменной («хорошие» /«плохие») с целью прогнозирования вероятности дефолта. Процесс включает группировку переменных с помощью WOE, а затем построение логистической регрессии для получения спрогнозированных вероятностей. Мы покажем, как с помощью этого же модуля строить скоринговые карты для прогнозирования уровня потерь в случае дефолта (LGD) на основе категоризированных переменных. Мы объясним теоретические аспекты данного метода и используем реальные данные, чтобы продемонстрировать, как он работает. Уровень потерь в случае дефолта Уровень потерь в случае дефолта (LGD) определяется как потери кредитной организации в случае дефолта контрагента (заемщика). Это один из ключевых параметров, который необходимо оценивать банкам для измерения кредитного риска согласно IRB подходу, определенному соглашением Базель II. Два других параметра – это вероятность дефолта (PD) и величина средств под риском

description

 

Transcript of Построение скоринговой карты на основе LGD

Page 1: Построение скоринговой карты на основе LGD

ПОСТРОЕНИЕ СКОРИНГОВОЙ КАРТЫ НА ОСНОВЕ LGD С ПОМОЩЬЮ КАТЕГОРИЗАЦИИ WOE В SAS ENTERPRISE MINER Энтони Ван Беркель, Bank of Monreal, Наим Сиддики, SAS Институт Перевод с английского – ИЦ Гевисста

Введение Модуль кредитного скоринга в SAS Enterprise Miner широко используется для построения скоринговых карт на основе бинарной целевой переменной («хорошие» /«плохие») с целью прогнозирования вероятности дефолта. Процесс включает группировку переменных с помощью WOE, а затем построение логистической регрессии для получения спрогнозированных вероятностей. Мы покажем, как с помощью этого же модуля строить скоринговые карты для прогнозирования уровня потерь в случае дефолта (LGD) на основе категоризированных переменных. Мы объясним теоретические аспекты данного метода и используем реальные данные, чтобы продемонстрировать, как он работает. Уровень потерь в случае дефолта Уровень потерь в случае дефолта (LGD) определяется как потери кредитной организации в случае дефолта контрагента (заемщика). Это один из ключевых параметров, который необходимо оценивать банкам для измерения кредитного риска согласно IRB подходу, определенному соглашением Базель II. Два других параметра – это вероятность дефолта (PD) и величина средств под риском

Page 2: Построение скоринговой карты на основе LGD

(EAD). LGD обычно оценивается как непрерывная переменная, которая прогнозирует отношение потерь к сумме баланса на момент дефолта в диапазоне от 0 до 1. Согласно Базелю II, LGD используется для оценки ожидаемых потерь, обусловленных кредитным риском. В конечном итоге эти оценки применяются для расчета активов, взвешенных по риску, и необходимого размера капитала. Кроме того, LGD наряду с другими параметрами также используется для измерения капитала и определения процентной ставки в зависимости от оценки риска. Для измерения риска согласно Базелю II, «дефолт» обычно определяется как 90-дневная просрочка, однако можно использовать и другие определения. LGD – это 100% минус доля баланса в момент дефолта, возмещаемая банком в течение периода взыскания задолженности, т.е. периода, в течение которого кредитная организация пытается возместить принадлежащую ей сумму. По уровню обеспечения:

1___

___100% 0;max

d

обеспобесп

дисконтапослеяобеспечениСтоимость

ликвидациюнаИздержкивозмещенияСуммаLGD

Сумма возмещенияобесп: все платежи, поступившие от ликвидации обеспечения, или все платежи, поступившие от гаранта (поручителя), дисконтированные на дату дефолта

Издержки на ликвидациюобесп: затраты на ликвидацию обеспечения, дисконтированные на дату дефолта

Стоимость обеспечения после дисконта: ликвидационная стоимость обеспечения, за год до дефолта (d)

Page 3: Построение скоринговой карты на основе LGD

Данная статья ограничивается построением моделей для прогнозирования LGD, несмотря на то, что существуют многочисленные трудности, с которыми банки сталкиваются при вычислении фактического LGD по каждому обязательству, включая применение бимодального или унимодального распределения потерь, качество обеспечения, период урегулирования задолженности, использование факторов дисконтирования и экономических циклов, сложность измерения точного размера экономических потерь. Оценивание LGD Существует широкий выбор методов, которые используются кредитными организациями для оценивания LGD. Сначала происходит ранжирование с помощью вычисления фактического LGD для заданных пулов (однородных групп должников), а затем примение различных методов математического моделирования по историческим данным. Большинство кредитных организаций предпочитает применять различные виды обобщенных линейных моделей, включая логистическую и линейную регрессию. Цель данной статьи – показать, что скоринговая карта на основе категоризированных переменных ранжирует риск точно так же, как и любая другая регрессионная модель, используя при этом наглядность скоринговых карт в качестве преимущества. Преимущества формата скоринговой карты Хотя существует много способов построения прогнозных моделей, формат скоринговой карты представляет для бизнес-пользователей несколько преимуществ.

Page 4: Построение скоринговой карты на основе LGD

Категоризация (преобразование непрерывных переменных путем группировки) позволяет пользователю анализировать зависимости между предиктором и целевой переменной. Это повышает понимание не только того, что прогнозируем (способность ранжировать риск), но и того, как прогнозируем. Анализ формы кривой, экстремумов и других изменений градиента повышает наши знания о кредитном портфеле и позволяет пользователю протестировать существующие правила кредитной политики и стратегии, улучшить их в будущем. Также категоризация позволяет аналитику скорректировать зависимости между риском и характеристиками, исходя из бизнес-опыта. Например, смещения из-за кредитной политики, случайного изменения данных и пересмотров решений (в силу чего «плохие» клиенты будут казаться лучше по кредитоспособности), можно скорректировать, присвоив более низкие значения WOE. Аналогичную процедуру можно выполнить в случае, когда пользователь видит недооценку риска, связанного с предиктором или нет зависимостей, которые можно было объяснить с точки зрения бизнеса. В некоторых юрисдикциях требуют применения монотонной зависимости между предикторами и риском. Для этого можно использовать категоризацию. Формат скоринговой карты – где каждой категории переменной присваиваются баллы – достаточно легко понять, объяснить и применить. Низкие или высокие скоринговые оценки можно легко объяснить органам надзора, аудиторам и персоналу. Этот интуитивно понятный, дружественный для бизнеса формат облегчает интерпретацию, устранение ошибок и выполнение диагностики в случае изменения скоринговых оценок. Все

Page 5: Построение скоринговой карты на основе LGD

это упрощает «продажу» скоринговой карты конечным пользователям в сравнении с более сложными моделями. Построение LGD модели с помощью скоринговой карты на основе категоризированных WOE Данные, использованные в данном проекте, - это кредитный портфель овердрафтов крупной канадской финансовой организации. В целях конфиденциальности фактические денежные значения были умножены на константу. Клиенты в обучающем наборе данных являлись на 31 октября 2009 года «хорошими» и стали дефолтными в течение следующего года. Клиенты в дефолте наблюдались до 31 октября 2011 года для учета окончательных потерь. LGD вычислялся как окончательные потери, деленные на баланс в первоначальный момент дефолта. Все предикторы были взяты по состоянию на 31 октября 2009, даже если дефолт, возможно, произошел спустя 12 месяцев после этой даты. Основной набор данных включал 11 119 записей и 160 переменных. Для этого проекта были спроектированы два набора данных – DATA100 и CLEANSED (разъяснения даны ниже). Процесс построения и бенчмаркинга скоринговой карты состоял из следующих важных этапов: a. Сперва мы преобразовали непрерывное значение LGD для каждого клиента в бинарное, получив в результате размноженные данные (DATA100). b. Используя узел Интерактивная группировка в SAS Enterprise Miner, мы поанализировали зависимость от WOE по каждому предиктору и провели категоризацию наиболее сильных предикторов.

Page 6: Построение скоринговой карты на основе LGD

c. Мы построили несколько моделей логистической регрессии, выбрали наилучшую, а затем перевели ее в формат скоринговой карты. d. Мы провели валидацию скоринговой карты и бенчмаркинг с использованием множества других моделей.

Рисунок 1 показывает проект Enterprise Miner, который использовался для осуществления вышеупомянутых шагов.

Рисунок 1 : Проект Enterprise Miner Project, показывает построение и бенчмаркинг скоринговой карты

Page 7: Построение скоринговой карты на основе LGD

Следующие 4 параграфа детально описывают каждый из вышеупомянутых этапов. 1. Преобразование непрерывной целевой переменной в бинарную LGD можно рассматривать как показатель, состоящий из выполненных («хороших») и невыполненных («плохих») денежных обязательств. Например, кредитный счет с LGD 25% можно рассматривать как счет, который включает 25% «плохих» денежных обязательств и 75% «хороших» денежных обязательств. Для создания набора данных, который можно использовать в узле Интерактивная группировка в SAS Enterprise Miner, нам нужно было спроектировать наблюдения с дискретными целевыми переменными, поскольку данный узел работает с бинарной целевой переменной. Следуя логике, изложенной выше, мы для каждого клиента создали 2 взвешенных наблюдения, исходя из LGD. Поэтому для клиента, как и в приведенном примере, нужно было создать 2 наблюдения с теми же самыми предикторами, но первое наблюдение записывалось в целевой переменной «Хороший» и весом 0.75, а другое – в целевой переменной «Плохой» и весом 0.25. Мы расширили это понятие и спроектировали набор данных, фактически размножив данные (спроектировав 75 физических наблюдений, записанных в целевой переменной «Хороший», и 25 физических наблюдений, записанных в целевой переменной «Плохой»). После того, как проектирование было выполнено, мы могли приступить к моделированию, аналогично тому, как строили PD модели, и рассматриваем каждую спрогнозированную вероятность в качестве LGD. Рисунок 2 ниже показывает 10 наблюдений с различными значениями LGD, преобразованными в 100 физических

Page 8: Построение скоринговой карты на основе LGD

бинарных наблюдений, и взятыми по переменной «Срок пользования услугами».

Рисунок 2 : Преобразование отдельного наблюдения с вычисленным LGD в

100 «хороших» и «плохих» наблюдений

Для примера, приведенного выше, среднее значение LGD равно (3.82/10) = 0.382, процент «плохих» в выборке равен (382/(618+382)) = 38.2%. Для этого проекта были созданы два набора данных. DATA100, содержащий в итоге 1 111 900 «полных» наблюдений, был спроектирован путем размножения каждого «хорошего» или «плохого» с помощью LGD, т.е. наблюдение с LGD 20% преобразовывалось в 20 «плохих» и 80 «хороших» наблюдений. Исходный набор данных, CLEANSED, был спроектирован без размножения. Модели, построенные с использованием обоих наборов данных, в итоге сравнивались.

Page 9: Построение скоринговой карты на основе LGD

2. Категоризация на основе WOE и отбор переменных, обладающих значимой прогнозной силой Затем мы использовали узел Интерактивная группировка в SAS Enterprise Miner, чтобы проанализировать прогнозную силу каждого предиктора. Переменные с низкими значениями IV и Gini были исключены. Переменные со значениями IV больше 0.05 были категоризированы, опираясь на обоснованность значений IV и наличие логической взаимосвязи с целевой переменной. Переменные, обладающие высокой прогнозной силой, но при этом с неинтерпретируемым графиком WOE, исключались. Это гарантировало, что итоговая скоринговая карта пройдет тест на работоспособность с точки зрения бизнеса и не вызовет обвинений в личной заинтересованности. Вычисление WOE в SAS Enterprise Miner происходит по стандартной формуле: WOEкатег = ln (доля «хороших» в категории/доля «плохих» в категории). Как показано на Рисунке 3, переменная «Срок пользования услугами» была категоризирована. Для этого использовались данные, приведенные на Рисунке 2. Рисунок 3 : Итоговые категории для переменной «Срок пользования услугами», полученные с помощью преобразованного LGD

Page 10: Построение скоринговой карты на основе LGD

3. Построение моделей с использованием различных алгоритмов логистической регрессии, выбор наилучшей модели и преобразование в формат скоринговой карты Затем был использован узел Скоринговая карта в SAS Enterprise Miner для построения модели логистической регрессии и преобразования полученных результатов в формат скоринговой карты. Мы применили несколько алгоритмов - прямое и пошаговое регрессионное оценивание, получили итоговую модель с приемлемыми p-значениями, отсутствием положительных оценок коэффициентов и оптимальным сочетанием предикторов, важных для бизнеса. Скоринговая карта была отмасштабирована так, что в точке 200 баллов достигалось отношение шансов 20:1, а каждые 50 баллов удваивали шансы. Выбранная в итоге скоринговая карта состояла из 14 переменных, включая предикторы, относящиеся к чистой стоимости, числу просрочек в недавнем прошлом, кредитным лимитам, балансам, последним запросам, использованию кредита и транзакциям. Эти переменные отражали кредитоспособность не только по овердрафту, но и по другим револьверным кредитам клиента, открытым как в данном банке, так и в других финансовых организациях. На рисунке 4 показаны переменные, отобранные для скоринговой карты, вместе со скоринговыми баллами и процентами «плохих» клиентов. В данной скоринговой карте процент «плохих» клиентов следует рассматривать как «Уровень потерь в случае дефолта».

Page 11: Построение скоринговой карты на основе LGD

Рисунок 4 : Переменные, отобранные для скоринговой карты

Затем мы построили итоговую таблицу, содержащую спрогнозированные проценты «плохих» клиентов, при этом интерпретировали вероятность «плохого» исхода как LGD. Как показано на рисунке 5, для диапазона 88-90 баллов спрогнозированный процент «плохих» клиентов, равный 49.57%, рассматривался как LGD 49.57%. В приведенной таблице «Предельно допустимый процент «плохих» клиентов» для диапазона 88-90 баллов вычисляется следующим образом: количество «плохих» в данном диапазоне/общее количество клиентов в данном диапазоне= =(1625/3278)*100%=49.57%. «Усредненная спрогнозированная вероятность» выводится из регрессионного уравнения. Нехватка данных в категориях и другие проблемы на данный показатель не влияют. «Нижний порог» и «Верхний порог» - это наихудшее и наилучшее наблюдение в данном диапазоне с точки зрения кредитоспособности. Эти два показателя используются для

Page 12: Построение скоринговой карты на основе LGD

определения однородности скоринговых диапазонов в том случае, когда скоринговые интервалы используются для назначения пулов согласно Базель II. Рисунок 5 : Таблица выигрышей для скоринговой карты

Page 13: Построение скоринговой карты на основе LGD

4. Проверка и бенчмаркинг скоринговой карты Разработанная скоринговая карта прошла валидацию с использованием различных методов, по тестовой выборке, которая включала 30% наблюдений, не участвовавших в обучении. Мы сравнили обучающую и тестовую выборки по различным показателям качества подгонки, сравнили графики статистики Колмогорова-Смирнова и ROC-кривой. Основываясь на полученных результатах (некоторые из которых показаны на Рисунках 6-8), мы делали заключение, что скоринговая карта прошла валидацию. Рисунок 6: Процент «плохих» по скоринговому баллу в обучающей и тестовой выборках

Page 14: Построение скоринговой карты на основе LGD

Рисунок 7: Накопленная lift-кривая в обучающей и тестовой выборках

Рисунок 8: ROC-кривая в обучающей и тестовой выборках

Мы провели бенчмаркинг скоринговой карты с использованием 2 различных методов. Сперва мы сравнили эффективность нашей скоринговой карты с двумя моделями, которые строились по некатегоризированным данным и напрямую прогнозировали LGD в виде

Page 15: Построение скоринговой карты на основе LGD

непрерывной целевой переменной. Использовался метод наименьших квадратов и деревья решений. Рисунок 9 ниже показывает, как наша скоринговая карта сравнивалась с этими двумя моделями по ROC-кривой. Рисунок 9 : Сравнение эффективности скоринговой карты с двумя другими моделями с помощью ROC-кривой

Ранее описанная скоринговая карта была разработана на основе искусственной бинарной переменной в размноженном наборе данных, чтобы представить непрерывную переменную в диапазоне от 0-1. В ходе эксплуатации скоринговая карта применяется к единственному наблюдению по каждому клиенту, а логистическая регрессия дает значение логарифма шансов, которое преобразуется в значение «вероятности», отражающее спрогнозированный LGD. Итоговая валидация проводилась по неразмноженному набору данных. Для этого на основе данного набора была построена конкурирующая модель деревьев решений, ее

Page 16: Построение скоринговой карты на основе LGD

эффективность сравнивалась с первоначально разработанной скоринговой картой. Мы провели скоринг по нашему тестовому набору с помощью модели деревьев решений и скоринговой карты и сравнили способность обоих моделей ранжировать клиентов. Как показано на Рисунке 10, сравнение осуществлялось с помощью графика lift-кривой, показывающей зависимость потерь от баланса на момент дефолта. Рисунок 10: Сравнение ранжирующей способности моделей по размноженному и неразмноженному наборам данных

Это было сделано для решения первоначальной бизнес-задачи, поставленной банком. В данной финансовой организации главным приоритетом в рамках Базель II и разрабатываемой бизнес-стратегии была способность модели ранжировать LGD. Точность не являлась первостепенной задачей для данного банка – руководство просто хотело определить клиентов, у которых был наибольший риск в зависимости от баланса на их кредитном счете в момент дефолта. Для сравнения

Page 17: Построение скоринговой карты на основе LGD

различных моделей применялся один из вариантов CAP-кривой, показанный на графике выше. Он представлял собой зависимость доли зафиксированных общих потерь от доли баланса в момент дефолта на основе данных, упорядоченных по спрогнозированным значениям LGD (от наихудших к наилучшим). Результаты и выводы С точки зрения качества подгонки скоринговая карта получилась немного хуже, чем непосредственно полученная модель на основе стократно размноженного набора данных. Вместе с тем скоринговая карта разрабатывалась после преобразования переменных из непрерывных в ступенчатые функции (биннинга). Здесь больше усилий делалось на важности данного преобразования с точки зрения реализации бизнес-целей и получения оптимального набора предикторов в итоговой модели. На наш взгляд, наличие более прозрачной и понятной скоринговой карты, хоть и не обладающей очень высокой прогностической способностью, допустимо. Скоринговая карта, фрагмент которой можно увидеть на Рисунке 4, представляет собой инструмент, позволяющий точно сказать, какие предикторы вносят вклад в высокие значения LGD и, что более важнее, насколько большой вклад они вносят. Распределение баллов имеет смысл, поскольку они были категоризированы на основе информации, имеющейся у бизнес-экспертов. Эксперты присваивали максимально низкие баллы наблюдениям с пропущенными значениями. Кроме того, набор предикторов в скоринговой карте прошел валидацию с точки зрения бизнес-задач, исходя из представлений опытных бизнес-аналитиков о дефолте и уровне потерь в случае дефолта. Заметим, что это не препятствует поиску

Page 18: Построение скоринговой карты на основе LGD

новых прогнозных зависимостей – просто, все зависимости должны быть понятны с точки зрения бизнеса. Если скоринговая карта начинает присваивать более низкие или более высокие скоринговые баллы, чем ожидалось, источник отклонения можно легко определить с помощи проверки средних значений каждой переменной в скоринговой карте. В более сложных моделях, включающих многофакторные взаимодействия, такая диагностика становится довольно трудновыполнимой задачей. В ситуации, когда целью является принятие конкретного решения, возможность объяснить решение и провести его диагностику всегда является приоритетной задачей. Хотя скоринговая карта была разработана по искусственно размноженному набору данных, в реальности она применяется к неразмноженным наблюдениям, а полученное в итоге спрогнозированное значение «вероятности плохих» рассматривается как эффективный LGD. Данный сценарий, который мы тестировали в процессе валидации, показан на Рисунке 5, где изначальные данные проходили скоринг с помощью модели деревьев решений и скоринговой карты. В плане выявления наибольших потерь $ в зависимости от суммы под дефолтом $ скоринговая карта на основе WOE превошла модель дерева решений (как показано на Рисунке 5). Как упоминалось ранее, ранжирование потерь важнее для банка, чем точность прогноза потерь или значений LGD. На основе этих результатов мы делаем вывод, что, во-первых, формат скоринговой карты применим для прогноза LGD. Во-вторых, эффективность скоринговой карты хоть и не равна эффективности моделей, прогнозирующих LGD напрямую, но с точки зрения бизнеса имеет вполне приемлемый уровень. Кроме того, учитывая проблемы, связанные с разработкой моделей по данным, искусственно

Page 19: Построение скоринговой карты на основе LGD

увеличенным с помощью размножения (например, завышенный хи-квадрат Вальда), мы рекомендовали бы расширить возможности узла Интерактивная группировка в Enterprise Miner, чтобы можно было вычислять WOE для непрерывных целевых переменных. Это способствовало бы разработке скоринговых карт для прогнозирования LGD и EAD без использования размножения данных, несмотря на преимущества формата скоринговой карты, заключающиеся в его открытости и гибкости.