Порядковая регрессия в банковском скоринге
-
Upload
gewissta -
Category
Data & Analytics
-
view
240 -
download
19
description
Transcript of Порядковая регрессия в банковском скоринге
![Page 1: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/1.jpg)
46 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
Посвящается Олесе Дмитриевне Фоменок
Метод порядковой регрессии позволяет нам строить модели, делать прогнозы и оценивать важность различных предикторов (независимых переменных) в тех ситуациях, когда зависимая (целевая, результирующая) переменная является порядковой. Независимые переменные должны быть категориальными, т.е. иметь номинальную или порядковую шкалу, при этом в качестве кова-риат допускается применение переменных с ин-тервальной шкалой.
КАТЕГОРИИ ПОРЯДКОВЫХ ЗАВИСИМЫХ
ПЕРЕМЕННЫХ И ЛИНЕЙНАЯ РЕГРЕССИЯ
Когда мы пытаемся спрогнозировать катего-рии порядковой зависимой переменной, модели обычной линейной регрессии не могут быть реа-лизованы в полной мере. Эти методы могут рабо-тать лишь на основе предположения о том, что за-висимая переменная измеряется на интервальной шкале. Упрощенные предположения, на которых
Груздев Артем Владимирович — директор исследо-
вательской компании «Гевисста» (г. Москва)
РИСКИ И ТЕХНОЛОГИИ
КЛЮЧЕВЫЕ СЛОВА: порядковая регрессия, накопленная вероятность, компонент положения, компонент масштаба, связывающая функция, дефолт, прогноз
В данной статье рассматривается модель порядковой регрессии для оценки кре-
дитоспособности. Данная модель напоминает модель логистической регрессии.
Отличие порядковой регрессии от логистической в том, что зависимая пере-
менная в рассматриваемой модели является порядковой. Это позволяет сделать
прогноз дефолта сразу по нескольким выделенным категориям зависимой пере-
менной, упорядочить аппликантов по степени нарастания или убывания кредит-
ного риска.
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ
В КРЕДИТНОМ СКОРИНГЕ
![Page 2: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/2.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 47
строится линейная регрессия, не выполняются, поскольку связи между переменными в наших данных могут искажаться. Особенно линейная регрессия чувствительна к способу, которым мы определяем категории целевой переменной.
В случае с порядковой переменной самое важ-ное — это порядок категорий. Так, если мы объе-диним две соседние категории в одну более круп-ную, то внесем лишь небольшое изменение, и мо-дели, построенные на основе старой и новой ка-тегоризации, наверное, будут очень схожи. К со-жалению, из-за того что линейная регрессия чув-ствительна к категоризации, модель, построен-ная до объединения категорий, может полностью отличаться от той, которая будет построена после объединения.
ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МОДЕЛИ
Альтернативный подход использует обобще-ние линейной регрессии (обобщенную линейную модель), чтобы спрогнозировать накопленные ве-роятности для категорий. С помощью этого ме-тода мы строим отдельное уравнение для каждой категории порядковой зависимой переменной. Каждое уравнение дает спрогнозированную ве-роятность для соответствующей категории или любой категории более низкого порядка (табл. 1).
Проанализируем распределение, приведен-ное в табл. 1. Прогнозы строятся только на сово-купных вероятностях для каждой категории.
Спрогнозированная накопленная вероятность для первой категории равна 0,80. Прогноз для второй категории: 0,80 + 0,07 = 0,87; прогноз для третьей категории: 0,80 + 0,07 + 0,07 = 0,94 и т.д. Прогноз для последней категории всегда равен 1,0, поэтому уравнение для последней категории не требуется.
Обобщенные линейные модели — это доста-точно большой класс моделей, который может использоваться для ответов на широкий круг во-просов в статистике. Обобщенная линейная мо-дель описывается уравнением:
где link() — связывающая функция;ij — накопленная вероятность j-той категории за-висимой переменной для i-го наблюдения;j — пороговая оценка (оценка параметров ре-грессии) для j-той категории зависимой перемен-ной;p — число регрессионных коэффициентов;xi1, …, xij — значения предикторов (независимых переменных) для i-го наблюдения;1, …, p — регрессионные коэффициенты.
Здесь необходимо отметить несколько важных моментов. В основе модели лежит идея о том, что есть некая скрытая непрерывная зависимая пере-менная, а порядковая зависимая переменная яв-ляется результатом дискретизации рассматривае-мого континуума на упорядоченные группы (кате-гории). Конечные значения, по которым задаются категории, оцениваются с помощью пороговых
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
Категория Вероятность принадлежности к категории Накопленная вероятность
Оплата без просрочек 0,80 0,80
Просрочка от 1 до 29 дней 0,07 0,87
Просрочка от 30 до 59 дней 0,07 0,94
Просрочка от 60 до 89 дней 0,05 0,99
Безнадежный кредит 0,01 1,00
Таблица 1. Гипотетическое распределение категорий порядковой переменной
![Page 3: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/3.jpg)
48 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
оценок (оценок параметров регрессии). В ряде случаев эта идея — хорошее обоснование для того, чтобы принять данное распределение кате-горий. Однако даже в тех случаях, когда речь не идет о скрытой переменной, модель может все так же хорошо работать и выдавать достоверные результаты.
Теперь более детально рассмотрим наше уравнение. Пороговые оценки или константы в модели, соответствующие свободному члену в моделях линейной регрессии, зависят только от того, вероятность какой категории предсказы-вается. Значения предикторов (независимых пе-ременных) не влияют на эту (левую) часть модели:
Прогнозная (правая) часть уравнения зависит лишь от предикторов и не зависит от категории зависимой переменной. Эти два свойства пред-полагают, что результаты должны представлять собой набор параллельных линий или находить-ся в одной плоскости для каждой категории зави-симой переменной:
Модель прогнозирует накопленные вероятно-сти и функцию для этих значений. Данная функ-ция называется связывающей. Она связывает слу-чайный компонент в левой части уравнения с си-стематическим компонентом в правой части.
При построении модели мы должны выбрать тот или иной вид связывающей функции. С помощью подбора этих функций можно улучшить результа-ты прогнозирования.
Резюмируя, отметим, что модель порядковой регрессии содержит три важных компонента.
1. Положение (Location component). Та часть уравнения, которая включает коэффициенты и пре-дикторы, называется положением модели. Это пер-вооснова модели, она использует значения пре-дикторов, чтобы вычислить спрогнозированные вероятности категорий для каждого наблюдения.
2. Масштаб (Scale component). Масштаб мо-дели — это необязательная модификация базо-вой модели, принимающая во внимание различия в вариабельности значений предикторов. Напри-мер, если мужчины демонстрируют более выра-женную вариабельность значений кредитного статуса, чем женщины, то использование масшта-ба для учета этого эффекта может улучшить нашу модель. Модель, включающая компонент масшта-ба, имеет уравнение:
где zi1, …, zim — предикторы компонента масштаба;1, …, m — коэффициенты компонента масштаба.
3. Связывающая функция. Связывающая функция — это преобразование накопленных ве-роятностей, которое позволяет провести оценку модели. В процедуре порядковой регрессии до-ступно пять связывающих функций (табл. 2).
Груздев А.В.
Функция Форма Применение
Логит ln( / (1 − )) Равномерно распределенные категории
Сопряженный двойной логарифм ln(−ln(1 − )) Более вероятны высшие категории
Отрицательный двойной логарифм –ln(–ln()) Более вероятны низшие категории
Пробит – 1() Нормально распределенные частоты
Коши tan(( – 0,5)) Результирующая переменная со множеством пиковых значений
Таблица 2. Связывающие функции
![Page 4: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/4.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 49
Управление рисков банка хочет определить, является ли аппликант надежным заемщиком, ис-ходя из его социально-демографических и фи-нансовых характеристик. В качестве зависимой переменной рассматривается «Статус состояния счета». Она включает пять категорий: «Нет кре-дитной истории», «Оплата без просрочек», «Про-срочка от 1 до 29 дней», «Просрочка от 30 до 119 дней» и «Безнадежный кредит». Предикторы — финансовые и социально-демографические ха-рактеристики аппликантов, такие как возраст за-емщика, число кредитов, взятых в банке, и т.п. Применим порядковую регрессию, чтобы постро-ить модель скоринга аппликантов.
При построении первоначальной модели по-рядковой регрессии нужно принять несколько важных решений. Во-первых, мы, конечно, долж-ны определить порядковую результирующую пе-ременную, а затем решить, какие предикторы за-дать для компонента положения. Потом необхо-димо определиться, использовать или нет в мо-дели компонент масштаба и если да, то какие предикторы применять. Наконец, нужно решить, какая связывающая функция лучше всего соот-ветствует структуре наших данных.
В большинстве случаев еще до начала постро-ения модели у нас уже есть заранее определен-ная целевая переменная. Причина, по которой мы используем модель порядковой регрессии, в том, что мы хотим спрогнозировать результат, измеренный в порядковой шкале. В нашем слу-чае это переменная «Статус состояния счета» с ее пятью категориями. Заметим, что предлагаемый здесь порядок расположения категорий вовсе не обязательно должен быть наилучшим из возмож-ных. Можно легко доказать, что клиент, уже взяв-ший кредит и не имеющий просрочек, имеет луч-ший рейтинг, чем тот, у которого кредитная исто-рия неизвестна.
Процесс отбора предикторов в компонент по-ложения схож с отбором предикторов в модель линейной регрессии. При определении количе-ства отбираемых переменных необходимо руко-водствоваться теоретическими и практическими
соображениями. В идеале модель должна вклю-чать все важные предикторы, и только, но на практике мы часто не знаем точно, какие преди-кторы являются существенными, до того момента, пока не построим модель. В этом случае лучшим решением обычно бывает включение всех преди-кторов, наиболее важных на наш взгляд. Если об-наружится, что некоторые из них, по-видимому, бесполезны для построения модели, то мы ис-ключим их из анализа и построим модель заново.
В нашем примере исходя из предварительно-го анализа были определены пять возможных предикторов: возраст заемщика, продолжитель-ность кредита, количество взятых в банке креди-тов, долги по другим платежам и тип жилья. Мы включим эти независимые переменные в перво-начальный анализ и затем оценим важность каж-дой переменной. Число взятых в банке кредитов, долги по другим платежам и тип жилья являются категориальными переменными, включенными в модель в качестве факторов. Возраст заемщика и продолжительность кредита — непрерывные переменные, включенные в модель в качестве ко-вариат.
Теперь нужно решить, вводить ли вообще в модель компонент масштаба. В большинстве случаев он не нужен, и модель с заданным компо-нентом положения обеспечивает хорошее обоб-щение данных. Обычно лучше начинать анализ с построения модели с заданным компонентом положения и включать компонент масштаба, если есть доказательства того, что модель с компонен-том положения неадекватна нашим данным. При-держиваясь данного подхода, вы можете начать анализ с построения модели по заранее опреде-ленному компоненту положения и после оценки модели решить, будет ли обоснованным включе-ние в модель компонента шкалы.
Наконец, выберем связывающую функцию. Для этого нужно рассмотреть распределение зна-чений результирующей переменной. На рис. 1 мы видим распределение категорий переменной «Статус состояния счета». Большая часть наблю-дений относится к категориям 3 («Просрочка от 1
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
![Page 5: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/5.jpg)
50 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
до 29 дней»), 5 («Безнадежный кредит») и 4 («Про-срочка от 30 до 119 дней»). По этой причине мы используем функцию сопряженного двойного ло-гарифма. Она применяется, когда высшие катего-рии результирующей переменной представлены сильнее. Вместе с тем большое число наблюде-ний в крайней категории 5 («Безнадежный кре-дит») указывает на то, что в качестве альтернатив-ной связывающей функции вполне обоснованно может быть применена функция Коши.
Прежде чем мы рассмотрим предикторы, включенные в модель, выясним, может ли модель
выдавать адекватные прогнозы. Чтобы ответить на этот вопрос, нужно изучить табл. 3.
В качестве оценки значимости влияния от-дельных предикторов для улучшения прогнозов, получаемых с помощью модели, служит отрица-тельное значение 2LL («Удвоенное значение лога-рифма функции правдоподобия»).
Разность между начальной моделью («Только константа») и итоговой моделью («Полная») ука-зывается в виде значения теста хи-квадрат, с ко-торым соотнесен соответствующий уровень зна-чимости. В приведенном примере наблюдается
Груздев А.В.
Рис. 1. Распределение категорий переменной «Статус состояния счета»
![Page 6: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/6.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 51
статистически значимое улучшение (р < 0,001). Это хороший признак.
Табл. 4 содержит тест хи-квадрат Пирсона. Эта статистика предназначена для того, чтобы прове-рить, противоречит ли наша модель наблюдае-мым данным (будут ли наблюдаемые частоты по ячейкам значимо отличаться от ожидаемых ча-стот, рассчитанных на основе модели).
Большие значения уровня статистической зна-чимости позволяют нам сделать вывод, что на-блюдаемые и спрогнозированные моделью зна-чения совпадают и мы построили хорошую мо-дель. В нашем примере результат теста — стати-стическая значимая разность значений (p = 0,000), что говорит о низкой степени приближения.
Статистика хи-квадрат может использоваться для анализа моделей с небольшим числом катего-риальных предикторов. Однако, к сожалению, она чувствительна к пустым ячейкам. Когда оценива-ется модель с непрерывными ковариатами, часто появляется большое количество пустых ячеек, как в нашем примере, поэтому мы не можем доверять этой статистике, когда речь идет о такой модели. Из-за пустых ячеек мы не уверены, что данный по-казатель реально отражает распределение хи-квадрат, а уровни значимости вычислены точно.
В модели линейной регрессии коэффициент детерминации R2 (или R-квадрат) показывает долю дисперсии зависимой переменной (призна-ка), объясняемую влиянием независимых пере-менных (предикторов). Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость зависимой переменной от изменчивости предикторов. На-оборот, значение R-квадрата, близкое к нулю, оз-начает, что колебания зависимой переменной не обусловлены колебаниями предикторов.
В регрессионных моделях с категориальной зависимой переменной невозможно вычислить статистику R2 в ее классическом виде, поэтому вместо этого вычисляются ее аппроксимации (табл. 5).
Речь идет о трех выведенных показателях: R-квадрат Кокса и Снелла, Найджелкерка и Мак-Фаддена. Это приближения значения R-квадрата, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной. С их помощью полезно сравнивать модели, по-строенные на одних и тех же данных. Модель с са-мым высоким значением R-квадрата признается лучшей. В нашем случае значения коэффициентов являются приемлемыми, хоть и не в достаточной
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость
Только константа 2249,888 — — —
Полная 1896,552 353,336 9 0,000
Таблица 3. Информация о приближении модели
Примечание: связывающая функция — сопряженный двойной логарифм.
Статистика качества модели Хи-квадрат Степени свободы Значимость
Пирсон 4688,724 3131 0,000
Отклонение 1796,915 3131 1,000
Таблица 4. Критерий согласия
Примечание: связывающая функция — сопряженный двойной логарифм.
![Page 7: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/7.jpg)
52 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
мере. Вероятно, нужно пересмотреть модель, что-бы попытаться улучшить ее прогностическую спо-собность.
Следующим шагом в оценке нашей модели станет проверка прогнозов. Вспомним, что мо-дель базируется на спрогнозированных кумуля-тивных (накопленных) вероятностях. Главный во-прос: насколько часто модель выдает правильно спрогнозированную категорию, основываясь на значениях переменных-предикторов? Чтобы уви-деть, насколько хорошо работает модель, мы мо-жем построить классификационную таблицу,
называемую также слиянием матриц, путем кросс-табулирования спрогнозированных и наблюдае-мых категорий. Можно построить классификаци-онную таблицу, используя сохраненные спрогно-зированные категории (табл. 6).
Модель заслуживает внимания с точки зрения прогнозирования результирующих категорий, по крайней мере наиболее часто встречаемых — 3 («Просрочка от 1 до 29 дней») и 5 («Безнадежный кредит»). Модель корректно классифицировала 90,6% наблюдений, относящихся к категории 3, и 75,1% наблюдений, относящихся к категории 5.
Груздев А.В.
Статус состояния счетаПредсказанная категория
ВсегоПросрочка от 1 до 29 дней Безнадежный кредит
Нет кредитной истории
Частота 14 26 40
Процент в статусе состояния счета 35,0 65,0 100,0
Оплата без просрочек
Частота 41 8 49
Процент в статусе состояния счета 83,7 16,3 100,0
Просрочка от 1 до 29 дней
Частота 480 50 530
Процент в статусе состояния счета 90,6 9,4 100,0
Просрочка от 30 до 119 дней
Частота 31 57 88
Процент в статусе состояния счета 35,2 64,8 100,0
Безнадежный кредит
Частота 73 220 293
Процент в статусе состояния счета 24,9 75,1 100,0
ВсегоЧастота 639 361 1000
Процент в статусе состояния счета 63,9 36,1 100,0
Таблица 6. Статус состояния счета и предсказанная категория
Показатель Значение
Кокса и Снелла 0,298
Найджелкерка 0,328
Мак-Фаддена 0,149
Таблица 5. Псевдо-R-квадрат
Примечание: связывающая функция — сопряженный двойной логарифм.
![Page 8: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/8.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 53
Кроме того, наблюдения в категории 2 с большей вероятностью будут отнесены к категории 3, чем к категории 5.
В то же время наблюдения, относящиеся к ка-тегории 1 («Нет кредитной истории»), предсказа-ны плохо. Большинство наблюдений были отнесе-ны к категории 5 («Безнадежный кредит»), кото-рая теоретически наименее всего должна быть похожа на категорию 1. Это может указывать на проблему в порядковой шкале результирующей переменной. Мы не будем здесь рассматривать ее, но в обычной ситуации нужно попытаться от-ветить на вопрос, можно ли улучшить порядко-вую шкалу путем упорядочения, слияния или ис-ключения конкретных категорий.
Тест параллельных линий (табл. 7) позволяет нам судить об адекватности модели. Нулевая ги-потеза гласит, что соответствующие регрессион-ные коэффициенты одинаковы для всех катего-рий результирующей переменной. Альтернатив-ная гипотеза утверждает, что соответствующие регрессионные коэффициенты различны для всех категорий результирующей переменной. Тест сравнивает оцениваемую модель, которая вклю-чает единый набор коэффициентов для всех кате-горий, с моделью, содержащей отдельный набор коэффициентов для каждой категории.
Значение хи-квадрат (2 = 307,938, p = 0,000) указывает на то, что общая модель с разными ре-грессионными коэффициентами для каждой кате-гории отклика дает статистически значимое улуч-шение приближения. Нулевая гипотеза может быть отвергнута. Данный результат обусловлен
несколькими факторами, включая применение некорректной связывающей функции или ис-пользование ошибочной модели. Также возмож-но, что плохое качество подгонки вызвано вы-бранным порядком категорий зависимой пере-менной. Упорядочивание, в ходе которого катего-рия «Нет кредитной истории» будет соответство-вать большему кредитному риску, может дать лучшее приближение.
Нередко бывает затруднительно выбрать свя-зывающую функцию, наиболее подходящую для данных. В тех случаях, когда исходная модель ра-ботает плохо, обычно стоит попробовать приме-нить альтернативные связывающие функции, что-бы посмотреть, возможно ли построить более адекватную модель, использовав другую функ-цию. Хотя некоторые функции в большинстве слу-чаев работают так же (особенно логит, сопряжен-ный двойной логарифм, отрицательный двойной логарифм), есть ситуации, когда выбор функции может улучшить модель или, наоборот, ухудшить ее качество.
В нашем примере есть по крайней мере две связывающие функции (сопряженный двойной логарифм и Коши), которые могут быть примене-ны. Несмотря на то что модель достаточно хоро-шо работает с функцией сопряженного двойного логарифма, возможно, мы улучшим модель, ис-пользуя функцию Коши. Мы можем оценить но-вую модель, используя функцию Коши, чтобы по-смотреть, привела ли смена связывающей функ-ции к улучшению предсказательной способности модели (табл. 8). Рекомендуется сохранять один
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость
Нулевая гипотеза 1896,552 — — —
Общая 1588,614* 307,938** 27 0,000
Таблица 7. Тест параллельных линий
* Значение логарифма правдоподобия не может быть далее увеличено после максимального числа делений шага пополам.
** Статистика хи-квадрат вычислена на основании значения логарифма правдоподобия последней итерации общей модели. Валидность проверки сомнительна.
Примечание: нулевая гипотеза состоит в том, что параметры положения (коэффициенты наклона) одинаковы по всем категориям. Связывающая функция — сопряженный двойной
логарифм.
![Page 9: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/9.jpg)
54 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
и тот же набор переменных-предикторов, вклю-ченных в модель, до завершения оценивания функций. Если мы одновременно сменим связы-вающую функцию и набор предикторов, то не уз-наем, чем именно вызвано изменение в качестве модели.
Сравните полученный результат с табл. 3. Уро-вень значимости для статистики хи-квадрат мень-ше 0,05 указывает на то, что модель, построенная с помощью функции Коши, лучше, чем простое угадывание. Значение хи-квадрат в случае ис-пользования функции Коши (459,860) выше, чем значение хи-квадрат при использовании сопря-женного двойного логарифма (353,336). Это озна-чает, что в нашем примере функция Коши работа-ет лучше. Значения статистик псевдо-R-квад рат (табл. 9) также выше в случае применения функ-ции Коши, чем при использовании функции со-пряженного двойного логарифма (сравните с табл. 5). Это также говорит о том, что с нашими данными функция Коши работает лучше.
Рассмотрим статус состояния счета (табл. 10). Похоже, что модель, построенная с использова-нием функции Коши, лишь немного лучше, чем предыдущая, предсказывает нижние категории
(1, 2 и 3) и немного хуже — более высокие катего-рии. Поскольку самой важной задачей кредитно-го скоринга является корректная идентификация тех заемщиков, которые, вероятно, попадут в ка-тегорию «Безнадежный кредит» (категорию 5), то мы должны придерживаться модели, построен-ной с использованием функции сопряженного двойного логарифма, несмотря на то что качество приближения говорит в пользу модели Коши.
В таблице оценки параметров (табл. 11) приво-дятся данные о влиянии каждого предиктора на модель. Поскольку интерпретация коэффициен-тов в этой модели затруднительна из-за свойств связывающей функции, то знаки коэффициентов для ковариат и относительные значения коэффи-циентов для уровней факторов могут дать нам важную информацию об эффектах влияния пре-дикторов в модели.
Для ковариат положительные (отрицатель-ные) коэффициенты показывают положительные (обратные) связи между предикторами и резуль-тирующей категорией. Увеличивающееся значе-ние ковариаты с положительным коэффициентом соответствует увеличивающейся вероятности ее отнесения к одной из более высоких категорий
Груздев А.В.
Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость
Только константа 2249,888 — — —
Полная 1790,028 459,860 9 0,000
Таблица 8. Информация о приближении модели
Примечание: связывающая функция — Коши.
Показатель Значение
Кокса и Снелла 0,369
Найджелкерка 0,407
Мак-Фаддена 0,194
Таблица 9. Псевдо-R-квадрат
Примечание: связывающая функция — сопряженный двойной логарифм.
![Page 10: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/10.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 55
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
Статус состояния счета Предсказанная категория
ВсегоПросрочка от 1 до 29 дней Безнадежный кредит
Нет кредитной истории
Частота 15 25 40
Процент в статусе состояния счета 37,5 62,5 100,0
Оплата без про-срочек
Частота 43 6 49
Процент в статусе состояния счета 87,8 12,2 100,0
Просрочка от 1 до 29 дней
Частота 482 48 530
Процент в статусе состояния счета 90,9 9,1 100,0
Просрочка от 30 до 119 дней
Частота 36 52 88
Процент в статусе состояния счета 40,9 59,1 100,0
Безнадежный кредит
Частота 80 213 293
Процент в статусе состояния счета 27,3 72,7 100,0
ВсегоЧастота 656 344 1000
Процент в статусе состояния счета 65,6 34,4 100,0
Таблица 10. Статус состояния счета и предсказанная категория
Параметры ОценкаСтандарт-
ная ошибкаСтатисти-ка Вальда
Степени свободы
Значи-мость
95%-ный доверительный интервал
Нижняя граница Верхняя граница
Пор
ог
[статус = 1] –3,549 0,667 28,323 1 0,000 –4,856 –2,242
[статус = 2] –2,720 0,656 17,167 1 0,000 –4,006 –1,433
[статус = 3] –0,137 0,649 0,044 1 0,833 –1,408 1,135
[статус = 4] 0,199 0,649 0,094 1 0,759 –1,072 1,471
Пол
ожен
ие
Возраст 0,015 0,004 15,128 1 0,000 0,007 0,023
Продолжительность –0,002 0,003 0,379 1 0,538 –0,009 0,005
[количество = 1] –1,134 0,594 3,645 1 0,056 –2,298 0,030
[количество = 2] 0,367 0,598 0,376 1 0,540 –0,805 1,538
[количество = 3] 0,981 0,711 1,902 1 0,168 –0,413 2,374
[количество = 4] 0* — — 0 — — —
[другие долги = 1] –0,397 0,118 11,389 1 0,001 –0,627 –0,166
[другие долги = 2] –0,469 0,193 5,913 1 0,015 –0,848 –0,091
[другие долги = 3 ] 0* — — 0 — — —
[тип жилья = 1] –0,082 0,165 0,249 1 0,617 –0,406 0,241
[тип жилья = 2] 0,132 0,139 0,897 1 0,344 –0,141 0,404
[тип жилья = 3] 0* — — 0 — — —
Таблица 11. Оценки параметров регрессии
* Этот параметр приравнен к нулю, т.к. является дублирующим.
Примечание: связывающая функция — сопряженный двойной логарифм.
![Page 11: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/11.jpg)
56 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
результирующей переменной. Уровень фактора с большим коэффициентом указывает на большую вероятность его отнесения к одной из высших ка-тегорий результирующей переменной. Знак коэф-фициента для уровня фактора зависит от характе-ра его влияния на референтную категорию.
Теперь сделаем выводы относительно некото-рых параметров. Значимость теста для перемен-ной «Возраст» (в годах) меньше 0,05, и наблюдае-мый эффект не является случайностью. Коэффи-циент переменной является положительным, это значит, что с возрастом растет и вероятность по-падания в одну из более высоких категорий пере-менной «Статус состояния счета». Напротив, пе-ременная «Продолжительность кредита» мало что добавляет в нашу модель.
У переменной «Количество взятых в банке кре-дитов» есть две категории, которые несуществен-но значимы. Такую переменную целесообразно оставить в модели, поскольку незначительные эф-фекты каждой из категорий складываются и могут дать полезную информацию для анализа модели. Интересно отметить, что у тех клиентов, которые взяли один кредит в банке, вероятность попасть в нижние категории результирующей перемен-ной выше, чем у клиентов с большим числом кре-дитов. Однако у клиентов, которые взяли два или три кредита в банке, вероятность попасть в ниж-ние категории результирующей переменной меньше, чем у клиентов с четырьмя кредитами. В то же время переменная «Тип жилья», по-ви ди-мо му, не вносит сколько-нибудь значимого вклада
в модель и может быть исключена без всякого ущерба для нашего анализа.
Каждой категории результирующей перемен-ной и каждой категории предиктора соответству-ет оценка параметра регрессии. При этом оценки для самых высоких категорий являются дублиру-ющими и приравнены к нулю. Оценки параметров регрессии для зависимой переменной являются пороговыми оценками, а для факторов — оценка-ми положения. На основе оценок параметров можно вычислить кумулятивные вероятности для категорий зависимой переменной.
Предположим, у нас есть заемщик, который хо-чет взять кредит на 48 месяцев («Продолжитель-ность»), ему 22 года («Возраст»), есть один взятый в банке кредит («Количество»), у него нет долгов по другим выплатам («Другие долги»), есть прива-тизированная квартира («Тип жилья»). Рассчитаем совокупные вероятности того, что он попадет в одну из пяти категорий зависимой переменной.
На первом шаге расчета мы должны умножить оценки положения (оценки предикторов), соот-ветствующие отдельным характеристикам заем-щика, на вышеуказанные значения конкретного наблюдения (табл. 12).
Теперь складываем и получаем:
0,015 22 – 0,002 48 – 1,134 + 0 + 0,132 = 0,33 – – 0,096 – 1,134 + 0 + 0,132 = –0,768.
Эту сумму нам теперь нужно отнять от порого-вой величины каждой из категорий зависимой переменной:
Груздев А.В.
Категория заемщика Оценка Конкретное значение
Возраст 0,015 22
Продолжительность –0,002 48
[количество = 1] –1,134 = –1,134
[другие долги = 3] 0 = 0
[тип жилья = 2] 0,132 = 0,132
Таблица 12. Параметры расчета
![Page 12: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/12.jpg)
УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 57
статус = 1: –3,549 – (–0,768) = –3,549 + 0,768 = –2,781;статус = 2: –2,720 – (–0,768) = –2,720 + 0,768 = –1,952;статус = 3: –0,137 – (–0,768) = –0,137 + 0,768 = 0,631;статус = 4: 0,199 – (–0,768) = 0,199 + 0,768 = 0,967.
Таким образом, этот заемщик получает спрог-нозированные значения –2,78, –1,95, 0,63 и 0,97. По значениям, часть из которых больше 1, мы видим, что это еще не накопленные вероятно-сти. Искомое нами значение накопленной веро-ятности соответствует связывающей функции сопряженного двойного логарифма, использо-ванной в нашем исследовании. Таким образом, для вычисляемой вероятности справедлива формула ln(–ln(1 – )). Используя ее, получаем значения накопленных вероятностей 0,06,
0,13, 0,85, 0,93 и, конечно, 1,0 для последней ка-тегории.
Категория 1 получает вероятность 0,06, кате-гория 2 — 0,07 (0,13 – 0,06), категория 3 — 0,72 (0,85 – 0,13), категория 4 — 0,08 (0,93 – 0,85) и кате-гория 5 — 0,07 (1,0 – 0,93). Очевидно, что наш кли-ент, вероятнее всего (0,72), попадет в категорию 3 («Просрочка от 1 до 29 дней»), однако вряд ли его кредит будет признан безнадежным (рис. 2).
ВЫВОДЫ
Метод порядковой регрессии позволяет нам строить модели, когда есть зависимая номинальная
МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ
Рис. 2. Прогноз
![Page 13: Порядковая регрессия в банковском скоринге](https://reader031.fdocuments.net/reader031/viewer/2022031718/548b996ab47959a23d8b475f/html5/thumbnails/13.jpg)
58 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013
или порядковая переменная с несколькими (больше двух) категориями. В нашем примере мы спрогнози-ровали вероятность дефолта для заемщиков с раз-личными сроками просрочки. Можно использовать ее как дополнение к логистической регрессии, ког-да, работая с вероятностями дефолта, мы выделяем
«серую зону». Отметим, что ключевыми момента-ми в построении модели порядковой регрессии являются определение порядка категорий, анализ распределения значений зависимой переменной и выбор связывающей функции, наиболее подхо-дящей для данного типа распределения.
Груздев А.В.