Порядковая регрессия в банковском скоринге

46 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

Посвящается Олесе Дмитриевне Фоменок

Метод порядковой регрессии позволяет нам строить модели, делать прогнозы и оценивать важность различных предикторов (независимых переменных) в тех ситуациях, когда зависимая (целевая, результирующая) переменная является порядковой. Независимые переменные должны быть категориальными, т.е. иметь номинальную или порядковую шкалу, при этом в качестве кова-риат допускается применение переменных с ин-тервальной шкалой.

КАТЕГОРИИ ПОРЯДКОВЫХ ЗАВИСИМЫХ

ПЕРЕМЕННЫХ И ЛИНЕЙНАЯ РЕГРЕССИЯ

Когда мы пытаемся спрогнозировать катего-рии порядковой зависимой переменной, модели обычной линейной регрессии не могут быть реа-лизованы в полной мере. Эти методы могут рабо-тать лишь на основе предположения о том, что за-висимая переменная измеряется на интервальной шкале. Упрощенные предположения, на которых

Груздев Артем Владимирович — директор исследо-

вательской компании «Гевисста» (г. Москва)

РИСКИ И ТЕХНОЛОГИИ

КЛЮЧЕВЫЕ СЛОВА: порядковая регрессия, накопленная вероятность, компонент положения, компонент масштаба, связывающая функция, дефолт, прогноз

В данной статье рассматривается модель порядковой регрессии для оценки кре-

дитоспособности. Данная модель напоминает модель логистической регрессии.

Отличие порядковой регрессии от логистической в том, что зависимая пере-

менная в рассматриваемой модели является порядковой. Это позволяет сделать

прогноз дефолта сразу по нескольким выделенным категориям зависимой пере-

менной, упорядочить аппликантов по степени нарастания или убывания кредит-

ного риска.

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ

В КРЕДИТНОМ СКОРИНГЕ

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 47

строится линейная регрессия, не выполняются, поскольку связи между переменными в наших данных могут искажаться. Особенно линейная регрессия чувствительна к способу, которым мы определяем категории целевой переменной.

В случае с порядковой переменной самое важ-ное — это порядок категорий. Так, если мы объе-диним две соседние категории в одну более круп-ную, то внесем лишь небольшое изменение, и мо-дели, построенные на основе старой и новой ка-тегоризации, наверное, будут очень схожи. К со-жалению, из-за того что линейная регрессия чув-ствительна к категоризации, модель, построен-ная до объединения категорий, может полностью отличаться от той, которая будет построена после объединения.

ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МОДЕЛИ

Альтернативный подход использует обобще-ние линейной регрессии (обобщенную линейную модель), чтобы спрогнозировать накопленные ве-роятности для категорий. С помощью этого ме-тода мы строим отдельное уравнение для каждой категории порядковой зависимой переменной. Каждое уравнение дает спрогнозированную ве-роятность для соответствующей категории или любой категории более низкого порядка (табл. 1).

Проанализируем распределение, приведен-ное в табл. 1. Прогнозы строятся только на сово-купных вероятностях для каждой категории.

Спрогнозированная накопленная вероятность для первой категории равна 0,80. Прогноз для второй категории: 0,80 + 0,07 = 0,87; прогноз для третьей категории: 0,80 + 0,07 + 0,07 = 0,94 и т.д. Прогноз для последней категории всегда равен 1,0, поэтому уравнение для последней категории не требуется.

Обобщенные линейные модели — это доста-точно большой класс моделей, который может использоваться для ответов на широкий круг во-просов в статистике. Обобщенная линейная мо-дель описывается уравнением:

где link() — связывающая функция;ij — накопленная вероятность j-той категории за-висимой переменной для i-го наблюдения;j — пороговая оценка (оценка параметров ре-грессии) для j-той категории зависимой перемен-ной;p — число регрессионных коэффициентов;xi1, …, xij — значения предикторов (независимых переменных) для i-го наблюдения;1, …, p — регрессионные коэффициенты.

Здесь необходимо отметить несколько важных моментов. В основе модели лежит идея о том, что есть некая скрытая непрерывная зависимая пере-менная, а порядковая зависимая переменная яв-ляется результатом дискретизации рассматривае-мого континуума на упорядоченные группы (кате-гории). Конечные значения, по которым задаются категории, оцениваются с помощью пороговых

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Категория Вероятность принадлежности к категории Накопленная вероятность

Оплата без просрочек 0,80 0,80

Просрочка от 1 до 29 дней 0,07 0,87



Безнадежный кредит 0,01 1,00

Таблица 1. Гипотетическое распределение категорий порядковой переменной


оценок (оценок параметров регрессии). В ряде случаев эта идея — хорошее обоснование для того, чтобы принять данное распределение кате-горий. Однако даже в тех случаях, когда речь не идет о скрытой переменной, модель может все так же хорошо работать и выдавать достоверные результаты.

Теперь более детально рассмотрим наше уравнение. Пороговые оценки или константы в модели, соответствующие свободному члену в моделях линейной регрессии, зависят только от того, вероятность какой категории предсказы-вается. Значения предикторов (независимых пе-ременных) не влияют на эту (левую) часть модели:

Прогнозная (правая) часть уравнения зависит лишь от предикторов и не зависит от категории зависимой переменной. Эти два свойства пред-полагают, что результаты должны представлять собой набор параллельных линий или находить-ся в одной плоскости для каждой категории зави-симой переменной:

Модель прогнозирует накопленные вероятно-сти и функцию для этих значений. Данная функ-ция называется связывающей. Она связывает слу-чайный компонент в левой части уравнения с си-стематическим компонентом в правой части.

При построении модели мы должны выбрать тот или иной вид связывающей функции. С помощью подбора этих функций можно улучшить результа-ты прогнозирования.

Резюмируя, отметим, что модель порядковой регрессии содержит три важных компонента.

1. Положение (Location component). Та часть уравнения, которая включает коэффициенты и пре-дикторы, называется положением модели. Это пер-вооснова модели, она использует значения пре-дикторов, чтобы вычислить спрогнозированные вероятности категорий для каждого наблюдения.

2. Масштаб (Scale component). Масштаб мо-дели — это необязательная модификация базо-вой модели, принимающая во внимание различия в вариабельности значений предикторов. Напри-мер, если мужчины демонстрируют более выра-женную вариабельность значений кредитного статуса, чем женщины, то использование масшта-ба для учета этого эффекта может улучшить нашу модель. Модель, включающая компонент масшта-ба, имеет уравнение:

где zi1, …, zim — предикторы компонента масштаба;1, …, m — коэффициенты компонента масштаба.

3. Связывающая функция. Связывающая функция — это преобразование накопленных ве-роятностей, которое позволяет провести оценку модели. В процедуре порядковой регрессии до-ступно пять связывающих функций (табл. 2).

Груздев А.В.

Функция Форма Применение

Логит ln( / (1 − )) Равномерно распределенные категории

Сопряженный двойной логарифм ln(−ln(1 − )) Более вероятны высшие категории

Отрицательный двойной логарифм –ln(–ln()) Более вероятны низшие категории

Пробит – 1() Нормально распределенные частоты

Коши tan(( – 0,5)) Результирующая переменная со множеством пиковых значений

Таблица 2. Связывающие функции


Управление рисков банка хочет определить, является ли аппликант надежным заемщиком, ис-ходя из его социально-демографических и фи-нансовых характеристик. В качестве зависимой переменной рассматривается «Статус состояния счета». Она включает пять категорий: «Нет кре-дитной истории», «Оплата без просрочек», «Про-срочка от 1 до 29 дней», «Просрочка от 30 до 119 дней» и «Безнадежный кредит». Предикторы — финансовые и социально-демографические ха-рактеристики аппликантов, такие как возраст за-емщика, число кредитов, взятых в банке, и т.п. Применим порядковую регрессию, чтобы постро-ить модель скоринга аппликантов.

При построении первоначальной модели по-рядковой регрессии нужно принять несколько важных решений. Во-первых, мы, конечно, долж-ны определить порядковую результирующую пе-ременную, а затем решить, какие предикторы за-дать для компонента положения. Потом необхо-димо определиться, использовать или нет в мо-дели компонент масштаба и если да, то какие предикторы применять. Наконец, нужно решить, какая связывающая функция лучше всего соот-ветствует структуре наших данных.

В большинстве случаев еще до начала постро-ения модели у нас уже есть заранее определен-ная целевая переменная. Причина, по которой мы используем модель порядковой регрессии, в том, что мы хотим спрогнозировать результат, измеренный в порядковой шкале. В нашем слу-чае это переменная «Статус состояния счета» с ее пятью категориями. Заметим, что предлагаемый здесь порядок расположения категорий вовсе не обязательно должен быть наилучшим из возмож-ных. Можно легко доказать, что клиент, уже взяв-ший кредит и не имеющий просрочек, имеет луч-ший рейтинг, чем тот, у которого кредитная исто-рия неизвестна.

Процесс отбора предикторов в компонент по-ложения схож с отбором предикторов в модель линейной регрессии. При определении количе-ства отбираемых переменных необходимо руко-водствоваться теоретическими и практическими

соображениями. В идеале модель должна вклю-чать все важные предикторы, и только, но на практике мы часто не знаем точно, какие преди-кторы являются существенными, до того момента, пока не построим модель. В этом случае лучшим решением обычно бывает включение всех преди-кторов, наиболее важных на наш взгляд. Если об-наружится, что некоторые из них, по-видимому, бесполезны для построения модели, то мы ис-ключим их из анализа и построим модель заново.

В нашем примере исходя из предварительно-го анализа были определены пять возможных предикторов: возраст заемщика, продолжитель-ность кредита, количество взятых в банке креди-тов, долги по другим платежам и тип жилья. Мы включим эти независимые переменные в перво-начальный анализ и затем оценим важность каж-дой переменной. Число взятых в банке кредитов, долги по другим платежам и тип жилья являются категориальными переменными, включенными в модель в качестве факторов. Возраст заемщика и продолжительность кредита — непрерывные переменные, включенные в модель в качестве ко-вариат.

Теперь нужно решить, вводить ли вообще в модель компонент масштаба. В большинстве случаев он не нужен, и модель с заданным компо-нентом положения обеспечивает хорошее обоб-щение данных. Обычно лучше начинать анализ с построения модели с заданным компонентом положения и включать компонент масштаба, если есть доказательства того, что модель с компонен-том положения неадекватна нашим данным. При-держиваясь данного подхода, вы можете начать анализ с построения модели по заранее опреде-ленному компоненту положения и после оценки модели решить, будет ли обоснованным включе-ние в модель компонента шкалы.

Наконец, выберем связывающую функцию. Для этого нужно рассмотреть распределение зна-чений результирующей переменной. На рис. 1 мы видим распределение категорий переменной «Статус состояния счета». Большая часть наблю-дений относится к категориям 3 («Просрочка от 1



до 29 дней»), 5 («Безнадежный кредит») и 4 («Про-срочка от 30 до 119 дней»). По этой причине мы используем функцию сопряженного двойного ло-гарифма. Она применяется, когда высшие катего-рии результирующей переменной представлены сильнее. Вместе с тем большое число наблюде-ний в крайней категории 5 («Безнадежный кре-дит») указывает на то, что в качестве альтернатив-ной связывающей функции вполне обоснованно может быть применена функция Коши.

Прежде чем мы рассмотрим предикторы, включенные в модель, выясним, может ли модель

выдавать адекватные прогнозы. Чтобы ответить на этот вопрос, нужно изучить табл. 3.

В качестве оценки значимости влияния от-дельных предикторов для улучшения прогнозов, получаемых с помощью модели, служит отрица-тельное значение 2LL («Удвоенное значение лога-рифма функции правдоподобия»).

Разность между начальной моделью («Только константа») и итоговой моделью («Полная») ука-зывается в виде значения теста хи-квадрат, с ко-торым соотнесен соответствующий уровень зна-чимости. В приведенном примере наблюдается


Рис. 1. Распределение категорий переменной «Статус состояния счета»


статистически значимое улучшение (р < 0,001). Это хороший признак.

Табл. 4 содержит тест хи-квадрат Пирсона. Эта статистика предназначена для того, чтобы прове-рить, противоречит ли наша модель наблюдае-мым данным (будут ли наблюдаемые частоты по ячейкам значимо отличаться от ожидаемых ча-стот, рассчитанных на основе модели).

Большие значения уровня статистической зна-чимости позволяют нам сделать вывод, что на-блюдаемые и спрогнозированные моделью зна-чения совпадают и мы построили хорошую мо-дель. В нашем примере результат теста — стати-стическая значимая разность значений (p = 0,000), что говорит о низкой степени приближения.

Статистика хи-квадрат может использоваться для анализа моделей с небольшим числом катего-риальных предикторов. Однако, к сожалению, она чувствительна к пустым ячейкам. Когда оценива-ется модель с непрерывными ковариатами, часто появляется большое количество пустых ячеек, как в нашем примере, поэтому мы не можем доверять этой статистике, когда речь идет о такой модели. Из-за пустых ячеек мы не уверены, что данный по-казатель реально отражает распределение хи-квадрат, а уровни значимости вычислены точно.

В модели линейной регрессии коэффициент детерминации R2 (или R-квадрат) показывает долю дисперсии зависимой переменной (призна-ка), объясняемую влиянием независимых пере-менных (предикторов). Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость зависимой переменной от изменчивости предикторов. На-оборот, значение R-квадрата, близкое к нулю, оз-начает, что колебания зависимой переменной не обусловлены колебаниями предикторов.

В регрессионных моделях с категориальной зависимой переменной невозможно вычислить статистику R2 в ее классическом виде, поэтому вместо этого вычисляются ее аппроксимации (табл. 5).

Речь идет о трех выведенных показателях: R-квадрат Кокса и Снелла, Найджелкерка и Мак-Фаддена. Это приближения значения R-квадрата, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной. С их помощью полезно сравнивать модели, по-строенные на одних и тех же данных. Модель с са-мым высоким значением R-квадрата признается лучшей. В нашем случае значения коэффициентов являются приемлемыми, хоть и не в достаточной


Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость

Только константа 2249,888 — — —

Полная 1896,552 353,336 9 0,000

Таблица 3. Информация о приближении модели

Примечание: связывающая функция — сопряженный двойной логарифм.

Статистика качества модели Хи-квадрат Степени свободы Значимость

Пирсон 4688,724 3131 0,000

Отклонение 1796,915 3131 1,000

Таблица 4. Критерий согласия



мере. Вероятно, нужно пересмотреть модель, что-бы попытаться улучшить ее прогностическую спо-собность.

Следующим шагом в оценке нашей модели станет проверка прогнозов. Вспомним, что мо-дель базируется на спрогнозированных кумуля-тивных (накопленных) вероятностях. Главный во-прос: насколько часто модель выдает правильно спрогнозированную категорию, основываясь на значениях переменных-предикторов? Чтобы уви-деть, насколько хорошо работает модель, мы мо-жем построить классификационную таблицу,

называемую также слиянием матриц, путем кросс-табулирования спрогнозированных и наблюдае-мых категорий. Можно построить классификаци-онную таблицу, используя сохраненные спрогно-зированные категории (табл. 6).

Модель заслуживает внимания с точки зрения прогнозирования результирующих категорий, по крайней мере наиболее часто встречаемых — 3 («Просрочка от 1 до 29 дней») и 5 («Безнадежный кредит»). Модель корректно классифицировала 90,6% наблюдений, относящихся к категории 3, и 75,1% наблюдений, относящихся к категории 5.


Статус состояния счетаПредсказанная категория

ВсегоПросрочка от 1 до 29 дней Безнадежный кредит

Нет кредитной истории

Частота 14 26 40

Процент в статусе состояния счета 35,0 65,0 100,0

Оплата без просрочек



Просрочка от 1 до 29 дней

Частота 480 50 530





Безнадежный кредит

Частота 73 220 293


ВсегоЧастота 639 361 1000


Таблица 6. Статус состояния счета и предсказанная категория

Показатель Значение

Кокса и Снелла 0,298

Найджелкерка 0,328

Мак-Фаддена 0,149

Таблица 5. Псевдо-R-квадрат



Кроме того, наблюдения в категории 2 с большей вероятностью будут отнесены к категории 3, чем к категории 5.

В то же время наблюдения, относящиеся к ка-тегории 1 («Нет кредитной истории»), предсказа-ны плохо. Большинство наблюдений были отнесе-ны к категории 5 («Безнадежный кредит»), кото-рая теоретически наименее всего должна быть похожа на категорию 1. Это может указывать на проблему в порядковой шкале результирующей переменной. Мы не будем здесь рассматривать ее, но в обычной ситуации нужно попытаться от-ветить на вопрос, можно ли улучшить порядко-вую шкалу путем упорядочения, слияния или ис-ключения конкретных категорий.

Тест параллельных линий (табл. 7) позволяет нам судить об адекватности модели. Нулевая ги-потеза гласит, что соответствующие регрессион-ные коэффициенты одинаковы для всех катего-рий результирующей переменной. Альтернатив-ная гипотеза утверждает, что соответствующие регрессионные коэффициенты различны для всех категорий результирующей переменной. Тест сравнивает оцениваемую модель, которая вклю-чает единый набор коэффициентов для всех кате-горий, с моделью, содержащей отдельный набор коэффициентов для каждой категории.

Значение хи-квадрат (2 = 307,938, p = 0,000) указывает на то, что общая модель с разными ре-грессионными коэффициентами для каждой кате-гории отклика дает статистически значимое улуч-шение приближения. Нулевая гипотеза может быть отвергнута. Данный результат обусловлен

несколькими факторами, включая применение некорректной связывающей функции или ис-пользование ошибочной модели. Также возмож-но, что плохое качество подгонки вызвано вы-бранным порядком категорий зависимой пере-менной. Упорядочивание, в ходе которого катего-рия «Нет кредитной истории» будет соответство-вать большему кредитному риску, может дать лучшее приближение.

Нередко бывает затруднительно выбрать свя-зывающую функцию, наиболее подходящую для данных. В тех случаях, когда исходная модель ра-ботает плохо, обычно стоит попробовать приме-нить альтернативные связывающие функции, что-бы посмотреть, возможно ли построить более адекватную модель, использовав другую функ-цию. Хотя некоторые функции в большинстве слу-чаев работают так же (особенно логит, сопряжен-ный двойной логарифм, отрицательный двойной логарифм), есть ситуации, когда выбор функции может улучшить модель или, наоборот, ухудшить ее качество.

В нашем примере есть по крайней мере две связывающие функции (сопряженный двойной логарифм и Коши), которые могут быть примене-ны. Несмотря на то что модель достаточно хоро-шо работает с функцией сопряженного двойного логарифма, возможно, мы улучшим модель, ис-пользуя функцию Коши. Мы можем оценить но-вую модель, используя функцию Коши, чтобы по-смотреть, привела ли смена связывающей функ-ции к улучшению предсказательной способности модели (табл. 8). Рекомендуется сохранять один



Нулевая гипотеза 1896,552 — — —

Общая 1588,614* 307,938** 27 0,000

Таблица 7. Тест параллельных линий

* Значение логарифма правдоподобия не может быть далее увеличено после максимального числа делений шага пополам.

** Статистика хи-квадрат вычислена на основании значения логарифма правдоподобия последней итерации общей модели. Валидность проверки сомнительна.

Примечание: нулевая гипотеза состоит в том, что параметры положения (коэффициенты наклона) одинаковы по всем категориям. Связывающая функция — сопряженный двойной

логарифм.


и тот же набор переменных-предикторов, вклю-ченных в модель, до завершения оценивания функций. Если мы одновременно сменим связы-вающую функцию и набор предикторов, то не уз-наем, чем именно вызвано изменение в качестве модели.

Сравните полученный результат с табл. 3. Уро-вень значимости для статистики хи-квадрат мень-ше 0,05 указывает на то, что модель, построенная с помощью функции Коши, лучше, чем простое угадывание. Значение хи-квадрат в случае ис-пользования функции Коши (459,860) выше, чем значение хи-квадрат при использовании сопря-женного двойного логарифма (353,336). Это озна-чает, что в нашем примере функция Коши работа-ет лучше. Значения статистик псевдо-R-квад рат (табл. 9) также выше в случае применения функ-ции Коши, чем при использовании функции со-пряженного двойного логарифма (сравните с табл. 5). Это также говорит о том, что с нашими данными функция Коши работает лучше.

Рассмотрим статус состояния счета (табл. 10). Похоже, что модель, построенная с использова-нием функции Коши, лишь немного лучше, чем предыдущая, предсказывает нижние категории

(1, 2 и 3) и немного хуже — более высокие катего-рии. Поскольку самой важной задачей кредитно-го скоринга является корректная идентификация тех заемщиков, которые, вероятно, попадут в ка-тегорию «Безнадежный кредит» (категорию 5), то мы должны придерживаться модели, построен-ной с использованием функции сопряженного двойного логарифма, несмотря на то что качество приближения говорит в пользу модели Коши.

В таблице оценки параметров (табл. 11) приво-дятся данные о влиянии каждого предиктора на модель. Поскольку интерпретация коэффициен-тов в этой модели затруднительна из-за свойств связывающей функции, то знаки коэффициентов для ковариат и относительные значения коэффи-циентов для уровней факторов могут дать нам важную информацию об эффектах влияния пре-дикторов в модели.

Для ковариат положительные (отрицатель-ные) коэффициенты показывают положительные (обратные) связи между предикторами и резуль-тирующей категорией. Увеличивающееся значе-ние ковариаты с положительным коэффициентом соответствует увеличивающейся вероятности ее отнесения к одной из более высоких категорий



Только константа 2249,888 — — —

Полная 1790,028 459,860 9 0,000

Таблица 8. Информация о приближении модели

Примечание: связывающая функция — Коши.

Показатель Значение

Кокса и Снелла 0,369

Найджелкерка 0,407

Мак-Фаддена 0,194

Таблица 9. Псевдо-R-квадрат




Статус состояния счета Предсказанная категория

ВсегоПросрочка от 1 до 29 дней Безнадежный кредит

Нет кредитной истории



Оплата без про-срочек




Частота 482 48 530





Безнадежный кредит

Частота 80 213 293


ВсегоЧастота 656 344 1000


Таблица 10. Статус состояния счета и предсказанная категория

Параметры ОценкаСтандарт-

ная ошибкаСтатисти-ка Вальда

Степени свободы

Значи-мость

95%-ный доверительный интервал

Нижняя граница Верхняя граница

Пор

ог

[статус = 1] –3,549 0,667 28,323 1 0,000 –4,856 –2,242

[статус = 2] –2,720 0,656 17,167 1 0,000 –4,006 –1,433

[статус = 3] –0,137 0,649 0,044 1 0,833 –1,408 1,135

[статус = 4] 0,199 0,649 0,094 1 0,759 –1,072 1,471

Пол

ожен

ие

Возраст 0,015 0,004 15,128 1 0,000 0,007 0,023

Продолжительность –0,002 0,003 0,379 1 0,538 –0,009 0,005

[количество = 1] –1,134 0,594 3,645 1 0,056 –2,298 0,030

[количество = 2] 0,367 0,598 0,376 1 0,540 –0,805 1,538

[количество = 3] 0,981 0,711 1,902 1 0,168 –0,413 2,374

[количество = 4] 0* — — 0 — — —

[другие долги = 1] –0,397 0,118 11,389 1 0,001 –0,627 –0,166

[другие долги = 2] –0,469 0,193 5,913 1 0,015 –0,848 –0,091

[другие долги = 3 ] 0* — — 0 — — —

[тип жилья = 1] –0,082 0,165 0,249 1 0,617 –0,406 0,241

[тип жилья = 2] 0,132 0,139 0,897 1 0,344 –0,141 0,404

[тип жилья = 3] 0* — — 0 — — —

Таблица 11. Оценки параметров регрессии

* Этот параметр приравнен к нулю, т.к. является дублирующим.



результирующей переменной. Уровень фактора с большим коэффициентом указывает на большую вероятность его отнесения к одной из высших ка-тегорий результирующей переменной. Знак коэф-фициента для уровня фактора зависит от характе-ра его влияния на референтную категорию.

Теперь сделаем выводы относительно некото-рых параметров. Значимость теста для перемен-ной «Возраст» (в годах) меньше 0,05, и наблюдае-мый эффект не является случайностью. Коэффи-циент переменной является положительным, это значит, что с возрастом растет и вероятность по-падания в одну из более высоких категорий пере-менной «Статус состояния счета». Напротив, пе-ременная «Продолжительность кредита» мало что добавляет в нашу модель.

У переменной «Количество взятых в банке кре-дитов» есть две категории, которые несуществен-но значимы. Такую переменную целесообразно оставить в модели, поскольку незначительные эф-фекты каждой из категорий складываются и могут дать полезную информацию для анализа модели. Интересно отметить, что у тех клиентов, которые взяли один кредит в банке, вероятность попасть в нижние категории результирующей перемен-ной выше, чем у клиентов с большим числом кре-дитов. Однако у клиентов, которые взяли два или три кредита в банке, вероятность попасть в ниж-ние категории результирующей переменной меньше, чем у клиентов с четырьмя кредитами. В то же время переменная «Тип жилья», по-ви ди-мо му, не вносит сколько-нибудь значимого вклада

в модель и может быть исключена без всякого ущерба для нашего анализа.

Каждой категории результирующей перемен-ной и каждой категории предиктора соответству-ет оценка параметра регрессии. При этом оценки для самых высоких категорий являются дублиру-ющими и приравнены к нулю. Оценки параметров регрессии для зависимой переменной являются пороговыми оценками, а для факторов — оценка-ми положения. На основе оценок параметров можно вычислить кумулятивные вероятности для категорий зависимой переменной.

Предположим, у нас есть заемщик, который хо-чет взять кредит на 48 месяцев («Продолжитель-ность»), ему 22 года («Возраст»), есть один взятый в банке кредит («Количество»), у него нет долгов по другим выплатам («Другие долги»), есть прива-тизированная квартира («Тип жилья»). Рассчитаем совокупные вероятности того, что он попадет в одну из пяти категорий зависимой переменной.

На первом шаге расчета мы должны умножить оценки положения (оценки предикторов), соот-ветствующие отдельным характеристикам заем-щика, на вышеуказанные значения конкретного наблюдения (табл. 12).

Теперь складываем и получаем:

0,015 22 – 0,002 48 – 1,134 + 0 + 0,132 = 0,33 – – 0,096 – 1,134 + 0 + 0,132 = –0,768.

Эту сумму нам теперь нужно отнять от порого-вой величины каждой из категорий зависимой переменной:


Категория заемщика Оценка Конкретное значение

Возраст 0,015 22

Продолжительность –0,002 48

[количество = 1] –1,134 = –1,134

[другие долги = 3] 0 = 0

[тип жилья = 2] 0,132 = 0,132

Таблица 12. Параметры расчета


статус = 1: –3,549 – (–0,768) = –3,549 + 0,768 = –2,781;статус = 2: –2,720 – (–0,768) = –2,720 + 0,768 = –1,952;статус = 3: –0,137 – (–0,768) = –0,137 + 0,768 = 0,631;статус = 4: 0,199 – (–0,768) = 0,199 + 0,768 = 0,967.

Таким образом, этот заемщик получает спрог-нозированные значения –2,78, –1,95, 0,63 и 0,97. По значениям, часть из которых больше 1, мы видим, что это еще не накопленные вероятно-сти. Искомое нами значение накопленной веро-ятности соответствует связывающей функции сопряженного двойного логарифма, использо-ванной в нашем исследовании. Таким образом, для вычисляемой вероятности справедлива формула ln(–ln(1 – )). Используя ее, получаем значения накопленных вероятностей 0,06,

0,13, 0,85, 0,93 и, конечно, 1,0 для последней ка-тегории.

Категория 1 получает вероятность 0,06, кате-гория 2 — 0,07 (0,13 – 0,06), категория 3 — 0,72 (0,85 – 0,13), категория 4 — 0,08 (0,93 – 0,85) и кате-гория 5 — 0,07 (1,0 – 0,93). Очевидно, что наш кли-ент, вероятнее всего (0,72), попадет в категорию 3 («Просрочка от 1 до 29 дней»), однако вряд ли его кредит будет признан безнадежным (рис. 2).

ВЫВОДЫ

Метод порядковой регрессии позволяет нам строить модели, когда есть зависимая номинальная


Рис. 2. Прогноз


или порядковая переменная с несколькими (больше двух) категориями. В нашем примере мы спрогнози-ровали вероятность дефолта для заемщиков с раз-личными сроками просрочки. Можно использовать ее как дополнение к логистической регрессии, ког-да, работая с вероятностями дефолта, мы выделяем

«серую зону». Отметим, что ключевыми момента-ми в построении модели порядковой регрессии являются определение порядка категорий, анализ распределения значений зависимой переменной и выбор связывающей функции, наиболее подхо-дящей для данного типа распределения.


Порядковая регрессия в банковском скоринге

Data & Analytics

Transcript of Порядковая регрессия в банковском скоринге