54
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Логика анализа пропущенных значений
Основные методы анализа пропущенных значений
Целиком
Попарно
Четыре метода анализа
пропущенных значений:
целиком, попарно, метод
максимизации ожидания
и метод регрессии.
55
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Максимизация ожидания
Θ Θ
Θ ΘΘ Θ =
Θ Θ
Θ ΘΘ Θ = µ∫
56
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
+
ΘΘ = Θ Θ
Θ
Регрессия
57
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Требования к пропущенным значениям переменных
Предположения
Обычно при работе
со статистическими
пакетами выделяют два
типа пропущенных зна-
чений: системно пропу-
щенные и пропущенные
пользователем (пользо-
вательские).
58
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Описание данных для примера
59
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Базовый анализ пропущенных значений
Рисунок 1
Настроенное диалоговое окно «Анализ пропущенных значений»
1 Электронное приложение можно скачать на официальном сайте ООО «Регламент-Медиа». Для того чтобы загрузить при-ложение, нужно зайти по адресу http://www.reglament.net/bank/r/2014_2.htm (паролем для скачивания является комби-нация цифр 0834910).
ð
ð
ð
60
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Рисунок 2
Настроенное диалоговое окно «Описательные»
ð
ð
ð
ð
ð
ð
ð
Результаты базового анализа пропущенных значений
61
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Таблица 1
Одномерные статистики
Таблица t-критериев
с раздельными диспер-
сиями помогает опреде-
лить переменные,
у которых структуры
пропущенных значений
могут влиять на интере-
сующие нас количе-
ственные переменные.
1 Таблицы 3–6 находятся в электронном приложении.
62
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Таблица 2
Таблица t-критериев с раздельными дисперсиями
Примечание: для каждой количественной переменной пары в группах формируются по индикаторным переменным (при-
сутствующие, пропущенные). Индикаторные переменные с менее чем 5% пропущенных значений не выводятся.
63
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
64
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Таблица 7
Процентное несовпадение индикаторных переменных
Примечание: диагональные элементы — это проценты пропущенных, а недиагональные
элементы — несоответствующие проценты индикаторных переменных. Переменные отсор-
тированы по образцу пропущенных. Индикаторные переменные с менее чем 5% пропущен-
ных значений не выводятся.
65
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
×
×
Анализ структур пропущенных значений
ð
ð
ð
ð
ð
66
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Результаты анализа структур
ð
ð
Рисунок 3
Настроенное диалоговое окно «Структуры»
67
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Таблица 8
Табулированные образцы
Примечания:
Образцы с менее чем 1% наблюдений (10 или меньше) не выводятся.
* Переменные отсортированы по образцу пропущенных.
** Число полных наблюдений, если переменные, пропущенные в данной структуре (помеченные буквой X), не исполь-
зуются.
*** Среднее по каждому конкретному образцу.
**** Распределение частот для каждого конкретного образца.
68
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
ð
ð
ð
ð
Рисунок 4
Диалоговое окно «Анализ пропущенных значений»: выбор пункта «Максимизация ожидания»
69
www.reglament.net
MCAR-тест Литтла \ кредитоспособность клиентов \ EM-алгоритм
Анализ пропущенных значений для обработки данных о заемщиках
Таблица 9
MCAR-тест Литтла (ОМП-средние)
Примечание: хи-квадрат = 179,836, ст.св. = 107, знач. = ,000.
70
Риск-менеджмент в кредитной организации № 2 (14) \ 2014
Анализ и оценка
Top Related