Post on 27-Jul-2020
Big Data решения на основе общедоступных данных
Декабрь 2015 Гинжук Максим, CEO
Компания Double Data
Сбор данных из соц сетей по 2 млрд. аккаунтам и обновление раз в месяц
1
Технология поиска в социальных сетях находит 60% россиян с 99.8% точностью за 50 мс
2
Клиенты – более 50% топ-50 Банков 3
3 года непрерывных инвестиций в качество технологий поиска, машинного обучения и тесты на миллионных выборках
Соответствие законодательству РФ (ФЗ-152, ФЗ-149): используются только общедоступные данные, которые можно обрабатывать без согласия субъекта
Источники данных:
Партнеры – крупнейшие БКИ в РФ 4
First name: Илья Last name: Кузнецов Birth Date: 1983.8.26 City: Магнитогорск 99.8%
Социальные сети используют 60+% россиян 18+ во всех регионах страны*
* Чеченская респ.: 32% Карачаево-Черкесская респ.: 34%
* Москва: 65% Санкт-Петербург: 66%
* По результатам совместного исследования НБКИ и Double Data: https://www.vedomosti.ru/finance/blogs/2015/10/02/611222-sotsseti-uslugu-bankam-kreditoram и http://www.nbki.ru/company/news/?id=11730
Использование социальных сетей в зависимости от ….
59%
62% 63%
64% 65%
67%
54%
56%
58%
60%
62%
64%
66%
68%
Менее 20 тыс
20 - 100 тыс
100 - 500 тыс
500 тыс - 1 млн
Более 1 млн
Москва и СПб
Типа населённого пункта 80%
75%
61%
46%
32%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
18-24 года 25-34 года 35-44 года 45-54 года 55-64 года
Возраста заёмщика
0%
10%
20%
30%
40%
50%
60%
70%
80%
18-24 года 25-34 года 35-44 года 45-54 года 55-64 года
Вконтакте Одноклассники Мой Мир Facebook
Соц. сети и возраста
53% 60% 59%
63% 68%
58% 62% 57% 60%
67%
00%
10%
20%
30%
40%
50%
60%
70%
80%
Хорошие заемщики
Плохие заемщики
Банковского продукта и наличия просрочки
Social attributes – данные для скоринга
Social attributes – данные для скоринга
Группа переменных Описание Gini
Основные анкетные данные Места учебы, работы, мировоззрение, отношение к алкоголю, курению, etc. 5 - 8 %
Статистическая информация Дата регистрации, частота входов, количество друзей, подписок, фотографий, постов, etc. 18 - 24 %
Настройки приватности Возможность просматривать данные из аккаунта, читать и оставлять сообщения на стене, etc. 8 - 12 %
Мобильные платформы Информация о том, как часто и с каких мобильных платформ владелец заходит в аккаунт 9 - 10 %
Профиль интересов Сводная информация о тематиках групп или пабликов, на которые подписан владелец аккаунта 7 - 11 %
Переменные по окружению Статистические показатели, рассчитанные по списку аккаунтов-друзей рассматриваемого аккаунта 14 - 16 %
Основные группы переменных Social Attributes
Результаты Сбербанка тестирования Social Attributes
Результаты поиска:
200 интерпретируемых переменных из соц. сетей
Сбербанк с Double Data
Hit rate 54.5%
Ошибка поиска (найден не тот аккаунт)
0.1%
Результаты включения в риск модели:
Fraud default model
Social default model
Stand alone модель на данных из соц сетей
50.0% 42.3%
Прирост Gini скор модели Сбербанка
+ 7.5% (с 56.5 до 64
Gini)
+ 1.9% (с 57.6 до 59.5
Gini)
Выявление внутреннего организованного мошенничества и коррупции
Выявление внутреннего организованного мошенничества и коррупции
Открытые данные по злостным неплательщикам алиментов в розыске по уголовным статьям
40% преступников в розыске можно найти в социальных сетях. Пример 1
Данные для поиска с сайта ФССП России:
Результат поиска информации
40% преступников в розыске можно найти в социальных сетях. Пример 1
Данные для поиска с сайта ФССП России:
Результат поиска информации
40% преступников в розыске можно найти в социальных сетях. Пример 2
40% преступников в розыске можно найти в социальных сетях. Пример 2
40% преступников в розыске можно найти в социальных сетях. Пример 2
Возможности применения открытых данных и Big Data технологий огромны как в коммерческом секторе, так и в гос структурах и компаниях
Банки Страховые Ритейл E-commerce
GINZHUK MAXIM, FOUNDER & CEO MOB. TEL: +7 (916) 770 01 68
E-MAIL: MGINZHUK@DOUBLEDATA.RU
www.doubledata.ru
18