15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files &...
Transcript of 15.10 - 15€¦ · SAP HANA SAS Embedded Process Hadoop RDBMS Nonrelational Click Stream PC Files &...
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
УНИФИКАЦИЯ ИТ
ИНФРАСТРУКТУРЫНОВЫЕ
ИСТОЧНИКИ
ДАННЫХ:
ЗАГРУЗКА,
ХРАНЕНИЕ,
ОБРАБОТКА
ИЗВЛЕЧЕНИЕ
НОВЫХ
ХАРАКТЕРИСТИК:
ИЗ ТЕКСТА,
ВЗАИМОСВЯЗЕЙ
ИНТЕРАКТИВНОЕ
ИССЛЕДОВАНИЕ
ДАННЫХ/ ПРОВЕРКА
КЕЙСОВАНАЛИТИЧЕСКОЕ
МОДЕЛИРОВАНИЕ/
ПРОТОТИПЫ
УСКОРЕНИЕ
РАБОТЫ BD
ЛАБОРАТОРИИ
И ТЕКУЩИХ
СИСТЕМ
ПОСТАНОВКА
ПРОТОТИПОВ
МОДЕЛЕЙ НА
РЕГЛАМЕНТ/
ТЕСТИРОВАНИЕ
МОНИТОРИНГ
ЭФФЕКТИВНОСТИ
SAS In-Memory Statistics
for Hadoop
Проверка кейсов в Big
Data лаборатории:
программный интерфейс
работы Data Scientist
15.10 - 15.40
Олег
Назаров,
SAS
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ПРОЦЕСС (STEP-BY-STEP)
DWH
External Data
ETL
(Extract, Transform, Load)
1
Текстовая
аналитика
2.2
SNA
2.1
Новых факторы
3
Отбор значимых
факторов
Экспертно-
аналитическая
сегментация
5
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
Построение
аналитических
моделей
6
Data Scientist Бизнес-аналитик
4
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)
Построение логистических
регрессий в разрезе текущих
сегментов
Оценка качества
полученных моделей
Добавление новых
факторов
Сегментация с учетом новых
факторов
Построение логистических
регрессий в разрезе новой сегментации
Сравнение исходных и
новых моделей в разрезе сегментов
Выявление значимых
новых факторов
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
КОНФИГУРАЦИЯ СИСТЕМЫ
Характеристики кластера
8 nodes (1 name_node, 7 worker_nodes), каждая из которых
имеет:
CPU speed: 16x2700 MHz (1x16)
RAM: 128 GB
Disk: 1.5 TB
Размер тестируемых таблицы
7 053 903 наблюдений
125 переменных
8,5 GB
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
7 053 903 наблюдений
36 переменных
3,5 GB
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)
Построение логистических
регрессий в разрезе текущих
сегментов
Оценка качества
полученных моделей
Добавление новых
факторов
Сегментация с учетом новых
факторов
Построение логистических
регрессий в разрезе новой сегментации
Сравнение исходных и
новых моделей в разрезе сегментов
Выявление значимых
новых факторов
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
WED BASED CLIENT
BLADE ENVIRONMENT
АРХИТЕКТУРА: MPP (SYMMETRIC) МОД
HadoopHDFS
IN-MEMORY STORE
SAS® LASR ANALYTIC SERVER
SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics
Not part of
IMSTAT
Can be separated
SAS
Server
Hadoop RDBMS Nonrelational Click Stream PC Files & more
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
WED BASED CLIENT
ASYMMETRIC DISTRIBUTED SOURCE
BLADE ENVIRONMENT
IN-MEMORY STORE
SAS® LASR ANALYTIC SERVER
SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics
Not part of
IMSTAT
Can be separated
HADOOP / TERADATA /GREENPLUM / DB2 / ORACLE / NETEZZA /
SAP HANA
SAS Embedded Process
Hadoop RDBMS Nonrelational Click Stream PC Files & more
АРХИТЕКТУРА: MPP (ASYMMETRIC) МОДПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
SAS
Server
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
SINGLE MACHINE
WED BASED CLIENT
АРХИТЕКТУРА: SINGLE MASCHINE МОДЕ
Hadoop RDBMS Nonrelational Click Stream PC Files & more
IN-MEMORY STORE
SAS® LASR ANALYTIC SERVER
Not part of VS or
VA
Can be separated
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual Statistics
SAS Server
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
БИЗНЕС-ПРОЦЕСС (STEP-BY-STEP)
Построение логистических
регрессий в разрезе текущих
сегментов
Оценка качества
полученных моделей
Добавление новых
факторов
Сегментация с учетом новых
факторов
Построение логистических
регрессий в разрезе новой сегментации
Сравнение исходных и
новых моделей в разрезе сегментов
Выявление значимых
новых факторов
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Функционал Размер выборкиHigh-Performance
среда
Классическая
вычислительная
среда
Прирост
производительности (во сколько раз)
Сводные статистики в разрезе сегментов +
сила взаимосвязи
203 переменных28 772 540 наблюдений
3 сек 7 мин 29 сек ~397
Кластеризация10 переменных
28 772 540 наблюдений23 сек 47 мин 37 сек ~124
Слияние 2-х таблиц203 переменных
3 000 000 наблюдений3 сек 19 мин 52 сек ~79
Корреляционная матрица
30 переменных28 772 540 наблюдений
5 сек 6 мин ~72
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ
КРУПНЕЙШИХ БАНКОВ
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Функционал Размер выборкиHigh-Performance
среда
Прежняя
вычислительная
среда
Прирост
производительности (во сколько раз)
Ящичковая диаграмма
203 переменных28 772 540 наблюдений
5 сек 6 мин 15 сек ~75
Ящичковаядиаграмма+иерархия
4 сек 7 мин 37 сек ~114
Описательныестатистики
7 сек 6 мин 29 сек ~56
Корреляционная матрица
10 переменных28 772 540 наблюдений
30 сек 6 мин ~13
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ
КРУПНЕЙШИХ БАНКОВ
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Функционал Размер выборкиHigh-Performance
среда
Прежняя
вычислительная
среда
Прирост
производительности (во сколько раз)
Кластеризация
10 переменных3 000 000 наблюдений
9 сек 2 мин 50 сек ~19
Логистическая регрессия в разрезе
сегментов 29 сек 2 мин 29 сек ~4
РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ В ОДНОМ ИЗ
КРУПНЕЙШИХ БАНКОВ
ПРОВЕРКА КЕЙСОВ
В BIG DATA
ЛАБОРАТОРИИ
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Data Manipulation• AGGREGATE
• COMPUTE
• UPDATE
• APPEND
• SET
• SCHEMA
• DELETEROWS
• DROPTABLES
• PURGETEMPTABLES
• WHERE
• GROUPBY
• TABLEINFO
• COLUMNINFO
• SERVERINFO
• PARTITION, BALANCE
• STORE, REPLAY, FREE
• TABLE, PROMOTE
Data Exploration/
Visualization• BOXPLOT
• CORR
• CROSSTAB
• DISTINCT
• FETCH
• FREQUENCY
• HISTOGRAM
• KDE
• MDSUMMARY
• PERCENTILE
• SUMMARY
• TOPK
Miscellaneous• EXTERNAL (C API)
• FREE
• SAVE
• STORE
Predictive Modeling• TRAINING / VALIDATION
• DECISION TREE
• FORECAST
• GEN LINEAR MODEL
• LINEAR REGRESSION
• LOGISTIC REGRESSION
• RANDOM FORESTS
• NEURAL NETWORKS
• ASSESS (misclassification matrix,
lift, roc, concordance)
Descriptive Modeling• ASSOCIATION
• PATH ANALYSIS
• CLUSTERING (K-MEANS)
• CLUSTERING (DBSCAN)
Recommender• ASSOCIATION
• CLUSTERING
• KNN
• SVD
• ENSEMBLE
Text Analytics• PARSING AND STEMMING
• SVD
• TOPIC GENERATION
• DOCUMENT PROJECTION
Deployment• SCORE
• CODE
* Будет доступно со следующей версии (лето 2015)
SAS IN-MEMORY
STATISTICS FOR
HADOOP