CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance •...

25
Company Confidential - For Internal Use Only Copyright © 2012, SAS Institute Inc. All rights reserved. SAS EN HADOOP CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS Sergio Uassouf Líder de Práctica de Gestión de Información e Infraestructura SAS FORUM ARGENTINA 2016

Transcript of CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance •...

Page 1: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

SAS EN HADOOPCREANDO UN LABORATORIO

BIG DATA / HADOOP / SAS

Sergio UassoufLíder de Práctica de

Gestión de Información e Infraestructura

SAS FORUM ARGENTINA 2016

Page 2: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

1024 bytes = 1 Kilobyte

1024 KB = 1 Megabyte

1024 MB = 1 Gigabyte

1024 GB = 1 Terabyte

1024 TB = 1 Petabyte

1024 PB = 1 Exabyte

1024 EB = 1 Zettabyte

1024 ZB = 1 Yottabyte

1 YB = 1024 bytes

Una transacción de cajero

automático o home banking = 200

bytes.

1 TB = 5.000.000.000 de

transacciones

Red Link + Banelco ejecutan

aprox. 20.000.000 de

transacciones por día

1 TB almacena 250 días de

transacciones de Link y Banelco

¿QUE GRANDE TIENE QUE SER

LO GRANDE PARA SER GRANDE?

BIG DATA =

HADOOP + SAS

Entonces... ¿Qué es Big Data?

Page 3: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DEFINICION DE MARKETINGBIG DATA =

HADOOP + SAS

Page 5: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

Desde los inicios de la informática un computador, ya sea personal o

empresarial está compuesto de 3 componentes principales.

Disk

RAM

CPUCPU

Disk

RAM

CPU CPU

Disk

RAM

CPU CPU

Disk

RAM

CPU CPU

Disk

RAM

CPU CPU

Disk

RAM

CPU CPU

MEMORIA

UNIDADES DE

ALMACENAMIENTO

UNIDADES DE

PROCESAMIENTO

Disk

RAM

CPU CPU

Disk

RAM

CPU CPU

BIG DATA = PROCESAMIENTO MASIVAMENTE PARALELO

ESTO ES BIG DATABIG DATA =

HADOOP + SAS

Page 6: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

Si puede almacenar mucha más información a un costo

mucho menor...

Y puede procesarla en un tiempo mucho menor.

Entonces no necesita armar modelos tomando sólo un

subconjunto de los datos...

Y puede hacer todas las iteraciones que necesite.

Entonces puede almacenar y procesar la

información que antes no podía

ALMACENAR Y ANALIZAR

GRANDES VOLUMENES DE INFORMACIÓN

A BAJO COSTO

BIG DATA =

HADOOP + SAS

Page 7: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

TODOS LOS

CALL DETAIL

RECORDS

TODAS LAS

TRANSACCIONESTODAS LAS

SECUENCIAS DE

SITIOS WEB

TODAS LAS

CONVERSACIONES

DE LOS CALL

CENTERS

Y ANALIZARLOS

EN SU TOTALIDAD...

EJECUTANDO

TODAS LAS

ITERACIONES QUE

NECESITE...

A MUY BAJO

COSTO RELATIVO

ALMACENAR Y ANALIZAR

GRANDES VOLUMENES DE INFORMACIÓN

A BAJO COSTO

BIG DATA =

HADOOP + SAS

Page 8: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

INTERFAZ DE

USUARIO

METADATOS

ACCESO A

DATOS

PROCESAMIENTO

DE DATOS

FILE SYSTEM

SASEnterprise

Guide

SASData

Integration

SASEnterprise

Miner

SASIMStat

for Hadoop

SAS VisualAnalytics / Statistics

SAS Data Loader

for Hadoop

COMPONENTES DEL "ECOSISTEMA"BIG DATA =

HADOOP + SAS

MapReduce

Spark Otros

Page 10: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

SAS Data Loader for Hadoop Visual Analytics / Statistics

PREPARACIÓN DE DATOS "IN-DATABASE"

ESTADÍSTICA Y MINERÍA DE DATOS "IN-MEMORY"BIG DATA =

HADOOP + SAS

Page 11: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

HADOOP PROCESAMIENTO "IN-DATABASE"

Gráfico tomadode Hortonworks

DATA LOADER FOR HADOOP

(EMBEDDED PROCESS - LENGUAJE DS2)

SAS VISUAL ANALYTICS / STATISTICS

(LASR SERVER - IMSTAT)

Page 12: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

HADOOP PROCESAMIENTO "IN-DATABASE"

EP

proc ds2 ;

/* thread ~ eqiv to a mapper */

thread map_program;

method run(); set dbmslib.intab;

/* program statements */

end; endthread; run;

/* program wrapper */

data hdf.data_reduced;

dcl thread map_program map_pgm; method

run();

set from map_pgm threads=N;

/* reduce steps */ end; enddata;

run; quit;

1. Integración

2. Preparación

3. Calidad

4. Scoring

Embedded Process: Traduce código de alto nivel a Map-Reduce.

Page 13: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DATA LOADER

FOR HADOOPIDEAL PARA PREPARACIÓN DE TABLAS ANALITICAS

CODIGO ALTO NIVEL

EN HADOOPDATA LOADER FOR HADOOP

Page 14: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DATA LOADER

FOR HADOOPMENÚ PRINCIPAL DE DIRECTIVAS

Page 15: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DATA LOADER

FOR HADOOPQUERIES Y JOINS

Page 16: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DATA LOADER

FOR HADOOPMENÚ PRINCIPAL DE DIRECTIVAS

Page 17: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

DATA LOADER

FOR HADOOPMENÚ DATA CLEANSING

Page 18: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

HADOOP PROCESAMIENTO "IN-MEMORY"

Gráfico tomadode Hortonworks

SAS DATA LOADER FOR HADOOP

(EMBEDDED PROCESS - SAS LENGUAJE DS2)

SAS VISUAL ANALYTICS / STATISTICS

( LASR SERVER - IMSTAT)

Page 19: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Data Manipulation• SAS Data Step

• BALANCE

• COLUMINFO

• COMPUTE

• DELETEROWS

• DISTINCT

• DROPTABLE

• FETCH

• GROUPBY

• PARTITION

• PROMOTE

• PURGETEMPTABLES

• SET

• TABLE

• UPDATE

Data Exploration/

Visualization• BOXPLOT

• CORR

• CROSSTAB

• CONTOURPLOT

• DISTRIBUTIONINFO

• FREQUENCY

• HISTOGRAM

• KDE

• REPLAY

• SUMMARY

Miscellaneous• EXTERNAL (C API)

• FREE

• SAVE

• STORE

Predictive Modeling• DECISIONTREE

• FORECAST

• GENMODEL

• GLM

• RANDOMWOODS

• ASSESSMENT

Descriptive Modeling• CLUSTER

• CLUSTER TF-IDF

• ASSOCIATIONS

• SVD

Recommender• CLUSTER

• KNN

• ASSOCIATIONS

• SVD

Text Analytics• PARSING

• SVD

Deployment

• SCORE

SAS LASR

ANALYTICS SERVER

Page 20: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

IN-MEMORY STATISTICS SAS VISUAL ANALYTICS / STATISTICS

SAS LASR

ANALYTICS SERVER

INTERFAZ PARA PROGRAMACIÓN POR CÓDIGO E

INTERFAZ PARA ANÁLISIS EN MODO GRAFICO / VISUAL

50 minutos

Page 21: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

MQ

XML

Cloud

CONSUMERSSOURCES SAS® Event Stream Processing Engine

Apply analytics and rules to

pinpoint event relevance and

urgency with continuous

pattern detection

Manipulate live data streams

to detect, filter, aggregate &

correlate signals from the

noise

Conduct low latency

assessment of high-volume,

high-velocity data – triggering

real-time actions/alerts

PROCESAMIENTO "ON-THE-FLY"

PROCESAMIENTO

COMPLEJO

DE EVENTOS

Page 22: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Análisis de uso de sitios Web

Optimización de experiencia de usuario

Publicidad y ofertas en tiempo real

Análisis de transacciones

Alertas en tiempo real y manejo de casos.

Correlación con comportamiento del cliente.

Sensores en tiempo real

Detección de anomalías en tiempo real.

Monitoreo de activos críticos

Instrucciones en tiempo real

• CDRs analysis

• Real-time marketing

• Fraud detection

• IT systems survey

Cálculos y monitoreo contínuo.

Minimización del tiempo entre las operaciones y su reporte.

Decisiones operacionales centralizadas inmediatas.

Directivas a empleados y sistemas en tiempo real.

OptimizaciónE-Commerce

Internet delas Cosas

Decision Management

Detecciónde Fraudes

Comunicaciones

Mercadosde Capital

CASOS DE USO

PROCESAMIENTO

COMPLEJO

DE EVENTOS

Alertas de mensajes en tiempo real.

Ofertas y acciones en tiempo real.

Diagnóstico y acciones

Page 23: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

1. SAS da soporte al cliente en el diseño del cluster Hadoop y en

establecer los criterios de éxito para las pruebas.

2. El cliente pone el cluster Linux (referencia 4 nodos, 8 cores, 128 GB

RAM por nodo).

3. El cliente elige la distribución de Hadoop (Hortonworks / Cloudera).

4. SAS entrega el software por el período de prueba (referencia 3

meses):

1. SAS Data Loader for Hadoop.

2. SAS Visual Analytics / Statistics.

3. SAS In-Memory Statistics for Hadoop.

4. SAS Event Stream Processing.

PASOS PARA EL ARMADO DEL LABORATORIOBIG DATA =

HADOOP + SAS

Page 24: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved.

PASOS PARA EL ARMADO DEL LABORATORIOBIG DATA =

HADOOP + SAS

5. Servicios profesionales de SAS instalan Hadoop y las soluciones SAS

elegidas. Este es el único cargo al cliente a precio promocional.

6. Sugerencia de prueba:

1. Formatos ORC/Parquet y SAS SPDE.

2. Hive y SAS Data Loader for Hadoop.

Page 25: CREANDO UN LABORATORIO BIG DATA / HADOOP / SAS...data manipulation • sas data step • balance • columinfo • compute • deleterows • distinct • droptable • fetch • groupby

Company Confidential - For Internal Use Only

Copyright © 2012, SAS Insti tute Inc. Al l r ights reserved. www.SAS.com

ESPERAMOS QUE

NUESTRAS SOLUCIONES

SEAN DE SU UTILIDAD