Enabling Apache Zeppelin and Spark for Data Science in the Enterprise

1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved

Enabling Apache Zeppelin* and Spark* for Data Science in the Enterprise

Bikas Saha@bikassaha

*Apache Hadoop, Falcon, Atlas, Tez, Sqoop, Flume, Kafka, Pig, Hive, HBase, Accumulo, Storm, Solr, Spark, Ranger, Knox, Ambari, ZooKeeper, Oozie, Zeppelin and the Hadoop elephant logo are trademarks of the Apache Software Foundation.

2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved

AgendaMaking Big Data Science easy to approach

What are the current issues for the enterprise

Making Apache Zeppelin enterprise ready

Future Roadmap


Apache Zeppelin


Zeppelin makes Big Data Science Easy to Approach

Zero install – Just connect via a web browser and ready to run Support for multiple execution platforms (Apache Spark, JDBC, Hive…) Support for multiple languages (Scala, SQL, Python…) Support for built-in visualizations Support for reporting Support for sharing and collaborative work

Does NOT have machine learning built-in – that’s where Apache Spark comes in (or your favorite SQL engine Apache Flink/Drill/Hive… and 30+ others)


Zeppelin for Sharing





Future Roadmap


Current Apache Zeppelin and Spark integration

ZeppelinServer

SparkDriver

User

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor


Architectural Issue with Secure Data Access

ZeppelinServer

SparkDriver

User 1 Spark

Executor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

Zeppelin ServerUser

HDFS


Architectural Issues with Multi-Tenancy – Fault Tolerance

ZeppelinServer

SparkDriver

Us

er1

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

Us

er2

User 1 failure affects User 2

Heavy-weight Spark drivers


Architectural Issues with Multi-Tenancy – Privacy

ZeppelinServer

SparkDriver

Us

er1

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor

Us

er2

User 1 can

access User 2Data




Enterprise Ready Big Data Science

Future Roadmap


Livy Server as a Session Management Service

LivyServer

Remote Spark Driver

Session Remote Context

Interactive REST API

BatchREST API

Standard Spark Batch Job

SparkExecutor

SparkExecutor

SparkExecutor

SparkExecutor


Secure Data Access - Solved

ZeppelinServer

LivyInterpreter

User

SparkExecutor

SparkExecutor

LivyServer

Remote Spark Driver

Session

Remote Context

User

HDFS


Multi Tenancy - Solved

ZeppelinServer

LivyInterpreter

LivyServer

Session 1

Us

er1

Us

er2

LivyInterpreter

Session 2

Remote Spark Driver

Remote Context

SparkExecutor

Remote Spark Driver

Remote Context

SparkExecutor





Future Roadmap


Near Term Improvements

Session Management Debuggability Unified session for all languages Better visualizations for Machine Learning Support for Spark 2.0


Long Term Improvements

Controlled sharing of sessions for collaboration Data exploration and browsing with metadata Taking the model from training to production


Thank You

Enabling Apache Zeppelin and Spark for Data Science in the Enterprise

Technology

Transcript of Enabling Apache Zeppelin and Spark for Data Science in the Enterprise