Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法...

Apache Spark - -

/ @laclefyoshi / ysaeki@r.recruit.co.jp

• • Apache Spark

• • •

• 2011/04

• 2015/09

• • Druid (KDP, 2015)

• RDB NoSQL ( , 2016; : HBase )

• ESP8266 Wi-Fi IoT (KDP, 2016)

• • (WebDB Forum 2014)

• Spark Streaming (Spark Meetup December 2015)

• Kafka AWS Kinesis (Apache Kafka Meetup Japan #1; 2016)

• (FutureOfData; 2016)

• Queryable State for Kafka Streams (Apache Kafka Meetup Japan #2; 2016)

Why Spark?

In-memory Computing

Disk-based Computing In-memory Computing

http://www.jcmit.com/memoryprice.htm6

In-memory Computing

Memcached Hazelcast HANA Exadata

Apache IgniteApache Spark

2003 ~ 2008 ~ 2009 ~ 2011 ~2010 ~

Apache Spark

Lost executor X on xxxx: remote Akka client disassociated

Container marked as failed: container_xxxx on host: xxxx. Exit status: 1

Container killed by YARN for exceeding memory limits

shutting down JVM since 'akka.jvm-exit-on-fatal-error' is enabled for ActorSystem[Remote]

How come?

Apache Spark

Executor Executor

Executor

Driver

Apache Spark

Executor Executor

Executor

Driver

Apache Spark

Disk Memory

$ spark-submit \ --MEMORY_OPTIONS1 \ --MEMORY_OPTIONS2 \ --MEMORY_OPTIONS3 \ --conf ADDITIONAL_OPTIONS1 \ --conf ADDITIONAL_OPTIONS2 \ --class jp.co.recruit.app.Main \ spark-project-1.0-SNAPSHOT.jar

Apache Spark

Apache Spark : Heap

On-heap

--executor-memory XXG or --conf spark.executor.memory=XXG

--conf spark.memory.offHeap.size=XXX

Disk Off-heap

Apache Spark : Executor

On-heap Off-heap

Executor

OS Other Apps

Apache Spark : Container

On-heap Off-heap

Executor

OS Other Apps

Mesos / YARN Container

Overhead

Apache Spark : Overhead

On-heap

--executor-memory XXG or --conf spark.executor.memory=XXG

Disk Off-heap Overhead

--conf spark.mesos.executor.memoryOverhead --conf spark.yarn.executor.memoryOverhead =max(XXG/10 or 384MB)

On-heapDisk Off-heap Overhead

• • Java VM

Disk Off-heapOn-heap

Apache Spark : Garbage Collection

Apache Spark : Tachyon

Tachyon

Block Store

Apache Spark : Tachyon

Tachyon

Block Store

Apache Spark : Project Tungsten

Project Tungsten

Apache Spark :

Off-heap300MBDisk On-heap

Don’t touch!

Apache Spark : User Memory

Off-heap300MBDisk

--conf spark.memory.fraction=0.6

Memory Fraction User Memory

• • • Memory Fraction

Apache Spark : Execution Storage

Off-heap300MBDisk User Memory

--conf spark.memory.storageFraction=0.5

Storage Fraction

Execution Fraction

Apache Spark : Execution Storage

Storage Fraction

Execution Fraction

• • Broadcast Accumulator

• Shuffle Join Sort Aggregate

Apache Spark : Unified Memory

Storage Fraction

Execution Fraction

Examples

User Memory

Storage Fraction

Execution Fraction

User Memory

Storage Fraction

Execution Fraction

Storage Fraction

Execution Fraction

Storage Fraction

Execution Fraction

Storage Fraction

Execution Fraction

Storage Fraction

Execution Fraction

OutOfMemoryError

How Spark can help us not to stop our applications

Apache Spark

Disk User Memory

Storage Fraction

Execution Fraction

SpillProject Tungsten

Project Tungsten

Off-heap300MB

Apache Spark : Garbage Collection

JVM : Garbage Collection

-XX:+UseConcMarkSweepGC // GC

-XX:+UseParNewGC // GC

-XX:+CMSParallelRemarkEnabled // GC Remark

-XX:+DisableExplicitGC // GC(System.gc())

JVM : Garbage Collection

-XX:+HeapDumpOnOutOfMemoryError // OoME

-XX:+PrintGCDetails // GC

-XX:+PrintGCDateStamps //

-XX:+UseGCLogFileRotation // GC

$ spark-submit \ --executor-memory 8GB \ --num-executors 20 \ --executor-cores 2 \ --conf \ "spark.executor.extraJavaOptions=..." \ --spark.memory.offHeap.enabled=true \ --spark.memory.offHeap.size=1073741824 \ --class jp.co.recruit.app.Main \ spark-project-1.0-SNAPSHOT.jar

How we can help ourselves not to stop our applications

Storage Fraction

Execution Fraction

rdd.cache() rdd.persist() rdd.persist(StorageLevel.MEMORY_ONLY)

Storage Fraction

Execution Fraction

MEMORY_ONLY MEMORY_ONLY_2 MEMORY_ONLY_SER

MEMORY_AND_DISK MEMORY_AND_DISK_2 MEMORY_AND_DISK_SER

DISK_ONLY

OFF_HEAP

Storage Fraction

Execution Fraction

• SizeEstimator

$ spark-shell > import org.apache.spark.util.SizeEstimator

> SizeEstimator.estimate("1234") res0: Long = 48

> val rdd = sc.makeRDD( (1 to 100000).map(e => e.toString).toSeq)

> SizeEstimator.estimate(rdd) res2: Long = 7246792

• Web UI Storage panel

> SizeEstimator.estimate(rdd) res2: Long = 7246792

> rdd.persist(StorageLevel.MEMORY_ONLY)

> orders = sc.textFile("lineorder.csv") orders: org.apache.spark.rdd.RDD[String] = ... > result = orders.map(...) result: org.apache.spark.rdd.RDD[String] = ...

> orders.persist(StorageLevel.MEMORY_ONLY) > result.persist(StorageLevel.MEMORY_AND_DISK)

> result.persist(StorageLevel.MEMORY_AND_DISK)

> orders.persist(StorageLevel.MEMORY_ONLY)

16/12/09 14:34:06 WARN MemoryStore: Not enough space to cache rdd_1_39 in memory! (computed 44.4 MB so far)

16/12/09 14:34:06 WARN BlockManager: Block rdd_1_39 could not be removed as it was not found on disk or in memory

16/12/09 14:34:06 WARN BlockManager: Putting block rdd_1_39 failed

Storage Fraction

Execution Fraction

Storage Fraction

Execution Fraction

• RDD

> orders.partitions.size res3: Int = 40 > orders.repartition(80)

> orders.persist(StorageLevel.MEMORY_ONLY)

Storage Fraction

Execution Fraction

OutOfMemoryError

Storage Fraction

Execution Fraction

> rdd.unpersist(true) //

> rdd.unpersist(false) //

Execution Fraction

• • • Garbage Collection

• GC

• Shuffle

Apache Spark

Off-heap300MBUser Memory

--conf spark.memory.storageFraction

Storage Fraction

Execution Fraction

--conf spark.memory.fraction --conf spark.memory.offHeap.size

--executor-memory --conf spark.executor.memory

Overhead

--conf spark.mesos. executor.memoryOverhead --conf spark.yarn. executor.memoryOverhead

: Executor

• [A] Storage Fraction = RDD

• [B] Execution Fraction = A

• [C] On-heap = (A + B) / 0.6 + 300MB // 0.6 User Memory

• [D] Off-heap = RDD

• [E] Overhead = max(C * 0.1, 384MB) //

• [F] 1 Container (Executor)

• [G] OS

• [H]

(C + D + E) * F + G < H

: Driver ?

Driver Memory Overhead

--conf spark.mesos. driver.memoryOverhead --conf spark.yarn. driver.memoryOverhead

--driver-memory --conf spark.driver.memory

--conf spark.driver.maxResultSize=1G

Action (collect, reduce, take ) !

Driver

Yes, It’s all about Spark Memory.

Enjoy In-memory Computing!

Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法...

Technology

Transcript of Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法...

分散共有メモリ型計算機と クラスタam.ics.keio.ac.jp/arc/numa.pdf · Node 1 Node 2 Node 3 Node 0 Interconnecton Network プロセッサ メモリ メモリが一か所に集中

SDL Trados Studio 2011 2011...4 は、人間が訳した訳文を蓄積したデータベース 1.翻訳メモリとは 翻訳メモリの利点 この冊子では、翻訳メモリのしくみと翻訳メモリ

私の外部メモリEvernote 20131019

10群（集積回路）‐4編（メモリLSI） 5章 新規メモリ

世界最速プロセッサ搭載 SPARC T5サーバー 製品概要 - Oracle...T5-4 64コア@ 3.6GHz 2TB メモリ T5-8 128コア@ 3.6GHz 4TB メモリ-2 32コア@ 3.6GHz 1TB メモリ

アプリケーション開発ガイド クライアント・アプリケーショ …IBM® DB2 Universal Database アプリケーション開発ガイド クライアント・アプリケーションのプログラミング

Ubuntu オススメ・アプリケーション

インテル エクステンデッド・メモリ 64 テクノロジ・ソフト …...インテル® エクステンデッド・メモリ 64 テクノロジ・ソフトウェア・

CTI アプリケーションの設定 - Cisco...CTI アプリケーションの設定•CTIアプリケーションの概要,1ページ •CTIアプリケーションの前提条件,3ページ

アプリケーション開発ツール - NTT-ATNTT-ATは、開発ツールからアプリケーションまで、リッチメディア・アプリケーション関連プロダクツを幅

アプリケーションを利用する アプリケーション一覧を利用する アプリケーション … · アプリケーション一覧が表示されます。 ・起動しているアプリケーションの数によっては、左右にフリック

Force.com Canvas アプリケーション

メモリ管理 4.3, 4.4 章

08. メモリ非曖昧化

外部メモリ・インタフェースのハンドブック Vol 3 セ …¹´12月 Altera Corporation 外部メモリ・インタフェースのハンドブック Vol 3 セクションV.

Cisco UCS サーバ C220/C240/B200 M5 メモリ ガイド 製品仕 …...Cisco UCS C220/C240/B200 M5 メモリ ガイド 3 メモリ構成、メモリのパーツ型番およびメモリ

USB メモリのセキュリティ - KASHU-USB Flash …クイックスタート[USB メモリのセキュリティ+/++/#/##用] 1 / 18 Copyright © 2008-2013 KASHU SYSTEM DESIGN INC.

FRAM RFID LSI - Fujitsu...MB89R112 DS411-00004-2v0-J 3 メモリ 1. メモリマップ MB89R112 は, FRAM メモリで構成される内部メモリを持ちます。・FRAM の構成

2章 Linuxカーネル - メモリ管理1

メモリ モジュール - Hewlett Packardメモリ モジュール 1–1 1 メモリ モジュールの追加または交換 お使いのコンピュータには、2基のメモリ

分散共有メモリ型計算機とクラスタam.ics.keio.ac.jp/arc/numa.pdf · Node 1 Node 2 Node 3 Node 0 Interconnecton Network プロセッサメモリメモリが一か所に集中

SDL Trados Studio 2011 2011...4 は、人間が訳した訳文を蓄積したデータベース 1.翻訳メモリとは翻訳メモリの利点この冊子では、翻訳メモリのしくみと翻訳メモリ

10群（集積回路）‐4編（メモリLSI） 5章新規メモリ

世界最速プロセッサ搭載 SPARC T5サーバー製品概要 - Oracle...T5-4 64コア@ 3.6GHz 2TB メモリ T5-8 128コア@ 3.6GHz 4TB メモリ-2 32コア@ 3.6GHz 1TB メモリ

アプリケーション開発ガイドクライアント・アプリケーショ …IBM® DB2 Universal Database アプリケーション開発ガイドクライアント・アプリケーションのプログラミング

インテルエクステンデッド・メモリ 64 テクノロジ・ソフト …...インテル® エクステンデッド・メモリ 64 テクノロジ・ソフトウェア・

アプリケーションを利用するアプリケーション一覧を利用するアプリケーション … · アプリケーション一覧が表示されます。・起動しているアプリケーションの数によっては、左右にフリック

Cisco UCS サーバ C220/C240/B200 M5 メモリガイド製品仕 …...Cisco UCS C220/C240/B200 M5 メモリガイド 3 メモリ構成、メモリのパーツ型番およびメモリ

メモリモジュール - Hewlett Packardメモリモジュール 1–1 1 メモリモジュールの追加または交換お使いのコンピュータには、2基のメモリ