20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
-
Upload
kotaro-tsukui -
Category
Technology
-
view
1.204 -
download
1
description
Transcript of 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
![Page 1: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/1.jpg)
1
エキスパートセッションElastic MapReduce
2012/03/03 @JAWS SUMMIT 2012発表資料
http://www.velc.co.jp
ヴェルク株式会社津久井浩太郎(@quarterkota)
![Page 2: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/2.jpg)
2
自己紹介
■所属• ヴェルク株式会社 取締役/アーキテクト• JAWS-UG東京⽀部 コアメンバー• ⼀般社団法⼈クラウド利⽤促進機構 技術アドバイザー
■好きなAWSサービスEMR:何よりも⼿軽さがスゴイRDS:イケてるバックアップに命を救われたことがある
■経歴ITコンサル(フューチャーアーキテクト)
→ インターネット広告系ITベンチャー(サイテック)→ 独⽴して現在2期目
津久井浩太郎 @quarterkota
![Page 3: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/3.jpg)
3
はじめる前に質問があります。
![Page 4: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/4.jpg)
4
Question
Hadoopをオンプレミス環境でセットアップして使った経験のある方、挙手をお願いします。
![Page 5: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/5.jpg)
5
Question
EMRを触ったことのある方、挙手をお願いします。
![Page 6: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/6.jpg)
6
EMRを触ったことは無いが興味はあるという方、挙手をお願いします。
Question
![Page 7: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/7.jpg)
7
本日のAgenda
1.EMRとは?
2.EMRのメリット
3.EMRを触ってみる
4.EMR使用上のご注意
5.最後に
![Page 8: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/8.jpg)
8
1.EMRとは?
![Page 9: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/9.jpg)
9
EC2とS3のIaaSレイヤを基盤としてHadoopエンジンを取り入れて拡張させたPaaSレイヤの分散処理基盤
AmazonS3
AmazonEC2
Apache Hadoop
Streaming / Hive / Pig /Custom JAR / Cascading
IaaS
PaaS
![Page 10: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/10.jpg)
10
言い換えると・・・好きな時に好きなだけ使える
クラウド型Hadoop基盤
++++
![Page 11: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/11.jpg)
11
本日のAgenda
2.EMRのメリット
![Page 12: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/12.jpg)
12
Hadoop自体はOSSで自由に使える優れた分散処理技術
![Page 13: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/13.jpg)
13
しかし、Hadoopが有効に稼働するオンプレ環境を作るには・・・
少なくとも数十台規模のサーバが必要
イニシャルコスト・メンテナンスコスト大
バッチ用途が中心になるため、「リソースの空き時間」が発生しがち
![Page 14: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/14.jpg)
14
実際に導入できるのはリソースが潤沢な一部の企業のみ
![Page 15: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/15.jpg)
15
しかし、AWSのIaaSであるEC2・S3を処理基盤にする事で手軽にHadoopが利用可能に!
![Page 16: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/16.jpg)
例えば・・・
m1.largeを20ノードで3時間の処理
$0.46 x 20 x 3 = $27.6≒ 2346円(85円/$)
![Page 17: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/17.jpg)
17
3.EMRを触ってみる
![Page 18: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/18.jpg)
18
EMRはユーザからの指示に基づいてジョブフローを生成
ジョブフロー
Hadoopクラスタ(EC2インスタンス群)
処理内容Hadoopクラスタのサイズなど
![Page 19: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/19.jpg)
19
今回はSQLライクに分散処理を制御できるHiveベースのジョブフローをご紹介します。
![Page 20: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/20.jpg)
20
それでは実際にジョブフローを作成してみます。
![Page 21: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/21.jpg)
21
1.GUI(マネジメントコンソール)からの作成
2.CLIからの作成
ジョブフローの作り方は2パターン
![Page 22: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/22.jpg)
22
1.GUI(マネジメントコンソール)からの作成
![Page 23: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/23.jpg)
23
2.CLIからの作成
![Page 24: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/24.jpg)
24
それでは実際にHiveでジョブフローを操作してみましょう
![Page 25: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/25.jpg)
Amazon S3
25
マスタノード上で直接SELECTを実行し
結果を標準出力させます
入力データ
HDFS
Hadoopクラスタ
中間データ出力データ
![Page 26: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/26.jpg)
Amazon S3
26
Hiveでのデータのやり取りはS3を入出力の口として
行うのが一般的です
入力データ
出力データ
HDFS
Hadoopクラスタ
中間データ
![Page 27: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/27.jpg)
EMR+Hiveの組み合わせによりHadoopの敷居がグッと下がる
![Page 28: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/28.jpg)
4.EMR使用上のご注意
![Page 29: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/29.jpg)
EMRには向き不向きがある!低レイテンシを求められるシステムに単独で用いるのは厳しい
![Page 30: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/30.jpg)
SPOFを考慮すべし!万が一マスタノードに障害が発生した場合
全ての処理結果が失われる
![Page 31: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/31.jpg)
データ設計に細心の注意を!例えばHiveの場合JOINを連発するとパフォーマンスが急激にダウン
![Page 32: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/32.jpg)
遊びの時間を極力減らす!ジョブフローが「Wait」状態は課金だけ発生するのでもったいない
![Page 33: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/33.jpg)
5.最後に
![Page 34: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/34.jpg)
EMRは大量分散処理を一気に身近なものにする画期的なサービスです
とにかくガンガン使って情報共有を進めましょう
![Page 35: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/35.jpg)
EMRを1から始めるにはこの本がオススメです
![Page 36: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/36.jpg)
JAWS-UGの分科会としてEMR勉強会もやっています
![Page 37: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編](https://reader036.fdocuments.net/reader036/viewer/2022081401/55781675d8b42ab40c8b49db/html5/thumbnails/37.jpg)
37
enjoy life and creation
http://www.velc.co.jp