Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

13
Cloudera Apache Hadoop トトトトトト トトト Cloudera World Tokyo 2014 2014/11/6 トトトトトトトトト Tatsuo Kawasaki, Cloudera

description

Cloudera World Tokyo 2014 のライトニングセッションで使用したスライドです。 Cloudera World Tokyo 2014: http://www.cloudera.co.jp/jpevents/cwt2014

Transcript of Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

Page 1: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

Cloudera ApacheHadoop トレーニング番外編Cloudera World Tokyo 2014   2014/11/6

ライトニングトーク

Tatsuo Kawasaki, Cloudera

Page 2: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

2© 2014 Cloudera, Inc. All rights reserved.

About Me

• 川崎 達夫 (かわさき たつお)• Senior Instructor @ Cloudera• email: [email protected]• twitter: @kernel023

Page 3: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

3© 2014 Cloudera, Inc. All rights reserved.

最近の Hadoop 事情

• Hadoop が登場して8年半、 Hadoop コアもエコシステムも大きく進化しています

• その中から最近のトピックを紹介します

Page 4: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

4© 2014 Cloudera, Inc. All rights reserved.

1. HDFS の単一障害点?

• HDFS には単一障害点があるから使えないよね• -> いいえ、高可用性の構成を組むことができま

Page 5: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

5© 2014 Cloudera, Inc. All rights reserved.

2. HDFS は遅い?

• HDFS のパフォーマンスってイマイチなんだって… .

• -> 最近の HDFS はかなり高速化されています• HDFS Caching   (HDFS-4949)• Short-circuit read (HDFS-2246)• Zero copy read (mmap) (HDFS-4953)• SSE4.2 CRC32 (HDFS-2080)• Read Path improvement (HDFS-2080)• ….

もちろんワークロードに依存するので、ベンチマーク等での評価をお勧めします。その際は最新版( CDH5.2 やHadoop 2.5.1 )で!

Page 6: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

6© 2014 Cloudera, Inc. All rights reserved.

3. HDFS には機能が足りない?

• HDFS って機能が足りないのよね ..• -> 最近の HDFS には多くの機能が追加されてい

ます• Extended Attributes (拡張属性)• ディレクトリスナップショット• NFS ゲートウェイ• HDFS キャッシング• フェデレーション• ローリングアップグレード• 暗号化 (HDFS-6134: 2.6.0 以降)• Hue を使えば GUI でアクセスも可

HDFS Snapshot

Page 7: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

7© 2014 Cloudera, Inc. All rights reserved.

• MapReduce(YARN) には単一障害点がある(略)• -> HDFS 同様に、高可用性の構成が可能です

4. MapReduce(YARN) には単一障害点が?

ResourceManager(Standby)

ResourceManager(Active) NodeManager

NodeManager

NodeManager

… Job History Server

MasterNodes

SlaveNodes

Page 8: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

8© 2014 Cloudera, Inc. All rights reserved.

• MRv1 から MRv2 の移行って、新しい API を使ってアプリの書き直しが必要なんでしょ?

• -> いいえ、 MRv1 と MRv2 は、旧 API (mapred) 、新 API (mapreduce) の両方に対応しています• 開発者の負担は少ない

• バイナリーコンパチビリティ• 一部のソースコードのビルドには

コードの変更が必要 [*1]• 運用側の負担はある

• 運用や設定項目が変更となるのでYARN についての理解が必要

5. MRv1 から MRv2 への移行は?

*1) http://tiny.cloudera.com/yarnmigrate

Page 9: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

9© 2014 Cloudera, Inc. All rights reserved.

6. Hadoop を分析に使うには遅くて..

• Hive で分析しているんだけど遅くって…• -> 選択肢が増えています• SQL on Hadoop

• Hive は処理基盤に MapReduce を使用しているため、分析等の用途に使うには速度面などに課題があるかもしれません

• 現在は MapReduce を使用しない SQL on Hadoop の選択肢があります• Cloudera Impala 、 Presto 、 SparkSQL など• 参考ベンチマーク [*1]

• Apache Spark• オンメモリデータ処理の分散処理基盤• 将来的に MapReduce の置き換えに?*1 http://www.slideshare.net/Cloudera_jp/evolution-of-impala-hcj2014

Page 10: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

10© 2014 Cloudera, Inc. All rights reserved.

7. Hadoop の構築、運用って大変?

• Hadoop の構築や運用って、ツールを組み合わせてやらないといけないから大変だよね

• -> 多くの運用、管理ツールが登場しています• Cloudera Manager (構築/運用) ,Cloudera

Navigator (監査)• Ambari (構築/運用)• Hue (主にユーザー用途)

Cloudera ManagerHue

Page 11: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

11© 2014 Cloudera, Inc. All rights reserved.

まとめ

• Hadoop が登場して8年半、 Hadoop コアもエコシステムも大きく進化しています

• 進化した Hadoop を活用しましょう!• Hadoop のトレーニングで最新情報の習得を!

http://www.cloudera.co.jp/university/

Page 12: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

12© 2014 Cloudera, Inc. All rights reserved.

コース 概要

Cloudera Apache Hadoop エッセンシャル1 日

なぜ Hadoop が存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。 Hadoop の主要なコンポーネントと広範囲な Hadoop エコシステムを紹介します。

Cloudera Apache Hadoop 開発者向けトレーニング  4 日間

HDFS と MapReduce の基本と同様に、 API を使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連する Apacheプロジェクトの概要を紹介します。

Cloudera Apache Hadoop 管理者向けトレーニング  4 日間

Hadoop システム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。

Cloudera Apache Spark 開発者向けトレーニング3日間

バッチ、ストリーミング、インタラクティブな分析を組み合わせた完全に統合したビッグデータアプリケーションを構築するために、 Apache Spark を使用した開発者のためのコースです。

Cloudera Apache HBase トレーニング4 日間

低遅延クエリと高スループットを実現するための分散データストアとして、 HBase の使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。

Cloudera データサイエンス入門3 日間 (日本での開催は未定)

Apache Hadoop で分析とデータ変換を行うための、 2 つの人気のある Apache プロジェクト、 Hive と Pig の使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。

データサイエンス入門:レコメンドシステムを構築する  3 日間 (日本での開催は未定)

データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。

Cloudera University トレーニング

Page 13: Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

Thank You!