インテルのビッグデータ環境にApache* Hadoop* を...

8
インテル IT 部門は、厳密に定義した一連の評価基準を使用して、 Apache* Hadoop* 対応 インテル® ディストリビューション(インテ ル® ディストリビューション )とそ の 他 2 種類の Apache* Hadoop* ディストリビューションを比較しました。この評価基準は、プラットフォー ム・アーキテクチャーの特性、管理 / 運用 / サポート、各ディストリビューションがもたらす独自 の価値提案から構成されます。私たちはこれらの基準に基づいて、各ディストリビューションの テスト、検証、評価を行い、ディストリビューションごとのスコアを算出しました。 インテルのビッグデータ環境に Apache* Hadoop* を統合 IT@Intel ホワイトペーパー インテル IT 部門 IT ベスト・プラクティス ビッグデータとIT イノベーション 2013 2 この評価の結果、インテル® ディストリビュー ションを使用した場合、他のディストリビュー ションよりも大きなメリットが得られることが 確認されました。 既存のインフラストラクチャーとのシームレ スな統合、高可用性、マルチテナント環境 をサポートするプラットフォーム・アーキテク チャー 無 駄 の ないセットアップ、管 理、セキュリ ティー、トラブルシューティングによる、管 理、運用、サポートの容易さ インテル® アーキテクチャー向けの最適化 によるパフォーマンスの向上と、インテル® AES New Instructions による暗号化処 理の強化 オープン・ソース・コミュニティーとの緊密 な関係と、オープン・ソース・ロードマップと の整合性 インテルの Hadoop* プラットフォームは、コ スト効率と拡張性に優れたインテル® アーキ テクチャー・ベースのエンタープライズ・デー タ・ウェアハウス、インメモリー・データベース、 カスタム・データ・ウェアハウスなど、他のビジ ネス・インテリジェンス・プラットフォームを補 完するものです。今回の評価と導入の過程 で、インテル IT 部門は、各ビジネスグループ の新しいプラットフォーム導入の支援に役立 つ多くのベスト・プラクティスを確立しました。 計画段階での初期投資の結果、構造化デー タ分析および多構造化データ分析という利 用用途をサポートし、進化するニーズに応じ た拡張性を備えたプラットフォームを実現で きました。ある概念実証では、新しいプラット フォームによって根 本 原 因 分 析の 実 行と問 題発生防止の自動化が実現され、問題発生 件数の 30% 削減が可能になりました。現在 IT 経済環境において、このことは大幅なコ スト削減およびコスト回避につながり、従業 員の生産性向上を支援します。 Assaf Araki インテル IT 部門 ビッグデータ分析エンジニア Ajay Chandramouly インテル IT 部門 ビッグデータ業界エンゲージメント・ マネージャー Nghia Ngo インテル IT 部門 ビッグデータ・ケーパビリティー・エンジニア Sonja Sandeen インテル IT 部門 ビッグデータ・プロジェクト・マネージャー Darin Watson インテル IT 部門 ビッグデータ・プラットフォーム・エンジニア Chandhu Yalla インテル IT 部門 ビッグデータ・エンジニアリング・マネージャー ある概念実証では、 新しいプラットフォームによって 根本原因分析の 実行と問題発生防止の 自動化が実現され、 問題発生件数の 30% 削減が可能になりました。

Transcript of インテルのビッグデータ環境にApache* Hadoop* を...

Page 1: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

概 要インテル IT部門は、厳密に定義した一連の評価基準を使用して、Apache* Hadoop*対応

インテル® ディストリビューション(インテル® ディストリビューション)とその他 2種類のApache* Hadoop*ディストリビューションを比較しました。この評価基準は、プラットフォーム・アーキテクチャーの特性、管理 /運用 /サポート、各ディストリビューションがもたらす独自の価値提案から構成されます。私たちはこれらの基準に基づいて、各ディストリビューションのテスト、検証、評価を行い、ディストリビューションごとのスコアを算出しました。

インテルのビッグデータ環境に Apache* Hadoop*を統合

IT@Intelホワイトペーパーインテル IT部門ITベスト・プラクティスビッグデータと ITイノベーション2013年 2月

この評価の結果、インテル® ディストリビューションを使用した場合、他のディストリビューションよりも大きなメリットが得られることが確認されました。

• 既存のインフラストラクチャーとのシームレスな統合、高可用性、マルチテナント環境をサポートするプラットフォーム・アーキテクチャー

• 無駄のないセットアップ、管理、セキュリティー、トラブルシューティングによる、管理、運用、サポートの容易さ

• インテル® アーキテクチャー向けの最適化によるパフォーマンスの向上と、インテル® AES New Instructionsによる暗号化処理の強化

• オープン・ソース・コミュニティーとの緊密な関係と、オープン・ソース・ロードマップとの整合性

インテルの Hadoop*プラットフォームは、コスト効率と拡張性に優れたインテル® アーキテクチャー・ベースのエンタープライズ・データ・ウェアハウス、インメモリー・データベース、カスタム・データ・ウェアハウスなど、他のビジネス・インテリジェンス・プラットフォームを補

完するものです。今回の評価と導入の過程で、インテル IT部門は、各ビジネスグループの新しいプラットフォーム導入の支援に役立つ多くのベスト・プラクティスを確立しました。

計画段階での初期投資の結果、構造化データ分析および多構造化データ分析という利用用途をサポートし、進化するニーズに応じた拡張性を備えたプラットフォームを実現できました。ある概念実証では、新しいプラットフォームによって根本原因分析の実行と問題発生防止の自動化が実現され、問題発生件数の 30%削減が可能になりました。現在の IT経済環境において、このことは大幅なコスト削減およびコスト回避につながり、従業員の生産性向上を支援します。

Assaf Arakiインテル IT部門

ビッグデータ分析エンジニア

Ajay Chandramoulyインテル IT部門

ビッグデータ業界エンゲージメント・ マネージャー

Nghia Ngoインテル IT部門

ビッグデータ・ケーパビリティー・エンジニア

Sonja Sandeenインテル IT部門

ビッグデータ・プロジェクト・マネージャー

Darin Watsonインテル IT部門

ビッグデータ・プラットフォーム・エンジニア

Chandhu Yallaインテル IT部門

ビッグデータ・エンジニアリング・マネージャー

ある概念実証では、新しいプラットフォームによって

根本原因分析の実行と問題発生防止の自動化が実現され、問題発生件数の

30%削減が可能になりました。

Page 2: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

IT@Intelホワイトペーパー インテルのビッグデータ環境にApache* Hadoop*を統合

2 www.intel.co.jp/itatintel

目 次

概 要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

ビジネス課題 . . . . . . . . . . . . . . . . . . . . . . . . 2

重要性を増す 高速、大量のデータ分析 . . . . . . . . . 2

Apache* Hadoop* プラットフォームに特有の課題 . . . 3

Apache* Hadoop* ディストリビューションの選択 . . . . . . . . 3

戦略的目標 . . . . . . . . . . . . . . . . . . . . . . . 3

評価手法 . . . . . . . . . . . . . . . . . . . . . . . . . 3

評価基準 . . . . . . . . . . . . . . . . . . . . . . . . . 4

インテル® ディストリビューション・ プラットフォームの コンポーネント . . . . . . . . . . . . . . . . . . . . 6

インテルにおけるApache* Hadoop*の利用用途 . . . . . . . . . . . 6

Hadoop*プラットフォームの 設計と導入に役立つ ベスト・プラクティス . . . . . . . . . . . . . . 6

次のステップ . . . . . . . . . . . . . . . . . . . . . . . . . 6

まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

関連情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

略 語 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

ビジネス課題

デジタル・テクノロジーとデジタルストレージの普及は、従来のデータ・プラットフォームの処理能力を超える、データの爆発的な増加をもたらしました。ユーザーが生成するデータとマシンが生成するデータの例としては、ブログ、RFID、センサー・ネットワーク、ソーシャル・ネットワーク、インターネット・テキスト、セキュリティー・ログ、ビデオアーカイブなどが挙げられます。

インテルに現在導入されているビジネス・インテリジェンス(Business Intell igence; BI)プラットフォームは、多構造化データをサポートしていません。また、深い洞察と迅速でより良い意思決定をもたらすビッグデータ分析にも対応できません。企業内のデータの種類と量は劇的に変化しており、データ分析処理のビジョン、戦略、プラットフォームにも、それに対応した変革が求められています。

この問題に対処するため、インテル IT部門は、インテルで使用されているデータのうちの何割が利用可能かを評価し、そのデータを管理するための戦略を構築しました。1 広範囲にわたるデータと分析へのニーズを通じてビジネス価値を実現するため、さまざまな特性を持つデータの格納と分析をサポートする複数の BIプラットフォームを構想する戦略を策定しました。こうしたBIプラットフォームの例としては、コスト効率と拡張性に優れたインテル® アーキテクチャー・ベースのエンタープライズ・データ・ウェアハウス、インメモリー・データベース、カスタム・データ・ウェアハウスなどが挙げられます。この戦略には、利用用途ごとに最適な BIプラットフォームの選択も含まれます。2 こうした予測的な戦略は、急速に増加する多様なデータセットから価値を生み出す上で、重要なステップとなります。

重要性を増す高速、大量のデータ分析

インテルでは従来、リレーショナル・データベースの構造化データの分析を重視していました。しかし現在、データの大半は非構造化データになり、Web、ネットワーク、センサーなどのソースから驚異的なペースで蓄積され、大量のデータ分析を高速で実行する機能の重要性はさらに増しています。的確な情報に基づく迅速な意思決定をベースとするインテルの競争力を維持するには、従来よりもはるかに多くのデータソースを活用する必要があります。しかし、現在のリレーショナル・データ・ウェアハウスはこうしたデータ分析に対応するよう設計されていません。そこで、Not Only SQL(NoSQL)をベースとした BIプラットフォームの検討が行われました。大量の非構造化データを適切なタイミングで処理、格納するという目的には、このタイプのプラットフォームが最適です。

現在、最も広く使用されているNoSQLプラットフォームに、オープンソースの Apache* Hadoop*プロジェクトがあります。これには、Hadoop*分散ファイルシステム(Hadoop* Distributed Fi le System; HDFS*)と、分散型の非リレーショナル・データベースである HBase*が含まれます。その他の NoSQLソリューションは、オープンソースであれ、独自規格に基づくものであれ、Hadoop*やHBase*に比べるとまだまだ未成熟です。Hadoop*ベースのプラットフォームには、成熟度の高さに加えて、ニーズに応じて進化する柔軟な ITエコシステムを維持できるというメリットがあります。

純粋なオープン・ソース・コード、サードパーティーのディストリビューションなど、複数のHadoop*ベース・ソリューションが利用可能です。現時点では、純粋なオープンソース版の Hadoop*はバッチ処理用に設計されており、HBase*は高速処理向けには最適化されていません。インテル IT部門は、サードパーティーの Hadoop*ディストリビューションがインテルの分析ニーズに適合すると判断しました。

1 詳細については、『Enabling Big Data Solutions with Centra l ized Data Management』(2013年 1月)を参照してください。

2 詳細については、『Using a Multiple Data Warehouse Strategy to Improve BI Analytics』(2013年 3月)を参照してください。

IT@Intel

IT@Intelは ITプロフェッショナル、マネージャー、エグゼクティブが、インテルIT 部門のスタッフや数多くの業界 ITリーダーを通じ、今日の困難な IT 課題に対して成果を発揮してきたツール、手法、戦略、ベスト・プラクティスについて詳しく知るための情報源です。詳細については、http://www.intel .co . jp/itatintel/ を参照してください。あるいはインテルまでお問い合わせください。

Page 3: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

インテルのビッグデータ環境にApache* Hadoop*を統合 IT@Intelホワイトペーパー

3www.intel.co.jp/itatintel

Apache* Hadoop* プラットフォームに特有の課題

インテルの各ビジネスグループでは、Hadoop*ベースのソリューションを使用することの価値は認めているものの、以下の問題があるために、実際の導入には困難が伴います。

• 大半の Hadoop*ベース・プラットフォームが、オープン・ソース・テクノロジーに基づいていること。オープン・ソース・テクノロジーの開発とサポートを管理することは、インテルのほとんどの開発コミュニティーにとって新しい考え方であり、製品とキャパシティーの管理、ストレージサービスと移行サービス、ガバナンスなどの多くの面で開発作業に影響を与える可能性があります。

• アプリケーション開発者は新たなスキルを習得する必要があること。例えば、使い慣れた SQL言語から、Java*によるMapReduceコード作成に切り替える必要があります。また、分散型アルゴリズムは、従来のシーケンシャル・アルゴリズムに比べて非直感的で、一般的でもないため、異なる思考方法が求められます。

• ビッグデータ(特に多構造化ビッグデータ)が比較的新しい分野であること。利用可能なツール、ハードウェア、およびソフトウェア・ソリューションは刻 と々変化しており、これに対応するには、相当の教育投資と継続的な改善が必要です。

これらの課題に対処するため、インテル IT部門は、複数の Hadoop*ディストリビューションの評価と、完全統合型の実稼動プラットフォームの実現に取り組みました。私たちの使命は、ビッグデータ・サービス・プロバイダーのように働き、プラットフォームの導入を容易にし、各ビジネスグループが簡単にビッグデータからビジネス価値を得られるようにすることでした。

Apache* Hadoop* ディストリビューションの選択

インテル I T 部門の戦略は、A p a c h e * Hadoop* 対応インテル® ディストリビューション(インテル® ディストリビューション)とその他 2種類の Hadoop*ディストリビューションとを比較して、インテルの要件に最適なディストリビューションを選択し、この新しいテクノロジーとインテルの既存のインフラストラクチャーおよびその他の BIプラットフォームを統合することでした。この手法により、各テクノロジーの導入メリットが最大化され、各ビジネスグループはそれぞれの利用用途に最適な BIプラットフォームの使用が可能になります。

戦略的目標

評価プロセスでは、以下の戦略的目標を重視しました。

• コスト効率に優れた高性能なインテル® Xeon® プロセッサー E5ファミリー搭載サーバーで構成されるコンピューティング /ストレージ・クラスターを使用して、高性能かつ高速な分析を大量に提供し、ストレージコストを削減する。

• 単一のダッシュボードを使用して、サポートと運用管理の負担を軽減する。

• 480 Gbpsのクラスター・ファブリック帯域幅を備えた高性能ネットワークを利用して、大規模データセット処理のパフォーマンスを向上し、セキュリティー・レイヤーを強化する。

• 包括的なサービスとしてビッグデータ分析を提供し、ビッグデータ分析プラットフォームと既存のセキュリティー・インフラストラクチャー、データ・ウェアハウス、ツールを緊密に統合することにより、データ利用の高速化、各部門の導入時間の短縮、ビジネス価値の迅速な実現を可能にする。

• エンタープライズ・アクセス管理、役割に基づくセキュリティー機能の統合、ディレクトリー・サービスを使用して、構成および管理プロセスを簡略化する。

評価手法

まず、評価基準のリストを作成しました。各基準を選定し、選択の優先度に基づいた総合的な結果が得られるように、1から 5までの重み係数を割り当てました。次に、これらの基準に対して各ディストリビューションのテスト、検証、評価を行い、各ディストリビューションのスコアを算出しました。その結果、インテル® ディストリビューションは私たちの基準(各ビジネスグループによる導入の障壁の軽減を含む)を最もよく満たし、初期コストと継続的サポートの両面で総保有コスト(Total Cost of Ownership; TCO)が最小になることが確認できました。

図 1に示すように、インテル® ディストリビューションは、Apache* Hadoop*オープン・ソース・プロジェクトの完全なディストリビューションに加えて、MapReduce、HDFS*、および Hive*データ・ウェアハウス・インフラストラクチャーや Pig*データフロー言語などの関連コンポーネントを含む包括的なソリューションです。また、インテル® ディストリビューションは、Apache* Mahout*と、Apache* Hadoop*対応インテル® グラフ・ビルダーをサポートします。ソリューションの要素があらかじめ統合されているため、運用管理および導入の簡略化と迅速な市場投入が可能となり、トレーニングと投資資金を最小限に抑えられます。

インテル® ディストリビューションの選択を決定した後、インテル IT部門は、プラットフォーム全体の設計と実装を 5週間で完了しました。この成果は、インテル IT部門とインテルのソフトウェア &サービス事業部間の組織横断的な力強い協力関係によって可能になりました。

Page 4: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

IT@Intelホワイトペーパー インテルのビッグデータ環境にApache* Hadoop*を統合

4 www.intel.co.jp/itatintel

Hadoop*対応インテル® マネージャー導入、構成、モニタリング、アラート、セキュリティー

ZooKeeper*調整

MapReduce分散処理フレームワーク

HDFS*Hadoop*分散ファイルシステム

Sqoop*データ交換 HBase*

列指向のストレージ

Pig*スクリプト処理

Hive*SQLライクなクエリー

Oozieワークフロー

Flume*ログコレクター

図 1. Apache* Hadoop*対応インテル® ディストリビューションのソフトウェア・コンポーネントは、包括的なビッグデータ・ソリューションを提供します。

評価基準

ディストリビューションの評価基準を複数のカテゴリーに分類しました。ここでは、インテル® ディストリビューションがカテゴリーごとにインテルの要件をどのように満たすかについて説明します。

プラットフォーム・アーキテクチャーHadoop*ディストリビューションは、複数の高度なエンタープライズ要件を満たす必要があります。

• セキュリティー機能の統合:インテルでは、最大の資産の 1つである知的財産権を保護するために、広範囲にわたる情報セキュリティー・インフラストラクチャーを導入しています。

• 高可用性:インテルのビジネスは 24時間365日体制で運用されており、非稼動時間の発生は許されません。

• マルチテナント環境のサポート:Hadoop*クラスターのような分散型システムでは、優先度を指定してコンピューティング・リソースを特定のジョブに割り当てる必要があります。

• 既存のBIプラットフォームおよび分析ツールとの統合:インテルは、これまでデータ管理とデータ分析をサポートするツールとテクノロジーに多額の投資を行ってきました。

したがって、他のツールを簡単に統合して使用できる、オープン APIを提供するディストリビューションが求められていました。

今回の評価では、インテル® ディストリビューションがこの要件に最もよく適合することが分かりました。

統合の詳しい内容インテル® ディストリビューションは、以下のすべての機能との統合が可能です。

• 既存のデータ・ウェアハウスおよび大規模並列処理システム

• BIレポーティング・ツールおよび分析エンジン

• 抽出、ロード、転送ツールなどのさまざまなデータ処理ツール

• エンタープライズ・スケジューリング・ツールおよびアクセス管理ツール

• M a h o u t *などの高度な分析ツール。M a h o u t *は、MapReduceアルゴリズムを組み込み、オープンソースの R統計プログラミング言語を統合した機械学習ライブラリーです。

管理、運用、サポート機能はもちろん重要ですが、管理、運用、サポートの容易さも、TCOに影響を与え

る要因になります。そのため、それぞれのHadoop*ディストリビューションについて、アップグレード、プロビジョニング、構成管理の各機能と、その使いやすさ、習得の容易さを検討しました。

そこから得られた情報を基に、サポートチームの形成に必要な作業量と、必要とされるサプライヤー・ベースのトレーニング /コンサルティング・サービスの量について、経営担当の役員たちとも話し合うことができました。

今回の評価の中で、評価チームはインテル® ディストリビューションに関する特別なトレーニングを必要としていないことが判明し、インテル® ディストリビューションの導入と統合の容易さが強調されました。インテル® ディストリビューションは簡単に習得できますが、正式なトレーニングも利用可能です。ディストリビューションの評価が完了してから実稼動版を実装するまでの間に、エンジニアリング・チームは、インテル® ディストリビューション製品チームからトレーニングを受けました。このトレーニングにより、技術的な問題を解決し、差し迫った導入と実装のための知識と自信を得ることができました。

インテル® ディストリビューションには、Hadoop* 対 応インテ ル® マネージャー(インテル® マネージャー)が含まれます。インテル® マネージャーは、Hadoop*クラスターのインストール、構成、管理、モニタリング、運用のために設計された、Webベース

Page 5: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

インテルのビッグデータ環境にApache* Hadoop*を統合 IT@Intelホワイトペーパー

5www.intel.co.jp/itatintel

パフォーマンスHBase*をデータソースとする

サーバー 1台当たり1秒に 1,000レコードを挿入サーバー 1台当たり1秒に 400以上のクエリーを

ディスクから読み出す

0

1,000

2,000

3,000

4,000

Apache* Hadoop*対応インテル® ディストリビューション

オープンソース

700 3,500

5倍リアルタイム・ジョブのパフォーマンス向上

図 2. インテルのハードウェアに最適化されたApache* Hadoop*対応インテル® ディストリビューションは、最適化されていないオープン・ソース・コードに比べてパフォーマンスが 5倍に向上します。インテル社内での測定値。

の管理コンソールです。このソフトウェアは、Nagios*とGangl iaを使用して、クラスター内のリソースのモニタリングとアラートの構成を行います。IT 部門の各チームは、最小限のトレーニングを受けただけで、インテル® マネージャーを使用して Hadoop*クラスターのセットアップ、管理、セキュリティー、トラブルシューティングを合理化できました。

また、インテル® マネージャーは、Kerberosと内蔵のアクセス制御規則を使用した安全なユーザー認証および承認をサポートしています。この使いやすい強力なツールにより、手間のかかるクラスター管理に労力を費やすことなく、Hadoop*環境からビジネス価値を引き出すことに労力と時間を集中できます。

独自の価値提案各ディストリビューションの評価では、サードパーティー・サプライヤーが提供する独自の価値についても、他のディストリビューションや純粋なオープン・ソース・コードと比較、検討しました。また、各ディストリビューションがどの程度オープン・ソース・コミュニティーとの連携を保ち、Hadoop*リリース・ロードマップとの整合性を維持しているかも評価しました。

その結果、インテル® ディストリビューションには以下のメリットがあり、他の 2種類のディストリビューションに比べて最も高い価値をもたらすという結論が得られました。

• インテル® アーキテクチャーに最適化されている

• インテル® AES New Instructions(インテル® AES-NI)を利用できる

• オープン・ソース・コミュニティーとの整合性を完全に維持し、将来も新機能の導入の遅れを回避できる

インテル® アーキテクチャーへの最適化評価した他のディストリビューションはソフトウェアのみを重視するものでしたが、インテルのソフトウェア・チームは、オープンソースの Hadoop*スタックを最適化して、高密度でコスト効率と拡張性に優れたインテル® Xeon® プロセッサー E5ファミリーおよびインテル® Xeon® プロセッサー E7ファミリーをフルに利用できるようにしたため、データ分析の所要時間が飛躍的に短縮されまし

た。Hadoop*コードは高度な分散処理コードであるため、インフラストラクチャー全体でコーディングの効率が大きく向上し、サーバーとストレージ・コントローラーのパフォーマンスの向上、消費電力の削減、必要なキャパシティーの縮小が可能になります。

インテル® ディストリビューションは、HBase*に格納された大規模データセットに対する超高速クエリーおよび分析機能を提供します。図 2に示すように、インテル社内の測定では、インテル® アーキテクチャー上でフルに最適化されたインテル® ディストリビューションは、最適化されていないオープン・ソース・スタック上で同じジョブを実行した場合に比べて、パフォーマンスが 5倍に向上しました。このような最適化による分析処理の高速化は、常に最適なビジネス価値をもたらすために欠かすことのできない俊敏な意思決定を可能にします。

ソリューション・スタックに組み込まれた セキュリティー機能今回の評価では、HDFS*およびMapReduceに対応したインテル® AES-NI暗号化を利用してファイルレベルとセルレベルの両方で暗号化処理を高速化できるディストリビューションは、インテル® ディストリビューション以外にありませんでした。また、インテル® ディストリビューションは、ディレクトリー・サービスを使用してきめ細かなアクセス制御リストを利用できるため、さらに優れた価値を生み出します。

インテル® Xeon® プロセッサーは、データセンターからデスクトップ・クライアントまたはモバイル・クライアントに至るまでのコンピューティング・プラットフォーム全体を対象とする、ハードウェア支援型セキュリティー・テクノロジーを備えています。これらのテクノロジーを組み合わせて、暗号化データにアクセスするときの応答の高速化、機密情報の保護を支援する強力な認証、セキュリティー侵害に対する保護の強化をサポートします。また、インテル® ディストリビューションには、より安全なデータ転送のための強化された認証とプロビジョニングなど、多くのデータ・セキュリティー機能も組み込まれています。

オープンソース標準規格および ロードマップとの整合性利用可能な技術面の機能に関しては、オープン・ソース・コミュニティーのリリースとの

Page 6: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

IT@Intelホワイトペーパー インテルのビッグデータ環境にApache* Hadoop*を統合

6 www.intel.co.jp/itatintel

整合性を確保するために必要な投資とのバランスがとれていなければなりません。TCOの削減を達成するには、ソリューションを構成するテクノロジーに付加価値があるだけでなく、ソリューションの導入と保守が容易で、将来的なテクノロジーの進化とともに拡張できる必要があります。

インテルはオープン・ソース・ソフトウェアへの積極的な取り組みで知られており、Hadoop*フレームワークおよび関連プロジェクトにも大きな貢献を果たしています。Hadoop*へのインテルの貢献は、オープン・ソース・コミュニティーとユーザーが、次世代データセンターの基盤となるハードウェア、ストレージ、ネットワーキング・テクノロジーをフルに利用できるようにすることを重視しています。今回の評価では、インテル® ディストリビューションは、他のサードパーティー・ディストリビューションと同程度に、オープン・ソース・ロードマップと緊密に連携しているという結論が得られました。また、インテル® ディストリビューションのコンポーネントの大半は、オープン・ソース・コードを利用できます。

インテル® ディストリビューション・ プラットフォームのコンポーネント

インテル IT 部門では、インテルにおけるビッグデータの実使用例が増加を続けており、時間の経過とともにニーズが変化していくことを認識していました。したがって、演算量の多い利用用途と大量のストレージを必要とする利用用途の両方をサポートする、コスト効率と拡張性に優れたプラットフォームを構築する必要がありました。

計画段階での初期投資の結果、次のような特長を持つプラットフォームを実現できました。

• 非構造化分析データおよび多構造化分析データの利用用途をサポート

• 適正な規模のプラットフォーム・デザインとアーキテクチャーで、現在および近い将来のニーズに対応

• 進化するニーズに応じて拡張可能

インテルの Hadoop*プラットフォームは、以下の基本コンポーネントで構成されます。

• 16ノードのインテル® Xeon® プロセッサー E5ファミリー搭載サーバー(合計 192コアを搭載し、合計 96テラバイトのストレージ容量を使用)

• Hadoop* 1.xリリースをベースとする、最新世代のインテル® ディストリビューション

インテルにおける Apache* Hadoop*の利用用途

インテル IT 部門は、インテル® ディストリビューションの非構造化データ分析および多構造化データ分析機能によって大きなビジネス価値が得られる初期の利用用途を、3つ特定しました。

• インシデント予測:インテル IT 部門では、クライアントの問題発生を事前に予測および監視し、ビッグデータを利用して根本原因分析と問題発生防止を自動化しようと努めてきました。概念実証(Proof of Concept; PoC)を実施した結果、問題発生件数を 30%(1週間当たり約 4,000件)削減できることが判明しました。

• レコメンデーション・エンジン:インテル IT部門では、コンテキスト認識型アプリケーションを利用した、より良いモバイル体験の提供に取り組んできました。Hadoop*の上でMahout*を利用することにより、さまざまなソリューションから利用できる、拡張性の高いレコメンデーション・サービスを提供できます。

• カスタマーインサイト:この利用用途は、生の Webデータを処理し、そのデータと他のデータ・ウェアハウス内での利用が可能な内部消費データとを統合します。Web測定基準の利用により、インテルのサプライチェーンは製品の在庫状況を改善し、それぞれの地域ごとに最適な在庫水準を維持できます。

インテル IT部門は、インテルの各ビジネスグループと積極的に協力し、その他の利用用途の特定と導入に取り組んでいます。

Hadoop*プラットフォームの設計と導入に役立つベスト・プラクティス

インテル® ディストリビューションを使用したHadoop*プラットフォームの評価、設計、導入の過程で、いくつかのベスト・プラクティスを特定しました。これらのベスト・プラクティスに従って、プラットフォームを迅速に実装し、そこからビジネス価値を引き出すことができました。

次ページの表 1は、これらのベスト・プラクティスを示しています。

次のステップ

インテル IT 部門は現在、3つの顧客プロジェクトに積極的に取り組んでいます。2012年には、BIのスキルを備えた 5人のスタッフで構成される小規模なチームが 6カ月で最大 1,000 万米ドルの価値を創出できることを示しました。現在は、その 5~10 倍の収益が期待できるビッグデータ分析の利用用途について検討しています。

これらの利用用途は、インテル® ディストリビューションのビジネス価値をさらに実証するはずです。そして、利用用途への需要が増大するにつれて、プラットフォームとその機能を拡張していく予定です。また、最初の一連の利用用途の研究を継続し、プラットフォームの理解を深めて進化させることで、より堅固なプラットフォームを提供していく予定です。この手法により、私たちはビジネス価値と既知の最適手法を素早く獲得し、それらを新たな利用用途へと適用できます。ビッグデータ分析のビジネス価値の大部分は、予測的分析から得られると考えています。大規模なデータセットのデータマイニングにも価値はありますが、Hadoop*プラットフォームのパワーを使って将来のトレンドを見極めることには、さらに大きな価値があります。

インテル IT 部門は、この新しい BIプラットフォームを完全統合型 BIサービスの一部とすることで、現行の BIプラットフォームと関連する ITプロセスとを統合します。このサービスには、開発およびアーキテクチャーに関する処方的ガイダンスの提供や、標準化されたプロセスおよびツールが含まれます。

Page 7: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

インテルのビッグデータ環境にApache* Hadoop*を統合 IT@Intelホワイトペーパー

7www.intel.co.jp/itatintel

表 1. Hadoop*プラットフォームの設計と導入に役立つベスト・プラクティス

社内リソースと外部リソースを活用する

できるだけ早い時期から トレーニングを実施する

オープン・ソース・ソリューションの開発には従来と異なるアプリケーション開発スキルが必要であり、従来の開発手法はオープンソース環境では不十分なことがあります。インテル IT部門は、開発者が従来の考え方や作業の進め方、対応の仕方を変える必要があることを認識し、必要な新しいスキルの開発に役立つトレーニングを提供しました。

局所的で小規模な専門家のチームを 発展させてドメイン専門家にする

アーキテクト、技術者、開発者からなる専門チームを結成し、意思決定の権限を与えました。この手法により、ソリューションを迅速に提供し、インテルにおけるビッグデータ・テクノロジーの採用率を上げられることが分かりました。

オープン・ソース・コミュニティーの リソースを理解し、一貫した形で 使用する

利用可能なオープン・ソース・プロジェクト、再利用可能な既存のオープン・ソース・コード、および業界が提供するソリューションをよく理解することで、社内の利用用途と既存のプロジェクトまたはソリューションが一致する場合に PoCの再実行を回避し、最終的に時間と労力を節約できることが分かりました。

社内および外部の対象分野の 専門家に相談する

対象分野の専門家に相談することで、Hadoop*プロジェクトを順調に始動することができ、技術チームのスキル習得が容易になることが分かりました。対象分野の専門家は、特定のプロジェクトに最適な手法とツールについてアドバイスを提供し、ビッグデータとHadoop*について分かりやすく説明してくれました。

小規模なプロジェクトから始めて、作業や設計のやり直しを減らす

コア・フレームワークと、ビジネス要件に 重要な要素を開発する

小規模な専門家チーム、プラットフォーム、プロジェクトから始めることで、実稼動プラットフォームを5週間で提供できました。一度に2~ 3件のプロジェクトを試験導入するときも、この手法を引き続き使用しています。

できるだけ仮想マシンを使用する 仮想化により、システムリソースの使用制限を超えずに、機能テストをサポートできます。また、プロビジョニングを迅速に実行できるので、システムの保全性の検証に必要な再構築が可能になります。

プラットフォームとアプリケーションの 統合を優先する

既存のツールおよびプラットフォームとHadoop*コア・フレームワークの統合に重点を置くことで、ニーズの進化に応じたプラットフォームの拡張とHadoop*の補完的コンポーネントの追加が簡単に行えることが分かりました。

俊敏な手法を使用する

俊敏性と柔軟性を重視して ソリューションを提供する

必要以上に高度なソリューションや完璧なソリューションを目指すのではなく、直ちに結果が得られるソリューションを迅速に提供することを優先します。この手法により、短期間でビジネス価値を実現できます。

現在のニーズを満たすのに十分な 標準的製品を公開する

ビッグデータ・ソリューションのエコシステムは変化が激しく、新しいベンダーや新しい統合ツールが次々に登場してきます。月単位や年単位でなく、日単位や週単位の更新サイクルに追従するのは簡単ではありません。Hadoop*テクノロジーは 6カ月の間に数世代も進化することがあるため、テクノロジーの設計と決定に6カ月を費やしている余裕はないことが分かりました。

大きな価値要件を中心として プロジェクトを設計し、短い期間ごとに 成果を提供する

4~ 6週間ごとに小分けしてプロジェクトの成果を提供します。ディストリビューションの評価に適用した俊敏な手法に従い、その手法を継続的なプロジェクトにも引き続き適用します。

自動化と標準化に投資する

自動化により、サポート、保守管理、 サービス提供を強化する

エンジニアリング・ビルド・フェーズおよびテストフェーズでの自動化スクリプトの開発には時間がかかりましたが、結局はそれに見合う価値が十分に得られました。自動化により、将来のプロジェクトで大きな時間短縮が可能になります。

再利用可能なテンプレートと スクリプトを標準化して作成する

小規模な専門家のチームに、標準化に関する決定を任せました。その決定は必ずしも理想的なものではありませんでしたが、より多くのユーザーがプラットフォームを使い始めるときに役立つ堅固な基盤が得られました。

開発と制御の標準を適用する マルチテナント・クラスターを実装すると、コンピューティング・リソースの制御はある程度失われます。そこで、ジョブの優先度に応じてコンピューティング・リソースの割り当てと優先度の指定を上手に行えるような作業手順と制御プロセスを確立しました。

トレーニングの要件に対応する

スキルの習得を支援する インテルの技術チームはオープン・ソース・テクノロジーに慣れていなかったため、実際の分析を通じて、あるいは Hadoop*開発者および管理者向けトレーニング・コースの受講により、ラボ環境内でオープン・ソース・テクノロジーについてよく理解できるように時間をとりました。例えば、Java*でのMapReduceコードの作成や、分散型アルゴリズムの開発について学ぶ必要がありました。

業務横断的なトレーニングを提供する ビッグデータ分析のスキルとトレーニングは、アプリケーション開発者、技術者、アナリストなどの職務の枠を超えていることが分かりました。例えば、技術者がデータの最終的な用途を完全に理解するためには、データ分析のトレーニングを受ける必要があります。

ユーザーと積極的に対話する

ユーザーを適切なソリューションに 導くために、新たな対話手段を 積極的に管理する

Hadoop*プラットフォームへの関心のレベルは高く、実稼動プラットフォームが完成する前に、非常に多くの要求が寄せられました。この状況に対処するため、ビッグデータとは本当はどのようなもので、どの BIプラットフォーム(インメモリー・データベース、Hadoop*、エンタープライズ・データ・ウェアハウスなど)が各ユーザーのデータセットに最適であるかについて、ユーザーを啓発する必要がありました。ユーザーを適切なソリューションに導くことは、各プロジェクトの成功に役立ちます。

限られたリソースの 最適な利用のために、 プロジェクトの優先度を指定する

利用可能なリソースは限られているため、Hadoop*プラットフォームに適したプロジェクトを特定した後、プロジェクトの優先度を指定するための情報を集めることにしました。そこで、ユーザーに簡単な調査への回答を依頼し、重みを付けた尺度によってプロジェクトを評価しました。その結果に基づいて、高いビジネス価値とユーザーの確実な関与が得られるプロジェクトを特定しました。この方法は、プロジェクトの優先度を指定するツールとしてとして有効であることが分かりました。

知識の共有を通じて協力する ユーザーは、インテル IT部門のエンジニアリング・チームおよびソリューション・チームを信頼して、指導と質問への回答を求めてきます。ユーザーを啓発し、ビッグデータの概要を説明する必要があることが分かりました。そこで、ビッグデータに慣れていないユーザーに、チーム全体で知識を共有できるワークグループの形成を推奨しています。インテル IT部門は、オンライン・グループ・ディスカッション・フォーラム、ブログ、ニュースレター、技術フォーラムまたはビジネス・ユーザー・フォーラムなどのナレッジリソースをユーザーに紹介しています。

Page 8: インテルのビッグデータ環境にApache* Hadoop* を …...トフォームに、オープンソースのApache* Hadoop*プロジェクトがあります。これには、

性能に関するテストや評価は、特定のコンピューター・システム、コンポーネント、またはそれらを組み合わせて行ったものであり、このテストによるインテル製品の性能の概算の値を表しているものです。システム・ハードウェア、ソフトウェアの設計、構成などの違いにより、実際の性能は掲載された性能テストや評価とは異なる場合があります。システムやコンポーネントの購入を検討される場合は、ほかの情報も参考にして、パフォーマンスを総合的に評価することをお勧めします。インテル製品の性能評価についてさらに詳しい情報をお知りになりたい場合は、http://www.intel .co. jp/content/www/jp/ja/benchmarks/resources-benchmark-l imitations.html を参照していただくか、1-800-628-8686 または 1-916-356-3104(アメリカ合衆国)までご連絡ください。

インテル・プロセッサー・ナンバーはパフォーマンスの指標ではありません。プロセッサー・ナンバーは同一プロセッサー・ファミリー内の製品の機能を区別します。異なるプロセッサー・ファミリー間の機能の区別には用いません。詳細については、http://www.intel .co. jp/content/www/jp/ja/processors/processor-numbers.html を参照してください。

本資料に掲載されている情報は、インテル製品の概要説明を目的としたものです。本資料は、明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず、いかなる知的財産権のライセンスも許諾するものではありません。製品に付属の売買契約書『Intel 's Terms and Condit ions of Sale』に規定されている場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または黙示の保証(特定目的への適合性、商品適格性、あらゆる特許権、著作権、その他知的財産権の非侵害性への保証を含む)に関してもいかなる責任も負いません。

Intel、インテル、Intelロゴ、Xeonは、アメリカ合衆国および /またはその他の国における Intel Corporationの商標です。

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

インテル株式会社 〒 100-0005 東京都千代田区丸の内 3-1-1 http://www.intel.co.jp/

©2013 Intel Corporation.  無断での引用、転載を禁じます。 2013年 9月

328640-001JA

JPN/1309/PDF/SE/IT/TC

協力者

Moty Fania インテル IT部門

略 語

BI Business Intelligence (ビジネス・インテリジェンス)

HDFS* Hadoop* Distributed File System (Hadoop*分散 ファイルシステム)

NoSQL Not Only SQL

PoC Proof of Concept (概念実証)

TCO Total Cost of Ownership (総保有コスト)

インテル IT部門のベスト・プラクティスの詳細については、 http://www.intel.co.jp/itatintel/ を参照してください。

まとめ

インテル IT部門は、インテル® ディストリビューションとその他 2種類の Hadoop*ディストリビューションとを比較した結果、インテルのニーズにはインテル® ディストリビューションが最適であることを確認しました。さらに、インテル® ディストリビューションは、評価対象となった他のディストリビューションよりも大きな価値をもたらします。インテル® ディストリビューションは、既存のセキュリティー /運用管理 /分析ツールとのシームレスな統合をサポートし、マルチテナント環境をサポートする可用性の高いプラットフォーム・アーキテクチャーを採用し、Hadoop*対応インテル® マネージャーも用意され、インテル® アーキテクチャーに対して最適化されています。インテル® ディストリビューションのメリットとしては他にも、広範囲にわたるサポートサービスおよびトレーニングが用意されていること、オープン・ソース・コミュニティーとの緊密な関係が築かれていることが挙げられます。

インテル IT部門は、実稼動版のインテル® ディストリビューションをすでに導入し、BIポートフォリオに Hadoop*プラットフォームを追加することで得られるビジネス価値を示す 3つの利用用途を特定しています。あるPoCでは、この新しいプラットフォームによって、根本原因分析の実行と問題発生防止の自動化が

実現され、問題発生件数の 30%削減が可能になりました。

今回の評価と導入の過程で、インテル IT部門は、インテルの現在のニーズに対応するだけでなく、将来的なニーズの変化に応じて拡張可能で、コスト効率、柔軟性、拡張性に優れた適正規模のビッグデータ・プラットフォームの構築に役立つ数多くのベスト・プラクティスを開発しました。2012年、インテル IT部門はビッグデータ分析の目標達成に向けて大きく前進しました。2013年以降も、私たちはこれらの成功を踏まえた上で、さらなる開発活動に取り組んでいきます。

関連情報

• インテルのビッグデータに関する参考資料:http://www.intel.com/bigdata/(英語)

• 『E n a b l i n g B i g D at a S o l u t i o n s w i t h C e n t r a l i z e d D a t a M a n a g e m e n t』 (2013年 1月)

• 『U s i n g a M u l t i p l e D at a Wa re h o u s e St rat e g y to I m p rove B I A n a l y t i c s』(2013年 3月)