2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on...

17
Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. Proprietary & Confidential NAUTILUS 2011/6/22 株式会社ノーチラス・テクノロジーズ http://www.nautilus-technologies.com/ mailto:[email protected] Tel: 03-6712-0636 Hadoopによるバッチ処理の導入 on AWS

description

2012/06/22 AWSパートナー様向け発表会にて、上半期のユーザ事例によるAWSパートナーアワードの発表を致しました。ビッグデータ部門を受賞されました、株式会社ノーチラス・テクノロジーズ様の資料をご紹介致します。案件名: 株式会社アンデルセンサービス様 原価計算システムでのHadoop活用事例Nautilus_s大手食品メーカーのアンデルセングループの情報システムを支えるアンデルセンサービス殿は、ノーチラス・テクノロジーズが開発した「Asakusa Framework」とAWSを利用して、原価計算バッチ処理システムを構築されました。4時間かかっていた原価計算バッチ処理を20分に短縮されました。また、インフラ構築の時間を大幅に短縮、初期コストも低減し、Hadoopのクラスタを早期に準備できることを実証。AWSの従量課金体系により、オンプレミス想定構築運用費用と比較し、約10分の1に運用コストを低減しこの分野でのAWSの効果を実証されました。このご貢献を評価し、今回アワードを授与させていただきました。

Transcript of 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on...

Page 1: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2011 Nautilus Technologies, Inc. All rights reserved. Proprietary & Confidential NAUTILUS

2011/6/22 株式会社ノーチラス・テクノロジーズ

http://www.nautilus-technologies.com/ mailto:[email protected]

Tel: 03-6712-0636

Hadoopによるバッチ処理の導入 on AWS

Page 2: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 1 Proprietary & Confidential

会社紹介  2012年10月設立

 ノーチラス・テクノロジーズ  –  消費財・流通系のミドルウェアの開発・販売・コンサル・構築  

 先端技術によるソリューションをエンタープライズ・システムへ適用している   業務系SI/コンサル〜守備範囲は流通・製造・サービス  

–  Asakusa  Framework   Hadoopを基幹バッチ処理に適用するためのアプリケーションフレームワークとして、Asakusa  Frameworkを開発し、OSSとして公開中。  

–  Asakusa  Frameworkを利用することで、今まで敷居の高かった分散環境の、エンタープライズへの適用が可能。  

–  流通BMS事業  消費財流通のEDI標準であるBMS準拠のB2B-­‐ミドルウェアを提供  

–  単なるデータ交換ではなく、より生産性の高い情報共有の仕組みを提供することにより、企業間取引のみならず企業内部での生産効率性に秀でるソリューションを提供している

Page 3: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 2 Proprietary & Confidential

そもそも何が問題なのか?

Page 4: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 3 Proprietary & Confidential

そもそも何が問題なのか

 既存のバッチ処理は一向に改善されていない  –  汎用機からオープン系のレガシー・マイグレーションは、フロントエンドのオンライン処理に

とどまり、バックエンドのバッチ処理は、十数年来にわたり放置されている。  –  結果として  

 バッチ処理の負荷に対する対策に打つ手がなくなりつつある。   バッチ処理時間の突抜けによる、「直接損害」の発生が大規模障害に発展することも

起きるようになってしまった  

バッチ速度の向上は、既存のテクノロジーでは限界がある   分散IOを利用したHadoopでバッチ処理の高速化が可能   従来のスーパーコンピューターの技術を利用  

Page 5: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 4 Proprietary & Confidential

アンデルセン・サービス様

Page 6: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 5 Proprietary & Confidential

アンデルセン様のケース

 現状  – 原材料からの製品原価計算で4時間近くかかっている。  

 ビッグデータではないが、BOMの展開・原価の積上げに時間がかかっていた。  

 木構造の関連を辿るのでRDBMSだと効率が悪い。  

– 課題   原価計算のシミュレーションをかなりの頻度で行いたい  

– 現状の4時間バッチでは、その時間のバッチ・ウィンドウの確保が週に2回が限界  

– 原価は想定や予算ではなく、「アクチュアルの数字」で行いたい   実際のBOMのデータそのものを利用したい  

Page 7: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 6 Proprietary & Confidential

3.11

Page 8: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 7 Proprietary & Confidential

バッチ実行時間について

 実際の実行時間  –  Clusterの起動と停止  

 4分~非常に高速  

–  データの送受信の転送   5分~数G程度なので、時間はかからない→基幹系のデータの特徴  

–  実際の計算   12分~実際の計算はこの程度で終わっている。  

     

2   12   3   2  

0   5   10   15   20   25  

バッチ処理時間

Clusterの起動 データの転送 原価計算 データの受信 Clusterの停止

4時間のバッチ処理が20分で終了

Page 9: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 8 Proprietary & Confidential

Asakusa+AWS

 AmazonVPCでHadoop基幹バッチを動かす   AmazonVPCを利用することで、特別の追加的なハードは一切不要。あたかも自社の

ネットワークの延長上で、バッチが動いているように見える

アンデルセン様データセンター Amazon VPC

インターネット

DBサーバ

バイナリファイル バイナリファイル 入力ファイル

結果ファイル

Hadoop Slave

①本番のDBサーバーから、原価計算に必要な情報を

取得する。

②シーケンスファイルで転送する。

③受信したデータをHDFSへ登録する。

④バッチを実行する。 ④

⑤バッチ処理結果を圧縮して転送する。

⑥処理結果をDBサーバーへアップデートする。

⑥ Hadoop Master バッチサーバ

バイナリファイル バイナリファイル

Page 10: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 9 Proprietary & Confidential

Asakusa

 Hadoopは基本的にBIを前提の仕組みで、足りない部分が多い  –  そもそも大規模開発の手法がない  –  MRやWritableの実装が職人芸  –  テストツールが貧弱  –  運用についてはあまり考えていない  –  ちょっと人数が増えると制御不能になるのでPig・Hiveのような上位層の利用が必須になる。  

 ところが・・・Hadoopでは、基幹バッチでよく使われる「非常に多種類のデータ」の「単純な処理の組み合わせ」 を「複雑なフロー処理」で行う仕組みのための上位層がない。  

 Pig・Hiveではちょっと無理っぽい。また、開発方法論も特にない。テスト・運用ツールが不足している。  

Hadoop Core Core・HDFS・MapReduce

Pig Hive Asakusa

Oozie JP1等の通常管理

Page 11: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 10 Proprietary & Confidential

 データフローを意識したDSL  –  個々のデータが流れながら分類、変更されていく  –  データフロー形式で設計すれば実装も容易  

 DSLからコンパイラでMapReduceを生成  –  開発時にMapReduce自体はできるだけ意識させない  –  MapReduce特有のコードをコンパイラが自動生成  

Asakusa  DSL

• Asakusa  DSL

DSL  コンパイラ  

MR  #1  

MR  #2  

Page 12: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 11 Proprietary & Confidential

Hadoopによる基幹系バッチ処理の分散化はクラウドに適している Ø  データ量は、それほど大きく無い Ø  データ転送にコストがかからない Ø  クラウド上にデータを残さない Ø  インフラ構築及び運用コストが圧倒的に削減される Ø  グローバルレベルでDRが実現

Page 13: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 12 Proprietary & Confidential

AWSは、真のクラウドコンピューティング Ø  必要な時に必要なリソース Ø  Pay as you go Ø  4時間のバッチ処理が20分

Page 14: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 13 Proprietary & Confidential

私たちがやりたいこと Ø  エンタープライズシステムにイノベーションを   提供、日本企業の競争力強化。 Ø  次世代に強い日本を残す(大人の責任として)

Page 15: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 14 Proprietary & Confidential

私たちがやりたいこと Ø  エンタープライズの世界で20代〜30代の   若手エンジニアに輝いてもらいたい! (大人の責任として)

Page 16: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 15 Proprietary & Confidential

Page 17: 2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)

Copyright © 2012 Nautilus Technologies, Inc. All rights reserved. NAUTILUS 16 Proprietary & Confidential

ありがとうございました。