kukai: 省エネ世界2位のディープラーニング・スパコン

14
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 201781Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 角田 直行 kukai: 省エネ世界2位のディープラーニング・スパコン

Transcript of kukai: 省エネ世界2位のディープラーニング・スパコン

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

2017年8月1日

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

角田 直行

kukai: 省エネ世界2位のディープラーニング・スパコン

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

自己紹介

• 角田 直行(かくだ なおゆき)データ&サイエンスソリューション統括本部テクニカルディレクター

• 2005年 ヤフー中途入社• 地図や路線、ウェブ検索、検索エンジン、検索プラット

フォームなどの開発• 2012年にビッグデータやデータサイエンス領域に

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

ヤフーのDeep Learning事例

音声認識(YJVOICE)・Yahoo! JAPANや乗換案内など多数のアプリに搭載

Yahoo! JAPANアプリ・ニュース記事のレコメンデーション・ニュース記事の重複排除・ニュース画像のクロッピング

…他多数

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

背景

DLに適した環境の必要性

Goyal+, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

・今後のデータ増加、DL事例の増加・マルチノード、マルチGPUでのスケーラビリティ・世界Top企業の取り組み

自社インフラ技術の強化・グループにIDCフロンティア・数千台規模のHadoop運用実績・OpenStack、Open Compute Project・アメリカDC運用

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

きっかけ

• 数年前から調査を継続的に実施• Xeon Phi、GPU、FPGA、Ethernet、InfiniBand、水冷、液浸…etc

• 開発、検証向けに共用GPU環境を構築

• 2015年末に本格的に始動• 宮坂社長より「スパコン作ろう」「名前は『空海』で」

• 構成がスパコンに似ていたので「スパコン」として企画

• 2016年夏に構成を決定• 2016年末完成を目標に予定規模を修正

• ExaScalerスパコンやTSUBAMEを見学し液浸に決定

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

kukai

• 2017年3月末完成

• 構築費用: 約4億円

• IDCF 白河DCに設置

• 1サーバラック + 1液浸槽

• 設置にあたり壁面に工事

初の試みのため、物理的に距離が近いことも理由の一つ

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

kukai20ブリック構成、80ノード(1ブリックあたり4CPU & 8GPU)

CPU Xeon E5-2650L 1.7GHz, 14core v4GPU NVIDIA Tesla P100 PCIe 16GBNetwork InfiniBand FDR

フロリナートによる液浸冷却3M社製 フッ素系不活性液体の製品名称

・優れた電気絶縁性・無臭・毒性無し・粘性が低い・揮発性が高い・不燃性・オゾン破壊係数ゼロ

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

TOP500/Green500

スパコンの省エネランキングで世界2位

TOP500スコア 460.7 TFlops (465位)Green500スコア 14.04 GFlops/W (2位)

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

TOP500

・1993年に発足・年2回(6月, 11月)実施・LINPACKベンチマークにて評価・FLOPSという単位が使われる・近年は中国が台頭・日本は今回7, 8位にランクイン

https://www.top500.org/lists/2017/06/

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

Green500

・2005年に発足(2007年に開始)・指標はFLOPS/W・2016年よりTOP500ランクインが条件・今回、日本が上位4位独占・10位中6システムランクイン・TSUBAMEは上位常連

・10位中9システムがTesla P100採用・9位にFacebook・10位のNVIDIAは前回(2016/11)1位

https://www.top500.org/green500/lists/2017/06/

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

機械学習によるチューニング

• LINPACKチューニングは職人的スキルが必要• 専門スキルを持っていない• スパコン完成〜締め切りまでの時間が短い

• ベイズ最適化による自動化• 東京大学 大学院新領域創成科学研究科の佐藤一誠講師

との共同研究• 行列サイズ(N)やブロックサイズ(NB)など数項目を探索• 論文投稿予定

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

苦労?

• 少ない開発リソース• 自分含めて実質2名• スパコン知識ゼロ• 本業との片手間

• スパコンに対する初の試み• 液浸、InfiniBand• データセンターの設置、保守運用ナレッジ

• パーツ供給不足• メモリやGPUの供給不足で完成時期が不明

• ハード故障• 計測中に原因不明のハード故障が頻発• チューニングを充分に実施できず(空港でsubmit)

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

今後

• 実稼働に向け準備中• クラスタ管理、ソフトウェアスタック• YJVOICEなど既存Deep Learning実装を移行

• Green500• おそらく次回はTop500ランク外• 実稼働を優先

• 増強、増設• 今後の利用状況次第• 現棟でも増設可能だが、数が増えると新棟増設?

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

We are Hiring!

• データサイエンティストやインフラエンジニアを新卒、経験者ともに通年募集中

• もちろんリサーチャー、エンジニア、デザイナーも

• 詳細は公式採用ページまで

hr.yahoo.co.jp