Bthesis - A High-speed and Portable FPGA Accelerator
-
Upload
takuma-usui -
Category
Devices & Hardware
-
view
52 -
download
0
Transcript of Bthesis - A High-speed and Portable FPGA Accelerator
USB3.0接続の高速でポータブルなFPGAアクセラレータ
2015/02/16 平成26年度卒業研究発表会 @S422
B2: 計算機システム・集積回路(10:55-11:09) 発表7分 + 質疑応答7分
東京工業大学 工学部 情報工学科吉瀬研究室
11_03601 臼井 琢真
FPGAアクセラレータ►特定の処理を低消費電力かつ高速に実行可能
►科学技術計算やデータベース処理など
► IntelやdwangoがFPGAエンジニアを募集
目的: 高速かつポータブルなFPGAアクセラレータ►持ち運べる,様々な環境で使える
►ホストPCとのデータ送受信のためのインターフェースが重要
►対象アプリ: 32bit要素のソーティング
背景と目的
1
FPGAとの接続インターフェース比較
USB3.0はUART, USB2.0よりは圧倒的に速い
PCI Expressや10Gbps Ethernetよりは遅い
しかし接続が非常に容易で,様々な環境で使える
2
接続方法 USB3.0 USB2.0 UART PCI Express Ethernet
最高速度(理論値) 5Gbps 480Mbps 数Mbps 8GB/[email protected] x8
1GB/[email protected] x1
1Gbps@GbE
10Gbps@XGbE
内蔵/外付 外付 外付 外付 内蔵 外付
最新PCでの普及率 ○ ○ × △ ×(XGbE)
ホットスワップ ○ ○ × ○ ○
バスパワー 900mA,5V 500mA,5V × 25/75W@x16 ×
Merge Sorter Tree
複数のソート済みデータ列を1つにマージするデータパス
図は 4-way Merge Sorter Tree
ソート対象のデータ列が入力数より多い場合は複数回通す必要
4参考: A high performance sorting architecture exploiting run-time reconfiguration on fpgas for large problem sorting.
(Dirk Koch and Jim Torresen, FPGA ’11,)
>
>
> > Comparator
Short FIFO
入力レーン=
way
実装・評価
実装►8-way Merge Sorter Tree を実装
►ハードウェア記述言語: Verilog HDL
►論理合成: Xilinx ISE 14.7
►H/W使用量: Block RAMは20%, Sliceは19% (8-way実装時)
►FPGA: Xilinx Artix-7 XC7A100T @ 100MHz
►DRAM: DDR3 256MB @ 400MHz
評価►32bitのint型整数32M個のソーティングの実行時間を計測
◇USB3.0を介してFPGAアクセラレータにデータを送信,結果を受信
◇ホストPCでのマージソートと比較
►ポータビリティ評価のため,4つの評価環境を用意
◇USB3.0環境,USB2.0環境
◇デスクトップPCとラップトップPC
6
評価―int型32M個のソーティング
11
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
Ela
pse
d T
ime [
s]
Data Transfer
Sorting only
USB3.0
USB2.0
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
Ela
pse
d T
ime [
s]
Data Transfer
Sorting only
USB3.0
USB2.0
分析
12
性能向上不可能
通信時間 > CPUにおけるソーティング時間
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
Ela
pse
d T
ime [
s]
Data Transfer
Sorting only
USB3.0
USB2.0
分析
13
通信時間大幅減
USB3.0で性能向上
評価 @USB3.0環境
14
4.30 3.27 8.75 3.28 0
2
4
6
8
10
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B
Ela
pse
d T
ime [
s]2.66x
Faster
1.31x
Faster
Merge Sorter Treeを32-wayに拡張しComputer AのCPU比1.93倍の高速化達成
様々な環境で使える
まとめ・今後の課題
まとめ►USB3.0接続の高速でポータブルなFPGAアクセラレータを提案
►対象アプリ: ソーティング
►USB2.0環境では提案するFPGAアクセラレータを用いても性能が向上しない
►USB3.0環境では性能が向上
◇ラップトップPC比2.66倍
◇デスクトップPC比1.31倍→Tree拡張時1.93倍
今後の課題►Merge Sorter Treeを更に拡張
►他のアプリケーションの高速化
◇グラフ処理,画像処理,データ圧縮etc…
15
発表履歴・予定
電子情報通信学会研究会(RECONF) 発表 (2015/01/30)
►「USB3.0接続の手軽で高速なFPGAアクセラレータ」
►臼井 琢真,小林 諒平,吉瀬 謙二
情報処理学会 第77回 全国大会 発表予定 (2015/03/18)
►「手軽な外付けFPGAアクセラレータによるソーティングの高速化」
►臼井 琢真,吉瀬 謙二
ARC 2015 POSTER SESSION (2015/04/15-17)
► “A Challenge of Portable and High-speed FPGA Accelerator”
►Takuma USUI, Ryohei KOBAYASHI, Kenji KISE
16