Bthesis - A High-speed and Portable FPGA Accelerator

17
USB3.0接続の高速でポータブルな FPGAアクセラレータ 2015/02/16 平成26年度卒業研究発表会 @S422 B2: 計算機システム・集積回路(10:55-11:09) 発表7+ 質疑応答7東京工業大学 工学部 情報工学科 吉瀬研究室 11_03601 臼井 琢真

Transcript of Bthesis - A High-speed and Portable FPGA Accelerator

USB3.0接続の高速でポータブルなFPGAアクセラレータ

2015/02/16 平成26年度卒業研究発表会 @S422

B2: 計算機システム・集積回路(10:55-11:09) 発表7分 + 質疑応答7分

東京工業大学 工学部 情報工学科吉瀬研究室

11_03601 臼井 琢真

FPGAアクセラレータ►特定の処理を低消費電力かつ高速に実行可能

►科学技術計算やデータベース処理など

► IntelやdwangoがFPGAエンジニアを募集

目的: 高速かつポータブルなFPGAアクセラレータ►持ち運べる,様々な環境で使える

►ホストPCとのデータ送受信のためのインターフェースが重要

►対象アプリ: 32bit要素のソーティング

背景と目的

1

FPGAとの接続インターフェース比較

USB3.0はUART, USB2.0よりは圧倒的に速い

PCI Expressや10Gbps Ethernetよりは遅い

しかし接続が非常に容易で,様々な環境で使える

2

接続方法 USB3.0 USB2.0 UART PCI Express Ethernet

最高速度(理論値) 5Gbps 480Mbps 数Mbps 8GB/[email protected] x8

1GB/[email protected] x1

1Gbps@GbE

10Gbps@XGbE

内蔵/外付 外付 外付 外付 内蔵 外付

最新PCでの普及率 ○ ○ × △ ×(XGbE)

ホットスワップ ○ ○ × ○ ○

バスパワー 900mA,5V 500mA,5V × 25/75W@x16 ×

提案するFPGAアクセラレータ

3

持ち運べる

様々な環境で使える USB3.0

Merge Sorter Tree

複数のソート済みデータ列を1つにマージするデータパス

図は 4-way Merge Sorter Tree

ソート対象のデータ列が入力数より多い場合は複数回通す必要

4参考: A high performance sorting architecture exploiting run-time reconfiguration on fpgas for large problem sorting.

(Dirk Koch and Jim Torresen, FPGA ’11,)

>

>

> > Comparator

Short FIFO

入力レーン=

way

System Architecture

5

32bit

64bit,

2要素ずつソート

64bit

実装・評価

実装►8-way Merge Sorter Tree を実装

►ハードウェア記述言語: Verilog HDL

►論理合成: Xilinx ISE 14.7

►H/W使用量: Block RAMは20%, Sliceは19% (8-way実装時)

►FPGA: Xilinx Artix-7 XC7A100T @ 100MHz

►DRAM: DDR3 256MB @ 400MHz

評価►32bitのint型整数32M個のソーティングの実行時間を計測

◇USB3.0を介してFPGAアクセラレータにデータを送信,結果を受信

◇ホストPCでのマージソートと比較

►ポータビリティ評価のため,4つの評価環境を用意

◇USB3.0環境,USB2.0環境

◇デスクトップPCとラップトップPC

6

4種類の評価環境 – Computer A

7

Core i7-3770K

@3.50GHz

16GB DDR3 Memory

Supports USB3.0

High

Performance!

4種類の評価環境 – Computer B

8Supports USB3.0

Core i3-4010U

@1.70GHz

4GB DDR3 Memory

Portable!

4種類の評価環境 – Computer C

9

Only supports USB2.0

Core i7-870

@2.93GHz

4GB DDR3 Memory

4種類の評価環境 – Computer D

10

Core Duo T2400

@1.83GHz

1GB DDR2 Memory

Only supports USB2.0

評価―int型32M個のソーティング

11

0

2

4

6

8

10

12

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

Computer A Computer B Computer C Computer D

Ela

pse

d T

ime [

s]

Data Transfer

Sorting only

USB3.0

USB2.0

0

2

4

6

8

10

12

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

Computer A Computer B Computer C Computer D

Ela

pse

d T

ime [

s]

Data Transfer

Sorting only

USB3.0

USB2.0

分析

12

性能向上不可能

通信時間 > CPUにおけるソーティング時間

0

2

4

6

8

10

12

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

CPU FPGA

8-way

Computer A Computer B Computer C Computer D

Ela

pse

d T

ime [

s]

Data Transfer

Sorting only

USB3.0

USB2.0

分析

13

通信時間大幅減

USB3.0で性能向上

評価 @USB3.0環境

14

4.30 3.27 8.75 3.28 0

2

4

6

8

10

CPU FPGA

8-way

CPU FPGA

8-way

Computer A Computer B

Ela

pse

d T

ime [

s]2.66x

Faster

1.31x

Faster

Merge Sorter Treeを32-wayに拡張しComputer AのCPU比1.93倍の高速化達成

様々な環境で使える

まとめ・今後の課題

まとめ►USB3.0接続の高速でポータブルなFPGAアクセラレータを提案

►対象アプリ: ソーティング

►USB2.0環境では提案するFPGAアクセラレータを用いても性能が向上しない

►USB3.0環境では性能が向上

◇ラップトップPC比2.66倍

◇デスクトップPC比1.31倍→Tree拡張時1.93倍

今後の課題►Merge Sorter Treeを更に拡張

►他のアプリケーションの高速化

◇グラフ処理,画像処理,データ圧縮etc…

15

発表履歴・予定

電子情報通信学会研究会(RECONF) 発表 (2015/01/30)

►「USB3.0接続の手軽で高速なFPGAアクセラレータ」

►臼井 琢真,小林 諒平,吉瀬 謙二

情報処理学会 第77回 全国大会 発表予定 (2015/03/18)

►「手軽な外付けFPGAアクセラレータによるソーティングの高速化」

►臼井 琢真,吉瀬 謙二

ARC 2015 POSTER SESSION (2015/04/15-17)

► “A Challenge of Portable and High-speed FPGA Accelerator”

►Takuma USUI, Ryohei KOBAYASHI, Kenji KISE

16