GPU CUDA - USTC ·...

赵洋工程师

zhaoyang@nscc-tj.gov.cn

国家超级计算天津中心

GPU与CUDA简介

内容提要

“天河一号”架构

GPU简介

CUDA硬件模型和编程模型

CUDA Fortran & CUDA C

CUDA程序优化策略

1024 service nodes

7168 computing nodes

CPU……

……FT

CPU……

Interconnect communication system

I/O system

“天河一号”超级计算机系统

TH-1A 系统架构

天河一号上GPU编译环境

CUDA安装主路径：/vol-th/software/cuda

/vol6/software/cuda

CUDA编译环境：

GPU简介

PCI-E CPU DRAM

GPU简介

Specification Tesla M2050

Processor 1 x Tesla T20

CUDA cores 448

Core clock 1.15 GHz

on-board memory 3 GB

Memory bandwidth 148 GB/s peak

Single/double

precision floating

performance

1030/515 GFlops

System I/O PCI-E x 16 Gen2

Board power <= 225W

CUDA硬件模型

Fermi架构下的SM:

控制单元

两个指令发射和调度器

运算单元

fp32, fp64, int32, SFU, LFU

存储单元

48K 可配置的shared memory/L1

32K 32-bit 寄存器

texture/constant cache

Uniform Cache

64K Configurable

Cache / Shared Mem

Load/Store Units x 16

Special Func Units x 4

Interconnect Network

Instruction Cache

Scheduler Scheduler

Dispatch Dispatch

Register File

Core Core Core

Core Core Core Core

CUDA硬件模型

Fermi存储模型

三个层次，与CPU存储模型类似

DRAM/global memory

Caches

First level (On SM)

Shared memory

Texture cache

Constant cache

Register

CUDA硬件模型

CUDA存储模型

CUDA硬件模型

纹理存储器

固定存储器

共享存储器

全局存储器

主机（CPU）

设备(GPU)

寄存器

本地存

储器

寄存器

本地存

储器

共享存储器

寄存器

本地存

储器

寄存器

本地存

储器

串行代码

内核1

Kernel<<< , >>>( )

串行代码

内核2

Kernel<<< ,>>>( )

Device

Grid 1

Thread (0, 1)

Thread (1, 1)

Thread (2, 1)

Thread (3, 1)

Thread (4, 1)

Thread (0, 2)

Thread (1, 2)

Thread (2, 2)

Thread (3, 2)

Thread (4, 2)

Thread (0, 0)

Thread (1, 0)

Thread (2, 0)

Thread (3, 0)

Thread (4, 0)

Block(1, 1)

Grid 2

(0, 0) Block

(1, 0)

(n-1, 0)

(0, 1)

(1, 1)

(n-1, 1)

CUDA编程模型

Device

Grid 1

(0, 0)

(1, 0)

(2, 0)

(0, 1)

(1, 1)

(2, 1)

Block (1, 1)

Thread

(0, 1)

Thread

(1, 1)

Thread

(2, 1)

Thread

(3, 1)

Thread

(4, 1)

Thread

(0, 2)

Thread

(1, 2)

Thread

(2, 2)

Thread

(3, 2)

Thread

(4, 2)

Thread

(0, 0)

Thread

(1, 0)

Thread

(2, 0)

Thread

(3, 0)

Thread

(4, 0)

两个层次的并行：

• grid内多个block的并行

• block内多个thread的并行

block内：

• 可以进行线程同步：__syncthreads()

• thread间通过shared memory进行通信

指定线程数目：

dim3 grid(1024,1,1), block(256,1,1);

kernel<<<grid, block>>>(…);

CUDA编程模型

0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 threadIdx.x:

blockIdx.x: 0 0 0 0 3 3 3 3 2 2 2 2 1 1 1 1

dim3 grid(4,1,1), block(4,1,1);

0 1 2 3 12 13 14 15 8 9 10 11 4 5 6 7

idx = blockIdx.x*blockDim.x + threadIdx.x;

如何计算线程编号：

通过内置变量blockIdx, blockDim, threadIdx

PCI Bus

Transfer data

Thread control GPU

GPU Memory

CPU Memory

CUDA编程模型

使用CUDA来开发程序要做的两件事：

• CPU-GPU间的数据传输

• GPU上的并行计算

CUDA编程模型

PCI Bus

CUDA编程模型

PCI Bus

CUDA编程模型

PCI Bus

CUDA编程模型

nvcc编译流程

CUDA Fortran

program scaleTest

use cudafor

real, allocatable :: b(:)

real, allocatable, device :: d_b(:)

allocate(b(n))

allocate(d_b(n))

d_b = b(1:n)

call scale(d_b, n)

b = d_b(1:n)

end program scaleTest

subroutine scale(a,n)

integer :: i

integer, value :: n

real :: a(:)

!$cuf kernel do (1) <<<*,*>>>

do i=1,n

a(i) = a(i) * 2

end subroutine

方法一：“cuf”指导语句

$ pgfortran –Mcuda scale.cuf

$./a.out

CUDA Fortran

attributes(global) subroutine scale(a,n)

integer :: i

integer, value :: n

real :: a(:)

i = threadIdx%x + (blockIdx%x-1)*blockDim%x

a(i)=a(i)*2

end subroutine

allocate(b(n))

allocate(d_b(n))

d_b = b(1:n)

call scale<<<n/128, 128>>>(d_b, n)

b = d_b(1:n)

subroutine scale(a,n)

integer :: i

integer, value :: n

real :: a(:)

do i=1,n

a(i) = a(i) * 2

end subroutine

allocate(b(n))

call scale(b, n)

方法二：把subroutine改为kernel

CUDA C

__global__ void scale(a,n)

int n, i;

float *a;

i = threadIdx.x + blockIdx.x*blockDim.x;

a[i]=a[i]*2;

float *b, *d_b;

b = (float*) malloc (n*sizeof(float));

cudaMalloc((void **) &d_b, n*sizeof(float));

cudaMemcpy(d_b, b, n*sizeof(float),

cudaMemcpyHostToDevice);

scale<<<n/128, 128>>>(d_b, n);

cudaMemcpy(b, d_b, n*sizeof(float),

cudaMemcpyDeviceToHost);

void scale(a,n)

int n, i;

float *a;

for (i=0; i<n; i++)

a[i] = a[i] * 2;

float *b;

b = (float*) malloc (n*sizeof(float));

scale(b, n);

把function改为kernel

$ nvcc scale.cu

$./a.out

CUDA程序优化策略

存储器访问优化

主机-设备端通信优化

降低传输次数

使用页锁定数据传输

异步数据传输

设备端存储器访问优化

全局内存的合并访问优化

共享存储器访问优化

纹理存储器访问优化

指令流优化

执行配置优化

Memory bandwidth bound

Instruction throughput

Latency bound

页锁定数据传输

主机-设备端通信优化

主机到设备端的带宽远远低于设备端内部带宽

8 GB/s peak (PCIe × 16 Gen 2) vs. 148 GB/s peak (Tesla M2050)

1.54GHz*(384/8)Byte*2=148GB/s

降低主机-设备端通信次数，分次传输合为一次

PCI-E延迟10us

合理使用page-locked(or pinned) memory

正常malloc可能会分配到低速的虚拟内存中，页锁定内存能够保证在物理内存，始终不会分配到虚拟内存。

页锁定数据传输示意图

real, allocatable, pinned :: b(:)

allocate(b(n), STAT=istat, PINNED=pinnedFlag)

allocate(d_b(n))

d_b = b(1:n)

call scale<<<n/128, 128>>>(d_b, n)

b = d_b(1:n)

Tesla M2050

•Pageable:~3.5 GB/s

•Pinned: ~6 GB/s

异步数据传输

kernel的启动是异步的，常规数据拷贝是阻塞式的

异步数据传输函数是非阻塞式，可直接与CPU串行计算交叠；通过多流技术可使数据传输与GPU的kernel执行交叠

cudaMemcpy(d_b, b, n*sizeof(float), cudaMemcpyHostToDevice);

scale<<<n/128, 128>>>(d_b, n);

cudaMemcpy(b, d_b, n*sizeof(float), cudaMemcpyDeviceToHost);

流：一系列必须串行执行的内核函数和数据传输指令集合。流之间的执行顺序是并发的。

d_b = b(1:n)

call scale<<<n/128, 128>>>(d_b, n)

b = d_b(1:n)

异步数据传输

数据传输与CPU计算交叠

数据传输与kernel交叠

istat = cudaMemcpyAsync(d_b, b, n, 0)

call scale<<<n/128, 128>>>(d_b, n)

call cpuFunction(c) 交叠

integer (kind=cuda_stream_kind) :: stream1, stream2

istat = cudaStreamCreate(stream1)

istat = cudaStreamCreate(stream2)

istat = cudaMemcpyAsync(d_b, b, n, stream1)

call scale<<<n/128, 128, 0, stream2>>>(d_c, n)

call cpuFunction(c)

交叠

如果主机端要使用内核函数计算出的结果，应加入同步操作。cudaThreadSyhchronize();

要求：主机端必须为页锁定存储

设备端存储器访问优化

共享存储器访问优化

纹理存储器访问优化

L1缓存：可被配置为16KB或48KB，缓存线大小为128B

L2缓存：768KB，缓存线大小可动态调整：32B、64B、96B、128B.

所有对全局内存的访问都经过L2缓存

Fermi架构下，对全局内存是以128B的L1缓存线为基本单位进行访问

优化准则：每个warp内的32个线程访问的数据尽可能涵盖少的L1缓存线

访问数据段对齐

访问间隔

__global__ void offsetCopy(float* src, float* dst, int len, int offset)

int xid = offset + threadIdx.x + blockIdx.x*blockDim.x;

int index = xid%len;

dst[index] = src[index];

对齐访问1

对齐访问2

非对齐访问(offset=1)

__global__ void kernel1D_stride(float* src, float* dst, int len, int stride)

int dstx = threadIdx.x + blockIdx.x*blockDim.x;

int srcx = (dstx*STRIDE)%len;

if(dstx < len)

dst[dstx] = src[srcx];

访问间隔：

stride=1

stride=32

关闭L1缓存：数据只在L2得到缓存。

nvcc -Xptxas –dlcm=cg

对全局内存是以32B为基本单位进行访问

使用情况：

内存访问非常不合并，没有太多重用

寄存器使用过多，内核函数有寄存器溢出

高性能计算平台

大规模硬件设施

基于“天河一号”，提供万

核量级大规模科学计算

自主研发的高速互联通信网络

良好的软件资源

编译、开发、科学计算软件、

工程仿真软件等

高速的网络接入

目前使用联通和电信100M光纤接入，

用户的访问速度M量级

Specification Tesla K20xm

Processor 1 x Tesla T20

CUDA cores 2688

on-board memory 6 GB

Memory bandwidth 249.6 GB/s peak

Single/double

precision floating

performance

3935.23/1311.74

GFlops

System I/O PCI-E x 16 Gen3

Board power <= 235W

--ptxas-options=-v

输出资源使用信息；然后将其填写入occupation calculator

GPU CUDA - USTC ·...

Documents

Transcript of GPU CUDA - USTC ·...

2 DLX 的基本流水线

相册 [自动保存的]

13.3 角的平分线的性质（ 2 ）

特大城市生态控制线管控制度的 探索与思考 · 2015. 12. 9. · Urban Insight, No. 3, 2015 为主的生态控制线管控工作存在的问题， 并以广州为例，探讨生态控制线管控的合

Jianhui Zhang,Copyright © 2015 Pearson Education, Inc. 主板上的主要部件 总线(Bus) 前端总线(Front‐Side Bus, FSB) 【CPU 芯片组】 内存总线(Memory Bus ...

直线与圆的位置关系 切线长定理

3 ． 2.2 直线的两点式方程 3 ． 2.3 直线的一般式方程

第三章 存储 、中断、总线与 I/O 系统

DSP技术及其应用 - cechina.cnbbs.cechina.cn/upload/bbsuploadfile/6c4ebedc-ebe6... · Architecture Computer）,内部集成了三套总线，即程序存储器 总线、数据存储器总线和输入输出总线。

电气火灾的原因和预防措施 - chinarein.com · 电气线路中的裸导线或绝缘导线的绝缘体破损后， 火线与中性线、或火线与地线接触叫短路。短路点产生

本章提要 6.1 总线的基本概念 6.2 总线接口 6.3 总线的仲裁、定时和数据传送模式 6.4 微机常用的总线标准

2014_3_22&23 生命的界线

点 到 直 线 的 距 离

教育战线数据存储的普世化 - EOLfree.eol.cn/edu_net/down/shichengge.pdf专业机构数据存储系统的普世化（3） 数据存储设备特点 系统无关 • 支持CIFS,

1.3 平行线的性质 (1)

圣经中的“ 救恩红线 ”

13.3 角的平分线的性质

1 、无线电波的发射

5.6 三角形的中位线

单线圈还是双线圈？ —— 除颤电极导线的选择

特大城市生态控制线管控制度的探索与思考 · 2015. 12. 9. · Urban Insight, No. 3, 2015 为主的生态控制线管控工作存在的问题，并以广州为例，探讨生态控制线管控的合

Jianhui Zhang,Copyright © 2015 Pearson Education, Inc. 主板上的主要部件总线(Bus) 前端总线(Front‐Side Bus, FSB) 【CPU 芯片组】内存总线(Memory Bus ...

直线与圆的位置关系切线长定理

3 ． 2.2 　直线的两点式方程 3 ． 2.3 　直线的一般式方程

第三章存储、中断、总线与 I/O 系统

DSP技术及其应用 - cechina.cnbbs.cechina.cn/upload/bbsuploadfile/6c4ebedc-ebe6... · Architecture Computer）,内部集成了三套总线，即程序存储器总线、数据存储器总线和输入输出总线。

电气火灾的原因和预防措施 - chinarein.com · 电气线路中的裸导线或绝缘导线的绝缘体破损后，火线与中性线、或火线与地线接触叫短路。短路点产生

点到直线的距离

教育战线数据存储的普世化 - EOLfree.eol.cn/edu_net/down/shichengge.pdf专业机构数据存储系统的普世化（3）数据存储设备特点系统无关 • 支持CIFS,

5.6 　三角形的中位线