面向GPGPU的人工智能...

面向GPGPU的人工智能计算平台

科大讯飞张致江

提纲

• 科大讯飞人工智能技术

• 讯飞人工智能计算平台

科大讯飞

更加强调产品和市场意识，做事规范化、透明化，从发展愿景到企业使命的思考和强化

公司上市

2008

在竞争更加激烈的人工智能时代，公司更加强调开放合作、客户导向等

发布云平台和输入法

2010

更加强调客户价值、战略落地的执行力、以及人工智能产业生态的构建。

人工智能产业领导者和生态构建

2016

大学生创业充分体现初创公司的追逐梦想，激情创新，不畏巨头、敢为人先的创业精神

公司成立

1999

人工智能时代正在来临

1956年Dartmouth会议参会者中有四名图灵奖得主，信息论创始人和一名诺贝尔奖得主被公认为人工智能研究的出生典礼

2006年Dartmouth会议50周年纪念

语音是人工智能最佳的交互方式新一代人工智能时代

自然人机接口人工智能

移动互联

语音多点触摸体感

PC时代

键盘+鼠标

以机器为中心的人机交互走向以人为中心的自然交互

人工智能耳朵-语音识别

2016年5月，在著名汽车厂商联合举行的真实行驶环境的中文语音对比测试中，再次获得业界第一，在高噪音下的语音识别准确度保持业界领先

发动机噪音其他噪音

风噪

胎噪

人工智能嘴巴-语音合成

2006-2013 比赛语种英语

2012年英语合成自然度首次超过普通发音人

2014-2015 比赛语种印地语

2016 英文故事合成多维度主观感受全面领先

4.7

4.2

3.6 3.5 3.1

2.5 2.3 2.3 2.3

1.7 1.5

0

1

2

3

4

5

A C I F B G D H J K E

自然语音

自然度

科大讯飞：唯一自然度大于4分的系统

30

35

40

愉悦感

停顿节奏

重读

声调

情感

耐听性

L讯飞系统

第二名系统

《Hansel And Gretel》 That night, Gretel had nightmares about monsters in the woods. "I'm scared," she said, from under the covers. "What are we going to do?“ "Don't worry," said Hansel, who was lying wide awake. "I have an idea." Quietly, he tiptoed outside.

STOP

实时会议转写-讯飞听见

讯飞自创的FSMN框架，很好地解决了篇章级、口语化的语音识别难题，满足在演讲、即

兴发言、自由讨论等多种转写场景下的使用。

演讲即兴发言自由讨论

89.8%

85.6%

70.7%

92.8%

89.6%

80.3%

多种转写场景效果显著提升

单向LSTM FSMN

人工智能发展三个阶段

认知智能人类认知智能模拟研究

感知智能数学建模+大数据学习

计算智能传统大数据和超算

讯飞超脑

从“能听会说”到“能理解会思考”

能够对自然和人类世界进行认知

认知智能通过传感器和算法感知世界

感知智能

客服机器人-晓嫚

、

软银Pepper机器人 • 产品特点：

情绪识别、智能语音、关节灵活；根据场景可定制机器人显示屏APP功能

• 应用场所：软银营业厅：迎宾、促销员商场、超市：促销活动、导览旅游游客中心：介绍景点信息

• 效果反馈：Softbank东京银座营业厅，在放置Pepper机器人后，客流量较放置前提高了87%

晓曼向总书记问好

2016.04.26 2016.05.22 2016.07.01

晓曼给刘总当秘书晓曼参与录制人工智能系列纪录片

晓曼在中国智能客服峰会首次担当主持人

大堂经理“晓曼”的”大智慧“获得新闻联播的垂青

2016.07.22 2016.07.23

-

讯飞“晓曼”机器人：

• 成为业界关注度最高的首个实用服务机器人

类人答题机器人

• 科技部启动首个中国人工智能的重大项目“类人答题机器人”

2014年8月，讯飞作为该项目的总牵头单位，正式启动讯飞超脑计划，研发基于类

人神经网络的认知智能系统

目标：机器人也能考上大学！

语言理解

知识表示

联想推理

自主学习

最新进展：口语评测机器可替代老师

0.987

0.979 0.978 0.977 0.977 0.977 0.976 0.976 0.976 0.975 0.975

0.965

0.97

0.975

0.98

0.985

0.99

总分相关度

1.98

2.38 2.38 2.4 2.43 2.45 2.45 2.47 2.5 2.52 2.52

0

0.5

1

1.5

2

2.5

3

总分平均误差

口语评测技术已在广东省高考英语口语考试中大规模应用

讯飞开放平台-语音云

讯飞超脑

语音识别

语音合成

人脸识别

手势识别

语音评测

口语翻译

开放平台带动语音云快速增长

讯飞云总用户数日均交互次数第三方合作伙伴或创业团队

7亿 20亿 15万

4.4亿 4.8亿 3万 2015.3

2016.6

+59% +317% +400%

人工智能时代的人机交互界面

远场降噪方言识别全双工纠错多轮对话

AIUI: 让人与机器的交互更加自然、更加便捷!

ＡＩＵＩ：定义万物互联时代人机语音交互的标准

1.一键获取方案

讯飞开放平台 www.xfyun.cn

2.安装麦克风阵列模块

形态丰富多样，适配各类场景

4.云端服务&差异化定制

业务深度适配，专属贴心服务

3.集成SDK

能力自由选择，集成轻松便捷

1.一键获取方案

讯飞开放平台 www.xfyun.cn

2.安装麦克风阵列模块

形态丰富多样，适配各类场景

4.云端服务&差异化定制

业务深度适配，专属贴心服务

3.集成SDK

能力自由选择，集成轻松便捷

强大的计算能力是人工智能关键因素

• 人脑：神经元网络

– 1010 – 1011 神经元

– 1014 – 1015 突触连接

– 功能分区协作

• 知识通过连接关系来隐式表示

• 推理依赖分布并行计算实现

人脑的神经元及突触

人脑的神经元网络图

108 –> 1014

即使摩尔定律继续生效也需要20年+！

提纲

• 科大讯飞人工智能技术

• 讯飞人工智能计算平台

讯飞人工智能计算平台

离线学习在线服务

模型

数据

深度学习平台

CONV BN SoftMax LSTM ……

CNN CTC DNN LSTM ……

统一存储 CPU调度 GPU调度策略中心 ……

集群调度系统

高密GPGPU服务器+文件系统高密CPU服务器+文件系统

集群调度系统

统一资源监控

各种训练任务

GPGPU资源池 CPU资源池

利用率

并行算法优化

加速比

1

3.7

15

27

55

0

10

20

30

40

50

60

1 4 14 32 64

加速

比

GPGPU数量

基础函数优化

Torch

TensorFlow

CNTK

Caffe

……

Tesla K20m

Tesla K40

Tesla M40

Tesla P40

……

参考了大量的开源代码

深入学习不同GPGPU的架构

阅读了大量的论文

性能提升 + 显存节约

0

2000

4000

6000

8000

10000

12000

14000

16000

0 128 256 384 512 640 768 896 102411521280140815361664

速度 (samples/sec)

0

2000

4000

6000

8000

10000

12000

0 128 256 384 512 640 768 896 102411521280140815361664

显存(MB)

讯飞

开源

开源

讯飞

常规训练

以前现在

30

1.5

训练时间（天）

常规数万小时训练只需要1.5天！

在线语音云

Tesla K8

Tesla M4

Tesla M40

单节点机器500+路的并发！

最后

计算量提升训练时间下降并发路数提升

未来工作

• 更大的平台 • 3x-4x现在规模的计算平台

• 更优的并行算法 • 压缩模型

• 简化计算量

• 减少传输带宽

• 更快GPGPU • P40

• P100

• ……

后记

• 难点 • 业内没有成熟深度学习平台的解决方案

• 算法 + 软件 + 硬件

• 还没有真正位深度学习定制的加速芯片 • GPGPU很快但是还不够快，同时功耗较大

• 期望 • 更全的软硬一体的解决方案

• 功耗更低的GPGPU计算方案

在中国，用人工智能改变世界！

面向GPGPU的人工智能...

Documents

Transcript of 面向GPGPU的人工智能...