且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

UIUC陈德铭教授:「万能芯片」FPGA与深度学习

更新时间:2022-08-22 14:16:20

人工智能的风潮从技术一路蔓延到硬件,让「芯片」成为今年行业里盛极一时的主题。人们关注通用芯片领域里 CPU 和 GPU 不断刷新的基准(benchmark),更对专用芯片(ASIC)领域不同场景下不断问世的解决方案表示出了空前的热情。

 

而众所周知,在专用芯片与通用芯片中间,还有一个更为灵活,也更为神秘的领域:FPGA。无论是英特尔天价的收购还是微软与 IBM 雄心勃勃的计划,都让人对其更加好奇。而「万能芯片」的名称,以及多样化的职责范围:它可以是智能手机里不起眼的一个小组件,也可以是数千美金一块的开发板,也让人对其真面目更加疑惑。

 

FPGA 与深度学习的关系究竟是什么?它适合加速何种类型的运算?适合应用于何种场景?6 月,机器之心采访了美国伊利诺伊大学香槟分校电气与计算机工程系(UIUC ECE)教授、深度学习算法硬件加速解决方案创业公司 Inspirit IoT 创始人陈德铭,与他聊了聊「万能芯片」FPGA 在深度学习领域的用法。陈教授于近期宣布兼任国内计算机视觉领域创业公司触景无限的首席科学家。

 

以下为采访实录。

 

机器之心:从算法的角度,FPGA 适合于加速哪些运算?

 

FPGA 的优势在于可定制化的并行。它可以为了特定算法专门定制逻辑单元。例如,算法中需要完成一个开三次方的运算,在通用芯片上需要一长串指令实现它,但是在 FPGA 上可以为这个特定运算设计一个单元。

 

定制化的一个「极限」的例子是,如果能够把神经网络中的参数全部二值化、特征图(feature map)也全部二值化,那么甚至可以不用乘法器,而是用异或门(XOR gate)完成计算,会有异常强大的表现。即使不全部二值化,因为全部二值化会让准确度明显下降,只要合理使用各种低位宽的运算,仍可以让 FPGA 大放异彩。比如在我们最近和 IBM 合作的 ELB-NN 项目中,我们可以在功耗低于 5 瓦的情形下,让神经网络在 FPGA 上的算力达到 10.3 TOPS,同时依然维持非常高的准确度。

 

另一个例子是微软的 Brainwave FPGA 项目,通过使用特殊的 8-bit 的浮点运算,可以在高容量的 FPGA 上达到 40 TOPS。

 

值得一提的是,LSTM 等神经网络每一步操作都很相似,这种整体运算过程是序列的算法也非常适用于用 FPGA 进行加速。FPGA 非常擅长处理流数据,可以设计流水线机制,使得在运算过程中不需要将中间数据存入内存而是直接送到下一步进行操作。

 

机器之心:相比于其他芯片,FPGA 在实现深度学习模型时有哪些结构带来的优势?

 

FPGA 的引脚比一般的芯片多,同时它的逻辑单元可以完全根据算法要求来重组从而产生定制化的数据通路(datapath),因此非常适合处理大批量流数据。它不像 GPU 一样需要反复调取片外存储中的数据,理想状态时,只要数据一次性流进去再流出来,算法就完成了,因此,FPGA 非常适合具有低延迟需求的任务。

 

另外 FPGA 的速度快、功率低的特点也让它在能耗方面相比于 CPU、GPU 也有很大优势。

 

比如我们在 FPGA 上实现了长期循环卷积网络(Long-term Recurrent Convolutional Network),它的速度 ( latency ) 比 GPU 快 3.1 倍,FPGA 的功率比 GPU 小 5.6 倍,最终整体能耗降低 17 倍左右。

 

机器之心:从行业的角度,FPGA 都能够用于哪些机器学习与深度学习任务的加速?

 

在终端,有些自动驾驶公司的车上系统中就采用了 FPGA 完成一些实时检测识别任务。例如,我曾经代表 UIUC 与小鹏汽车的副总裁、机器学习专家谷俊丽女士交流,她提到,FPGA 可以凭借信号处理和低能耗方面的优势,成为一个可靠的第二系统,在汽车的第一系统出现失误的时候,作为安全模式介入进来。IoT 方面的应用就更多了,无论是安防还是智能家居,FPGA 都会有机会进入市场。

 

在云端,也有结合 FPGA 的巨大空间。之前,微软的 Project Catapult 就搭建起了大规模的 FPGA 云服务器。现在 Catapult 正在运行搜索和数据存储方面的运算,同时,他们也在积极地思考如何把机器学习运算部署在上面,包括是否能将 FPGA 作为其 Azure 云的后端支持。亚马逊 AWS 的 FPGA 云计算已经很有规模了,并且一直在大力推动之中。最近,国内创业公司深鉴也开始结合华为的云端 FPGA 来进行深度学习算法的加速,特别在基于 LSTM 的语音识别上非常有优势。

 

机器之心:能否介绍一下使用高层次综合(HLS)自动生成寄存器级(RTL)实现与手工用硬件描述语言(HDL)进行实现的区别?

 

对于深度学习相关算法来说,HLS 是有优势的。

 

当你阅读用高层语言描述的深度学习模型时,你会发现模型是有规律的。比如,卷积操作在 C 语言里就是一个六层的嵌套循环。此时我就可以针对这个循环开发一个 IP 核,确定如何进行流水线设计(pipelining),如何分配存储等,然后再将 IP 核用在 FPGA 上,进而让神经网络中的所有卷积层来共享 IP 核即可。

 

此时设计的优化要点是 IP 核的大小、是否需要多个 IP 核并行运算等。这是一个非常适用 HLS 的场景,因为 HLS 可以自动化地、快速地探索不同的解决方案。如果采用 RTL,则需要很多工程师,组成多个团队,每个团队根据工程师过去的设计经验着重探索一个方向,这是一个成本非常高的过程。

 

RTL 是一种描述硬件的空间的关系和逻辑时序等逻辑关系的硬件描述语言。这是一门难学的语言,能够熟练掌握的从业者也不多,开发和测试都很慢。夸张点说,如果 HLS 开发周期以天和周来计算,那么 RTL 通常是以月和年。

 

从最终结果角度讲,RTL 完全手工调制的解决方案是很可能比 HLS 自动生成的方案效果好的。我们曾经做过比较,在深度学习的情境下,HLS 和 RTL 方法的差距在 10% 左右。

 

因此,问题在于是否愿意花 3-5 倍的时间获得额外 10% 的效果。

 

机器之心:在简化 FPGA 开发过程这一任务上,研究者做了哪些工作?

 

我们的团队开发了一个研究工具,是一个 C 语言的模板库,能够根据 Caffe 和 TensorFlow 的代码自动生成 C 语言的表达。然后研究者可以将 C 语言的代码再交给 HLS 工具生成 RTL 代码。

 

C 语言是软件工程师普遍掌握的语言,这样的工具让软件工程师也具有 FPGA 开发能力,而且让开发者更专注于算法,而不用过多考虑底层硬件。

 

而且,这个过程中的中间结果都可以导出,专业人员也可以在自动生成的基础上再进行优化,总而言之,整个开发的效率都得到了极大的提高。

 

这只是举一个例子。还有其它很多的研究人员在做相关的提升深度学习设计效率和质量的各类工具和平台。工业和学术届的都有。学术届比如 UCLA 的丛京生老师,以及 Cornell 的张志汝老师等。工业届比较领先的是赛灵思和英特尔自己设计的一些工具。

 

机器之心:各个大公司在 FPGA 的应用方面都进行了哪些工作?拓展市场的思路都有哪些?

 

IBM 和赛灵思正在 Power 系列上进行合作,致力于在 FPGA 上加更多的存储,在最新的原型机上,把存储加到了 64G,相比于市面上现在常见的最大 8 或 16G,极大扩展了数据带宽,来进行和大数据相关的处理。

 

英特尔收购了 Altera,并且致力于帮助 Altera 进行编译等工具的开发。这是一个 FPGA 商品化的思路,就像 GPU 一样,说不定未来的 PC 里就会有一个 FPGA 协处理器在 CPU 旁边完成工作。或者在芯片层面上,CPU 片上就有一块 FPGA。总而言之,一旦工具做好,整合的机会会有很多。英特尔在智能城市、智慧制造方面都有很多的构想,并且希望借由 FPGA 实现。

 

再就是微软。它的思路主要就是云计算,除了 Bing 之外,也希望在进行机器学习任务的 Azure 云中使用 FPGA。

 

机器之心:能否介绍一下 Inspirit IoT 通过哪些产品实现了深度学习算法在 FPGA 上的加速?

 

UIUC陈德铭教授:「万能芯片」FPGA与深度学习

我们公司主要有三个产品,按照层次分别是 DNN 优化器、高层次综合加速编译器(HLS compiler),以及整体 FPGA 解决方案。

 

DNN 优化器的目标是定制一个 FPGA 友好的模型,把训练好的模型中对于推理来说冗余的部分去掉。例如,训练时使用的浮点数可以被替换为定点数,训练时每层有非常多的单元,但是在推理的时候可以进行剪枝(Pruning),等等。DNN 优化器就是以各种高层框架的模型为基础,根据硬件的特性和场景的特性进行自动的优化。

 

高层次综合编译器让开发者得以绕开写 Verilog 硬件描述语言,将 C、 C++、CUDA 等代码直接编成 FPGA,旨在降低硬件开发的门槛,提高软件工程师的生产力。我们的特色是这个编译器可以自然结合深度学习算法中的各种 IP 核,从而可以***的优化各种深度学习算法在 FPGA 上的高速及高质量的实现。

 

除此之外,我们也有嵌入 FPGA 的开发板,用于声音相关的应用场景。其上嵌入了 FPGA 和 4 个麦克风,可以检测声音来源、提高声音质量,也可以和摄像头等其他设备连用。例如,捕捉到车辆撞击声、尖叫声等特定声音之后,能够调转摄像头,收录相关的视频等,希望获得一个「1+1>3」的效果。

 

特别鸣谢:北京大学高性能计算机研究中心博士生 王硕



本文为机器之心原创,转载请联系本公众号获得授权