您正在使用IE低版浏览器，为了您的雷峰网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器

此为临时链接，仅用于文章预览，将在时失效

AI+ 正文

发私信给AI研习社

发送

0

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

本文作者： AI研习社

2019-07-17 14:51

导语：团队设计了单目标检测的深度学习算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，获得了FPGA赛道的第二名

雷锋网AI研习社按：DAC19目标检测设计是一个面向移动端的单目标物体检测的比赛，检测精度高且能耗低者胜出。我们团队设计了单目标检测的深度学习算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，获得了FPGA赛道的第二名。本次分享主要介绍我们团队的设计方案。

分享嘉宾：赵文哲，西安交通大学人工智能与机器人研究所研究员，伦斯勒理工学院访问学者，主要研究方向为计算机体系结构，纠错码设计，以及企业级存储方案设计。

公开课链接：http://www.mooc.ai/open/course/674?=from%20leifeng0717

分享主题：HiPU设计简介--DAC19目标检测设计竞赛FPGA赛道亚军方案介绍

分享提纲：

DAC19比赛背景介绍；
算法选择及训练介绍；
一种通用目的的AI加速器设计简介；
性能分析与结论。

雷锋网AI研习社将其分享内容整理如下：

大家好，我们来自于西安交通大学人工智能研究所。在今年DAC会议举办的自动化系统设计大赛上获得了亚军，今天主要介绍一下我们的设计方案。我负责这个方案的算法部分，算法部分主要进行了目标检测递层框架的搭建、神经网络算法的压缩，后面主要由赵老师讲一下硬件架构的设计。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

这个是由英伟达、大疆他们共同组建的一个比赛，数据集由大疆提供——基于大疆无人机拍摄出的目标检测的数据集，比赛从准确率、速率、网络效率等方面综合考量之后，给参赛队伍一个相应的分数，以上这些是关于比赛的大概介绍。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

在比赛中，算法方面主要是两个工作，第一个是神经网络的选取，这个工作需要在一非常小的BP上配置神经网络，所以首选储存空间小、效率高的这种来作为特征提取的基本网络。在这个网络训练过程中，主要进行了两个部分的优化，首先是将神经网络进行预训练，第二个优化是针对硬件优化的，将ShuffleNet V2变成8的倍数，方便后面进行配置。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

算法方面的第二个工作主要是介绍网络的量化，网络的量化也分为两个主要的部分，首先是将一些特殊的层进行融合，如图示左边部分。其次是8bit的量化过程，如图示右边部分。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

下面介绍一下量化过程中的一些关键点，第一个点就是神经网络越小，量化难度越高，来看一下下图所示右边部分，是当时我们为了验证这个说法做的一个实验。第二个点就是上一页的cabs函数，这个函数主要是保护权重和输出在要求的范围内不产生溢出，最好是先让网络训练一段时间，在权重和输出都比较稳定的时候再把函数加入进去。第三个点就是ratio_a,指的是输出值，这个值的统计是一个非常精细的过程。第四个需要注意的点就是，在完成离线的量化工作之后，在实际操作中，需要跳过round函数的梯度。

关于量化这个领域，建议大家读一下以下这些论文，如下图。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

我这部分讲完了，接下来是赵老师来介绍。

在我们的网络和参数训练完成之后，就需要设计一套硬件加速处理器，以便让神经网络能够高效的运行。为了实现上述目标，我们设计了一个通用的，可以支持几乎所有网络的加速器，将它命名为HiPU。这个加速器主要包括这样几个模块，首先是一般的控制模块，除此之外有矩阵运算和矢量运算。在HiPU里面，主要是处理卷积、Depth-wise卷积、padding、pooling、跟channel相关的shuffle操作以及concat操作。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

先看一下几个基本操作，如下图右侧所示，是HiPU的基本结构图。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

接下来看一下计算过程，以卷积为例，当数据已经放在MRa、MRb中之后，通过计算器发出开始卷积的命令，然后conv_ctrl模块会把一个卷积拆解成很多矩阵运算和矢量运算的指令,MPU和VPU内部会把数据读上来，计算完之后再送到VPU做一次运算的结尾部分，算完之后再写回到MRa之中，流程大概就是这样。DW卷积也是类似，如图所示。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

接下来看一下相关的几个优化，首先我们并不是算完一层就立刻返回，以module_c为例，先做一个切分，把前一半的数据直接传到后面，后一半的数据分别经过1x1的卷积，然后经过3x3的卷积，再经过1x1的卷积，和之前的数据做一个shuffle之后输出。在这个过程中，并不是说做一个卷积就算完了就立刻输出。继续讲第二个优化，在此之前说一下我们这种做法的问题，问题是一次需要读入8个输入channel的数据，但是输入层只有RGB三个通路，如果要处理这样的数据，就必须要补上5个channel的0，计算效率也就只有八分之三。针对这个问题，如果第一层卷积是3x3的，可以考虑做这样一个变换，把相关的数据排列过来，如下图，这样的做法可以让卷积效率提高很多。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

除此之外我们再看一下作为系统的优化，系统分为PS侧和PL侧，大部分卷积运算都是放在PL侧进行的，最后一层的输出是放在PS侧来做的。在PL侧做大量卷积运算的时候，PS侧是空闲着的，但是现在在做当前图的卷积运算的时候，PS侧会进行下一张图的预读取，通过这种方式可以显著地减少读图所消耗的时间。除此之外是对计算Calc bbox的优化，通过外扩C函数，把计算时间从2毫秒降到0.6毫秒，而且，读图像的时间也可以减少。最后还有一个问题，之前使用的SD卡并不是最好的SD卡，会出现这种PS侧一直在读图，但是PL侧已经算完了的尴尬情况，于是增加了一个门控时钟来降低功耗。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

接下来是HiPU的一个总结。我们的HiPU可以在单倍频和双倍频模式下工作在233MHz，峰值算力为268Gops。资源占比中，LUT站到62%左右，还有继续提升的空间。编程API为C以及RISC-V风格的汇编。支持的主要操作如下图所示：

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

下图是HiPU在不同的配置环境下执行这次比赛的任务的性能分析：

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

介绍一下我们的Roadmap,如图所示：

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

最后请欣赏我们设计的2个Demo:

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

今天的介绍主要就是这些，谢谢大家。

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网(公众号：雷锋网) AI 研习社社区http://ai.yanxishe.com/观看。关注微信公众号：AI 研习社（okweiwu），可获取最新公开课直播时间预告。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

分享：

相关文章

AI研习社

编辑

聚焦数据科学，连接 AI 开发者。更多精彩内容，请访问：yanxishe.com

发私信

当月热门文章

最新文章

热门搜索

AI 收购淘宝 chrome 天猫新能源汽车 Android游戏 paypal 云存储 ChatGPT PS4

为了您的账户安全，请验证邮箱

您的邮箱还未验证,完成可获20积分哟！

重发邮箱修改邮箱

请验证您的邮箱

立即验证

完善账号信息

您的账号已经绑定，现在您可以设置密码以方便用邮箱登录

立即设置 以后再说