AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

本文作者：包永刚

2020-08-18 14:25

专题：CCF-GAIR 2020 全球人工智能与机器人峰会

导语：要达成一个所谓的标准是极其困难的，因为大家虽然目标大致相同，但出发点不一样。

AI算法的算力需求与AI芯片算力增长之间的差距有多大？从增长的速度看，AI算法的算力需求每年是指数级的增长，但AI芯片的算力只能以倍数增长，且难度越来越大。这是业界都非常关注的问题，本月的CCF-GAIR 2020峰会AI芯片专场上，六位大咖都提到了这一挑战。

因此，无论是从AI芯片长远的发展还是促进AI芯片更好落地的角度，业界都期待有一个公认的AI芯片Benchmark（基准测试）。2018年，MLPerf组织成立，为了让MLPerf能够像成熟的CPU、GPU的Benchmark一样，MLPerf囊括该行业中绝大部分知名企业和机构。推出两年的MLPerf还不够成熟，但包括英伟达、谷歌、阿里巴巴在内的大公司都乐于用最新版本的MLPerf基准测试成绩强调其产品实力。

不过，地平线联合创始人兼技术副总裁黄畅在中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办的CCF-GAIR 2020 峰会AI芯片专场的演讲中指出，MLPerf有模型更新慢、模型少、模型选择受各种因素影响的挑战。他也首次提出了新的方法用以评估芯片的AI真实性能——MAPS (Mean Accuracy-guaranteed Processing Speed，在精度有保障范围内的平均处理速度)。

MAPS是评估AI芯片真实性能更好的方法吗？

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

地平线联合创始人兼技术副总裁黄畅

MLPerf发展的三大挑战

每类极具代表性的处理器都有常用的性能评估指标，比如CPU用MIPS，GPU用Texture和Pixel评估性能，高性能计算用浮点运算速度TFLOPS（Floating-point operations per second，每秒浮点运算次数）。进入AI芯片时代，AI 芯片推理通常不需要浮点计算，而需要大量的整型运算，这样峰值算力TOPS（Tera operations per second，每秒万亿运算次数）成为了AI芯片性能指标最直观的参数。

但问题在于，峰值算力体现的是芯片性能的理论上限，实际使用过程中真正有效的算力与峰值算力差别很大。这是因为，芯片的计算架构、带宽、AI算法、数据重用性等问题都会导致芯片算力的有效利用率与峰值性能之间的巨大差距，有时差别可能高达几十倍。

但有一个业界公认的评价标准又意义重大。黄畅接受雷锋网采访时表示：“业界有一个AI芯片的评价标准最重要的意义在于让行业形成一种合力，让大家都有一个相对清晰的目标，容易形成共识、形成协力，健康地推动整个行业向前发展。”

MLPerf在2018年顺势推出了MLPerf Inference v0.5，获得全球芯片公司和知名机构的支持， MLPef最新成绩公布总能引发不少关注。作为还不够成熟的Benchmark，MLPerf当然也有很多挑战。

黄畅指出，MLPerf的思路是选定模型比谁快。选定的模型要求不管做量化或其他操作，它和原始浮点的精度差异不能超过1%。也就是说，MLPerf是在保证精度相同的条件下比谁的速度快，模型的选定是一个值得研究的课题。不容忽视的是，提交者与组织博弈又带来了模型选择受各种因素影响的问题。

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

与此同时， MLPerf模型更新慢（图像分类模型在MLPerf Inference v0.5和MLPerf Inference v0.7没有更新）、模型少（仅有两个图像分类模型，只覆盖了70%和76%两个精度）。学术界图像分类，ImageNet的主流精度范围在[75%,80%]的问题，这让MLPerf无法及时反映算法效率提升、难以反映各种精度下的速度全貌。

“要达成一个所谓的标准是极其困难的，因为大家虽然目标大致相同，但出发点不一样。“黄畅同时指出，评估芯片的AI性能，应该换一个角度，可以从准、快、省这三个维度。”

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

“准”是反应实际任务上的算法精度，在不同的任务中，学术界已经有比较多共识。“快”通常有两个维度，延迟和吞吐率。“省”就是成本和功耗。黄畅认为，对于AI芯片的性能评估来讲，准和快是两个非常重要的因素。同一个芯片下，两个因素负相关，快了就会牺牲准确性，准了往往需要付出速度的代价，因此需要放在一起折中考量。

地平线的MAPS如何？

AI芯片性能的评估需要快、准、省，在这三个维度下地平线提出的新的AI芯片性能评估的方法称为MAPS（Mean Accuracy-guaranteed processing speed），意思是在精度有保障的范围评测芯片的平均效能，得到一个全面、完整、客观、真实的评估。

黄畅表示，MAPS对行业有六个创新之处：

第一，可视化芯片的Benchmark，可以通过可视化的图形更精确的表达，在数据之间如何做折中。
第二，关注真实、面向结果的需求，只在乎精度和速度，不在乎中间任何关于算法的取舍和选择。
第三，统一表示精度与速度，关注主流精度区间。
第四，隐藏与最终结果无关的中间变量，包括模型、输入大小、批处理的量是多大。
第五，是一种对Benchmark的解释，在算力之外帮助用户理解芯片到底能跑多快以及多好。
第六，留有最大的空间引导客户使用最优的方式使用这颗芯片，这一点非常重要，能够指导客户使用这个芯片的最佳实践。

MAPS的计算为公式为：MAPS = 所围面积 /（最高精度-最低精度），含义为在 ImageNet 的主流精度范围（75%~80%）下，速度最快的模型所代表的点（由精度和帧率确定）所围多边形面积大小即为芯片处理ImageNet AI任务的能力大小。

其代表的真实的AI效能也有对应的公式：MAPS/Watt &MAPS/＄=TOPS/ Watt &TOPS/＄ X Utilization X MAPS/TOPS

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

这三个要素中，第一个TOPS/Watt、TOPS/$是传统的方式。中间的要素有效利用率，是根据架构特点，利用编译器等去统化地解决极其复杂的带约束的离散优化问题，得到一个算法在芯片上运行的实际的利用率，实际是软硬件计算架构的优化目标。第三个要素是AI算法效率，指的是每消耗一个TOPS算力，带来的实际AI算法性能，体现的是AI算法效率的持续提升，过去几年AI算法效率提升非常快。如2014年提出的VGG19计算量是2019年提出的EfficientNet B0的100倍，同时EfficientNet B0精度更高，相对于算法效率每9个月提升一倍，大幅快于18个月翻倍的摩尔定律。

黄畅表示，“三个要素中，第一个反映的是旧摩尔定律，第三个反映的是新摩尔定律。前段时间Open AI Lab以及其他的研究机构都发现，过去几年算法提升效率非常快，几个月的时间效率就会翻倍。如果我们关注这样的效率的提升，应该把握这三要素中最主要、变化最快的要素，并且根据这个要素去指导处理器架构的设计，进行关键的取舍决策。”

地平线为什么要提出MAPS这样的评价指标？黄畅在分享中也提到，“这个概念其实受到了EdgeTPU的启发。它在设计之初，并没有充分考虑高效算法的发展趋势。所以当EfficientNet算法出现的时候，并不能很好适配到EdgeTPU上。但谷歌将该算法针对EdgeTPU的特点进行了专门的优化，得到速度更快、精度损失非常少的一组模型EfficientNet-EdgeTPU。这一点和我们自己的摸索和实践是一致的——算法的选择只是手段，真正的目的应该是其在具体芯片运行所表现出来速度和精度。”

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020

以ImageNet图像分类任务为例，EdgeTPU运行不同模型的精度和帧率

如何理解？为以ImageNet图像分类任务为例，如上图所示，横轴表示芯片的处理速度，衡量方式是每秒帧率（FPS），纵轴表示芯片的处理精度，度量方法是Top1分类精度。因为在边缘应用领域，过高（会过慢）或者过低（会不准）的处理精度都不具备实际的应用价值。不失一般性，MAPS评估方式选择75%~80.5%为精度保障范围。

针对某芯片，将某算法模型运行得到的处理速度和精度用一个点表示在该图上，尝试多种不同的选择，并将精度保障范围内位于最右侧（即速度最快）的若干点和上、下、左边界所围多边形面积大小，除以该多边形的高，即MAPS=所围多边形面积 /（最高精度-最低精度），得到该芯片的MAPS值单位仍是FPS，表示在此精度保障范围内的平均处理速度。

AI基准测试MLPerf模型少、更新慢，地平线提出的MAPS会更好吗？ | CCF-GAIR 2020