打破16项AI性能记录！英伟达A100 GPU要无人能敌？

本文作者：包永刚

2020-07-30 01:05

导语：DGX SuperPOD系统在MLPerf Training v0.7基准测试中开创了八个全新里程碑，共打破16项纪录。

雷锋网消息，2020年7月30日，MLPerf组织发布第三个版本MLPerf Training v0.7基准测试（Benchmark）结果。结果显示，英伟达基于今年5月最新发布的Ampere架构A100 Tensor Core GPU，和HDR InfiniBand实现多个DGX A100 系统互联的庞大集群——DGX SuperPOD系统在性能上开创了八个全新里程碑，共打破16项纪录。

打破MLPerf Training最新基准测试16项记录

MLPerf是2018年5月成立的行业基准测试组织，在AI备受关注的当下，获得了芯片巨头和AI芯片公司以及AI业界的广泛关注。为了能够让机器学习处理器的基准测试也像CPU那样，MLPerf组织囊括了该行业中的所有知名企业和机构，比如英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软、斯坦福大学等。

巨头公司们乐于通过MLPerf的成绩证明其AI实力，平头哥在去年11月MLPerf首个版本基准测试成绩公布之后就强调其自主研发的AI芯片含光800在Resnet50基准测试中获得单芯片性能第一。

作为AI的领军者，英伟达自然也不会错过MLPerf的基准测试。2018年12月，英伟达首次在MLPerf训练基准测试中创下了六项纪录，次年7月英伟达再次创下八项纪录。在最新MLPerf Training v0.7基准测试中，有两项新的测试和一项经大幅修订的测试。

打破16项AI性能记录！英伟达A100 GPU要无人能敌？

其中一项基准测试对推荐系统的性能进行了排名，推荐系统是日益普及的一项AI任务。另一项基准测试对使用BERT的对话式AI进行了测试，BERT是现有最复杂的神经网络模型之一。还有，强化学习测试中使用了Mini-go和全尺寸19x19 围棋棋盘，该测试是本轮最复杂的测试，内容涵盖从游戏到训练的多项操作。

特别值得一提的是，英伟达是唯一一家在MLPerf Training v0.7测试中均采用市售商用产品的公司。其他大多数提交使用的要么是预览类别（preview category），其所用的产品预计需要几个月后才会面市，使用研究类别的产品，更是较长一段时间内都不会面市。

另外，在此次提交结果的九家公司中，除英伟达外，还有六家公司多家生态系统合作伙伴也提交了基于英伟达GPU的MLPerf测试结果。包括三家云服务提供商（阿里云、谷歌云和腾讯云）和三家服务器制造商（戴尔、富士通和浪潮）。

18个月内实现AI性能4倍提升

创造纪录的英伟达DGX SuperPOD系统是基于Ampere架构以及Volta架构。雷锋网此前报道，5月份发布的最近Ampere架构GPU A100基于台积电7nm工艺，面积高达826平方毫米，集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升，并且可以同时满足AI训练和推理的需求。

打破16项AI性能记录！英伟达A100 GPU要无人能敌？

A100对比V100

由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。

此次，英伟达在Selene上运行了系统的MLPerf测试，Selene是基于DGX SuperPOD的内部集群。DGX SuperPOD是针对大规模GPU集群的公共参考架构，可在数周内完成部署。

根据测试结果，相较于首轮MLPerf训练测试中使用的基于V100 GPU的系统，如今的DGX A100系统能够以相同的吞吐率，在18个月内实现了4倍的性能提升。

能够取得里程碑的成就除了强大的硬件，还有两大关键——软件和网络连接。

打破16项AI性能记录！英伟达A100 GPU要无人能敌？

A100 GPU搭配CUDA-X库的软件更新，为通过Mellanox HDR 200Gb/s InfiniBand网络构建的扩展集群提供支持。HDR InfiniBand可实现极低的延迟和高数据吞吐量，同时通过可扩展分层聚合和缩减协议（SHARP）技术，提供智能深度学习计算加速引擎。

英伟达A100能否无人能敌？

英伟达A100发布之后，就有业内人士表示GPU的性能又上了一个台阶，AI芯片初创公司想要超越英伟达的难度有增加了。

但相比硬件的超越，雷锋网认为软硬件生态才是巨头公司更大的优势所在。据悉，通过最新的软件优化，基于NVIDIA V100的DGX-1 系统也可实现2倍的性能提升。

就此次最新基准测试而言，提交了基于英伟达GPU的MLPerf测试结果的公司大多采用了英伟达的软件中心NGC容易，以及用于参赛的公开框架。另外，包括这些MLPerf合作伙伴在内的近二十家云服务提供商和OEM组成的生态系统，已采用或计划采用A100 GPU来打造在线实例、服务器和PCIe卡。

打破16项AI性能记录！英伟达A100 GPU要无人能敌？

英伟达表示，A100进入市场的速度也比以往英伟达的GPU更快，发布之初用于英伟达的第三代DGX系统，正式发布仅六周后，A100就正式登陆了Google Cloud 。

当然，英伟达也在通过更多行业软件吸引用户。比如今年5月，英伟达发布了两个应用框架——用于对话式AI的Jarvis和用于推荐系统的Merlin。还有面向汽车行业市场的NVIDIA DRIVE，面向医疗健康市场的Clara，面向机器人技术市场的Isaac，以及面向零售/智能城市市场的Metropolis。

性能和生态都足够好的A100，能让英伟达在AI市场无人能敌吗？价格会是阻碍吗？

为什么平头哥和英伟达在MLPerf基准测试中都获得了第一？

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

包永刚

编辑

发私信

当月热门文章