英伟达最终活成了“三芯”

本文作者：包永刚

2021-04-13 15:35

导语：英伟达的数据中心路线图更新为GPU+CPU+DPU，芯片市场新的竞争格局正在形成。

英伟达（NVIDIA）400亿美元收购Arm的交易还未最终达成，但并不妨碍英伟达推出其首款基于Arm架构的数据中心CPU。今年的GTC 21依旧选择了线上的方式，英伟达首席执行官黄仁勋还是在自家厨房介绍了AI、汽车、机器人、5G、实时图形、协作和数据中心等领域的最新进展。

英伟达最终活成了“三芯”

英伟达首席执行官黄仁勋GTC 21主题演讲

虽然还是穿着皮衣的黄教主，但他今年更具摇滚气质。不仅推出了全球首款为terabyte 级别计算设计的 CPU Grace，还将英伟达的数据中心产品路线图升级为GPU+CPU+DPU，只为提供10倍甚至更高的性能，保持其在AI领域的竞争力，也推动芯片行业的竞争进入“组合拳”时代。

英伟达最终活成了“三芯”

不要忽略，作为一家系统公司，英伟达有更高远的目标。

黄仁勋说：“NVIDIA正在为当今时代的每一位‘达芬奇’推进他们的各项研究工作，包括语言理解、药物研发或量子计算等。英伟达将助力成就他们毕生的事业。”

英伟达首款数据中心CPU性能提升一个数量级

英伟达发布的首款数据中心CPU叫做Grace，是以美国海军少将、计算机编程先驱Grace Hopper的名字命名。雷锋网了解到，Grace采用台积电5nm工艺。

注意，Grace是一款高度专用型处理器，主要面向大型数据密集型HPC和AI应用。也就是说，绝大多数的数据中心仍将继续使用现有的CPU，Grace主要将用于计算领域的细分市场，预计2023年可以供货。

英伟达最终活成了“三芯”

Grace在计算的细分领域可以实现数量级的性能提升。黄仁勋称，基于Grace的系统与英伟达GPU紧密结合，性能将比目前最先进的NVIDIA DGX系统（在x86 CPU上运行）高出10倍。

Arm属于精简指令集，相比x86这样的复杂指令集实现高性能的挑战更大，英伟达分三步来实现超越x86 CPU的性能。

第一，Grace内置下一代Arm Neoverse内核，每个CPU能在SPECrate2017_int_base基准测试中分数超过300分，为Grace提供足够的计算性能。

第二，有了足够的计算性能，要满足AI计算的需求，内存带宽成为瓶颈。因此，Grace采用了新内存LPDDR5x技术，带宽是LPDDR4的两倍，能源效率提高了10倍。

第三，CPU和GPU之间的数据传输速度同样限制了数据密集的AI计算，Grace采用第四代NVIDIA NVLink，可以实现从CPU到GPU连接速度超过900GB/s，相当于目前服务器14倍的带宽。

从计算性能到解决带宽问题，再到CPU和GPU的紧密结合，使得英伟达的Arm架构Grace可以实现10倍的性能提升，达到一个数量级的提升。

Grace对于英伟达而言，是保持其AI竞争力的关键。由于超大规模的模型很难完全放进GPU内存，如果存储在系统内存，访问速度则会大大受限，如果选用其它CPU供应商的产品，不能实现最高的性能优化。

自研一款CPU，不仅可以实现更高性能，未来的迭代，以及进行系统优化也更容易。同时，英伟达还能帮助Arm将优势拓展到移动计算之外，无论是对英伟达自身还是Arm而言都是优选。

毕竟，黄仁勋对于达成收购Arm的交易持乐观态度。在发布会后的电话会议上，黄仁勋表示目前收购工作在有序进行，相信监管部门会支持这笔收购，2022年会有积极正面的结果。

升级GPU+CPU+DPU三芯片系统公司

英伟达强劲的GPU加上最新发布的CPU Grace，再加上最新更新的Bluefield DPU，构成了英伟达最新的数据中心芯片路线图。“我们每年都会发布激动人心的新品。三类芯片，逐年飞跃，一个架构。”黄仁勋表示。

英伟达最终活成了“三芯”

数据中心路线图包括CPU、GPU和DPU这三类芯片，而Grace和BlueField是其中必不可少的关键组成部分。每个芯片架构历经两年的打磨周期（周期内可能出现转变），一年专注于 x86 平台，另一年专注于 Arm 平台。

“目前市场上每年交付的 3000 万台数据中心服务器中，有 1/3 用于运行软件定义的数据中心堆栈，其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法，否则用于运行应用的算力将会越来越少。”黄仁勋说，“新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。”

显然，英伟达推出自家的Arm架构CPU并非要与x86阵营的AMD和Intel争夺市场，而是面向新兴的细分市场，通过三种芯片的组合实现差异化，并保持竞争力。

GPU是英伟达AI领导力的基石，黄仁勋说：“只需一张 GeForce 显卡，每个学生都可以拥有一台超级计算机，这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。”

在今天的GTC上，英伟达还更新了DPU（Data processing unit，数据处理单元）。“现代超大规模云技术推动数据中心从基础上走向了新的架构, 利用一种专门针对数据中心基础架构软件而设计的新型处理器, 来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。”黄仁勋如此解释。

英伟达最终活成了“三芯”

去年10月，英伟达发布首代DPU BlueField-2，能够卸载相当于30个CPU核的工作负载。今天发布的最新一代BlueField-3 DPU，是专为AI和加速计算设计，实现了10倍的性能提升，有16个Arm A78 CPU核，和4倍的加密速度，能够替代300个CPU核，能以400Gbps的速率，对网络流量进行保护、卸载和加速。

英伟达最终活成了“三芯”

BlueField-3通过NVIDIA DOCA（集数据中心于芯片的架构）软件开发包为开发者提供一个完整、开放的软件平台，新一代DPU预计将于2022年第一季度发布样品。

包括黄仁勋在内的多位英伟达发言人曾不止一次表示，英伟达是一家系统公司。作为系统公司，软件自然也是重点。

GTC 21上，黄仁勋发布了用于训练Transformers的框架—— 英伟达Megatron。Transformers能够生成文档摘要、将电子邮件中的短语补充完整、对测验进行评分、生成体育赛事现场评论、甚至生成代码，已经帮助开发者在自然语言处理领域取得了突破性进展。

他还介绍了英伟达用于计算药物研发加速库Clara Discovery的一些新模型。

还有量子电路模拟器提供加速cuQuantum，目标是为加快有赖于量子位（或量子比特，能作为单个的0或1存在，也可以同时作为二者存在）的量子计算研究，帮助研究人员设计出更完善的量子计算机。

针对数据中心的安全，英伟达也推出了Morpheus数据中心安全平台，基于英伟达AI、BlueField、Net-Q网络遥测软件和EGX而构建，能够对完整的数据包进行实时检测。

面向会话式AI，英伟达Jarvis已经可用，其能够实现语音识别、语言理解、翻译和表达性语音。雷锋网了解到，Jarvis支持五种语言。

为加快包括搜索、广告、在线购物等推荐系统的速度，黄仁勋宣布NVIDIA Merlin现可通过NGC（NVIDIA的深度学习框架容器目录）获取。

还有，为了帮助客户将自身专业知识应用于AI领域，黄仁勋发布了NVIDIA TAO，可以运用客户和合作伙伴的数据，对NVIDIA预训练模型进行微调和适配，同时保护数据隐私。

英伟达的“三芯”时代

有了全新的数据中心芯片路线图，匹配丰富的软件，英伟达能做什么？

首先是获益的就是数据中心。黄仁勋透露，基于今天新发布的Grace CPU以及下一代GPU，瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为阿尔卑斯的超级计算机，算力 20Exaflops（目前全球第一超算富岳的算力约为0.537Exaflops），将实现两天训练一次GPT-3模型的能力，比目前基于英伟达GPU打造的 Selene 超级计算机快7倍。

英伟达最终活成了“三芯”

另外，美国能源部下属的洛斯阿拉莫斯国家实验室也将在2023年推出一台基于Grace 的超级计算机。

更进一步，英伟达可以扩展Arm从云到边缘的市场，包括将基于AWS Graviton2的Amazon EC2实例与NVIDIA GPU相结合；通过新HPC开发者套件，为科学和AI应用的开发提供支持；提升边缘视频分析和安全功能；打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC。

除了在高性能计算市场，英伟达的三芯片组合也能提升其在自动驾驶汽车市场的竞争力。基于英伟达新一代GPU架构、全新Arm CPU以及深度学习和计算机视觉加速器，黄仁勋推出了新一代面向自动驾驶汽车的NVIDIA DRIVE Atlan，该处理器性能最高达每秒超过1000万亿次（TOPS）运算，约是上一代Orin处理器的4倍，超过了绝大多数L5无人驾驶出租车的总计算能力。

英伟达最终活成了“三芯”

DRIVE Atlan SoC也集成BlueField DPU，可以支持自动驾驶汽车中的复杂计算和AI工作负载。预计DRIVE Atlan将搭载在多家汽车制造商的2025年车型上。

英伟达最终活成了“三芯”

“对于汽车而言，更高的算力意味着更加智能化，开发者们也能让产品更快迭代。TOPS 就是新的马力。”黄仁勋说。

不仅如此，英伟达还推出了Hyperion 8 AV平台，这是一个先进的数据采集、开发和测试平台，包含参考传感器、自动驾驶汽车和中央计算机、3D地面真实数据记录仪、网络以及所有必要的软件。

不难发现，面向AI、数据中心、自动驾驶这些新兴市场，再强大的单芯片也很难满足需求，因此，英伟达将其数据中心芯片路线图升级为GPU+CPU+DPU，匹配的丰富软件，进行系统优化，能够帮助英伟达保持领先地位。

小结

对于以GPU见长的英伟达发布CPU，许多人可能会表示惊讶。其实，去年以CPU见长的英特尔也发布了自研GPU。AMD也在拥有CPU和GPU的基础上要收购FPGA。巨头们都做出了相同的选择，意味着的是芯片行业的竞争已经进入了新的阶段，靠单一的芯片已经很难满足AI、5G、自动驾驶等应用的需求，组合拳以及系统优化是未来的重点。

英伟达的优势在于，通过GPU+CPU+DPU的产品组合，能够最大程度维持其在AI领域优势，加上软件和系统的优化，更好地满足新兴应用的需求，在新的市场占据领导力，而非与竞争对手抢夺已有的市场。比如，用英伟达Omniverse创建共享虚拟3D世界。

芯片行业新的竞争格局正在形成。

注，文中配图来自英伟达雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

包永刚

编辑

发私信

当月热门文章