0
雷峰网(公众号:雷峰网)消息,北京时间3月19日凌晨,英伟达公司创始人兼CEO黄仁勋在GTC会议上发表主题演讲。
DeepSeek爆火后,英伟达被推上风口浪尖,对于AI发展是否会带来更大数量级的算力需求,市场生出隐忧。演讲开场,黄仁勋便做出回答:“全世界都错了,Scaling law有更强的韧性,现在的计算量是去年同期的100倍。”
推理让AI具备“思维链”,模型响应需求时会对问题进行拆解,而不是直接给出答案,对每个步骤进行推理势必让产生的Token数量增加。模型变得更加复杂,为了保证原有的推理速度以及响应能力,便对算力提出了更高的要求。
Token是AI的基本单元,推理模型本质上是一座生产Token的工厂,提高Token的生产速度就是提高工厂的生产效率,效率越高,利益越大,算力要做的就是探索生产效率的边界。
而具备自主推理能力的Agentic AI发展趋势之下,势必带动物理AI的发展。GTC会议上,英伟达带来Blackwell Ultra、推理系统Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新发布,用性能回应需求。
AI芯片将「年更」,Rubin性能达Hopper「900倍」
AI的发展让数据中心的资本支出不断攀升,数据显示,2028年数据中心资本支出将达到1万亿美元,黄仁勋称:“这其中的大部分增长可能还会加速。”资本支出增加、盈利能力提升,带来的是英伟达在数据中心领域的营收增加。
为了让计算机成为更强的“Token生成器”,英伟达发布新一代“最强AI芯片” Blackwell Ultra。
单从硬件上看,Blackwell Ultra相较于GB200带来的最大升级是采用12层堆叠的HBM3e内存,成为全球首个显存达到288GB的GPU。对此,有消息称,SK海力士将独家供应Blackwell Ultra。
高效响应推理模型,对算力、内存及带宽提出更高的要求。英伟达推出Blackwell Ultra GB300 NVL72机架级解决方案,集成72个Blackwell Ultra GPU和36个Grace CPU,满足AI推理工作负载对算力和内存的要求。
Blackwell Ultra GB300 NVL72将于2025年下半年发布,其性能为GB200 NVL72的1.5倍、40TB快速闪存为前代1.5倍,14.4TB/s带宽为前代2倍。
要更好释放硬件的算力,软硬件协同变得更加重要,为此,英伟达推出分布式推理服务库NVIDIA Dynamo,通过协调并加速数千个GPU之间的推理通信,为部署推理AI模型的AI工厂最大化其token收益。
在GPU数量相同的情况下,Dynamo可以实现Hopper平台上运行Llama模型的AI工厂性能和收益翻倍,在由GB200 NVL72机架组成的集群上运行DeepSeek-R1模型时,Dynamo的智能推理优化能将每个GPU生成的Token数量提高30倍以上,并让Blackwell的性能相较于Hopper提升了25倍。
黄仁勋表示,Dynamo将完全开源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署AI模型的方法。
在推理模型中,Dynamo则让Blackwell的性能达到Hopper的40倍,黄仁勋笑称:“当Blackwell批量发货时,就不要再拿Hopper去送人了。”
以功率为100兆瓦的AI工厂为例,其能供能45000个H100芯片,共计1400个H100 NVL8机架,生产力为3亿个Token。同等功率下,其能供能85000个GB200芯片,共计600个机架,生产力为120亿个Token。相较于H100 NVL8,GB200 NVL72不仅带来更强的算力,而且在功耗和空间占用上更有优势。
“买得越多,省得越多。”黄仁勋又说出了他的带货名言,这次还补充道,“买得越多,赚得越多。”
旗舰版AI芯片作为GTC的“最大看点”,仅仅宣布Blackwell Ultra很难满足外界预期。对此,黄仁勋公布了英伟达旗舰芯片的全新路线图,芯片架构的更新周期正在加速,由每两年推出新的产品线调整为“每年一更”的产品节奏。
每代产品更新均基于全栈解决方案、依托统一架构,并秉持“CUDA无处不在”的理念推进。按照路线图规划,黄仁勋提前预告了下一代AI芯片“Rubin”,遵循以往采用科学家名字命名架构的惯例,本次新架构以美国天文学家“Vera Rubin”的姓氏命名,以纪念其证实了暗物质存在的卓越贡献。
Vera Rubin NVL144预计将在2026年下半年发布,在进行FP4精度的推理任务时,性能达到3.6ExaFLOPS,进行FP8精度的训练任务时,性能为1.2ExaFLOPS,与GB300 NVL72相比,性能提升了3.3倍。
Vera Rubin NVL144配备HBM4,带宽达到13TB/s,拥有达到前代1.6倍的75TB快速闪存。支持NVLink6和CX9,带宽均达到前代2倍,实现数据传输效率的提升。
黄仁勋表示,Blackwell的性能相较于Hopper提升了68倍,而Rubin的性能将达到Hopper的900倍。
与Blackwell一样,除了标准版本,英伟达还计划于2027年下半年推出Rubin Ultra NVL576,在进行FP4精度的推理任务时,其性能达到15ExaFLOPS,进行FP8精度的训练任务时,性能为5ExaFLOPS,与GB300 NVL72相比,性能提升了14倍。
Vera Rubin NVL144将配备HBM4e,带宽达到4.6PB/s,拥有达到前代8倍的365TB快速内存。支持NVLink7,带宽1.5PB/s,为前代12倍。支持CX9,带宽115.2TB/s,为前代8倍。
CPU部分,Vera芯片搭载88个定制Arm核心,支持176线程,具备1.8TB/s的NVLink - C2C(芯片到芯片)带宽,在多芯片互联等场景下能高效传输数据。GPU方面,Rubin Ultra集成4个Reticle-Sized GPU,每颗GPU拥有100PF的FP4算力,搭配1TB HBM4e显存,在性能和内存容量上达到新高。
在训练、推理及应用部署等关键环节,AI芯片平台都需要网络为其提供高速稳定的数据传输。英伟达推出Spectrum-X和Quantum-X硅光网络交换机,为全球最先进的AI云及AI工厂提供支持。
Spectrum-X网络交换机有多种配置,最高配置512端口800Gb/s或2048端口200Gb/s,总吞吐量达400Tb/s。与之配套的Quantum - X网络交换机基于200Gb/s SerDes技术,提供144端口800Gb/s的InfiniBand连接,与上一代相比,速度提升2倍、可扩展性提升5倍。
不止AI工厂,DGX Spark和DGX Station打造「AI桌面」
为了支持AI开发者、研究人员、数据科学家和学生等群体,英伟达推出“全球最小AI超级计算机”DGX Spark,其支持在台式电脑上对大模型进行原型设计、微调和推理,用户可以在本地、云或数据中心基础设施中运行这些模型。
DGX Spark是基于GB10 Grace Blackwell打造的个人AI超级计算机系列产品,根据台式电脑外形规格进行了针对性优化,其支持第五代Tensor Core和FP4,每秒计算次数达到1000万亿次。GB10采用NVIDIA NVLink-C2C互连技术,带宽是第五代PCIe的五倍,并且能够访问GPU和CPU之间的数据,为内存密集型AI开发者工作负载优化性能。
英伟达的全栈AI平台支持DGX Spark用户将其模型从台式机迁移到DGX Cloud、其他加速云及数据中心基础设施中,并且无需修改代码,简化了对其工作流进行原型设计、微调和迭代的要求。
黄仁勋表示:“AI改变了每一层计算堆栈。我们有理由相信将出现一类专为AI原生开发者而设计并用于运行AI原生应用的新型计算机。借助全新的DGX个人AI计算机,AI能够从云服务扩展到台式电脑和边缘应用。”
DGX Station是Ultra平台的高性能桌面超级计算机,定位为面向企业和科研机构的高性能AI计算站,能够帮助企业构建私有AI推理系统,相较于DGX Spark,适用于更大规模的AI开发领域。
DGX Station是第一款采用英伟达GB300 Grace Blackwell Ultra桌面超级芯片构建的台式机系统,拥有784GB统一系统内存,支持800Gb/s网络连接的ConnectX-8 SuperNIC,AI性能达到20PFLOPS。
从数据、模型到算力,英伟达「全面驱动」人形机器人
“机器人时代已经到来,其能够与物理世界交互并执行数字信息无法完成的任务。”黄仁勋说,“世界正面临严重的劳动力短缺,到2030年,全世界将短缺5000万名工人,我们可能不得不每年支付5万美元薪水给机器人。”
物理AI正在改变规模50万亿美元的产业。英伟达推出全新Cosmos世界基础模型,引入开放式、可完全定制的物理AI开发推理模型,包含各种模型尺寸并适用于多种输入数据格式,帮助生成大型数据集,能将图像从3D扩展到真实场景,缩小仿真与现实之间的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企业,可更快、更大规模地为物理AI生成更丰富的训练数据。
“正如大语言模型改变了生成式和代理式 AI,Cosmos世界基础模型是物理AI的一项重大突破。”黄仁勋表示, “Cosmos为物理AI带来了一个开放式、可完全定制的推理模型,为机器人和物理工业领域的突破性发展带来了机遇。”
满足数据需求之外,英伟达推出人形机器人基础模型Isaac GR00T N1,采用“快速反应”的系统1以及“深度推理”的系统2双架构,黄仁勋表示,Isaac GR00T N1将开源,机器人开发者可以用真实或合成数据进行后训练。
Isaac GR00T N1基础模型采用广义类人推理和技能进行了预训练,开发者可以通过进行后训练,使其满足特定的需求,例如完成不同工厂生产线的特定任务以及自主完成不同的家务。
英伟达、谷歌DeepMind及迪士尼合作开发了开源物理引擎Newton,采用Isaac GR00T N1作为底座驱动了迪士尼BDX机器人。
人形机器人是AI时代下一个增长点,从数据生成、基础大模型到算力,英伟达为开发者提供了全面支持。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。