0
作者:郭思、赖文昕
编辑:陈彩娴
北京时间3月19日凌晨4点,英伟达公司创始人兼CEO黄仁勋踏上了美国加州圣何塞SAP中心的舞台,开始讲述 2024 GTC 主题演讲《见证AI的变革时刻》。
作为“AI界春晚”中最重要的一项日程,黄仁勋在演讲中揭开了号称“史上最强AI芯片 GB200”的神秘面纱,并推出了NVIDIA Blackwell、NIM 微服务、Omniverse Cloud API 等一系列涵盖硬件、软件开发、云计算的更新。
此外,黄仁勋还官宣了英伟达在机器人和具身智能技术的众多进展,包括了与比亚迪的合作以及运用在人形机器人的基础模型和新型计算机。
英伟达指出,新 Blackwell 架构 GPU 组成的 GB200,将提供 4 倍于 Hopper 的训练性能,大模型参数达到了万亿级别。这意味着同样的计算能力,科技厂商所需的芯片数量会减少。
在目前大模型火爆,商业落地却前景尚不明朗的情况下,GTC对于整个产业链都来了不同凡响的技术以及商业启发。
史上最强AI芯片“GB200”
黄仁勋称,随着Transformer模型被发明,大型语言模型以惊人的速度扩展,每六个月就会成倍进步,为了训练这些越来越大的模型,自然也需要更强的算力。
什么是“更强的算力”呢?
黄仁勋从口袋里掏出一块 Blackwell 芯片,将它与 Hopper 芯片并排举起,“我们需要更大的 GPU”。
他宣布英伟达将推出GB200系列芯片,将搭载专为处理万亿参数级生成式人工智能而设计的NVIDIA Blackwell架构。
新架构继承了两年前推出的 NVIDIA Hopper 架构,以 David Harold Blackwell 命名,这是加州大学伯克利分校专门研究博弈论和统计学的数学家,也是第一位入选美国国家科学院的黑人学者。
同自家产品相比,芯片的性能有了显著的提升。GB200芯片由两个Die封装组合而成,拥有高达2080亿个晶体管,采用了台积电4NP工艺制程技术,使其能够支持庞大的AI模型,参数量可达10万亿。相比之下,H100/H200系列芯片则只配备了800亿个晶体管。
Blackwell 能大幅提高大模型的训练、推理效率。 在 FP8 训练方面,Blackwell 的每芯片性能是其前身的 2.5 倍,在 FP4 推理方面的性能是其前身的 5 倍。它具有第五代 NVLink 互连,速度是 Hopper 的两倍,并且可扩展至 576 个 GPU。
黄仁勋以训练1.8万亿参数GPT模型的资源消耗为例,直观地展现了 Backwell 作为 “一个巨型 GPU” 的强大之处:使用Hopper GPU,需8000张,耗能15兆瓦,耗时90天;而Blackwell GPU仅需2000张,电力消耗减少75%,同样90天内完成。
为了扩大 Blackwell 的规模,英伟达还构建了一款名为 NVLink Switch 的新芯片。每个 Blackwell 芯片能以每秒 1.8 TB 的速度与四个 NVLink 互连,并通过减少网络内流量来消除流量。
此外,GB200芯片的设计将两个B200 Blackwell GPU与一款基于Arm架构的Grace CPU相结合,旨在提供更加强大的计算能力和更高的效率。这种配对设计不仅增强了处理能力,也为AI大模型的运行提供了更为优化的平台。
正如黄仁勋所说的一样,“整个行业都在为 Blackwell 做准备”,目前 Blackwell 正在被全球各大云服务提供商、AI公司和电信公司等采用。
在GTC大会上,微软和英伟达深化了双方长期以来的合作关系,整合了英伟达生成式人工智能和Omniverse技术,这些技术已广泛应用至微软Azure、Azure AI服务、微软Fabric以及微软365等平台。
微软CEO萨提亚·纳德拉表示:“与英伟达携手合作,我们正在将人工智能的潜力变为现实,助力全球各地的人们和组织实现新的效益和生产力提升。
从将GB200 Grace Blackwell处理器引入Azure,到DGX Cloud与微软Fabric之间的新集成,我们今天宣布的一系列举措将确保客户能够在Copilot堆栈的每一层面上,从硅芯片到软件,都能拥有最全面的平台和工具,以构建自己的突破性AI能力。”
除了“GB200”这位绝对主角外,黄仁勋也在GTC大会上官宣了英伟达在软件开发的革新“NVIDIA NIM”。他表示,未来构建软件时不太可能从头开始编写或编写一大堆 Python 代码之类的东西,“很可能你会组建一支AI团队。”
NVIDIA NIM 由英伟达的加速计算库和生成式 AI 模型构建,支持行业标准 API,因此易于连接,可在英伟达庞大的 CUDA 安装基础上工作,针对新 GPU 进行重新优化,并不断扫描安全漏洞和漏洞,目前 Cohesity、NetApp和 Snowflake 等科技公司已在使用。
在GTC大会上,黄仁勋还宣布了与众多公司的合作。
在半导体制造行业,英伟达已与台积电和Synopsys合作,将其计算光刻平台CuLitho应用于先进芯片的生产过程。
在电信行业,推出NVIDIA 6G研究云,这是由生成式人工智能和Omniverse技术提供动力的平台,致力于推进下一代通信技术的进步。
在在交通运输行业,比亚迪计划利用英伟达的集中式车载计算平台DRIVE Thor来开发其下一代电动车型。
此外,黄仁勋还宣布了一系列旨在推动英伟达机器人技术研发的项目,如机械臂感知、路径规划和运动学控制库 Isaac Manipulator,人形机器人的模型平台GR00T,和新型计算机 Jetson Thor。
最后,搭载了英伟达为机器人设计的首款AI芯片Jetson的迪士尼机器人orange和green也登上了舞台,陪伴黄仁勋为演讲画上了句号。
AI芯片新皇登场的后续思考
We need Bigger GPUs… A very very big GPU!
非常非常大的GPU,是老黄对于整场GTC大会最切实的表达。毕竟,新 Blackwell 架构 GPU 组成的 GB200,将提供 4 倍于 Hopper 的训练性能,大模型参数达到了万亿级别。
另一方面,为了更好地服务于日益壮大的大模型应用领域,英伟达推出了极具针对性的服务——模型定制服务Nvidia Inference Manager(简称NIM),这意味着只要有英伟达硬件的存在,用户就能便捷地进行大模型的调试与应用。
看得出来,老黄对于大力出奇迹这一理论也持认可态度。
而大众对于这一消息的第一反应则大部分是震惊,甚至用了感到炸裂来形容。通过英伟达的种种做法,我们也不禁感慨,英伟达在AI行业的地位已有目共睹。
甚至有业内人士用了AI时代的思科以及AI时代的Wintel来形容。(思科在网络设备和协议标准化方面曾起到了至关重要的作用,而英伟达通过其GPU和AI平台推动了AI计算基础设施的发展,为数据中心、云端和边缘计算提供了关键的硬件支持。)
在炸裂之后,我们可以看到,英伟达GB200的发布对于行业的技术突破和商业发展都带来了深远的影响。
在技术上,业界一致认为通过不断挖掘和利用高性能计算的力量,来拓展人工智能技术的规模化疆界,是推动行业发展的重要手段。
国家超级计算深圳中心主任冯圣中在评价英伟达GB200的卓越表现时,则用“进步显著,但仍有巨大潜力可挖”进行了精辟总结。这也意味着GB200乃至整个高性能计算与AI领域,未来都还还可能在技术上有更为突破性的表现出现。
不过除了对GTC所展现出来的对技术强烈认可和憧憬之外,更多行业人士关注的则是GB200发布对于商业和国内整体市场的影响。
在芯片领域,产能和定价是最为被大家关注的问题。一位资深投资者向笔者指出,GB200的发布是技术上的突破,但如果产能能放量的话,则会更加成为商业上的炸裂。
目前整体而言,大模型的成本还是太贵。拿大家熟知百度文心为例,业内消息指出文心大模型4.0的推理成本相比于之前的版本出现了大幅增长,最高据说增加了8-10倍,这意味着提供实时生成内容服务的成本骤增。这意味GB200的成本一旦打下来,国内芯片厂商的空间会被挤压得更加厉害。
而在整个GTC大会上,我们发现,不同于以往的发布单一芯片,这次英伟达直接放出整个服务器。也引发了对于市场格局的思考。国内某大型元器件公司从业者告诉AI科技评论,英伟达的做法很明显,自身在底层东西很强势,就干脆直接不做单套,直接卖整机,反正最后都得垄断。
下放到中国市场,大家的一致看法则是,按照以往美国的做法,大概率产品一经发行便会受到制裁。业内投资人告诉AI科技评论,新一波的制裁大概率会出现在四月份。
这意味着,在国内先进制程中短期内(5年)或都难以赶上国外的现状之下,H800等被阉割系列的存量运营效率价值将显著提升,水货和渠道货的价格可能会迎来回弹和普涨,这其实也将进一步加剧供应链紧张态势。
在此背景下,大模型厂商如何合法合理地借鉴云服务提供商的经验,寻求海外采购及储备策略,成为一个具有实际意义的研究课题。
另一方面,稳扎稳打投资Infra公司、把生态+推理的量提升或许也更加具有借鉴意义。
正如搭建高楼大厦,追求最顶尖的建筑材料和技术固然重要,但这并不意味着所有建设项目都将仅仅依赖于最先进的顶层设计,其余基础材料也同样至关重要。这也就意味着即使在高端产品领域我们暂时未能赶超,但在AI在基础建设层面孕育大量的市场需求和发展机遇。
而对于国内GPU厂商而言,套用某GPU从业者的话则是:英伟达牛逼惯了,大概率会被制裁,国内的GPU公司则更加要好做产品,从能卖掉的做起来。
雷峰网(公众号:雷峰网)作者长期关注一大模型计算与框架、芯片领域动态,欢迎添加雷峰网作者微信lionceau2046、anna042023互通有无
雷峰网原创文章,未经授权禁止转载。详情见转载须知。