0
作者丨何思思 西西
编辑丨陈彩娴
2021年,中国信通院曾低调发表一份报告,指出一个与主流视角相悖的趋势:
尽管当时全球算力的出货量还是以 CPU 居多,但从 2021 年开始,中国的智能算力(GPU)占比就已经超过通用算力,在我国算力中占比超过 50%,增速 85%。
两年前,这个数字还没有引起云计算领域的普遍认同,但也已经有一部分云厂商未雨绸缪。比如,百度在 2020 年就提出,云计算一定要考虑人工智能(AI)技术的影响。
这中间,AI 技术在核心生产场景中的价值曾一度受到质疑,智能计算的话题暂且搁浅。但到 2023 年,随着大模型的爆发,各行各业迎来了有可能决定未来发展、甚至企业命运的颠覆性技术。运行千亿级参数以上模型的计算基础设施建设需求又重新回到行业的视野,支撑智能算力平台的 GPU 也迎来继 2012 年深度学习后的第二春,市场反应甚至较 2012 年更加火爆。
最直观的数据是,2023 年英伟达发布的 Q3 财报显示,英伟达期内营收达 181.2 亿美元,同比上涨 206%,市值超过 12000 亿美元,高出英特尔近 1 万亿美元,成为全球市值最高的芯片公司。而这背后的推动力,无疑是今年占据各大科技头条的大模型变革。
ChatGPT的出现,不仅改变了 AI 领域的发展格局,语言 AI 技术地位逐级攀升,取代视觉 AI 成为今日通用人工智能(AGI)话题的 C 位,同时也改变了云计算的发展格局——智能算力的角色将更加关键,企业技术架构将从过去的以CPU为计算核心,逐渐转向以GPU为代表的智能计算 为核心,GPU+CPU+DPU+… 的异构计算架构将取代单一XPU,成为云计算的主要算力模式。
有行业人士甚至预测,国产 GPU 第一次大规模的格局重塑将在 2025 年之前完成。
无论预言是否准确,但可以肯定的是,2023 年已经走到年关,大模型为中心的 AI 技术日新月异,留给云计算厂商的准备时间已经不多了。
而在云计算的格局被彻底重构之前,大模型时代给算力提出的新挑战,也仍需理智思考、谨慎对待。
计算范式的变革
在过去大模型狂飙的一年中,人们最能直观感受到大模型对云计算产生影响的表现,大约是科技同行对 GPU 算力的哄抢。
一位算力采购从业者告诉雷峰网一个段子,年初有人费劲千辛万苦找到英伟达的销售后,自以为兜里有钱、心里不慌,“财大气粗”地向英伟达的销售提出要购买2000 张 A100,结果被英伟达的销售拒绝了,原因是“要的量太小”。在上半年炼大模型最红火期、芯片出口管制发布之前,江湖一度传闻该巨头的 GPU 卡出货量是 4000 张起步,但仍有大批同行斥巨资还要碰一鼻子冷灰。
毫无疑问,在大模型的影响下,云计算从互联网时代的 CPU 云为主向 AI 时代的 GPU 云为主转变已是行业共识、大势所趋。更底层的芯片端最先反应,除了英伟达,高通、英特尔、Arm 等厂商也开始将面向大模型训练与推理的芯片设计与生产列入日程,为下一个时代到来的可能性做准备。
但除了芯片种类与数量的变化,雷峰网(公众号:雷峰网)观察到,大模型对云计算厂商的影响实则体现在更深的维度。
尽管 GPU 在2012 年深度学习崛起时就已经被应用于 AI 算法的训练与推理,但由于大模型基于 Transformer 与超大参数规模的新特征,通用泛化能力远远强于过去的 AI 小模型,训练、推理算力需求指数级飙升,对算力(集群)规模、能效、稳定性都提出了极高要求。仅仅依靠简单的算力堆叠,完全无法适用于大模型时代。
在这样的趋势背景下,过去的云服务模式也需要作出顺应时代的变化与调整。而相比计算量的“膨胀”,云厂商服务模式的维度并没有受到太多的关注。
具体来说,在大模型时代,要参与新一轮的竞争,云计算厂商或需要正视三大命题、并提供解法:
计算基础设施的变革
关于小模型与大模型的工程量对比,我们可以用不同类型的飞机模型来做比较:
同样是飞机,虽然都具备机翼、机身、发动机、起落架与尾翼,但玩具飞机、小型飞机、中型飞机与大型飞机的尺寸大小不同,实现功能不同,搭建与运维所需的技术、人才、工程量等等也有极大差异。对应地,不同参数规模的 AI 模型所要求的计算基础设施也不同。
过去 AI 小模型的训练一般只需单卡或单机多卡,但大模型的训练需要成千上万张 GPU 才能跑起来。而同样类比飞机模型的例子,个位数的 GPU 与上万张 GPU 卡的集群搭建也不是同一个工程量级。全面替换为 GPU 不现实,实际计算中 GPU 往往还要结合 CPU、DPU 等形成超大规模智算集群才能完成训练与推理。
而大规模计算集群的建设也不是将一万张显卡进行简单堆积就能完成,还需要专门的设计与优化,才能使模型训练与推理的性能和稳定性达到实际需求。以显卡的利用率为例。过去业界千卡 CPU 并行的利用率通常在 60% 到70% 之间,这已经是很高的水平,但仍然不够。在时代巨轮飞转、从 CPU 过渡到 CPU+GPU+DPU 只有极短时间的前提下,提升显卡利用率一直是云厂商老大难的问题。
在大模型面前,这类问题会变得更加关键。当显卡的基数扩大,显卡利用率提升 5% 甚至 10% 的影响力也变得更加巨大。据雷峰网了解,一些智算中心的售卖率虽然很高,但在利用率方面却极低,百分率只在个位数。换言之,计算集群的管理仍存在较大的降本增效空间。
此外,由于大模型的参数规模与训练复杂度加大,显卡的故障率也随之提升。多位技术人员告诉雷峰网,英伟达显卡训练大模型的一个常见故障是“掉卡”,即显卡在运行过程中突然失去连接或无法正常工作。大模型的训练周期较长,如果中途出现故障,原本已经进行了十几天的任务可能就要重新开始。
因此,面向大模型进行云计算基础设施体系的重构是当下云厂商不得不推进的工作。
大模型服务成主流,MaaS 是趋势
过去一年,围绕大模型技术重构上层产品与应用已成行业共识。尽管当前中国的大模型原生应用数量远远没有达到大众预期,与人们设想的移动互联网时代 app 层出不穷的愿景还有一定距离,但今年下半年以来,围绕大模型设想 AI 原住民时代的讨论越来越多。
以百度文心一言为例。百度曾公布一组数据,称百度文心一言自 8 月 31 日全面开放后,至今 4 个月里,百度千帆大模型平台上的大模型 API 日调用量增长了 10 倍,且调用行业不仅局限在互联网、教育与电商场景,还有营销、手机与汽车等大家所想不到的传统行业。
随着企业对大模型应用的关注加大,大模型的商业模式也在发生变化。在MaaS(模型即服务)的趋势下,客户未来关心的重点将转向模型好不好,框架好不好等等,而不是仅仅看算力怎么样。MaaS将彻底改变云服务的商业模式和市场格局,并为各行各业的AI原生应用带来爆发式增长的沃土。
未来大模型很大可能不再只基于 API 调用、按 token 字数推理收取计费。一些厂商正在研发围绕 GPU 提供的云计算服务,希望按照客户的实际使用量来收费。
百度集团副总裁侯震宇认为,MaaS 的收入至少会分为两类:
一类是面向模型的研发收入,即基于某个通用的基座大模型来做 SFT(监督微调),这部分会逐步取代裸用算力来进行模型训练的部分收益。在追逐基座大模型的狂热中,企业倾向于购买算力来进行模型训练,但随着大模型的数量越来越多,更多企业也意识到,从头开始训练一个大模型的做法不可取,基于已有的通用大模型进行二次开发更实际。这一判断符合当前大模型领域“重复造轮子”现象泛滥的应对方案。
另一类是 AI 原生应用爆发后的推理收入。除了前期的训练,云厂商更大的盈利空间在于为开发者提供强大的基座大模型后,面向未来深入业务场景与用户的 AI 应用收推理费用。在这一目标上,稳定的计算服务与推理体验自然成为云厂商一较高下的分水岭。
应用开发范式被颠覆
上一个十年,深度学习算法的落地每每要根据单一的特定场景进行模型的训练,从数据标注到算法训练、再到端到端部署落地,前后往往要耗时几周甚至数月。但随着越来越多泛化能力强的基座大模型的诞生,以及 MaaS 模式的成熟,大模型时代的 AI 模型不再需要从头训练,而是可以基于一个强大的通用大模型进行有监督微调而来。
在这种研发方式的改变下,企业的专注力集中在自家场景的数据上,加上通用大模型的泛化优势,行业用户研发大模型应用所需的算力规模与训练时间都会大幅缩短,由此带来更快的迭代速度。在这种模式下,计算资源的利用率也会大幅提升。
具体地,大模型独特的理解、生成、逻辑与记忆能力还会带来整个技术栈、数据流与业务流的颠覆,催生出新场景(如个人助理、代码生成)、新架构(如检索增强生成 RAG)、新开发生态。
在适应新 AI 应用开发范式的准备工作中,一套灵活、创新的云计算体系与云服务设施更能适应未来大模型商用与落地的走向。大模型诞生于大规模云计算集群,但随着行业需求的变化,云计算也要改变姿态,反主为客,跟上大模型的发展步伐。
百度解法:一个重构启示
针对大模型训练难度大、算力要求高的问题,今年以来,国内外的云计算厂商也进行了各自的思考与举措。
一个云厂商要如何跟上大模型时代?这个问题不小,解法也有很多,但无论各家的答案如何,回答这个问题都绕不开大模型的本质——大模型的竞争不是百米冲刺,而是五千米长跑、甚至半程马拉松。从急事缓办的精神信条来看的话,云厂商的决胜关键也不只在于迅速的反应,还有全面的布局、谨慎的排雷。
以算力中心空转现象为例。一位云计算销售告诉雷峰网,今年上半年有一些运营商和小型智算中心轰抢完一批显卡后,却不知道怎么用起来。从云厂商的角度看,最理想的目标是算力长期租赁,如果短期租赁结束后、后续需求不明确,则原有的算力资源就可能被闲置,造成资源的浪费。
此外,当前业界的关注重点集中在大模型的开发与应用上,对于计算中心的精细化运营关注度很低。在大模型的训练过程中,对计算资源的管理方式也比较粗放。如果一个云厂商只是追求热点,不进行长期计划与管理,资源浪费的背后实质是商业模式的崩塌。
近日,百度召开 2023 年百度智算大会。雷峰网了解到,百度在云计算的重构上采取了降本增效、精准打击同时又面面俱到的策略。从百度的技术基因来看,百度既有文心大模型,又有国内最早探索云智一体的实践经验,在智能云的布局上采取多线作战、稳步前进的路线是在情理之中。这是适应云计算行业需求的举措,也是百度的长项所在。
具体来说,百度智能云的重构体现在三方面:
首先,重构智算基础设施方面,百度智能云推出了百舸·AI异构计算平台3.0。
百度百舸·AI异构计算平台的研发最早可追溯 2009 年,这一年,百度开始用 GPU 做 AI 加速,百度开始用 GPU 做 AI 加速,不断扩大集群规模,为百舸平台最终面向市场推出奠定了基础。2021 年百舸·AI异构计算平台 1.0 问世,2022 年升级到 2.0 版本。
与 1.0 和2.0 相比,升级后的 3.0 主要针对大模型的训练和推理场景研发,在高效、稳定以及易运维三方面进行升级,实现了万卡级别任务有效训练时长达到98%以上,带宽有效性可达 95%。百舸异构计算平台在针对开源大模型的训练和推理加速上,分别最高可提升 30% 和 60% 。
针对 AI 原生时代智能算力的供给失衡问题,百度智能云发布了智算网络平台。该平台支持将百度及第三方建设的智算中心、超算中心、边缘节点等智算节点进行全域接入,将分散和异构的算力资源打通连接起来,形成统一的算力网络资源池,再通过百度自主研发的算力调度算法,智能分析各类算力资源的状态、性能和利用率等指标,统一调度算力,实现智算资源的灵活、稳定、高效的利用。
同时,为了满足 AI 原生场景的要求,百度智能云持续更新增强百度太行·计算的产品能力、发布新一代云服务器,高性能计算平台、新一代网关平台等,并通过分布式云提供无处不在的智能算力。
数据基础设施方面,百度沧海·存储升级发布了统一技术底座,可以支持更大规模,更高性能的计算场景。同时发布云原生数据库 GaiaDB 4.0、数据库智能驾驶舱、升级大数据管理平台 Serverless 能力等。
为了加强智能基础设施的服务能力,今年早期百度智能云已经开展了多项工作,比如 3 月份将阳泉数据中心升级为了智算中心, 8 月启动国内首个大模型数据标注中心,同时又联合多地政府共建了智算中心、AI 数据标注基地等。
其次,全面升级MaaS服务平台,在 MaaS 模式的变革下,百度智能云为了让企业能更合理选择与有效利用大模型,为开发上层 AI 应用创造高效易用的模型能力调度环境,百度智能云对千帆大模型平台进行了升级。
智算大会现场,百度公布了千帆的最新“成绩单”。 自8月31日文心大模型向全社会全面开放以来,在千帆大模型平台上,大模型API日调用量增长10倍。目前千帆平台已经累计服务超过4万家企业用户,累计帮助企业用户精调近1万个大模型。
与千帆平台 2.0 相比,升级后的千帆平台将模型数量增加至 54 个,数量位居全国榜首,并针对性进行模型能力增强;新增了数据统计分析、数据质量检查等功能,结合数据清洗可视化Pipeline,能够构建出面向大模型场景的高质量数据燃料;推出自动化+人工的双重模型评估机制,大幅提升模型评估效率与质量。
此外,为了帮助客户更快的定制专属大模型,千帆平台快速迭代模型开发的全流程工具链。经测试发现,较自建系统训练大模型来说,使用千帆平台训练的成本最高可以下降 90%。
第三,全面开放AI原生应用工作台
在2023百度云智大会·智算大会上,百度集团副总裁侯震宇指出,AI原生时代的典型系统架构,至少包含模型、数据与应用三部分。因此,在对智算基础设施和MaaS服务平台的重构之后,全面开放AI原生应用工作台千帆AppBuilder则成为了百度打造AI原生应用生态的重要闭环。
千帆AppBuilder将基于大模型开发AI原生应用的常见模式、工具、流程,沉淀成一个工作台,帮助开发者聚焦在自身业务,而无需为开发过程牵扯多余精力。针对不同层次开发者的需求,Appbuilder提供了面向需要深度AI原生应用开发能力用户的“代码态”和适合于快速定制和上线智能产品的“低码态”两种产品形态,让企业和开发者可以敏捷、高效地进行AI原生应用开发。
大模型时代,一个云厂商是否应该自研大模型?在过去一年中,大模型厂商与云厂商之间的关系博弈也饶有趣味。但在商业世界中,淘金者与卖铲子的人往往并不矛盾,更甚者,只有淘过金的人才知道什么样的铲子是最好的。百度的经验就是:云计算为大模型兜底,大模型也扶持了云计算。
由于百度在模型、计算、应用层均有布局,所以在百度的技术中台上,大模型能实现从底层算力到上层应用的端到端打通,从而实现更好的迭代。
在技术加持下,6 月6 日百度发布ERNIE-Bot-Turbo版时,推理性能已提升 50 倍;7 月 7 日文心大模型 3.5 发布,效果提升 50%、训练速度提升 2 倍、推理速度提升了 30 倍;8 月 2 日百度千帆大模型平台升级,模型的推理成本再降低 50%。
侯震宇提供的一组数据是:从3月份发布文心一言以来,推理成本已经降到了原来的1%。
如果说大模型是打开 AI 时代的钥匙,那么这个钥匙的背后必定离不开三层加持:模型、算力与应用。无论是发展大模型、还是发展云计算,百度的重构都将三者合为一谈、而不是拆开来单独讨论,这也使得百度的大模型布局力量均衡,整体能齐头并进。
结语
大模型行业刚起步,事实上,无论是大模型独角兽,还是兼具云与模型的互联网大厂,都仍在不断探索,摸着石头过河中。
大模型时代的云计算重构不止有一种解法,而百度率先向行业交出了一份答卷。作为一家在人工智能领域深耕10余年的AI公司,Cloud for AI(云为 AI 而生)是百度的宿命,也是百度的优势。除了全面布局、稳重前进的节奏,或许长期主义的精神更契合大模型时代的要求。快跑者能赢得百米冲刺,但马拉松需要耐心与韧力。云计算冲向 2024,谁领风骚,还看今朝。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。