0
赵亚雄认为,算想未来的机会是坚持做好算力云服务,让望价兴叹的的企业不再是看客。
一、限制新规出台,国内进口芯片受阻
今年10月17日,美国BIS发布了针对芯片的出口管制新规,此次限制的核心对象是先进计算半导体、半导体制造设备和超级计算机项目。
而事实上,此次新规是美国在去年10月发布的规定的基础上修改更新后的版本,且将于2023年11月16日生效。这是继2022年10月7日后,美国半导体出口管制的第二次升级。
时间回到去年10月份,当时限制向中方销售A100级别及以上显卡,其中就包括H100。国内企业为了摆脱限制,退而求其次,转而采购降低H100芯片的变种芯片H800,还有A100的变种芯片A800。
对于今年的新规,通过查询官网信息了解到,主要包括三个规则:先进的计算芯片规则,首先调整了决定先进计算芯片是否受到限制的参数;其次是采取新的措施来应对规避控制的风险,对另外40多个国家出口的产品实施了额外的许可证要求;
扩大半导体制造设备的出口管控方面,包括强化对美国人才的限制,还增加了需要申请半导体制造设备许可证的国家数量,从中方扩大到美国能够管辖到的21个国家;
实体清单方面,先前的规定已经把31家中国企业列入到实体清单,而新规则增加了壁仞13家中国企业名单,也就是说实体清单上已经有40余家中国企业在列。
另外,除了限制高端芯片出口,公告里还提到了要限制中国制造高端芯片。这意味着可能会阻碍Applied Materials、Lam和KLA等公司向中国销售半导体制造设备。
据悉,去年的禁令主要做了两方面的限制:一是互联带宽,二是算力总量,而今年则取消了互联带宽的限制,增加了算力密度的限制,因为算力密度越高,芯片的制程和设计水平也就越高。这意味着不论英伟达还是英特尔、AMD,按照算力性能密度的要求,新产品可能基本没有办法对华供应。
值得注意的是,对于一些略低于性能限制阈值的芯片,类似RTX 4090等。如果要出口到中国,也需要向BIS提交申请。由此可见,此次新规的下手较狠,围堵也更为严格。
算想未来创始人赵亚雄表示,新规之前,国内是可以通过公开渠道购买A800或者H800的。新规生效后,国内企业没办法通过正规途径买到A800和H800,甚至4090等低性能芯片都要向 BIS 提交申请。另外,他还谈到,国内英伟达代理商已经停止了交付。
据海关公布的数据显示,今年前三季度中国芯片进口量同比减少14.6%,其中芯片进口额减少了600多亿美元,进口额下滑19.8%。从相关数据也可以看出,中国进口的高端芯片数量加速减少。
显然,最新限制规则生效后,中国高端芯片进口量还会呈现持续缩减的态势。
二、清单企业递增,国产AI芯片进退两难
新规究竟会给国内外带来什么样的影响?
从新规中实体名单可以看出,中国企业的数量已经从去年的30多家上升到了40多家,这就意味着海外对国内芯片的限制更为严格且范围仍在持续扩大。
而此次又将13家企业列入到限制清单内,这无疑给了国内AI芯片厂商一记重拳。对此,相关企业也纷纷发表声明,表示强烈反对并提起申诉。
据公开材料显示,BIRENTECH指出,公司严格遵守相关国家和地区的法律、法规,并在此基础上始终合法依规经营,目前正在评估此事件可能对公司造成的影响,做好应对工作,并将与各方面积极沟通。
MOORE THREADS也发布声明,公司自成立以来严格遵守相关国家和地区的法律、法规,始终秉持合法、合规的企业文化和管理理念,建立了完善的出口管制合规管理体系和工作流程指引。公司正在与各方积极沟通,对于该事项的影响正在评估。
对此,赵亚雄表示,这些公司需要花费大量的精力重新申请美国出口许可,证明自己的产品没有用于美国所谓的出口管制上,美国技术不能应用的场景中,诸如威胁美国的国家安全、研发其他杀伤性武器等。
这将是一个非常漫长且痛苦的过程,名单上的企业必须把自己的客户和产品销售路径,目标场景做详细的说明,并列举必要的证据,提交到BIS,说明我没有利用你的技术做违反规定的事情 。但是怀璧其罪,赵亚雄断言BIS不会同意任何相应企业的申请。
从目前来看,国内这些大模型公司短期内可以相安无事,靠存量芯片做训练。如字节曾在2021年向英伟达买了大量的芯片,腾讯、百度等大厂则已经提前做好囤货准备,切对外宣称有足够的量来应对此次管制的升级。
但从长远来看,国内芯片需求很大程度上会变的更加严峻,大家会想各种不同的办法规避,一种方法是“李代桃僵”,去新加坡或者东南亚,通过完全看不出来的,且没有直接关联的实体采购算力。
也就是说,非直接购买渠道在未来还会奏效。但是溢价以及风险大幅上升。
但反观国外市场,由于种种限制,水涨船高的现象只会越愈加严重,从公开销售渠道看,6月29日,英伟达A800高配版80G版本的售价为95999元。7月中旬,英伟达代理商反馈,英伟达的A800 GPU单价涨至12万元。
而英伟达A800推出之初,售价仅为7.4万元,不一年的时间,该芯片单价涨了近5万元。还伴有产能下降问题,目前A100/A800 已经停产,虽然不排除英伟达还会针对国内市场生产阉割版,但英伟达已经不再接收 A100/A800 订单。
此外,低配版芯片也有类似的情况。据悉,一张H100计算卡制造成本为3320 美元,英伟达对外售价以2.5万至3万美元,毛利率高达1000%,且需求只增不减,H100已售罄缺货到2024年。
也就是说,即使通过非直接渠道可以购买,但随着价格的持续攀升,也会让大多数厂商望而却步。因为他们也要考虑成本问题,毕竟大模型需要长线作战,如果短期内看不到效果的话,很多厂商可能会放弃。另外,即使国内大厂有充足的预算,但由于产能下降,很有可能出现供不应求的现象。
可以预见,限制的收紧会再次让中国AI厂商限制进退两难的境地。
三、短期局势难以判断,长期大模型产业愈发乐观
无论是去年的限制,还是今年出台的新规,能明显感觉到美国在持续给中国进口AI芯片施压,但很大程度上也会倒逼中国芯片产业的发展。
首先,为了规避风险,很大企业会转向国产的芯片,这就能快速的带动国产芯片的软件生态的迭代,从而让它可以快速的追上CUDA这套生态系统的成熟度,从而逐步替换掉英伟达,或者说能真正能交付给用户,越来越接近英伟达能力的产品。
其次,政府智算中心会释放出大量的需求,大多数情况下,政府的智算中心要自负盈亏,之前他们是要采购一部分英伟达,甚至以英伟达为主。但是现在在大环境的影响下,国家级的超算中心必须是国产的,相应的地方政府采用国产芯片的比例也会提高,这是利好国产智算芯片的发展的。
再者,国内的AI企业、GPU企业没有坐以待毙,而是努力前行。他们试图通过强大自身,以摆脱AI芯片被国外卡脖子的现象,且目前已经取得了一系列成效。
据国际数据公司(IDC)发布的《中国半年度加速计算市场(2023上半年)跟踪》报告显示,受供应链、政治等因素影响,中国市场面临的算力缺口给国内的芯片发展带来新的机遇。
中国本土的AI芯片厂商发展正处于快速增长的阶段。2023年上半年,中国加速芯片的市场规模超过50万张。从技术角度看,GPU卡占有90%的市场份额;从品牌角度看,中国本土AI芯片品牌出货超过5万张,占比整个市场10%左右的份额。
目前英伟达的GPU在AI训练领域占据主要份额,英特尔、AMD正在抢夺市场。从国内企业看,巨头中华为、阿里、百度、腾讯都已经有自研AI芯片,有的对外销售、有的自用。
比如昇腾系列,已经支持了国内过半的AI大模型训练;百度旗下的昆仑芯片,瞄准的是云端AI通用芯片;阿里已经推出高性能推理AI芯片含光系列;腾讯自研的AI推理芯片紫霄,已经量产并在腾讯会议等业务上落地。
但赵亚雄也坦言,国内虽然已经出现了性能不错的芯片,诸如910B的水平已经接近A100,沐曦MXC500能达到A100 70-90%的水平、寒武纪的最新一代硬件指标上也接近A100。但只是硬件层面达到了,软件层面还差的太远。
首先,从芯片设计的角度看,国内头部互联网厂商的自研 AI 芯片是针对内部的AI 算力的需求设计的,这就导致其芯片的通用性不强。比如百度倾向于用芯片适配其深度学习的推荐模型,它不会用到类似Transformer的架构,相应的匹配度就不会足够好。百度采购华为 910B 正是这个缺陷的例证。
而英伟达是在2007年就开始做GPU,发布了CUDA,已经有十多年的验证,首先有一个绝对量的优势,并经过了长时间的验证,现在的任何一家做大模型的企业,必须要找一个经过验证且有成功案例的,才可以快速替代。否则就会面临很大的风险。显然国内企业在短时间内,没办法在绝对量上匹配同样的投入,也就很难达到以CUDA为核心的AI软件生态的水平。
再就是,国产AI芯片面临着严峻的产能问题,大部分AI芯片只够内部使用,很难量产,甚至比英伟达还要严重。
所以,毋庸置疑的是,短期内海外仍会占据AI芯片的主导地位,而限制的持续收紧也会在短期内拉大中美在大模型研究方面的差距,但是越早早上自主创新的道路,才能在新一轮以 AI 为主赛道的中美科技竞赛中获得制胜的根基。
四、算想未来坚持做好算力云服务,让望价兴叹的的企业不再是看客
从长远来看,只有解决好国产算力问题,研发出高性能的国产AI芯片,才有可能在这场竞争中占据有利地位,那该如何破局?
算想未来给出的答案是:聚焦AI底层基础设施,坚持做好算力云服务。要做一个管理 AI超级计算机的基础设施软件平台,将算力充分释放给大模型做训练、推理。这个软件平台的核心技术能力体现在可扩展性、效率两个方面:
可扩展性:大模型训练任务能从零 GPU 平滑扩展到千卡(未来万卡)规模
效率:大模型训练、推理任务的GPU使用率保持在60%以上
这两方面的能力支持大模型智算集群的多用户复用,提升训练过程中对硬件的使用效率,加速大模型训练的迭代速度,最终达到快速追赶 OpenAI 的目标。
目前,算想未来已经推出了算想云(llm.sxwl.ai):无服务器(Serverless)大模型训推云服务)、三千平台(私有化部署云原生大模型训推软件平台)、以及算想三千(大模型智算集群解决方案)。降低企业的落地大模型的算力价格门槛,让想做大模型的企业不再是看客。
其一,算想云即无服务器(Serverless)大模型训推云服务,主要服务于中小企业、开发者或者小的大模型团队,用户可以按需使用,目前只支持训练,推理服务正在研发中。
而且为了降低大模型的准入门槛,实现真正的普惠,算想云将以低于公有云 60% 价格释放给小b 客户。据了解,算想云上线后,初期会提供两台 A100 的服务器,后期会逐渐扩容到10台左右的规模,这样用户就可以获得80卡的最大规模的算力资源。
值得注意的是,算想云(llm.sxwl.ai)将于北京时间 2023-11-13 10:00 正式上线,注册用户将免费获得 5 分钟 A100 GPU 时长(来自算想未来独家算力合作伙伴),同时我们将从注册用户中抽出一位幸运儿,赠送终身可用的 ¥10000/月算想云大模型算力券。
其二,三千平台,因支持千卡 A100 或等效规模智算集群;支持千亿参数大模型并行训练);支持千小时无人干预稳定训练而得名,依托来自容器和云原生技术发源地 Google Borg 的技术经验打造,提升 GPU 服务器集群的资源使用率。算想云使用三千平台管理第三方闲置智算集群。
据介绍,目前该平台已经完成了1.0 版本的研发,并在合作伙伴的算力集群上完成了交付验收。年底前会在千卡规模 A100 智算集群上测试验证。
在此基础上,算想三千是一套整合IB 和 RoCE组网方案,为零散的高端 GPU 服务器业主升级到大模型智算集群的解决方案。比如高校各实验室购买高端 GPU 服务器,通过组网方案,获得了大模型训练所需的高速网络能力。此外,算想三千整合三千平台、算想云,分别为升级后的智算集群提供云原生智算平台、以及通过算想云变现的机会。算想未来团队的核心能力是为客户进行高阶网络功能的验证以及优化;相较于IB方案,RoCE方案的成本更低,主要在于后者有一个更开放的标准,着意味着更多的第三方会根据标准来做,这样会极大的降低成本。
目前,算想云、三千平台以及算想云三者构成了一整完整的大模型智算集群解决方案即“算想三千”。涵盖了智算中心从建设、运维管理,再到商业化变现三个重要的环节。
值得注意的是,算想三千主要聚焦政府和企业投资的智算中心中的“闲置算力”。
缘何如此?赵亚雄解释道,闲置算力方面,目前备机数量占到计算集群总装机量的 2% 到5%,闲置算力潜在的变现空间已经变得非常大,比如现在大多数云厂商和算力池企业都有备机机制,目的是在出租裸金属服务器时,当裸金属出现故障,可以快速地用备机服务器替代,算想云平台上就可以帮助其直接变现。
据赵亚雄介绍, 如果这些限制算力全部用来变现,以业界通常采用的五年折旧期来算智算中心通过备机可以增加 10-25% 的净利润。
而选择政府智算中心的原因,主要在于早期政府的智算中心还有一定比例的英伟达芯片,如今迫于大环境的压力,大多数企业可以规避,但政府只能采购国产芯片,我们希望和国产GPU 厂商合作共同研发一套供政府智算中心使用的解决方案,然后把这套解决方案辐射到更大的范围。
谈到未来的规划,赵亚雄表示,进入大模型这个赛道,算想未来本着只提供算力云服务,
目的为了解放大模型的生产力给所有企业用户,让每个企业都拥有大模型工程能力,而不是依赖第三方的云服务以及其他的技术服务。
“因为我们只做算力,所以我们是平台中立,不涉及采集用户的数据或者自己构建大模型的业务,我们是利用自己在Google 等业界领先的云原生大模型智算平台以及 AI 软件优化的技术经验,把现有AI芯片的算力充分挖掘,通过云原生容器平台的方式释放给企业用户,且让这些企业在低成本、高性价比的算力支撑下,通过大模型挖掘自有数据的商业价值“,赵亚雄如是说。
雷峰网雷峰网(公众号:雷峰网)雷峰网
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。