0
作者|李梅
编辑|陈彩娴
尽管唱衰大模型的声音不绝,但无可否认,近年来人工智能领域的重大突破,都离不开大模型的支撑。
以近日火热的 AIGC 为例。语言大模型在理解文本语境与知识推理能力上的突飞猛进,是人工智能跨越单一模态,读懂人类描述的语言、进而生成各色精美图像的基石之一。
大模型被诟病之处突出,算力成本与不确定性为最大要点,但与此同时,几乎没有人能否认,在未来五年、甚至十年的智能研究中,大模型必将占有一席之地。美国人工智能学术界将其称为「基础模型」(Foundation Model),在定位上视之为基础研究,重视程度也可见一斑。
然而,由于训练难度与成本的高门槛,大模型在国内的兴起注定只掌握在少数人的手中。一项基础研究的开拓,必须团结尽可能团结的力量,才能推动其进步的速度与质量。尤其在知识注入与多场景通用无阻的追求上,大模型的研究者多多益善。
因此,从去年开始,「开源」AI 大模型的呼声也日渐高昂。唯有开源,才能降低大模型的研究门槛;也唯有开源,才能促进与大模型相匹配的基础设施(如架构、算力、落地设备)建设。
「魔搭」(ModelScope)社区的成立,正是基于这样急切的背景。
在今年的云栖大会上,阿里达摩院与 CCF 开源发展委员会联合正式推出国内首个 AI 模型开源社区——魔搭 ModelScope,宣布将达摩院近五年苦心研究的 300 多个优质模型开放给整个中国的 AI 研究者与团队,共同促进中国的 AI 基础研究。
这其中,300 多个模型就有十多个大模型。这一举动,被业界称为大模型的「家底秀」,而魔搭社区的使命是「开源」,阿里真的是把家底给亮出来了!
图注:周靖人在 ModelScope 魔搭发布会上
阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人告诉 AI 科技评论:「我们的口号是 AI for Everyone。」
以大模型为例。他们认为,大模型的研发不应该是一场少数机构的竞赛,而应该通过大小模型的协同进化走向更高级的应用,尤其是适应中国本土需求的应用。
2020年GPT-3出现以来,国内的研究者只能仰仗英语大模型,文化与语言的鸿沟成为模仿西方技术成果时的消极产物,中文大模型也呼之欲出。魔搭将现有为数不多的中文大模型开放后,AI 领域的研究者基于中文大模型自由开发满足下游任务的小模型时,能更好解决东方的实际问题。
魔搭社区的成立,是中国人工智能领域一个划时代的故事开篇。
—— 1 ——
AI 突破的风口,在应用
两年前,《数学之美》作者吴军在接受 AI 科技评论的访谈时就曾说过:深度学习大的理论突破已经走到瓶颈期,AI 风口的下一个十年在于应用。
这两年的发展路径,越来越多的落地与应用讨论,也验证了吴军的判断。如今,我们对 AI 的期待,已经不再只停留在迸发于实验室的那些「AlphaGo 时刻」,而且「用起来」,在解决实际生活的问题中创造价值。
那么,AI 如何最大程度地发挥价值?
纵观构成人工智能的三驾马车:数据是护城河,隔行如隔山;算力仰仗少数巨头的芯片能力,普通人玩不起;而在模型的竞技场,任何人都可以做点什么。
因此,未来五年,人工智能能大规模应用的风口,在于模型。
然而,以模型为中心的 AI 技术在落地产业的过程中,正受到两方面的制约,一是在模型的创新侧,二是在模型的应用侧。其中,模型的应用又离不开创新。
算法的创新如今进入一种尴尬境地。持续创新力不足,技术突破凤毛麟角,只局限于少数几个领域,更多的应用场景还等待技术去解锁。
在以前,AI 公司针对具体的任务和应用场景来定制并出售模型和解决方案,但这种商业模式正在失去其竞争力。
达摩院基础视觉团队负责人赵德丽对这一点深有感触。他举了一个例子:假如有 1000 个任务要实现,那就要研发出 1000 个不同的模型,其中的工作量非常之大。一旦研发团队有人离职,相对应的模型就无法维护、迭代,不具备可扩展性,最终蚀断 AI 应用的链条。
统一底层架构的出现,为上述难题的解决提供了一种路径。
2017 年,谷歌在《Attention Is All You Need》这篇经典之作中提出 Transformer 模型,作为一个具备强大通用性的底层架构,它后来衍生出了 BERT、GPT-3 等预训练语言模型,且参数量飞速增长,将 AI 带入了大模型时代,如今在语言、视觉、多模态等领域上都已证明了其无限潜力。
今年大火的扩散模型(Diffusion Model)是一个新近的例证,得益于其开源,目前国内外社区涌现出的 AI 作画应用已经令人目不暇接。
周靖人认为,大模型之所以具备巨大的价值想象空间,是因为大模型本质上是对人类知识体系的积累、抽象与提炼,从而能够接近人类智能。
同时,大模型的底层性使其能够承担起一种「基础设施」的功能,打好 AI 应用的底座,这也是大模型的另一名号「基础模型」(Foundation Models)所凸显的意义。
如赵德丽所言,「在统一底层架构的范式下,基础研究的价值比以往时候更大。若能研发出一个真正有竞争力的基础模型,整个 AI 生态都会受益。」也正因如此,一直从事生成模型研究的赵德丽十分看好扩散模型。
基于统一的底层架构所开发的模型将变得可维护、可迭代、可扩展,这样一来,系统级的 AI 应用才有被创造出来的可能,AI 的价值才能被真正兑现。
但目前我们国内的事实是,在「炼」大模型上,暴力堆参有余而架构创新不足,无论是 Transformer 还是 Diffusion Models,这类基础性突破大都生发于国外,国内则更多处于追赶的状态。在「用」大模型上,大模型的潜力也未见爆发,大规模的落地应用还未出现。
要改变这种现状,大模型的基础设施与生态建设尤为重要。在这一点上,国外的进展的确有所领先,例如今年 3 月谷歌发布了用于训练大模型的底层架构 Pathways 系统,被谷歌 AI 掌门人 Jeff Dean 寄予了「下一代 AI 架构」的厚望,次月推出的 5400 亿参数的超大规模语言模型 PaLM 便是在该架构下训练出来的,其超强的推理能力令人惊叹。
不单单是大模型,眼前中国 AI 的整体研发与应用的未来都指向了一条路:开源开放,以模型为中心提供服务。
—— 2 ——
魔搭:模型即服务
魔搭社区的立项,正是为了解决当前中国人工智能研究山头林立、各自为战的局面。
达摩院语音实验室负责人鄢志杰认为,尽管人工智能技术在近年来的落地中暴露出一些问题,但不代表 AI 的应用走到穷巷:
「现在 AI 领域的概况,不是泡沫破灭,也不是平台期,而是乱花渐欲迷人眼。我们需要穿越雾里看花,找到再一次启动AI创新与应用两个引擎的钥匙。」
这把钥匙,就是开源。开源的本质是交流,历年来技术的突破都证明了这一途径对更大图景的促进。打通接口,拉平认知,是对整个中国 AI 发展有积极作用的重要路径。
达摩院很早开始思考这个问题:
周靖人告诉AI科技评论,2021 年 3 月达摩院发布国内首个千亿参数多模态大模型 M6。那时他作为项目主导人,从立项开始就思考如何更好地释放像 M6 这样的大模型的基础能力。
他思考的结果是:必须要有一个平台作为依托。在内部讨论中,这个想法一出来,就得到了达摩院各个实验室带头人的赞同。因为从技术发展的角度看,这是势在必行的选择,很快达成共识。
于是,从去年开始,在达摩院内部一次又一次的会议上,周靖人不断地与大家讨论如何把「模型即服务」(Model as a Service,MaaS )的理念在一个社区上实现,魔搭也在几次头脑风暴中慢慢成型,并快速成长:
今年4月底立项,达摩院各个工程团队派出人手支援、贡献优质模型;5月30日发布内部PoC 版本;8月底外部就已经可以访问。
在9月的开发者评测局上,达摩院的算法专家、架构师和产品经理等都亲自上阵,解答开发者的问题。评测的反馈非常积极,甚至有点超乎大家的预料。
实际上一开始,各个实验室内部也存在一些疑虑,比如「国外已经有 HuggingFace 了,那我们的魔搭该怎么定位」、「我上传了模型之后,真的会有人来用吗」等等。但当算法人员读到开发者们写下的长文评测时,所有人都倍受鼓舞,他们现在所想的,是要做出更先进的模型,并将其贡献出来,被更多人看见。
魔搭的定位,不是一个「玩具」,而是实实在在的生产力,因为它真正全方位渗透了 MaaS 理念的本质。
以往模型的开源开放并不彻底,大部分提供 AI 模型服务的公司通常是以 API 的形式对外提供模型服务,模型本身并不能下载,大部分还要收费。而且 API 接口的输出结果较为固定,代码还往往无法真正用在实际业务中,更是难以满足模型的定制化需求,所以 AI 在各行业的应用广度与深度都会受到限制。
而已有的开源社区的模型覆盖面也比较有限,且没有形成一整套、一站式的模型服务体系,开发者在各个社区之间东一榔头西一棒槌,十分影响效率。
而达摩院这一次,一点也不来「虚」的。
如果说以往的模型服务是一只傻瓜相机,只能按一下快门、获取千篇一律配置下的照片。那么如今达摩院提供的则是一台单反相机,你尽可以调整相机的各种参数,拍摄出万千世界,把自己炼成大摄影家。
具体而言,魔搭社区如何真正把 MaaS 的理念实践起来,要从模型的整个开发周期讲起。
首先要有能用的模型,足够的模型丰富度是建立 MaaS 生态的一个首要门槛。在魔搭社区上,有一个方便模型共享、存储和使用的模型库(Model Hub),其中达摩院已经率先贡献了自家 300 多个压箱底的模型,涵盖了自然语言处理、视觉、语音、多模态等 150 多个 SOTA 模型,「通义」系列的预训练多模态大模型也在其中。
图注:魔搭模型库
这些模型是经过各个算法实验室精挑细选的。鄢志杰告诉我们,达摩院选择开源的模型既「叫好」又「叫座」。
「叫好」是从学术角度而言。算法团队开发出新模型后,不再只是「王婆卖瓜」式地在论文中展示简单的数据,而是把模型在平台上真正开源,甚至训练方式也都倾囊相授,供大家使用和评判。
「叫座」关注的则是应用角度。为了最大程度地释放模型的生产力,达摩院将支撑模型 API 背后的模型打开,一览无遗的呈现给所有开发者,还支持开发者对预训练模型进行调优,从而获得在其垂直领域里精度更高的模型。
达摩院的开放与包容,让更多溪流汇入了 MaaS 这片蓝海。澜舟科技、深势科技、智谱 AI 等作为魔搭社区的首批合作者,都在魔搭上贡献出了自家最先进的模型。
有了大量模型,接下来的问题便是如何把模型用起来,而且要低门槛地用起来。
从代码下载到安装部署再到效果验证,魔搭提供了模型探索、环境安装、推理验证、训练调优等一站式服务和全链路能力,无论是 AI 小白,还是普通开发者,或者是更高级的开发者,都能在平台上获得极佳体验。
对于完全不懂 AI 的爱好者,模型的使用是零门槛的,通过每个模型在魔搭上的在线体验页面,只需几次点击,就能 0 代码体验各种模型效果。传统意义上的开发者要实现模型的推理,也仅需 1 行代码。
进阶的开发者则可在 10 行代码内实现模型调优,快速定制微调,获取针对性的行业模型。例如,社区提供一个文本续写的通用模型,如果开发者想要实现的不是普通的文本续写,而是古诗续写,那么就可以使用开源的古诗词数据集对原始模型进行微调,训练一个新的续写古诗的模型出来。(公众号:雷峰网)
图注:古诗生成微调模型
—— 3 ——
达摩院的「退一步」
魔搭是达摩院点燃的一次星星之火。通过开源所打造一个完善的模型应用生态,将促进整个 AI 领域的发展。
魔搭带来的最直接影响,是在模型的生产侧将开发者从重复性劳动中解放出来,激发更大的想象空间。无论是达摩院自身还是更多开发者,都不必再重复造轮子和无意义内卷,而可以把更多的精力投入到原创性研究中,提出更具革新意义的模型。
这种变化在达摩院内部已经是有目共睹。魔搭社区架构师陈颖达向 AI 科技评论介绍:以前算法人员做出模型后,由于模型的使用和调优门槛过高,经常还要花时间帮助业务人员配置模型,从而挤占了做原创研发的时间和精力;而现在,算法人员可以通过魔搭将模型应用与定制能力释放给业务线,更专注于研发工作。
从围绕具体的业务问题到更多聚焦在基础技术能力的建造上,这种算法研发范式的转移甚至带来了达摩院内部组织架构的微妙变化。
赵德丽告诉我们,他的视觉团队以前都是从业务层面来命名,如「虚拟试衣」团队,而现在则是以技术方向来命名,比如「表征学习」、「视频生成」等团队,每个团队内部在基础模型的研发上也配备了比以往更多的人员力量。
同时,在基础模型的研发变得越发重要的背景下,魔搭的另一个重要价值在于释放大模型的无限想象力。
基础大模型带来的无限想象力是另一个例证。最近流行的扩散模型开源以后,AI 作画的应用正在国内外社区如雨后春笋般纷纷冒头。达摩院赵德丽团队研发的文生图大模型目前也已经在魔搭开放,他已经预见到,未来随着模型应用生态的逐渐完善,文生图大模型将催生出各种富有想象力的应用和落地。
推动这些创新更进一步的背后,其实是达摩院的「退一步」。
过去五年,达摩院 AI 自己探索了从算法到工程、再到产品、最后在阿里云上做技术输出这一整个研发模式,炼成一位「巨人」。而在下一个五年,达摩院将献出自己「巨人的肩膀」。
魔搭打开了一扇门,谁也无法预判进来的会是什么,但毋庸置疑的是,未来将是群星闪耀。哪怕相比之下,达摩院可能不一定是最「闪亮」的那一颗星。
达摩院语音实验室负责人鄢志杰向 AI 科技评论讲述了举了一个生动的例子。
菜鸟曾向达摩院的语音团队提出一个模型需求,他们想将电话机器人用于物流系统,如在给客户送货前,先使用电话机器人打电话询问客户,以便快递员高效送货。
但是,在达摩院的通用语音识别系统有时候显得不够「聪明」,因为达摩院的模型并不具备物流领域的专业知识,自然难以听懂一些行业「黑话」。
后来,菜鸟使用达摩院在魔搭上开源的语音识别模型,并基于物流领域数据集进行了针对性的模型微调,仅投入了零点几个的算法人员,便训练出了一个效果超越达摩院的模型。
「这一点都不丢脸,这是件好事,所有人都可以训练出在其垂直领域里比达摩院更好的模型,我觉得这很光荣。」鄢志杰笑道。
将来,达摩院在魔搭上的模型贡献率会从 99% 降到 1%,从「顶梁柱」角色到「砖瓦」中的一块。最终,达摩院将隐去自身,又或者,将有千千万万个「达摩院」出现。
这是达摩院的「退一步」,也许是中国 AI 的「进一步」,它最终带来的是对 AI 原创研究的巨大推动。魔搭 是达摩院一次从 0 到 1 的举动,正如去中心化的开发环境曾为世界带来 Linux,下一个伟大的 AI 作品或许也将从魔搭诞生。
访问魔搭社区:modelscope.cn
雷峰网(公众号:雷峰网(公众号:雷峰网))原创文章,未经授权禁止转载。详情见转载须知。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。