0
纵观人类信息时代发展的三个阶段,可以以信息收集、信息传播和信息压缩来划分,三者分别对应过去的 PC 时代、移动互联网时代、以及正在到来的智能时代。
一个客观事实是,历经 PC 时代对信息的收集和获取、移动互联网时代低成本、爆发式传播,面对海量的信息,今天对人们提出的挑战是,如何在无法改变脑容积的前提下,以低损耗、低成本的方式,实现高质量的信息压缩及提取。
为此,共生矩阵 CEO 张林认为,大模型会是目前最好的信息压缩机。
自研一个基础大模型、并进入 C-Eval 榜单前十需要多长时间?共生矩阵给出的回答是,两个月。从榜单前十挤进前三的位置、又需要多长时间?这次时间缩减了一半,不到一个月。
与激烈的北上地区大模型创业公司战局不同,共生矩阵围炉深圳,是少数选择在南方从事大模型自研的团队之一。其中,不到十人的规模“小而美”,近一年内累计发表顶级论文近 20 篇,多位成员曾就职于IDEA 研究院,过去两年间在大模型工程上有着深厚积累。
相较于年初的大模型热浪,有投资人向 AI 科技评论表示,目前大模型赛道的第一轮融资已经完成,行业将驶入稳步发展阶段,业界对场景化应用、用户碎片化等需求进一步明确,提高了对通用大模型在工程优化、降低成本等方面的要求。
针对这一难题,张林向 AI 科技评论指出,从商业角度看,革新性技术必然催生新的商业模式。当前,大模型公司普遍定位为 MaaS 服务,但由于边际成本过高,这必然会走向失败。
而更致命的误解是,这一思维将大模型视为独立软件看待,并依此把大模型商业化定位互联网时代的软件进行售卖,张林表示,“大模型要发挥价值,必然不能以孤立系统存在,而是成体系的生态,大模型的商业化也必然立足于某种生态系统来构建。”
当前,大模型落地正处于蓄势待发之势,开源可商用的大模型越来越多,凭借公开的源代码即可基于自身需求做训练和二次开发,支持微调、门槛低,开源模型也被许多企业视为最优选。对于这种观点,张林表示,开源模型的出现,更多是让人们可以直观地感受模型创新的阶段,低成本达到教育市场的目的,但在落地环节中,开源模型并不会给自研大模型带来实质性的冲击。
以下是雷峰网-AI 科技评论与张林的对话,AI 科技评论作了不改变原意的编辑及整理:
GS-LLM 二次上榜
AI 科技评论:共生矩阵成立于今年 5 月份,在这个时间节点选择从 IDEA 研究院出来创业的原因是什么?
张林:长期以来我们都在一线做技术,所以更清楚大模型优缺点的所在。
每当一个新技术来临时,我们总要去追本求源,弄清技术从何而来。GPT 诞生带来的正面作用是教育市场,告诉大多数人,技术的发展已经达到了某个阶段,不再是只停留于科幻电影中,而是已经具备了很强的实用能力。
但从另一个角度来说,GPT 并非是未经设想、OpenAI 的科学家突发性创造的技术,而是在一线科研人员高强度的交互环境中产生的,OpenAI 的成员会关注其他人的论文,大家也会学习 OpenAI 的工作,技术的进步是由一群人推动、而非某一个具体的人拍脑子就能突然产生。当然,在此之前,大家对 Transformer 以堆参数量来实现价值的方式还处于猜测阶段,但在 2020 年 OpenAI 发布了论文后,这件事才终于被盖棺定论。
有数据统计,OpenAI 过去几年烧的钱是 1000 多个亿,在短时间内烧这么多钱,这是任何机构都无法想象的,当中所涉及的工程化部分,即便论文开诚布公,但对于向参与到这个级别游戏中的人,门槛极高。因此从格局上看,中国企业之所以落后一些,我认为根本原因还是穷,而想要追赶到今天 ChatGPT 的表现,可能还需要一年多两年的时间,这个学费是省不了的,没有所谓的弯道超车。
不要迷信、不要追求极端,只着眼于“复刻”一条路线,而是着眼于目标、走出自己的方法论。
自 C-Eval 榜单发布以来,一般排名五位之外的时常有变动,但前五模型表现的位置则是许久未有人撼动。我们用了两个月时间推出自研大模型 GS-LLM-Alpha 、在七月份首次上榜 C-Eval,时隔不到一个月,又发布全新的 GS-LLM-Beta 版本,再度上榜 C-Eval,并达到了榜单的第三位。
AI 科技评论:评测指标显示,在 C-Eval 排行榜上几乎所有模型都要比 GS-LLM-Beta 高一个量级。跟其他模型相比,共生矩阵模型的优势在哪里?
张林:优势是个相对的概念。对规模更大的研发机构来说,有充足的卡和人才支撑,他们的大模型可以做得很大,模型的表现更好,例如智谱 AI 的模型比我们的好,因为他们模型更大。但现实情况是,GLM-130B 的部署价格一年高达三千九百多万,这是绝大部分客户支撑不起的价格。相较之下,我们的体量比较小,因此,模型成本上也会比其他模型小一个量级。所以我们说,优势不是一个绝对的概念,需要结合场景来看。
站在技术的角度来看,今天我们谈大模型商业化,一个误解是,有创业者会认为自己很厉害、别人就理应为我而付费;但从产品侧观察,现实情况则是面对用户没有真实接触过的技术,往往很难走到一个落地的阶段。
正如汽车和发动机的故事,不能因为自己的发动机做得好、而强迫用户来购买自己的车,结果用户发现坐垫坐不了、方向盘也打不动,客户需要的是一个能开回家的车,即能在生产场景下发挥作用、解决问题,并控制好交付的性价比。
AI 科技评论:GS-LLM 单次训练成本是多少?
张林:我们将成本控制得很低。
首先,我们有一套自己的训练框架,可自适应不同参数量级的模型,从 1B 到 200B 都可以兼容,提高训练效率。同时为了提高生成可控性,我们研发提出了可控技术,可实现灵活切换数据领域。其次在训练上,团队成员大都有过训练大模型的经验积累,所以我们在模型训练的试错次数减少了,常规情况下 1 次训练就可成功。可以看到,上述种种都可一定程度上降低训练成本。
一个事实是,做过大模型、有能做大模型的人是稀少的,即便如大厂那么多的人力,在过去也没有过多的人从事大模型技术的研究。而一旦定位成商业化产品时,还取决于是否有合适的人能够去做这件事。目前来说,我们具备这个能力,可以将组织效率和技术能提高,并以最低的成本来完成,商业化的潜力也会更广。
AI 科技评论:目前融资进度怎么样?
张林:正在谈,各方面还是比较乐观的。在选择合作伙伴上,我们看中的一点是,它在整个生态链中能够有一个较为稳健的支撑点。当然了,钱很重要,但共生作为一个在做商业化推进的公司,我们很重视、也希望能够得到整个生态的支持,例如上下游的客户等一整套体系。
大模型革新商业模式
AI 科技评论:大模型发展速度很快,共生矩阵成立至今、三个月过去,你们的路线是否有做调整?
张林:事实上,从决定创业的第一天起,我们就开始思考要构建怎样的商业化体系、如何做客户。
目前,部分大模型厂商的商业化构成主要是 API 售卖,模式较为单一,这就导致了在高成本投入后、很难短期内实现大规模的部署,并不是说我们找到了一个还不错的解题方法就完成了任务,最终还是要让客户愿意为你买单。想清楚了这点之后,我们很清晰地确定了“两条腿”的路线。
第一,从技术上要把大模型的基础打磨好,这是我们团队基本的底色所在。第二,要在第一时间跟真实的客户接触。虽然共生矩阵成立的时间很短,但我们的第一个 To B 的客户已经产生,预期在今年十月签约的付费客户会达到 3-4 家规模。要从行业的角度出发,在真实的环境中获取反馈,而不是困在自己的闭环逻辑里。只有找到市场真正需要,从用户的立场上去解决问题,才能持续成长下去。
AI 科技评论:在客户方面,共生矩阵瞄准的是哪一类客户?
张林:这是个很有意思的问题,就是今天我们如何定义行业。大模型出现后,以前对行业的定义在今天已不再适用,它是一个新的问题,例如服装设计、珠宝设计、建筑设计,三者听起来是完全不同的行业,但从我们的角度来看,其实是一样的,即它们都有相同的“设计”标签,提供模型服务的设计方式相同。
从大模型的能力上看,它确实可应用的领域太广了,什么都可以尝试。我们聚焦在特定的场景而不是完全按照行业来区分。我们现阶段重点是金融或者相近的场景进行布局,以商业闭环短的需求作为切入点,提供智能化 Copilot。
AI 科技评论:这是否意味着共生矩阵会在很多领域去做交付,那会不会牵扯到过多的人员和精力花在了交付上?
张林:这是一个很好的问题。我们是朝着做标准化产品的目标出发的,并进行轻量化交付。特别是,很多时候不同客户在需求上表面看起来不相似的,但是得益于大模型的通用性能,找到共性是比较容易,形成标准产品。
我们也会主动去寻找这个共性,包括几个方面:第一,从源头上控制差异化过大的场景,我希望我们交付的内容是可复制的,也就是实现标准化产品,实现快速推广;第二,从开发角度出发,专注用户的核心需求做一个底层足够好的模型和产品形态,这样即使我所触达的客户类型不同,数据不同,只需要在基础模型之上微调即可。
AI 科技评论:前面你提到大模型“教育”市场,从产品方向出发,它带来了什么?
张林:大模型给我们带来了很大的机会,同时也是新的挑战,这是过去 AI 公司所未经历过的。过去,AI 解决的是一个长的生产业务中某个环节,大家对它的期待没有那么高,只需要把某个小的环节做好即可。但今天,大模型对生产链条的影响是摧毁性的,以前的链路被全部推翻。
大模型的革新,是从底层出发慢慢向上层逻辑的转移和打散,从而最终逐渐影响到商业方向。
AI 科技评论:如何理解大模型对商业模式的革新?
张林:首先我们要回答,行业到底是什么东西?在第一产业中,生产力和岗位的诞生是,先有生产力、再有这个岗位,衍生出相应的行业。比如空中交通,先有了飞机、才会有航空,并提供航行服务。
我们经常会面临一些很有意思的现象,科技进程通过媒介信息的介入,对一项新技术会有“放大”的作用。这里的“放大”是个中性词,它可以把新技术好的一面放大,也能把坏的放大,对前沿技术而言,就产生了一个新的问题,即是否大部分人都具备专业能力去做判断。对不同赛道的企业而言,要接入新技术的门槛也不相同,因此在交流过程中产生的 Gap 也因人而异。可以说,商业化的路径要往哪里走,我们正是探路的这批人。
举个例子,过去 AI 技术公司和厂商的合作,假设 A 公司做研发、B 公司购买服务只需要支付研发的费用,或 A 公司提供具体的产品、B 公司买,交易流程就结束了。但到了大模型时代,商业模式完全被颠覆。A 公司做基础模型,当它同 B 公司发生用户关系时,B 公司提供了场景数据,到底模型效果之所以更好,是因为 A 公司的模型好、还是 B 公司提供了优质数据,这在目前无法得到界定,合同又该怎么签?这都是需要探索解决的问题。
AI 科技评论:这个问题 OpenAI 回答了么?
张林:一项新技术从出现到快速商业化,发展中的一个趋势我们中国人将其称为“白菜化”,大模型也是如此。OpenAI 并没有完全回答商业化到底该如何做,To C 是否是一个成立的逻辑,目前来看似乎并不确定,因为成本降不下来。
同时,留给 OpenAI 一个更大的问题是,技术该往哪里走、又回到了从 0 开始的状态。对于自身模型能力还未达到 ChatGPT、或 GPT-3.5 的机构来说,现阶段大家的目标是如何去追赶和实现,但对 OpenAI 而言,在砸了这么多钱且已经走通了大模型这条路径之后,接下来的方向是什么,则没人知道,需要重新去探索了。
开源模型没有落地优势
AI 科技评论:目前市面上开源可商用的大模型也很多,如何看待开源模型在竞争中的位置?
张林:许多人讨论开源大模型对闭源模型的影响,在我看来,并没有什么商业层面上影响。我们也希望它能出现,让更多人可以直观地去体验、感受最新的模型能到达什么阶段,以低成本的方式实现教育市场的目的,但这并不会从实质上改变什么。
今天玩大模型,我认为最核心的因素是人。
实际上,2023 年之前,在国内真正训练过大模型、有相关经验积累的人或者机构,我觉得总人数应该不会超过 100 人。这种猜测的原因是,首先、要启动足够多数量的机器,具备一定算力集群和资源的机构在全国都是少数。同时,并不是说在 2022 年年末、或 2023 年年初建立了机构,这批人就自然而然地就会训大模型了,经验积累是一个非常漫长的过程,没有这方面实操经验的人很难做成。
这些“训”大模型的人之中,有些会用开源来训,这种大部分是很小的事情,仅一张卡就能完成、比如 LoRA ,而我们一上来往往是上百张、甚至更多的卡,如 LoRA 这类“训”大模型的方式,离实际上能够产生商业价值的东西太远了。
简单来说,首先在训练方面,开源模型并不会告诉你怎么训,即便你下载了一个 LLaMA2 的代码,但前期的数据准备、配比等等,并不会有人坐在旁边告诉你我们在 Meta 是如何训练的,这个是极其关键的技术,这是在开源中无法获取的,只能靠经验习得。更重要的是,开源只有预训练部分,是整个大模型体系中最不重要的环节,其他的更挑战的,包括模型优化、人类行为对齐模型压缩,模型控制等,这些都是开源没办法提供的。这是一个必须“交学费”的过程,而在企业中,今天大家都在军备竞赛、迫切的商业化,绝大部分都给不了让你在开源中去自己摸索那么长的时间。
AI 科技评论:国内哪些人在做的事情跟共生矩阵类似?
张林:我觉得每家都不一样的,很难用类似来概括。如果以局外人的视角来看,那我们都是做大模型的公司。但从各自的成长路径上而言,我们总结自己跟大部分初创公司的不同之处在于,首先,很少有初创公司一上来就提出去谈客户、直接做落地的方式,大部分会经历一段时间技术沉淀,但共生矩阵从一开始就挑战了商业化、并且是 To B 的方式。
To B 企业的特性之一,由于其数据敏感性、所以他们很难接受 API 的方式,而开源模型更多时候也只能完成简单的任务,最后要做应用,一切的前提还是回到了自主研发的能力要够,在此基础上才能谈长期的落地。
AI 科技评论:对创业公司而言,现阶段资本市场也越来越慎重。
张林:谈的多、投的少,大家会对你实际的商业营收能力越来越看重。这也是为什么过去几个月,国内的模型很多、但我们真正关注的很少,因为大部分机构其实并不理解大模型特性、以及预判商业化的能力。大部分的信息属于噪声信息,不用太关心。最重要的事情,必然只有少数人能懂。
我们关注的核心应该是真正有哪些人在做有价值的事情,以及关心我们的客户想要什么样的产品或服务。
AI 科技评论:你们所关心的核心的人是哪些人?
张林:首先是国内几家具备大模型研发的企业和高校,从技术角度而言,真正能具备带来这方面改进能力的人机构是极少的,我们需要始终保持在最一线,知道技术在往哪个方向演进,哪怕是一些很微小的变化,都需要留意它的可能性。
另一方面,我们关注市场的变化。我们相信,商业层面的关心直接从客户中得到反馈更具价值。例如我们很早就排除了做 API 供应的可能性,客户面窄、接受程度不高,它的价格决定了能够付费的只会是少数高净值、企业规模达到一定量级的大企业;而面对大部分中小客户,他们所面临的问题就是没那么多钱。所以要接地气,走到真实的场景当中去,看看你以什么样最低的成本能让用户去接受、并长期地将这件事做下去。边际成本需要降低到一个门槛才能真正意义上实现大模型的商业化繁荣。
(雷峰网雷峰网(公众号:雷峰网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。