0
作者丨何思思
编辑丨林觉民
“公司在用最高战略的方式做这件事,”谈到大模型时云从科技副总裁姜迅如是说。
2015年成立之时,云从科技就定调自己是一家AI平台公司, 虽然云从科技是“四小龙”中成立最晚的一家,但是其在AI方面的表现并不逊色。
自成立之初,云从科技就将发展方向定位在人机协同操作系统,一方面,包括根据不同应用场景客户需求提供的多种人机协同应用产品和整体操作系统,服务于客户单点业务效能提升和整体业务升级;另一方面也包括通用服务平台“轻舟平台”,能开放引入生态伙伴共同开发AI应用及配套SaaS服务。
此外,在人工智能基础上,云从科技还增加了对机器人、物联网等技术研究投入,试图构建更为标准化的AI产品。借助底层操作系统这一统一入口,提供人机协同相关算力、算法、数据管理能力和应用接口,从而构建自己的生态闭环。
如今,人机协同操作系统的定位也一直延续到了大模型时代。姜迅表示,虽然公司内部没有明确的‘最高战略’的提法,但对这件事情的重视度已经非常高了,我们不用‘最’这个词,用优先级来说,它确实是一个非常高的优先级。
反观国内大模型的发展,大部分企业仍停留在追热点阶段,并没有实质性进展。那云从是否也在追热点?姜迅给出了否定的答案。他表示,我们还在研究我们的人机协同操作系统,在GPT技术之上,人机协同操作系统的智商会越来越高,它不仅会增加其上限,还能降低成本,这能在很大程度上让该系统更好地服务客户,竞争优势也会增加。
雷峰网了解到,云从科技日前已经推出了自研“从容”大模型。据姜迅介绍,除自研模型外,云从已经联合不同领域的不同企业推出了7款行业大模型,诸如游戏行业、金融行业、交通行业、医疗行业等。
并且他还坦言,C端、B端、G端都会做,我们肯定会结合自身的行业优势,选择最值得深耕的一些特定的行业,而不是全行业的拓展,一定是要有重点的。
以下是雷峰网和姜迅的对话:
关注的不是BERT或GPT,而是整个大模型技术的演进
雷峰网:什么时候开始关注大模型的?
姜迅:其实关注很长时间了,2022年Google的LaMDA出来后,他们的研究员被强制休假了,那时就已经意识到这个事情要发生了。要说关注因为要做人机协同操作系统,我们有个产品叫知识服务—knowledge as service,这个应该更早一点,对自然语言处理的技术进展一直是和行业前沿保持同步的。
从产品逻辑上,2019年底2020年初就提出了五大模块,包括AI数据湖、智能业务流、算法工厂、人机交互和知识服务,只是GPT出来后,从系统架构的视角看,知识服务从传统的NLP以及知识图谱等技术升级为大模型这个能力更强的引擎。但我们的整体系统架构一直稳定的,只是说我们现在在用一种更新的技术来解决问题,所以不是突然之间,是很早就在做了。
雷峰网:为什么很早就提出了五大模块?
姜迅:是这样的,周曦老师一直强调要有更好的系统架构设计官,所以设计出了五大模块。他一直强调要把大的系统模块设置好,要定义好模块之间的交互的语言,那在这个过程中模块之间的技术是不断迭代更新的。比如之前用机器学习,后来用深度学习,再到现在的大模型,可能再过一两年又有新的技术了,就是在系统的大模块保持架构稳定,单点技术的进步会增强各自模块的能力,这样在保证系统的完整性的同时,可以稳定的增强系统的竞争力。
雷峰网:与之前技术栈相比,大模型带来了哪些变化?
姜迅:大模型带来的是范式的变化,过去每一个任务都需要做单独训练,尽管能看到各行各业对于AI技术旺盛的需求,有时候会有一些非常细碎的场景,比如检验螺丝钉有没有裂纹等等,由于这些场景对于单个用户在前期阶段很难覆盖研发成本,这导致这些场景想要建立正向的商业循环是比较困难的。有些同行的朋友比喻为“为了喝一口水,挖了一口井”。
预训练大模型其实很好地解决了这个问题,预训练模型在大规模无标签数据上进行一次训练后,可以在多个具体任务上进行指令微调。这使得预训练模型能够在不同领域和任务中实现迅速的迁移和泛化,减少了在小样本数据下过拟合的风险。
我们确定了基础模型以后,只需要在这个基础上加入新的知识,原有投入训练成本得到了保护,对于整个社会的算力资源也是一种保护。
雷峰网:保护投资的意思是,这次训练的算力下次还能用?
姜迅:我们是把一些通识能力放到大模型中然后再不断累加,也就是说在现有能力之上,通过追加新的数据增强模型的能力,这样就可以把模型的智商从 80 提到 90、100 ,随着更多的数据和知识通过预训练的方式加入模型,模型的智商会越来越高。
其实我们可以把预训基础模型比作一个人,它现在相当于一个高中生,学会了基础加减乘除等基础的运算逻辑,然后再不断提升它的智商。这个过程不需要重新开始,而是在上一个能力的基础上做叠加,这就是对投资的保护,之后的训练工作量变少了,但是能力却变的更强了。
当一个新技术出来后,你要做得是先去了解他,然后去拥抱他。
雷峰网:目前云从对大模型的定位是什么样的?是在追热点吗?
姜迅:我们是在用最高战略的方式做这件事情,而不是追热点。因为大模型技术已经相对成熟了,它不仅会增加人机协同操作系统的上限,还能降低成本,这能在很大程度上让我们的人机协同操作系统更好地服务客户,竞争优势也会增加。
这是我们对这个事情的认知,不是说我们要去蹭这个热点,我们还在研发人机协同操作系统。
雷峰网:也就是说最终交付的还是人机协同操作系统?
姜迅:对,只是依托GPT这个引擎,人机协同操作系统的智商更高了。原来我们用传统机器学习、知识图谱的方式,它也是一个有智商的智能体系,只是它的智商相对低,处理的任务也相对有限。
雷峰网:大模型具体怎么和人机协同操作系统结合?
姜迅:大家首先感知到的是交互方式的变化,从原来的点击鼠标变成人机交互,其次就是它一定会对每个行业的行业知识有更深刻的理解。
降本增效是必然,还会带来洞察业务的价值
雷峰网:训练出一个相对成熟的大模型要多久?
姜迅:我们做这件事情有两个步骤:第一步先完成高中教育,这个过程我们对它没有盈利的目标。就是先做技术项目,这也是基础模型要做的事情。
第二步把行业知识灌给他,这样就可以培养出不同领域的专家,然后给不同领域的客户服务。但前提是我要有一个智商比较高的基础模型,这样才能保证他能做你要求他做的事情。
雷峰网:现在有没有具体的场景应用案例了?
姜迅:比如用大模型做数据分析,一是人力开发会被大大降低,原来的模式可能需要五六个研发,现在不需要了,开发人数减少也意味着效率会增加;二是时间变短了,原来可能需要一到两周甚至一到两个月的时间,现在可能一两分钟就解决了,这两点是效率提升上的价值的。
除此之外,还有一个非常重要的影响是,大模型通过让业务人员直接操作数据,和系统、数据的距离更近了。还是上面数据分析的例子,销售主管想要分析最近的销售趋势,从汇总的数字上看,销售的数据没有明显的波动和变化。技术人员在开发功能的时候,可能看到了在A区域有明显的上涨,在B区域有明显的下跌,技术人员如果没有业务敏感性的话,这些异常的数据波动被当做数据噪音处理掉了,最终的报表体现为没有波动;这种距离的拉近,不仅仅是节省了几个开发人员,还有可能带来业务的数据洞察,从而带来巨大的商业价值。
雷峰网(公众号:雷峰网):其实除了降本增效外,还要解决胡说八道的问题?
姜迅:有时候胡说八道并不是一件坏事,比如文娱行业,有时候可以利用它胡说八道的特性来设计一些比较搞笑的场景,做一些开放性的回答也是有价值的。
那在比较严肃的行业里,确实不能胡说八道,针对这个问题我们有几种不同的方式解决或者缓解这个问题。比较通用的方法是用embedding的方式解决,对此我们有一个专门的产品——书语,你给我一个企业的知识,可以是操作手册,用户的文档,用户回答问题的数据,只要你给我一个行业里的可信的数据源就可以,基于这些数据我们可以约束生成的答案,这个过程我们不用大模型生成答案,而是让他在你给定的文档范围内生成答案。
我们的产品可以做多文档输出,不局限于单个文档,就是可以对多个文档的内容理解后给出你想要的答案,甚至可以理解文档中图片的内容再做输出。其实new bing也是类似的逻辑,他不是让GPT直接生成答案,而是先从可信的信源内搜索答案,然后大模型把这几个文档的内容理解了,再输出结果。这时问题的答案才更全面、更可靠。
书语的逻辑就是让这本书会说话,那这本书是个泛化的书,它可以是一本书,也可以是一个手册、一个规章制度、一个法律条文等,从另外一个角度,比如在文娱行业,它相当于一个可以和人沟通的智能体,这个产品的设计思想就是帮助行业解决落地问题。
雷峰网:未来有没有侧重点,比如聚焦哪些行业?
姜迅:C端、B端、G端都在做,我们发布的模型中大概有7个行业大模型,这些都是我们重点拓展的领域,我们肯定会结合自身的行业优势,选择我们最值得深耕的一些特定的行业,而不是做全行业的拓展,一定要有重点。
未来大模型可能是人类命运共同体的钥匙
雷峰网:您怎么看待国内大模型的发展?
姜迅:国内大模型发展的速度还是很快的,现在OpenAI已经告诉你了,沿着这个路线走一定能看到创新,目前国内的大模型肯定是没办法上线的,但业内从业人员对这件事情的认知被高度统一了,这是特别重要的一个点。
之前大家的状态是:你有你的方法,我有我的方法,可能在这个任务上你的领先一点,在那个任务上他的领先一点。但ChatGPT出来后大家对这件事情的认知空前统一,已经变成了全行业统一要做的事情。
关于大模型,我有一个越来越强烈的感觉,它会超越公司与公司之间,国家与国家的竞争,可能会是人类命运共同的钥匙。手持这把钥匙,我们可能正在跨越人类历史上最重要的一个门槛,进入AGI(通用人工智能)。
现在大家都认为GPT的迭代远超过之前任何一项技术,所以不管是付费的、开源的还是免费的都不重要,都愿意加入进去,参与到全球化的竞争中去,为这场技术竞争贡献自己的力量,这样就形成了一个合力,这是发展快的一个非常重要的原因。
雷峰网:您认为国内和国外的大模型的差距还有多大?
姜迅:之前大家说差2年甚至更久,但从现在的发展来看,追赶速度非常快,远比预期快。
第一,业内从业者对这个事情的认知被统一了,形成了合力,全社会的力量总比一个单独的商用公司往前走的力量大,所以赶超速度是非常惊人的;现在国内很多模型已经能够在某些任务上追上3.5的水平了,这是一个非常明确的趋势;
第二,OpenAI处在一个开放性的工作环境中,他已经告诉你这个路径是正确的,这时我再去追赶远比一个开创者消耗的资源要少。其实做研究最怕前面的路是黑的,我不知道什么时候往前走,往前走一步两步还是三步,是继续沿着这个方向走,还是换个方向走,这是非常迷茫的,消耗的资源也是最大的。一旦有人告诉你朝着前面的灯走就可以,你就不会犹豫了。
第三,对算力的需求已经没有大家想象的那么高的,OpenAI 原来的论文提到训练GPT3一次要1200万美金,现在随着算法和数据质量的不断提升,训练GPT4一次的成本已经从6300万美金被快速降低到2500万美金,后续这个趋势应该还会更加加速。
实际上数据质量对训练的效率有很大的影响,越脏的数据训练的时间越长,甚至会把模型训歪掉。相反高质量的数据,不仅能加速训练时间还能降低对算力的要求。包括OpenAI的论文提到原始数据是40T,最后应用到训练的数据大概有个570G,99%的数据被清洗了,所以高质量的数据对大模型的训练至关重要。
雷峰网:所以美国的算力封锁对中国也造不成很大的影响?
姜迅:对,训练一次也就一两千张卡,三四个月的时间。最关键是的整个过程它对资源是保护的,就是当我训完一次之后,后面再做增量训练不用重新开始,只需要在原有的投资上做二次训练就可以了,所以真的没有大家想象的那么高,至少在推理方面已经不需要A100了,用 T4 的卡就能做推理,很快大量的国产硬件也都能做推理了。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。