核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

本文作者：余快

2024-04-25 22:52

导语：多模态大模型竞争，新添好戏。

大模型，不再仅仅是娱乐的工具，它正在变成解决日常问题的生产工具。

这是AI掘金志看完商汤最新发布的日日新5.0后的感慨。

在商汤最新推出的日日新5.0版本中，在语言、知识、推理、数学、代码等领域的能力有明显提升，在主流客观评测上达到或超越GPT-4 Turbo。

作为文科生，日日新5.0在开放问答场景做了重点优化，在聊天、多轮对话、信息提取、写作等场景达到业内领先水平。

作为理科生，日日新5.0的知识、数学、推理、代码能力，与GPT-4 Turbo不相上下。

我们能直观感觉到，多模态大模型在急剧变化。

行业和打工人的福音，要来了？

一、日日新·商量多模态5.0，开箱

商汤日日新多模态5.0，不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

既能跟你谈诗词歌赋，也能聊聊数理化，还能唠唠生活应用，有文科生的才华，也有理科生的缜密。

穿搭建议、食品分析、文案创作、烹饪建议等，在诸多日常场景下，它已经是一个“懂事”的日常助手。

文案创作（写诗、写作文、写好评）是在行的

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

解释表情包，它也懂梗图

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

帮助辨别食物是否适用（健身减肥人士最爱）

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

图片内容理解准确，还能根据环境判断这是商业区

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

马桶水箱醒花，花艺也略懂一些啦（花艺小白新的知识增加了）

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

厨艺好像也不错

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

截图内容理解准确且极为详细

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

商汤日日新5.0的文生图和文生视频也不赖。比如文生大象中，商汤秒画生成老象的效果更为自然，而友商中有出现三条腿的大象。

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

现场播放的三段视频完全由大模型生成，效果逼真视频，其实文生视频中的人物、动作和场景的可控性非常难把握，但商汤文生视频平台依然保持视频内容的连贯性和一致性。

二、多模态大模型「惊艳」的底气

这一次，商汤的确让人惊艳。

一切似乎在眨眼间，中国的大模型是从哪个步骤开始变得智能的？

上文都是多模态任务，多模态能力是AGI决胜之战，也是中国弯道超车的关键一役，但这道城门颇为难攻。

多模态最大的挑战，是不同模态之间存在语义鸿沟，这种语言理解的鸿沟，会让一些重要的视觉信息缺失，例如物体形状、空间关系、情感表征能力以及重合等。

比如，文生图模型画一个熊猫，难点在于，文字信号指示词语，而视觉信号是像素点，而这层次结构不同，很难对齐，匹配要局部细节。此外，还有计算的效能、存储等系列问题。

了解了这些，方能理解上文中展示的商汤多模态大模型的实力。

商汤为什么能在多模态大模型上跑得如此快？其实一直都有迹可循。

强大的算力供应、算法和数据

AI三要素，算力、算法、数据依然是入场券。

首先，强大的算力供应，是如今最稀缺，也最有竞争力的要素。

短短2年内，中国的大模型百家争鸣，但作为一项强技术、强资源、强投入导向的技术，本质上是大厂的游戏。

具备强大的算力基础设施的计算硬件集群、资源调度等能力，能够更高效的利用计算资源、降低模型的边际成本的企业，才有资格站在高处。

商汤是业内少有的算力供应大户。

商汤从2017年、2018年起一直在AI基础设施上进行了大手笔投入，这让商汤AI大装置SenseCore成为业内稀缺的大模型专用基础设施，总算力规模达12000P。

其中，上海临港AIDC全新升级后可输出8400P算力，是国内最大的人工智能计算平台。

拥有45000张GPU对外提供大模型训练与推理服务，具备从“千卡千参”到“万卡万参”的大规模并行训练的能力。此外，商汤AI大装置SenseCore已完成58款国产芯片的适配与应用，国产化算力达1500P。

天下武功，为快不破，谁能更快优化技术，谁就能先一批找到商业化落地的大道。

模型迭代也取决于算力的供应。在训练的阶段，算力越大，可做出的模型就越大，更新迭代的速度就越快。

商汤在如此强大的算力供应下，能够在7B、20B、100B各个模型档位上都能以最快的速度迭代。

日日新没有辜负这个名字。自2023年4月发布“日日新”以来，商汤大模型以2个月至3个月一个版本的速度快速迭代，在短短1年，就迭代了5个版本。

再看算法。

前文提到，多模态最大的挑战是不同模态之间的语义鸿沟。

不同模态的布局和对齐，不是每个模态的数据清洗完，输入进入就能运行。

模态越多，对齐就越难做。每个环节都需要对每个模态的数据充分的理解和大量的积累。

因此商汤在算法模型设计下足了功夫。

业内规模最大的视觉基础模型，是谷歌220亿参数大模型，用的是内部JFT数据，这个超大的内部积累的图片数据量，业内难以匹敌。

商汤2023年下半年发布了一个60亿大模型，仅用了四分之一的参数，就在典型的检测分割等能力上与之看齐。

以大分辨率长图为例，给到一些多模态窗口，因图像分辨率太大，窗口无法识别，但商汤的模型给出了非常大的分辨率接口，能识别2K✖️1万分辨率的图片，这成为商汤多模态区别于与友商的核心。

能支持这么高的分辨率，是算法模型设计的功劳。

过去的路线，需要基于语言大模型基座，做视觉等多模态的整合训练，把结果转化成更高的维度，比如文本，再给到语言模型，所以也需要语言大模型有更强的认知理解能力。

过去的大语言模型只需要关注文本，多模态的数据分布、表达形式都不一样，因此需要在模型设计上给更多的交互信息，这需要很精巧设计。

去年，商汤巧妙地设计预训练模型来让模型挖掘不同模态之间的关联，将每一层信息带入，并且做映射对齐，能力的提升直接体现在原生多模态大模型，能做到图文、音频、视觉抽取理解，得到了更强的提升和突破。

商汤算法模型设计精密相连的交互能力也很强。

商汤的一大优势是底层互通，整个模型设计是一体的。

“不少公司的产品是单一的，图文理解、文生视频都分属不同的团队，互相之间没有连通，可能最多调用了同一个工具，只是把这个文档拷贝到另外一个工具里，交互性很弱。”

商汤科技研发高级总监卢乐炜表示，商汤的日日新商量5.0，同一个团队，模型设计是一体的，交互能力有极大提升，能够动态理解输入的需求，理解图片，并给到非常详细的解释。

再看数据。

AI领域十年，商汤落地了众多行业，城市智能、商业、医疗、金融、自动驾驶，甚至在钢铁、煤矿、电力等工业场景，商汤在各个行业积累了大量的多模态数据。

「量」有了，「质」也要保证。

日日新5.0最重要的提升除了模型采用混合专家（MoE）之外，解决了数据质量的瓶颈。商汤在知识层面上采用超过10T的Tokens，使得高质量数据的完备性能够得以保持。

除此之外，商汤还合成构造了思维链数据，这是真正意义上保障模型能力提升的关键。如果每一个行业思维链数据都能够被轻松构造的话，推理能力就会大幅度提升，在这个过程中构造数千亿的知识链数据，从而使得模型能力可以对标GPT-4 Turbo。

去年开始，商汤也建立了一个非常强大的数据处理引擎，每天可以处理超过两万亿个token的数据清洗和蒸馏任务，这也让大模型数据供应进行不断地迭代，结合商汤独特的算法设计去完成人工智能大模型算法、数据、算力三位一体的闭环。

多模态感知积淀

感知能力是多模态能力核心中的核心。

废话不多说，直接上数据。

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

这个拥有超过千亿参数的多模态大模型的图文感知能力达到全球领先水平，具有全面知识系统，对现实世界的理解大幅提升。

不仅在多模态大模型权威综合基准测试MMBench中综合得分排名首位，82.3（超过GPT-4V的77），在多个知名多模态榜单MathVista，AI2D，ChartQA，TextVQA，DocVQA，MMMU也取得领先成绩。

这不是一日之功。

多年前手机相册的“去年今日”、“欢乐时光”功能，根据某一时段的一些照片设定一个主题，自动配乐生成一段专属MV，这可能是“自动化生成视频”最初的样式。

而商汤科技创始人汤晓鸥可能是最早一批探索视频生成的人之一。

2012年，在那个互联网主要流行媒体还是音乐和图像的年代，汤晓鸥以第一作者就创新性提出论文《自动音乐视频生成：音乐和图像的交叉匹配》，该论文也入选2012年的ACM Multimedia（世界多媒体领域最重要的顶级会议）。

当时的挑战在于如何找到适配的图像让他们与歌曲对齐，团队提出一个自动为给定歌曲生成音乐视频的系统，以歌词关键字作为查询检索互联网中的相关图像，并使用基于学习的方法来估计图像和音乐片段之间的语义分数，自然语言处理技术在生成视频中的作用开始显露。

2014-2015年，商汤发布数据集CelebA，包含表情、情绪、长相、头发等。这是引领生成模型发展的标杆数据集，催生了第一代GAN对抗生成网络发展。

2019-2020年，商汤将视觉算法积累和GAN技术结合，启动如影数字人研究，并推动文生图的相关研究。

多模态需要数据组织理解能力，有多视觉信息、音频、视频的理解。其实，作为以计算机视觉智能起家，曾经的商汤有太多的光环和积累。

文生视频和文生图一脉相承，如今商汤的生成式AI领域持续迸发，得益于此前多年持续不断地探索与积累。

商汤具备高清长图的解析和理解以及文生图交互式生成，还可以实现复杂的跨文档知识抽取及总结问答展示，还具备丰富的多模态交互能力也不足为奇了。

完善的服务

此外，商汤的知识库、知识融合、微调等服务能力也更一步完善。

多模态大模型5.0新增知识融合接口，可基于知识库能力优化，大幅降低模型幻觉的出现。

商汤对行业知识进行系统的整理，每个行业大模型都会结合客户知识、政策法规、前沿论文等梳理知识图谱，形成丰富的、高时效性行业知识储备。

在模型维度，研究团队基于海量的图文数据采用预训练和监督微调的方式，可以处理多种类型的任务，包括常规的图文任务和开放式的长尾任务。

此外，多模态大模型5.0还搭建了完善的服务流程，支持QA和纯文本数据的知识库外挂，并可实现PDF、Word文档等格式输入；外接多个embedding模型，可提供知识融合服务，并支持Prompt、SFT、Lora多种模型微调方法。

理论上，当一个人同时具备数个维度的能力，有战斗力储备，有高智力和成熟的思考能力、逻辑、扩展能力，如果他还懂各行业各业的知识，服务还强，他能做到“上知天文下知地理”。

一个顶级高手，背后是各种单点技能和底层实力的环环相扣。

三、通用AI和生成式AI的商汤路径

当下的百模大战，有一种混乱的激烈。

业内有大牛专家所言，目前的国产大模型有三类：原创大模型、套壳国外的开源大模型、拼装大模型，即把过去的小模型们拼在一起，变成参数量看起来很大的“大模型”。

业内多数公司，都是后两者，要么只有模型，没有算力，要么有算力，但算力缺乏运营，大模型缺乏差异化。

进入大模型的商业化落地竞争年，明面上的白热化大模型战场，其实是原创大模型之争。

没有足够强的技术积累、持续的高投入和工程化能力，商业化落地就是裸泳。

商汤似乎走出一条通用大模型的产业化路径。不但有“大模型+大算力”的双轮驱动下的大模型即服务，还有大模型的云、端、边全栈布局。

2024年，百模大战下半场，大参数、多模态、长文本百舸争流，多模态的竞争更是按下了加速键。

也许在不久的将来，你可以打开电脑，输入需求，大模型直接生成了PPT和文档，如果你觉得不够，你只需要说出需求，它就能不断修改，比如某个图表，怎么能画得更好看。

生成PPT、生成影视作品分镜头、根据用户需求直接写代码、生成程序......这些，是大模型研究团队一直在努力的方向。

这份福利，未来日日新能带给我们吗，我们万分期待。雷峰网雷峰网雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

余快

未来城市主编

关注智能汽车相关的一切，欢迎交流 | 微信：Yukuaikuaier

发私信

当月热门文章