对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

本文作者：黄楠

2023-06-08 21:00

导语：通往 AGI 终局，多模态是必经之路。

在关于 ChatGPT 的讨论中，“数据飞轮” 被视为是经 ChatGPT 所验证的变革引擎，是大模型智能飞跃中的关键一环：向用户开放模型，建立用户真实数据反馈与模型迭代间的飞轮，用户反馈数据越多，模型的迭代速度也越快。

但很少有人知道，这一路线早在七年前，何晓冬与他当时所在的微软雷德蒙德研究院深度学习技术中心的团队同事就已经走过。

那是在 2016 年 3 月，纳德拉（微软CEO）带着一个名为 CaptionBot 的 AI 应用产品亮相微软 Build 大会，CaptionBot 跟全球用户见面仅一星期，用户量就突破百万。

同样是先有一篇论文，在技术上取得突破，再推出一个产品让用户参与使用，但过去的 CaptionBot 最终没能成为今天的 ChatGPT。在 2023 小蛮腰科技大会暨 AIGC 人工智能峰会接受 AI 科技评论的采访时，何晓冬表达了自己的遗憾。

新机遇在七年后的大模型时代再次到来。

在过去五年的 CVPR 发表论文排序中，排名前二十的论文里，与多模态研究相关的工作仅一篇。这个工作由何晓冬带领团队完成，论文所提出的“Bottom-up and top-down attention”注意力机制，用于跨模态的语言和图像信息在语义层次的对齐研究，单篇引用量已超过 4000 次。

Sam Altman 在谈及 AGI 的前景中，提出了必须要共同进化，才能达到通用智能，实现通用智能的要素之一，正是语言大模型令人们为之着迷的“涌现”时刻。多模态的“涌现”暂未出现，何晓冬认为，在多模态大模型的技术探索路线中必须回答三个问题，首先就是决定在哪个层次做多模态信息的融合。

何晓冬给出的答案是，在语义层次的对齐、融合。

而在技术之外，ChatGPT 为人称道的“极致工程化”，将产品在变革中所扮演的角色推向了一个新的高度。

正如七年前 CaptionBot 第一次迈进的“河”、以及 ChatGPT 第二次踏进“同一条河”，何晓冬相信多模态大模型也会按照同样的方式，先取得突破性的技术革命、发布一个粗糙但可用的产品、真正走入用户。“产品和技术研究、技术创新不分家，不管多粗糙、首先第一步是先用起来。”

大模型会带来AI技术的普惠，而不是加剧技术鸿沟。当大模型具备了信息压缩、知识网络构建、逻辑判断与推理等良好能力之后，下一个台阶的踏步高度就会降低。此时，产业受益之处就体现出来了，产业利润低洼地的企业，以及供应链上地位低的中小企业都有机会用上“大模型”。如此一来，不仅不会加大数字和技术鸿沟，还会产生普惠价值。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

何晓冬在西雅图华盛顿湖

做多模态大模型要回答的三个问题

AI 科技评论：2020 年的 GAIR 大会上，您就谈到多模态大模型的愿景。今年 3 月 GPT-4 发布，果然是多模态大模型。您能率先预见多模态的趋势，是否有过往研究经历的背书？

何晓冬：我是 2014 年最早开始做多模态 AI 的那批人之一。

多模态有它的历史。在深度学习之前，多模态有过一些工作，但整体都比较粗糙。语言和视觉信号的处理方式不同，以前“生搬硬凑”放在一块做出来的效果并不好，例如一个简单“看图说话”的应用，把一张视觉图片用语言描述出来，深度学习前采用的方法是，先做一些物体识别，得到相应的关键词，再把词拼成一个句子。在这个过程中，由于这些图像是以一个像素、语言以一个词的形式存在，难以将语言和图像对应起来。

真正开始突破是在 2014 年，微软发布了一个名为 MS COCO 的数据集。跟 ImageNet 不一样，ImageNet 用作识别，图片主要以单个物体的形式存在，例如一个茶壶、一只小猫，内容太复杂容易出现歧义，增加识别难度。而 MS COCO 则相反，一开始就是瞄准了视觉信号在语义层次的描述，因此数据集中的物体更丰富，同时也会在标注时让人用一句话来描述内容。

于是在 2014 年的时候，我开始想如何把语义实现跨模态理解。举个例子，当我们看到一个茶壶、以及“茶壶”这个词时，在我们的脑海中反映的是同一个意思，以概念的形式存在，因此我们认为，或许可以语义层次尝试和完成多模态智能的统一。

巧合的是，2013 年，我们曾发表过一篇深度结构化语义模型DSSM（Deep Structured Semantic Models）的工作。当初这个工作发布时只针对单一模态、即语言，跨模态的想法出现后，这项工作也从 2014 年开始、被我们用在做语言加视觉的语义对齐建模，提出了语言-视觉深度多模态语义模型（DMSM）。

这项工作发表在 CVPR 2015，同时我们也参加了 2015 年的 MS COCO 图像字幕生成挑战赛，比赛时给出一张图片，由 AI 模型去生成对应的语义描述（图生文），最后让人当裁判来判断描述是否准确，就像做图灵测试一样。最后我们的模型得到那场比赛的第一名，与谷歌并列第一，这也是真正意义上第一次把多模态这件事比较成功地做起来了。

因此，多模态智能可以追溯到 2014 年，我的研究方向也在这个过程中向多模态转移，从原本只做 NLP 、又往视觉的方向进一步扩展。

期间我们数次想将其做成一个产品，到 2016 年年初这个想法得以实现，我们推出了一个名为 CaptionBot 的 AI 产品。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

何晓冬团队在给纳德拉等展示 CaptionBot

像今天的 ChatGPT 一样，CaptionBot 也是一个使用很简单的产品，通过下载 APP，使用手机拍照后，CaptionBot 可以精准对照片内容进行文字描述。纳德拉在微软 Build 大会上发布后，仅一星期用户量就突破百万。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

CaptionBot 应用相关报道

在 Build 大会上发布后，我去硅谷参加英伟达的 GTC 大会时，老黄（黄仁勋）也对 CaptionBot 很感兴趣，还当场测试了一张。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

“Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture”— By CaptionBot

2017 年初，在 CaptionBot 发布了一年之后，基于期间用户使用的交互反馈，我们进一步提升了它的技术水平，并把这个产品集成进了Office 产品家族当中去。Office 是微软公司最重要的产品线之一，这也意味着这个 AI 应用的效果达到了一个新的水准。

而技术研究还在进步，在多模态大模型研究中，一个重要的基石就在于如何让语言和视觉信号进行融合和对齐。在 2018 年，受人类的视觉注意力机制启发，我们进一步提出了一个新的多模态注意力机制“Bottom-up and top-down attention”，为语言和图像信息在语义层次的对齐提出了一个基本框架，某种意义上也奠定了跨模态信息处理的基础。（截至发稿前，该论文的引用次数已超过4128次。）

AI 科技评论：是什么令您在当时就感知到，多模态会是一个好的方向？

何晓冬：这个原因很朴素。以前我们经常说想做 AGI（通用人工智能），而 AGI 的一个模板就是人本身。

人的智能行为是多模态的，比如说我们面对面聊天时、不会是闭着眼睛聊，视觉和语言是对应的。因此，真正的通用人工智能一定是多模态的。只是以前局限于技术能力不足，单模态都处理不好，多模态就不处理了。

AI 科技评论：相比语言大模型（单一模态），多模态大模型的研究难度是否会更高？

何晓冬：会比较难做。在每一个层次，多模态都会比单模态更挑战，进入大模型时代，多模态大模型肯定会比单模态大模型更挑战。

当初我们虽然做多模态模型，但相对来说模型规模偏小，没有做到现在的单模态大语言模型那么大的规模。那时候有个一亿参数就觉得好像不错了，到现在都是百亿、千亿的参数。但我们也看到，今天做大模型相比当年做大模型，更挑战的同时，合作也更加容易、视野更加开阔了。

AI 科技评论：从技术角度来看，主要难在什么地方？

何晓冬：多模态做大模型的话，有几个技术难点跟大家探讨。

第一个问题是，在哪个层次上、做多模态大模型的目的是什么？

这个目的并非是令语言模型可以具备多模态功能，如果仅出于这一目的，我们可以通过简单调用另一个模型实现。例如跟一个语言模型说帮我画画，那么它可以调 Midjourney 把图像画出来，这种属于比较浅层的多模态。从任务层次上看，好像可以完成很多任务，但在模型层次上，二者是分开、割裂的模型，也无法看到多模态级别的智能涌现。

大模型之所以火，不是因为它大，而是因为看到了它的涌现。此前的机器学习算法，往往是模型规模变大后、边际效果提升越来越小，但现在人们发现，模型大小过千亿后，它的边际效益是递增的，突然间效果就上去了，这被称为智能的“涌现”，因此，涌现是大模型最令人着迷的地方。

当我们希望看到多模态层次的涌现时，意味着我们需要将模型在底层去进行语言和视觉的结合，只有在最底层的结合才能出现涌现。也就是说，只有这个模型是稠密的模型，才会出现涌现的情况。

所以第一个问题就是，大模型做多模态，如果目标是涌现，那必须要做稠密的多模态大模型。

第二个问题是，当模型变聪明时，是在哪一个层次开始变得聪明？

我们常说一图胜千言，所以相对于“图生文”，“文生图”是一个更挑战性的多模态任务。给机器一两句话的描述，令其将图形生成，需要机器发挥极大的想象空间。

例如用“文生图”模型画一只鸟，面对粗略的描述，AI 可以进行自动细节补充，并且不仅是全局对得上，局部也要对得上。难点在于，原始视觉信号只是像素点，而语言信号最原始就是一个单词、一个字符，二者难以对齐，层次也不一样，所以要找到一个合适的层次，把多模态信息得以对齐。现在看起来，如果多模态模型要变得聪明，将会出现在语义层次。这个文字驱动视觉内容生成的工作我们在 2017 年底微软的“颠覆性技术展望”（Disruptive Technology Review）会上也给纳德拉及管理层做了专题报告。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

2017 年何晓冬及同事用“文生图” AttnGAN 生成的小鸟

AI 科技评论：语言模型堆参数的杀伤力是智能涌现，那么，在多模态大模型中，堆参数的意义是什么？在多模态里，大模型比小模型强在哪？

何晓冬：参数也很关键，我觉得很可能需要多种规模参数的模型。

当我们回答“做什么模型”的第一个问题后，如果你希望做个能涌现的模型，那么就必须是一个稠密的大模型。

第二个问题是在哪个层次的多模态融合？视觉和语言二者层次不一样，所以要找到一个合适的层次，把多模态信息得以对齐，再期望它能够涌现。现在看起来可能会出现在语义层次，但具体怎么样，还需要探索。

到第三个问题，就是模型结构和模型大小。

大模型的定义还是很虚的。比如什么叫“大”？千亿大了，那百亿算不算大，如果是在三年前，一个十亿参数的模型也能叫“大”。

由于视觉信号也是复杂的，因此我认为多模态的模型大小还需要进一步增加。

这几个问题有些是正在做的，有些可能还在探索。

GPT-4 的创新是对话，还不在多模态

AI 科技评论：从 GPT-3 到 GPT-4，GPT-4 比 GPT-3 强在哪里？其多模态的技术底层有哪些创新？

何晓冬：我认为 GPT-4 相比 GPT-3 ，最大的创新其实在于对话，还没有在多模态层次。

GPT-4 在语言模型上、在知识上做得更深了。有人对比过，例如面对同样的问题，GPT-4 的正确率比 GPT-3.5 要好很多，GPT-3 的效果则差得更远，因为 GPT-3 并不具备对话能力，只有生成，对问题各方面的感知、意图理解等做得并不好。现在 GPT-4 已经可以直接询问多个问题，且通过多轮对话、它得以持续记住过去的历史。

AI 科技评论：目前业内说“多模态大模型”，主要讲语音、文本与图像三种模态。但目前来说，是否主要是文本与图像两种模态的大模型？

何晓冬：语音也有。我们在 2020 年曾在 IEEE JSTSP 办过一个多模态的智能专刊，除了我们自己做的一个综述外，还请到了业界的比较资深、前沿的学者进行投稿，其中就包括了语音到图像、语音声调等等，因为语音不光只是文字语音，还覆盖声调、语气等信息。但不可否认的是，至少在早年，多模态确实是一个不那么热门的话题，一方面是由于技术难度比较大，另一方面与天然的领域问题有关，更多学者还是专注在一个领域上做研究，跨领域的比较少。

对话京东何晓冬：「多模态大模型」涌现之前，要先回答三个问题

专刊链接：https://ieeexplore.ieee.org/document/9126279

AI 科技评论：此前有研究表明，在单一英语数据集上训练的语言模型，虽然没有经过其他语种的训练，但在执行其他语言（如中文、日语）的任务时性能也有提升。那么，在多模态里，一种模态的性能飞跃，是否会对其他模态的智能水平也有所提升？例如，语言模态的进步，对语音、图像的智能有影响吗？

何晓冬：这是有可能的。现在只是语言模态的飞跃实现了，视觉还没有完全起来，因此，一个模态带动各种模态涌现，这也是大家在探索的方向。

举个例子，现在大家拿“视觉+语言”来做，一方面是因为这部分数据比较多，另一方面则是因为视觉和语言最重要。因此，如果这个方向的探索能够成功，最终不仅是视觉和语言，更是能提供很多洞察——怎样做跨模态、多模态的涌现。比如说会不会用 Transformer 架构也是一个未知数，不一定用 Transformer，但也可能跟 Transformer 相关。只是现在还没看到，需要等待最后出来的是什么，但基础性的工作已经在探索了。

AI 科技评论：在未来的多模态大模型中，是否会存在一种模态占主宰地位、其他模态占附庸地位？如文生图，现在是文字主导，而后生成图像。

何晓冬：从技术角度来说，不存在说谁主导谁附庸。比如说“文生图”和“图生文”，我们如何判断这当中是文字比图像重要、还是图像比文字重要？因为都很重要。

当然，有的人会认为，在图像或者语音识别是感知层面的智能，“感知智能”比较基础，因此被视为是比较低端的智能，很多动物也具备感知智能。但在语言层面，一般认为其是“认知智能”，因为文字更体现人具备的高级的智能，这也是图灵所提出的，要通过对话、而不是识别图片的方式，来判断机器是否具有智能。

总体而言，或许文字可能更深奥一些，但也只能称为从基础智能到高层智能，并不能说哪个模态要比哪个模态更重要。

多模态的“ChatGPT 时刻”需要产品

AI 科技评论：您之前说过一点，让我们印象特别深刻：ChatGPT 的启示是“产品形态驱动技术研究”。那么，目前主流的多模态应用有哪些？

何晓冬：应用比较多的是在数字人、数字员工等，数字人天然是个多模态的应用。

AI 科技评论：追逐的过程中，更多是技术上的飞跃，还是产品上的创新？

何晓冬：应用的形式一般不会让你感觉特别稀奇，但应用的效果会让你感觉到惊艳。

在人工智能领域，形态创新并不重要，基础形态既定，如人机对话、文生图、文生视频等这些基础形态大家很早就畅想过，问题在于效果达不到，有一天效果达到了、才是一个大的飞跃。比如在人机对话这个基础形态上，可以做导购、推荐、营销、客服、助理等等，这些则被称作衍生形态。但如果基础形态效果不到位，衍生形态更加不到位。

ChatGPT 也一样，人机对话这件事并不新鲜，大家之所以对 ChatGPT 觉得惊艳，它的效果是有目共睹的。

同理，今天我们去考虑多模态的应用意义并不大，因为多模态大模型的涌现还未实现，当多模态可用深度理解意图，随时可控地对视觉、语言等各方面信息做融合，基础形态实现了，更多衍生形态自然会出现。

AI 科技评论：前面我们谈到了它（多模态大模型）在技术角度的难度，从产品方向来看，目前落地的难度在哪里？

何晓冬：主要在多模态大模型它的可控性上，特别是对细节的理解和可控。这一块是我认为比较重要的。

比如 Midjourney 画图，虽然比自己画的要好，可能整体表现很好，但在刻画手指等细节上还不够好，往往需要生成很多张、从当中挑出一张，还是有这个过程。

再举个例子，现在大家所说的 Prompt，在我看来这正是一个 bug、或者说它不足的地方，是技术还有缺陷的一个体现，就是因为模型对语言的理解还不够好，因此才需要人去练“咒语”，随着技术进步，练“咒语”这件事情将不存在。

AI 科技评论：现有的产品，对于多模态大模型的进步是否有 ChatGPT “模型-用户数据-模型迭代-用户数据”的飞轮式迭代？

何晓冬：这个方式是对的，并且我也认为，下一个多模态大模型可能还是会按照这样的方式。

首先，在技术上能看到一个突破性的革命，其次在产品形态上会有一个可用的产品发布出来，真正地走入公众，只有走到 Public，这个数据才真正得以解放。这部分的数据并非花钱标注就可以得到，标注只是第二步的。我们所说的数据往往包括原始数据和数据标注，标注可通过找人、花钱就可以把这件事完成，真正困难的是原始数据的获得。只有让大家一起用、才能实现真实可靠的原始数据获取。一个术语，就叫做数据的均衡采样。将整个地球的所有用户和用户活动视为一个空间，当你希望你的模型可以服务这么多人，那么相对应的数据也需要对目标用户空间比较均衡的采样。为了做到这一点，最好办法就是先发布一个变革性的产品、让全部人一起使用它。

AI 科技评论：这个范式在 2016 年您和团队做 CaptionBot 时就已经历过了，为什么当时 CaptionBot 没能成为今天的 ChatGPT ？

何晓冬：我们其实走的过程其实特别像 ChatGPT：最开始有篇论文发表在 2015 年，紧接着 2016 年初做成一个公众可用的产品，把它发布出来。

由于论文往往是在一个有局限的学术数据里，规模、覆盖各方面比较局限性，通用性存在不足，如果希望它能够走得更远，最好的办法就是把它做成一个新的形态、打造一个产品，对全世界通用，从学术中仅靠一些学生去收集、标注数据，转变为全球百万级、千万级的用户成为数据反馈的人。这产品可能很粗糙，正如当初我们的 CaptionBot 只是一个APP，今天的 ChatGPT 也很粗糙、只是一个对话框，但是粗糙没关系，只要大家觉得真的有意思、有用，很快就能形成爆品。通过用户使用的数据可以用于进一步提升算法、模型，随之进入第三个阶段、即严肃的产品使用阶段。

这“三步走”我们在七年前已经走过，但当初走得有点慢，最终没能够做到一定的服务规模，是今天我感觉有点遗憾的地方。现在微软快多了，像去年底 ChatGPT 出来，到现在才半年，GPT 已经全面进入微软各大核心产品线。

其实这次 OpenAI 展现出来的一个新趋势，即是产品和技术研究、技术创新是不分家的。产品的定义是，让普通大众可以直接使用的，首先第一步是先用起来。在这个层面上来说，AlphaGo 不是一个产品，而 ChatGPT 是。

AI 科技评论：一个不得不直视的现实是，即使在语言大模型上，中国的多个大模型产品的智能水平跟国外也仍有一定差距。国内语言大模型的研究局限性，能否给多模态大模型的研究新征程带来启发？

何晓冬：在跟用户沟通交流中学习智能。这也是为什么我们对 ChatGPT 会看得更深一点。

ChatGPT 确实很厉害，但它的厉害之处在于它的广度上，它的深度其实并不够。例如金融领域的一些项目，就无法直接使用 ChatGPT 来解决问题，需要与具体的金融知识等行业 Know-How 相结合，同时还要经过实战磨练。

比如对话可以分为合作性对话和对抗性对话，其中，合作性对话指用户愿意配合完成的对话，例如客服等。而对抗性对话则包括了谈判等存在一定博弈与对立的内容。而越高价值的对话，往往博弈性越强，对机器智能要求也越高，这都是在技术与实际场景结合中所得到的认知和经验。

今天的 ChatGPT 已经不再考虑图灵测试，它甚至会告诉你：“我是个语言模型，你有什么要问的？”它不需要欺骗人，因为它知道即便我是一个机器、你也会跟我对话，这就是技术进步的一个重要体现，也是其开始变成生产力的一个重要体现。

多模态大模型的研究需要离落地更近，我认为，这对科学而言是一种促进、而非限制。计算机作为典型的应用科学，很多重要的课题是在应用中被反向牵引，因为大量的应用需求，从而促生更多变量和经验体系的发展。

AI 科技评论：对比多模态研究的早期阶段，现在的多模态大模型有哪些革命性的进步？

何晓冬：以数字人为例，它的突破是很大的。回到 2014 年，当时的数字人几乎不可用，到近两年才真正可用，当中关于数字人形象生成控制，包括形象层和语言层的对齐等方面，都离不开多模态技术的参与。

但多模态大模型的 ChatGPT 时刻还没到来，可能还需要点时间，或者需要更多的数据、创新的算法，暂时还没有爆发。

AI 科技评论：如果说 ChatGPT 可能已经是语言大模型的 AGI 终极形态，那么多模态大模型的 AGI 产品形态应该是什么样的？您对多模态的研究设想是怎样的？

何晓冬：回到本源，当我们说通用人工智能时，往往是以人为标杆的，我们也希望所有的产品是为人而服务的，在未来所有的 AGI 蓝图里，人是一个核心存在。我们永远不希望看到人被边缘化，如果人被边缘化，那么这个世界对人类没意义。

因此，多模态既是一个路径，也是一个要求。

一个路径是指，人被视为这个世界上最聪明的智能体，如果想打造一个像人一样聪明的 AGI ，就需要向人学习，通过多模态方式来进行知识融合、知识获取，这是让机器走向 AGI 的必经之路。

另一方面，多模态可能也是个要求。未来人跟机器打交道时，必然是通过语言、视觉、语音跟机器进行沟通的，所以机器也必须能够理解相应的信息，否则机器就无法服务人。

因此，多模态既是 AGI 的必经之路，或许也是对 AGI 的一个要求。

（雷峰网雷峰网(公众号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

黄楠

主笔

倾听科技和商业的故事，关注AI人物、技术变革。｜微信：finfl26est

发私信

当月热门文章