JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」

本文作者：赖文昕

2024-12-30 15:05

导语：导语：具身智能的高层感知，可以从认知科学突破。

作者 | 赖文昕

编辑 | 陈彩娴

近日，马尔奖得主、约翰霍普金斯大学教授 Alan Yuille 的团队发布了一项世界模型方向的重磅工作——GenEx，引起了具身智能领域的广泛讨论与关注。

作为李飞飞初创公司 World Labs 发布的同期工作，生成模型 GenEx 的特别之处在于它能让 AI 具有"想象力"，使智能体通过想象出来的观测探索生成式世界。

受到心智模型的启发，GenEx 希望在一定程度上试图模拟人类大脑中对世界的认知方式和理解机制，以实现更智能、更灵活的人工智能系统。

具体而言，GenEx 系统有两个相互关联的组件：一个是想象世界，它能动态地生成可供探索的三维环境；另一个是具身智能体，它与这个环境相互作用，以完善自身的理解和决策能力——两个组件构成了一个共生系统，使得人工智能能够以类似于人类认知过程的方式进行模拟、探索和学习。

JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」

项目链接：https://www.genex.world/

GenEx 仅依据单张 RGB 图像就能生成整个三维连贯的想象环境，还能通过 360 度的全景视频使其变得栩栩如生。

在 GenEx 生成式想象力的驱动下，智能体能执行复杂的具身任务，包括与目标无关的探索和目标驱动的导航。这些智能体利用对物理世界中未被观测部分的预测性预期来完善自身认知，基于潜在决策模拟不同结果，并做出更明智的选择。

而且，GenEx 还可以扩展到多智能体场景，当某个智能体导航到其他智能体的位置时，还能根据其他智能体想象的认知更新自己的认知。

这个工作的核心作者，是约翰霍普金斯大学即将毕业的中国博士生陈杰能。

JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」

在转向世界模型、空间智能前，陈杰能的研究重点为医学图像，本科毕业于同济大学计算机系，2020 年到约翰霍普金斯大学读博，师从 Alan Yuile。

此前，他发表了首次将 Transformers 与 U-Net 融合的网络模型 TransUNet，至今引用量已超 5000。

自今年起，陈杰能把研究重心转向世界模型与空间智能领域。其研究内容主要包括基于单张图像生成具备交互功能的 3D 世界，并且将这个生成的世界构建为具身智能体的心智模型（mental models），从而助力智能体做出更优决策。

从医疗图像到具身智能，陈杰能认为自己已较好地完成了上一个使命，“接下来希望研究新的黄金问题，参与到前期探索中。”

以下是 AI 科技评论与陈杰能的对话。

当癌症遇上AI

AI 科技评论：您正式读博前发布的 TransUNet 至今引用量已超5000，当时是如何想到这个 idea 的？

陈杰能：当时我正在进行另一个项目，目标是对物体边缘的语义进行建模，就有了序列建模的idea，即序列学习（Sequential Learning），Transformer 虽然全局学习比较好，但难以捕捉物体边缘的局部细节。

在2020年底，Transformer 已经证明了在分类任务中表现较好，但对于它能否做密集预测，大家都还在探索中。为了解决这一问题，我就想结合 Transformer 和 UNet 的优势，从实际效果来看，UNet 更擅长处理局部信息，Transformer 则擅长处理全局和预期信息，它们是一个实现局部细节还原并兼顾长距离建模的最佳组合，能够很好地支持多种任务。

后来，我继续把 TransUNet 扩展到 3D 层面，也进一步将其应用于多癌筛查。TransUNet在今天仍是一个经典的架构，广泛应用于分割模型和扩散模型等任务中。

AI 科技评论：那您是如何接触计算机视觉，并决定扎根医学影像领域的？

陈杰能：2017 年下半年我在慕尼黑工业大学交换，3D 视觉学者 Daniel Cremers 是其中一位授课老师，巧的是他也是我现在的导师 Alan Yuille host过的博士后。当时的计算机视觉课程内容偏几何和理论，我被前沿科研吸引，回来后便决定参与视觉的研究，便在同济的陈广老师课题组研究车辆检测。

2019 年暑研，我机缘巧合联系到 Alan Yuille，他与约翰霍普金斯医院合作癌症早筛项目，有抑癌因子 P53 发现者等知名医生参与。他们虽不是 AI 研究者，但也意识到 AI 在医疗领域的潜力，这领域有规模化的机会，同时还能切实地帮助到每一个普通人，这便吸引我钻研医学影像领域。

AI 科技评论：所以您又加入达摩院医疗 AI 团队实习了。可以分享一下做 CancerUniT 的故事吗？

陈杰能：负责人吕乐是我在约翰霍普金斯计算机系的学长，他的导师Gregory D. Hager和我的导师本身就有合作，我们认识的比较早。

当时在医疗AI领域，大家都在做单一病种的研究，达摩院希望我能加入去做多癌筛查。具体而言，我们希望开发了一个 AI 模型，能通过单次CT筛查找出八种癌症并诊断14种亚型，这八种癌症是国内最高发病率高致死率的癌症，涵盖了接近80%的患癌病人。

医疗AI领域涉及众多方向，其中疾病筛查无疑是优先级最高的，尤其是针对癌症、阿尔茨海默症和慢性病等主要疾病。癌症因其发病率和死亡率双高，我认为更值得在我精力有限的情况下优先攻关，也被我认定为一个黄金问题。

对我来说解决这个黄金问题就像是攀登一个更高的山峰，如果它能早一些解决，就能帮助到更多的人、使许多家庭受益，我很有热情，希望能贡献我的微薄之力加速这个进程。我推进工作的过程中，我和我的合作者一起明确了问题的定义，也搭建了一个高敏感性高特异性的基础模型，现在，达摩院正在进一步扩展我当时开发的多癌模型，我期待这系列模型能尽早在社会中发挥实际作用。

从视觉基础模型到空间智能

AI 科技评论：后面您来到字节 Seed 团队做视觉基础模型，为什么会选择这个机会呢？

陈杰能：我的 mentor Liang-Chieh Chen 在谷歌时就曾邀请我去实习，不过我当时去了达摩院，就答应下一年再加入，后面字节成立了核心团队Seed，他加入并带领基础研究组，我也跟着来到字节。

2023年业内研究的一大重点是多模态大模型，Liang-Chieh Chen 在深度学习架构设计方面有着很高的造诣而且经验丰富，特别是在MobileNetv2和DeepLab的贡献。，我希望能对大模型的视觉编码器进行一次彻底设计，探索新的可能性、进一步打磨自己的技术能力，就此加入了。

AI 科技评论：第一次主导视觉编码器架构的设计，成功发表了 ViTamin，感受如何？

陈杰能：其实在做 ViTamin 的过程中和完成后的感受都很深刻。

我负责基础架构设计，需要对多模态大模型里的视觉编码器架构规划并探索 scaling law。而由于耗费算力较大，常常仅有一次训练模型机会，所以设计时得既谨慎又创新。

我们的视觉编码器在imageNet零样本准确率达到了83%的SOTA，也能有效的迁移到大模型里，我们探索了一条合理的scaling law。将模型性能优化至世界最佳的过程，是充满挑战且极具成就感的。

如果将多模态模型比作一个智能体，那么视觉编码器就是智能体的眼睛。随着今年年初公司研究者们认识到了大模型中视觉编码器的重要性，并进行针对性的设计，我再次感受到此工作的重要性。

此外，ViTamin 最高分模型仅有436M，不足 0.5B，在追求大模型、大规模参数量的2023年算是非常小的。而在我们所能获取的最佳数据条件下，这个规模已经达到了 scaling law 的极限。有趣的是，从今年开始，小模型也变得非常热门，现在多模态模型为了终端优化，也只会采用几百兆量级的视觉编码器。不难看出，scaling law 最终会逐步收敛到一个最佳的设置。

AI 科技评论：为什么今年会从医学影像转向空间智能？空间智能的核心是什么？

陈杰能：我相信工业界和医院的联合下，癌症筛查这一关键问题将在未来几年得以解决，而我以前的工作有助于其规模化推广，算是完成了自己的使命。如今我想探索新领域，而空间智能、具身智能等定义尚新，能参与前期探索颇具意义。

导师Alan在1990年就有研究三维物体的表面曲率，近年实验室也一直关注3D 视觉，我常受到熏陶而感兴趣。我今年开始着手解决一两个黄金问题，希望能一起推进空间智能与具身智能。

今年空间智能备受关注，它涉及图片 3D 建模或视频 4D 建模，本质上是逆向图形学单张图重建三维结构并提取物体类别、位置和几何等信息。

举个例子，在虚拟游戏引擎或物理引擎中，通常会通过预设的场景配置文件给定3D模型，并渲染为2D图像，这是一个从场景到图像的正向渲染过程；而计算机视觉则是这一过程的逆向推理，即从2D图像中重建或推演出三维场景。如果能彻底解决这一挑战，计算机视觉可能会有较大的突破，比如在 GPT 的空间推理，以及视频生成是否表现视觉场景的物理性，因此，从图片中推演 3D 场景，是空间智能的一个核心。

我目前的工作聚焦了空间推演。不久前发布的 Gemini 2 也特别强调了空间推演能力，然而，我们最近开发的空间推理基准3DSRBench的结果显示，其准确率仅为 50%，远低于人类的 95%。结果发布后，DeepMind的相关人员也提供代码库，共同推动大模型在空间推理的进展。这表明在空间智能领域，尤其空间推理，机器与人类的能力还存在较大差距。

AI 科技评论：那空间智能与医疗图像之间有何关联与差异呢？

陈杰能：空间智能与医疗图像皆涉图像处理及复杂场景建模，医疗图像的三维理解与空间智能的三维理解目标相近，都要将像素数据转化为对三维结构和语义关系的预测，并提取关键的信息如物体位置和形态。在医疗影像中，这具体表现为对器官和病灶的位置、形态及其空间关系的精准解析。

二者也有不同：从数据上，医疗图像是规则的三维数据，通常处于有限范围内（例如人体高度有限、器官形态相对规则），数据复杂度较低；而空间智能的数据更加复杂，包含大量不规则、有形变和带有关节活动的物体，数据的复杂度明显更高。从优化目标上，空间智能和具身智能重实时性与泛化性，期望模型在不同环境泛化良好，达类似小孩智商与感知力；医疗人工智能则强调专家性，欲在专项达医生专家水平，所以二者优化目标迥异。

心智模型之于具身智能

AI 科技评论：您是从什么时候开始聚焦世界模型的？

陈杰能：我对世界模型的研究，是与空间智能和具身智能同期进行的。空间推理是具身智能体感知物理世界的起点，但仅依靠空间感知无法全面支持智能体对物理世界的交互理解。构建一个可预测、可交互的世界模型，将更好地帮助智能体在真实世界中进行有效决策。

虽然世界模型的定义本身仍百家争鸣，但在二三十年前就已应用于控制论了。它的一个本质定义是：给定当前的状态分布和动作输入，能否预测出未来下一个状态的分布。这在早年的控制论等领域中有一些实践，但早年状态的定义较为简单。

我认为世界模型本质是提供对世界变化的预测性分布，但世界变化不应是最初的低维状态，而可以是一个四维世界的状态，包括目标物体的语义信息、纹理信息、三维几何结构、形态、形变、运动特性，以及物体之间的空间关系的建模。

我关注的一个难点是，能否从图像观测中提取上述的三维空间表征，作为世界模型的状态。此外，我也关注世界模型在具身智能的应用。

AI 科技评论：您不久前发布了“生成式世界探索者”，从单张图生成可交互 3D 世界，可以聊聊这个 idea 是怎么诞生的吗？

陈杰能：人类在现实生活中探索看不到的地方，能通过发挥想象力在大脑里构建出一个世界，然后在其中进行想象性的探索。这种能力使得我们人类无需物理移动就能探索到这个世界未知的地方，还能帮助更好地做出决策——让AI智能体具备此能力，就是我的初衷。

从实践的角度来看，当下看到的事物，无论是单张图还是单个观察，首先是要从单张图中生成一个可交互的 3D 世界，下一步才能在这个 3D 世界中探索。

AI 科技评论：那具身智能的心智模型和世界模型又有何关联呢？

陈杰能：心智模型最早在心理学和认知科学领域被提出，心智模型是指存在于我们脑中的一种认知框架，用于表示对世界的理解。它相当于一种内部的现实模拟，帮助人类解读信息、做出决策，并根据以往的经验和知识预测结果。当然世界模型也是根据过往的经验和知识，去对未来的状态分布做出预测。因此这两个模型的本质是相关联的。

心智模型的表征最早主要是关于语言语义学特征，如今生成技术的发展使视觉表征成为可能。我的工作实际上是将心智模型提升到了一个表征上的新高度，即构造出具备空间想象力的心智模型，能想象三维世界中看不到的地方，比如只看到轮子能想象到一辆救护车，亦或者通过动作交互，探索到更远的看不到的场景。

具身智能体基于此核心能力，无论走到哪里，都能通过对周围环境的观察来构造出一个可探索的三维世界，即生成式的三维世界。在对生成的世界里，智能体通过探索发现未曾见过的观测，并将这些想象出来的观测加入到决策过程中——因此称之为“生成式世界探索者”。

将生成世界的观测融入决策的过程，可以看做通过世界模型开发的一种全新策略（policy）。应用于具身智能时，其实是用在生成式世界收集到观测来补充物理世界中的缺失观测，形成更完整的观测集，从而构建一个想象力增强的policy。

AI 科技评论：心智模型属于对常识的理解吗，比如知道横着拿纸杯水会洒出来？

陈杰能：心智模型作为一种认知框架，有基于常识的理解。然而，“知道横着拿纸杯水会洒出来”，这仍基于对纸杯和纸杯里的水的完全观测，心智模型可以解决更有挑战性的部分观测和缺失观测的场景。心智模型是通过已有环境信息，去推演和想象那些未观测到的环境部分，比如一阵大风是缺失观测的，但人类的心智模型或许能推演出风吹后纸杯会倒下。

模拟这些未观测到的环境因素，有助于做出更精确的决策，从而提高决策模型的泛化能力。这一方向在未来会获得更多的关注。

AI 科技评论：这个方向在具身智能领域并不热门。

陈杰能：是的，领域内很多研究者聚焦于提升低层次（low level）策略的鲁棒性，而我目前的研究更侧重于高层次（high level）问题，旨在为具身智能体构建可交互的三维世界模型，以辅助其决策过程。

在高层次领域，除了心智模型，具身智能体的物理世界的空间理解仍有挑战，如果把上游的空间理解处理好加上三维心智模型，低层次问题会解决得更轻松，能让智能体走入真实世界而非仅限在机械臂的环境里。当然这两者最终可以结合起来形成多层次模型。

最后，我们开发的生成式世界探索者，不仅是具身智能体的重要组成部分，也已经初步证明能够辅助人类的认知决策。我希望在这个多学科交叉的领域贡献点力量。

雷峰网作者anna042023将持续关注具身智能，欢迎添加交流，互通有无。雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。