3D 视觉派：斯坦福具身智能人物关系图

本文作者：赖文昕

2024-09-06 15:02

导语：导语：苏昊、黄其兴、祁芮中台、卢策吾、朱玉可、王鹤、王世全、弋力、莫凯淳……他们从 3D 视觉出发，改写了机器人的故事走向。

作者 | 赖文昕陈彩娴

编辑 | 陈彩娴

2009 年，当苏昊第一次走进位于斯坦福 Serra Mall 353 号的盖茨大楼时，他刚经历完一场对人工智能的思想挣扎。

那时他刚参加完搭建 ImageNet。导师李飞飞从普林斯顿转到斯坦福任教后，他也随之从美国东部来到硅谷。在普林斯顿的算法课上，著名计算机科学家 Robert Schapire 认为，“计算机视觉的解决还要 200 年”。苏昊尝试与他的朋友顾春辉（伯克利博士）交流倾诉，顾春辉宽慰他，说视觉正处于黎明前的黑暗，但下一句是“可能还要黑暗 30 年”。

这难免使他对个人的学术命运与职业生涯感到担忧与迷惘。

结果，事物的发展出人意料——仅 3 年后，AlexNet 诞生，计算机视觉的星星之火迅速燎原，大规模数据集 ImageNet 也成为推动 2D 视觉崛起的幕后大功臣。苏昊初出茅庐就参与 ImageNet，这样的机会千载难逢。

但相比鹊起声名，这段经历起伏带给他的最大影响，或许是对创造历史的认知：

真正能够改变历史的时间点，早已在黎明前的黑暗中蛰伏许久。

风起 3D：从 ShapeNet 到 PointNet

记得第一次在克拉克中心见到苏昊时，弋力就对这个师兄的印象深刻，觉得他“对 3D 视觉的发展有非常好的、有预见性的看法”。

那是 2014 年。当时苏昊正在向 Leonidas J. Guibas “推销”一个远大的研究计划：构建一个 3D 领域的大规模几何物体数据集，对标 ImageNet。

弋力从清华本科开始接触 3D 人脸生成，对 3D 视觉很感兴趣，到斯坦福后也想继续研究这个方向。当时 3D 视觉领域的研究还是以三维重建、运动恢复结构等传统的课题为主，很少有人将重点放在数据上，苏昊的想法很超前。

也因为超前，Leonidas 一开始很犹豫。Leonidas 是斯坦福几何计算组的主任，也是苏昊、弋力的博士导师。但苏昊坚持认为这个想法值得放手一搏，在师兄黄其兴的支持和帮助下，花大量的时间与精力去说服 Leo，在组里力推。Leonidas 看到了初始数据集和初步的研究成果后同意在 2014 年开始大规模 3D 数据的收集工作。

3D 视觉派：斯坦福具身智能人物关系图

苏昊

苏昊的本科就读于北京航空航天大学，导师是李未。2005 年，李未将苏昊引荐给沈向洋，沈向洋成为苏昊在北航读博的共同导师，苏昊也由此进入微软亚研（MSRA）实习，并在那里首次接触到人工智能。

在 MSRA，苏昊先跟着周明研究了一年自然语言处理，然后又跟着孙剑研究了两年计算机视觉。那三年正是 MSRA 的黄金时代，苏昊的右边坐着徐立，后面坐着何恺明。

后来沈向洋转去美国，将苏昊推荐给李飞飞。2008 年，苏昊到普林斯顿学习，正好参与了李飞飞当时正在主导的大规模数据集 ImageNet 项目。2009 年，苏昊跟着李飞飞从普林斯顿转到斯坦福，在 ImageNet 之后又与李佳等人合作了 Object Bank。

那时深度学习还没火，没有人知道 ImageNet 会在未来引爆视觉圈，但苏昊已经开始相信神经网络。

2010 年苏昊到吴恩达组实习时，一度想将 Object Bank 变成端到端的工作应用到 ImageNet 上——这正是后来 AlexNet 的思路。但这个想法没有获得吴恩达的支持。AlexNet 爆火后，苏昊在惋惜的同时，更加笃定端到端的研究前景，于是决定转向与机器人更近的 3D 视觉研究，加入了 Leonidas 门下。

Leonidas 是几何算法出身，后来研究方向拓展到图形学领域的几何处理，尤其是形状分析。形状分析对 3D 视觉中的数据结构、几何结构、语义属性与功能信息等研究十分关键，因此当时斯坦福的许多 3D 视觉爱好者，如黄其兴、苏昊、祁芮中台，都聚集到了几何计算组。

3D 视觉派：斯坦福具身智能人物关系图

黄其兴

从进入 Leonidas 组起，苏昊就开始尝试将 3D 视觉与深度学习结合起来。当时，对比 2D 视觉，3D 视觉在深度学习时代的发展相对迟滞。苏昊分析原因，认为是因为缺少大数据的驱动。2D 视觉有 ImageNet，所以发展迅速，因此建一个 3D 视觉领域的大规模数据集迫在眉睫。

无巧不成书。不只苏昊一个人关注到 3D 数据匮乏的问题。

2014 年，普林斯顿的肖建雄、宋舒然等人发表了 ModelNet——这是一个小规模的 3D 数据集；同时，斯坦福的两位博士生 Manolis Savva 与 Angel Chang 也准备了一个小的 3D 数据集，与 ModelNet 有异曲同工之处。

Manolis 是图形学博士，师从图灵奖与奥斯卡奖得主 Pat Hanrahan，而 Angel Chang 是自然语言处理背景，与陈丹琦师出同门，师从 Christopher Manning。与 ModelNet “撞车”之后，Manolis 就找苏昊讨论，苏昊提出 ModelNet 与 Manolis 手上正准备发表的数据集都太小，建议他们一起合作一个大规模数据集。

他们一拍即合。弋力也很认可苏昊的想法，也全情投入。他们计划将这个数据集命名为“ShapeNet”，顾名思义，是以物体的形状为核心，苏昊、Manolis Savva、弋力与 Angel Chang 也就成了 ShapeNet 的最初四位核心成员。

3D 视觉派：斯坦福具身智能人物关系图

弋力

由于苏昊之前参与过 ImageNet，对大规模数据集的数据收集与标注有经验，因此苏昊指挥、弋力执行，工作推进地很顺利。2014 年，他们完成了第一版 ShapeNet，主要是围绕 3D 数据的收集、清洗、形状分类与物体对齐展开。

2015 年，他们开始加标注。弋力和苏昊提出了新的部件分割标注算法，并将 Manolis 与 Angel 先前的工作纳了进来。第二版 ShapeNet 添加了部件分割标注、物体几何尺寸等信息，并将元信息与形状标注对齐，使得物体的 3D 形状与信息知识更加丰富。

普林斯顿的 ModelNet 标注少，只有语义信息，且只有一个类别的标注信息能做分类。而苏昊等人认为，相比二维数据，三维数据的优势恰恰在于不仅能做分类，其包含了更多的几何结构、更丰富的世界知识，能够承载大量的物理信息，因此标注十分重要。

2016 年，他们开始在圈内宣传 ShapeNet，但当时研究 3D 数据分析的人还很少，关注度并不高。与此同时，当时已博士毕业、到丰田芝加哥研究所工作的黄其兴也继续支持 ShapeNet 的研究工作。

最终，他们完成了包含超过 300 万个模型、3135 个类别的 ShapeNet，也是全球第一个大规模 3D 数据集，堪比 2D 领域的 ImageNet。

但由于 2016 年左右数据知识产权保护的呼声日益升高，尤其是 CVPR 发生了 SUNCG 数据集侵权事件，最终 ShapeNet 只开放了一部分数据允许公开下载。

与 ImageNet 不同的是，ShapeNet 不仅一样能做语义对齐、检测分类等基础任务，而且由于 3D 数据天然包含更多物体信息，ShapeNet 宛如一个天然的知识库，信息标注能与物理世界更好对齐。

3D 视觉派：斯坦福具身智能人物关系图

论文链接：https://arxiv.org/pdf/1512.03012

ShapeNet 的出现大大推动了 3D 视觉领域的发展，3D 视觉的研究也从基于经验的算法设计逐渐转变为大数据驱动的研究范式，进入黄金发展期。

只有构建大量的数据与丰富的标注支持，3D 领域的研究者才能更好地去设计三维深度学习网络。2017 年，苏昊与祁芮中台（Charles R. Qi）、范浩强等人基于 ShapeNet 开发了 PointNet、PointNet++、PSGN 等算法，验证了将深度学习用于 3D 点云的可行性。

苏昊等人在 3D 领域的成果，最先影响到自动驾驶领域。

PointNet 在深度三维点云处理的地位与 2D 领域的 ResNet 相当，是每一个研究三维点云的人都绕不开的经典网络。PointNet 也因此成为自动驾驶领域的核心算法，被广泛引用。

具体来说，在自动驾驶中，环境感知所收集的数据往往是非结构化数据，传统的 2D 网络（如 CNN）无法对其进行很好的点云分类，而苏昊等人从 3D 视角提出的 PointNet 则提供了很好的解法。

3D 视觉崛起后，PointNet 与 PointNet++ 作为三维深度学习的经典工作，也成为了全球各高校研究 3D 必读的论文，如今两篇论文的谷歌学术引用量都超过了 1 万。

而 PointNet 与 PointNet++ 的核心作者祁芮中台，从斯坦福博士毕业后也选择了进入自动驾驶领域：2019 年，祁芮中台加入 Waymo，主导搭建了 Waymo 新一代自动驾驶感知系统。2024 年 3 月，他又从 Waymo 离开，加入了特斯拉的 FSD 部门，目前在研究端到端自动驾驶大模型。

3D 视觉派：斯坦福具身智能人物关系图

祁芮中台（Charles R. Qi）

在 2D 视觉领域，ImageNet 推动了 ResNet、AlexNet、LeNet 等等经典二维网络架构的诞生；而在 3D 视觉领域，ShapeNet 则加速了 PointNet、PointNet++、SparseConveNet 等等经典三维网络架构的出现。

从 2017 年到 2019 年间，三维深度学习实现了巨大突破。研究者不仅使用 3D 神经网络来处理点云（如 PointNet），还有处理稀疏性（如 SparseConvNet），以及利用 Mesh 作为图形学中的三维表征进行深度学习研究。

对于新一代 3D 视觉的崛起与其即将催生的系列产业，ShapeNet 功不可没。也因此，ShapeNet 被誉为“3D 视觉领域的 ImageNet”，在 2018 年获得几何处理会议（SGP）的最佳数据集奖。

但解决 2D 与 3D 的感知问题，只是苏昊对人工智能想象的起点。

3D 视觉铺垫了具身智能的可行性。

2016 年前后，在 ShapeNet 与 PointNet 发布的时候，也是自动驾驶创业的最红火时期。完成这两个工作后，苏昊等人也成为了 3D 视觉领域的先锋人物。那时将 3D 应用于自动驾驶感知已是一门显学，但苏昊却将目光投向一个未知数更大的赛道：

机器人。

萌芽

总的来说，从 2D 到 3D，从 ImageNet 到 ShapeNet，苏昊在学术生涯的早期就到达了计算机视觉的巅峰。

2016 年 ShapeNet 出来后，PointNet 的诞生只是时间问题，苏昊隐约能感觉到：在大数据的驱动下，计算机视觉在感知方向上的研究已经七七八八，接下来难有更大的突破。彼时，硅谷的一些 CV 顶尖学者如 Jitendra Malik、李飞飞也提出相似看法，认为视觉的下一步应该是与机器人结合。

苏昊在吴恩达组实习时，对机器人研究耳濡目染。吴恩达组成名的一手绝活是用强化学习倒飞直升机，而这一工作的开拓者正是后来加州大学伯克利分校的机器人大佬 Pieter Abbeel。Pieter Abbeel 开拓了人工智能与机器人结合的方向，苏昊也从那时开始对机器人感兴趣，并认识到控制的重要性。

那时，苏昊就在思考：接下来视觉要解决的问题不是“感知”本身，而是“感知什么”。

视觉中所谓的感知对象，包含了大量人所定义的知识与概念，还有一些人无法定义、但有感知的概念。“感知的对象从哪里来？如果说感知是从物理的信号到概念的映射，那么是谁定义了概念的空间？”苏昊认为这是视觉智能接下来的十年要回答的问题。

他认可笛卡尔的观点，“智能是在智能体与环境的交互中涌现，是感觉运动行为的结果。”也就是说，如果感知不与交互闭环、即无法被定义。因此苏昊认为，计算机视觉的下一个问题，就是与机器人结合，打通感知与控制，实现机器人从感知到控制的闭环。

大约 2016 年在斯坦福，对机器人狂热的不只苏昊一人。当时在斯坦福当博士后的卢策吾也对这个新方向十分感兴趣。

3D 视觉派：斯坦福具身智能人物关系图

卢策吾

卢策吾 2009 年从中科院硕士毕业，尔后到香港中文大学读博，导师是贾佳亚。博士期间，卢策吾主要研究计算机视觉，但从那时起他就经常思考：通用人工智能（AGI）的本质是什么？

卢策吾有一个感觉：视觉只是人工智能的一个分支，人工智能应该将视觉与其他的技术分支（如语音、语言）整合起来，形成一个真正通用且统一的智能体，并与人进行交互。而这个智能体的终极体现，就是机器人。

但在当时，深度学习前夜，将人工智能的各个分支整合是个天方夜谭。卢策吾将自己的想法与周围人交流，大家都觉得他说得有道理、但不大可能实现，因为当时各项技术的发展都还不成熟。

到 2015 年去斯坦福后，他先后在李飞飞组与 Leonidas 组，却发现两个组都开始探索机器人，与他的想法不谋而合。在深度学习的推力下，视觉技术逐步成熟，跳出视觉思考更大的科学问题也成为可能。

卢策吾在斯坦福当博士后的那段时间，正好是具身智能的萌芽期。

他先在李飞飞组。一开始是李飞飞和学生们讨论要开始研究机器人，自然的卢策吾和朱玉可两个人就经常一起讨论。卢策吾与朱玉可都很感兴趣，但又都不知道从何开始。

朱玉可本科毕业于浙江大学，2013 年就加入李飞飞组，最初做的是视觉知识库，2015 年才和卢策吾一起转机器人。当时 Danfei Xu、范麟熙（Jim Fan）还没来。

3D 视觉派：斯坦福具身智能人物关系图

朱玉可

于是他们就跑到盖茨楼对面的咖啡店喝咖啡、讨论机器人要怎么研究。卢策吾和朱玉可有一个习惯，就是喜欢在研究间隙一起组队去喝咖啡，因为在实验室要说英文，去咖啡厅用中文讨论更自然轻松。

起初卢策吾很乐观，觉得“花两年就能把具身智能搞出来”，就开始投入研究。“后来才发现，那时的组会就像 1956 年的达特茅斯会议，以为人工智能马上就要爆发，结果要过几十年。”卢策吾事后向雷峰网(公众号：雷峰网)回忆。他也是真正进入这个领域后才发现，通用机器人是一个庞大的系统，绝非朝夕之功。

Leonidas 组与李飞飞组很少交流，卢策吾由于同时向两个老板汇报，经常穿梭在两个 Lab 之间，对两边的风格都有所了解：

李飞飞认为，机器人要研究对世界的本质理解，即世界模型；而在 Leonidas 那边，苏昊则认为要从 3D 切入，通过模型与环境的交互、抽象出对世界的理解，从而减少模型对真实环境数据的依赖，完成从感知到控制的闭环。两边的思路有所交叉，又各有侧重。

卢策吾与朱玉可一开始是从关系理解入手。卢策吾认为，解决机器人首先要深度理解每个物体之间的关系、以及物体是如何被操作的，所以他首先做了一篇视觉关系检测的工作；朱玉可发表了大规模图片语义理解数据集 Visual Genome。如今这两篇工作都成为了从视觉研究机器人的经典论文，引用量均超过一千。

完成这个工作后，卢策吾就迁到了 Leonidas 组，与苏昊、祁芮中台一块。尔后李飞飞组加入徐丹飞、Jim Fan 等人，继续沿着机器人方向研究。2024 年英伟达成立通用具身智能体研究实验室 GEAR，GEAR 的两位技术领导正是朱玉可与 Jim Fan。

3D 视觉派：斯坦福具身智能人物关系图

范麟熙（Jim Fan）

判断 3D 要与机器人结合后，苏昊就开始给 Leonidas 组招了好几个学控制与强化学习方向的学生，严梦媛、王鹤、邵林等人都是在 2016 年前后加入几何计算组，同期姚班学生淦创在 Leonidas 组访问，也由苏昊指导。

苏昊认为，要搞懂控制，就要从静态的视觉、图形学往动态的力走，就要把物理系的人招进来，而严梦媛与王鹤都是物理背景出身，都曾在全国物理竞赛（CPho）上获得出色名次：严梦媛是 CPho 金牌、全国最佳女选手，保送北大物理系；王鹤是 CPho 银牌，保送清华微电子与纳米电子学系。

卢策吾刚到 Leonidas 组时，组里主要是苏昊、祁芮中台，他们三人的工位并排。弋力、王鹤等人进组后，苏昊与弋力就坐到了卢策吾的斜对面，王鹤坐在卢策吾后面。与李飞飞组的多元文化不同，Leonidas 组基本全是中国人，中文是组内的半官方语言，大家经常在实验室里直接说中文。

在李飞飞组，卢策吾与朱玉可的社交方式是喝咖啡。到 Leonidas 组之后，苏昊等人的社交风格就是喜欢一起开车去远的地方找中餐馆一起吃饭。有段时间，苏昊、卢策吾、弋力与王鹤等人几乎每天都聚在一起吃饭，对具身智能进行各种天马行空的讨论。

在以往，深度学习与机器人的学者是两个世界的人，两边是完全不同的思想体系。在斯坦福读博的尾声，苏昊与王鹤、弋力等人一直在探讨如何将 3D 视觉与强化学习结合起来。

3D 视觉派：斯坦福具身智能人物关系图

王鹤

卢策吾也重视 3D 与控制，但除此之外，他认为机器人研究还有一个很重要的板块：硬件。软件出身的人往往不愿意碰硬件，直到 2019 年左右，大家才慢慢意识到要上真机，但在那时卢策吾就意识到要跟真机结合。

斯坦福的各个学科都是世界顶尖，机器人领域也不例外，于是卢策吾就去找斯坦福的机器人学者合作，机缘巧合之下认识了潮汕同乡王世全。

王世全的本科毕业于浙江大学，2012 年到斯坦福读博，导师为 Mark Cutkosky和Oussama Khatib。Oussama 时任国际机器人学会主席，2016 年卢策吾找到王世全时，王世全刚刚获得机器人顶会 IROS最佳论文，并已在IJRR、TRO等机器人顶刊发表多篇论文。

彼时王世全正在筹备通用机器人方向的创业，约卢策吾到他家里长谈。第一次见面，卢策吾从AI的角度、王世全从机器人的角度，两人一起梳理了通用机器人的整个系统，也是在那时，卢策吾才第一次意识到，具身智能不仅要“大脑”好、“身体”也要好，两者缺一不可。而且，本体能力边界的突破也有许多的不确定性，需要用顶尖的技术来解决。

他们一拍即合，斯坦福的氛围是，外面总有一堆风投在鼓动学生创业，所以他们一有想法，马上就拿到了投资。2016 年 6 月，王世全、卢策吾、钟书耘与叶熙阳就成立了非夕科技。除了卢策吾，其他三人都是机器人出身。

3D 视觉派：斯坦福具身智能人物关系图

王世全

2016 年到 2018 年间，硅谷的视觉圈已经开始讨论“具身智能”的概念，美国从 2017 年开始就设立了具身智能相关的科研经费，但整体来说研究热度并不高。

ECCV 2018 期间，弋力与苏昊、卢策吾、黄其兴等人一起组织了一个题为“仿真环境中的视觉学习与具身智能体”（“Visual Learning and Embodied Agents in Simulation Environments”）的 workshop，希望去推动具身智能的发展，但更多人只是出于兴趣关注。

那时大家都隐约感到具身智能是未来，但整个领域还没能立即转身。

2018 年苏昊从斯坦福博士毕业后，由于 Leonidas 没有坚决转机器人，几何计算组就中断了在强化学习上的研究。弋力与王鹤转回 3D 视觉研究，严梦媛、邵林转到 Jeannette Bohg 组研究机器人与交互感知，淦创加入IBM-MIT研究院研究直觉物理。如今严梦媛在 OpenAI 任职，邵林为新加坡国立大学助理教授，淦创为麻省大学助理教授。

各自战斗

2016 年，卢策吾从斯坦福回到上海交通大学任教；2017 年，苏昊加入加州大学圣地亚哥分校（UCSD）任教，2018 年博士毕业。而弋力、王鹤、莫凯淳等人则留在斯坦福继续读博。2018 年到 2021 年是具身智能的起点，他们分散在各地，独自探索。从时间线看，中美高校在具身智能上的研究差距并不大。

卢策吾是国内第一个坚决探索具身智能的学者。他在上海交大招了方浩树等学生，创立了具身智能研究团队；同时与王世全等人联合创业、发力非夕科技。与在斯坦福时只从一个擅长的点（视觉）切入不同，回国后，卢策吾对具身智能系统进行了全面分析并布局。

“整个具身智能系统是一个大的体系结构，这意味着里面的每一块，从具身的感知、仿真、推理到执行，以及各个模块的工具栈，还有数据的采集与评估等等，都需要去突破、协同。”卢策吾告诉雷峰网。

这是一个孤独且痛苦的过程：他需要从头开始学习硬件、仿真等对自己早期职业生涯的学术评估没有作用的知识。在视觉发展最疯狂、就业最好的时候，卢策吾要说服一群冲着视觉来的学生跟他一起摒弃外界的喧哗，关在实验室里鼓捣硬件。

苦逼的感受来自三方面：一是他们做的是一个非常复杂的系统；第二，他们做的工作在当时是“非主流”，前途未卜；第三，学生不理解，大家会觉得，如果弄一篇视觉的论文、周期会很快，但具身智能发论文要搭硬件、做实验，发布论文的周期很长。

因为国内没太多人关注具身智能，在申请科研经费时，卢策吾只能按视觉来申请。一开始他研究人体姿态估计，也是为了从行为中理解世界模型。但视觉部分的研究投入只是总投入的1/3；也就是说，早期卢策吾团队约有 2/3 的机器人相关工作没办法变成经费。

在这种情况下，卢策吾与学生的压力都很大。而研究具身智能的过程也会不断“踩坑”：具身智能系统的复杂程度堪比火箭，需要各个模块的成熟和互相支持、互相迭代才能形成正向循环，但早期具身智能的许多板块都是空白的，上游基础设施孱弱，导致有时算法明明很先进、但机器的控制系统不稳又要推倒重来。

他与团队花了整整 3 年，才发了第一篇具身智能方向的论文。怎样证明这是一篇具身智能的论文？卢策吾告诉雷峰网，“关键是看论文里有没有真实机器人，以及能否被顶尖的机器人期刊所接受。”

2019 年，卢策吾带领团队终于在国际机器人顶会 IROS 上发表了两篇基于强化学习的具身智能论文：一篇是推出了可迁移动力学模型完成机器人学经典的“Peg-in-hole”精细操作任务，另一篇则是提出了基于经验的倾向性奖励塑造机制，让机器人直接从感知解决操作任务。

为了在真机、而不仅是虚拟环境中做检测，卢策吾着手建立了硬件平台来管理实验数据。卢策吾也是最早在真机上实验的一批人工智能学者。

尽管 IROS 只是 CCF 所列的 B 类会议，但对卢策吾与团队来说，是他们从视觉跨到机器人领域的一次里程碑式的胜利。在那之后，他们一发不可收拾，又围绕抓取、以力为中心的方向做了许多工作，而这些对算法与机器人本体的协同提出了更高要求。

搭档王世全让卢策吾对机器人的软硬件协同有了更深入的了解。他们每年在 RSS、ICRA、IROS 都很高产，随后IROS 最佳论文、ICRA 最佳论文、RSS 最佳系统论文提名奖随之而来，特别是在TR-O、IJRR等顶级期刊稳定发论文。在机器人领域顶级期刊发文比会议的难度要高很多。

人工智能研究者往往有一个误区，即单纯将机器人视为一个执行任务的本体，但实际上机器人执行任务是需要“力”的感知和控制的。在硬件上做大规模实验采集数据的难度很高，此外机器人本体也还需要许多底层的突破。

例如，传统机器人的操作也主要以轨迹为中心，但实际上人与环境的交互并不是基于预设轨迹，而是基于自发的动作、甚至肌肉记忆，因此人在生理上的细微变化（如肌肉疲劳）也会导致操作的灵巧性发生显著变化。

因此，回国后卢策吾就思考以力为中心，研究机器人对世界的理解。在非夕科技，他们发布了世界上第一个能够实现对“力”的灵敏感知和精准控制的自适应机器人；在上交大，2020 年，他们发表了全球第一个能够实现人工智能的通用抓取工作 GraspNet。

GraspNet 的引用量虽然只有几百，原因是要上真机实验、复现成本高，但已是近几年机器人抓取方向引用最高的论文之一。

第一批加入卢策吾团队研究机器人的学生有方浩树（现 MIT 博后）、李永露（交大助理教授）、徐文强（MIT 博后）等人，他们后来都成为了中国第一批本土培养的具身智能博士。此外，还有本科生王辰，如今在斯坦福李飞飞组读博，是李飞飞团队在具身智能方向的“扛把子”之一。

3D 视觉派：斯坦福具身智能人物关系图

从左到右依次为：方浩树、李永露、徐文强、王辰

在北美，苏昊也是第一批具身智能“探险家”。2017 年，他被图形学大牛 Ravi Ramamoorthi 招入 UCSD 视觉计算中心，创立了 SU Lab。

担任教职后，苏昊继续攻克具身智能，其团队的研究重点是两块：

一块是强化学习，尤其是基于世界模型的强化学习（MBRL）。控制里有一个方向是探讨环境建模，即如何让整个系统更加可控，这里刚好可以将视觉的知识结合进来，将建模与可控变成端到端，实现感知与交互的闭环。此也为具身智能的突破口。

他培养的学生如陈睿、顾家远等先后加入清华大学、上海科技大学等大学任教，秦誉哲也开始了自己的灵巧手创业行动，黄志翱和项帆波则选择与苏昊一起创业。

另一块是 3D 重建与生成。当时苏昊等人已在 3D 算法上取得引领性成果，但仍无法与 2D 视觉平起平坐。相比 2D，3D 的迅速扩张仍受到数据丰富性的限制，而苏昊认为解决这个问题的根本，就是能够基于较破损的 3D 输入或其他模态数据实现高质量的 3D 输出。

在斯坦福的最后一年，他引导陈文拯和高俊二人进入图生 3D 的方向，他们后来在多伦多大学和英伟达做出了突破性成果，开发出了 Get3D 等 3D 生成领域的突破性工作，二人分别加入了北京大学和密歇根大学任教。在 UCSD，他推动招聘多名年轻教授在此方向发力，培养的年轻人也逐渐成为领域的中坚力量，其中学生刘明华和张孝帅也选择与苏昊一起创业。

与卢策吾一样，刚担任教职的苏昊除了自己需要坚定信念外，也需要说服学生不要去研究导师已经擅长的 3D 视觉、少发论文，而是去研究强化学习、模拟器、控制闭环等当时门庭冷落、但对具身智能的研究至关重要的课题。

3D 视觉派：斯坦福具身智能人物关系图

苏昊与他的学生，图源苏昊 UCSD 实验室 SU Lab 官网

2019 年开始，苏昊团队在强化学习、包括 Sim2Real 与 MBRL 上均有出色成果。他们优化了域随机化参数的选择以提高 Sim2Real 效果，用基于学习的方法提高了机器人在杂乱场景中单视图单次拍摄的六自由度抓取任务的成功率，还提出了通过 WGAN 生成更接近真实环境的仿真数据，提高学习效率和智能体的决策质量。

苏昊认为，研究具身智能必然绕不开仿真。2020 年，苏昊团队发布了全球第一个仿真引擎——SAPIEN，能模拟机器人与人类的交互。

“科学的研究需要可复现，但整个深度学习系统是一个黑盒，没有办法得到统计上有理论保证的结果，所以必须依靠大量的经验性测试。在真实世界中做闭环学习和测试太慢了，不可能保证科学的研究，维持健康的学术生态，所以绕不开仿真。”苏昊解释。

SAPIEN 包含了来自 ShapeNet 和 PartNet 的大规模 3D 铰接对象数据集，支持需要详细部件级理解的机器人视觉和交互任务，成为引领具身智能的经典工作。2021 年，苏昊还基于 SAPIEN 开源举办了机器人操作大赛 ManiSkill，希望推动具身智能评测标准的建立。

仿真对具身智能的评测很重要。卢策吾与李飞飞、苏昊交流，他们都提出了用仿真来评测，他们便也开始做模拟器。苏昊团队发表 SAPIEN 后，英伟达团队发表了 IssacSim，卢策吾团队也发表了 RFUniverse，李飞飞团队也发了 BEHAVIOR。同时，因为卢策吾团队很早在真机上实验，知道仿真与真实仍有一定差距，因此也强调仿真与真机的结合。

苏昊到 UCSD 后，也仍与斯坦福几何计算组保持联系。那时王鹤在研究位姿（Pose），弋力在研究部件（Part），苏昊跟他们说一定要研究具身智能。当时大家对具身智能都还在探索阶段，苏昊经常邀请弋力、王鹤、莫凯淳一起讨论，也共同完成了 PartNet、SAPIEN 等工作。

读博期间，王鹤的课题是物理交互，第一个工作就尝试了“视觉-语言-行为”的联合生成模型，在 2019 年获得了欧洲图形学会议最佳论文提名。之后，他主攻基于合成数据的泛化机器人视觉，开创了类别级六维物体位姿估计这一研究领域，关注面向具身操作的物体状态估计和闭环感知。

弋力的研究重点是部件分割。部件分割不仅是 3D 领域的经典问题，也是具身智能的一个重要组成部分。

“在机器人与物理世界的交互中，虽然交互的行为通常以物体整体为中心，但实际往往集中在某些关键部件上。例如，当机器人要开门，它需要识别出门把手的位置，才能完成后续的操作。”换言之，部件就是机器人与物理世界交互的界面（interface），是机器人完成下游交互任务的关键。PartNet 就是部件分割的代表作。

PartNet 的主力是莫凯淳。莫凯淳是上海交大 ACM 班本科第一名，2016 年到斯坦福读博，也参与过 PointNet。2019 年，莫凯淳在苏昊的实验室访问，与弋力合作在 ShapeNet 的基础上对部件分割做了更细粒度的标注，发布了 PartNet。2022 年从斯坦福博士毕业后，莫凯淳加入英伟达机器人实验室，向 Dieter Fox 汇报。

3D 视觉派：斯坦福具身智能人物关系图

莫凯淳

从 2016 年到 2021 年，具身智能在北美的发展也从萌芽期进入到了蓬勃期。这几年，苏昊、卢策吾与王鹤等人虽各自作战，但通过“遥”交流，始终走在领域的前沿。

ICCV 2021 期间，苏昊、王鹤与弋力等人又发起了一场 workshop，题为“The 1st Workshop on Simulation Technology for Embodied AI”。相比 ECCV 2018，他们已经无需再向视觉圈“兜售”具身智能，而是可以讨论具体的话题。

那时领域内有一个分歧：具身智能要在仿真环境中研究，还是要在真实世界的真机中去做。当时领域里的主流声音都认为要在真实世界中，但苏昊、弋力、王鹤等人认为要重视仿真。他邀请了许多图形学讲者、而非机器人专家来讨论仿真引擎与具身智能的关系。

2021 年前后，具身智能在北美已经十分火热，许多学者都已经认识到，具身智能才是未来。

冰与火之歌

但相比北美学术圈的热火朝天，2021 年，具身智能在国内几乎没有人关注。

卢策吾因为对国外的研究进展很了解，有一段时间很痛苦的是：具身智能在国外风起云涌，国内却毫无波澜。卢策吾向身边的人科普具身智能时，得到的反应通常是一句“挺有趣的”，然后就没有下文了。

关于具身智能，早期不同机构也有不同的理解。斯坦福与伯克利是叫“Embodied Artificial Intelligence”，麻省理工学院（MIT）的 CSAIL 实验室则直接将中间的“Artificial”去掉，将机器人与人工智能的结合命名为“Embodied Intelligence”。

回国后，关于“Embodied AI”的中文应该如何翻译，卢策吾与苏昊也进行过讨论。他们一开始想了好几个词，有“实体智能”、“机器人学习”、“具身智能”等，都觉得“具身”与英文的“Embodied”更对应，就将其中文翻译成了“具身智能”在国内传播。

2020 年，卢策吾首次在国内计算机视觉大会 VALSE 上公开谈论具身智能。VALSE 非常有前瞻性，也是国内第一个关注到具身智能的大会，但即使是在 VALSE 这样一个国内视觉讨论首屈一指的会议上，具身智能也没有引起大家的关注。

卢策吾记得，当时为了让研究内容更容易被接受，他还在“具身智能”四个字的前面加了“浅谈”二字。但这次演讲的观众反应惨不忍睹：在一个几千人规模的大会，台下的听众来来往往，人数最多时不超过 30 人，最少时加上讲者也才 7 个人。与隔壁会议现场人声鼎沸的场面形成了鲜明对比。

这让卢策吾很失落。卢策吾的学生也经常问他：“我们研究具身智能有没有前途呀？都没人关注。”即使他们发表了突破性的抓取工作 GraspNet 后也没什么人关注，引用量寥寥，与计算机视觉领域单篇引用就能成千上万的情况形成巨大反差。

2021 年弋力与王鹤回国，具身智能仍未火起来。王鹤回国前，还特地给卢策吾打了个电话，向卢策吾打听具身智能在国内的发展情况。卢策吾的回答大约是：处于早期，有很大机会，但不容乐观。王鹤听了卢策吾的回答，依然坚决回国。

在斯坦福的研究经历使他们坚信，具身智能将成为计算机视觉的下一个“Milestone 方向”。 2021 年弋力加入清华叉院，将实验室命名为“三维视觉计算与机器智能实验室”，试图从3D 视觉出发进一步推动具身智能的研究；而王鹤加入北大前沿计算研究中心，则果断挂上具身智能的牌子，成立了“具身感知与交互实验室”。

同时，受张宏江的邀请，王鹤还在北京智源人工智能研究院成立了具身智能中心，并担任中心主任。

弋力、王鹤等人回国后，也加入了卢策吾的阵线，像 2018 年在 ECCV 上向北美学术圈“推销”具身智能一样，给国内的学术界与工业界推广具身智能。

从 2021 年开始，卢策吾与王鹤、弋力就开始在 VALSE 上举办以具身智能为主题的 workshop，到如今一共举办了 4 届，workshop 的名字分别是“具身智能视觉”、“具身智能”、“机器人具身智能”、“具身智能的视觉与学习”。

在 VALSE 2021 上，具身智能的 workshop 排在 VALSE 官方稿件的最后一位；到 VALSE 2024，他们的 workshop 排名露出已经排到了前五。关注具身智能的人也越来越多。

2023 年 4 月，谷歌发布机器人成果 RT-1，能覆盖 700 个任务，“通用机器人”雏形显现，不少人称之为机器人领域的“GPT-3 时刻”，具身智能终于大火。

值得注意的是，RT-1 的核心贡献者之一夏斐也是 Leonidas 的学生。在斯坦福时，夏斐同时在 Silvio Savarese 与 Leonidas 门下学习，博士毕业后加入了谷歌 DeepMind，是谷歌大模型 PaLM·E 与机器人 RT-1、RT-2 的核心成员。

3D 视觉派：斯坦福具身智能人物关系图

夏斐

VALSE 见证了具身智能在中国的崛起：

VALSE 2022 正值疫情期间，具身智能的 workshop 虽不算火爆，但情况已经比前些年好许多，听众的数量也从数十人增加到最多时有上百人。当时王鹤没有来现场，只是作了线上报告，卢策吾看到台下观众增加到上百人时赶紧拿出手机拍了一张照片给王鹤发过去，感叹“我们的组织终于壮大了”。

在卢策吾与蒋树强等人的推动下，2022 年年末，中国人工智能学会（CAAI）正式开始筹备成立了具身智能专委会。卢策吾与王鹤等人坚持多年的研究方向，终于在国内的学术官方上有了正式的组织。

到 VALSE 2023、2024，具身智能的 workshop 变得更加火爆。整个会议只能开放 500 个名额，但很多人报不上名、要托关系找卢策吾拿票。卢策吾向雷峰网回忆了一个令他印象深刻、又十分有趣的画面：

VALSE 2024 的那场 workshop，他在走去会场的路上听到有人在门口打电话。打电话的人跟电话对面的人说：“院长，你这次不来可惜了！人爆满了，我们整个学院要 All in 具身智能。”

VALSE 2024 也首次设置了具身智能方向的 tutorial，是由王鹤主讲的“具身智能的 Sim2Real 泛化途径”。

从 2016 年的无人问津，到 2024 年的万人空巷，卢策吾激动非常，感慨万千。由于早期研究具身智能的人少，卢策吾组培养的学生都成了“香饽饽”；如今国内各高校建立具身智能实验室，也纷纷来问卢策吾的意见。

2023 年也是王鹤在具身智能领域成果频发的一年。这一年里，他与团队一口气发表了 GraspNeRF、DexGraspNet（当时世界上最大的灵巧手抓取数据集）、UniDexGrasp、GAPartNet（当前世界上最大的零部件数据集）与 UniDexGrasp++。此外，2022 年，王鹤团队也做出了深度传感器仿真器 DREDS。

也是在 2023 年 5 月，王鹤参与创立了银河通用。

与非夕科技一样，银河通用的目标也是开发“通用机器人”。他们认为，机器人的通用泛化性主要涉及两个层面：一个是视觉感知的泛化性，另一个是物理操作执行的泛化性，这两块都需要海量的数据支持。

为了解决数据问题，谷歌的做法是靠双臂遥操作，RT-1 使用 13 个机器人、耗时 17 个月，才采集了 13 万条数据，离百千亿级别的“海量”数据还差很远。王鹤认为要解决数据问题，需要大量的金钱支持，同时不应该光靠真机操作，而是应采用 Sim2Real 的解法。

银河通用机器人创立后，王鹤提出了“纯仿真”的解决方案，在完全使用合成仿真数据、而不采用任何真实物理数据进行训练的情况下，银河通用发布的机器人 Galbot G1 能以 95% 的成功率泛化抓取各种材质的物体。

同样在 2023 年创业的还有卢策吾。2023 年年底，卢策吾与王世全等人又从非夕科技中孵化出了专门研发具身智能大脑的公司——穹彻智能。

此前，非夕科技发展 8 年，在以力为中心的方向上已有一系列机器人本体相关的软硬件产品。但对于具有决策能力的大脑而言，他们认为具身大脑要适配于不同类型的本体，包括人形机器人、扫地机器人甚至智能设备等，使这些设备能与环境进行交互和学习、并执行任务，有益于此项技术的发展并形成与之匹配的业务形态，因此从非夕孵化出来穹彻独立运营是合乎情理。

穹彻智能延续非夕科技实现通用机器人的理念路线，专注于“以力为中心”开发具身大脑。在他们的理解中，具身大脑至少要包含两个核心大模型，分别负责理解物理世界与基于力量控制的行为决策。

在王世全看来，谷歌 RTX 系列的局限恰巧在于其决策过程以传统的轨迹为中心，这使得机器人难以适应不稳定的环境（如人的呼吸、桌子的晃动等），也限制了机器人执行复杂操作的能力，看似泛化，但实际的应用范围与可创造价值有限。

而非夕科技过去八年，以力为中心对机器人操作的范式改革，更能适应未来通用机器人大规模落地的现实。王世全认为，具身智能的独特之处，恰恰是“机器人通过与环境及物体的直接接触与交互，能够学习到关于物体的物理属性、如何操控它们以及操控之后的后果，并沉淀融汇成对世界更完备的认知体系”。

过去八年的实践也告诉他们，力的感知和控制对具身智能的实现至关重要。卢策吾展示刮胡子，就是为了展示具身智能的交互需要高精密操作与高频接触。高频接触对大脑的决策压力很大，搭载穹彻大脑的机器人能成功进行刮胡子这样的高频接触，背后也是因为有力反馈控制的支持。

3D 视觉派：斯坦福具身智能人物关系图

卢策吾展示机器人刮胡子

具身智能迎来资本热潮。今年 7 月，苏昊也决定短暂离开 UCSD，创立了机器人公司 HillBot、并担任 CTO。

具身智能的流派划分复杂，并各有交叉。而以苏昊等人为代表的斯坦福一派，是鲜明的能够实现从上层感知到控制闭环的一派，涵盖了从仿真、强化学习、数据收集到控制，技术栈点最全，在硬件上相对弱一些，与英伟达最像。穹彻智能搭配非夕科技，一定程度上弥补了硬件的短板。

相比之下，自动驾驶公司的具身智能成果天然缺少仿真，因为具身智能时代机器人用的带交互接触点的仿真技术源于应用物理与图形学两派，传统自动驾驶公司的研发能力没有覆盖到。而单纯以控制、硬件见长的机器人公司，又天然缺少与人工智能结合的基因，距离通用机器人的目标还有很远。

苏昊等人从 3D 出发，定义了新一代的“具身智能”。

从黑暗走到黎明

2017 年 PointNet 发布后，苏昊与祁芮中台去 CVPR 开会。苏昊跟祁芮中台说，如果 3D Learning 的论文能在计算机视觉领域占到 20%、30% 就很成功了，结果后来，3D 论文在视觉顶会的投稿比例一度占到了 70% 以上，视觉领域大变天。

无论是机器人还是自动驾驶，大家都意识到：2D 视觉可以做识别、检测，但如果机器要与物理世界打交道，必须研究 3D。如今计算机视觉领域的科研经费也主要来自 3D，如自动驾驶。

2017 年之前，3D 论文的占比不超过 10%。那一年，苏昊发了 5 篇 CVPR，其中后来引用最低 200，最高的超过 1 万。那一年也正好是苏昊找教职的一年，中间还有一段插曲：

当时普林斯顿邀请苏昊去申请教职，苏昊忙着研究 3D，没有时间申请。

“有时候做了一个很原创的工作，对找工作并不是那么有利，因为当时的主流很可能还不懂得欣赏这个工作。”3D 起来后，所有北美顶级的高校都在招研究 3D 方向的老师。

同样，具身智能也如此。苏昊、卢策吾、弋力、王鹤等人从 3D 视觉研究机器人智能时，具身智能也非 3D 领域的主流。2023 年该方向大火后，研究具身智能的团队需要兼具视觉、图形、学习与控制四块知识，他们也是如今少有的、在四块均有涉猎的研究人员。

据观察，目前在国内外的大厂中，兼备四块技术栈的团队也寥寥无几。英伟达 Dieter Fox 带领的机器人团队是少数之一。（后续雷峰网将推出腾讯、小鹏、小米、猎豹等机器人团队的兴衰故事，有兴趣的读者欢迎微信添加 Fiona190913 交流）

从深度学习到 3D 视觉、大模型，再到具身智能，卢策吾的感受是，随着 AI 的发展时间线拉长，中国科技与海外的距离越来越短、甚至并驾齐驱。例如，全球的第一批具身智能博士都是在 2017 年前后开始培养的，上海交大也是 2017 年；2023 年超大规模开源真实机器人数据集 Open X Embodiment 的参与单位中，上海交大也与斯坦福、伯克利等高校并列其中。

具身智能走到产业化一步，中国供应链的优势也进一步显现出来。具身智能是一个综合的复杂系统，要求上下游各供应链环节相互配合、相互支持，而中国在硬件供应链上的优势无疑是走在前沿，且更有后劲。

究其根本，具身智能的目标是实现“通用机器人”。当前的大量实践表明，机器人能够以一定的成功率完成人类要求的基本任务，但要达到或超越人类的效率、同时具备通用性与高良品率，还有很长的路要走。举个例子，尽管工业机械臂已经很发达，但机器人在全球制造业中的渗透率平均仅有 1-2%。

这中间不仅要解决数据驱动迭代的问题，还要解决持续、精细的操作过程，以及机器人如何通过学习人类行为与物理世界、乃至真实人类进行有效交互，等等。

毫无疑问，这是一个极具想象力、又充满挑战的未来领域。具身智能火起来后，苏昊、卢策吾、王世全、王鹤、弋力等人都十分兴奋——未来比大家想象的还要来得快。同时，他们又深知面前还有一座又一座的山峰等待他们去爬越。

从黑暗走来的人，见过曙光，又继续走进了下一步风暴。

关于具身智能领域的更多精彩群像故事，欢迎添加雷峰网作者微信 anna042023、Fiona190913 交流。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。