时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

本文作者：我在思考中

2022-01-24 15:01

导语：深度学习时代，我们为什么还要回头看马尔计算理论？

深度学习时代，我们为什么还要回头看马尔计算理论？

作者 | 陈彩娴

编辑 | 岑峰

在数十年的计算机视觉史上，没有人能忽视David Marr与其于1982年出版的《视觉》一书。

David Courtnay Marr（1945-1980）是计算神经科学领域的先驱之一。1973年，他应Marvin Minsky与Seymour Papert的邀请加入MIT人工智能实验室，从事视觉相关研究，并开创性地提出了三维表达思想，使计算机视觉进入了一个新的时代。

可惜，马尔于1980年英年早逝。在他的学生帮助下，MIT出版社在1982年出版了他的遗作《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》。该书一经出版，即成经典。

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

图注：马尔与《视觉》一书

但同时，这本书涉及心理学、解剖学、神经科学、哲学、计算机、图像处理、人工智能等知识，还夹有大量俚语，即使对于大多学富五车的研究人员来说，要准确理解原意也是极为困难。我国重要的人工智能先驱、曾任复旦大学计算机科学系主任的吴立德便曾表示「英文原书很多地方因为语言障碍都看不懂」。

马尔《视觉》的第一个中文译本由汪云九、姚国正、刘磊等人推动。1983年到1986年，中国神经网络研究先驱汪云九与其同事姚国正、学生刘磊花费了巨大功夫，将马尔的原著翻译成中文，并于1988年出版，也就是著名的《视觉计算理论》（如下）。

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

《视觉计算理论》一出版，立即成为高校和研究单位必备的参考资料。这本书也成为至今国内被引用最多的一本中文译著，在我国极大地推动了计算机视觉在普通师生间的推广，对我国计算机视觉、图像处理、人工智能、模式识别等领域的研究和人才培养具有极其重要的价值。

当时马尔在撰写《视觉》一书时，人工智能、尤其是深度学习还未得到发展。而在深度学习时代，计算机视觉的研究发展得到了重大突破。此时重温马尔的经典著作，思考马尔的计算理论在当代视觉研究中的作用，对计算机视觉未来的研究有很大意义。而现在距汪、姚、刘等人的第一个中文译本的出版已经过去了三十多年，该译本已经不易获取，书中许多术语的通用译法也都已有了改变。

受此启发，现任斯坦福大学计算机科学系助理教授、昔日清华大学姚班毕业生的青年学者吴佳俊决定再次基于2010年麻省理工学院出版社出版的英文第2版再次进行翻译。中文译本《视觉：对人类如何表示和处理视觉信息的计算研究》已由博文视点出版。新的中文译本包含了马尔的同事Tomaso Poggio和Shimon Ullman为中文版新写的序和后记，讨论了马尔的视觉理论在深度学习时代的价值，给新一代年轻学生提供了一本优秀的学习资料，可谓意义非凡！

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

该译本也得到了朱松纯、沈向洋、张正友、汤晓鸥、李飞飞等名人的大力推荐，不可错过。

深度学习时代的马尔理论

时隔多年，《视觉》一书所反映的马尔利用神经科学知识、从人类视觉系统出发研究计算机识别的方法仍具有前瞻性与引领性。

在这本书中，马尔至少做了两大贡献，一是将对信息处理系统的理解分为三个层次（计算理论层次、算法层次与硬件实现层次），二是提出了三维的视觉计算理论，对计算机视觉、人工智能与神经科学在内的多个领域产生了深远影响。

比方说，20世纪80年代也是模式识别与计算机视觉、人工智能分化融合的一个关键时间点。模式识别这一学科最初是为了解决用机器识别物体的问题而出现。后来，随着计算机研究的发展深入，如何让计算机识别物体也成为了模式识别最重要的研究方向之一。马尔的计算视觉理论出来后，模式识别与计算机视觉的结合也愈发紧密。

过去模式识别在模拟人的识别能力（尤其是识别3D物体方面）存在先天不足，需要把「识别目标」改为「识别表面」，把三维问题降为「2.5维问题」，从而集中解决从图像到可见表面的识别问题。而马尔的计算视觉理论反过来提供了从二维到包含纹理信息的2.5维图像再到三维图像的转变方法，可谓是一枚硬币的两面，使得计算机视觉的研究取得了突破性的进展，也直接推动模式识别的对象从二维进入了三维领域。

图注：马尔的3D表示思想

值得注意的是，在马尔躬身研究视觉时，深度学习的理论尚未发展成熟，而近年来，深度学习理论已经为计算机视觉领域的突破带来了不可泯灭的贡献。四十年前与四十年后，马尔的视觉计算理论还有立足之地吗？

在吴佳俊新完成的译作中，美国艺术与科学院院士、以色列魏茨曼科学研究所 Samy 和Ruth Cohn 讲席教授 Shimon Ullman 参与作序，也谈到深度学习的出现对马尔在40年前对视觉与人工智能的看法提出了多重挑战。

Ullman认为，深度学习最核心的一点是挑战了马尔的基本方法，即为人类视觉与人工智能问题寻求所谓的「计算理论」。

在《视觉》一书中，马尔的重点是在计算理论层次，而当前的深度网络建模则侧重于算法和实现层次，摒弃了计算理论的概念。

比方说，在处理从双眼视觉计算三维形状的问题时，马尔分析，计算任务依赖于在左右眼获得的两张图像中建立视觉特征之间的对应关系，为了获得可靠的对应关系，最合适的特征是多个层次上清晰的图像强度变化（边），通过将问题简化为沿所谓的极线进行一维搜索，对相应特征的搜索也变得容易。根据这样的分析，马尔与团队描述了基于这一任务的基本原理的计算理论。

而在深度学习的方法中，视觉问题是通过对任务进行端到端训练来解决。这些训练基于图像示例，并将其与所需的输出配对。作为计算理论支柱的基本原则在这里并不起直接作用。这些原则可能会被网络模型隐式地发现并使用，但它们不会被从外部提供或显式地使用。

这种方法上的差异会对马尔的方法和方法论的其他核心问题产生影响。例如，马尔强调基于计算理论的模块化设计的用处，而深度学习方法则强调端到端训练的价值。

不过，Ullman指出，在算法层次上，马尔的计算理论与深度学习的端到端学习方法并不能完全区分开来。在马尔发表于1977年的"Artificial Intelligence — A Personal View"中，马尔区分了两种类型的理论，分别称为「类型1」与「类型2」。其中，「类型1」理论强调在设计合适的算法前必须了解算法应该做什么、且这些信息能够被计算理论捕获，许多生物信息处理问题都遵循「类型1」理论，且具有可解释性；而「类型2」理论则是通过大量同时进行的流程/步骤来解决问题，比如预测蛋白质如何折叠的问题，偏向黑盒性质。

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

论文链接：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.5076&rep=rep1&type=pdf

在该文中，马尔提到，他认为视觉与人工智能中的许多问题可能是「类型1」与「类型2」的混合，而不是单纯的「类型1」。从理论上看，「类型1」的原则具备「类型2」所缺乏的解释性。但是，在解决视觉、人工智能与人类认知的问题时，这些原则又是否真的有必要？这是一个争议性很大的问题。

2

计算机视觉究竟要「计算」什么？

从译者吴佳俊的序来看，他对马尔理论最感兴趣的自然是马尔所提出的三大理解层次。计算机视觉在过去十年的进展都与理解层次有着本质关联，但主流的研究逐渐忽视了计算理论的进展：计算机视觉究竟要「计算」什么？

吴佳俊谈到，在过去十年，计算机视觉领域的最大进展是语义上的判别任务，尤其以语义上的图像识别与分类为代表，判断图上的对象是猫还是狗。但计算机视觉中的「计算」，显然不应该限于这类单一的任务。

马尔所提出的低层视觉与三维结构重建在很长一段时间内主导了计算机视觉的研究。后来，深度学习的兴起，以及算力和数据的增强对图像的语义识别带来了革命性的变化，这也即使导致了有些学者认为马尔理论在过去的数十年间误导了计算机视觉的发展走向。

对此，吴佳俊提供了一个观点：现今计算机视觉的发展并不意味着语义判别是最重要、最正确的计算任务，也就无可区分马尔计算理论与深度学习计算理论的优劣。此外，除了深度学习理论，计算机视觉在过去十年的爆发还归功于以卷积神经网络和反向传播算法为代表的算法、以 GPU 为代表的硬件实现和以 ImageNet 为代表的数据，这与马尔的三个理解层次也是相符合的（除了数据）。

马尔在《视觉》一书中提出的计算理论基于包括初草图和2.5维草图在内的中间表示，以及过零点、视差等基本元素或「特征」，这似乎与当今部分深度学习领袖所强调的「完全从数据中学习」的概念格格不人。

吴佳俊也在译者序中提出了两点看法：

其一，现有的深度学习架构有其内在的归纳偏置，如卷积神经网络的空间局部性、循环神经网络的时间局部性、Transformer 的自相似性，等等。而本书中讨论的许多基本元素，恰与这些归纳偏置有内在的关联。
其二，如果我们还试图在人工智能和人类智能之间建立联系（这本身也还渐成为一个有争议的话题），那么任何的偏置是应该被预先设计，还是应该通过学习得到，就与人类认知科学中的先天与后天的概念，以及神经科学的内在机理，产生了千丝万缕的联系。诸如2.5 维草图及与其紧密相关的包括深度图在内的本征图像这样的概念，在认知科学和神经科学中都有广泛的研究，这也可以至少在一定程度上解释将它们引入计算模型的归纳偏置的合理性。而这种联系也正是本书作为计算神经科学的教科书，可以长期对人工智能有深刻启发和深远影响的原因所在。

马尔的视觉计算理论对吴佳俊影响深远。在麻省理工学院求学期间，吴佳俊时常与导师或同事们讨论将学习本身的归纳偏置与世界的内在先验建立关联的意义。这样的先验可以来源于人（即认知科学或神经科学，但在现在的发展下更多是认知科学），也可以来源于自然（即物理世界，也可以看作「把视觉还给视觉」）。

2017年，吴佳俊与多位合作者还发表了一篇论文（"MarrNet: 3D Shape Reconstruction via 2.5D Sketches），将2.5维草图的概念及其在恢复物体的三维结构中的作用与神经网络相结合，将其命名为「MarrNet」，以表对马尔的尊敬。

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

论文链接：https://jiajunwu.com/papers/marrnet_nips.pdf

吴佳俊的新译本获得了计算机视觉领域多位重要学者的推崇与肯定：

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

3

对话吴佳俊

时隔40年，斯坦福大学吴佳俊再译马尔代表作《视觉》：一场超越时空的对话

吴佳俊，斯坦福大学计算机科学系助理教授，研究方向是计算机视觉、机器学习和计算认知科学。加入斯坦福大学之前，曾是谷歌研究院的访问研究员，并分别在清华大学和麻省理工学院获得了学士和博士学位。他的研究曾获ACM博士学位论文荣誉提名奖、AAAIIACM SIGAl博士学位论文奖、麻省理工学院George M. Sprowis人工智能与决策博士学位论文奖，以及2020年三星人工智能年度研究人员奖。

以下是AI科技评论与吴佳俊的简短对话：

1、AI科技评论：您从什么时候开始翻译《视觉》这本书？用了多长时间？

吴佳俊：2019年开始，基本是过去两年的课余生活。

2、AI科技评论：促使您决定将《视觉》翻译成中文的最主要动机是什么？

吴佳俊：我想把这本书好好读一遍，所以要翻译的话，就会让自己尽力把每一句都读懂。

3、AI科技评论：在翻译这本书的过程中，您对计算机视觉的研究有了哪些新的理解与认知？

吴佳俊：这本书本质上是关注于人类视觉的一本教科书。虽然计算神经科学在过去四十年间的进展让我们增进了对人类视觉的理解（毫无疑问，马尔和他所著的《视觉》起到了重要的作用），但对绝大多数视觉问题，我们的知识仍旧是非常有限的。

对于计算机视觉而言，我们虽然在一些高层视觉的识别问题上取得了很大进展，但在很多书中提到的视觉的底层和本质问题上的进展其实还很有限。同时，并不意外地，我们对计算机视觉和人类视觉（包括行为层次和神经层次）的关联的理解也非常初步。

最近几年，学术界有越来越多的意愿来构建两者之间的双向联结。我希望我们能够有机会真正理解计算机和人类视觉的关系，以及在何种层次、何种程度上它们可以互相促进。

4、AI科技评论：马尔在撰写《视觉》一书时，深度学习仍未得到发展；而如今，计算机视觉已在深度学习的推动下得到了重大突破。时隔40年，您认为重温《视觉》一书的意义是什么？对当下的学者研究有哪些启发？

吴佳俊：我想最主要的还是激励我们找到正确的计算理论（目标），为达成这个目标所需要的表示，以及获取这些表示所需要的方法，和学习在获取表示中所起的作用。

具体来说，以语义分类为代表的识别问题推动了视觉的发展；在某种意义上，我们可以把对ImageNet数据集的语义标注看作一场大型的心理物理学实验：人类在这一特定的高层次的标注作为计算目标，虽与马尔提出的计算目标不同，但恰与算法和硬件实现协同作用，推动了过去十年计算机视觉的跨越式发展。那在接下来的十年或二十年里，视觉计算的下一个目标又是什么呢？马尔对于计算理论的追求历久弥新，始终对我们的研究有所启发。

5、AI科技评论：您为什么推荐青年学生就读此书？在学习计算机视觉的过程中，这本译作能够给他们带来什么？

吴佳俊：深度学习对计算机视觉的发展起到了极大的推动作用，但计算机视觉不仅仅只有深度学习。对计算机视觉的深入研究需要理解视觉本身，而马尔的这本教科书是一个很好的出发点。

留言赠书

AI科技评论本次联合【博文视点】为大家带来10本《视觉：对人类如何表示和处理视觉信息的计算研究》正版新书。

在本文（仅限AI科技评论微信公众号端）留言区留言，欢迎大家畅所欲言，说一下你和计算机视觉的那些事~在综合留言质量（留言是敷衍还是走心）和留言点赞最高（注：点赞最高的前10不意味着一定会中奖）的读者中选出10位读者获得赠书。获得赠书的读者请联系 AI 科技评论客服（aitechreview）。