今年的海德堡论坛，Raj Reddy、Sanjeev Arora、LeCun 与 Bengio 都讲了些什么？

本文作者：我在思考中

2022-11-14 10:22

导语：提高 AI 推理能力，需要学习世界模型、引入符号知识和归纳偏差。

作者 | AI 科技评论

编辑 | 陈彩娴

随着算力的日益提高和研究的不断积累，深度学习的发展已经走向应用，给各行各业带来了深刻的影响。如何从模型的设计和部署两方面让 AI 更加向善，这是构建深度学习工具和使用工具的人都需要考虑的问题。

在这样的背景下，三位图灵奖获得者 Raj Reddy、Yoshua Bengio、Yann LeCun 和 2011 年 ACM 计算奖得主 Sanjeev Arora，以及多位学者，在今年九月举办的第九届海德堡获奖者论坛上带来了一场关于深度学习的应用与影响的讨论。

今年的海德堡论坛，Raj Reddy、Sanjeev Arora、LeCun 与 Bengio 都讲了些什么？

深度学习的概念在变化

Yann LeCun：我觉得有一个很笼统的定义，即通过组装那些函数没有被完全定义的组块来组装一个机器，然后通过使用梯度下降最小化某种目标函数来解决这些函数。

这个笼统的定义适用于很多情况，不仅仅是神经网络，并且可能还与上世纪 50 年代的单一处理（single processing）和模式识别有共通之处。

这些年来，深度学习的概念已经有所演变，也的确有人提议重新予以命名。可微分编程（differentiable programming）这个概念可以被泛化地理解为深度学习，其含义是编写一个程序，其中函数调用不被完全定义，而是在训练中加以调整。

Sanjeev Arora：我以前研究算法和计算复杂性，大约在 2011 年，就在深度学习爆发的前一年，我转向了机器学习。

LeCun 刚才谈到的范式是，你有一个成本函数（cost fucntion），并在过程中加以调整，这就是深度学习。问题是，成本函数并不能真正确定神经网络所做的事情，从相同的成本函数中，你也可以获得其他很多东西。所以这种范式并不总是受到认可。现在它在理论上已经被证明了，其实是算法的隐式偏差。

目前我们还不清楚最底层发生了什么，所以我认为，如果仅使用成本函数来推理深度网络，可能是错误的，我们需要更多地了解黑箱内部所发生的事情。理想情况下，我们为此需要一个更广泛的关于训练算法的隐式偏见的理论。因为训练算法、架构和成本函数组合在一起，才带来了我们所看到的结果。我们并未掌握完整的理论，但这种理论是十分重要的，因为当前我们使用深度学习的主要方式是在无标签数据的情况下训练模型，然后泛化到其他任务。这种方式不适用于任何现有的理论框架。所以我们必须真正深入黑箱。

Shakir Mohamed：我们有两种理解机器学习的方式。一种是关于使用训练、算法、架构和成本函数；另一种是将机器学习理解为创建一个模型。模型是一种描述世界的方式，包括数据是如何生成的、我们如何观察数据、我们期望看到什么样的预测，这种方式我称之为「推理」（inference）。

如何将数据转化为更新参数的方式？对于任何推理方法，研究统计或概率的人通常使用的一种方法是最大似然。对于我们所使用的任何一种模型结构，都可得到一种算法。深度学习的魔力在于基于组合性、递归性、架构深度、特定类型的损失函数、梯度下降算法，对特定类型的模型进行特定的选择。

所以我认为，那些对概率感兴趣、做推理思考的人应该把分解作为其分析工具，即对于以下问题做分解：你正在建立的是什么模型？为什么要建立这个模型？将数据转化为见解的推理过程是什么？你实际使用的算法是什么？

对于所有这些问题中的每一个，你都可以将其视为一个对象，对其做分析、做理论研究或是实证检验。或者你也可以将其放在一起研究。

我认为这种模型非常有用，它将机器学习理解为一个广泛的领域。机器学习并不仅仅是获取数据、跑代码、使用 scikit-learn、做一些预测，要关心我们真正在做的是什么。

Yoshua Bengio：我非常同意 Shakir 和 Sanjeev 的观点。我想强调的是，我们需要对我们在各种深度学习实现和架构中投入的归纳偏差有更多有意识的理解。理想情况下，在设计阶段，我们应当考虑函数或分布空间中的偏好是什么，并将这些偏好引入到目标函数之外的学习中。这对设计下一代深度学习系统也有意义。

深度学习经常被吐槽的一个点是它的推理能力。有一种观点认为，深度学习不能像人类那样做真正的推理，因为人类使用的是大脑中的某些神经网络。我同意，但我相信，可以通过引入归纳偏差，将结构融入这些架构和对象中，从而引发类似于人类的推理。

深度学习的推理能力

提问：我从事自动驾驶系统和自动驾驶汽车方面的工作，我有两个问题，一是机器学习技术的可转化性，另一个问题是如何把由感知系统产生的具体知识与符号知识联系起来？自动驾驶汽车如何避免感知系统错误，比如变化的交通灯。这不会发生在人类身上，人有常识，有一个外部世界的模型可以将感官信息与符号知识联系起来。

Yann LeCun：我回答第二个问题。将原始数据、感官数据转换为符号表示或者符号类别或序列。这就是深度学习擅长的。但它仍然不完美，因为它可能非常脆弱，因为通常如果它通过监督运行的训练，它将被训练用于特定任务。而就在这个任务之外，它不会工作得特别好。

我们还不太清楚我们是如何让深度学习系统做推理的，目前有很多研究，实际上我写了一篇关于观点论文，几个月前放在了网上，试图解决让推理与深度学习相兼容的问题。

今年的海德堡论坛，Raj Reddy、Sanjeev Arora、LeCun 与 Bengio 都讲了些什么？

论文地址：https://openreview.net/pdf?id=BZ5a1r-kVsf

因为深度学习是一种非常强大的技术，我们需要让机器去学习世界模型并获得常识。

Yoshua Bengio：我确实认为有可能将符号知识与我们从数据中提取的知识联系起来，例如设计不同的架构，并且将推理作为其中的重要组成部分。

深度神经网络的竞争力在于，我们将多个层和模块组合起来，并开始有了注意力机制，但还需要更多动态组合，正确的知识或者是高级知识，甚至是符号知识需要被组合起来去做推理，这是未来我们利用注意力机制的一种路径，不过这仍是一个非常开放的问题。

Sanjeev Arora：Yoshua 你谈到了自治系统，好像这些系统是在许多时间段或在无限的时间里运行，但我们还不清楚是否对系统的决策做出持续性的解释，因为它是一个动态程序。而人类拥有解释这些决策的所有捷径，谁知道这些捷径是否有用？

Yoshua Bengio：你在不同的国家只能靠左行驶或靠右行驶，我们可以对符号规则做类似的处理。

Sanjeev Arora：是的，但还有一个问题是，当你说到动态决策时，并没有简洁的解释来理解为什么它是正确的。

Been Kim：以某种方式将符号逻辑与深度学习架构相结合，对于解释能力和可解释性方面的研究非常有用。但我认为，我们有一个错误的假设，即在我们的世界中，存在于人类身上的符号足以理解复杂的自动驾驶汽车和其他复杂系统。在这种假设下，问题就变成了如果我们要将这个复杂的神经网络正在做的事近似为对我们有意义的符号，这种近似是否足够好？我们如何判断它何时不够好？为什么会失败？如果失败了，它会告诉我们如何修复吗？我认为这是一个非常重要的问题。

提问：请问 Bengio 教授，您提到了推理和归纳偏差的必要性，我个人更多是在适应不同模态的空间中处理归纳偏差，我想知道您在这方面是怎么做的。

Yoshua Bengio：我们在人类推理中看到的一些归纳偏差涵盖了这样一个事实：当我们在高层次上进行推理时，我们在建立概念之间的因果关系、概念之间的关系，并形成一个非常稀疏的图（graph）。如果我丢下一个球，它就会落在地面上，像这样非常准确的预测是在高层次上的，涉及的变量很少，这就跟你在像素级别上能够执行的操作非常不同。

此外，在这个高层次上，我们重复使用这些概念和组件来形成新的序列、新的意义，我们还不知道如何做好重用动态和重组，但我们可以将这种归纳偏差设计到神经网络中。

人类高层次理解的另一个方面是因果关系，因果关系在分布泛化和我们关于意图的思考方面起作用，意图也就是人类想要做的事情以及在高层次上与干预相关的行为，所以这跟强化学习有很多关联。我们还需要做更多的工作，去将归纳偏差它们整合到架构和训练对象中。

人类擅长推论和推理，但我们并不是完美的推理机器，理解我们失败的推理模式也很重要。我们或许可以从生物学中获取线索，帮助我们探索如何将这些归纳偏差引入神经网络。

开放式同行评审：从 ICLR 谈起

提问：自成立以来，ICLR 的开放式同行评审方法都非常特殊，这对于 AI 领域学术研究发展是否产生了影响？ICLR 最早的大会主席 Yoshua 和 Yann 都在这里，我们先从 Yann 开始。

Yann LeCun：2000 年底到 2010 年初，当时人们谨慎地讨论该怎么正确地进行同行评审，计算机科学会议的同行评审颇有些随机，但这不能怪罪于执行同行评审的人，因为这就是它的本质，而且这个领域的快速发展也决定了这一点，大多数人在领域内的经验都是有限的，所以大多数审稿人有时会是博士生，有时是硕士生。他们更多是要找出一篇论文的缺点而非优点，而且不得不拒绝很多论文，我们很多人都为此感到内疚。

我跟 Yoshua 已经讨论了几次，论文或预印本与在出版机构或评审机构之间的垄断关系已经被打破，所以任何评审机构，无论是会议还是期刊，都可以评审任何论文，并且任何论文也都可以请求评审机构进行评审。如果您想要获取见解和评论，同行评审就像是一个开放的市场，准确度、预测性或信誉度，对评审机构都有提升作用。

我在我的网站上写了一篇关于这个的文章，并在马萨诸塞大学阿默斯特分校和 David McCallum 讨论，他正在做 OpenReview 的工作，OpenReview 相当于是一个实施同行评审的基础设施。

根据pin实体的准确度或预测性，或者类似的东西或它们的信誉度来提升审查实体。所以我在我的网站上写了一篇关于这个的文章，然后开始和大卫麦卡勒姆讨论你。U mass，amherst，因为它正在开展公开审查，公开审查基本上是可用于实施这些想法的基础设施。

2013 年，我们停止了运行了十年的 wrokshop，并开始启动 ICLR。我们询问 OpenReview 我们能不能实施同行评审系统，实际上并不可能实施整个系统，但我们取得了一些成功。

重要的是，评审是开放的，所以评审人会写评论，并被所有人看到，提交的论文也是所有人可见。这不是双盲，而是单盲，官方审稿人是匿名的，但是任何人都可以选择在自己的名下为所有论文写评论。

有一位对这个过程感兴趣的社会心理学家进行了一项调查，比如询问人们与经典模式相比会更喜欢这种模式吗？他们都回答是的，这个结论非常明确。

但最终当其他人组织 ICLR 时，我们并不能去告诉程序委员会该如何组织会议，因为他们是志愿的角色。所以评审过程又逐渐地越来越接近于更传统的模式，除了 OpenReview 得以保留。

而现在，其他会议也都转换到这种模式，包括 NeurIPs 和 ICML，我认为这是一个进步。在开放性的另一个方面，我认为 Yoshua 和我对激发 AI 社区研究的的快速发表产生了重大影响。有这样一句话：早发表，多发表。论文可能有错误，但是没关系，有机会纠正。

提问：Yoshua，结合你在 ICLR 的经验，对于那些除了自己的研究之外还参与组织工作的年轻研究人员，你有什么要做和不要做的建议？

Yoshua Bengio：我先就 Yann 的回答再补充一些背景。机器学习研究者社区几十年来在开放科学和开放出版方面一直是积极分子，我和 Yann 一直在推动 ICLR。

在 1999 年左右，《机器学习期刊》(Machine Learning Journal)的委员会发生了一场小革命，委员会成员和研究者包括我自己在内都在推动更多的开放获取，但是谈判并没有成功，委员会的很大一部分成员离开了。我们创办了现在机器学习旗舰期刊——The Journal of Machine Learning Research (JMLR)，是社区管理的非营利组织。

有时科学上的需要和科学家寻求的真理价值观以及为社会做一些积极的事情，并不总是与利润最大化相一致。我认为有理想的年轻人，例如发起 Climate Change AI (CCAI) 的小组，在会议上申请组织研讨会，通常是年轻人新群体将精力投入到这些事情中。有时他们可以自己创办一个会议，要做到这一点需要付出工作和努力，需要召集一大批关心这个话题的人。

Yann LeCun：谷歌学术显示，自 2013 年以来，ICLR 在所有出版机构影响力排名中已经位列第七位，领先于 PNAS，这是非常了不起的，这要归功于完全开放的评审过程。

环保的 AI 与低碳大模型

提问：现在模型越来越大、越来越复杂，而大模型会消耗更多的能量和资源。随着时间的推移，这会导致气候越来越糟糕，而且模型似乎不会停止变大。在尝试构建更高效的模型时，是否有任何工具、程序或其他措施来防止这种情况发生呢？

Sanjeev Arora：我们可以从训练和部署两方面来看，在部署阶段，我们可以使模型更加紧凑，但在训练方面，我们确实倾向于把模型做得越来越大。

Yann LeCun：其实分三类，有研究培训、生产培训以及部署。部署是迄今为止最大的能源消耗源。有一篇非常有趣的论文，是谷歌的员工做出了某种预测，预测关于在谷歌这样的在线服务中花费在 AI 上的能源与其他所有能源的比例是多少。事实上比例不是很大。所以能源消耗的数字正在变大，但它变大的速度不是很快。目前，这个数字大概是 15 - 20%，而且不会超出这个范围，因为受到了经济的限制，而且所有那些大公司都在能源上花费了大量的钱，这意味着他们有巨大的动力去节省能源。

Been Kim：蒸馏是一个可以关注的关键词。蒸馏可以将复杂网络变得更小、更易于理解、更稀疏。稀疏网络也是一个值得关注的关键词。而且我还想补充一下，在制作、部署模型的时候，在像谷歌这样的公司中，简化模型这一点是非常重要的。因为模型越复杂就越难维护，更难理解，即便对我们来说也很难。因此，我们一直在努力把模型做得更好、更简单。

Yann LeCun：有非常庞大的工程师团队投入所有精力去做这个工作，他们的努力使得部署中的推理更加高效。

提问：有一个相关的问题是，我们如何确保有相关的激励措施使人工智能的进步能够直接解决气候危机方面的问题？

Shannon Vallor：我认为有必要考虑一下，当我们还不能将 AI 用于所有事情的时候，我们要使用 AI 来优先解决什么问题？气候危机的加速速度比预期的要快，影响正变得比预期的更严重。所以我认为我们需要确保对人工智能应用和部署的投资激励与应对气候危机的需要相称。

Yann LeCun：谷歌 Alphabet 和我在使用人工智能应对气候变化方面有合作过一些项目。例如我们做了一个开放式协作项目，其想法是使用人工智能来找出有效地将氢与氧从水中分离出来的方法。

只要能有效地大规模储存能量，我们就有了应对气候变化的解决方案。我们可以用太阳能电池板覆盖一个小沙漠，用水产出氢气后，将能量以甲烷的形式运送到需要的地方。从此我们将不再需要化石燃料。该项目仅活跃了大约一年，但它是一个任何人都可以参与的开放项目。我认为人工智能在材料科学和化学中的应用非常有前景。

Yoshua Bengio：我们的确采取了某些措施，但正如 Shannon 所说，这些措施还不够。要解决这个问题的话，必须要由政府来推出政策。能够解决这个问题的不是个人，甚至不是个别公司，而是政府。只有政府能在地球的层面上用最理想的方式做到。我们需要鼓励政府。而且这么做不仅仅是因为气候，我在传染病、医疗等领域也遇到过类似的问题。

视频链接：https://www.youtube.com/watch?v=dyOxLRr_Zbs

更多内容，点击下方关注：

扫码添加 AI 科技评论微信号，投稿&进群：