谷歌 DeepMind 的可微分神经计算机 DNC 怎么样？看 Facebook AI 研究员田渊栋、贾扬清怎么说

本文作者： no name

2016-10-14 18:08

导语：“革命性突破”言过其实，总的来说不及前两篇 Nature。

田渊栋，卡耐基梅隆大学机器人系博士学位、上海交通大学硕士学位和学士学位，前谷歌无人车项目组成员，现任 Facebook 人工智能组研究员，主要负责 Facebook 的智能围棋项目 Dark Forest。

贾扬清，拥有加州大学伯克利分校计算机科学博士学位、清华大学硕士学位和学士学位，曾于新加坡国立大学、微软亚洲研究院、NEC美国实验室、Google Brain工作，现任 Facebook 研究科学家，主要负责前沿AI 平台的开发以及前沿的深度学习研究。

近日，谷歌的 AI 部门 DeepMind 开发了一种叫做可微分神经计算机（DNC）的神经网络模型，相关论文发表于 10 月 12 日在线出版的《自然》杂志上，题为《利用神经网络与外部动态存储器进行混合计算》。这种新模型将神经网络与可读写的外部存储器结合，既能像神经网络那样通过试错和样本训练进行深度学习，又能像传统计算机一样处理数据。即使没有先验知识，DNC 也可以解决规划最佳路线、拼图任务等小规模问题。

德国研究者 Herbert Jaeger 评论称，这是目前最接近数字计算机的神经计算系统，该成果有望解决神经系统符号处理难题。

斯坦福大学心智、大脑和计算中心主任 Jay McClelland 称，这项研究将成为人工智能领域“有趣且重要的里程碑”。

那么我们究竟该如何看待谷歌 Deepmind 团队最新发布的可微分神经计算机 DNC 呢？果然，已经有人在知乎上提出这个问题。

编者注：该知乎提问中“谷歌deeplearning团队”实际上应该指的是“谷歌Deepmind团队”。

截止发稿前，该问题有两个回答，Facebook 人工智能组研究员田渊栋的回答获得了 44 人赞同。

他认为“革命性突破”言过其实，总的来说不及前两篇 Nature。

这篇文章模型复杂，手工设计太多，实验相对简单，没有在大规模数据集上测试性能，能成功地应用于小规模搜索，但通用化还需要很久。

谷歌 DeepMind 的可微分神经计算机 DNC 怎么样？看 Facebook AI 研究员田渊栋、贾扬清怎么说

田渊栋在知乎上的回答，贾扬清进行了回复（链接）

贾扬清认为以前主要是手调 feature（特征），而这次的 DNC 实际上是手调网络，他在评论中提到的 Jitendra 应该是加州大学伯克利分校的电气工程与计算机科学系教授 Jitendra Malik。

在田渊栋的英文博客上，可以看到更多他对这篇论文的看法，我们首先来看看这篇题为《 Notes on DeepMind's 3rd Nature paper 》的文章。

以下为博文内容：

最近 Deepmind 发表了他们在《自然》杂志上的第三篇论文《利用神经网络与外部动态存储器进行混合计算》。他们设计了一个递归神经网络结构（深度 LSTM），反复发送新的读/写命令到外部存储器，以及基于先前读取存储器和当前输入得到的动作输出。他们称它为 DNC（可微分神经计算机）。这里希望网络能够基于给定的信息进行推理。他们用实验模型来处理 bAbI 推理任务，网络遍历/最短路径预测，家庭树的关系推理和拼图游戏推理，其性能远远优于没有外部存储器的 LSTM。

这里给出一些评价：

1、总体而言，他们是隐含地学到了基于搜索推理的启发式函数（heuristic function)。正如他们在文章中提到的：“一个基于最短路径训练的 DNC 的可视化结果显示，它会逐步探索从开始到结束的每个节点辐射出的关系，直到找到整个连接路径（补充视频 1）。”我们也可以在伦敦地铁任务（图3）中看到类似的情况。这在小规模搜索的实验中可能是有效的，但在处理真正的问题时不一定是一个很好的策略。

2、似乎网络中的手工调整设计很多。该网络是给外部存储器的下一组操作。外部存储器上有许多类型的操作，组合了各种不同类型的 Attention 机制（基于内容的 Attention 模型，随之而来的写入 Attention 模型，和基于读写的“用法”机制）。不确定哪个组件更重要。理想情况下，应该有一个更自动或更规律的方法。

3、几个有趣的细节：

（1）直接用实际情况的答案训练一个连续结构预测模型，这不是很好，因为当预测偏离了实际观测情况，该模型可能会很容易失败。在本文中，他们在结构预测时使用了混合了实际观测情况分布与当前预测分布 DAgger。这使得预测的鲁棒性很好。

（2）对于拼图游戏来说，他们使用了 actor-critic-like 模型。在这种情况下，DNC 的输出策略和价值功能取决于一开始作为输入的游戏规则。这符合我们训练 Doom AI 的经验，actor-critic-like 模型的收敛速度比Q-learning 快。

（3）课程训练（例如，先从简单的任务开始训练模式）起着重要的作用。这也符合我们训练 Doom AI 的经验（我们很快将发表相关论文）。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。