玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

本文作者：哈帝•白求恩

编辑：郭奕欣

2017-04-20 14:13

专题：ICLR 2017

导语：通过使用这种共同学习的代表，基础智能体学习更快地优化外在回报，多数情况下，在培训结束时将会实现更好的策略。

雷锋网AI科技评论按：ICLR 2017 将于4月24-26日在法国土伦举行，届时雷锋网AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前，雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

深层强化学习通过直接最大化累积回报获得最先进的成果。然而，环境中还包含着很多种类的潜在训练信号。而在今年的 ICLR 2017，来自牛津大学的Max Jaderberg等研究者在 oral paper 论文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介绍了一个智能体，它既可以通过强化学习，学习单独的策略，同时也可以最大限度地发挥许多其他的伪回报功能。所有这些任务都有一个共同的代表，就像无监督学习一样，在没有外在回报的情况下继续发展。研究者还介绍了一种将这种表征重点放在外在回报上的新机制，使学习能够快速适应与实际任务最相关的方面。该智能体具有显着优于在Atari上的目前最先进的技术，平均有880％的专业人员表现，以及在具有挑战性的第一人称三维迷宫任务中，平均学习加速10×，平均达到87％迷宫专家的人类表现。

以下为AI科技评论据论文内容进行的部分编译。

不论是自然界还是人工创造，智能体都生活在感觉运动数据流中。在每个时间步骤t，智能体接收观察的信息o_t并执行动作a_t。这些行为将影响感觉运动流的未来过程。研究人员开发了通过解决大量强化学习问题来学习预测和控制感觉运动流的智能体，每个智能体都集中在学习感觉运动流的特征上。因此未来将可以灵活控制智能体实现任何目标，包括最大化回报。经典的强化学习方法主要集中在最大化回报上。然而并不是所有应用都存在回报。即使回报很常见，感觉运动流仍然包含很多值得学习的目标。传统意义上来讲，非监督强化学习尝试重建这些目标，例如位于这一帧和下一帧的像素。该团队的目标则是预测和控制感觉运动流的特征，并把它们作为强化学习的回报。

该团队的架构使用强化学习来近似许多不同的伪回报的最优策略和最优值函数。它还使其他辅助预测用于将智能体的重点放在任务的重要方面，包括辅助控制任务，即智能体与交互的环境中的附加伪回报函数。图1（b）展示出了随着一组辅助像素控制任务而增加的A3C实体架构。在这种情况下，基本策略π共享卷积视觉流和LSTM与辅助策略。辅助网络端的输出是Nact × n × n张量Qaux，其中Qaux（a, I, j）表示网络对于采取行动a 后的输入单元（I, j）中的最佳折扣预期变化的当前估计值。通过利用辅助任务的空间特性，使用解卷积神经网络来产生辅助值Qaux。以及回报预测的辅助任务 – 即在某些历史背景下预测即时回报的发生。这个任务包括处理连续观察信息，并要求智能体预测在随后看不到的帧中拾取的回报。辅助回报预测可能会对智能体的主要策略使用不同的架构。

与其简单地将“辅助”预测“挂上”LSTM不如在被智能体的CNN编码后，使用简单的前馈网络来连接一些状态S，参见图1（c）。这个想法是为了简化未来方向和过去方向的预测任务的时间，以这种方式发现的特征与初级LSTM共享（通过卷积编码器中的共享权重），以便更有效地学习策略。为了更有效地学习，该智能体使用经验回放机制来为评判者提供额外更新。其主要思想是在回放缓冲区中存储转换，然后将学习更新应用于从该缓冲区的采样转换。除了回报预测之外，还可以使用回放缓冲区来执行价值函数回放（参见图1）。

重要的是，辅助控制和辅助预测任务共享基础智能体使用的卷积神经网络和LSTM。通过使用这种共同学习的代表，基础智能体学习更快地优化外在回报，多数情况下，在培训结束时将会实现更好的策略。

研究人员结合了异步评价器算法（A3C）和辅助控制任务以及辅助汇报任务。这些辅助任务除了一般的A3C智能体外不需要其他任何来自环境的额外监督或信号。这样就获得了UNREAL（UNsupervised REinforcement and Auxiliary Learning）智能体。

玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

图1：UNREAL智能体整体概述。（a）智能体是经过培训的有关A3C损失的CNN-LSTM实体。观察信息，回报和行动存储在一个小的回放缓冲区中，该缓冲区存储了较短的智能体经验历史。这种经验是用来辅助学习任务。（b）像素控制 - 训练辅助策略Qaux以达到最大化输入的不同区域的像素强度变化。智能体CNN和LSTM与辅助反卷积网络都用于此任务。该辅助控制任务要求智能体学习如何控制环境。（c）回报预测 - 根据最近的三个帧，网络必须预测在下一个不可观测的时间步长中获得的回报。该任务网络使用智能体CNN的实例，并对回报偏向序列进行训练，以消除回报的稀疏性。（d）价值函数回放 - 使用智能体网络进一步训练价值函数，以促进更快的价值迭代。

研究人员将UNREAL智能体应用于一个具有挑战性的3D视觉领域，即迷宫（Labyrinth）图2。UNREAL智能体仅从第一人称视角的原始RGB像素中学习。结果是，该智能体的表现显著优于A3C CNN-LSTM智能体代表的基准线，即在无障碍重建损失的基础上增加了学习速度，超参数的鲁棒性和最终性能。结果是该智能体达到了专家人员归一化分数的87％，而A3C则为54％，平均速度是A3C的10倍。在阿塔里（Atari）中，UNREAL智能体也拥有显著优于目前最先进的技术。

玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

图2：来自环境的原始RGB帧是作为智能体输入的观察信息，以及最后的行动和回报。这个观察信息显示了迷宫中的一个迷宫样本。智能体必须浏览这个迷宫，拿起苹果将给予+1回报，并达到+10回报的目标，然后重新启动。来自迷宫发生器的样品的俯视图显示了程序创建的各种迷宫。

下面是具体的实验结果：

图3（左上）显示了13个迷宫级别的人类平均归一化分数曲线。每一项辅助任务都添加到A3C代理中大大提高了性能。组合不同的辅助任务促使对各个辅助任务的进一步改进。组合所有三个辅助任务的UNREAL智能体达到了A3C最终人类平均归一化表现的两倍以上，从54％上升到87％）。玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

图3：迷宫（上）和Atari（下）上的所有层的平均性能概述。在消融版本中，RP是回报预测，VR是价值函数回放，PC是像素控制，UNREAL智能体是全部的组合。左：在训练中的每一点，前三名工作的最后100次的平均人类归一化表现。在迷宫中，平均获得了87％的人类归一化分数，其中每个成分的智能体均提高了A3C人类归一化分数的54％。右：超参数扫描中每个作业的最终人类归一化分数，按分数排序。在迷宫和Atari，UNREAL智能体增加了超参数的鲁棒性（即学习率和熵成本）。

同时使用与迷宫实验相同的评估协议，在每个游戏中评估50个不同的随机超参数（学习率和熵成本）。结果显示在图3的底行。左侧显示了所有三种方法的前3个实体的平均性能曲线，右半部分显示了每个超参数设置的人类平均归一化得分。可以看出，UNREAL超越了目前最先进的智能体，即A3C和优先级决策DQN，达到880 ％的平均值和250％的中位数。值得注意的是，对于超参数设置，UNREAL也比A3C更强大。

除了游戏的最终表现，UNREAL在学习方面要快得多，因此数据效率更高，最终平均加速步骤数量实现了达到A3C最佳性能的10倍。而且UNREAL的学习速度极快，这意味着数据效率大大提高。同时还可以通过测量所有超参数的性能（即学习率和熵成本）来测量该学习算法对超参数的鲁棒性。

玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

图4：由于在迷宫中每关的辅助任务，A3C有了改进。通过A3C值对A3C + RP + VR（回报预测和价值函数回放）和UNREAL（回报预测，价值函数回放和像素控制）的值进行归一化。 AUC性能给出了超参数的鲁棒性（鲁棒性曲线下的面积图3右）。数据效率是前五名工作效率数据的平均学习曲线下的面积，Top5 加速是前五名工作效率的平均值达到A3C设定的最高平均得分的加速。

玩转Atari能走迷宫，牛津大学的新型强化学习方法有多牛？ | ICLR 2017

图5：与在各种形式的随机迷宫中自我监督学习的导航结果比较。将输入重建损失添加到目标使得学习速度比A3C基线更快。预测输入的变化比简单的图像重建效果更好。学习控制变化会带来最好的结果。

ICLR评论

ICLR委员会最终决定

评价：审查人员一致认为本文应该被接受。当然关于这篇文章的细节还有很多可以讨论的方面。审查人员认为本文所指出的方向对该研究中的许多人来说是有意义的。正如一位评论者所说，这篇文章的想法涉及利用智能体对环境的控制的“可能性”。这是根据辅助控制和辅助预测任务制定的，它们共享基础的CNN和LSTM表示方式。

决定：接受（Oral）

匿名评论者3的反馈：

打分：7分，不错的文章，接受

本文提出了一种将无监督辅助任务添加到深层RL智能体（如A3C）的方法。作者提出了一系列辅助控制任务和辅助回报任务，并对迷宫和Atari的实体进行了评估。本文提出的UNREAL智能体的表现明显优于A3C，并且学习速度更快。这对会议来说绝对是一个很有益的贡献。然而，这还不是最令人惊讶的一个结果，因为添加与目标相关的附加辅助任务应该总是有助于更好和更快速的特征形成。本文证明了这个想法的概念。
这篇文件写得很好，对具有深厚RL专业知识的读者来说很容易理解。
作者可以评论关于训练UNREAL实体所需的计算资源吗？

整体架构是相当复杂的。作者是否愿意发布他们的模型的源代码？

匿名评委4号的反馈：

打分：8分，在全部入选论文中排名Top50%，确定接受

本文旨在通过对与（域无关）辅助任务相对应的术语扩展主要策略的优化问题，来改进深层加强学习中的特征学习。这些任务是关于控制（学习尝试最大程度地修改状态空间的其他策略，即这里的像素），即时回报预测和价值函数回放。除了后者之外，这些辅助任务仅用于帮助形成特征（通过共享CNN + LSTM特征提取网络）。实验显示了这种方法对Atari和迷宫问题的优势，特别是比A3C更好的数据效率。

匿名评委5号的反馈：

打分：8分，在全部入选论文中排名Top50%，确定接受

这篇文章提出训练RL智能体执行辅助任务，并认为这样做有助于模型学习更强大的功能。文章提出两个伪控制任务，即控制像素强度的变化，并控制潜在特征的激活。文章中还提出监督回归任务，预测一系列事件后的即时回报。后者通过经验回放缓冲区的偏向采样离线来学习，以平衡看到回报或1/2的几率看不到回报。

这样的智能体在离散动作连续空间RL任务中表现得很好，并且在10次迭代中达到基准性能。

这篇文章与传统的“被动”无监督或基于模型的学习形成对比。学习控制环境的本地和内部功能补充，学习最佳控制策略，而不是强迫模型学习输入的潜在无用的表示，或学习潜在不可能的（由于部分可观察性）任务建模目标。

对我来说，这是一种新颖的方法，并且是一种非常有趣的无人监督学习的替代方法，利用了智能体对环境的控制的“可能性”。

文章在相当高的层次上说明了提出的任务，这对于读者的理解是很便利的，但我认为一些低级别的细节也是很有用的。例如，在附录之前，应明确提及L_PC。除非，读者对深度RL非常的了解。

该方法是正确合理的，一方面，最佳超参数的分布对A3C和UNREAL可能不同，但是也可以测量top-3确定，假设A3C和UNREAL的最佳超参数都在探查的间隔内，则可以找到最佳的超参数。

我认为这篇文章的一个弱点（或者说考虑到将来适合本文章的重要工作）是，关于辅助任务对其性能（非常强大）的实验分析非常少。同样的道理，像素/特征控制似乎最具影响力，在迷宫中，A3C + PC击败其他任何实体（UNREAL除外），我认为这是值得探究的，无论是孤立还是深入，可以不仅仅测量在RL任务上的表现。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

专题

ICLR 2017

本专题其他文章

哈帝•白求恩

知情人士

发私信

当月热门文章