如何让强化学习采样变得更简单？剑桥大学联合谷歌伯克利提出 Q-Prop | ICLR 2017

本文作者：晟炜

编辑：郭奕欣

2017-04-26 09:54

专题：ICLR 2017

导语：研究人员提出了Q-Prop的方法，将on-policy和off-policy的优点结合起来，大大降低了强化学习方法的采样复杂度。

雷锋网AI科技评论按：ICLR 2017 于4月24-26日在法国土伦举行，雷锋网AI科技评论的编辑们近期也在法国带来一线报道。期间，雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

无模型深度增强学习方法在很多模拟领域取得了成功，但将它应用于现实世界的障碍是巨大的采样复杂度。批策略梯度方法具有稳定性的优势，但会带来高方差，需要巨大的批数据。而off-policy的方法如actor-critic和Q-learning虽然采样效率高，但又带来偏差。在ICLR 2017会议上，来自剑桥大学的顾世翔（Shixiang Gu）和其他来自谷歌和伯克利的研究者们提出了Q-Prop的方法，将on-policy和off-policy的优点结合起来，大大降低了强化学习方法的采样复杂度。并发表论文《Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC》。文中介绍了Q-Prop方法，并通过实验将其与TRPO，DDPG进行比较。实验结果显示Q-Prop具有较高的稳定性和采样效率。这篇论文获得了oral paper，并于现场进行了演讲展示。

论文摘要

在解决高奖励信号和无监督的目标导向序列决策问题时，无模型强化学习被认为是一种前途光明的方法。最近它已被用于大规模神经网络策略和价值函数，并且在解决很多复杂问题时取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。参数化的深度神经网络将人工操作和策略设计的过程最小化。它能够将多维输入，比如图像，端到端地映射成为具体行为输出。但是即使如此强大的参数化设计仍然引入了一些实际的问题。深度强化学习对超参数的设定比较敏感，通常需要通过对超参数进行扩展搜索才能找到合适的值。超参数的缺乏将导致学习结果不稳定或者无法收敛。深度强化学习算法的高采样复杂性使它很难在实际的物理系统上运行。不过最近的一些技术发展减轻了这方面的问题 (Hasselt, 2010; Mnih et al., 2015; Schulman et al., 2015; 2016)。这些方法在提高稳定性和减少采样复杂度上提供了一些解决方案。

无模型强化学习包括on-policy和off-policy两种方法。蒙特卡洛（Monte Carlo）梯度算法(Peters & Schaal, 2006; Schulman et al., 2015)是一种流行的on-policy方法。它可以提供无偏差的（或近似无偏差）梯度估计，但同时会导致高的方差。为了解决高方差的梯度估计，研究人员提出了一些方法，然而这些方法都需要大量的采样来解决多维神经网络策略中梯度估计产生高方差的问题。问题症结在于这样的梯度方法只能使用on-plolicy的样本，这就意味着在每次策略更新参数之后需要采集大量的on-policy样本。这就对采集样本的强度提出了非常高的要求。而像Q-learning (Watkins & Dayan, 1992; Sutton et al., 1999; Mnih et al., 2015; Gu et al., 2016b)和actor-critic(Lever, 2014; Lillicrap et al., 2016)等off-policy方法则可以用off-policy的样本来替代。它们可以使用其他学习过程产生的样本。这样的方法大大提高了采样的效率。不过并不能保证非线性函数逼近能够收敛。实际上收敛和稳定性有赖于广泛的超参数调优所能够达到的最好结果。

为了使强化学习能够成为在现实世界中能解决实际问题的工具，研究人员必须开发出一种既高效又稳定的方法。研究人员提出的Q-Prop方法就是结合了on-policy梯度方法的优点和off-policy学习高效特点的方法。与之前的要么引入偏差(Sutton et al., 1999; Silver et al., 2014) 要么增加方差(Precup, 2000; Levine & Koltun, 2013; Munos et al., 2016)的off-policy方法不同，Q-Prop能够在不增加偏差的情况下，降低梯度估计的方差。同时它也与之前需要配合on-policy值函数，基于评价的能降低方差的方法(Schulman et al., 2016)不同，Q-Prop使用off-policy动作值函数（action-value function）。其核心思想是使用一阶泰勒展开作为控制变量，这就使解析梯度项用于评价过程，以及包含残差蒙特卡洛梯度项。这个方法将策略梯度和actor-critc方法结合起来。它既可以被看做使用off-policy的评价过程来减小策略梯度方法带来的方差，又被看作使用on-policy蒙特卡洛方法来修正评价梯度方法带来的偏差。研究人员进一步对控制变量进行理论分析，得出Q-Prop另外两个变体。这种方法可以很容易地用于策略梯度算法。研究人员展示了Q-Prop在使用GAE（generalized advantage estimation ，广义优势估计）的TRPO（trust region policy optimization ，信赖区域策略优化算法）过程中带来的采样效率的提升，以及在整个连续控制任务中深度确定策略梯度算法上稳定性的提高。

论文结果展示

如何让强化学习采样变得更简单？剑桥大学联合谷歌伯克利提出 Q-Prop | ICLR 2017

图1：OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker

如图1所示，研究人员使用MuJoCo模拟器，在OpenAI Gym连续控制环境下对Q-Prop和它的变体进行了评估。

如何让强化学习采样变得更简单？剑桥大学联合谷歌伯克利提出 Q-Prop | ICLR 2017

图2a 标准 Q-Prop域各变体的比较；图2b 在不同批大小情况下，保守Q-Prop与TRPO比较

在Q-Prop各变体和TRPO的比较中可以看出，哪种Q-Prop的变体更加值得信赖。在这一部分，研究人员分析了标准Q-Prop和两种自适应变体，c-Q-Prop（保守Q-Prop）和a-Q-Prop（积极Q-Prop），并展示了在不同批大小情况下，它们的稳定性。图2a展示了在HalfCheetah-v1域下Q-Prop和其变体与TRPO超参数的比较结果。其结果与理论一致：保守Q-Prop相对于标准Q-Prop和积极Q-Prop，具有更好的稳定性。同时所有的Q-Prop变体相对于TRPO都具有更高的采样效率。比如保守Q-Prop达到4000平均奖励的片段数差不多只有TRPO的十分之一。

图2b则展示了在不同批大小情况下保守Q-Prop和TRPO的性能差别。由于梯度估计的高方差，TRPO通常需要很大的批容量，比如为了有良好的表现，需要25000步或每次更新25个片段。而使用Q-Prop的方法，研究人员只需要每次更新1个片段，从而使用小的批容量，大大提高采样的效率。实验结果显示，与之前方法相比，Q-Prop显著减小了方差。正如前面提到的，稳定性是深度强化学习方法的一大难关，它决定了深度强化学习方法是否能在现实世界使用。

如何让强化学习采样变得更简单？剑桥大学联合谷歌伯克利提出 Q-Prop | ICLR 2017

图3a HalfCheetah-v1域下各算法的比较；图3b Humanoid-v1域下各算法的比较

接下来研究人员评估了两个版本的保守Q-Prop方法（使用普通策略梯度的v-c-Q-Prop和使用信赖区域的TR-c-Q-Prop）与其他无模型算法在HalfCheetah-v1域下进行比较。图3a展示了c-Q-Prop方法相比TRPO和VPG明显具有优势。得益于方差的降低，使用普通策略的Q-Prop与TRPO也能取得相近的结果。另一方面，DDPG则显示了不一致的性能。使用了恰当奖励标准的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的结果。这显示出DDPG对超参数设置的敏感性。与DDPG相比，Q-Prop显示了这方面的稳定性。

如何让强化学习采样变得更简单？剑桥大学联合谷歌伯克利提出 Q-Prop | ICLR 2017

表1：Q-Prop，TRPO，DDPG实验结果对比

最后，研究人员将Q-Prop与TRPO，DDPG在跨域条件下进行了评估。当环境趋于运动时，研究人员希望能取得与Lillicrap et al. (2016)相近的实验结果。表1总结了实验结果，包括最好的平均奖励和收敛需要的片段数。在采样复杂度上Q-Prop始终优于TRPO。有时，在复杂的域中取得的奖励甚至超过DDPG。在图3b中一个值得注意的现象是，在Humanoid-v1域中，Q-Prop相比于TRPO可以持续提升采样效率，而这时DDPG无法找到好的结果。在复杂域中的良好表现显示了稳定的深度强化学习算法的重要性：那些需要大量处理超参数的算法在处理简单问题时可能取得较好的结果，但遇到复杂的问题它的不稳定性就会使这种算法毫无用处。

结论

研究人员展示了Q-Prop，一种结合了可靠性，一致性的策略梯度算法。它使用控制变量提高了off-policy评价的采样效率，并且可能使on-policy梯度算法具有无偏差的特性。相比于TRPO等策略梯度算法，这种方法大大提高了采样效率。另一方面，相比于actor-critic算法，在比如处理人形机器人运动方面，它更具优势。研究人员希望这种结合了on-policy蒙特卡洛梯度估计算法和高采样效率的off-policy评价算法的方法可以使强化学习更加稳定和高效，并能更好地用于处理现实世界中的复杂任务。

ICLR评论

ICLR委员会最终决定

评价：这篇论文对强化学习算法做出了学术贡献。它找到了高方差（低偏差）的梯度估计的策略优化方法和低方差（高偏差）的梯度估计off-policy actor-critic方法，比如DDPG之间的结合点。它的基本思想（根据我的理解，与下面一位评论者相似），我们可以基于off-policy学习，使用控制依赖基线来降低梯度的方差，认为我们在进行梯度计算时对它进行了修正。试验清楚地显示出这种方法的优势。它很好地结合了两种增强学习的趋势（首要目标就是降低采样复杂度，在这里尤为显著）。我相信这项成果绝对值得我们接受。作者同时积极答复评论者，并对大家感兴趣的问题在手稿中做了调整。

支持：

使用新颖并且吸引人的算法，对off-policy和on-policy方法很好的贡献。

在各种控制任务中进行很好的评估。

反对：

有些不好理解，有的地方写的有些繁杂。

决定：接受（Oral）