无惧雨雪风霜？斯坦福找到一种更适应动态环境的强化学习方法

本文作者：周蕾

2020-07-02 10:07

导语：它与SAC、SLAC有何不同？

斯坦福人工智能实验室（SAIL）的研究人员最近设计了一种方法，能处理那些会随时间变化的数据和环境，性能优于一些领先的强化学习方法，它被命名为LILAC（Lifelong Latent Actor-Critic）。

这一方法使用了潜在变量模型和最大熵策略，以此利用过去的经验，在动态环境中获得更好的采样效率和性能。

他们在一篇关于LILAC的论文中写道：

“我们观察到，在具有显著非平稳性的各种连续控制任务中，与最先进的强化学习方法相比，我们的方法带来了实质性的改进。”例如，它能够更好地适应环境，机器人或自主车辆可以在天气条件变化较多（比如遇到雨雪环境）引入时运行这一方法。

作者在该动态强化学习环境中进行了四个测试，包括来自metaworld基准测试的Sawyer机器人、OpenAI Gym的Half-Cheetah和2D导航任务。

研究人员发现，与伯克利AI研究院（BAIR）于2018年推出的SAC（Soft Actor Critical）和加州大学伯克利分校（UC Berkeley）研究人员今年早些时候推出的SLAC（Rastic Potential Actor Critic）等顶级强化学习方法相比，LILAC在所有领域都能获得更高、更稳定的回报。

斯坦福大学的研究人员Annie Xie、James Harrison和Chelsea Finn两周前在arXiv上发表了一篇关于LILAC的论文。主要作者Xie也与加州大学伯克利分校教授Sergey Levine合作研究SAC和SLAC。

“与这些方法不同，尽管在每一集中都会经历环境的持续变化，但LILAC却能推断出未来环境的变化，并在训练过程中稳步保持高回报。”

作者说，LILAC与终身学习和在线学习算法有相似之处。元学习和元强化学习算法也试图快速适应新的设置。

在最近的其他强化学习新闻中，来自Google Brain、卡内基梅隆大学、匹兹堡大学和加州大学伯克利分校的AI研究人员最近又引入了一种新的域适应方法，即在强化学习环境中改变代理的奖励函数。与其他强化学习环境一样，该方法试图使模拟器中的源域更像真实世界中的目标域。

一篇上周发布的域适配论文指出，“行为主体会因为转换而受到惩罚，转换可以表明行为主体是在与源域还是目标域交互。”“在一系列控制任务上的实验表明，我们的方法可以利用源域来学习在目标域中运行良好的策略，尽管只观察到目标域的少数转换。”

研究人员修改了奖励函数，使用分类器来区分源域和目标域的转换。他们在OpenAI Gym用三个任务来测试他们的方法。

雷锋网编译，via Stanford AI researchers introduce LILAC, reinforcement learning for dynamic environments | VentureBeat

雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。