顶会见闻系列：ICLR 2018 和 ICRA 2018

本文作者：杨晓凡

2018-08-09 10:03

专题：ICRA 2017：创新、创业和解决方法

导语：深度强化学习机器人控制工程师的会议体验

雷锋网 AI 科技评论按：本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议，没去现场的自然可惜，在现场的也容易看花眼。那么事后看看别的研究员的见闻总结，也许会有新的收获呢。

Alex Irpan 本科毕业于 UC 伯克利大学的计算机科学专业，在伯克利人工智能 AI 研究所（BAIR）做的本科毕业设计，导师为 Pieter Abbeel，而后加入谷歌大脑的机器人团队做软件工程师。Alex Irpan 自己的研究兴趣偏向于用于机器人控制的深度强化学习。继去年参加了 NIPS 2017 之后，Alex Irpan 今年也参加了 ICLR 2018 和 ICRA 2018，并写下了自己的参会见闻。一位强化学习研究与应用工程师视角下的会议有何亮点与槽点呢？雷锋网 AI 科技评论把这篇个人博客文章全文编译如下。

顶会见闻系列：ICLR 2018 和 ICRA 2018

在不到一个月的时间里，我连续参加了 ICLR 2018 和 ICRA 2018 两个会议。前者是一个深度学习会议，后者是一个机器人技术会议。两者之间有不少区别，我觉得做个对比会很有意思。

ICLR 2018

从做研究的角度来看，对 ICLR 的一句话总结就是对抗性学习依然是一个重要课题。

ICLR 会场里最热门的话题就是生成式对抗网络（GANs）。不过这里我想用这个词同时包含「对抗性样本」和「带有互相竞争的智能体的环境」这两个意思。说真的，任何一个可以写成顶会见闻系列：ICLR 2018 和 ICRA 2018 形式的最大最小值优化问题，对我来说就是一个对抗性学习问题。

我不太确定这个课题是不是真的有那么火，也可能只是我的记忆出现了选择性偏倚吧，因为这些方法真的让我觉得特别有意思。它们给我的感觉很强大。对 GAN 的一种理解是，你在学习一个生成器，但它使用的是一个学习到的隐式损失函数，而不是由人类定义一个。这样可以让你的生成器有更高的适应能力，并且可以帮助你定义一些人工做的时候几乎无从下手的损失函数。

确实，这种做法让你的问题变得更复杂了。不过如果你有足够强大的优化手段和建模能力，这些学到的隐式损失函数就能给你带来比任何其他方法都更厉害的图像。并且，把你的系统里的一部分换成了这样的学到的组件还有一个好处，那就是优化和建模方面的技术进步能从更多方面帮你更好地解决问题。模型的学习损失函数的能力和让这些损失最小化的能力同时得到了提升。最终你就会来到这个转折点，之前多付出的种种辛苦都会得到回报。

从更抽象的角度来讲，这样的做法借助了高表达能力、可优化函数家族的力量，神经网络就是一个例子。最大最小值优化并不是什么新方法，它已经存在了很久了。这里真正的新东西是，深度学习可以让你在高维数据上建模并学习复杂的损失函数。在我看来 GANs 的有趣的地方不是在图像生成这件事本身，而是它在图像这样的复杂数据上验证了这样的概念的可行性。实际上，这种模型框架的任何一部分都没有要求你必须使用图像数据。

这个学习过程中也有一些其他的部分可以把人类定义的方法替换为学习到的方法，而深度学习就是我们可以选择的工具之一。那么选用深度学习合适吗？唔，可能吧。这里的问题是，你替换得越多，想真的让每一个部分都可以学习就变得越难。如果你一直在往上堆乌龟，一直堆到了不稳定、很容易翻到的程度了，也许你其实就不应该堆那么多。

顶会见闻系列：ICLR 2018 和 ICRA 2018

最近 Quanta 上也有一篇文章，Judea Pearl 对深度学习表达了严重的不满之情，说这就是学习相关性和学习曲线拟合而已，这离「智能」也太远了。我同意他的观点，不过我也要为深度学习说句话，如果你把一个超级大的神经网络扔到足够大的一锅优化方法里面去熬，那你学到的那个东西就会和因果推理看起来挺像的，或者不管你把什么东西称作智慧，这个熬出来的东西都会挺像它的。好像说得越来越哲学了，我就此打住吧。

从一个普通参会者的角度，ICLR 上很多的论文海报环节我都很喜欢。这是我第一次来 ICLR，上一次我去的机器学习会议是 NIPS，NIPS 的规模简直大得有点夸张。要是想把 NIPS 的每篇论文都看一遍，那肯定是做不到的。想把 ICLR 的每张海报都看看还有机会，虽然其实也不一定有人愿意这样做。

还有一点我喜欢的是，现场的企业招聘不像 NIPS 上的那么滑稽。在 NIPS 上有的企业会送转得让人心烦的陀螺，还有送紧身衣的，确实很独特，但是因为企业们都要绞尽脑汁想出一些独特的纪念品以免被埋没，最终的结果就变得怪怪的。在 ICLR 上我拿到的最奇怪的东西也就只是一双袜子而已，不常见，但起码不算乱来。

我注意到了这些论文，计划稍后再仔细看看

Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
Learning Robust Rewards with Adverserial Inverse Reinforcement Learning
Policy Optimization by Genetic Distillation
Measuring the Intrinsic Dimension of Objective Landscapes（雷锋网 AI 科技评论注：Uber AI Labs 的这篇论文有一个生动的讲解视频，我们做过翻译，熟肉视频请见这里）
Eigenoption Discovery Through the Deep Successor Representation
Self-Ensembling for Visual Domain Adaptation
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning
Online Learning Rate Adaptation with Hypergradient Descent
DORA The Explorer: Directed Outreaching Reinforcement Action-Selection
Learning to Multi-Task by Active Sampling

ICRA 2018

ICRA 2018 是我第一次去关于机器人的会议。我都不知道应该期待在会议上看到什么。我一开始做科研的时候是做机器学习的，然后做的东西开始和机器人技术沾一点边，所以我的兴趣更接近于「学习如何控制」，而不是「做一个新的机器人」。我自己理想的实验环境设定是，把真实世界的硬件看作一组抽象来处理。（我仿佛听见有一位机器人专家蹲在墙角抹眼泪）

我的技术背景加上我对控制理论的外行般的理解，就意味着我对会议中的许多课题都不怎么熟悉。不过关于学习的论文还是挺多的，我还是很高兴我去参会了的。

在我能看懂的这些研究里，让我感到惊讶的是有如此之多的强化学习的论文。老实说，看到其中几乎没有什么论文在用纯粹的无模型强化学习，我感觉到有那么一点好笑。ICRA 有一个特点是，如果你的算法是在真实世界的机器人上运行的，那么这篇论文被会议接受的可能性就会高很多很多。这就迫使你考虑数据效率的问题，从而在选择方法的时候就让纯粹的无模型强化学习处于超级大的劣势。当我在场内走来走去浏览的时候，我时不时就能听到「我们结合了无模型强化学习和 X」这样的话，而这个 X 要么是一个基于模型的强化学习方法，要么是从人类演示中学习，要么是从运动控制中学习，反正就是任何对模型的探索过程有帮助的东西。

从更广的角度说，这个会议还是比较看重实践的。它当然还是一个研究型的会议，里面也有很多内容是还很值得揣摩的，不过同时你也会觉得，大家还挺接受方向很窄的、精准针对一两个问题的解决方案的。我觉得这也是因为要使用真实的硬件带来的另一个结果。如果你的模型要实时运行，那你就不能忽略了推理时间有多长；如果你从真实的机器人上采集数据，那你就不能忽略了数据效率。真实的硬件才不关心你会碰到什么问题。

这让我想起 RFC 1925 里关于系统设计的两条真理

1. 它必须是有效的。
2. 不管你自己的要求有多高，你不管你怎么排优先级，你都没法增加光速。

和我聊天的很多做机器学习的人都对此感到惊讶，不过机器人技术领域的人也确实不像参加 NIPS、ICLR、ICML 的人那样完全拥抱了机器学习，其中一部分原因是机器学习不一定总是有效。机器学习是一种解决方案，但是它不保证是合理的。我的感觉是，ICRA 上真的非常积极地希望看到机器学习方法失败的人不多，也就那么几个。大多数人用机器学习都还是一切 ok 的，只要机器学习方法能证明自己。在一些领域里，机器学习已经证明了自己。每一篇我看到的关于感知的论文都是用了某一种 CNN。但是用深度学习做控制的人就少得多了，因为这里有很多东西都是不确定的。有很多人认为深度学习就是流行一阵子，虽然我不太同意他们，但是能听到领域内的不同观点还是挺好的一件事。

和 ICLR 一样，也有很多企业在现场招聘，或者做一些展台；和 ICLR 不一样的是，这些展台的内容看起来有意思得多。大多数企业都会带几款自己的机器人来做演示，看机器人表演毕竟总是一件让人身心愉悦的事情，要比听千篇一律的招聘宣讲不知道强到哪里去了。

在去年的 NIPS 上，机器学习企业的那片展位有点让我想起 UC 伯克利的校园招聘会，而且是不好的那种想起。每个科技企业都想招 UC 伯克利的毕业生，招聘会就变得像是一场军备竞赛，大家都在比谁的薪水开的高、谁的茶点看起来比较好吃。看起来好像，每个企业的目标都是希望让自己看起来尽量地酷，但同时又都不说招你去到底是为了让你做什么。到了机器学习这边，企业们的自我包装方式就是在看起来漂亮的休息区酒吧办越来越精巧的 party。机器人领域的企业还没浮夸到那个程度；虽然也在增加，但是泡沫还没那么多。

我听了几个 workshop 的演讲，讲真实世界中的机器人都是拿来做什么的，听起来都很有意思。研究型的会议倾向于关注理论研究和网络的讨论，经常让人忘了科研其实也可以有明确的、即时的经济价值的。农业机器人那一场就有一个演讲，讲的是如何用计算机视觉发现杂草，然后只在杂草上喷除草剂，在我听来简直完美。用的除草剂也少了，对作物的伤害也小了，也减缓了杂草对除草剂产生抗性的速度。

机器人领域鼎鼎大名的 Rodney Brooks 的一场很棒的演讲也是类似的思路，他讲了把机器人技术变成消费级产品需要注意的几件事，举的例子就是 Roomba 扫地机器人。根据他介绍，在设计 Roomba 的时候他们首先考虑的是价格，然后把机器人的所有功能设计得与那个价格相符。然后他们就发现，几百美元价格的产品里留给厉害的传感器和计算硬件的预算余地非常小，能放在机器上做的推理计算也有了一个非常苛刻的限制。

（他在演讲中还大声批评了人类与机器人交互方面的研究，虽然似乎和演讲主题无关，但是听起来真的很有趣。给感兴趣的各位讲讲好了，他报怨说大家都故意用了很多复杂的数学公式来做样子，其实本质的想法很简单；他说有人在论文中提出了很大的想法但是实验的样本规模并不足以支持这些想法；也有研究人员会在人类的行为和模型的预测不一致的时候责怪人类行为的非理性。我自己对人机交互没什么了解，所以我就不作评论了）

从会议组织的角度讲的话，我觉得 ICRA 真的办得很好。会议中心隔壁就有打印的地方，所以在会议注册的时候，工作人员会问你有没有在指定的日期把你的海报 PDF 邮件发过来，然后他们就会处理好下单打印的各种事项。你只需要在线支付了 PDF 的打印费，然后等着在会议期间去取就好了。所有的论文海报展示都是在下图这样的多合一展位上进行的，每个隔间里都有一张白板和一层架子，你可以把自己的笔记本放在上面播放视频（对于机器人技术方面的研究，放视频真的很重要）

顶会见闻系列：ICLR 2018 和 ICRA 2018