一文尽览 ICLR 2019 Facebook & Google 入选论文

本文作者： skura

2019-05-18 23:55

专题：ICLR 2019

导语：今年的图灵奖得主 Yann LeCun 是其中两篇论文的共同作者

雷锋网 AI 科技评论按，近日，ICLR 2019 论文入选结果公布，各大公司和研究院纷纷在博客上公布了今年入选的论文。

其中，Facebook 战果满满，一共有 23 篇论文入选。值得注意的是，2018 年图灵奖得主 Yann LeCun 是其中两篇入选论文的共同作者之一。Facebook 人工智能研究院研究员、围棋项目负责人田渊栋博士也参与了其中两篇论文的写作。

而一直备受关注的 Google 在今年也有 57 篇论文入选了 ICLR 2019，其中，oral 论文有三篇。

雷锋网 AI 科技评论整理了今年 ICLR 2019中，Facebook 和 Google 入选论文的全名单。在查看全名单之前，让我们先来看看 Yann LeCun、田渊栋参与的 4 篇论文和 Google 的3 篇 oral 论文吧~

Facebook Yann LeCun、田渊栋参与的入选论文：

Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic

标题：基于不确定性正则化的密集交通驾驶模型预测策略学习

作者：Mikael Henaff, Alfredo Canziani, Yann LeCun

摘要：学习仅使用观察数据的策略是具有挑战性的事情，因为它在执行时产生的状态分布可能与训练期间观察到的分布不同。在这项工作中，我们计划训练一个策略，同时明确惩罚这两个分布之间在固定时间范围内的不匹配。我们通过使用一个已学习的环境动力学模型来实现这一点，该模型展开了多个时间步骤，并训练了一个策略网络，以最大限度地降低在这个展开的轨迹上的可区分成本。这一成本包含两种形式：代表策略寻求优化目标的策略成本，以及代表其与受训状态的差异的不确定性成本。我们建议使用有关其自身预测的动力学模型的不确定性，利用深度网络不确定性估计的最新思想来测量第二种成本。我们使用交通摄像头记录的驾驶行为的大规模观测数据集评估我们的方法，结果表明我们能够从纯粹的观测数据中学习有效的驾驶策略，而无需与环境交互。

The role of over-parametrization in generalization of neural networks

标题：超参数化在神经网络泛化中的作用

作者：Behnam Neyshabur, Zhiyuan Li, Srinadh Bhojanapalli, Yann LeCun, Nathan Srebro

摘要：尽管现有的工作是确保神经网络在尺度敏感的复杂性度量方面的泛化，如规范、边缘和锐度，但这些复杂性度量并不能解释为什么神经网络在过参数化的情况下泛化得更好。在这项工作中，我们提出了一种新的基于单位容量的复杂度度量方法，从而使两层 ReLU 网络具有更严格的泛化边界。我们与误差行为相关的的容量边界与不断增加的网络规模相关（在实验报告的范围内），并且可以部分解释过度参数化在泛化方面的改进。我们进一步提出了一个匹配的 Rademacher 复杂度下限，相比以前的神经网络容量下限，它是有所改善的。

Mind-aware Multi-agent Management Reinforcement Learning

标题：多智能体管理强化学习

作者：Tianmin Shu, Yuandong Tian

摘要：先前，大多数关于多代理强化学习（MARL）的工作都是通过直接学习每个代理的策略来实现最佳协作，从而最大限度地提高公共奖励。在本文中，我们的目标是从另一个角度来解决这个问题。特别是，我们考虑的场景是，有一些自我意识的人（工人代理），他们有自己的想法（偏好、意图、技能等），并且不能听命去执行他们不想做的任务。为了实现这些代理之间的最佳协调，我们训练一个超级代理（经理），通过根据当前和过去的观察推断他们的想法来管理他们，然后发起契约，将合适的任务分配给工人，并承诺给他们相应的奖金，以便让他们同意一起工作。管理者的目标是最大限度地提高整体生产力，同时最大限度地减少向临时团队支付的费用。为了对管理者进行训练，我们提出了由智能体建模和策略学习组成的多智能体管理强化学习。我们已经在两个环境中评估了我们的方法：资源收集和制作，以通过各种任务设置和工人代理的多种设计来模拟多代理管理问题。实验结果验证了我们的方法在在线模拟工人——代理人的思维以及实现具有良好通用性和快速适应性的最佳临时团队中的有效性。

Algorithmic Framework for Model-based Deep Reinforcement Learning with TheoreticalGuarantees

标题：基于模型的深层强化学习理论保证算法框架

作者：Yuping Luo, Huazhe Xu, Yuanzhi Li, Yuandong Tian, Trevor Darrell, Tengyu Ma

摘要：基于模型的强化学习（RL）被认为是减少阻碍无模型 RL 的样本复杂性的一种有前途的方法。然而，对这些方法的思想的理论理解却相当有限。本文介绍了一种新的算法框架，用于设计和分析具有理论保证的基于模型的 RL 算法。我们设计了一个元算法，在理论上保证局部改进到期望反馈的局部最大值，该元算法根据估计的动力学模型和样本轨迹迭代地建立期望反馈的下界，然后在策略和模型上共同最大化下界。该框架将面对不确定性行为的优先探索扩展到非线性动力学模型，不需要显式地量化不确定性。通过对我们的框架进行简化，我们给出了一种基于模型的随机下界优化（SLBO） RL 算法的变体。实验证明，当一系列连续控制基准任务中允许至少一百万个样本时，SLBO 达到了世界领先水平的性能。

Google 的 3 篇 oral 入选论文：

ENABLING FACTORIZED PIANO MUSIC MODELINGAND GENERATION WITH THE MAESTRO DATASET

标题：使用 Maestro 数据集实现钢琴音乐分解的建模和生成

作者：Curtis Hawthorne，Andriy Stasyuk，Adam Roberts，Ian Simon，Cheng-Zhi Anna Huang，Sander Dieleman， Erich Elsen，Jesse Engel & Douglas Eck

摘要：众所周知，用神经网络直接生成音乐音频是非常困难的，因为它有时需要在许多不同的时间尺度上连贯地建模。幸运的是，大多数音乐也是高度结构化的，可以表示为乐器上演奏的离散音符事件。在本文中，我们证明了通过使用 Notes 作为中间表示，可以训练一组能够在六个数量级（0.1 ms～_10 s）的时间尺度上转录、构建和合成具有连贯音乐结构的音频波形，我们称之为 Wave2Midi2Wave。我们发布了新的 MAESTRO （为同步音轨和组织编辑的 MIDI 和音频）数据集，实现了这一大进步。该数据集由超过 172 小时的虚拟钢琴表演组成，在音符标签和音频波形之间进行了精确校准（误差不超过 3 ms）。网络和数据集一起为创造新的音乐表达和可解释的神经模型提供了一种有前景的方法。

GENERATING HIGH FIDELITY IMAGESWITH SUBSCALE PIXEL NETWORKSAND MULTIDIMENSIONAL UPSCALING

标题：利用子尺度像素网络和多维上尺度生成高保真图像

作者：Jacob Menick，Nal Kalchbrenner

摘要：无条件生成高保真图像是测试图像解码器性能的一个长期的基准。用于测试图像解码器的性能。自回归图像模型能够无条件地生成小图像，但将这些方法推广到更容易评估逼真度的大图像，仍然是一个开放性问题。其中的主要挑战是对大量的上下文进行编码的能力，并且，学习保持全局语义一致性和细节精确性的分布也很困难。为了解决前一个挑战，我们提出了一种条件解码器——子尺度像素网络（SPN），它生成的图像是一系列大小相等的子图像。该方法可以捕获图像的空间相关性，并要求对内存进行细分。为了解决后一个挑战，我们建议使用多维上向缩放，通过使用不同的 SPNs，扩大图像的大小和深度。我们评估了无条件生成尺寸为 256 的 CelebAHQ 和尺寸为 32 到 256 的 ImageNet 的 SPN。我们在多个设置中实现了最先进的可能的结果，在以前未探索的设置中建立了新的基准结果，并且能够在两个数据集的基础上生成非常高保真的大规模样本。

META-LEARNING UPDATE RULES FOR UNSUPER[1]VISED REPRESENTATION LEARNING

标题：无监督表示学习的元学习更新规则

作者：Luke Metz，Niru Maheswaranathan，Brian Cheung，Jascha Sohl-Dickstein

摘要：无监督学习的一个主要目标是发现对后续任务有用的数据表示，从而不需要在训练期间访问受监督的标签。通常，这涉及到最小化替代目标，例如生成模型的负对数概率，以期对后续任务有用的表示将会产生影响。在这项工作中，我们建议通过元学习（meta-learning）直接把以后需要的任务当做目标。这是一个无监督的学习规则，它会导致对这些任务有用的表示。具体来说，我们以半监督分类性能为目标，元学习了一个算法，一个无监督的权重更新规则——它生成了对这项任务有用的表示。此外，我们将无监督更新规则约束为生物动机的神经元局部函数，使其能够推广到不同的神经网络体系结构、数据集和数据模式。我们展示了元学习更新规则产生有用的功能，它有时优于现有的无监督学习技术。进一步证明了元学习无监督更新规则推广到具有不同宽度、深度和非线性的训练网络。它还推广到随机置换输入维度的数据的训练，甚至将图像数据集类推到文本任务。

Facebook & Google ICLR 2019 入选论文全名单

Facebook 今年入选的全部论文如下：

A Universal Music Translation Network
A Variational Inequality Perspective on GANs
Adaptive Input Representations for Neural Language Modeling
Algorithmic Framework for Model-based Deep Reinforcement Learning with Theoretical Guarantees
Code2seq: Generating Sequences from Structured Representations of Code
Efficient Lifelong Learning with A-GEM
Environment Probing Interaction Policies
Equi-normalization of Neural Networks
Fluctuation-Dissipation Relations for Stochastic Gradient Descent
Generative Question Answering: Learning to Answer the Whole Question
Hierarchical Proprioceptive Controllers for Locomotion in Mazes
Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future
Learning Exploration Policies for Navigation
Learning When to Communicate at Scale in Multi-agent Cooperative and Competitive Tasks
M3RL: Mind-aware Multi-agent Management Reinforcement Learning
Multiple-Attribute Text Rewriting
No Training Required: Exploring Random Encoders for Sentence Classification
Pay Less Attention with Lightweight and Dynamic Convolutions
Quasi-Hyperbolic Momentum and Adam for Deep Learning
Selfless Sequential Learning
Spreading Vectors for Similarity Search
Unsupervised Hyper-Alignment for Multilingual Word Embeddings
Value Propagation Networks

Google 今年入选的全部论文如下：

oral：

Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling
Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
Meta-Learning Update Rules for Unsupervised Representation Learning

posters：

A Data-Driven and Distributed Approach to Sparse Signal Representation and Recovery
Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes
Diversity-Sensitive Conditional Generative Adversarial Networks
Diversity and Depth in Per-Example Routing Models
Eidetic 3D LSTM: A Model for Video Prediction and Beyond
GANSynth: Adversarial Neural Audio Synthesis
K for the Price of 1: Parameter-efficient Multi-task and Transfer Learning
Learning to Describe Scenes with Programs
Learning to Infer and Execute 3D Shape Programs
The Singular Values of Convolutional Layers
Unsupervised Discovery of Parts, Structure, and Dynamics
Adversarial Reprogramming of Neural Networks
Discriminator Rejection Sampling
On Self Modulation for Generative Adversarial Networks
Towards GAN Benchmarks Which Require Generalization
Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer
A new dog learns old tricks: RL finds classic optimization algorithms
Contingency-Aware Exploration in Reinforcement Learning
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
Diversity is All You Need: Learning Skills without a Reward Function
Episodic Curiosity through Reachability
Learning to Navigate the Web
Meta-Learning Probabilistic Inference for Prediction
Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering
Near-Optimal Representation Learning for Hierarchical Reinforcement Learning
Neural Logic Machines
Neural Program Repair by Jointly Learning to Localize and Repair
Optimal Completion Distillation for Sequence Learning
Recall Traces: Backtracking Models for Efficient Reinforcement Learning
Sample Efficient Adaptive Text-to-Speech
Synthetic Datasets for Neural Program Synthesis
The Laplacian in RL: Learning Representations with Efficient Approximations
A Mean Field Theory of Batch Normalization
Efficient Training on Very Large Corpora via Gramian Estimation
Predicting the Generalization Gap in Deep Networks with Margin Distributions
InfoBot: Transfer and Exploration via the Information Bottleneck
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks
Complement Objective Training
DOM-Q-NET: Grounded RL on Structured Language
From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following
Harmonic Unpaired Image-to-image Translation
Hierarchical Generative Modeling for Controllable Speech Synthesis
Learning Finite State Representations of Recurrent Policy Networks
Learning to Screen for Fast Softmax Inference on Large Vocabulary Neural Networks
Music Transformer: Generating Music with Long-Term Structure
Universal Transformers
What do you learn from context? Probing for sentence structure in contextualized word representations
Doubly Reparameterized Gradient Estimators for Monte Carlo Objectives
How Important Is a Neuron?
Integer Networks for Data Compression with Latent-Variable Models
Modeling Uncertainty with Hedged Instance Embeddings
Preventing Posterior Collapse with delta-VAEs
Spectral Inference Networks: Unifying Deep and Spectral Learning
Stochastic Prediction of Multi-Agent Interactions from Partial Observations