IROS 2021 | 基于无监督学习环境模型的机器人运动控制

本文作者：我在思考中

2021-09-06 11:58

导语：本文是机器人领域顶级会议 IROS 2021入选论文《基于无监督学习环境模型的机器人运动控制》的解读。该论文由北京大学前沿计算研究中心董豪课题组主导完成。

AI科技评论报道

导读：本文是机器人领域顶级会议 IROS 2021入选论文《基于无监督学习环境模型的机器人运动控制（DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos）》的解读。该论文由北京大学前沿计算研究中心董豪课题组主导完成。

项目主页：https://hyperplane-lab.github.io/dmotion/

论文地址：https://arxiv.org/abs/2103.04301

研究背景

在机器人控制、基于模型的强化学习领域，学习环境的模型是重要的问题。现有方法学习环境模型通常需要大量从环境中采集的带标签的数据，如智能体动作、物体位置、运动的真实标注，在许多现实场景的应用中有局限性。

而认知科学的研究认为，人类婴儿能够仅通过视觉观察，建立物理世界的模型、进行预测。无监督地建立物理模型能够帮助人类与环境交互、操控工具来完成各种任务。如图1的例子所示：玩家 B 通过观察玩家 A 操作，学习如何玩一个游戏。为学会玩游戏，玩家 B 需要建立游戏的模型，知道键盘上的操作（动作标注）与画面中主角动作的对应关系、采取某个动作会如何影响游戏的状态。现实中，玩家 B 大部分时间都会只关注游戏画面，而不去观察玩家 A 操作键盘的每一个动作。对游戏模型的理解，例如哪个是主角、主角和游戏环境是怎么互动的，大多是通过观看游戏画面完成的；观察键盘的操作仅仅是为了知道如何去控制主角的每个动作。

图1. 学习玩游戏的例子

受此启发，我们研究如何利用缺少动作标注的视频数据学会环境模型，来实现基于模型的机器人运动控制。如下图所示，我们提出的方法（DMotion）首先从无监督的视频中解耦智能体的运动、学习物体之间的交互规律；最后通过少量的带有动作标注的数据，DMotion 建立动作标注到智能体运动的映射，学会环境模型。

图2. DMotion学习“机器人推物体”环境的过程

方法简介

图3. DMotion的训练框架，由Object Extractor和Interaction Learner组合，进行端到端的学习

问题定义：环境是马尔可夫决策过程

(S,A,P)

，假设只有一个智能体，动作

a\in A

控制智能体的位移，观测空间是 RGB 图像

x\in X

。提供环境中采集的视频数据

\{\tau =(x_1,\ldots,x_T)\}

和少量带动做标注的数据

\{(x_t,a_t,x_{t+1})\}

作为训练数据，任务的目标是得到环境的模型

P(x_{t+1}|x_{1:t},a_t)

。

物体解耦模块（Object Extractor）：图像编码器（Image Encoder）将输入图像

x_t

分解为一组特征图

\left\{m_t^i\right\}_{i=0}^{n-1}

，来表示不同物体的空间位置信息。运动编码器（Motion Encoder）输入连续几帧图像

(x_t,x_{t+1})

，输出一组空间变换矩阵

\left\{\varphi_t^i\right\}_{i=0}^{n-1}

，来表示每个物体从时刻

t

到

t+1

发生的位置变换。

\varphi

是2*3矩阵，由2*2旋转矩阵和

x,y

方向的平移组成。空间变换器（Spatial Transformer）对特征图进行仿射变换

m_{t+1}^i=ST(m_t^i,\varphi_t^i)

，以得到

t+1

时刻的特征图，再通过解码器（Image Decoder）对图像

x_{t+1}

进行重构。

交互学习模块（Interaction Learner）：此模块输入历史观测

(\ldots,x_{t-1},x_t)

和第一张变换后的特征图

m_{t+1}^0

，输出对

x_{t+1}

的预测。为准确预测

t+1

时刻所有物体的位置，输入

(m_{t+1}^0,x_{1:t})

中必须含有智能体的动作信息

a_t

。而仅当

m_{t+1}^0

是智能体的特征图时，此模块的输入才含有充分的动作信息。

Object Extractor 和 Interaction Learner 在视频数据集上端到端地训练，优化目标是：

直观地，最小化前一项能够激励图像编码器解耦不同的物体、运动编码器分解不同物体的位移，最小化后一项能够激励第一张特征图表示智能体的空间位置信息、交互学习模块学习用

m_{t+1}^0

代替

a_t

的环境模型。

动作映射（Action-Transformation Mapping）：为将交互学习模块转化为输入真实动作

a_t

的环境模型，我们利用少量的带动作标注的数据学习映射

a_t\rightarrow\varphi_t^0

。环境模型做预测的流程如下：输入历史观测

x_{1:t\ }

和智能体动作

a_t

，通过动作映射将

a_t

转换为矩阵

\varphi_t^0

，通过图像编码器提取

m_t^0

，用空间变换器得到

m_{t+1}^0

，最后通过交互学习模块输出下一时刻的观测

x_{t+1}

。

图4. DMotion应用于机器人运动控制的框架

机器人运动控制：DMotion 应用于机器人运动控制的框架如图4所示。给定一个目标图像，规划算法利用学习的环境模型（Forward Model），搜索出最优的决策动作

a_t

，从而控制环境中的机械臂推动物体，达到目标图像的物体摆放位置。

实验结果

视频预测：我们以图像均方误差（MSE）和物体位置的平均误差（Pos err.）为指标，在 Grid World、Robot Pushing 环境中测试视频预测的准确性。表1显示了我们方法的表现比所有使用10%标注数据的有监督方法更好。在多数指标上，我们方法的准确性超过了使用全部标注数据的监督学习方法。

表1. 视频预测的定量结果，数字越小表示越准确

机器人运动控制：我们在 Robot Pushing 环境中测试基于模型的机器人运动控制。图6显示，只有用我们的方法作为环境模型时，能够有效地完成任务，使环境中物体位置与目标位置的距离显著下降。图7对此进行了解释：可视化不同模型做多步预测的过程，只有我们的方法保证了机械臂始终是清晰的，其他方法在多步预测后机械臂的部分均出现模糊，导致规划算法不能有效执行。我们认为，我们的方法对智能体的空间位置和运动进行显式地表示，有利于模型输出智能体不模糊的图像。