上海交通大学ECCV 2018四篇入选论文解读

本文作者：奕欣

2018-08-09 17:44

导语：上海交通大学 SJTU-UCLA 机器感知与推理联合研究中心有 4 篇论文入选，研究方向涉及自动驾驶、视频理解、视觉跟踪以及新型神经网络。

7 月 3 日，国际人工智能及计算机视觉顶级会议 ECCV 2018 论文接收列表公布，今年的 ECCV 大会将在德国慕尼黑举行。据雷锋网了解，上海交通大学 SJTU-UCLA 机器感知与推理联合研究中心有 4 篇论文入选，研究方向涉及自动驾驶、视频理解、视觉跟踪以及新型神经网络。本文对这几篇论文做了简介，更多详细内容可通过论文网盘链接下载查看。

ECCV 2018 论文接收列表：

https://docs.google.com/document/d/1FuKeKgTxm_Vt8cH3HbNxaYuU8T4NnhjAm6xVGetKXgA/edit?usp=sharing

Paper 1：《Deep Regression Tracking with Shrinkage Loss》

基于收缩损失函数的目标跟踪

网盘链接：https://pan.baidu.com/s/1GnwYrzI5NNL-1ONy-z8jsQ

目标跟踪任务旨在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。目标跟踪在视频监控，人机交互，无人驾驶等领域有着极大的应用价值。由于目标姿态、外观、光照、遮挡等因素的影响，目标跟踪仍然是一个极具挑战的任务。为了解决目标跟踪算法训练样本不均衡的问题，作者在这篇 ECCV 的工作中提出了一个基于收缩损失函数的深度回归跟踪算法，针对基于深度回归的目标跟踪中样本不平衡问题，本文提出的收缩损失函数显著提升了性能。

基于深度回归的目标跟踪算法，通常在目标周围的上下文区域中利用一个高斯热图（图 1 b）来训练一个正比于目标尺寸的卷积层作为跟踪器。在这个训练过程中，卷积核采用密集滑窗的方式产生样本（图 1 a 所示）。这样导致大量冗余的易分样本（图 1 d 所示），进而导致训练样本的不平衡问题。

上海交通大学ECCV 2018四篇入选论文解读

图 1. 给定搜索区域 (a) 以及对应的标签 Y (b)。图 (c) 表示回归相应图，图 (d) 是预测与标签数值之间差值的分布直方图

传统的基于深度回归的网络采用的是 L2 损失函数，对所有参与训练的样本的惩罚力度是一样的。这样导致网络训练的时候，集中在了容易训练的样本，也就是冗余的负样本上。为了解决这个问题，在这项工作中，作者提出了收缩损失函数 (Shrinkage loss) 的端到端目标跟踪算法。作者提出的收缩损失函数，对于容易训练样本的损失输出进行压缩同时保证难分样本的损失数值，进而影响到梯度对网络的学习，这样获得深度回归网络更加关注正样本以及难分的负样本的学习，缓解了网络的过拟合问题。此方法在 OTB-2013、OTB-2015，Temple-128 以及 VOT-2016 数据集上实现了和当前最优的 ECO 跟踪算法相当的结果。图 2 可视化了不同损失函数下的结果，可以看出我们的方法实现了更好的跟踪结果。

上海交通大学ECCV 2018四篇入选论文解读

图 2. 不同损失函数下的跟踪效果

Paper 2：《Geometric Constrained Joint Lane Segmentation and Lane Boundary Detection》

基于几何约束的车道分割与车道边界检测

网盘链接：https://pan.baidu.com/s/1wxu3BT_1ONsHkO_Gzx1VYw

在智能驾驶问题中，环境感知是极其重要的一环。车道检测目的在于检测车辆可行驶道路，为智能驾驶决策提供支持。目前已有的车道检测工作大多集中于使用卷积神经网络直接进行语义分割，而没有考虑到车道固有的几何信息。针对车道检测中的鲁棒性问题，本文提出了一个多任务神经网络，引入车道本身与边界之间的几何先验知识进行车道检测，并得到了良好的实验结果。上海交通大学ECCV 2018四篇入选论文解读

图 1. 相较于现有方法，我们的方法使得两个具有几何相关性的任务，即 Lane segmentation sub-network 与 Lane boundary detection sub-network 在特征提取层与决策层上有效互补，同时提升两个网络的性能

网络首先采用传统的多任务网络结构，同时进行车道分割、车道边界检测。在得到初步的检测结果后，网络将通过对其中一个任务输出结果重新卷积，形成补充信息，对另一任务的结果进行修正。由于两个任务之间存在一定的内在关系，因此修正能显著地提高了网络的性能，使网络同时关注输入图片中的关键特征与互补特征。同时，根据两个任务之间的几何先验知识，网络引入不同的损失函数，一方面通过车道的外边界一致性约束车道分割的训练，另一方面通过车道线内部区域一致性约束车道边界检测，进一步提升网络精度。上海交通大学ECCV 2018四篇入选论文解读

图 2. 性能对比。左图为本文结果。其中绿色区域代表 True Positive，蓝色区域代表 False Positive，红色区域代表 False Negative。可以看出与其他 state-of-art 方法对比，本文在精度上有极大的提高

Paper 3：《Quaternion Convolution Neural Networks》

四元卷积神经网络

网盘地址：https://pan.baidu.com/s/1oAX_SqtGzyENa35BPcbE0g

在计算机视觉领域，卷积神经网络可谓是近年来最为流行的算法，受到了非常广泛的关注。目前，绝大多数的相关工作都局限于实数域的卷积神经网络，而针对计算机视觉中最为常见的多通道彩色图像却缺乏针对性的矢量卷积处理方式。为了解决这一问题，作者在这篇文章中首次提出四元卷积神经网络，构建了基于四元数运算的卷积和全连接等操作。针对卷积神经网络对彩色图像各通道分别处理而忽略它们之间相关性的问题，本文提出了四元卷积神经网络，利用四元数运算直接对三维颜色矢量进行处理，在一系列任务上取得了良好的实验结果。

上海交通大学ECCV 2018四篇入选论文解读

图 1. 四元卷积操作与实数卷积基本操作的对比

如图所示，实数卷积核利用三个滤波器对三个颜色通道的数据分别卷积并相加，即在三个通道上进行独立的标量拉伸，通过网络训练生成单通道的特征图。相比之下，四元卷积核则直接对颜色矢量进行旋转和拉伸，通过网络训练直接生成彩色的特征图。作者提出，四元卷积应当实现以下两点要求：

1. 对每个颜色矢量，能够在整个颜色空间中进行变换以寻求最优表示。

2. 对于灰度图像输入，能够与实数卷积完成等价的操作。

为此，本文引入双边四元数乘法来实现三维空间中颜色矢量旋转的性质，提出将滑窗内的颜色矢量旋转和放缩后相加，可期望每个颜色矢量能充分遍历颜色空间。同时，将旋转轴限定为灰度轴。当输入的图像为灰度图像，此时等价于仅对输入像素的灰度值进行了放缩变换，这和实数卷积中的操作是相同的。也就是说，实数卷积神经网络是本文所提出的四元卷积神经网络的一个特例。

对于全连接层，可以将其看作特殊的 1*1 卷积，这样就可以构建出完整的四元卷积神经网络。作者对四元卷积神经网络中各层的正向与反向传播过程进行了推导，并探索了参数的初始化方法及激活函数的设置，成功利用四元卷积神经网络完成了彩色图像分类和去噪的任务。实验结果表明在这些任务中四元卷积神经网络能够取得优于相同结构的实数卷积神经网络的结果，尤其是对于色彩鲜艳纹理丰富的图像优势较为明显。

上海交通大学ECCV 2018四篇入选论文解读

图 2. 在 COCO 的一个子集的去噪任务上使用同一个 Encoder-Decoder 结构的四元卷积神经网络与实数网络效果对比上海交通大学ECCV 2018四篇入选论文解读

图 3. 在 Cifar-10 的分类任务上使用同一个浅层网络结构时四元卷积神经网络和实数网络的准确度对比

Paper 4：《Egocentric Activity Prediction via Event Modulated Attention》

基于异步事件注意力的第一人称视频预测

网盘链接：https://pan.baidu.com/s/1wyjQuL0zxj-dkfTO6K_bRw

第一人称视频行为预测问题是一个极具研究价值的问题。其应用场景包括生活辅助（Assist living）、机器人行为研究等。目前，基于第一人称视频的行为分析技术大多适用于行为识别，而不能够应用于行为预测问题。其原因在于，大多数现有的方法，使用了时序同步的特征处理框架，因而不能够有效地对时序异步事件来进行建模。本文针对这一问题，创造性地提出了 Gaze-事件驱动的异步/同步网络模型，再结合注意力模型，取得了良好的实验结果。

上海交通大学ECCV 2018四篇入选论文解读

图 1. 相较于目前已有方法，我们的方法不但能够对同步特征进行建模，还能够充分地利用异步事件信息，同时注意力模型能够对视频序列包含的冗余帧信息进行修剪，从而提升网络的行为预测性能

本文提出的网络框架包括同步和异步两个模块。同步模块以 hand-mask 和 gaze-point 为输入特征，经过一个 FCN 网络和 LSTM 模块得到同步特征。异步模块以异步事件信号和 Object-gaze 特征序列为输入特征，并经过 LSTM 模型得到异步特征。辅以注意力模型进行特征融合，最终得到行为预测结果。实验结果表明，模型结合异步信息后能够显著提高模型对行为的预测能力，在数据集 Gaze（Gaze+）分别比 baseline 提升 5.6%（11.8%），同时，注意力模型的引入也能够进一步提高模型的精度，在数据集 Gaze（Gaze+）分别提升 1.6%（1.3%）。

注：上海交通大学 SJTU-UCLA 机器感知与推理联合研究中心主任为长江学者张文军教授，由倪冰冰教授、徐奕教授指导多个研究小组。该联合中心主要研究方向为：新一代人工智能基础理论、智能视频理解及创意互动媒体、智能医疗影像分析。联合中心于 2018 年 6 月正式成立，联合中心的外方专家有国际计算机视觉与图像学权威、著名的 SNAKE 模型发明人，Demetri Terzopoulos 教授，以及图灵奖获得者、概率推理理论的奠基人 Judea Pearl 教授。截止到目前，联合中心已发表 30 余篇 CCF-A 类顶级论文。

雷锋网报道，更多学术内容敬请关注雷锋网AI科技评论。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

1人收藏

奕欣

初心者

扫描关注作者微信

发私信

当月热门文章