ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

本文作者： camel

2019-11-29 11:12

专题：ICCV 2019

导语：更懂车，更懂人~

语音播放文章内容

由深声科技提供技术支持

本文由汽车之家王磊向雷锋网AI科技评论投稿，未经允许禁止转载。

作者 | 王磊

本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作。针对视频多标签分类的问题，论文提出了将视频多标签之间相关性特征加入到网络之中，结果证明该方法可以显著的提高视频多标签分类效果。

一、背景介绍

随着视频应用的不断普及，视频内容理解与分析成为计算机视觉领域的一个热门研究方向。2017年，Google开源了其大规模视频内容数据集Youtube8M，鼓励研究者通过该数据集利用深度学习技术进行视频理解的研究。

最新的Youtube-8M数据集包括两部分，第一部分为video-level（视频层级）的标注，该部分总计包含610万个已标注的视频，3862个分类，平均每个视频标注了3个标签；第二部分为segment-level（视频片段标注），该部分挑选了1000个分类，对视频中随机抽取的5秒片段进行标注，该部分总共有23.7万个标注数据；值得注意的是，segment-level的数据标注仅标注了抽取的5秒视频片段是否属于某一特定标签，并没有标识该视频片段的所有标签。

二、标签相关性

近年来，视频理解成为计算机视觉领域的一个热点方向。相比较图像内容，视频内容更为复杂多样，因此对于视频内容而言，单个标签很难完整的表征视频的内容，对于视频内容理解分析大多为多标签的分类问题。

在视频标签中，很多标签之间会有一定的相关性并成对出现；如图一所示（标签从Youtube8M数据集中选取），当宝马（BMW）、发动机（Engine）的标签出现时，汽车（Car）的标签大概率也会出现；但是当汽车的标签出现时，宝马标签出现的可能性则非常低。

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

图1.标签有向图示例

通过对Youtube8M数据集的部分标签数据进行分析，可以得到一个图来表征各个标签之间的关系，如图二所示。图二中每个不同颜色的节点代表一个独立的标签类别，不同节点之间的连线代表着两个节点之间是否有相关性，节点之间连线上的数值则代表了不同的标签之间联系的紧密程度，数值越大，则联系越高；没有联系的节点之间则不会有线连接。

通过对视频的多标签之间的相关性进行建模分析，并通过图神经网络将标签类别映射为对应类别分类器加入到最终的视频多标签分类网络之中，可以提升整体模型的学习分类能力。

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

图2.标签相关性Wighted-Graph表示

三、图卷积神经网络

如何有效获取目标标签之间的相关性？如何利用这些标签相关性提升网络的特征学习以及分类表现？这是视频多标签分类的两个重要问题。由于图的特点可以很好的表征各个标签之间的相互依赖性，因此我们选择基于图神经网络进行建模学习，并用于最终视频分类网络中。一个图神经网络的基本结构如图三所示：

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类图3.图神经网络基本结构

Input输入有两个，一个为特征描述矩阵H（n*d），另一个为相关系数矩阵A（n*n），其中n为节点个数，即所有标签的个数，d为特征的维度，特征维度根据采用的CNN结构决定。

相关系数矩阵是GCN网络中表征标签关系的一个矩阵，因此如何构建相关系数矩阵 A 就成了GCN 模型中一个非常重要的问题。由于Youtube8M数据集有超过600万的video-level的视频标注数据，因此我们可以通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵A。 ${N}_{i}$ 为标签i在数据中出现的次数， ${M}_{ij}$ 为标签i和标签j两个标签一起出现的概率，两者相除便可以得到不同标签之间的条件概率矩阵P。

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

考虑到标注数据中可能存在不准确的情况以及标签在训练和测试集中共现的次数可能会相差比较大，因此我们设置了一个阈值剔除相关性比较弱的噪声的影响。对于上面得到的矩阵P，只有其值大于某特定值（论文中为0.5）的时候才会考虑，否则矩阵中这两个标签的相关度会设置为0,因此优化后的条件概率矩阵如下所示：

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

Hidden Layer用来学习节点之间的相关信息并更新节点表示，每一个Hidden Layer都可以用一个非线性函数表示：

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

Hidden Layer可以有多层，堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。在本论文中Hidden Layer为两层，通过训练学习便可以得到优化后的表征标签相关性的矩阵Output，并用于帮助视频标签分类。

四、整体网络

最终的完整网络结构如图四所示，我们使用InceptionV3来提取输入视频的特征；NeXtVLAD网络是第二届Youtube8M比赛单模型冠军网络，该网络可以很好的视频的多维度特征进行聚合，并且在降低特征维度的同时还能很好的保证模型性能；在网络的下半部分，我们用一个双层的GCN网络来帮助进行最后的视频标签分类。最终的对比实验中，加入GCN后的视频多标签分类网络MAP（Mean-Average-Precision）提高了接近一个百分点，GCN网络的加入显著性显著的提高了视频多标签的分类能力；也证明了对于多标签分类任务，通过研究多标签之间的相关依赖关系提升网络分类能力是一个很好的方向。

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类