CVPR 2018 中国论文分享会之「视觉与语言」

本文作者： camel

2018-06-10 21:06

导语：微软、自动化所、西北工业、华南理工

雷锋网 AI 科技评论按：视觉与语言的结合，相较于分割、检测来讲是比较新的研究领域，但或许正是因为如此，在这个领域还有很多有待探索的地方。本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第四个 Session——「Vision and Language」环节的四场论文报告。

在第一个报告中，微软亚洲研究院的段楠博士介绍了他们将 VQA（视觉问答）和 VQG（视觉问题生成）两项任务结合成一个统一模型 iQAN 的工作。由于 VAQ 与 VQG 在某种程度上具有同构的结构和相反的输入输出，因此两者可以相互监督，以进一步同时提升两个任务的表现。

第二个报告由来自中科院自动化所黄岩介绍他们在图文匹配方面的工作。不同与其他方法直接提取图像和句子的特征然后进行相似性比较，他们认为（1）图片比语句包含更多信息；（2）全局图像特征并不一定好，于是他们提出了先对图片进行语义概念提取，再将这些语义概念进行排序，之后再进行图文匹配的比较。

来自西北工业大学的王鹏教授在第三个报告中介绍了他们在 Visual Dialog 生成方面的工作，他们提出了一种基于对抗学习的看图生成对话的方法，这种方法可以在保证问答信息的真实性的情况下，维持对话的连续性。

在第四个报告中，来自华南理工大学的谭明奎教授介绍了他们在 Visual Grounding 任务中的工作，也即给定图片和描述性语句，从图中找出最相关的物体或区域。他们将这个问题分解为三个子 attetion 问题，并在提取其中一中数据的特征时，其他两个作为辅助信息来提升其提取质量。

雷锋网注：

[1] CVPR 2018 中国论文宣讲研讨会由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会合作举办，数十位 CVPR 2018 收录论文的作者在此论坛中分享其最新研究和技术观点。研讨会共包含了 6 个 session（共 22 个报告），1 个论坛，以及 20 多个 posters，AI 科技评论将为您详细报道。

[2] CVPR 2018 将于 6 月 18 - 22 日在美国盐湖城召开。据 CVPR 官网显示，今年大会有超过 3300 篇论文投稿，其中录取 979 篇；相比去年 783 篇论文，今年增长了近 25%。

更多报道请参看雷锋网：

Session 1：GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

一、融合VQA和VQG

论文：Visual Question Generation as Dual Task of Visual Question Answering
报告人：段楠 - 微软亚洲研究院
论文下载地址：https://arxiv.org/abs/1709.07192

所谓 visual question answering (VQA)，即输入 images 和 open-ended questions，生成相关的 answer；而所谓 visual question generation (VQG)，即输入 images 和 answers，能够生成相关的 questions。

CVPR 2018 中国论文分享会之「视觉与语言」

近来的 VQA 和 VQG 都是两个比较热门的研究课题，但是基本上都是独立的研究。段楠认为这两项研究本质上具有同构的结构，即编码-融合-解码通道，不同之处只是 Q 和 A 的位置。因此他们提出将这两个任务融合进同一个端到端的框架 Invertible Question Answering Network (iQAN) 中，利用它们之间的相互关系来共同促进两者的表现。

针对 VQA 部分，他们选用了目前常用的模型 MUTAN VQA，如下图所示：

CVPR 2018 中国论文分享会之「视觉与语言」

MUTAN VQA 本质上是一个双线性融合模型。考虑到 VQG 与 VQA 同构，因此他们对 MUTAN 稍加改造（如下图将 Q、A 位置互换）得到对偶的 MUTAN 形式：

CVPR 2018 中国论文分享会之「视觉与语言」

通过两个模块中 q 与 Q，a 与 A 的相互监督来提升 VQA 和 VQG 的表现。基于这样的思考，他们构建了端到端的 iQAN 框架如下：

CVPR 2018 中国论文分享会之「视觉与语言」

这里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相应的 VQA loss 和 VQG loss。其次如刚才提到，由 q 与 Q，a 与 A 的相互监督得到 dual regularizer 的 loss。另外，image 即作为 VQA 的输入，也作为 VQG 的输入，因此它们在参数上是共享的，因此他们又做了一个 embedding sharing 的部分。

部分实验结果如下：

CVPR 2018 中国论文分享会之「视觉与语言」

段楠提到，在这篇文章中他们使用的主要是 MUTAN 的框架，而事实上可以很容易替换成别的框架，对比实验如下，分别使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM：

CVPR 2018 中国论文分享会之「视觉与语言」

这里是一个注意力热图结果：

CVPR 2018 中国论文分享会之「视觉与语言」

二、图文匹配

论文：Learning Semantic Concepts and Order for Image and Sentence Matching
报告人：黄岩 - 中科院自动化所
论文下载地址：https://arxiv.org/abs/1712.02036

一张图片包含信息丰富多彩，而如果单单用一个句子来描述就会漏掉许多信息。这或许也是当前图像与文本匹配任务当中的一个问题。黄岩等人针对此问题，提出了学习图像语义概念和顺序，然后再进行图像/文本匹配的思路。

CVPR 2018 中国论文分享会之「视觉与语言」

如上图所示，他们希望能先提取出图像中所包含的基本概念，例如 cheetah、gazelle、grass、green、chasing 等，包括各种事物、属性、关系等；然后学习出这些语义概念的顺序，如 cheetah chasing gazelle grass，显然这里不同的语义顺序也将导致不同的语义意义。基于这些语义概念和顺序在进行图片与文本的匹配。

整体来说，即用多区域、多标签的 CNN 来进行概念预测，用全局上下文模块以及语句生成来进行顺序学习。模型框架如下图所示：

CVPR 2018 中国论文分享会之「视觉与语言」

（a）针对句子用 LSTM 学习其特性；（b）使用多区域、多标签的 CNN 从图中进行语义概念提取；（c）使用 VGGNet 提取上下文信息；（d）利用提取出的语义概念和上下文的信息，例如空间位置等，通过 gated fusion unit 对语义进行排序；（e）此外，他们还发现事实上语句本身也包含着「顺序」的信息，因此他们利用生成的语句作为监督来学习语义顺序，进一步提高语义顺序的准确性。最后通过学习出的语义概念和顺序进行相似性打分，判断图像与句子是否匹配。

其实验结果与当前的一些 state-of-art 方法对比如下：

CVPR 2018 中国论文分享会之「视觉与语言」

可以看出，在两个数据集中该方法的表现相比其他方法都有显著的提升。下面是一个实例：

CVPR 2018 中国论文分享会之「视觉与语言」

ctx = context，cnp = concept，gen = generation。其中 groundtruth 匹配语句用红色标注；与 groundtruth 有相同意思的句子以下划线标注。

三、看图写对话

论文：Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning
报告人：王鹏 - 西北工业大学
论文下载地址：https://arxiv.org/abs/1711.07613

所谓 Visual Dialog Generation，简单来讲，即以一张图片和对话历史为条件来回答相关问题。相比于 NLP 领域的对话，其不同之处在于输入中除了 dialog history 和 question 外，还有一个图片信息；而相比于 Visual Answer 则多了 dialog history。如下图所示：

CVPR 2018 中国论文分享会之「视觉与语言」

一个很自然的想法就是仍然使用 Visual Answer 中的方案，将 dialog history 中的每一对对话视作图片中的一个 fact 去提取和生成。这种方法有一个缺点，及 Visual Answer 任务的重点是针对问题给出一个尽可能对的答案。但是对于 dialog 任务来讲，除了回答正确外，还需要维持对话的有序进行。在对话中一个好的回答是，除了回答问题外，还要提供更多的信息，以便提问者能够根据这信息继续问下去。

基于这样的想法，王鹏等人提出了基于对抗学习的方式来生成 Visual Dialog。具体来讲，他们使用了较为传统的 dialog generator，即针对 image、question 和 dialog history 分别使用 CNN 和 LSTM 对其进行编码，随后经过 co-attention 模型对每个 local representation 给出一个权重，然后将 local feature 做一个带权求和从而得到 attented feature，将该 feature 经过 LSTM 解码即可得到一个相应的 Answer。

CVPR 2018 中国论文分享会之「视觉与语言」

在这个模型中关键的一点是他们在模型的后面加入一个鉴别器，通过它来区分输入的答案是人产生的还是机器产生的。这里输入的不仅有相应的 question 和 Answer，还有 attention 的 output，以便让鉴别器在一定的环境下分析 Q、A 是否合理。鉴别器产生的概率将作为生成器的 reward，以对生成器的参数进行更新。

这里需要重点提一下生成器中的 Co-attention 模型，这是一个序列 Co-attention 模型，他们也曾将这个模型用在 CVPR 2017 中的一篇文章中。如下图所示：

CVPR 2018 中国论文分享会之「视觉与语言」

首先对 Question 做一个 attention，然后将结果作为 guidance 在 Image 上做 attention，从而得到 image 的feature；时候再把这两个的结果作为 guidance 在 history dialog 上做 attention，得到 history dialog 的 feature；如此往复，不断把结果提高。最终将输出 feature 作为整个模型的表示。

其算法如下所示：

CVPR 2018 中国论文分享会之「视觉与语言」

其实验结果显示比其他方法有很大提升：

CVPR 2018 中国论文分享会之「视觉与语言」

一个实例如下：

CVPR 2018 中国论文分享会之「视觉与语言」

可以看出其生成对话的长度，相比其他方法要更长（这某种程度上也意味着包含更多的信息）。

四、如何找到竹筐里的熊猫？

论文：Visual grounding via accumulated attention
报告人：谭明奎 - 华南理工大学
论文下载地址：暂无

Visual Grounding 任务是指：当给定一张图片以及一句描述性句子，从图片中找出最相关的对象或区域。形象来说，如下图：

CVPR 2018 中国论文分享会之「视觉与语言」

Visual Grounding 任务即从图中找出「在竹筐中的熊猫」（注意：而不是在地上的熊猫）。

据谭明奎教授介绍这篇文章的工作是由华南理工大学的一名本科生完成。在文章中，作者针对此任务，提出了 Accumulate Attention 方法，将 Visual Grounding 转化为三个子问题，即 1）定位查询文本中的关键单词；2）定位图片中的相关区域；3）寻找目标物体。

CVPR 2018 中国论文分享会之「视觉与语言」

作者针对这三个子问题分别设计了三种 Attention 模块，分别从文本、图像以及候选物体三种数据中提取特征。

CVPR 2018 中国论文分享会之「视觉与语言」

首先针对文本、图像以及物体，他们分别使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 来提取特征，然后使用 attention 机制计算出每个三种数据特征向量每个元素的权重。

CVPR 2018 中国论文分享会之「视觉与语言」

作者在提取一种特征的过程中，将另外两种数据的特征作为辅助信息来提高特征提取的质量。Accumulate Attention 方法按照循环的方式不断对这三种数据进行特征提取，使得特征的质量不断提高，分配在目标相关的数据上的 attention 权重不断加大，而分配在无关的噪声数据上的 attention 权重则不断减小。

CVPR 2018 中国论文分享会之「视觉与语言」