CVPR 2018摘要：第一部分

本文作者： AI研习社-译站

2018-11-23 10:07

导语：CVPR 2018年回顾，第一部分

CVPR 2018摘要：第一部分

本文为 AI 研习社编译的技术博客，原标题：
NeuroNuggets: CVPR 2018 in Review, Part I
作者 | Sergey Nikolenko、Aleksey Artamonov
翻译 | 老赵校对 | 李晶
整理 | 菠萝妹
原文链接：
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202

NeuroNuggets：CVPR 2018年回顾，第一部分

在Neuromation，我们一直在寻找有助于我们的研究的新的有趣想法。还有什么比顶级会议更适合寻找它们的地方。我们已经在CVPR（计算机视觉和模式识别）会议的研讨会DeepGlobe介绍了我们如何取得成功。这次我们将仔细研究一下CVPR本身最有趣的论文。这段时间，顶级会议是非常重要的事情，所以我们准备了一系列的推文。我们介绍的论文没有特别的顺序，不仅选择优秀的论文，而且与我们在Neuromation所做的研究相关。这一次，Aleksey Artamonov（你以前见过的人）准备了这份列表，我试图对其补充一些介绍。在这个系列中，我们将非常简短，试图从每篇论文中提取最多一个有趣的点，所以在这种方式我们不能真正了解完整的工作，并强烈建议完整阅读论文。

GAN和计算机视觉

在第一部分中，我们专注于生成模型，即不仅可以区分猫狗，还可以生成新的猫和狗图像的机器学习模型。对于计算机视觉，最成功的一类生成模型是生成性对抗网络（GAN），其鉴别器网络学习区分生成的对象和真实对象，生成器学习去欺骗鉴别器。我们已经多次写过GAN（例如，这里和这里），所以让我们直接进入正题。

寻找户外的小脸

Y. Bai等人，用生成性对抗网络在户外寻找小小的面孔

CVPR 2018摘要：第一部分

在沙特和中国研究人员的合作中，作者使用GAN来检测和放大人群照片上的非常小的面孔。即使仅检测小面孔也是一个有趣的问题，普通的人脸检测器（例如，在我们之前的帖子中出现）通常无法解决该问题。在这里，作者提出了一个端到端的流水线来提取面部，然后应用生成模型将其提升到4倍（一个称为超分辨率的过程）。以下是论文中的流水线概览：

CVPR 2018摘要：第一部分

PairedCycleGAN化妆

H. Chang等人，PairedCycleGAN：用于和去除化妆的不对称样式转移

CVPR 2018摘要：第一部分

条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率，GAN也成功应用于风格转换。使用GAN，可以学习与特定图像元素相对应的显着特征 - 然后更改它们。在这项工作中，来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。这项工作的一个有趣的部分是作者为不同的脸部组成部分（眼睛，嘴唇，皮肤）训练单独的生成器并分别应用它们，用不同的网络提取脸部组成部分：

CVPR 2018摘要：第一部分

GANerated Hands

F. Mueller等人，GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking

CVPR 2018摘要：第一部分

我们已经写过关于姿势估计的文章。姿势估计的一个非常重要的子集（通常需要单独的模型）是手部跟踪。通过挥动双手来操纵计算机的科幻主题尚未完全实现，仍然需要专门的硬件，如Kinect。像往常一样，主要问题之一是数据：在哪里可以找到3D标记的真实视频流？在这项工作中，作者提出了一种条件GAN架构，能够将合成的3D模型转换为图像然后用于训练手部跟踪网络。这项工作非常吸引我们，合成数据是Neuromation研究的重点，所以我们之后可能会更详细地考虑它。同时，这里是“合成到实际”的GAN架构：

CVPR 2018摘要：第一部分

行人迁移GAN

L. Wei 等人，Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018摘要：第一部分

人物重新识别（ReID）是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。这个问题自然而然地成为许多研究的主题，现在已经相对较好地解决了，但是领域差异问题仍然存在：不同的数据集与人物的图像具有非常不同的条件（照明，背景等），在一个数据集上训练的网络在转移到另一个数据集（以及例如现实世界的应用程序）时损失很大。上图展示了不同的数据集。为了解决这个问题，这项工作提出了一种GAN架构，能够将图像从一种“数据集样式”转移到另一种“数据集样式”，使用GAN来通过复杂的变换增强真实数据。它的工作原理如下：

CVPR 2018摘要：第一部分

生成模型的眼睛图像合成

K.Wang等人，用于眼睛图像合成和眼睛凝视估计的分层生成模型

CVPR 2018摘要：第一部分

伦斯勒理工学院的这项工作解决一个非常特殊的问题：生成人眼的图像。这不仅对于生成图像中漂亮的眼睛重要，而且用生成的眼睛解决视线估计问题：人们在看什么？这将为真正的科幻界面铺平道路......但这仍然是未来，目前甚至合成眼睛生成也是一个非常难的问题。作者提出了一个复杂的眼形合成概率模型，并提出了一个GAN架构，根据这个模型生成眼睛 - 取得了巨大的成功。

CVPR 2018摘要：第一部分

图像修复：填写空白

J. Yu等人，Generative Image Inpainting with Contextual Attention

CVPR 2018摘要：第一部分

Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题（见上面的例子）。通常，修复图像需要了解潜在场景：在上图中的右上角，你已经知道脸部是什么样的，以及我们根据看到的头发和颈部预测脸可能是什么样的。在这项工作中，作者提出了一种基于GAN的方法，可以利用周围图像的特征来改善生成。该结构由两部分组成，首先生成粗略结果，然后使用另一个网络对其进行细化。结果非常不错：

CVPR 2018摘要：第一部分