今日 Paper | 人体图像生成和衣服虚拟试穿；鲁棒深度学习；图像风格迁移等

本文作者： AI研习社

2020-01-13 15:30

导语：每天都为你精选关于人工智能的前沿学术论文供你学习参考。

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

ClothFlow: A Flow-Based Model for Clothed Person Generation
Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
Cloud-based Image Classification Service Is Not Robust To Simple Transformations: A Forgotten Battlefield
Self-Contained Stylization via Steganography for Reverse and Serial Style Transfer
Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias
node2vec: Scalable Feature Learning for Networks
Can the Exchange Rate Be Used to Predict the Shanghai Composite Index?
Coordination of Autonomous Vehicles: Taxonomy and Survey
A Survey on 3D Object Detection Methods for Autonomous Driving Applications

ClothFlow: 基于流程的人员生成模型

论文名称：ClothFlow: A Flow-Based Model for Clothed Person Generation

作者：Xintong Han / Xiaojun Hu / Weilin Huang / Matthew R. Scott

发表时间：2019/10/27

论文链接：https://paper.yanxishe.com/review/8611?from=leiphonecolumn_paperreview0113

推荐理由：

提出了一个基于外观流的生成模型ClothFlow，该模型可以合成穿衣人，用于定位引导的人的图像生成和虚拟试穿。ClothFlow通过估计源和目标服装区域之间的密集流动，有效地模拟了几何变化，自然地转移了外观，合成了新的图像，如图1所示。我们通过一个three-stage框架实现了这一点:1)以目标姿态为条件，我们首先估计一个人的语义布局，为生成过程提供更丰富的指导。2)级联流量估计网络建立在两个特征金字塔网络的基础上，准确地估计出对应服装区域之间的外观匹配。由此产生的稠密流扭曲源图像，灵活地解释变形。3)最后，生成网络以扭曲的服装区域为输入，呈现目标视图。我们在深度时尚数据集和VITON数据集上进行了大量的实验，分别用于定位引导的人物图像生成和虚拟实验任务。较强的定性和定量结果验证了该方法的有效性。

Pose-guided person generation 和Virtual try>※ Deformation-based methods (eg: affine ; TPS；NN)

※ DensePose-based methods

即基于变形的方法和基于密度的方法

几何变形的更好的外观转移，但是较大的几何变换，容易导致不准确、不自然的变换估计

基于密度的方法，映射2D图片到3D的人身体，结果看起来不够逼真。

因此作者提出的ClothFlow：a flow-based generative model ；解决衣服变形clothing deformation；从而更好的合成人穿衣的图片；

双向门控递归单元网络的表格结构提取

论文名称：Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks

作者：Khan Saqib Ali /Khalid Syed Muhammad Daniyal /Shahzad Muhammad Ali /Shafait Faisal

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8614?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文要解决的是表格结构识别的问题。

表向读者呈现了汇总的结构化信息，这使表结构提取成为理解应用程序的重要组成部分。但是，表结构的识别是一个难题，这不仅是因为表布局和样式的变化很大，而且还因为页面布局和噪声污染水平的变化。已经进行了很多研究来识别桌子的结构，其中大部分是基于借助光学字符识别（OCR）将启发式方法应用于桌子的手抓布局特征的。由于表布局的变化以及OCR产生的错误，这些方法无法很好地概括。

在本文中，作者提出了一种基于鲁棒深度学习的方法，可以从文档图像中的检测表中高精度提取行和列。在提出的解决方案中，首先对表格图像进行预处理，然后将其馈送到具有门控循环单元（GRU）的双向循环神经网络，然后是具有最大软激活的完全连接层。网络从上到下以及从左到右扫描图像，并将每个输入分类为行分隔符或列分隔符。作者已经在公开的UNLV以及ICDAR 2013数据集上对作者的系统进行了基准测试，在该数据集上，其性能远远超过了最新的表格结构提取系统。这篇论文在公开的UNLV和ICDAR 2013数据集上进行了实验，验证了所提出的方法显著优于当前该领域的最佳方案。

SPACE：通过空间注意和分解的无监督的面向对象的场景表示

论文名称：SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

作者：Lin Zhixuan /Wu Yi-Fu /Peri Skand Vishwanath /Sun Weihao /Singh Gautam /Deng Fei /Jiang Jindong /Ahn Sungjin

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8615?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文考虑的是多目标场景分解的问题。

基于对象的场景表示学习的无监督方法可以分为基于空间注意力机制和基于场景混合这两类，然而这些方法都受限于可扩展性，阻碍了它们进一步应用于现实场景。这篇论文提出一个名为SPACE的生成潜在变量模型，以提供一套统一的概率建模框架来组合空间注意力与场景混合中的最佳方法。SPACE可以为前景对象提供精准的分解对象表示信息，同时分解复杂形态的背景片段。另外，SPACE也通过引入并行的空间注意力机制解决了扩展性问题，因而可以应用到含有大量对象的场景中。在Atari和3D-Rooms上的实验表明，SPACE与先前的方法SPAIR，IODINE和GENESIS相比具有更好的表现。作者们也提供了项目的网站(https://sites.google.com/view/space-project-page)。

基于云的图像分类服务对简单的转换不是很鲁棒：一个被遗忘的战场

论文名称：Cloud-based Image Classification Service Is Not Robust To Simple Transformations: A Forgotten Battlefield

作者：Goodman Dou /Wei Tao

发表时间：2019/6/19

论文链接：https://paper.yanxishe.com/review/8617?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文考虑的是对基于云的图像分类服务的对抗样例生成问题。

基于云的图像分类服务对于诸如高斯噪声、椒盐噪声、旋转和单色化之类的简单转换（ST）并不鲁棒。基于这一点，这篇论文提出了一个图像融合攻击（Image Fusion，IF）方法，利用OpenCV就可以实现，而且很难防御。这篇论文在Amazon，Google，Microsoft，Clarifai在内的四个流行云平台上评估了ST和IF方法，实验结果表明除了在Amazon上成功率在50%之外，ST在其他的平台上的攻击成功率都为100%，而IF方法在不同分类服务中的成功率均超过98％。

用于反向和串行风格迁移的通过隐写术进行的自包含样式化

论文名称：Self-Contained Stylization via Steganography for Reverse and Serial Style Transfer

作者：Chen Hung-Yu /Fang I-Sheng /Chiu Wei-Chen

发表时间：2018/12/10

论文链接：https://paper.yanxishe.com/review/8618?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文考虑的是图像风格迁移的问题。

给定一个风格化的图像，使用典型的风格迁移方法进行去样式化或将其再次转换为另一种样式，通常会得到伪像或不良的结果。这篇论文认为这类问题是由于原始图像与其样式输出之间的内容不一致所导致的。这篇论文提出利用隐写术在迁移过程中保持输入图像内容信息，并提出了一个两阶段的方法和一个端到端的方法。实验结果表明这篇论文提出的方法不仅能生成与典型风格迁移方法所产生的图像质量相当的风格化图像，而且还可以有效消除重建原始输入时引入的伪像。

不要通过上下文来判断对象：学会克服上下文的偏见

论文名称：Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias

作者：Singh Krishna Kumar /Mahajan Dhruv /Grauman Kristen /Lee Yong Jae /Feiszli Matt /Ghadiyaram Deepti

发表时间：2020/1/9

论文链接：https://paper.yanxishe.com/review/8619?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文考虑的是对象识别问题。

在对象识别中，现有模型常常利用对象和其上下文的共现信息来提升识别准确率。但是，严重依赖上下文可能会对模型的泛化性造成风险。这篇论文试图解决这种上下文偏移问题，以提升学到的特征表示的鲁棒性，使得在一个对象的上下文缺失的情况下依然能准确识别出其类型。这篇论文的核心想法是从共现的上下文中去掉与类别的特征表示相关的信息，通过联合学习两类特征空间，一类特征子空间能在没有共现的情况下精准表示类别，另一类则同时表示类别和上下文。在四个充满挑战的数据集上的实验证明这篇论文所提出的方法的有效性。

node2vec 网络特征学习算法

论文名称：node2vec: Scalable Feature Learning for Networks

作者：Grover Aditya /Leskovec Jure

发表时间：2016/7/3

论文链接：https://paper.yanxishe.com/review/8624?from=leiphonecolumn_paperreview0113

推荐理由：本文来自网络分析超强组Stanford的Jure组.

deepwalk作为一种基于随机游走的网络表示学习算法,通过在网络进行随机游走来获取节点序列.

但是网络上的随机游走有深度优先和广度优先,并且他们可以从不同角度来捕获网络本身结构特点.本文在deepwalk的基础上设计了一种个性化的随机游走,通过两个超参数p和q来控制随机游走的方向.需要注意的是,当p=q=1的时候,node2vec退化成deepwalk.至于表示学习模型的部分还是skip-gram并没有本质变化.

实验结果也验证了本文所提出算法的有效性.

汇率可以用来预测上证指数吗？

论文名称：Can the Exchange Rate Be Used to Predict the Shanghai Composite Index?

作者：Jun Zhang / Yuan-Hai Shao /Ling-Wei Huang /Jia-Ying Teng / Yu-Ting Zhao /Zhu-Kai Yang / Xin-Yang Li

发表时间：2019/12/25

论文链接：https://paper.yanxishe.com/review/8612?from=leiphonecolumn_paperreview0113

推荐理由：这篇论文首次尝试了直接利用汇率来预测上证指数，基本做法是构建基于汇率的技术指标作为输入特征，然后利用SVM进行走势的分类。通过与基于其他输入（例如基于历史价量的技术指标、新闻数据等）的预测相比，这篇论文证明了通过汇率来预测具有相近的表现。并且这篇论文公开了相应的数据和Matlab代码。

这篇论文的关注点在于输入数据，而没有采用特别复杂的模型，例如深度学习模型等。目前多数据源作为输入来预测股市的走势正在成为趋势，往往会比采用单一数据具有更好的表现。

自动驾驶车辆的协调：分类和综述

论文名称：Coordination of Autonomous Vehicles: Taxonomy and Survey

作者：Mariani Stefano /Cabri Giacomo /Zambonelli Franco

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8613?from=leiphonecolumn_paperreview0113

推荐理由：这是一篇关于自动驾驶车辆调度问题的综述。自动驾驶的车辆之间需要进行协调，以正确处理对共享资源的访问（例如交叉路口和停车位）以及执行机动任务（例如坡道合并）。这篇论文首先通过识别和构建关键的调度问题类别，介绍与自动驾驶汽车调度相关的一般问题。然后概述了可用于管理此类调度问题的不同方法，并根据调度协调过程中车辆的决策自主程度对这些方法进行分类。最后，这篇论文概述了在自动驾驶车辆能够实用之前，必须解决的其他一些特殊挑战。这篇论文关注的是自动驾驶车辆之间的调度问题，在自动驾驶实用之前还有很多其他相关的问题需要解决。

面向自动驾驶应用的三维目标检测方法综述

论文名称：A Survey>作者：Eduardo Arnold /Omar Y. Al-Jarrah /Mehrdad Dianati /Saber Fallah /David Oxtoby /Alex Mouzakitis

发表时间：2019/1/22

论文链接：https://paper.yanxishe.com/review/8620?from=leiphonecolumn_paperreview0113

推荐理由：自动驾驶汽车（AV）需要对其周围环境有准确的感知才能可靠地运行。通常采用机器学习（例如，深度学习）的AV的感知系统将感觉数据转换成能够自动驾驶的语义信息。对象检测是该感知系统的基本功能，已经通过多项工作解决了这些问题，其中大多数使用2D检测方法。但是，二维方法不提供深度信息，这是驾驶任务所需的深度信息，例如路径规划，避免碰撞等。替代地，3D对象检测方法引入了第三维，它揭示了更详细的对象尺寸和位置信息。但是，这种方法的检测精度需要提高。据所知，这是用于自动驾驶应用的3D对象检测方法的首次调查。

这篇文章对自动驾驶场景中的三维目标检测方法进行了详细的综述，并且介绍了目前普遍使用的传感器和数据集。本文根据三维目标检测方法所使用到的传感器，将其分为基于单目相机图像、点云和融合三大类。然后总结这些方法的在同一数据集上的实验结果，以及已有方法存在的不足和未来值得研究的方向。