今日 Paper | 问答系统；3D人体形状和姿势；面部伪造检测；AdderNet等

本文作者： AI研习社

2020-01-02 15:13

导语：为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

基于维基百科的开放域的问答系统

论文名称：Reading Wikipedia to Answer Open-Domain Questions

作者：Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes

发表时间：2017/4/28

论文链接：https://paper.yanxishe.com/review/7918

推荐理由：本文建议使用Wikipedia作为独特的知识源来解决开放域问题的解答：任何事实类问题的答案都是Wikipedia文章中的文本范围。

大规模的机器阅读任务将文档检索（查找相关文章）与机器理解文本（识别这些文章的答案范围）的挑战结合在一起。作者的方法将基于bigram哈希和TF-IDF匹配的搜索组件与经过训练以检测Wikipedia段落中的答案的多层递归神经网络模型相结合。

作者在多个现有QA数据集上的实验表明，（1）两个模块相对于现有同类产品都具有很高的竞争力；（2）使用远程监督对其组合进行多任务学习是解决这一艰巨任务的有效完整系统。

今日 Paper | 问答系统；3D人体形状和姿势；面部伪造检测；AdderNet等

从持续的角度看机器学习

论文名称：Machine Learning from a Continuous Viewpoint

作者：E Weinan /Ma Chao /Wu Lei

发表时间：2019/12/30

论文链接：https://paper.yanxishe.com/review/7942

推荐理由：作为经典的数值分析和统计物理学的精神，作者提出了一种连续的机器学习形式，作为变化和微分积分方程的一个问题。作者证明了常规的机器学习模型和算法，例如随机特征模型，浅层神经网络模型和残差神经网络模型，都可以作为不同连续公式的特定离散化而全部恢复。

作者还介绍了新模型的示例，例如基于流的随机特征模型，以及新算法（例如平滑粒子法和光谱法）的示例，这些新算法自然地源于这种连续公式。作者在文中讨论了如何在此框架下研究泛化误差和隐式正则化问题。

乐谱和无歌词歌声生成

论文名称：Score and Lyrics-Free Singing Voice Generation

作者：Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan

发表时间：2019/12/26

论文链接：https://paper.yanxishe.com/review/7944

推荐理由：用于唱歌声音的生成模型主要与“唱歌声音合成”的任务有关，即，根据乐谱和文本歌词来产生唱歌声音波形。

在本文中，作者探索了一种新颖而又具有挑战性的替代方法：在训练和推理时间中无需预先分配乐谱和歌词的情况下演唱语音。特别是，作者提出了三种无条件或弱条件的歌声生成方案。作者概述了相关的挑战，并提出了解决这些新任务的渠道。这涉及开发用于数据准备的源分离和转录模型，用于音频生成的对抗网络以及用于评估的定制度量。

从密集的身体部位学习3D人体形状和姿势

论文名称：Learning 3D Human Shape and Pose from Dense Body Parts

作者：Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan

发表时间：2019/12/31

论文链接：https://paper.yanxishe.com/review/7941

推荐理由：尽管通过最新的基于学习的方法获得了令人鼓舞的结果，但从单眼图像重建3D人体形状和姿势仍具有挑战性。常见的不对齐是由于以下事实：从图像到模型空间的映射是高度非线性的，并且人体模型的基于旋转的姿势表示易于导致关节位置的漂移。

在本文中，作者研究了从人体部位的密集对应关系中学习3D人体形状和姿势的问题，并提出了分解和聚合网络（DaNet）来解决这些问题。DaNet采用密集的对应贴图作为中间表示，以密集地在2D像素和3D顶点之间建立一座桥梁，以促进2D到3D映射的学习。DaNet的预测模块被分解为一个全局流和多个局部流，以分别实现形状和姿势预测的全局和细粒度感知。来自本地流的消息被进一步聚合以增强对基于旋转的姿势的鲁棒性预测，其中提出了位置辅助旋转特征细化策略以利用人体关节之间的空间关系。此外，还引入了基于零件的剔除（PartDrop）策略，以在训练过程中从中间表示中剔除密集信息，从而鼓励网络专注于更多互补的身体部位以及相邻的位置特征。作者方法的有效性在室内和实际数据集（包括Human3.6M，UP3D和DensePose-COCO数据集）上均得到验证。

实验结果表明，与以前的最新方法相比，该方法显着提高了重建性能。我们的代码将通过此 URL（https://hongwenzhang.github.io/dense2mesh/）公开提供。

面部X射线，可进行更一般的面部伪造检测

论文名称：Face X-ray for More General Face Forgery Detection

作者：Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining

发表时间：2019/12/31

论文链接：https://paper.yanxishe.com/review/7940

推荐理由：在本文中，作者提出了一种新颖的图像表示形式，称为面部X射线，用于检测面部图像中的伪造。输入的面部图像的面部X射线是灰度图像，可显示输入图像是否可以分解为来自不同来源的两个图像的混合。它通过显示伪造图像的混合边界和不存在真实图像的混合来实现。

作者观察到，大多数现有的面部操作方法都有一个共同的步骤：将更改后的面部混合到现有的背景图像中。因此，面部X射线提供了一种检测大多数现有面部操纵算法所产生的伪造的有效方法。面部X射线的一般意义是仅假设存在混合步骤，并且不依赖于与特定面部操作技术相关的伪影的任何知识。事实上，确实可以训练用于计算面部X射线的算法且无需使用任何最新的面部操纵方法生成的伪造图像。大量的实验表明，当将X射线应用于由看不见的面部操纵技术产生的伪造时，面部X射线仍然有效，而大多数现有的面部伪造检测算法的性能都会明显下降。

利用多域学习GANs实现有效的数据增强

论文名称：Effective Data Augmentation with Multi-Domain Learning GANs

作者：Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu

发表时间：2019/12/25

论文链接：https://paper.yanxishe.com/review/7934

推荐理由：这篇论文考虑的是数据增强的问题。

这篇论文提出了一种有效的基于生成对抗网络）的数据增强方法，其主要思想是通过使用多领域学习GAN将外部数据所包含的知识导入到目标模型中。多领域学习GAN能够同时学习外部数据集和目标数据集，并能够为目标任务生成高保真度和多样性强的新样本。文章表明即使只有极少量的目标数据集，研究人员也可以通过使用这些新生成的样本来获得目标任务的准确模型。这篇论文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition这三个数据集上评估了其提出的数据增强方法，表明了它具有更好的分类准确性，并且能够提高所生成样本的质量。

工作预测：从深度神经网络模型到应用

论文名称：Job Prediction: From Deep Neural Network Models to Applications

作者：Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan

发表时间：2019/12/27

论文链接：https://paper.yanxishe.com/review/7937

推荐理由：这篇论文考虑的是基于简历信息判断工作胜任程度的问题。

如何根据简历上的信息，例如学历、技能描述等，来判断一份工作是否适合求职者是一个困难的自然语言处理问题。反过来，公司挑选最适合这份工作的人才也是困难的。这篇论文尝试利用不同的深度神经网络模型来学习预测职业，这些模型包括TextCNN，Bi-GRU-LSTM-CNN，以及Bi-GRU-CNN，并用到了基于互联网职业数据集训练的多种预训练词嵌入。这篇论文还提出一种简单但高效的集成模型以包含不同的深度神经网络模型。实验结果表明，所提方法获得了最高为72.71%的F1值。

这篇论文试图利用自然语言处理的技术来帮助互联网上的求职者找到更适合自己的职业发展方向。

结合深度学习和验证进行精确的对象实例检测

论文名称：Combining Deep Learning and Verification for Precise Object Instance Detection

作者：Ancha Siddharth /Nan Junyu /Held David

发表时间：2019/12/27

论文链接：https://paper.yanxishe.com/review/7928

推荐理由：深度学习对象检测器通常会以很高的置信度返回误报。尽管它们优化了通用检测性能，例如平均平均精度（mAP），但它们并不是为可靠性而设计的。对于可靠的检测系统，如果进行了高置信度检测，作者将希望高度确定确实已检测到对象。为此，作者开发了一套验证测试，建议的检测必须通过该测试才能被接受。

作者建立了一个理论框架，可以证明在某些假设下，作者的验证测试不会接受任何误报。基于此框架的近似值，作者提出了一种实用的检测系统，该系统可以高精度地验证基于机器学习的对象检测器的每次检测是否正确。作者表明，这些测试可以提高基本检测器的整体精度，并且公认的示例很有可能是正确的。这允许检测器在高精度状态下操作，因此可以作为可靠的实例检测方法用于机器人感知系统。

关于图的深度学习的简要介绍

论文名称：A Gentle Introduction to Deep Learning for Graphs

作者：Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco

发表时间：2019/12/29

论文链接：https://paper.yanxishe.com/review/7947

推荐理由：图形数据的自适应处理是一个长期存在的研究主题，最近已被整合为深度学习社区的主要兴趣主题。相关研究的数量和广度迅速增加是以缺乏知识的系统化和对早期文献的关注为代价的。

本文中作者的这项工作旨在作为图的深度学习领域的教程介绍。相对于对最新文献的阐释，它主张对主要概念和体系结构方面进行一致且渐进的介绍，读者可参考其中的可用调查。本文对问题进行了自上而下的研究，介绍了一种基于局部和迭代方法来结构化信息处理的图形表示学习的广义公式。它介绍了基本的构建基块，可以将其组合起来设计出新颖而有效的图形神经模型。方法论的阐述是对本领域有趣的研究挑战和应用的讨论的补充。

【北大/诺亚/鹏城/悉大】AdderNet：能否让深度学习摆脱乘法运算？

论文名称：AdderNet: Do We Really Need Multiplications in Deep Learning?

作者：Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang

发表时间：2019/12/31

论文链接：https://paper.yanxishe.com/review/7948

推荐理由：这是一篇来自华为诺亚方舟实验室的论文，于2020年1月1日上线arXiv。本文探究的目标为更高效的深度卷积神经网络。（似乎称作“模型压缩”不太妥当？因为参数量、运算量、参数精度都未减少，但是将乘法替代为加法为推断效率提供了极大的增长空间）

为了提升深度神经网络的运行效率、减少不必要的运算，常见的方法有网络剪枝、知识蒸馏等等。本文则另辟蹊径，尝试让卷积神经网络摆脱乘法而只使用高效的加法运算。

卷积神经网络的实现中，卷积运算是通过卷积核与输入特征的互相关（cross-correlation）运算实现的，而这涉及大量浮点数的乘法运算——要知道，计算机完成一次32位浮点乘法运算往往是加法运算的几倍！如果能将互相关运算替代为效果相近而仅涉及加法的运算，岂不是可以极大地提升CNN的运行效率？

32位浮点运算的相对能耗

那么问题来了：互相关的本质是什么呢？是衡量卷积核与输入特征的相似度。这里，作者大胆地使用L1距离的相反数代替互相关运算，作为衡量相似度的另一种途径。

今日 Paper | 问答系统；3D人体形状和姿势；面部伪造检测；AdderNet等

使用互相关实现的卷积运算，X为输入特征，F为卷积核，S()为乘法，Y为层的输出

今日 Paper | 问答系统；3D人体形状和姿势；面部伪造检测；AdderNet等

将S()换为L1距离

那么问题又来了：模型如何通过反向传播优化？如果对L1距离求导，那么结果只能是0和±1（认为L1距离等于0时导数为0），相当于对X(m+i,n+j,k)-F(i,j,k,t)求的符号函数——这并不能很好地使得模型向最优的方向优化。因此，作者在这里使用了X与F的差作为每层“卷积”核的梯度进行反传：今日 Paper | 问答系统；3D人体形状和姿势；面部伪造检测；AdderNet等

同样，X也需要梯度来回传至上层，而且与F的梯度不同的是：这个梯度还会影响到上面的所有的层（存在梯度爆炸的可能性），更需要精心的设计。因此，在这里作者使用了HardTanh（即将y=x用±1截断，防止梯度过大）使得梯度值(F-X)处于±1范围之内。

除此之外，本文还提出了针对加法网络的自适应性学习率调整策略。将所有卷积层替换为加法层的AdderNet-ResNet50在ImageNet上达到了74.9%的Top-1准确率和91.7%的Top-5准确率（使用乘法运算实现卷积的ResNet50准确率才不过76.2%和92.9%），在性能损失极少的条件下大大地减少了运算时间。

注：尽管卷积层完全未使用乘法，AdderNet-ResNet50仍然在层间采用了涉及乘法运算的批归一化（Batch Normalization）（毕竟L1距离的相反数一定是非正的）。但是与卷积层的乘法运算相比，批归一化的乘法运算量完全不在一个数量级上，因此可以被忽略不计。