AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

本文作者： camel

2019-12-28 22:48

导语：还有直播链接~

美国太远，望京很近。

在21世纪20年代的最后一个周末，雷锋网AI研习社联合阿里文娱和北理工等共同举办了一场「AAAI 2020论文解读会」。

AAAI 无需多言。2020年2月7日-12日，AAAI 2020 将于美国纽约举办。在11月中旬，大会官方公布了今年的论文收录信息：共有8800 篇提交论文，评审了 7737 篇，接收 1591 篇，接收率 20.6%。

随后国内先后举办了多场AAAI 论文分享活动，例如，

12月3日，苏州人工智能大会上由周国栋教授领衔、漆桂林教授主持的「自然语言处理与AAAI 2020的石城邂逅」；

12月22日，由中国中文信息学会青工委主办，北大王选计算所承办的「AAAI 2020论文预讲会」；

12月28日，有阿里文娱、北理工、AI研习社联合举办的「AAAI 2020论文解读会」。

以上三场AAAI 2020 论文预讲活动，雷锋网AI研习社皆有直播，并将陆续放出录播视频，

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

感兴趣者可以扫描二维码观看回放：

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

或打开网页：https://www.yanxishe.com/meeting/80

本文将简要介绍 28 日「AAAI 2020 论文解读会」的 10 篇论文，并附相应讲解 PPT 及下载链接。

如对以下论文内容感兴趣，可关注微信公众号「AI 科技评论」，回复「AAAI2020@望京」，打包下载全部 10 篇论文相关PPT。

[ 1 ]

演讲人：赵文天（阿里文娱&北京理工大学）

AAAI 论文：MemCap: Memorizing Style Knowledge for Image Captioning

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

本文提出了一种通过记忆机制对语言风格相关的知识进行编码的风格化图像描述方法。由于语言风格无法直接从图像中得到，我们使用记忆模块存储语言风格相关的知识，并在生成风格化描述时根据图片中的内容检索这些知识。

[ 2 ]

演讲人：林廷恩（清华大学）

AAAI 论文：Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

识别新用户的意图是对话系统中的重要任务，然而我们很难透过聚类方法获得令人满意的结果，因为意图定义受主观先验知识所影响。现有方法透过过大量特征工程来融入先验知识，不仅会导致模型过拟合，也对聚类中心数敏感。

在本文中，我们提出了具有聚类细化的约束深度自适应聚类（CDAC+），这种端到端方法可以自然地将成对约束作为先验知识来指导聚类过程。此外，我们通过强制模型从高置信度分配中学习来优化聚类。在消除了低置信度分配之后，我们的方法对集群的数量出奇地不敏感。在三个基准数据集上的实验结果表明，与强基准相比，我们的方法可以产生重大改进。

[ 3 ]

演讲人：旭豪（阿里文娱）

AAAI 论文：Deep Time-Stream Framework for Click-Through Rate Prediction by TrackingInterest Evolution

（暂无PPT分享）

DTS （Deep Time-Stream Framework）是一个考虑了连续时间流信息的CTR预估框架。解决了目前现有的工业界广泛应用的CTR模型没能很好地建模连续时间信息的问题。其能够处理不同间隔下的用户序列行为，还能根据不同的预测时刻提供更加符合用户兴趣的视频。

[ 4 ]

演讲人：侯静怡（阿里文娱&北京理工大学）

AAAI 论文：Joint Commonsense and Relation Reasoning for Image and Video Captioning

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

本文提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现，交替执行以下两种推理方式：(1) 常识推理，将视觉区域根据常识推理，嵌入到语义空间中从而构成语义图；(2) 关系推理，将语义图通过图神经网络编码，生成图像视频文字描述。

[ 5 ]

演讲人：魏军（中科院）

AAAI 论文：F3Net: Fusion, Feedback and Focus for Salient Object Detection

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

近期，许多显著性检测模型都是基于多尺度特征融合的，通过融合不同卷积层的特征，这些模型可以输出准确的显著图。然而由于不同卷积层具有不同感受野，来自这些卷积层的特征存在着较大的差异性，常见的特征融合策略（相加，拼接）忽略了这些差异性并可能导致模型性能受限。

在本文中，我们提出了F3Net来解决上述问题，它主要包含交叉特征融合（CFM），级联的反馈解码器（CFD）以及像素位置敏感损失(PPA)。具体来说，交叉特征融合的目标是有选择地聚合多层特性。不同于相加或者拼接，交叉特征融合自适应地在融合前从输入特征中选择互补成分，有效地避免了引入过多的冗余信息而破坏原有特征。

另外，级联的反馈解码器采用了多级反馈机制，将靠近监督信号的特征引入到前层的特征中进行补充矫正以及消除特征间的差异。在生成最终的显著图之前，这些细化的特性要经过多次类似的迭代。不同于二值交叉熵，像素位置敏感损失并不会平等对待每一个像素，它可以综合单一像素周围的结构特征，以指导网络关注局部细节。来自边界或易出错部分的困难像素将会得到更多的关注，以强调其重要性。F3Net能够准确地分割出显著性目标并提供清晰的局部细节。它在5个基准数据集以及4个评价指标上都取得了目前最好的性能。

[ 6 ]

演讲人：牛广林（北京航空航天大学）

AAAI 论文：Rule-Guided Compositional Representation Learning on Knowledge Graphs

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

知识图谱的表示学习是将知识图谱中的实体与关系嵌入低维实值向量空间。早期的知识图谱表示学习方法只关注知识图谱中三元组的结构信息，但由于知识图谱的结构稀疏性，会导致知识表示学习性能受限。最近的一些尝试考虑采用路径信息来扩展知识图谱的结构，但是在得到路径表示的过程中缺乏可解释性。

本文提出了一种新的基于规则和路径的联合嵌入的方法（RPJE），该方案充分利用了逻辑规则的可解释性和准确性、知识图谱表示学习的泛化性以及路径提供的语义结构。具体来说，首先从知识图谱中挖掘不同长度（规则体中的关系个数）的Horn子句形式的逻辑规则，并对其进行编码，用于表示学习。然后，应用长度为2的规则来准确地组合路径，而显式地使用长度为1的规则来创建关系之间的语义关联并约束关系的向量表示。此外，在优化过程中还考虑了各规则的置信度，以保证规则应用于表示学习的有效性。

大量的实验结果表明，RPJE在完成知识图谱补全任务方面优于其它baselines，这也证明了RPJE在完成知识图谱补全任务的优越性，验证了利用逻辑规则和路径提高知识图谱表示学习的精度和可解释性。

[ 7 ]

演讲人：于静（中科院）

AAAI 论文：DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

这篇论文，AI 科技评论已经做过解读，完整了解可参见：「DualVD：一种视觉对话新框架 | AAAI2020」

近年来，跨模态研究引发了广泛关注并取得显著进展，综合分析语言和视觉等不同模态的信息对模拟现实社会中人类对于信息的认知过程具有重要意义。

视觉对话问题是视觉问答任务的衍生任务，不同的是，视觉对话任务需要根据图像、历史对话回答当前问题，涉及多个问题且涵盖了可能与任何对象、关系或语义相关的广泛视觉内容，因此视觉对话需要根据对话的推进，不断调整关注区域使之有效地捕捉问题所涉及的视觉信息，针对不同问题对图像进行自适应的关注。

如下图 1 所示「Q1: Is the man on the skateboard?」, 需要关注「man」，「skateboard」等信息，当问题变换为「Q5: Is the sky in the picture」时，需要将关注区域转移至「sky」。问题 Q1 和 Q5 主要关注在表层（appearance-level）信息问题，而 Q4「Is he young or older」则需要进一步地视觉推理得到更高层的语义信息。因此，如何根据问题进行自适应调整并有效地捕捉视觉信息是视觉对话问题中的重要挑战之一。

AAAI 2020 | 这 10 篇论文值得你了解（附PPT下载）

根据认知学中的双向编码理论（Dual-Coding Theory）, 人类认知信息的过程包含视觉表象和关联文本，人的大脑在检索关于某个概念的信息时会综合检索视觉信息以及语言信息，这种方式能够加强大脑的理解以及记忆能力。作者根据此理论，提出从视觉和语义两个维度刻画视觉对话任务中图象信息的新框架：语义模块描述图像的局部以及全局的高层语义信息，视觉模块描述图像中的对象以及对象之间的视觉关系。基于此框架，作者提出自适应视觉选择模型 DualVD（Duel Encoding Visual Dialog），分别进行模态内与模态之前的信息选择。