Twitter从Recsys 2020挑战中学到了什么

本文作者： AI研习社-译站

2020-12-06 09:06

导语：Twitter 图学习研究负责人 Michael Bronstein 亲述。

译者：AI研习社（听风1996）

双语原文链接：What Twitter learned from the Recsys 2020 Challenge

ecommender系统是现代社交网络和电子商务平台的重要组成部分。它们旨在最大限度地提高用户满意度以及其他重要的商业目标。与此同时，在以根据用户兴趣定制内容为目的来建立新模型基准测试时，缺乏供学界研究使用的大规模的公共社交网络数据集。而在过去的一年里，我们努力解决了这个问题。

Twitter与RecSys会议展开合作以支持2020挑战赛。在两周的时间里，我们发布了一个包含推文和用户参与度组成的数据集，其中有1.6亿条公开推文用于训练，4000万条公开推文用于验证和测试。

在这篇文章中，我们描述了数据集以及Nvidia、Learner和Wantely团队提交的三个获奖作品。我们试图对帮助获奖者取得成绩的选择做出一般性的结论，特别是:

以最快的实验速度用于特征选择和模型训练

有利于泛化的对抗验证[1]
上下文特征的使用
在神经网络上使用决策树

我们希望这些研究结果对更广泛的研究界有用，并启发推荐系统的未来研究方向。

挑战赛的参与者被要求预测用户参与四种互动中任何一种互动的可能性：赞、回复、转发和引用tweet。我们根据以下两个指标对提交的作品进行评估：相对于我们所提供的简单基准方法的相对交叉熵（RCE），以及Precision-Recall曲线下的面积（PR-AUC）。

Twitter从Recsys 2020挑战中学到了什么

随时间的变化的训练、测试和验证数据集的表示

我们要特别注意（我们所使用的）维持数据集需与Twitter平台同步。数据集反映了平台上的变化，例如，当其中的一条推文被删除，有用户将其个人资料变为私有或完全删除。所以提交的数据就会被重新评估，排行榜也会根据重新计算的指标进行更新[2]。

数据集的特征表示。它们分为用户特征（针对作者和读者）、推文特征和参与度特征。

今年的挑战赛竞争尤为激烈，注册用户超过1000人。在整个挑战过程中，参赛者积极提交解决方案，并在挑战的第一阶段（根据提交指南）修改了他们的团队组成。最后阶段有20个竞争者，平均团队规模为4名成员。此外，各队总计设计了127种不同的方法，来尝试赢得挑战比赛。在整个挑战过程中，参赛者的活跃度很高，在最后几天，参赛者对提交的作品进行了改进，达到了做最优性能。最终的结果出现在排行榜上。

与之相伴的RecSys Challenge 2020研讨会收到了12篇论文，程序委员会对这些论文进行了审阅。其中9篇论文被接受。

Twitter从Recsys 2020挑战中学到了什么

数据集的特征表示。它们分为用户特征（针对作者和读者）、推文特征和参与度特征。

与之相伴的RecSys Challenge 2020研讨会收到了12篇论文，程序委员会对这些论文进行了审阅。其中9篇论文被接受。

第一名：英伟达

GPU Accelerated Feature Engineering and Training for Recommender Systems.

Nvidia的论文[3]描述了训练xgboost模型来预测每个交互事件。总体的关注点在于为该模型生成有用的特征。文章强调快速提取特征和模型训练是该方法成功的关键。本文在附录中提供了4种模型中每种模型的15个最有用的特征列表。

从数据集中快速提取特征并进行再训练是冠军和亚军的关键区别。特征工程流程和训练流程的运行时间都不到一分钟。除此之外，对不同的分类特征和特征组合采用目标编码（均值编码+加法平滑），包括这些组合的目标均值。作者还从推文的内容中创建了分类特征（如最受欢迎的两个词和最不受欢迎的两个词）。用于特征重要性评估和选择的对抗性验证通过选择更通用的特征来防止过拟合。采用基于树模型的集成方法用于生成最终模型。

第二名：Learner

Predicting Twitter Engagement With Deep Language Models.

Learner[4]融合了深度学习与梯度提升决策树（GBDT），并专注于不同特征的创建。作者使用启发式方法设计了467个特征，并使用BERT和XLM-R生成了推文的文本表示（同时使用了目标Twitter文本以及最近参与的Twitter文本）。

该条目与其他条目的关键区别在于使用了预训练的自然语言处理（NLP）模型BERT和XLM-R，并进行了微调。第一层的微调是以无监督的方式进行的。接下来，将语言模型与其他特征结合以有监督的方式进行微调。。该模型是一个多层感知机（MLP），有四个头，每个头代表一种参与类。本文还引入注意力机制生成了用户过去十次互动的嵌入向量。以目标推文为关键，利用注意力机制对每个的嵌入向量进行组合。此外，还使用了启发式特征，如参与用户、推文创建者、推文特征和用户与创建者交互特征的不同表示。与其他条目一样，本文使用xgboost进行特征工程和选择，并将Yeo-Johnson transformation应用于分类特征和非标准化连续特征。

第三名：Wantely

A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.

Wantely的投稿[5]提出了一种预测tweet参与度的两阶段方法。第一阶段的分类器是轻量级的，只使用在不同目标（Like、Retweet等）中通用的特征，并且具有相似的训练/测试精度。第二阶段分类器将轻量级分类器的输出与特定于目标的特征一起用作特征。

上游的通用模型生成下游模型所需的特征。作者认为，通过这样的方式，每种参与类型的下游模型都可以从所有其他参与的数据中受益。除此之外，除此之外，如Nvidia条目所示，本文通过对抗性验证直接评估训练和测试数据集之间的特征分布差异，从而确定了哪些特征是可通用的。

在所有提交的论文中，有许多相同的见解。我们重点介绍以下主题：

胜出模型中使用的有用特征—目标编码是王道。首先，目标编码（用目标变量的平均值替换分类变量）使问题变得更简单。它同时用于用户和作者id，因此编码了用户的平均参与率。其次，使用了大量特征交叉[6]。

快速实验进行特征选择。快速检验许多假设的能力一直是数据科学竞赛中不可或缺的一部分，并再次证明在这一挑战中具有决定性作用。Nvidia团队能够在GPU上运行整个流程。这让他们只需2分18秒就能训练出一个模型（包括特征工程），而在CPU上则需花费数小时。

通过对抗性验证来应对过度拟合。比赛选手常用的一种技术是建立一个判别器来预测训练和测试/验证集之间的差异。根据模型选择特征时使用的重要性分数，通过去除最重要的特征，可以帮助模型更好地泛化。此技术有助于避免训练数据过拟合。

上下文特征的使用。今年的数据集和之前的数据集的一个重要区别是我们提供的上下文特征。在三篇获奖论文中，有两篇对基于上下文特征的BERT进行了复杂的使用。NLP中的深度学习方法已经证明了它对推荐系统的有用性，尽管我们认为在这个领域还有更多的改进空间。

决策树与深度学习。梯度增强决策树（GBDT）的一个显著优势是，无需对单个特征的尺度进行归一化和计算。这使得所有胜出论文的迭代速度更快。

在计算机视觉和NLP等领域，深度学习模型已经通过利用CNNs和transfomer展示了令人印象深刻的进展。基于这一挑战的结果，我们仍然不明白在推荐系统中什么构成良好的深度学习架构。我们呼吁研究界共同寻找推荐器系统的最佳深度学习架构。

我们也注意到，虽然我们只对提交的模型的性能进行了评估，但在生产系统中还有许多其他限制。对我们来说，延迟是一个大问题：模型需要在毫秒内对推文进行评分。在这种情况下，需要仔细检查集成方法的使用。集成中每一步的附加延迟都可能会导致它们对我们的目标来说太慢。

我们感谢所有参与者和我们的同事使这得一挑战成为可能。我们相信，发布大规模数据集将有助于解锁推荐系统领域的新进展。Twitter现在比以往任何时候都致力于帮助外部研究，并且最近为学术研究人员发布了新的API端口，以帮助促进进一步的探索和合作。

[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.

[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.

[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.

[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.

[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.

[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

Twitter从Recsys 2020挑战中学到了什么