如何捕捉冗长讨论里的目标信息？谷歌推出最大标注数据集

本文作者：杨文

编辑：郭奕欣

2017-05-17 21:06

导语：信息爆炸时代，如何在浩瀚如海的网络中找到自己的需求？谷歌研究团队提出了Coarse Discour，可以将一段文字中“废话”剔除，精准识别用户所需要的目标信息。

雷锋网AI科技评论按：信息爆炸时代，如何在浩瀚如海的网络中找到自己的需求？谷歌研究团队推出了 Coarse Discourse 数据集，可以将一段文字中“废话”剔除，精准识别用户所需要的目标信息。作为一名雷锋网编辑，信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题？

每一天，社区中的活跃者都在发送和分享他们的意见，经验，建议以及来社交，其中大部分是自由表达，没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源，如养育，健身，旅游等等。不过，这些讨论中往往还夹杂着乱七八糟的分歧，幽默，争论和铺垫，要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到，浏览内容的方式，在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。

在这个空间中为了帮助研究人员，谷歌发布了 Coarse Discourse dataset，是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解，这些是从reddit.com网站中的130个社区，超过9000个主题中随机抽取的。

为了创建这个数据集，我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论，并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性，包括：公告，问题，答案，协议，分歧，阐述和幽默。从这个数据，超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释，我们还提供标注任务指南，供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

如何捕捉冗长讨论里的目标信息？谷歌推出最大标注数据集

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明，问和答模式在大多数社区是一个突出的运用，有的社区会话更集中，来回的相互作用。

论文摘要

在这项工作中，我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料，是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究，我们设计了一个粗糙语料的分类，旨在围绕一般在线讨论，并允许工作人员简单注释。使用我们的语料库，我们演示了如何分析话语行为，可以描述不同类型的讨论，包括话语序列，如问答配对，分歧链，以及不同的社区中的表现。

最后，我们进行实验，使用我们的语料库预测话语行为，发现结构化预测模型，如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为，从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

使用了一种新的话语行为的分类，我们推出一个从Reddit上数千个社区采样，最大的人工标注的数据集的讨论，在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集，我们观察到常见的话语序列模式，包括问答和参数，并使用这些信号来表征社区。最后，我们用结构化CRF模型进行了分类的话语行为实验，实现了75% F1得分。此外，我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型，整体提高Q&A抽取的召回性能。

对于机器学习和自然语言处理的研究人员试图描述在线讨论的性质，我们希望这个数据集是一个有用的资源。可以访问我们的GitHub库下载数据。更多细节，请查看论文 ICWSM，“Characterizing Online Discussion Using Coarse Discourse Sequences.”

via Google；雷锋网整理编译

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

3人收藏

杨文

编辑&记者

AI科技评论员，微信：yeohandwin

扫描关注作者微信

发私信

当月热门文章