一文带你读懂自然语言处理 - 事件提取

本文作者： AI研习社-译站

2019-05-13 11:25

导语：本文为 AI 研习社编译的技术博客，原标题：Natural Language Processing — Event Extraction作者 | R

一文带你读懂自然语言处理 - 事件提取

本文为 AI 研习社编译的技术博客，原标题：
Natural Language Processing — Event Extraction
作者 | Rodrigo Nader
翻译 | 胡瑛皓编辑 | 酱番梨、王立鱼
原文链接：
https://towardsdatascience.com/natural-language-processing-event-extraction-f20d634661d3

一文带你读懂自然语言处理 - 事件提取

每天产生的文本信息令人叹为观止。数百万数据源以新闻稿、博客、消息、手稿和无数其他形式发布，因而自动组织和处理就必不可少。

随着神经网络算法的改进、计算机算力的显著提升以及大量涌现的理解框架，自然语言处理的能力正被前所未有的探索。其中一个常见应用称为事件提取，即处理收集蕴藏在文本中的一个阶段内发生的事件，自动识别发生了什么和什么时候发生。

比如:

2018/10 — President Donald Trump’s government banned countries from importing Iranian oil with exemptions to seven countries.
2019/04 — US Secretary of State Mike Pompeo announced that his country would open no more exception after the deadline.
2019/05 — The United States ended with exemptions that allowed countries to import oil from Iran without suffering from US sanctions.

凭借获得信息上下文的能力，可以关联时间上互相独立的事件，汲取其影响，发现事件序列如何随着时间推移展开。这些科技洞见力正驱动诸如 EventRegistry和 Primer.AI等组织，用科技服务各个市场。

本文将构建一个简单的事件提取脚本，接收新闻输入处理后输出事件。

获取数据

首先需要收集数据。我们可以用任何形式的文本，只要这些文字的内容可通过时间线表示。本文选用 newsapi，从该数据源获取数据很容易，其开发者计划每天可获取500个免费请求。以下是处理请求的代码:

一文带你读懂自然语言处理 - 事件提取

最后一个函数，返回特定查询的结果列表，大约包含2000篇文章。我们的目的是抽取这些文章总的事件。为简化这一过程，只保留文章标题 (理论上，标题应该蕴涵新闻的核心内容)。

一文带你读懂自然语言处理 - 事件提取

执行后得到一个data frame，其内容如下，包括日期、标题和描述

一文带你读懂自然语言处理 - 事件提取

获得句子含义

前面拿到了文章的标题，现在需要将其转换为算法能理解的形式。注，本文跳过了整个文本预处理环节，因为与本文不太相关。不过，如果你是新手，应用模型前务必作预处理 → 请打开原文查看一篇很好的教程。

SpaCy的预训练词嵌入模型，可帮助获取独立词语的含义，进一步获得整句句子的含义。具体来说用的是SpaCy large model (en_core_web_lg), 其中包含了685k英语单词的预训练词向量。当然也可以用任意其他预训练词向量表示 (诸如Word2Vec, FastText, GloVe等等)。

SpaCy中默认将词向量的平均值作为句子向量，这是一种简易处理方法，忽略了句子中的词序信息。如想使用更精巧的策略，可以看一下Sent2Vec、SkipThoughts等模型。这篇文章详细介绍了SkipThoughts如何用无监督方法提取摘要。

本文中使用SpaCy自带的方法:

一文带你读懂自然语言处理 - 事件提取