使用 RNN 进行情感分析的初学者指南

本文作者： AI研习社-译站

2018-06-21 16:03

导语：本文将利用循环神经网络，训练出一个基于 IMDB 数据集的电影评论分类器。

雷锋网按：本文为雷锋网字幕组编译的技术博客，原标题 Advances in Semantic Textual Similarity，作者为 Google AI 的软件工程师与技术主管 Yinfei Yang。

翻译 | 陈涛整理 | 孔令双

原文链接：

https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e

使用 RNN 进行情感分析的初学者指南

图片来源：Unsplash

情感分析可能是最常见的自然语言处理的应用之一。我无需去额外强调在客服工具中情感分析的重要性。本文将利用循环神经网络，训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用，这里推荐一篇很棒的论文。

数据

我们将采用循环神经网络，具体地说应该是 LSTM，去实现基于 Keras 的情感分析。Keras 已经将 IMBD 电影评论数据内置其中，我们可以很方便地调用。

from keras.datasets import imdb

设置词汇量的总数，并加载训练数据和测试数据。

vocabulary_size = 5000

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocabulary_size)
print('Loaded dataset with {} training samples, {} test samples'.format(len(X_train), len(X_test)))

加载完的数据拥有 25000 个训练样本和 25000 个测试样本。

查看一条评论样本及其标签。

print('---review---')
print(X_train[6])
print('---label---')
print(y_train[6])

使用 RNN 进行情感分析的初学者指南

图 1

请注意，评论是以一串整数的形式进行存储的，它们表示预先分配给每个词语的 ID。标签则用一个整数表示，0 代表消极的评价，1 代表积极的评价。

我们可以利用imdb.get_word_index()函数返回的字典，从而将评论映射回原有的文字。

word2id = imdb.get_word_index()
id2word = {i: word for word, i in word2id.items()}
print('---review with words---')
print([id2word.get(i, ' ') for i in X_train[6]])
print('---label---')
print(y_train[6])

使用 RNN 进行情感分析的初学者指南

图 2

查看最长的评论长度和最短的评论长度。

print('Maximum review length: {}'.format(
len(max((X_train + X_test), key=len))))

最长的评论长度为 2697 个词

print('Minimum review length: {}'.format(
len(min((X_test + X_test), key=len))))

最短的评论长度为 14 个词

填充序列

为了让数据能够输入 RNN 模型，所有的输入文档必须有相同的长度。我们需要设置max_words变量来限制评论的最大长度，超过该长度的评论将被截断，不足该长度的评论将被填充空值（0）。在 Keras 中，我们可以使用pad_sequences()函数来达到此目标。现在设置max_words变量的值为 500。

from keras.preprocessing import sequence

max_words = 500
X_train = sequence.pad_sequences(X_train, maxlen=max_words)
X_test = sequence.pad_sequences(X_test, maxlen=max_words)

设计情感分析的 RNN 模型

我们开始在下面的代码单元中创建模型架构。我们已经从 Keras 中导入了一些你可能会用到的网络层，当然你也可以使用任何你喜欢的网络层或者转换器。

记住，我们的输入是一串词语，从学术上讲，是整数形式的词语 ID，其最大长度等于max_words变量值。而我们的输出是二进制形式的情感标签（0 或 1）。

from keras import Sequential
from keras.layers import Embedding, LSTM, Dense, Dropout

embedding_size=32
model=Sequential()
model.add(Embedding(vocabulary_size, embedding_size, input_length=max_words))
model.add(LSTM(100))
model.add(Dense(1, activation='sigmoid'))

print(model.summary())

使用 RNN 进行情感分析的初学者指南

图 3

总结一下，我们创建了一个简单的 RNN 模型，其拥有一个嵌入层，一个 LSTM 层和一个全连接层。这其中一共有 233301 个待训练的参数。

训练及评估模型

我们需要先对模型进行编译，包括指定损失函数，训练中想采用的优化器和用于测量的评价指标。设置好合适的参数，其中包含至少一个度量指标：准确率。

model.compile(loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])

编译完成后，就可以开启训练过程了。我们需要指定两个很重要的训练参数：每一批量中的样本数和训练迭代次数，它们和我们的模型架构一起决定了总体的训练时间。

训练可能需要一段时间，所以可以去喝杯咖啡，或者更好地去跑会步吧。

batch_size = 64
num_epochs = 3

X_valid, y_valid = X_train[:batch_size], y_train[:batch_size]
X_train2, y_train2 = X_train[batch_size:], y_train[batch_size:]

model.fit(X_train2, y_train2, validation_data=(X_valid, y_valid), batch_size=batch_size, epochs=num_epochs)

使用 RNN 进行情感分析的初学者指南