谷歌发布「与书对话」检索引擎，从字里行间邂逅心仪书籍

本文作者：奕欣

2018-04-14 16:03

导语：谷歌在自然语言理解研究的全新尝试。

雷锋网 AI 科技评论按，今日，谷歌分享了 Semantic Experiences，在博客中展示了两大关于自然语言理解的互动工具。Talk to Books 是一个可以从书中的句子层面搜索书籍的全新检索模式；另一个互动内容则是 Semantris，一个由机器学习驱动的单词联想游戏。

地址：https://research.google.com/semanticexperiences/

雷锋网了解到，谷歌还发布了「通用语句编码器」（Universal Sentence Encoder），更加详细地呈现了上述示例所使用的模型；当然，谷歌还为开源社区提供了一个预训练的 TensorFlow 模型，开发者可以测试自己的句子及短语编码。

地址：https://tfhub.dev/google/universal-sentence-encoder/1

自然语言理解在近年已经有了极大进步，这得益于词向量（word vectors）的发展，这一技术使算法能根据实际语言使用的例子来学习单词之间的关系。这些向量模型根据概念和语言的等价性、相似性或关联性，将语义相似的词或短语投影到临近点。

建模方法

谷歌拓展了在向量空间中表征语言（language）的构想，这一想法通过为像完整句子或段落为代表的较大语言块创建向量来实现。语言是由具有概念的层次结构组成的，因此团队采用模块的层次结构来构建向量，每一模块都要考虑与不同时间尺度序列所对应的特征。各种类型的关系，如关联、同/反义、部分/整体等都可以用向量空间语言表示。团队在论文《Efficient Natural Language Response for Smart Reply》有更多介绍。

论文地址：https://arxiv.org/abs/1803.11175

Talk to Books

谷歌发布「与书对话」检索引擎，从字里行间邂逅心仪书籍

以往我们在检索书籍时，通常会从书名、作者、主题等表面标签入手。而谷歌发布的「Talk to Books」可以为用户提供一种检索书籍的全新方法。用户只需要做一段相关描述，或是提一个相关的问题，那么 Talk to Books 可以在不依赖关键词匹配的情况下，从超过 10 万本书籍中检索所有句子，并根据句子层面的语义，找到能匹配用户陈述或问题的句子。从某种意义上来说，Talk to Books 是一种用户与书「交谈」的新模式，系统给出的回答也能帮助用户确定自己是否对相关主题感兴趣。

模型在正式发布前经历了超十亿次的对话训练，以打磨更好的用户体验——对用户的提问或陈述给出更加合适的回答。这一方式相比起普通的谷歌检索，可能会帮助用户找到一些更有趣的书籍，特别是在关键字搜索中并不会显示的一些结果。

不过，这一模型还有更多的改进空间，比如搜索范围局限在句子层面上，而不是段落，因此可能会产生「断章取义」的情况。另外，因为只看某一句子的匹配程度，这也可能导致某些众所周知的、「符合口味」的书并不会出现在检索结果的前列。谷歌团队此举，更多的是希望帮助人们以一种新的探索方式，发现不曾料想过的作者和书名，竟然会有读者感兴趣的内容。

地址：https://books.google.com/talktobooks