0
2018年,亚马逊Alexa语音助手取得的进步更多来自于广度而不是深度。记得,亚马逊在2014年秋季推出了第一款AI人工智能音响Echo时,当时很多人都不了解Echo的运行机制是怎样的。从2014年到2018年,Echo以及Alexa驱动的智能设备,已经渐渐褪去神秘感,遍布人们日常生活中的每一个角落。
亚马逊语音助手Alexa的可用国家数量已经增加了一倍之多,取得规模上的较大收益。对于初级用户而言,可以利用Alexa学习法语和西班牙语。现阶段,有超过2万8千台智能设备与Alexa展开合作,是今年年初合作设备数量的6倍之多。Alexa内置入100多种不同的产品、设备中。还记得1999年首次出售的大嘴比利·巴斯Big Mouth Billy Bass吗?这条会转头、可以摇动尾巴、张嘴唱歌的鱼,在今年已经可以兼容Alexa了。
Alexa在2018年的发展路径,时刻影响、定义着2019年乃至更远将来的发展趋势。Alexa正在悄悄、微妙地发生着一些改变,这些改变大众平时可能根本没有注意、察觉到。
在过去的一年中,Alexa get到了很多新技能。举例来讲,Alexa可以根据上下文,从一个查询转移到下一个查询,激活后续问题,无需重复唤醒单词。用户可以根据自己的需求,要求Alexa在同一个请求中执行多项操作,在Alexa应用程序中召唤一个技能,且无需知道确切的名称。
这些小的调整并不可见,但累积后,量变引起质变。用户与机器的交流,变得更加柔和、顺畅,比一年前更加自然。亚马逊不断引入、完善机器学习技术。在人类语言专家的帮助下,通过系统识别中的主动学习功能,大大降低了错误率。
亚马逊Alexa的副总裁兼首席科学家Rohit Prasad表示,主动学习已经融入进亚马逊的每个渠道中,包括语音识别和自然语言理解。“这些使得亚马逊的所有机器学习模型更加完善。”
近年来,数据表示已经成为一项重要的研究课题。自然语言理解(NLU)系统很少输入原始文本,而是采用嵌入形式。数据表示保留文本的语义信息,而不是以持续、确定的方式呈现。采用嵌入式改善特殊的NLU任务已经被多次应用。
今年IEEE语言技术峰会上,亚马逊展示了专门针对Alexa NLU的数据表示方案。数据显示,在一些关键任务的技能选择上,以及在数千种技能中,该方案将技能选择错误率降低了40%。在Alexa的NLU系统中,用户语言经过了更加细粒度的分类。
首先,对话领域或者对话主题的分类,例如,音乐、天气。其次,根据潜在的意图,或者用户所希望的对话分类。比如,音乐领域中,可能是搜索、播放、下载等指令。最后,根据词语位置类型进行分类。例如,播放AA唱的XX歌曲,AA属于歌手名字,XX属于歌曲名字。
亚马逊数据表示方案通过领域、意图、位置三个方面形成了一个比较自然的层次结构。通过一系列语言位置,将语言串联起来来界定用户意图,一系列的意图构成了域。亚马逊已经训练了覆盖17个域在内的24.6万个语言神经网络。该网络首先生成一个位置表示( 雷锋网注:slot representation),然后生成意图表示(intent representation),最后产生域表示(domain representation)。
在训练期间,神经网络需要评估怎样准确地对域分类,其目的在于表达( 雷锋网注:representation)而不是分类(classification)。评估有效地执行了表示的层次结构,即确保语言位置和意图不会丢失域所必须的任何信息。网络输入时,首先会通过一个“去词汇化器”,即用一个特定的语言位置值代替,例如,播放Drake的Nice for What,变为播放歌手的歌曲。这个过程由单独的NLU系统处理。网络分类的目的在于分类表示的最佳方法,而不是进行分类。
雷锋网注:架构图,如何产生意图,聚合意图,产生域表示
去词汇化的语句传递进入嵌入层,该层采用现成的嵌入网络。网络将单词转换成固定长度的向量—数字串。比如,在高纬空间中的空间坐标,将有相似意义的单词聚集在一起。特定的词语通过去词汇化器,由网络以简单的标准嵌入,但语言位置的理解会有所不同。通过训练表示网络。算法对训练数据进行梳理,以识别每个语言位置采用的可能值。比如,天气领域天气状况相关的语言位置,可能包括风、暴雨、雪、暴雪等等。
具有相似词语含义的嵌入词彼此空间位置接近,平均嵌入层的几个相关词汇可以捕获其空间位置的接近性。在训练以前,去词汇化的位置被简单的嵌入,作为平均的可能值。训练过程中,可以修改嵌入网络的设置,根据语言位置、意图、域的特性情况进行调整,基本原则仍为对向量进行分组。
去词汇化话语嵌入后传递到双向长短期记忆网络。长短期记忆LSTMs按顺序处理数据,并在其之前的输出中,处理给定的输出因子。LSTM在NLU中被广泛使用,因为它可以根据在句子中的位置来学习解释单词。融合LSTM(bi-LSTM)是处理从前到后和从后到前相同输入序列的一种LSTM。
bi-LSTM的输出是一个向量,用作意图表示。意图向量通过单个网络层,该网络层产生域表示。为了评估表示方案,亚马逊将编码输入到两种技术选择系统中。当使用原始文本作为输入时,系统准确率为90%,亚马逊则将准确率提高到94%。
为了证明其表示成功依赖于分类类别的分层嵌套,将设计的三个不同系统进行比较,通过融合LSTM编码的去词汇化输入学习域和意图嵌入。三个系统显示原始文本的改进,均不能匹配分层系统。“从本质讲,通过深度学习,亚马逊对大量领域进行了建模,并将学习转移到新的领域或者新的技能。”Rohit Prasad说。
最近,亚马逊推出了迁移学习,该项目属于亚马逊未来战略的一部分。机器学习的改进最直接的影响就是使得系统错误率较去年减少25%。此外,今年12月,亚马逊启动了机器的自学习,系统可以联系上下文线索进行修正。Rohit Prasad举例说,用户对Echo说玩XM Chill请求失败时,可以通过说播放Sirius 53频道继续收听。对于Alexa而言,XM Chill和Sirius 53频道的意义是相同且独立的。“从隐藏式反馈中学习。”
“当两个人开始说话时,很容易感受、理解到对方的情绪,系统却对此无能为力。人们正在努力地开发能够使得系统更加成熟,更能够理解对话如何发展的人性化能力。”卡内基梅隆大学语音识别专家Alex Rudnicky说。
今年秋天,亚马逊的一项技术专利显示,Alexa可以识别用户的情绪并做出相应的反应。Rohit Prasad表示,Alexa的最终目标是远程会话功能,根据要求对给定的问题作出不同的反应,当然,成为一个理解语音、语调微妙差别的语音助手还有很长的一段路需要走。Alex Rudnicky认为人类的五大情绪中,愤怒最容易辨别成功。
现阶段,亚马逊在稳定版本中拥有7万项技能,从测试、游戏再到冥想,是两年前的7倍之多。随着Alexa设备的增加,其技能也在不断地改善。Alexa可以很好的预测人们的意图,不过更多Alexa用户并不了解其潜在的用途,厨房、闹铃成为用途最多的场景。另一方面,开发者也没有更多的精力、动力研究用户更多的潜在应用场景。
事实上,语音助手除了直接表现出的使用需求之外,还拥有很多潜力。更多人使用Alexa收听美国国家公共电台、检查天气。2016年Alexa推出过互动幻想的游戏,算法显然难以提醒用户Alexa其它潜在功能的存在。
“如果我们向用户介绍新技能、新功能,与用户正在做的事情高度相关,那么,结果是好的。值得注意的是,这些推荐需要适当的时机,适当的内容。否则,会造成信息过载。”Toni Reid说。Canalys数据显示,2018年Q3Echo出货量为630万台,谷歌仅次之,出货量为590台。尽管谷歌起步较晚,但谷歌已经成为亚马逊不能忽视的竞争对手。
从市场体量来看,不包括第三方设备,Alexa在使用数量、用户基数上占据了主导地位。但谷歌的优势依旧明显,Canalys分析师Vincent Thielke表示,谷歌拥有多年的人工智能积累,Alexa则是从头开始。谷歌在人工智能领域绝对领先,所以很容易赶超亚马逊。
Android、Android Auto、WearOS,可以为谷歌助手提供更多土壤。亚马逊曾在2014推出Fire Phone,失败较为惨烈,所以在移动端口,亚马逊的选择极其有限。在汽车领域的较好表现,不能抵消其在原生项目集成方面落后于谷歌、苹果。
不可否认的是,亚马逊Alexa增长趋势丝毫没有放缓的迹象。优势和缺点同样明显的Alexa未来将会走向何方,只有Alexa知道答案。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。