0
雷锋网AI科技评论按:在单词和短语之间进行语音区分,如区分「I'm hear」和「I'm here」或区分「I can't so but tons」和「I can't sew buttons」,这样的事情每个人都遇到,尤其是遇到自动更正的短信、社交媒体上的帖子之类的时候。尽管乍看之下,语音相似性似乎只能对可听单词进行量化,但这个问题常常出现在纯文本空间中。
如何对语音相似的汉语拼音进行研究呢?IBM 研究院的研究人员们发展了一种学习汉语 n 维语音编码的方法,并可以推广到许多其他不容易适应英语语音模式的语言中。雷锋网 AI 科技评论编译。
语音相似词对
用 AI 的方法分析和理解文本需要干净的输入数据,而这又意味着需要花费相当的精力对原始数据做预处理。不正确的同音词和同义词,无论是无意拼错还是在玩笑中使用,都必须像其他形式的拼写或语法错误一样进行纠正。在上面的例子中准确地将「here」和「so」这两个单词转换为和它们语音上相似的正确对应的单词需要一种单词对之间语音相似性的鲁棒的表示。
大多数语音相似性算法是由英语的使用场景驱动的,并设计用于印欧语系。然而,许多语言,如汉语,有不同的语音结构。汉语的官方罗马化系统拼音,用单音节来表示汉字的语音。拼音音节包括:(可选的)声母(如 「b」、「zh」、「x」)、韵母(如「a」、「ou」、「wai」或「yuan」)和音调(有五个)。将这些语音映射到英语音素会导致相当不准确的表达,并且使用印欧语音相似性算法进一步加剧了这一问题。例如,两个著名的算法,Soundex 和 Double Metaphone,会在忽略元音的同时索引辅音(并且没有音调的概念)。
拼音
由于一个拼音音节平均代表七个不同的汉字,所以同音字在数量上甚至大于英语。同时,无论是在使用语音到文本时还是在直接键入时,拼音用于文本创建在移动和聊天应用程序中非常普遍,因为输入拼音音节并选择预期的字符更为实用。因此,基于语音的输入错误非常常见,凸显了用非常精确的语音相似性算法来纠正错误的需求。
可视化表示拼音缩写的语音编码
受这个使用场景的启发,IBM 研究院的研究人员们发展了一种学习汉语 n 维语音编码的方法,这个使用场景还可以推广到许多其他不容易适应英语语音模式的语言。拼音的一大特点是韵母、声母和声调三个因素应独立考虑和比较。例如,拼音对 {「xie2」、「Xue2」} 和 {「lie2」、「lue2」} 中即便声母不同,韵母「ie」和「ue」以及声调仍然可以是相同的。因此,一对拼音音节的相似性是声母、韵母和声调之间相似性的集合。
然而,人为地将编码空间限制到低维 (例如,把每种声母各自划分为不同的类别,或者用不同的数值表示) 限制了捕获语音变化的准确性。因此,正确的、数据驱动的方法是慢慢地学习适当维度的编码。该学习模型通过联合考虑拼音语言特征,如发音地点和发音方法,以及高质量的带注释的训练数据集,来获得准确的编码。
对现有语音相似性方法的 7.5 倍改进
因此,学习到的编码可以用于,例如,接受单词作为输入,并返回语音相似单词的排序列表 (语音相似性依次降低)。排名很重要,因为下游应用程序不会扩展到考虑每个单词的大量替代候选,尤其是在实时运行时。作为一个真实世界的例子,IBM 研究院评估了为来自社交媒体数据集的 350 个中文单词中的每个单词生成候选排序列表的方法,并且展示了比现有语音相似性方法的 7.5 倍的改进。
IBM 研究院希望这项工作对于代表语言特定的语音相似性所产生的改进,有助于许多多语言自然语言处理应用的质量。这项工作是 IBM 研究系统项目的一部分,最近在计算自然语言学习的 2018 届 SIMLL 会议上发表,预训练的中文模型可供研究人员在聊天室、消息应用程序、拼写检查程序和其他任何方面的应用程序上使用。
雷锋网 AI 科技评论编译。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。