微软与浙大开发出新 AI 模型，解决语音助手卡顿问题

本文作者：付静

2019-12-13 17:55

导语：FastSpeech 模型兼具了快速、鲁棒、可控等特点。

雷锋网消息，在 12 月 8 日至 14 日于温哥华召开的机器学习顶会之一 NeurIPS 2019 会议上，微软和浙江大学研究人员介绍了文本-语音模型 FastSpeech，该模型可大幅提升文本语音转换过程中梅尔谱的生成速度，语音生成速度比基线快 38 倍。

雷锋网注：【图片来源：VentureBeat 所有者：VentureBeat 】

目前，Google Assistant 语音助手及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的语音乍听上去几乎与人声无异。事实上，这些语音助手都是由文本-语音模型提供支持的。

在当下，基于神经网络的端到端文本-语音合成技术发展迅速，大多数模型的合成方法为：从文本生成梅尔谱（Mel-Spectrogram，即一种展示声音功率的光谱图），然后使用声码器（分析和合成语音信号的编解码器）合成语音。

但是，这种合成方法存在着一些不可避免的问题，主要包括：

速度慢：端到端模型通常以自回归方式生成梅尔谱，再通过声码器合成语音，而一段语音的梅尔谱通常能到几百上千帧，导致合成速度较慢；
稳定性差：序列生成的错误传播及注意力对齐不准，会导致出现重复吐词或漏词现象；
缺乏可控性：自回归的神经网络模型自动决定一条语音的生成长度，不易控制语速或韵律停顿等。

为解决这些问题，微软（亚洲）互联网工程院语音团队联合浙江大学提出了一种新的机器学习模型 FastSpeech，并在论文《FastSpeech：快速、强大且可控的文本-语音模型》中详细介绍了该模型。另外，值得一提的是，该论文已被温哥华 NeurIPS 2019 会议录用。

微软与浙大开发出新 AI 模型，解决语音助手卡顿问题

【图片来源：论文】

与其他文本-语音模型相比，FastSpeech 模型架构较为独特，且有着更佳的性能（其梅尔谱生成速度比基线快 270 倍，语音生成速度比基线快 38 倍）。不仅如此，它还能够避免了单词跳过等错误，还支持精细调整语速和单词中断。

更为重要的是，FastSpeech 包含长度调节器，可协调梅尔谱序列和音素序列（即感知度不同的声音单位）之间的差异。

简单来讲，由于音素序列的长度总是小于梅尔谱序列长度，一个音素对应多个梅尔谱。而长度调节器会根据持续时间，扩展音素序列以匹配梅尔谱序列长度（一个补充时长预测器组件确定一个音素的时长）。增加或减少与音素或音素持续时间匹配的梅尔谱数目，可成比例地调整语音速度。

微软与浙大开发出新 AI 模型，解决语音助手卡顿问题

【图片来源：论文】

为验证 FastSpeech 的有效性，研究人员将其与开源的 LJ Speech 数据集进行了对比，该数据集包含 13100 个英语音频片段（相当于 24 个小时的音频）和相应的文本转录。在将数据集随机分成用于训练的 12500 个样本、用于验证的 300 个样本和用于测试的 300 个样本后，他们对语音质量、稳定性等进行了一系列评估。

论文中，研究团队主要从语音质量（audio quality）、生成速度（inference speedup）、稳定性（robustness）和可控性（controllability）等方面评估 FastSpeech 模型的性能。

研究团队表示，FastSpeech 的质量几乎与谷歌的 Tacotron 2 文本-语音模型相当，在稳定性上轻松超过主流的 Transformer 模型。同时，与基线的 34% 有效错误率相比，FastSpeech 的有效错误率为零。（但不可否认的是，其稳定性测试只涉及 50 个语义复杂的句子）此外，FastSpeech 能在保持准确度的前提下，将生成的语音速度从 0.5 倍变为 1.5 倍。

因此，研究团队表示，FastSpeech 兼具快速、鲁棒、可控等特点。

微软与浙大开发出新 AI 模型，解决语音助手卡顿问题