会话转录可以实时进行？微软研究新进展告诉你答案

本文作者：肖漫

2019-05-07 18:54

导语：新的会话转录功能扩展了微软现有的Azure语音服务，支持实时、多人、远场语音转录和说话人归因。

雷锋网按：会话转录能够实时进行？而且还支持多人、远场语音转录？是的，这些新的转录功能都是微软研究所近期在口语处理上取得的新进展，雷锋网将其文章全文编译如下。

在强大的云计算基础设施和大量训练数据的支持下，深度学习算法如今已经成为了 AI 进化之旅的最重要驱动力。下面的几个任务是语音和语言社区里广泛使用的公开基准测试，在过去的三年里，微软首次在这些任务上取得了可以和人类相媲美的表现。

2017：语音识别：对话语音转录任务(总机)

2018：机器翻译：汉英新闻翻译任务(WMT17)

2019：对话问答：斯坦福会话问答任务 (CoQA)

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上已经有了智能音箱，但大多数智能音箱一次只能处理一个人的语音指令，并且在发出这样的指令之前，需要一个唤醒词。微软研究在Azure语音服务中加入了一些重大的技术突破，并提供了新的对话转录功能，该功能将在今天的预览版中提供。通过微软所引用的设备SDK (DDK)，纯音频或视听麦克风阵列设备的可用性增强了这一功能。这是人工智能进化过程中的重要一步，因为几十年来，环境远场多人语音转录一直是科幻小说的主要内容。

新的会话转录功能扩展了微软现有的Azure语音服务，支持实时、多人、远场语音转录和说话人归因。与语音DDK相结合，会话转录可以有效地识别房间里一小群人的会话语音，并生成一个处理常见但具有挑战性的场景(如“串话”)的转录。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户，微软正在与部门客户和像Accenture、Avanade和Roobo这些的系统集成伙伴接洽，分别在美国和中国定制和整合对话转录解决方案。这种先进的能力类似于微软在去年的构建中首次演示的功能。感兴趣的企业可以向微软申请预览，体验由人工智能支持的对话转录是如何提高协作力和生产力的。

会话转录功能够利用多通道数据，包括来自代号为普林斯顿塔的语音DDK的音频和视觉信号。边缘设备是建立在微软参考设计的360度音频麦克风阵列或360度鱼眼摄像头的基础上的，通过视听融合来支持更好的转录。边缘设备将信号发送到Azure 云端进行神经信号处理和语音识别。纯音频麦克风阵列DDKs可以从http://ddk.roobo.com购买。先进的视听麦克风阵列DDKs可从微软的系统集成合作伙伴处获得。

微软不断创新去超越传统的麦克风阵列和先进的视听麦克风阵列DDKs。今天，微软还公布了最新的研究进展(丹麦项目)，该项目利用一组现有的设备，如配备普通麦克风的手机或笔记本电脑，动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备(如手机或笔记本电脑)与普通麦克风(如乐高积木)动态地组合成一个更大的阵列。丹麦项目可以帮助微软的客户更容易地使用Azure语音服务，随时随地转录对话，无论有没有一个专门的麦克风阵列DDK。未来的应用程序场景是非常广泛的。例如，我们可以对多个微软翻译器应用进行配对，以帮助多人更有效地使用移动电话进行沟通，从而将语言障碍降到最低。可以在//Build Vision Keynote查看最新研究进展和演示。

会话转录可以实时进行？微软研究新进展告诉你答案

【图片来源：Microsoft Research Blog 所有者：Microsoft Research Blog 】

最后，如果有像缩略语这样的专业词汇，准确的语音转录是非常困难的。为了解决这个问题，微软正在扩展Azure的自定义语音识别功能，并允许组织使用Office 365数据轻松地创建自定义语音模型。对于选择使用该服务的Office 365企业客户，Azure可以自动生成一个自定义模型，该模型利用Office 365中的联系人、电子邮件和文档等数据，以一种完全隔离、安全且兼容的方式进行操作，在组织特定的方言上提供了更准确的语音转录，如技术术语和人员姓名。对于有兴趣尝试这个新功能的客户，微软将为您的组织提供一个私人预览，让您从专用的和优化的语音服务中获益。

会话转录可以实时进行？微软研究新进展告诉你答案