您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给汪思颖
发送

0

Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

本文作者: 汪思颖 2017-09-05 14:14
导语:看Facebook最新开源语音合成方法

雷锋网 AI科技评论消息:Facebook研究员近日开源了他们在今年七月发表的一篇论文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的语音合成方法。

Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

在论文中,他们提出了一种新的文字转语音的神经网络方法,可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统,这种方法能够处理从公开演讲中提取出来的非约束性的样本,而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区(shifting buffer working memory),这个缓冲区也可以用于评估注意力,计算输出音频,以及自身的更新。

Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

通过使用与上下文无关( context-free)的查找表对输入语句进行编码,该表的每个条目包含一个字符或音素。同样,能通过一个短向量来表示说话者,这个短向量也适用于新说话者。而且在生成音频之前,优先准备好缓冲区可以使生成的语音具有可变性。

上图为实验样例中生成的注意力图,X 轴是输出时间(声学样本),Y 轴是输入(文本/音素)。

代码地址:https://github.com/facebookresearch/loop

论文地址:https://arxiv.org/abs/1707.06588

雷峰网原创文章,未经授权禁止转载。详情见转载须知

Facebook开源VoiceLoop,根据开放场景语音文字合成新语音

分享:

编辑

关注AI学术,例如论文
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说