福利预告 | 声智CTO冯大航直播答疑：远场语音交互核心技术

本文作者：谷磊

2017-06-28 18:19

导语：远场语音交互技术如此有威力，从哪里可以学的到呢？

过去的一年，要说人工智能在面向消费者的领域有哪些明星产品，销量近千万的亚马逊Echo总是一个绕不开的存在。

提及Echo成功的原因，声智科技合伙人李智勇告诉雷锋网，Amazon Echo这产品根本没做任何的功能上的创新，听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品，它唯一的变化只是把语音交互的方式从近场升级为远场，并把精度和速度打磨到非常优秀的程度。

只是这么一点点变化，似乎就要创造一个无比巨大的行业。因为Echo之后，全球科技巨头纷纷推出自己的智能音箱，但乱花渐欲迷人眼之际，估计广大技术爱好者要和雷锋网编辑有同样的疑问：远场语音交互技术如此有威力，从哪里可以学的到呢？

不久前，雷锋网 mooc.ai 已推出了远场语音交互技术的实战特训班，由语音交互专家、声智科技 CTO 冯大航主讲，冯大航老师的介绍如下：

福利预告 | 声智CTO冯大航直播答疑：远场语音交互核心技术

冯大航

冯大航：2007年开始从事语音信号处理，麦克风阵列信号处理，语音识别方向研究，在语音交互领域已经积累10年经验。2007年毕业于中国科学技术大学电子信息工程系，2007-2012年在中国科学院声学研究所读博士，博士期间在阵列信号处理方向发表多篇SCI、EI论文，2012年获得中国科学院院长奖学金，毕业后在中国科学院声学研究所任助理研究员，工作期间获得国家自然科学基金项目，同时参与了多个国家重大项目；2015年曾任职于云知声负责远场语音识别前端算法，2016年5月联合创建声智科技。

该课程共分四章24个课时，主要讲解语音信号处理，麦克风阵列信号处理，语音识别中的关键技术及实用技巧，通过该课程的学习，可以了解目前AI设备（智能音响、机器人、车载设备等）中语音交互的关键技术，根据一些开源软件及硬件设备可以搭建一套远场语音识别系统，同时语音信号处理中的回声消除、噪声抑制技术也是VOIP的核心，广泛应用于各类直播平台、即时通讯等应用软件中。

除了在课程中深度的剖析和讲解外，冯老师还在课后的评论区和同学们互动交流，探讨技术细节。

福利预告 | 声智CTO冯大航直播答疑：远场语音交互核心技术

现将部分探讨精选如下：

问题一：

学生：冯老师好！您讲到Echo是实时估计说话人方向的，这个比较难，那么Echo是怎样做到的呢？

冯大航：其实实时估计说话人的方向技术上难度不大，可以利用语音端点检测检测到语音，然后将这段语音分成多段，每段进行DOA估计，最后可以将这些DOA估计结果进行卡尔曼滤波，就可以实现对说话人的跟踪。但实际中，情况比较复杂，比如旁边可能突然有人说话，那doa估计可能就会算错了，现实当中主要是这种方法鲁棒性不够好，你实际使用echo的时候就会发现，如果旁边放一个干扰源，它的doa也经常会出错。叮咚音响，已经我们的音响采取的策略就是只计算一次说话人的方向，增加鲁棒性。

问题二：

学生：请问实际工程中麦克阵列和单路回声消除有哪些差异？麦克风阵列回声消除的优势有哪些？

冯大航：麦克风阵列回声消除有很多种做法，是先每一路做回声消除，然后再做波束形成，还是先做波束形成，再做回声消除，再或者是先做一部分回声消除，做波束形成，做回声消除。取决于你系统的计算能力，以及波束形成采用什么结构，这里很难给出一个定性的结论。一般来说先做回声消除，再做波束形成效果最好，但计算量最大。

麦克风阵列对回声消除的作用主要体现在后面的波束形成，去混响等算法上，因为波束形成也会对回声有抑制作用。所以总体上看麦克风阵列的回声消除效果要好于单麦克的回声消除。

问题三：

学生：在真实环境中，不可避免地会出现多源、混响等情况。请问如何判断MUSIC算法中360°beamscan DOA得到峰值的真实性。比如在单源+混响的情况下，麦克风阵列会收到来自不同方向的源和混响信号，MUSIC的声源数量参数是否可以取大些，如4。这样会同时估计到信源方向和混响方向而不影响算法的鲁棒性。

冯大航：这个涉及信源数估计问题，这个问题学术上研究很多，比如最简单的判断自相关矩阵的特征值大小，但实际中效果都不好。MUSIC信源数取的大，会导致有些信息没用上，比如原本有3个噪声向量，你只取了一个，效果肯定不如用3个计算的好。所以music算法最大的问题是需要预先对信源数估计，而信源数估计又很难，是一个死循环。算法带来好处的同时，一定有坏处，就看你使用的场景能否忍受这个坏处。

类似这样学员与老师的问答还有很多，作为学员福利，在7月1日上午10点，雷锋网特邀请冯大航老师对于课程内容进行直播答疑。为了让更多对语音、声学感兴趣的童鞋参与进来，我们放出部分参与名额，但为了保证答疑质量，一旦人数达到限制，将关闭报名入口。

本直播直播地址为：http://www.mooc.ai/course/109，可免费观看，请同学们设好闹钟，提前准备好问题前排就坐。也可以加助教微信：mooccai，自报家门和来意。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

谷磊

编辑

专注报道人工智能。微信：ydxy301

发私信

当月热门文章