0
万物互联,作为人类最自然、便捷的沟通方式,语音正成为所有智能设备至关重要的入口,但入口的关键——拾音,效果往往差强人意。就智能家居来说,它们的拾音范围多集中于近场环境,约为2-3米,且拾取效果欠佳,需多次唤醒。
如果把摄像机比作“眼睛”,拾音器便是“耳朵”。眼睛看到的图像和耳朵听到的声音组合构成一个基本的影音记录系统。然而这只灵活的耳朵在应用过程中会受到诸如拾音距离、室内混响、环境噪音等诸多因素的影响,这对拾音来说是不小的挑战。
如何真正“耳听八方”?深耕智能语音与人工智能领域多年的科大讯飞,近期推出了全新拾音品牌——谛听,在超小音量拾取和降噪方面再下一城。其实,讯飞在早前推出的讯飞录音笔、智能鼠标、阿尔法蛋等产品均涉及语音交互。基于产品应用的技术积累,这次在拾音领域发力深耕,令人欣喜。
据了解,科大讯飞谛听系列配备了32路麦克风,主打全自动声源定位、自适应波束形成和混响抑制技术以及基于深度学习的噪声抑制和语音自动增益调节算法,可实现室内说话人自动定位、噪声与混响抑制、音量自动调节等功能,从而达到精准拾音的目的。
近日,某科技博主的一支关于拾音器的评测视频引发关注。视频中,科大讯飞的谛听系列产品和德国森海塞尔、美国舒尔的同类产品“同台竞技”,讯飞表现出彩。
在模拟30分贝人耳都无法听见的超小的音量环境下,森海塞尔拾音稳定,内容清晰,舒尔拾取的声音小且难以分辨说话内容,讯飞谛听拾取的内容清晰,且音质听感较好的。
这主要由于科大讯飞采用了自主研发的全自动声源定位技术,只要有轻微的声音,它便如聚光灯一样迅速定位声源,并对来自其他方位的混响和噪音进行抑制。在实际应用中,32个麦克风组成的阵列可做到7×24小时全天候、全方位、无死角拾音,精准拾取低至30分贝的超小音量。
众所周知,声音在传播过程中会发生衰减,不同方位的声源会导致所拾取语音音量和效果差异较大,全自动声源定位和自适应波束形成技术还使得讯飞谛听在拾取运动的声源方面表现出色。波束如同枪手枪击猎物一样,可自动“瞄准”运动的声源方位。这意味着,对于那些仍需要预设和限制区域才能拾音的设备来说,讯飞这是一大突破。不仅如此,通过对不同音量自动调整,讯飞谛听使得拾取的声音更符合人耳听觉效果。
声学环境比想象中更为复杂,环境噪音、干扰噪音、电流噪音等噪声与语音信号在时间和频谱上常常相互交叠,再加上回波和混响的影响,想要捕捉相对纯净的语音非常困难。在评测视频中,评测者分别模拟了环境噪音为70分贝和90分贝的情况,结果显示即使是90分贝的极端噪音环境,谛听都抑制了噪音,对话内容依旧清晰。
面对噪音这一挑战,讯飞谛听依据时域、频域和空域的信息,能有效增强语音并显著抑制噪音对目标语音的影响。它首先通过声音定位技术拾取语音,进行语音增强,实现初步的降噪效果。然后通过波束形成和基于深度学习的语音增强算法和对非方向性和方向性的噪声进行抑制,最后输出时,对音量大小自动增益并根据人耳的听觉特点优化,使声音更加饱满。
万物智联的时代已然来临,A.I.赋能IOT将激发无限可能,前端拾取的音质高低无疑会为影响后期的语音处理的水平。
谛听系列产品,是科大讯飞21年来始终坚持源头核心技术自主创新的体现。凭借“中文语音技术应由中国人做到最好”的信念,2018年至今,科大讯飞已获得30项人工智能国际竞赛的冠军,涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域。随着一项项技大关术的突破,科大讯飞也为拾音器的多样化应用场景落地提供了强而有力的技术支撑。以往的拾音设备成本高、音质差、指向性强,无法在大面积推广,谛听的推出,或许将打破这一现象。
据悉,谛听系列产品未来可广泛应用安防、交通、高质量会议等关键场所和重点部位,其实用性应用而言,可以说大有可为。以公共场所为例,以往的视频大多无法精准拾取声音,音频与视频的有效结合,全向采集视听解决了单纯视频的图像死角,有利于防止群体性和违规事件的发生,满足更多现实的需求。
当今世界正经历百年未有之大变局,而人工智能正是引领新一轮科技革命和产业变革的战略性技术,对于推动社会生产力的整体跃升有着重大意义。刘庆峰不止一次表示,“只有占据核心技术的高点,才能在产业发展中赢得主动,在国际竞争中拥有话语权。”讯飞谛听或许正是其20多年专注于人工智能核心技术的最佳体现。
雷锋网雷锋网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。