2
卸任锤子科技 CTO 之后,钱晨加入数字家圆,参与了一款视频通讯设备——亲见 H1 的研发,做的是他老本行——声学,其中最核心的工作便是远场语音识别。
远场语音识别也是 Amazon Echo 的核心技术之一,Echo 的火爆点燃了整个市场,但钱晨告诉雷锋网,他并不认为这是“最好的时代”。
1998 年,钱晨在中科院顺利拿到了水下声学博士学位,很长一段时间,他在北京摩托罗拉研发中心担任电子与声学工程师。
他现在担心的是,百家争鸣背后,“智能音箱”这个概念会被做臭,就像他玩石头从来不碰田黄,因为一说到田黄,他第一反应就是赝品。
以下是钱晨自述,由雷锋网整理。
这么说吧,做前端声音处理的,国内没有高水平的。因为我们这个专业,一年毕业不到 50 个学生,大家都知道,这个水平不会太高。但是美国人比较有意思,美国人做物理比咱们深,物理做深了以后,它就能解开一道道题。
麦克风这个行业,有两个流派。一个是说自己有 6 个、7 个麦克风(Amazon Echo)的那种,叫麦克风阵列;第二个流派就是“两麦”(Google Home)。从这一点出发,不管厂商怎么讲故事,都逃不出这两个。
麦克风阵列流派的缺点是夹角窄。
展开之前得先谈一谈“波束形成”。波束形成实际上 20 年前就有人做了。军工里的声纳,微波里的智能天线,都是这个技术。
当时大家为什么用波束形成?主要是因为做电路的时候就是处理各种放大信号,而波束形成本身就是一个放大信号,我们管这个放大叫空间增益。对空间场的增益还有一个公式,根据它,能做出很多技术创新来。
亚马逊做 Echo 的时候就用了这个技术。这个技术体现在产品上,就是它能识别声音传来的方向,然后把旁边的声音滤掉,把需要的声音增加了空间增益。对比到电路上,就是这个信号的放大倍数多,信噪比好,信号被放大以后,很干净。
麦克风阵列就是用这个阵列形成一个波束,波束角是 60 度。
“两麦”没有夹角窄这个问题,它也有空间信息,能分辨出来声音是左边来的还是右边来,但它没有增加放大量。
对比这两个流派,时间差能说明一些问题。亚马逊 4 年前就在 Echo 上用了波束形成,而“两麦”是去年开始用的,就是 Google Home。所以这两个技术在应用成熟度方面,差了三年到四年。
再往下走就到设备端了。
设备首先要解决的问题就是噪声抵消。比如一个人跟另一个人说话,声音是从四面八方传到耳朵里的,对设备来说,情况也一样。那这就有问题了,有些方向的声音快一点,有些会慢一点,叠加在一起就产生了混响,或者说噪音。
所以麦克风把声音识完以后,剩下的事就是做噪声抵消,让声音信息干净到能让“对方”听到,计算机才能够处理。
现在可以看到,科胜讯、云知声、思必驰,科大讯飞这些公司,它们都说自己有全套解决方案,实际上,“全套解决方案”就是能解决刚才所说的噪声抵消和后面的云端处理。
只有设备里的噪声抵消解决干净了,信息才能传到下一级,去做语音识别。
语音识别国内做得最好的就是科大讯飞,他们最喜欢干的就是,每次有人在那儿说话,它给你翻成文字。它这个做得很漂亮。但这些文字是什么意思?它不管了。因为这已经到了语义识别,而在这一块做得最好的是微软和亚马逊。
总之,可以把语音设备的技术分成三段:一是噪声抵消,二是语音识别,三是语义识别。在语义识别这块,老外比中国人强。
对用户来说,一定是三段都做好才能有所体会,但语义识别是个更难的东西,基本上只有大公司能做,小公司做不了。
我现在认为“智能音箱”快做坏了,就是设备端都没有做好。如果降噪这一块没有处理好,科大讯飞算法再好也傻,识别率就下降,语义识别就更别谈了。
很少有人注意到一个信息,国家做了一个实验室,希望厂商们把自己的语音设备放到实验室去认证。
它就跟手机一样,手机厂商都会说自己的产品好,但最后必须得过 3C 标准,需要认证。所以大家都说自己好的时候,实验条件是什么?环境条件是什么?他们答不上来的。
声学测量远比电磁场测量复杂,能不能适应复杂的物理环境才是体现设备水平高低的地方,而那些总拿“能识别几米几米”说事的,消费者都不会买单。
雷锋网拓展阅读:《亚马逊的秘密部队和差点成笑话的Amazon Echo》
雷峰网原创文章,未经授权禁止转载。详情见转载须知。