搜狗版“Siri”是如何炼成的？

本文作者：程弢

2016-08-05 21:01

导语：8月3日，搜狗推出语音搜索引擎——“知音”，融合了吞音优化、语音纠错以及多轮交互三个全新的功能。

搜狗版“Siri”是如何炼成的？

2011年年底搜狗组建了一支语音识别团队；
2012年6月上线了首款语音搜索引擎；
8月3日，搜狗推出语音搜索引擎——“知音”，并融合了吞音优化、语音纠错以及多轮交互三个全新的功能。

第三方的实测数据显示，搜狗语音和科大讯飞的性能保持在同一水准，而这样的成绩显然超出了搜狗语音团队创立之初的预期。

风口下的搜狗语音

2012年前后，语音识别的概念还未得到普及，也没有太多互联网公司涌入进来，而科大讯飞在当时已经初露锋芒。

搜狗以输入法和搜索发家，在输入法产品完成了多次迭代并逐步走向成熟之后，搜狗CEO王小川试图切入语音识别市场，不过公司最初没有打算独自研发。

刚好科大讯飞的高层找到了我们，希望强强联合推出一款更好的语音产品。

搜狗语音交互技术中心负责人王砚峰说。

搜狗版“Siri”是如何炼成的？

搜狗语音交互技术中心负责人

搜狗有输入法和搜索引擎，科大讯飞有语音技术储备，二者合作的确是个双赢的局面。但这次谈判并不顺利，虽然科大讯飞方面答应在语音助手产品上展开合作，即由搜狗提供后台的服务，科大讯飞负责前端的产品。不过，双方利益没有达成平衡，合作谈崩。

王砚峰表示，“科大讯飞希望通输入法切入互联网站稳脚跟，而我们也准备进军移动互联网，不可能会把输入法的优势让给别人。”

合作的告吹给搜狗留下了第二条路——研发一款搜狗专属的语音识别产品。公司内部很快就达成了一致——“时间不等人，这件事就快速自己做起来吧！”

拿定主意后，搜狗便开始招兵买马扩张团队。但语音技术的积累不是短期内可以完成的，所以搜狗第一步还是选择倚靠有技术功底的队友，即谷歌。2012年上半年，搜狗借助谷歌的引擎，由谷歌负责收集数据，产品的研发进度非常迅速。

“1月份开始做这件事，到6月份就做出了一版准确率还行的引擎，在第三方的实测数据上显示，这一版引擎在地图上的准确率已经超越了百度。”

地图引擎后来居上，准确率超越了百度，这对仅在语音识别涉足半年的搜狗来说是一份趋近完美的答卷。

尽管如此，这版产品依然存在一些问题，体验还有很大的提升，与科大讯飞还有一定的差距，所以搜狗没有让其在输入法上测试。根据王砚峰的说法，地图应用场景相对收敛，对语音的要求比输入法要低得多。

半年之后（2012年11月），随着搜狗输入法数据的积累，公司放弃了谷歌的引擎，在输入法上用上了自家的引擎，并将语音识别延伸到了输入法上。

随着Siri的走红，语音识别产品也逐渐俘获了大量的C端用户。2013年一年，搜狗输入法的数据量积累到了1.5万个小时，依靠这些数据、深度学习以及日渐成熟的团队，搜狗的语音识别性能已经基本保持和科大讯飞持平，微信和百度，而第二梯队则是云知声和思必驰等公司。

新起点：搜狗版“Siri”降临

拥有输入入口，对一家做语音识别的企业来说是得天独厚的优势。

在数据量上，搜狗、百度都对其它公司都与明显的优势。不过相比科大讯飞和百度等品牌，业界鲜见搜狗语音对外发声，直到“知音”的发布。

“知音”对搜狗语音的重要性不言而喻，说其为后者的代名词也毫不为过，正如度秘至于百度、GoogleNow之于谷歌、Siri之于苹果...

从搜狗官方的介绍来看，“知音”拥有吞音优化、语音纠错以及多轮交互三个功能。虽然还算不上创新，但从技术角度而言，这三个功能都含金量十足。

吞音优化

吞音问题来源于用户，如果说话时语速过快会有吞音问题，而机器自然也不会适应这样的发音。

如果需要准确地识别快语速的语音，那就需要技术和丰富的语料支持。王砚峰表示在语言模型训练时选择大量吞音的语料，另外在建模上做一些吞音的优化，这是解决吞音的基础。

用“知音”举个例子：

知音发音部分的建模使用的是LSTM+CTC的模型，对发音本身以及发音间的差异性做了细致的描述；
另外知音还使用了基于深度神经网络的语言模型对识别结果进行了修正，依赖更长的历史信息将吞音对识别结果的影响尽量降低；
除此之外，知音在数据层面也做了筛选以及生成的工作，通过调整数据分布优化吞音识别的效果。

语音纠错（修改）

通俗点讲，语音修改是为语音识别错误填坑而存在的，它可以帮助用户使用自然语音的方式来修改错误的识别，而不需要手动操作。

修改过程包含了语音识别(识别用户纠错的命令)、语义分析(分析用户修改的意图)、文本修正（执行相应的修改命令）三个步骤，整个系统性能的优化是一个联合优化的过程，语音识别尽管面向的是垂直类别，但是语言模型严重依赖于语义分析模块的知识。

在语义分析的基础上，还需要输入法和搜索的知识，例如输入法拆字库如立早章、海量词库如砚台的砚，搜索知识图谱如清华的邱勇等。

多轮交互

多轮对话一直都是语音识别难点，虽然有不少语音产品宣称自己具备多轮交互的能力，但实际表现如何又是另一回事了。

如果只表达一个命令，只会涉及到机器学习当中的分类问题，但多轮交互的问题就复杂了。他需要结合上下文，而用户行为往往是不可预测的，会产生出很多新的行为范式，反映出来的就是状态机会增加更多的状态以及状态之间的边，那么如何根据用户产生出来的数据，动态的不停的构建或者调整状态机，这是多轮交互里面最大的难点。

要实现多轮交互就需要强大的知识图谱以及技术架构。

“如果没有好的知识图谱和技术架构，你的语音产品只会是一个玩具。”王砚峰如此形容。

从各家语音识别产品的迭代情况来看，体验的较量已经上升到了一个新的level，但可以确定的是未来产品的差异不会体现在技术上，而是数据的积累，至于搜狗会把“知音”带到一个什么样的高度，我们拭目以待。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

程弢

略懂技术的小编

关注一切有未来感的产品及技术！

扫描关注作者微信

发私信

当月热门文章