专访 | 阿里iDST初敏博士和陈一宁博士：如何打破语音技术的落地怪圈

本文作者：亚萌

2017-03-31 23:01

导语：在3月29日云栖大会现场，阿里iDST总监初敏博士、iDST语音技术产品化团队负责人陈一宁博士接受了雷锋网的专访。

雷锋网按：人工智能技术大热，一茬接一茬的AI创业公司蜂拥而起，得到资本和媒体的宠爱。单是根据去年4月份的统计数据，就有170家Chatbot公司烧掉40亿美金。而“人工智能”自带黑科技光环的技术名词，更是每隔几个月都要在媒体头条上“战胜人类”一次。

今年3月初，Yann Lecun在Twitter上推荐了一篇评论文章，文章作者Bradford Cross表达了一个非常重要的观点：机器学习即服务（MLaaS）在实践中令人失望，而且AI公司往往陷入技术傲慢里而轻视了用户需求和公司经济学。

如果我们把2016年看做是AI在中国的初露锋芒的“元年”，受到百般呵护和追捧，那么到2017年，它就要面临严酷的商业社会考验了。因为归根结底，技术的终极价值都要体现在实际应用里。如何让AI技术有效落地、为商业社会创造真正的价值？围绕这个问题，AI科技评论近日采访了阿里iDST总监初敏博士（图右）和iDST语音技术产品化团队负责人陈一宁博士（图左），剥析阿里云在AI技术落地的过程里走过的坑和迈过的坎。

雷锋网：阿里NASA计划发布之后，iDST与NASA之间的关系是怎样的？

初敏：NASA是一个大的计划，我觉得是想把有难度的事情更集中在一起做好，而不是像以前一样分散在各个业务里。就我所在的团队而言，应该没有太大的影响。iDST还是集中解决自然语言、计算机视觉里比较难的问题。

雷锋网：你们为企业提供语音技术服务的形式是什么？

陈一宁：我们当然提供API、SDK这样底层的基础接入。也提供解决方案，但解决方案也分很多种，有的解决方案都细化到说函数都定义好了，就剩实现与否。我们的解决方案会更往上一点，就是给你一个大体的框架，至于最后软件设计成什么样子、最后的展现形态，我们也不需要特别地去掌控。所以我们还是主要跟合作伙伴一起完成一个项目，不是特别端到端大规模推广的一种模式。比如奥点云这个例子，我们会告诉对方搭建的整体框图是什么、如何去搭建，那么再细化的工作可能就不是由我们来做了。

雷锋网：阿里的语音技术目前在哪些垂直领域有比较成熟的应用？

陈一宁：这次我们发布的几个战略合作项目都是比较成熟的。第一个就是与昆石一起发布的质检云系统。实际上它是在做线路的质检，主要因为现在诈骗比较多，我们也是希望能够给社会做一些贡献。这个质检系统能够检测出一些常见的诈骗套路。经营者其实都是对于诈骗深恶痛绝的，但是又很难发现，靠人工来监听，成本实在是太高了。那么通过语音识别的方式，把语音变成文字以后，诈骗的套路就比较容易被检测出来。

第二个就是在直播里生成字幕。实时生成字幕在商用直播里正在逐步变成流行的功能了。他们的需求就是，有时候用户不能听、只能看，这个时候需要字幕；还有的比如会议直播，开完之后希望有一个速记稿出来，那就没有必要专门请一个速记员。所以我们跟奥点云合作的就是这类。

第三个就是泛质检类的服务。这一块我们有很多客户接入，举个例子，比如说像有一个做短租的合作伙伴，他们的商业模式就是充当一个中介的角色，但是如果中间沟通过程中，两头的用户之间自己打电话或微信私聊，那么这个商业模式就被打破了。所以，对于中介类的公司来说，最敏感的就是不能让两边的用户互留联系方式。但这件事实际上是很难判断的，那他们用了我们的服务以后，就可以帮助他们监听，来进行管理。

第四个就是我们的法庭速记。这已经有了一套完整的可复制的模式，自动化生成审判书，甚至现场状况好的时候，直接打印出来签字就可以了。

雷锋网：目前语音市场还是处在被教育的阶段吗？还是说现在已经有很多企业主动跑过来找你们了？

陈一宁：我们现在的情况是，主动找过来的企业，已经应接不暇了。那市场是不是还要被教育，我觉得也是的，跟一个大爆发市场相比，现在还是一个先期的状态。

初敏：我也觉的目前还是处在一个市场被教育的阶段，这不是一个所有人都去抢的well-developed的市场。

比如说像奥点云这样的一个项目，过去是没有的，在过去这个市场是不存在的。这个市场现在之所以会存在，是因为我们云栖大会上展示了这样的技术和案例，很多人看见了，就觉得自己也想要。我们当时在云栖大会的直播上出了字幕，所以很多做视频的就会说，我也想要这个，所以这才推动奥点云这个项目诞生。就生成字幕这个技术而言，其实字幕只是一种外在的表现形式，里面更重要的是，语音转成文字之后，就拥有一种新的数据形态了，那你根据这些数据，可以对视频做检索，对视频内容进行分析等等，后续可以做很多事情。

再比如我们去法院里做速记，这也不是一个存量市场，一家法院用了之后，其他法院觉得挺好的，才开始有这个市场。所以我觉的，是我们在探索新的市场，但是具体到要把某一个领域真正做的好，不是单单靠我们这边把一套完整的东西做完，也要靠合作伙伴的精耕细作。

我们现在很重要的一个方向，就是把在新领域探索的合作项目经验和模式固化下来，这样我们在初期的投入才是有价值的。

雷锋网：现在你们的语音技术有一套固化下来的应用模式吗？

陈一宁：我理解是每一个行业是不太一样的。比如说像我们现在这种司法的领域，其中涉及到个整个数字法庭怎么布置、接入多少路的数据、数据更新、麦克风怎么摆放，什么样的设备进行回声消除、是否要有音量显示......等等整个一套流程，这就是这个领域特有的模式。

初敏：对。其实是说从某种角度来说，就是要把它变成标准化的流程。除了语音识别技术本身，同时可能要提供一些最基础的一些工具，比如说麦克风音量的监测（音量太大或太小都是不行的）。因为在初期，我们的合作伙伴没有相关经验，所以我们有时候就是要多往前走一步，帮他们一下。比如有时候两个麦克风特别近，或者现场一个喇叭就放在麦克风后面，这都是有问题的，那我们团队就要现场去指导部署。合作伙伴能搞定两个了，那之后复制一百个也没问题了，但是头两个我们都会派人去帮它一起看。

雷锋网：语音技术应用于具体的业务场景过程中，你们面临了哪些阻碍？

初敏：把一个看似很高大上的技术成功应用，真的是有太多的细节问题要去解决。就像我们云栖大会现场生成字幕，其实头两场云栖大会，我们最害怕的是接线，线路接不对，就会有巨大的噪声在里面，那就太吓人了。我记得有一次，就突然有电噪声，最后还是请教音频老师，只要把其中两个线路插在一个电线板上，问题就解决了，但我们之前并不知道。

所以，我们这一年时间做下来，切身体会到，语音技术落地真的不是闭着眼睛就能做到的。一般技术提供商，会想当然地认为，我们有API和SDK，你接入就好了嘛，其实远不是这么回事儿（笑）。这个过程中，就是要把工作做细，积累成一个可以复制的模式。

陈一宁：之前我们担心的很多问题，包括麦克风的选型、线路搭建、有没有引入噪声......这样的一些落地的细节中都会有很多问题会产生。

其实这场云栖大会的字幕，已经彻底是由供应商来做全部的事情了。以前的话，是我们团队自己来做，所以就一场一场慢慢来，到今年云栖大会的字幕、网上直播的字幕，已经都完全是由供应商来完成了，我们基本上就没有参与了。

我们就怕技术是一个Demo，就是我能操作，但换一个人用就不行了。所以我们初期跟合作伙伴磨合，做好几个具体项目后，后续让他们自己完全掌控，这就是我们特别希望达到的一个状态。

雷锋网：陈一宁老师，您之前在演讲中提到强定制化是阿里的核心竞争力，能具体讲讲吗？

陈一宁：语音技术的实现跟领域的相关性很高，它不像输入法，做出来一个，到哪里都能用。其实很多时候，你在一个领域里做好了技术，到其它场景就不能用了。通用的语音技术是无法满足客户特定需求的，那么我们会帮助他们去定制专属于自己的语音引擎。比如我们的ET智能语音系统正在逐渐对外开放，最简单有热词的设置（这个已经开放了），更进一步的还可以接入自己的领域数据，这一点我们内部业务团队已经在成熟地使用了，之后也会推广给外部合作伙伴。

医疗领域和电商领域，肯定是不相关的，在知识上讲，各自都有很多的词汇。客户在自己的领域都具有很多的知识和信息，那么客户把包含特色信息的文本输入进来，由我们的机器来学习这些文本，识别率就会得到提升。

阿里对于客户数据的保护是非常严格的，有非常高等级的要求。除了各种ISO认证，内部还有很多严格的规定，是不能看用户数据的。一般来说，各领域的知识，也通常不是敏感的信息。但如果是某些行业的数据敏感度高，那么我们也有专有云来做相关的事情。

雷锋网：初敏老师，您之前在演讲中谈到，对AI公司来说迭代的速度是非常重要的，为什么？

初敏：其实一个学习的过程，简单来讲就是给一堆数据，然后从中学个模型出来。但是如果从一个场景数据换到另一个场景数据，你能够多快学出来？

今天所有的机器学习里，如果做的规模比较大，训练过程是很慢的，有时几天、几星期都弄不好。通常小一点的企业，基本上都是按“月”来迭代的，都两个月、三个月才完成一次完整的调试。几十万和几千万的样本规模是很不一样的。典型的语音识别，如果是2千个小时的数据，只用一块卡，可能需要好几天才能迭代一次，那如果是2万个小时的数据，基本上就不可行了。所以，很多的时候，底层的技术保障也是必须的。

我们现在要花很多时间做多机多卡，其实训练模型在整个过程中间也只是非常小的一环，在整个链条里只占三分之一的时间，剩下三分之二的时间就是在倒腾数据。比如我们今天，把数据存在某个地方，然后把它拿出来提升feature，然后还要做一轮预处理（例如语音识别需要做传统的HMM），这一套前期的工作可能比在GPU上进行深度学习训练花费的时间还要多。实际上，迭代速度决定了你的进步速度，是让A和B真正产生差别的地方。真正到大规模训练和应用的时候，底层的基础设施能力是非常非常重要的。所以今天高校研究就面临很大的挑战，就是因为当面临大规模数据的时候，就会做不了，所以通常高校老师会做算法本身的研究。

那我们现在希望把这个速度做到按“天”迭代。这当中就是主要是基于阿里云的云计算平台的优势。我们从数据的存储、处理，到不同阶段在CPU、GPU上的打通，并发性比较好，所以才会比较快。

雷锋网：AI行业里有一个很经典的问题，就是现在大部分AI公司都是拿着锤子找钉子。你们如何解决找“钉子”（用户需求）的问题？

初敏：阿里整个的氛围就是比较务实的。我觉AI技术在阿里比较容易成功落地，是因为我们比较幸运地可以借助很多外力。首先就是有非常多的业务场景，这个是别人很难得到的，往往得到其中一个就很难，而我们手里有8至10个非常好的业务场景。你的技术只有在真正用的时候才能打磨，最终做到真正好用。所以这就是我们觉得很兴奋的地方，就像一宁昨天晚上工作到2点才休息，其实我们团队很多人真的每天都是这么拼的。因为你有很多的业务场景，只要你有能力，你都可以去做。

我们不是到处要找“钉子”，而是“钉子”堆上来了，就看你搞不搞的定。所以我们始终处在一个超级兴奋的过程中，恨不得每天多做点事儿（笑）。再有一个就是，阿里云这些非常好的基础设施，使得我们在起步的时候，门槛就低很多。

所以虽然我们只有几十个人，但我们做了很多事情。当然，这些事情也并不全是我们自己做的，我们在内部有很多合作伙伴，特别是工程落地方面，内部业务都是合作伙伴做的。所以我觉的特别幸运，就是你有场景、有数据、有很好的计算平台，还有特别多的合作伙伴一起做事情，我觉得这是我们特别有优势的地方。

雷锋网：如何看待以亚马逊Alexa为代表的语音助手，它们会成为取代手机的下一代的入口载体吗?

初敏：取代手机是不太可能。无论是什么入口，最终的大目标是一致的：为了获取网上或云上的信息。有时候手机触摸交互就很方便，那如果我在做饭，也许一个语音交互的冰箱就更合适。在不同的场景中，会用到不同的端。

我认为，未来并不是每一个家电设备都要具有接入语音的能力，一个场景里有一个主导设备（Hub）就可以了，可能是音响、Wifi设备或电视等等，并没有太本质的区别。无非就是有没有麦克风和扬声器，有没有摄像头，最理想的状态就是能跟别的设备都连在一起，那家居的数据联通问题，就是我们IoT的团队在做，在慢慢尝试做一个接入体系。

那到底是哪类家居会成为它所在场景里的Hub，我觉的目前这个是不明确的，大家都在尝试阶段。