1
本文作者: 刘芳平 | 2017-04-11 08:01 |
雷锋网按:在外界看来,阿里 iDST 是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚。为此,雷锋网对阿里 iDST 的语音专家鄢志杰博士进行了专访,带大家了解有关阿里 iDST 的事情,以及他们是如何看待当下最火的一些 AI 产品的。
鄢志杰简介
鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能语音交互团队总监。在 2015 年加入阿里巴巴前,就职于微软亚洲研究院,任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室,获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及 PCT 专利,目前是 IEEE senior member。
雷锋网:阿里 iDST 部门智能语音交互小组主要负责什么?
鄢志杰:我们这边是智能语音交互的,包括几个部分,通常我们讲语音进和语音出。语音进就是语音识别,识别成了文字以后,就进入到我们的对话系统里,做这句话的理解。然后通过对话的形式把想要的东西传给你,方式就是以语音的方式用机器播报出来。
比如明天天气怎么样,它理解了这个话,然后通过对话系统从远端的天气服务拿到天气的数据,然后播报。
我做狭义的语音相关的东西比较多,比如语音识别、合成,还有通过语音做一些说话人识别验证,包括怎么把语音在设备上落地,等等。现在我们也把语音技术在阿里云上对外输出,这些都是我自己做得比较多的。
雷锋网:最近你们在做什么研究工作,有什么进展或者发现?
鄢志杰:有两个方面:
1、自然语音交互平台。
我们觉得往后,各种智能设备,电视、机器人等等,在家里或工作场景的智能设备会越来越多,这些设备没有键盘和触摸屏,所以需要比较便捷的方式跟互联网连接,它们本身会成为互联网的入口,这当中语音肯定是一个比较重要的模态,可以跟它们交互。
交互的目的是什么呢?是取得互联网上的各种服务,包括查天气之类的信息服务,还有比如点个外卖叫个车,是一种有型社会的服务;还有一种是内容,好比说我在电视上看某一个电视节目,谁跟谁主演的电影,这种就是网络上的内容,包括音乐、视频。
要达成这点中间当然会要有我们所做的这套东西,就是使得用户的意图通过语音进来,转化成对网上各种服务的需求,然后系统理解了以后带给用户。
这就是我们叫作智能语音交互的一个平台。总结一下就是,它是连接多端,跟互联网上广泛的服务对接,作为中间桥梁作用的这么一个东西。
2、所有这些语音能力都会通过阿里云输出。
鄢志杰:比如说我们有语音识别的能力,我们的合作伙伴就可以拿着这个能力去做具体的语音识别应用,例如说我们在客服和司法直播等领域,发现有很多语音转文字(文字转语音)的需求。
我们最开始做这样的能力,完全是从阿里内部客服中心的需求来出发的,因为阿里每天淘宝、天猫和支付宝有很多的客服电话。之前在接服务电话时根本不知道服务质量什么样,说得不好听的,小二如果今天心情不好,骂了客户几句,根本没办法知道,原因是抽检的录音需要人工去听,那个比例是很小的。
同时传统的客服中心其实有很多需求,(他们)希望知道客户每天在问什么,什么样的问题是最近遇到的最严重的问题,所有这些之前只是沉睡在那个地方,没有办法得到挖掘。我们一开始团队做的就是客服的任务,把语音转成文字,后续有很多好玩的东西可以来做,像发掘用户的心声,还有知道小二的服务质量有没有保证。
很有意思,像这样的能力建设出来以后,从阿里的角度讲一定是要放到更大的平台上去帮助别人成功的。我们总是讲说阿里主要是个平台公司,所以说这样的能力一旦放出去,我们生态里的合作伙伴就可以在别人的客服当中去搭建这样一个东西。把语音转成文字,做同样的事情,甚至有人会开发出客服机器人,放前台来自动回复用户问题。在司法领域也是一样,现在有合作伙伴拿着我们的能力放到法院里,代替书记员的作用。包括像直播,识别主播在说什么违规的东西等等。
总结一下,第二块事情就是怎么把我们的能力通过阿里云对外输出,帮助我们的合作伙伴去做具体的业务。
雷锋网:最近有什么突破性的进展和发现?
鄢志杰:我通常不大爱用突破这个词,因为这个行业实在是太浮躁了,芝麻小点的事都会被很多人说成是突破。我觉得我们还是比较低调跟务实的。虽然我们各种各样的技术其实是非常领先的,不过毕竟我也是从学术界来的,所以说比较注意这方面的东西,
进展的话,讲一个例子,我们一直以来语音识别有一个重要的模型叫声学模型,就是来模拟a,o,e,b,p,m,f 是怎么发音的,这个也是提高语音识别准确率的重要手段。我们一直以来是从学术界吸收最新的成果,同时在工业界大规模的问题上把它真正发扬光大去解决真正的问题。
latendy controlled 的 BLSTM 模型
在 15 年的时候,我们第一个上了 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型,这个东西学术界研究比较多,但是工业界第一个上线应用的应该算是我们。
传统 BLSTM 模型很慢,必须要等到一句话说完了才开始去做解码,得到结果,就造成说完这句话后要等很久才能拿到结果,这当然是坏处,但为什么大家还是那么着迷呢,因为好处是精度特别高,准确程度高。我们做的工作就是能够把识别的延迟降下来,使得它能够在边说话就边解码,而不是像以前一样,要等到这句话结束后才能够进行解码,达到一个既快又好的效果。
BLSTM 进一步提升了 LSTM 类模型的建模能力,图片来源:薛少飞,iDST 语音专家
Low frame rate latendy controlled 的 BLSTM
后来我也发现一些同行,例如说 16 年底时同样的模型他们也逐渐在上,在这之后其实我们一直在延续这条路发展,去年有个比较好的工作,是在这个基础上发展出叫 Low Frame rate latendy controlled 的 BLSTM。
原来语音识别的帧率大约是 100 帧每秒,每秒钟要计算100个 frame,运算量不容忽视,所以我们去年有一个方法叫 Low frame rate,把 100 帧每秒的速率,降到三分之一,相当于同样是 1 秒钟的语音,处理起来只需要原来运算量的三分之一了。同时保证了跟以前一样甚至更好的精度。
我们很快把它送到我们的线上,取得一个比较好的效果,今天我们一台服务器,能够支持比以前更多前发的线数。刚才提到我们把这个能力去输出,输出对我们的合作伙伴来说成本是非常需要考虑的因素,以阿里这么大的体量,任何一件事情进来以后,客户一多起来,机器的成本是一个重要的因素,语音识别本身又是一个比较耗成本的东西,对机器要求很高,有一个三倍的提升的话,直接把它变得更加普惠了,大家使用的门槛就大大降低了。
雷锋网:上次马云颁布NASA计划时,我们应邀解读了一篇,后面我们采访闽万里博士的时候,他强调了AI+应用结合的侧重点,这是不是后续阿里AI相关的研究部门或者小组,比如iDST 智能语音交互小组会跟应用相关的部门合作会愈加加强的一种趋势?
鄢志杰:我一直觉得阿里是一家比较讲究落地的公司,我们一直跟具体的业务落地结合比较紧密,我觉得 NASA 更多是表明了一种阿里的决心。因为阿里的业务实在是太成功了,某种程度上掩盖了技术的光芒,因而要去让大家更多觉得阿里是一家技术驱动的公司。
AI 这个东西,外面很喧嚣,但我觉得我们没有任何的改变,我们从来也不会特别地刻意去讲AI,我们把所有跟 AI 相关的技术,从到底能够对我们的生活,对阿里的合作伙伴,对整个社会,带来什么样的有益的帮助这个角度去思考。你可以说(我们是)不太吹牛,更多的务实。
讲到业务落地,一个好的AI,到底能给我们的业务带来什么样实实在在的帮助,而不是说只是为了提升我们的股价,或者讲一个故事。如果说这些 AI 能够用到客服中心去接我们客户的电话,直接用机器解答一些 FAQ,那不仅减少用户排队的时间,同时能让我们小二的人力省下来,真正机器答不了的问题,再转到小二那边由人工解决,而不是空泛说用机器人全部搞定,这个现在也不现实。
所以有人说什么 AI 取代人,我从来不这么看,我觉得这些东西一定是帮助人的,让用户体验更好,小二这一侧工作强度更低,更少的人可以支持更多的客户。这个是它发挥作用的地方,而不是现在就去谈取代人。
雷锋网: iDST 语音部门的的定义是什么?我看知乎上有说,
是为业务或者产品形成迭代支撑的技术研发部门;
有明确的业务需求推动他的产生;
也有通过技术部剧推动业务进展的期望;
由于直属王博士这个天然属性,会在很大程度上用一种科学的方式推进公司技术驱动化。
这些说法成立吗?
鄢志杰:前几天我去谷歌搜索iDST,打开前几个搜索结果看了看。第一我感觉我们蛮低调的,并没有一些铺天盖地的宣传报道,搜索出来的信息也极为有限,蛮神秘的。二是感觉很多报道其实我在内部看来是完全错误的。所以就像您说的,对 iDST 本身会有不同的解读。
我觉得,这样挺好的,也没有什么问题。回到您的问题:iDST 现在到底是干嘛的?阿里有一句土话叫“既要又要还要”,就是说阿里的目标通常是比较多元化的,多元化就意味着你在各个方面都要起很高的目标。
既要
第一个目标就是支持好阿里的业务和阿里生态里的合作伙伴。他们要去做一个业务,一定对我们的智能交互技术有他们的想法和需求,例如说我想要有一个聪明的机器人,说什么都能懂,这些核心技术我们一定要支持好。技术在输出时,伙伴要求说你的准确率必须是市面上最好,这些需求我们都要去支撑,这是第一个任务。
又要
我们不是简单地说把这些需求满足好了就 OK,又要说这些技术是有先进性的,不仅是做到跟市面上最好的一样好,而且在一些方面有自己的特色跟亮点。
还要
我们现在在支持那么多业务的同时,还在写 paper,在国际的语音顶级会议、杂志上去露脸,赞助学术界的一些活动,与学术界建立比较好的关系。所以说是不能光商业上做得好,还要技术上要有说道,甚至在将来能够起到一些引领的作用。
这个组织因为积聚了不少的博士,团队来自各大公司的专家挺多的。我们从学校雇最好语音应届博士生,一定是在这两个方面有好的输出的,偏废哪一个都是不行的。好比说光做研究没有产出,基本上很难讲研究有多好;光做产出没有研究,也许就顾得了当下却失掉了未来。我们就是一个结合的部门。
发 paper 是一个副产品,是在持续想怎么 push 工业界做大规模任务的边界,这当中会产生一些副产品分享,现在整个语音产业大家还是比较乐于去分享自己的东西,各大公司都如此。但我们并不是以写 paper 为目标的。
雷锋网: iDST 招人方面有什么自己的特殊方式?(外界一致所知甚少)
鄢志杰:首先,语音圈是一个特别小的圈,外人很难说立一块牌子就说我今天要做一个语音团队,我投入很多。如果是外人的话,很难去做这样的招聘,所以我们此前的招聘更多还是从圈子里的口碑,以高手吸引高手的方式来招聘,虽然我们也挂了大广告,但很少有人是看了广告直接就来的。
说实在这个圈子实在太小了,大家互相都认识,更多是靠我们自己圈子里的口碑,大家知道你们积聚了一类什么样的人,就能闻到你这个团队的风格,跟他想去做的事情以及做事的方式。然后认同这样的价值观的人,就会自然聚拢过来,更多是以这种方式。
阿里招人要求很高,同时我们也不 crazy,不会因为你是所谓的 AI 我们就一掷千金来求人才。因为我们还是觉得这样的人才靠这个东西不可持续。所以说可以看到我们团队的人都是这种性格的,就是踏实做好工作,不太张扬,虽然有机会的时候也不怕去露脸,但总体来说还是不那么吵吵闹闹。
举个例子,当所有人都在号称自己的语音识别准确率 95%、97%、99% 的时候,我们是也许不多的一股清流。之前我们陈一宁有一个文章采访他,他旗帜鲜明地喊出了语音识别的准确率脱离场景去谈都是耍流氓。
我们讲的 95、97、99,是在非常受控的环境下一个普通话相对比较标准没有多少口音的人,说一些比较固定的内容。在不好的场景下,像我们在这么一个有混响的房间里,大家在激烈地争论,有的人还有点口音,那么很容易就做到很糟糕,到文字出来看不懂程度。
雷锋网:网上有说你们通过举办比赛来获取人才,这也是一种方式吗?
鄢志杰:对,阿里首先有一个实习生的项目,内部有一些比赛,像我所知道的,像天池大数据竞赛,都会有这样的学生来比参加,拿阿里的一些数据,把一些奇思妙想在这样的数据上去做验证。
我们也有像阿里星这样的应届毕业生计划,对于个别好的,我们叫 A+ 的学生,面试完了可以直接到我们 Lab 的 Leader 的 level 去面谈,很多人成为阿里星。
比赛的话,我想在语音特别是交互这方面很有可能会有类似的事情去做。
雷锋网:网上我们只搜到一条阿里云 iDST 人工智能打败全球速记亚军的消息,里面有谈到阿里云 iDST 智能语音团队拥有世界一流的专家团队,此次年会展示的研发成果只是冰山一角。能否介绍一下这个专家团队的实力?
鄢志杰:怎么谈这个实力呢,首先讲几个方面吧。
第一个方面,来源比较广泛,聚齐了此前几个组的精英力量,包括咱们有微软来的不少同事,国际上有一个做得最大的语音技术提供商叫 Nuance,这方面的同事也越来越多了。我们还有来源于百度此前语音部门的同事,有科大讯飞的毕业生,还有高通语音方面的专家,尤其在麦克风、智能电子信号处理这方面,等等。这些就是来源广泛。
第二个,博士、海归的比例很高,这个我们算不算是精英团队的表现(笑),也许吧,反正自己也不大当回事。
还有我们地域分布也是很广泛的,北京、杭州、西雅图,都是语音重镇,所以也更加多元化了。
最后,还有一点就是同学们的背景跟出身也是比较广泛的,有的人是从学术界,或是工业界的研究院出身的,有的人是从工业界产品部门出身的,工程能力强,不管是做云端的服务还是设备端的落地的东西很强。
整体来说我们做到了把所有这堆人拢到一个团队里。说起来简单,但在大公司里做起来很难。大公司有的说我是做算法的, 是工程的,产品部门,整个是有藩篱的,一旦有组织界限以后,这件事情就变得隔了。
跨部门,做算法的做算法,做产品的做产品,很难产生正向跟反向的反馈,我们在建立这个团队之初就极力在避免这样的事情。包括我们三个办公地方,从来没有因地域而分任何事情,比如西雅图做什么,北京做什么。而是一个项目立起来后,三地的人都有可能会参与。这样不会使得整体做着做着就分隔了。所以地方也好出身也好,大家的擅长也好,都融为一体,这样子能够把反馈闭环做得比较好。
雷锋网:从你们这个小组产出的成果,要应用到阿里巴巴内部某个场景时,一般会遇到哪些问题,如何解决?
鄢志杰:阿里来说,尤其在阿里云来讲,基本上内外客户是完全不分的。阿里作为一家大公司内部的需求肯定是很旺盛的,当你去满足内部需求时,会发现这个事情干起来好像很容易,因为内部需求实在太多了。挑挑捡捡总有能够搞定的,总能够完成一些 KPI,但外部就不同了,外部是一个真正的市场竞争,真正的好技术一定要得到外部的认可,活下来,并蓬勃生长,才是真正比较健康的输出。所以说,阿里云始终是不太区分内部外部的,而不是只在内部温室里活下来。
所以,困难我觉得是说一个技术到一个产品,到一个好的产品,是有巨大的鸿沟的,不见得说有一个好的 paper。好的算法大家也的确认可,但未必能造就一个好的产品,这里面有太多的细节、坑去打磨。同时,客户一定有不切实际的需求,我今天巴不得有一个像真人一样的机器人,但技术是有它局限性的。
我们做技术的人,在落地的时候能够去弥补这方面的东西,我觉得是特别重要的。一个是说技术的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎么样去跟合作伙伴达成共识。说这个产品需要这样那样的技术,指标是什么,既能够实现,又是跳着可以够着,而不是说完全够不着的东西。
当然,真正做一个产品,是一个全方位的技术,不是一个技术点好了就能一招鲜吃遍所有的东西,这是不太可能的。像我们语音来说不管准确率,响应速度怎么样,对一些奇怪的Case,奇怪的问题,当你明知道答不出来时,仍然能够显得很智能,而不是说只是一个对不起再试一遍吧,等等。最主要的还是跟合伙伴和客户去定义技术能够实现的产品的边界,能够从产品的细节上来讲,真正把一项好的技术落地下去,最终产生一个真正好用的产品,这个是比较大的困难。
雷锋网:具体比如阿里集团客服,中间遇到的问题,以及怎么解决?
鄢志杰:客服对于我们来说关注的是识别准确率的问题,刚才讲的问题都来了,业务方提一个指标,可能是个不可能完成的指标,比如95%的准确率。你知道你的技术上去的时候也许刚刚只有60、70%。
我们怎么通过对他业务的理解,知道他的话题,每天在谈论什么。怎么找到好用的数据,能够迅速地提升我们技术本身在他的场景下的准确率。最后我想我们几乎已经做到接近他想要程度。所以一直去管理预期,然后不断通过技术迭代把准确率做上去。
同时具体的业务很多不是一个技术可以解决的问题,譬如说一些在客服业务当中,有一些专业客服术语,这个之前我们都是不知道的。怎么通过技术的方式把这些术语的识别准确率得到提升。这个本身是一个从实际问题中的提出的一个课题。
比如,大家都知道阿里里有花名,所以每个小二都是有各种各样的花名的,花名是非常奇怪的,今天如果拿一个通用的语音识别系统,这样的花名是很难识别正确的。就会触发一条规则,小二没有正确报出自己的名字,这是不对的,因为是识别错了。比如说,接一个电话,“欢迎致电支付宝,我是志杰,请问有什么可以帮你的”,这是符合规范,如果识别错了,就没有把志杰识别对,这样小二就很冤枉,被机器摘出来了。这里,就是怎么样在具体的产品当中,既把别的文字都识别好,同时还特别把花名识别正确。这些都是有很多技术的东西可以去做的。
雷锋网:咱们是研究跟产品化并行的,你们是如何判定组内的研究成果是可以转化到成业务推动力的,有没有一套明晰的机制来判断?
鄢志杰:好问题。我觉得,有的公司是研发部门去推,自己先搞出一个好东西,然后去推,再看业务部门用不用这个东西。阿里呢,有点相反,业务跑得很快,更多是他们在拉,他巴不得你有什么好东西,赶紧的,甚至不成熟的东西,赶紧在我这边去试去用。
我们作为做技术的人要有对技术的一个鉴赏力,跟一个技术的判断眼光。您说这个怎么来的,就是牛人有这样的眼光,经验会帮助,你在这个行业里这么长的时间,基本上要慢慢建立起这种鉴赏力。就好像我们听歌,有艺术家培养艺术的鉴赏力一样,这里面有很多其实是偏艺术的成分。一个技术到底能不能真的开花结果,我们扑上这个技术,真的能不能在可见的未来能被业界广泛的采用。这个就是靠判断力,靠人本身的素质和经验,我觉得也有点像艺术。
雷锋网:你们内部会写一个明晰的 PPT,来明确一个判断流程吗?
鄢志杰:没有。不管是工业界、学术界,整个这个部门,这条线上创新很多,有的真创新,有的假创新,有的是写个 paper 出来 claim 一下这个创新。真正哪个是靠谱的,其实各行各业我想都是这样子的,真正哪些是靠谱的可以活的更长的技术,没有一套之规说我有一套流程可以来 If...else,有一个流程图来判断,不是这样子的。
雷锋网:这两年亚马逊的 Alexa 很火,国内也有很多公司想做中国版的 Alexa,您觉得国内公司想要做成中国的 Alexa 需要什么样的条件?
鄢志杰:我们自己其实在这上面也有自己的思考。说实在,这件事情的链条比较长,就像刚才讲的有端,有自然语音交互的技术,有云端的服务,我想大家去观察这个的话,就是去观察:
第一,谁布局了最丰富的互联网服务,包括电商、支付、O2O、内容,谁能把这些服务早几年的时候 magically 放到自己的生态体系里来,那就是一种嗷嗷待哺的状态——怎么能把服务送到客户那里去。这是第一块,谁布局了这些服务,而且谁是比较全的。
第二,智能语音交互的技术本身。谁在早几年的时候 magically 想到说这个以后会是很重要的东西,开始组建团队,把核心的技术建立起来。使得用户对语音的诉求转化为对服务的诉求。这个部分好多人都在做,技术参差不齐,有好的,有一般的,有接入别人的,也有自己投入的,这里就分出好多公司不同的方法来了。
第三,端。大家不要小看这个端,好像山寨音箱都可以做,不那么简单,是说大家谁在布局一个端上操作系统。然后在这个端上要有一系列的生态合作伙伴,不光是做一个音箱,需要有电视、智能家居,机器人、汽车,等等,哪怕到一个电饭锅。
另外,怎么样构建一个能力,甚至是一个商业模式,使得你的这套东西,很多的端可以迅速来接入,来把一个传统意义上的端变成一个智能的端。因为不可能做一个阿里牌电饭锅,那怎么要想这样的方式使得人家可以轻易接入,然后瞬间具备这么好的语音交互能力,接入那么多的互联网服务。
我觉得从这几个维度看,基本上就把产业链,或者把整个 pipeline 看全了,那无疑我在暗示说阿里在这些方面都有很好的投入。这个故事是非常的圆满的。
雷锋网:所以阿里的目标也是做中国版的 Alexa 吗?
鄢志杰:这个目标是你们起的,我觉得不应该是这样子讲(笑)。阿里的目标是怎么样方便地把互联网丰富的服务和内容,以智能语音交互的模式,在多端上提供给我们的客户。
雷锋网:最近国外有一个人工智能领域的投资人 Bradfort Cross,写了一篇文章 ,预测今年的AI创业,其中第一条就是聊天机器人(Chatbots)会遇冷,理由是:
1)人们依然喜欢与真人交流,而聊天机器人则会沿袭非社交媒体平台那一套,突出个性化但却缺乏社交属性,人们依然喜欢与真人交流。
2) 与其他视觉解决方案相比,会面界面在完成任务上效率并不高。在某些情况下,会话界面确实效率挺高,但在大多数应用场景下它还是无法与其他方式相比拟。
不过,他并不认为这是“AI技术还不够好”的原因,而是因为应用和交互的设计还不够,不过用人工智能做出了很有趣的应用,用户用不用又是另一回事了。
您怎么看他提出的问题呢?
鄢志杰:我是这么看的,第一,我部分同意这个观点,就比如说现在的手机语音助手,其实分人,并不是那么的流行,有的人爱用,但我觉得比例仍然不是特别高,原因就是它本身有一个屏幕,拿手机用手点点画画是很方便的,从这点上我是比较赞同这个观点的。
不同的观点,他说其实不是技术,我觉得还是技术。今天的语音交互 ,你对他的期待还远远达不到说能跟真人一样的响应水平,所以这还是一个技术问题。就好像人跟人交互时,你总不会期望他脸上有个屏幕划来划去,不需要 。
这种更自然的方式,现在仍然还是技术本身,他讲到交互的设计,当然是一个技术。怎么把交互设计的更好,使得人愿意用 Chatbots 来对话。本身他的理解程度能怎么样。语音识别的准确率怎么样,他讲出来的话是不是自然,还是一个像呆萌的机器人。
具体讲到视觉这个策略,我倒是觉得会有一些融合的东西出来,应该是一个多模态的东西,不能全凭语音,或者全凭计算机视觉。例如说电视,家里大家都会有一台电视,假如说有一个设备能够隔空跟它交互,我没有遥控器,那要选台什么的,当然不会拿个手机来做,这是很怪的事情,现在不也有手机上安装了电视遥控 app,叫它做一件事情,比如换台,就能出来。但是你说要用电视屏幕来买 个淘宝的东西,我可能先说“帮我找个吸尘器”,搜一下,再等界面出来后,再用手势去做翻页,然后点选。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。