央视315曝光的AI机器人推销电话公司，采用了什么核心技术？

本文作者：赵晨希

2019-03-16 21:50

导语：每一个人日常生活中都会接到各种各样的推销电话。

一年一度的央视315“晚会”，是一年中令企业最为“提心吊胆”的时刻。昨夜央视315栏目组曝光了多个行业存在的违规问题。医疗垃圾、危险的辣条、土鸡蛋的猫腻、不卫生的卫生用品、家电售后服务套路多等等......其背后的产业链庞大，令人触目惊心。其中，智能机器人骚扰电话的曝光引起了很多人的关注。

因为每一个人日常生活中都会接到各种各样的推销电话。地产、银行贷款、培训机构、教育、汽车等等......但是，大部分人可能不了解，打营销电话的可能不是真人，而是AI机器人。首先，通过探针盒子，识别到连接无限网络的手机。然后，在用户完全不知情的情况下获取用户的私人MAC信息。再将MAC转换为手机号码，与大数据相互“匹配”。再利用仿真人的AI机器人进行外呼。

这些探针盒子广泛分布在商场、超市、办公写字楼、便利店等公众场所中，隐蔽性非常强。央视曝光了多家企业，整个产业链条包括智能机器人骚扰电话、大数据营销、探针盒子，具体企业有：

壹鸽科技有限公司
陕西易龙芯科人工智能科技有限公司
中科智联科技有限公司
璧合科技股份有限公司
声牙科技有限公司
萨摩耶互联网金融科技有限公司
深圳市秒嘀科技有限公司
上海智子信息科技有限公司
凌沃网络科技有限公司
财神科技有限公司
杭州递金网络科技有限公司

央视315节目中介绍，一家公司服务一年能够呼叫出40多亿的电话。在电信行业，“骚扰电话”一直不能得到根治。其背后涉及网络安全、不同运营商的通信网络、互联网接入通信网络、主叫与被叫责任等等方方面面。近年，随着新兴技术的不断涌现与迭代，从早期通信行业的“呼死你”、改号软件黑产，已经演变为今天的AI机器人骚扰电话，技术不断升级。

国外相似的案例分析

还记得2018年，谷歌在加州召开的2018年度的开发者大会2018 Google I/O吗？除了Android P、Gmail、Gboard、TPUv3 等众多新产品。谷歌的个人助理Google Assistant中新增加了Duplex，它可以自己给饭馆、发廊等商业店面打电话，帮用户预约时间。

从大会上的展示案例可以看出，Duplex不仅可以用自然流畅的语音同人类完成了交流，不被察觉，还能够成功地处理意外的状况。比如，能够回应助词"emm"、“uha”等、理解上下文的对话内容，具备了主动提供语料的功能。当然，谷歌也不是世界上唯一一家实现这种神奇“功效”的企业。

随后，微软也站了出来，发布了一项技术声明：

全双工语音技术（Full Duplex）的意义在于，它能够使“人机交互”进化为“人机交流”。一字之差，价值巨大。

今年4月4日，我们正式在美国和中国同步发布了Full Duplex感官，并预言行业将意识到这一技术的价值，加快向这一方向集中。我们很高兴看到越来越多的同行业者加入。

其实，人类历史上第一次与人工智能进行全双工语音电话，并不是发生在美国，而是发生在中国。我们很荣幸能将这一桂冠奉献给祖国。自2016年8月起，微软（亚洲）互联网工程院通过人类用户主动发起的方式，已让小冰与人类用户累计完成了超过60万通电话。

今天，我们公布其中一通发生在两年前的实际电话录音，将之作为珍贵的资料，奉献给全世界说中文的华人。

谷歌Duplex背后的技术核心：其实是由TensorFlow Extended（RFX）构建而成的一个RNN网络。为了达到高精度，谷歌用匿名的电话对话数据训练Duplex的RNN网络。这个网络会使用谷歌自动语音识别（ASR）的识别结果文本，同时也会使用音频中的特征、对话历史、对话参数（比如要预订的服务，当前时间）等等。谷歌为每一种不同的任务分别训练了不同的理解模型，不过不同任务间也有一些训练语料是共享的。最后，谷歌还利用TFX的超参数优化进一步改进了模型。

央视315曝光的AI机器人推销电话公司，采用了什么核心技术？

输入语音先经过自动语音识别系统（ASR）处理，生成的文本会与上下文数据以及其它输入一起输入 RNN 网络，生成的应答文本再通过文本转语音（TTS）系统读出来。

谷歌联合使用了一个级联TTS引擎和一个生成式TTS引擎（其中使用了Tacotron和WaveNet），根据不同的情境控制语音的语调。这个系统还可以生成一些语气词（比如“hmmm”、“uh”），这也让语音变得更自然。

当级联TTS需要组合变化很大的语音单元，或者需要增加生成的停顿时，语气词就会被添加到生成的语音中，这就让这个系统可以以一种自然的方式向对方示意“是的，我正在听着”或者“我还在考虑”（人类说话的时候就经常在思考的同时发出一些语气词）。谷歌的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。另一方面，系统的延迟也要能够符合人类的说话特点。在某些情况下，系统甚至会采用快速逼近模型。使得系统达到100ms以内的延迟。

而从微软的技术声明中，也可看出，微软的所谓全双工语音交互技术Full-Deplex Voice和谷歌的Duplex在技术方面，应该是极其相似的。只不过，微软使用的生成模型是LSTM，而谷歌采用的是RNN网络。

正如微软所言，“其实，人类历史上第一次与人工智能进行全双工语音电话，并不是发生在美国，而是发生在中国。”无论是谷歌还是微软的应用场景可以看出，研究“人机交流”的初始目的是好的，即让人们从单一、简单、无技术含量的劳动中解脱出来。只不过目前，国内基于人工智能的全双工语音电话，被一些企业应用于灰度地带，导致骚扰电话“泛滥成灾”。那么，国内曝光的这些公司都采用了哪些技术呢？

专家解读背后的技术与伦理规范

为此，雷锋网采访了科大讯飞AI研究院副院长王士进。王士进对雷锋网表示，AI对话机器人是一种主要应用于服务场景的人机交互系统，其后台主要涉及语音识别、语义理解、对话问答、语音合成、知识图谱等多项AI核心技术，另外还需要流程控制、电话交换平台、通讯线路等工程技术支撑。

电话是一种典型的人机交互应用场景，除此之外还有微信、网页、APP等场景。电话场景下的交互属于实时双向交互，且由于电话信道音频音质相对较差、信息载体单一，总体来说其技术复杂度较高。

国内曝光的这些企业一般没有AI核心技术，其系统后台经常是调用其他AI公司的开放平台能力。从技术上来看，电销机器人用到的智能语音技术是非常初级的，主要就是将本来由人说的话变为电脑来播出，以及调用一些简单的语音识别技术。

但这些公司往往对这部分功能选择自己录音来替代解决，这并不智能，却更简单更便宜。目前，谷歌、微软以及国内讯飞、阿里等企业，具备较为全面的核心AI技术能力，电话对话机器人也是这些能力的一种典型应用。

科大讯飞目前的电话机器人技术，主要用于行业客服、电话订餐、物流下单等场景，专注解决智能服务领域的问题，提升效率，降低成本，具有显著的应用价值。对于真正购买服务的客户，科大讯飞在协议中写明不得用于“骚扰电话”等违规用途的呼出，一经发现，立刻终止服务。市面上很多号称“使用了科大讯飞的服务”的电话销售机器人公司经查询后，发现并不是讯飞的客户，只是打着讯飞的招牌。

中国经济处于快速发展中，且社会和大众对于新兴技术的应用处于相对宽容的态度，所以在商业利益的驱动下，相对容易出现一些技术应用伦理的问题。我们认为专门打“骚扰电话”的电销机器人不是一个技术问题，而是社会伦理问题。

如果把AI技术比作一种武器，其最终作用的好坏，取决于使用它的人以及使用的方式。不应该为了追求商业利益，损害部分人的利益，包括商业的利益以及个人隐私的其他权益，应该追求打造共赢的商业逻辑。这需要社会和产业界共同来倡导价值创造理念，并通过更多的法律法规来加强规范和监督。

去年11月，工信部公布了《关于推进综合整治骚扰电话专项行动的工作方案》，对骚扰电话产业问题重锤整治并作严格规范。随着人工智能技术的快速发展和应用，电话对话机器人的可用度有了很大的提升，在智能服务、金融、物流、医疗等很多领域得到了快速应用，也产生了巨大的社会和经济效益。

王士进认为这种系统应该优先应用在存在较多人工重复工作的服务沟通场景，用来解放人的精力去做更有价值的事情。例如智能服务、金融、教育、医疗等领域的客户服务或咨询服务，比如快递小哥派送包裹时与客户的信息确认，医院或社区对于病人的例行回访等。

总结

雷锋网认为，如今人工智能已经不仅是一门科学和一个产业，更涉及到了社会生活的方方面面。很有可能改变就业结构、冲击法律与社会伦理、侵犯个人隐私、挑战国际关系准则等问题。其中的安全风险挑战，未来怎样安全、可靠、可控发展。背后的伦理约束，一直是世界各国所关注的问题。

今年两会期间，百度李彦宏也提出，需要从一个社会，一个政府和公众的角度来考虑，在人工智能技术的发展道路上什么是应该做的，什么是不应该做的，什么是好的，什么是坏的。应该及早地把它做一些规范，做一些预判，尽量避免人工智能向不好的方向发展。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

4人收藏

赵晨希

编辑

简单是终极的复杂。WeChat：chenxi252516

发私信

当月热门文章