0
这是BAT下半年的其中一个“战场”。
2014年底,亚马逊在官网悄悄地发布了Echo,但估计就连亚马逊自己也没想到,这个看上去“简洁得有点简陋”的奇怪音箱,居然能够在日后卖出800多万台,不仅直接给亚马逊带来将近10亿美元营收,甚至在Kindle之后成为又一款消费者所认可的终端。
Echo之后所代表的技术趋势并不“隐晦”:智能语音技术落地点,全新交互方式,全新服务接口这种概念的分析早就被写了几百遍。但另外一边却是赤裸裸的现实——一贯紧跟全球消费电子市场的中国,在智能语音的具体商业化这件事上却“落后”了。
好在,“落后”并不意味着错过,反之因为“落后”,让整个行业积聚了非常强大的力量,随时有可能爆发出来。换句话说,2017年很可能会成为中国智能音箱市场最难得的“黄金发展期”。
虽然这早已不是BAT在同一个领域中争高下,但在两周内让3家巨头同时进入“战场”,智能语音的魅力的确很大。第一个又动作的是腾讯,在两周之前的腾讯云峰会上,腾讯云就发布了全新的智能语音产品“腾讯云小微”。
而小微主要包括了3个开放性的平台:能够通过SDK接入硬件的硬件开放平台;包含腾讯各种自由内容、应用资源的Skill开放平台;以及能够让机器不断学习和决策的小微服务机器平台。
有趣的是,在官方资料中,腾讯还提到了自己的一点优势,小微的所有能力来自于微信AI团队。后者之前实际上已经将语音识别、加入语义分析技术的语音输入、语音转文字、等功能添加到微信当中。
“BA”则显得更为默契,将自己的智能音箱产品的发布都定在了7月5号,也就是昨天。
在昨天是上午的百度“Creat 2017”AI开发者大会中,更新的DuerOS成为了最重要的发布环节。百度在这次大会上也祭出了大手笔——联合数家音箱生产、语音交互技术提供商,为其他第三方产品制造商、开发者提供软硬件一体化解决方案。
百度同时还在开发者大会现场宣布了对KITT.AI的收购,后者在“热词检测(唤醒)”、“智能语音对话”这两项与智能语音息息相关的技术上有很不错的积累。但同时百度并没有打算“独吞”这些先进技术,而是将其语音能力和自然语言能力融入平台,向合作伙伴免费开放,官方将其称之为“赋能开放”。
短暂的午休之后,阿里终于“最后一个”加入进来,画风略微不同的他们发布了“天猫精灵 X1”智能音箱。值得稍微提一嘴的是,有业内人士向雷锋网爆料:“阿里这款智能音箱实际是来自思必驰的方案。”但硬件本身或许并不是“天猫精灵 X1”最为重要的特点,关键还是在于阿里已经在其之上实现了声纹识别以及支付环节的打通。
这也符合业内对于阿里进军智能音箱的一贯预期:阿里智能音箱的最大挑战、同时最大的优势是购物。依托电商建立庞大帝国的阿里不可能不做购物,但这项服务本身放在语音上面来进行有挑战,像Echo Show那样带有显示屏的智能音箱或许更适合这种任务,但那样的产品同样需要继续等待。
对于BAT的新动向,Rokid智能音箱负责人文杰也接受了雷锋网的采访:
BAT进军智能音箱这件事对于我们来说算不上威胁,倒不如说是一种机遇。我们很期待他们接下来在这方面的服务端口开放。
对此,喜马拉雅副总裁李海波也有着类似的观点:
虽然我们有打造自己的音箱,但是我们也会将自己的服务开放出去,别的智能音箱产品也能够调用我们的音频内容资源。因为我们关心的只是单个用户在喜马拉雅中停留的时间。”
早前,美国市场研究公司Statista曾做过相关的统计,2016年美国的智能家居市场销售额为97亿美元,而中国仅有5.2亿美元。普及率的增长更是惊人,美国的数值为5.8%,而中国仅为0.1%。
外国调研机构给出的亚马逊官方硬件产品销售情况图
但由于是大洋彼岸的关系,也有不少人曾经对亚马逊Echo“夸张”的销售数据提出过质疑,雷锋网就此也询问了国内某智能音箱生产商:
去年亚马逊Echo智能音箱的销售效果的确不错,在国内它总的生产量刚超过800万台,其中初期的Echo和简化版Echo Dot差不多对半。国内销售量第一名可能只有它的1/100。
参考目前Echo和Echo Dot分别定价179/49美元,光是这800万台设备就已经能够给亚马逊带来10亿美元的营收,这还不算在使用音响之后所带来的服务订购、网上购物等二次消费。
从原理上说,智能音箱的代表产品,亚马逊Echo背后的Alexa,以及它的前辈Siri,实际上都属于智能语音技术。其核心非常简要——要让机器在语音对话这一环节拥有近似于人的能力。
尽管语音对话是人类平日做得最多的动作之一,它的难度却不可小觑。从语音到文字的转换、机器语音的发声、再到多句语音的上下文理解,这些环节在没有人工智能技术之前迟迟未能取得进展。
载体则是另外一个因素,虽然拥有基础对话能力的Siri早在6年前就登陆了手机。但智能手机的主要操作依然停留在触摸和显示之上,所以大家并不会经常使用这一功能,甚至只会在不小心长按Home键的时候才会想起这一功能。
相比之下,将语音交互能力独立出来,并且只能通过语音交互的Echo。则“断绝”了用户返回到触控操作的可能性的,这才让人们终于开始正视智能语音交互本身。
另外一点关键是亚马逊对于语音交互场景的深入理解——语音交互虽好,但是在公共场合比较吵的环境中并不适用,智能音箱就该成为小家电一般的存在,渗入人们的日常生活空间。为此,李志飞也向雷锋网简单也讲述了出门问问曾在美国做过的相关调研:
我们曾采访了大量亚马逊Echo和Google Home的使用者,同时也对美国智能家居需求与中国用户对智能家居的需求进行深度调研。在美国,由于智能家居生态比较完善,用户对智能音箱可以便捷控制家居的需求尤其强烈。实际上,中国人也有着这样的需求。
国外咨询公司Statista统计的Echo用户具体使用情况
至此,人们终于整体感受到智能语音技术的“不同”,或者说是在体验层面达到了“让用户买单,并且不后悔”的程度。
问题来了,智能音箱在外国这么火,为什么国内却迟迟发展不起来?
虽然隔着太平洋,但是中国在3C电子产品消费市场上之前从未发生大的“脱节”,智能音箱却是一个罕见的例子。一位国内智能音箱从业者向雷锋网透了个底:
而国内智能音箱目前的产量和销量还在千、万之间浮动,卖得最好的还是京东的叮咚,但实际数量仍远远小于Echo。数量最多的还是很多小厂商生产的低劣的智能音箱产品,那种产品10句话中有2句话有反应就不错了。
那么究竟是什么原因导致了这样的现象?打造智能音箱的技术基础差异应该是最主要的原因。对此出门问问CEO李志飞对雷锋网表示:
如果只是单单做一个演示(Demo)版的智能音箱是没有门槛的,但如果做一款用户体验好,性价比高的智能音箱是存在很高门槛的。
比如产品需要不停迭代完善,以确保稳定的网络连接;比如一款精美的音箱需要反复磨合外观设计;又比如语音交互需要良好的收声效果,而扬声器本身会发声,在远场唤醒智能音箱时,就需要消除扬声器本身的声音;甚至音量大时的震动也会影响收声,所以音腔和麦克风之间的距离都需要考量。
喜马拉雅副总裁李海波在雷锋网的采访中也表达了类似的看法:
我们之前在打造自己的智能音箱的时候也花了不少时间。为了能正常使用,硬件部分足足微调了40天,音箱如何才能理解人类指令这件事花的时间就更久了,大概用了400多天,这还是应用场景高度集中化的情况下。
这也从另外一个方面映射出智能音箱市场所存在的“分裂发展”问题:看起来简单的智能音箱想要真正实现日常语音交互,实际上全是技术难题。也正是这些难题让中国智能语音市场发展迟缓,而其中影响最大的就是机器对于中文的理解,也就是我们俗称的NLP。
为了说明中文的NLP在智能音箱上面有多难,李海波给雷锋网举了一个例子:
我们曾经统计过,一个简单的‘下一曲’,用中文来表达就有60多种方式,而且这还是不考虑方言差异的前提下。
这也成为了智能音箱一个实打实的屏障,同时也是很多人对于BAT能够加入到这场战斗中感到高兴的原因——这3家手中都有着大量可供机器学习的数据,同时也有充足的人手和资源来支撑这个反复调试的过程。
另外一个层面来看,中国其实有很多人、公司已经在智能语音的探索上先行一步,但是往往仅限于一些碎片化的问题,就像百度这次收购的KITT.AI一样。利用自己其他业务线相对雄厚的资金收入来整合社会能力,反过来再将这些能力打包给消费者。这也是BAT自己所熟悉和擅长的事情。
人类历史上曾经出现无数种技术、发明,究竟人们什么时候才会认真对待它们呢?答:只要它们能够给人类带来大幅度的利益。
这条法则对于人工智能技术同样适用,正如马云之前曾经公开表示的那样:“AlphaGo 赢了,So TM What?”这句话虽然听起来偏激,但从对于人类实际影响这个角度出发,AlphaGo的确没有留下足够深的印记。
相反,看起来不起眼的智能音箱反倒有可能实现这个目标。
百度谈开源、腾讯晒内容体系、阿里想打造新消费入口,新入场的BAT虽然在方向策略上有所分歧,但有一点是确定的,他们都不会错过首先实现人工智能商业化的目标。最好的证明就是三家发布智能音箱产品的场合。:百度AI开发者大会、腾讯“云+未来”技术峰会、阿里AI Labs人工智能实验室对外公布。
抛开BAT中谁能成为最终赢家这个目前仍无法确定的终极问题不谈,3家大力下注人工智能的举动却是再清晰不过的。统治了中国的“互联网”时代的BAT,已经充分意识到了人工智能将会带来的趋势和变革,才会如此“默契”地同时进入这个战场。
短期来看,围绕着智能语音和音乐、语音类内容服务仍是主要的路线。其后智能音箱的市场争夺将围绕这各家的差异化展开,届时拥有更多用户和场景资源的腾讯或许会拥有一定的优势。而阿里的电商优势仍需要面对如何转化的问题。至于百度嘛,还得看相关开源项目的进展情况。
当然,这仅仅是个开始,人工智能的好戏还在后头。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。