0
作者 | 王金旺
出品 | 雷锋网产业组
三岁的天猫精灵,有了一颗五岁的心脏,这让它在智能音箱圈子里显得有点早熟。
9月17日,阿里将今年的云栖大会搬到了线上,天猫精灵将秋季发布会搬到了阿里云栖大会上,这次天猫精灵发布会的场面是这样的:
往年发布会的主角库伟、茹忆、杜海涛转而成为评委,一场阿里味儿的程序员辩论赛代替了往年严肃的秋发。
库伟在会后称,这是我们团队自编自导自演的一次全新尝试,目的是更容易在C端观众中传播。
倒是在会后的采访中,天猫精灵事业部总经理库伟、天猫精灵首席科学家聂再清深入解读了此次秋发亮相的三款新品:天猫精灵CC10电池版家庭智慧屏、天猫精灵CC MINI、IN糖2。
正是这三款看似基于原有产品线升级迭代的新品,其实内藏了阿里在智能助手、智能交互领域这一年的新思考和新尝试。
而相对于新品而言,真正凝聚天猫精灵这段时间战斗力的是其背后全新的AliGenie 5.0系统。
多模态交互,不再只是用唤醒词唤醒智能音箱……,今年AliGenie 5.0系统强调的新技能看似全无新意,却又内藏玄机。
甚至可以说,这样的新技能其实让从智能语音技术衍生而来的天猫精灵开始显得有点早熟。
尝试一:「微内核」
如果说10寸屏的天猫精灵CC10电池版更多是基于今年上半年天猫精灵CC10的一个“移动化”,天猫精灵CC MINI则是从内到外的一次重新设计。
从个头来看,天猫精灵CC MINI首次采用4寸屏;
从内核来看,库伟特别强调,天猫精灵CC MINI是首个搭载阿里自研微内核操作系统的带屏智能音箱。
什么是微内核?
这其实是一个物联网操作系统中的技术概念。
今天物联网终端应用的操作系统基本分为三类:
第一类,比较简单的不带屏设备用的是基于RTOS的操作系统;
第二类,一些复杂的不带屏设备或一些简单带屏设备用的是基于Linux的操作系统;
第三类,更大的带屏设备用的是安卓系统。
要应用、适配这三类操作系统,无论是从成本上,还是从研发难度上来看,都是一个很耗时耗力的过程。
库伟告诉雷锋网,微内核的含义是相对于宏内核的,由于天猫精灵历代产品中既有带屏的或简易或复杂的产品,也有不带屏的产品,我们希望可以通过一个微内核加上其它成系列的组件的形式,去适配不同的硬件形态。
目前,天猫精灵的目标是将这样的微内核首先应用在简易的带屏设备(例如此次首次应用微内核的天猫精灵CC MINI)和不带屏的设备中。
对此,库伟也坦言,这个难度是非常大的,无法一步实现,此次在天猫精灵CC MINI上的应用是我们首次尝试。通过适配这样一个带简易屏的设备,我们看到应用能够跑起来,还通过批量商用出货检验了微内核操作系统的能力,这样的微内核未来一定能够用到更多的设备中(尤其是不带屏产品)。
而这样的微内核的应用,将会在一定程度上解决操作系统碎片化的问题,从操作系统层面让一些设备能够实现互联互通。
这也是阿里基于自己的基因尝试做物联网设备互联互通的一个新思路。
尝试二:「云应用」
本次阿里云栖大会上,阿里放出一个新物种——云电脑「无影」,颇受关注。
在天猫精灵CC MINI中,研发团队也有研发「云应用」。
这里的「云应用」,天猫精灵有应用与云电脑研发团队共同研发的一些底层技术,二者有拉通。
其实,无论是「云电脑」,还是「云应用」,二者极力践行的都是阿里的「云端一体」理念。
「云应用」相当于将大量计算、渲染等工作放到了云端,本地更多做的是显示和应用处理,这使得即使像天猫精灵CC MINI这样本地没有强大算力的智能音箱也有可能体验大型教育、游戏等应用。
研发人员用天猫精灵CC10电池版内测云应用
值得注意的是,在今年5月天猫精灵春季发布会上,天猫精灵市场运营总经理杜海涛曾指出,天猫精灵将与支付宝小程序打通,今年7月将有170万+支付宝小程序进入天猫精灵设备。
时隔四个月,此次发布的天猫精灵CC MINI搭载的云化应用均为基于支付宝小程序搭建的,“本质上,这是一个‘微内核+小程序’的数码产品。”
微内核、云应用,这些创新应用背后其实都是基于今年全新升级的AliGenie 5.0系统,而此次5.0版本的AliGenie,官方更极力强调的是「多模态交互」。
过往三年里,天猫精灵AliGenie系统已经经历了四个大的版本迭代,从AliGenie 1.0到AliGenie 4.0四个大的版本中,官方依次强调的是「语音交互」、「视觉交互」、「行动力」、「平台化」四个技术关键词,今年的AliGenie 5.0强调的则是多模态交互。
回顾智能音箱这两年的发展,不难发现,视觉识别、手势识别等多模态交互技术并不是天猫精灵此次发布的智能音箱首次应用的技术,也不是AliGenie 5.0首次提到的概念,甚至早在2018年发布AliGenie 2.0时,天猫精灵就在语音交互技术的基础上引入了AI视觉技术,并发布了“天猫精灵火眼”。
而交互能力作为智能音箱最基础的能力,早在带屏智能音箱出现后,谷歌、亚马逊、阿里、百度等就开始想尽办法为带屏智能音箱加入更多交互方式。
包括天猫精灵此前已经上市产品天猫精灵CC、天猫精灵CC10均已有加入视觉识别、隔空手势等交互能力。
这次的多模态技术与以往的有何不同?
聂再清告诉雷锋网,AliGenie 5.0上的多模态自然交互是“多路感知,一路认知。”
2018年,天猫精灵AliGenie 2.0面世,与此同时,一个名为“天猫精灵火眼”的产品一同面世,这一产品意味着天猫精灵的智能音箱开始尝试视觉交互能力。
不过,聂再清解释称,现在的视觉能力和当时的视觉能力有些不同,关键在于“融合”二字。
实际上,AliGenie 2.0中的视觉能力还是对于单独视觉信号的处理和应用,现在的多模态交互,其实我们已经把视觉信号、语音信号、上下文的语义信号的特征综合到一个空间里做决策。
如果说之前的多模态交互是三路输入分别对应三路不同的输出,今天的多模态交互则意味着将三路输入信号信息一起进行分析,最终分析出一个结果,并再以多模态的形式输出给用户。
以唇动唤醒为例,天猫精灵需要通过视觉能力识别出唇动的动作,再通过语音技术识别出的语音是否与视觉识别到的唇动是否匹配,再结合上下文的语义理解这个命令是给天猫精灵的,还是这个人和其他人的对话。
识别的最终识别结果和输出结果为:
分析结果:不是在和天猫精灵说话;输出结果:不应答。
分析结果:是和天猫精灵说话,响应相应的指令;输出结果:同时输出语音、文字等多模态内容。
这样的多模态自然交互技术,不仅使得用户不再只能通过唤醒词唤醒智能音箱,更能适应多种应用场景下的交互需求。
聂再清对这样的多模态交互有更深刻的认识:
在我看来,多模态自然交互是一个特别重要的交互升级,重要性相当于我们在移动互联网时代的手机从键控交互到触屏交互的升级,多模态自然交互将会是一种非常自然的交互方式。
随着更接近人感官的多模态自然交互方式的深入应用,智能音箱在交互体验上也将变得更成熟。
智能音箱之争,早已成为巨头之争;智能音箱之争,本质其实是智能助手之争。
2020年,智能助手的战火从智能助手蔓延到智能耳机。随着科大讯飞、百度先后进入TWS智能耳机领域,阿里会不会是下一个进入这一赛道的玩家?
至少,在采访中,库伟并没有否认。
库伟提到:
耳机在本质上和音箱有点像,在过去一段时间里我们也在想,音箱是放在家里的硬件,随身携带没那么方便,耳机可以伴身随行,如果你能够和它交互实现一些应用,是挺好的一个场景。
我们想了很长时间,而且也和OEM厂商尝试推出了一些产品,实话说,因为一些技术问题,产品用户体验还达不到我们内部产品上市要求。
库伟也提到:
今天我们在做天猫精灵的时候,不是简单把它当作一个3C产品来看,而是把它作为承载未来在5G、AIoT时代的智能硬件一个打磨重要产品阵地的实验场来看,我们希望用越来越多的新技术、新平台,去实验、去打磨,从而能够在更广泛的范围内把这些平台推广开。
随着此次AliGenie 5.0的推出和应用,多模态自然交互、微内核、云应用带来了更新的思路和理念的同时,也带来了些许不一样的用户体验。
2020年,阿里还将如何重新唤醒天猫精灵?你又将如何唤醒你手中的天猫精灵?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。