0
本文作者: 嘉嘉 | 2022-02-16 11:32 |
AI芯片应用领域不断向多维度方向发展,例如CV(计算机视觉)、自动驾驶、智能手机以及语音交互。而在语音交互领域,中国智能语音市场正在维持高速增长。根据德勤报告显示,预计2030年消费级应用场景超过700亿元,企业级场景达到发展空间也预计将达到千亿级规模。
为了让智能终端拥有更好的交互体验,针对语音算法打造相匹配的AI芯片,采用软硬一体化的解决方案几乎是目前行业最为普遍的选择,这也是技术迭代的必然路径。如今智能语音赛道云集了众多玩家,如百度、科大讯飞、云知声、思必驰、出门问问、启英泰伦等都纷纷布局了芯片产业。
智能语音在技术关联和数据层次上天生具有更高的复杂度,单单自然语言理解和处理的能力就花费了科学家们数十年的心血才换来今日的交互体验。而能够将语音识别、语义理解、自然语言处理、语音合成、声音降噪等技术实现“云端芯”一体化,把业务延伸到芯片甚至硬件,才是将技术商业化的合理路径。
通用芯片架构并非为AI专门设计,天然存在性能、功耗等方面的局限性已是老生常谈。近几年在业内众多企业的努力下,解决了传统通用芯片的适配问题,公司也纷纷投入到专用芯片的制造。
在技术问题得到解决后,AI语音芯片在商业化的道路上仍面临很多挑战:
l 首先,如何达到在成本约束下的性能最优化。智能语音技术是紧耦合的,东拼西凑的技术无法得到理想的交互效果。需要纳入考量的是将全栈式的解决方案搭载到芯片上,同时每多一项功能就意味着成本的增加。低成本、易实施、低功耗的产品特点需要与解决方案密切结合。
l 第二,纵观布局AI语音芯片公司,它们所选的应用终端都集中在家居、电器、机器人、车载等场景。然而这几类场景产品品类众多分散是一大特点,尤其是家居电器,大到一台空调,小到一个插座都有对语音芯片的需求。如何在这些设备上适配芯片,判断芯片每一项效用的必要性,都需要对终端产品功能Know-How有着深刻的掌握。
l 第三,由于客户厂商天然的分散性,标准产品加工具定制是最高效的合作模式。拥有高效的工具链,降低定制化所需要的时间以及边际成本,将会很大程度提升语音芯片商业化进程。
云知声作为行业内第一批布局边缘侧芯片设计并提供软硬一体产品的企业之一,到如已经基于自研或第三方芯片发布三代共6款全栈语音AI芯片软硬一体产品,芯片及模组出货量已达千万级水平,积累近800家合作客户。
早在2015年云知声就开始搭建芯片团队,不仅来自于其行业嗅觉,也是环境使然。云知声的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离在线识别。与此同时,语音交互的核心环节也取得了重大的突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解也有了巨大提升,呈现出整体的交互方案。
2018年,云知声第一代UniOne“雨燕”(Swift)芯片第一次流片成功并量产出货。“雨燕”芯片,是云知声针对智能家居语音交互场景推出的高性能、低成本、一体化的芯片解决方案。“雨燕”架构内置的数字信号处理器uDSP,以及AI加速器DeepNet(云知声完全自主研发的深度神经网络处理器,NPU),支持DNN/LSTM/CNN等多种深度神经网络模型,能实现语音识别、理解、合成所需的深度学习计算加速。和通用CPU相比,这款ASIC芯片的处理速度和效率都有明显提升。
对于业务的场景选择,云知声的端侧智能语音芯片精准面向小家电市场。这条赛道的选择契机是始于自2014年与格力、美的等电器厂商的合作。在此领域,云知声已经积累了7年有余的经验,对于场景和电器产品的特点驾轻就熟。
以麦克风阵列的技术为例,毋庸置疑的是,麦克风越多越容易实现更好的降噪和语音增强效果。但比起行业内炒的如火如荼的多麦克阵列方案,单麦克却成为了家电产业中出货量最大的方案。这是因为效果的差别仅对具有声源定位需求的产品存在影响,而对于家电市场,一些本来就需要靠墙摆放的设备如空调、电视机等,八麦克风阵列的应用明显是多余的。所以考虑到实施成本、结构设计和生产安装等方面,单双麦克是该应用场景最适合搭载的方案——这些经验就来自于对行业功能Know-How的掌握。
于是云知声面向小家电市场的二代芯片“蜂鸟”(Hummingbird)在2019年流片成功。“蜂鸟” 芯片是云知声专门为离线远场语音交互场景设计的高性能,高集成度,高性价比的语音智能IoT芯片。相比语音行业通用芯片“雨燕”,“蜂鸟”芯片定位更轻巧灵活,可以持续降低适配设备的门槛,为客户提供性价比更高的解决方案。
蜂鸟系列芯片应用了远场拾音、高性能识别、低功耗唤醒的功能。配备单双麦克可实现10米远场拾音,安静环境5米识别率达到95%以上。主要面对家居环境下的厨房、客厅、卧室、浴室等在内的白电和小家电(灯具、厨电、智能插座等)产品领域。作为白电和小家电领域领先大规模量产的语音方案,蜂鸟及相关系列的芯片出货量达到千万级。覆盖了包括格力、美的、海尔、奥克斯、华帝等国内一线家电厂商。
与此同时,随着大众对用户隐私问题的关注,相较于需要系统连接上传数据的云端服务,特定场景下离线语音交互的需求在逐步增加。低功耗、低成本、快速响应以及融合离在线的交互模式,系统能智能决策离在线的处理方式都成为研发语音AI芯片的必要条件。所以云知声的芯片产品矩阵也布局了面向车载市场的高端芯片。
云知声与吉利集团旗下亿咖通成立合资公司芯智科技,并推出了一款高性能车规级离在线语音芯片“雪豹”(Leopard),预计搭载该芯片的车型在今年上市。这款芯片也集合了云知声的感知和认知技术。面向车载网络环境不稳定的特性,在纯离线场景下,”雪豹”提供堪比在线体验的自然语言交互和全国范围内寻址,以及多麦克风降噪功能。同时雪豹获得车规级AEC-Q100认证,具有完全自主知识产权,为汽车提供纯本地语音解决方案。这种本地化的服务,不仅能让用户体验到流畅的语音交互功能,还可以解决用户的隐私泄露问题。
随着自动驾驶和智能座舱也成为炙手可热的行业,基于车联网的以车辆为中心的生态系统建设也是加速智能语音企业发展的战略方向。将互联网生态、用户个性、环境交互等充分融合,毫无疑问也是云知声选择专攻车载芯片的考量。
在物联网的不同应用场景下,海量终端设备要实现功能智能化必须云端配合,即形成边缘算力和云端算力的动态平衡。云端互动的命题需要 AI 芯片的强有力支持,进一步也深刻影响到芯片的设计以及最终的交付。
随着2021年Google推出的Switch Transformer模型将小样本甚至零样本的学习能力刷新大众认知,预训练大模型也预示着AI技术新风向的爆发。人们可以更加顺利地在模型注入需要学习的知识,就意味着复杂和大量定制任务得以实现适配和推理计算。同样,云知声也利用预训练模型高效地解决物联网产品定制的痛点,为AIoT产品定制建立了开发者平台。
语音控制、对接IoT控制以及设备控制,通过平台自助生成能达到算法原厂线下支持和研发人员的编码实现的效果,将原本需要几周的工作周期下降到30分钟。例如,离线标准方案可以进行麦克数量与间距配置、自定义唤醒词、音色配置、命令词和应答语自定义并且进行一键下载版本烧录。客户只需要专注自己熟悉的电控部分,无需额外的硬件能力即可定制专属智能语音方案。
标准化的交付模式极大降低了客户端的门槛,通过产品端,云端一站式开发,快速实现智能语音控制,让零基础企业轻松实现智能化。再加上强运营的特点,平台支持上百种可供配置的云端技能,同时还可自定义技能或者接入第三方技能。截至目前,活跃客户在该平台已构建超过25000个产品版本。
近十年来,AI技术不断取得突破性竞争,百花齐放的AI行业也将迎来它的后半场。面对现阶段繁荣的智能语音市场以及互联网巨头的加入,尽管技术水平差不多的企业,在垂直行业和细分场景的取舍也会造成截然不同的导向,AI芯片的落地和场景也需要进行密切结合。
在解决功能约束下的性能最优化、不同场景下自由配置、便捷工具链的问题后,以云知声为代表的智能语音技术企业需要继续加速垂直行业进行渗透和布局,让智能语音赋能多形态的终端,以“中国芯”的力量协同构建全产业生态圈。
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。