您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给何思思
发送

0

音频AI技术的新路径:脱离现实+极致拟真

本文作者: 何思思 2023-03-27 11:21
导语:AI不仅能降噪、消除回声,还能让人脱离现实,体验拟真的音视频世界。

雷峰网(公众号:雷峰网)讯 近日,实时互动云服务商声网发布了囊括 AI降噪、AI回声消除、空间音频、最佳音效在内的新一代音频技术智能引擎——凤鸣AI引擎。

通过该引擎,开发者与企业可以如搭积木般灵活调用对应组件,并广泛应用在语聊社交、在线K歌、线上会议、游戏竞技、虚拟活动等诸多场景,为用户带来更纯净、更动听、更沉浸的语音互动体验,探索更多营收增长空间。

RTE场景不断丰富,高音质互动需求急需满足

众所周知,实时音视频技术的发展带出了大量的创新场景,从最初的狼人杀、直播连麦到直播电商、在线K歌、互动播客再到现在火热的元宇宙,在场景的不断扩展情况下,用户对实时音视频体验的诉求也越来越高。

传统的RTC概念,从信息传递的角度出发,音频功能仅提供简单的语音沟通,满足单一的场景和通话标准,对于音质并无太高的需求,也就是所谓的“能够沟通”。

但是伴随着实时互动创新场景的涌现,用户对于音频体验的需求也产生了量变到质变的进化。比如在线K歌、线上会议等场景,用户的需求早已从能够沟通到希望“脱离现实”,屏蔽外界干扰,实现纯净沟通;对于元宇宙、虚拟活动、游戏竞技等场景,用户则是希望从简单沟通实现“极致拟真”的沉浸式体验。

同时诸如声网这类音视频厂商还观察到,音频体验的提升能够增强平台用户的核心体验。比如,对噪音的抑制能够提升语聊房用户活跃度和留存,以及游戏开黑场景的通话时长;回声消除能显著提升用户的在线K歌体验;而立体、具备空间感的音频体验则能提升元宇宙社交、游戏竞技、线上会议、虚拟活动等场景中用户的临场感和沉浸感。

针对以上痛点和需求,声网的凤鸣AI引擎可谓顺势而生。在新一代引擎中,通过AI驱动的方式,声网打通了音频采集、前后处理、云端传输、编解码等链路,旨在为用户打造更纯净、更动听、更沉浸的语音体验,在现有实时互动玩法的基础上锦上添花,赋能行业开发者和企业。

凤鸣AI引擎的AI能力主要体现在三方面:

  • AI降噪强力抑制100+突发噪声,兼顾语音无损伤与混响抑制

想要在“脱离现实”的环境中办公、娱乐,屏蔽外界干扰是基础。相比于传统的降噪算法,凤鸣·AI降噪的效果有显著提升,可以一次性解决100+种突发性噪声,比如办公场景经常遇到的敲键盘、鼠标点击、电话铃声;家庭环境中遇到的小孩哭叫、装修、厨房做饭声;户外环境中的风声、雨声、汽车噪声等。

凤鸣·AI降噪在强降噪的同时还能兼顾高保真,即使在人声密集场景下,也能实现纯净通话体验,甚至还实现了在不增加额外运算量的前提下,对远场语音具有明显的混响抑制能力。如果用户在一个房间中距离麦克风较远,这时候对方听到的声音是模糊的,若使用了声网的AI降噪算法,对端也能清晰地听到该用户的声音。

此外,声网自研的AI推理引擎可以使AI降噪算法在Android、iOS、Mac、Windows、Web等主流平台以低精度损伤、高性能、低功耗方式运行,使用户的设备不卡不烫。经数据测算,仅开启凤鸣·AI降噪功能,相应设备CPU消耗增幅平均值<1%。

  • AI 回声消除强力抑制非线性回声,还原本来音质

回声是影响音视频通话质量的主要因素之一,尤其在线上会议、在线K歌、多人连麦等场景中,不仅损害通话质量,影响用户体验,还可能导致带宽增加。凤鸣·AI回声消除利用算法对环境中产生的回声混响进行有效抑制,智能适应各类环境,实现精准音源分离,从混合的近端信号中消除不必要的远端信号,保留近端人声发送到远端,全面消除回声,实现高保真音频体验。比如,在双人合唱等在线音乐场景下,AI回声消除可以使得人声自然流畅,增益效果显著。

  • 空间音频极致拟真,打造“声临其境”互动玩法

凤鸣·空间音频通过纯软件算法方案,模拟头部球面区域立体声场,利用范围音频、人声模糊、空气衰减模拟等能力,完美模拟现实听觉感受。当用户操作相应角色在虚拟场景里移动,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果。

空间音频是元宇宙和游戏这类具备3D场景玩法的最佳搭档,如狼人杀、虚拟演唱会、虚拟活动等场景,可以有效的增强用户在线上的互动、听觉体验,重构用户在虚拟世界的沉浸感与临场感。同时,开发者不必担心空间音频功能对于用户设备的影响,据数据测算,开启凤鸣·空间音频功能后,相应设备CPU消耗增幅平均值<0.7%,内存消耗增幅平均值<2M。

那么以上音频能力该如何组合使用?

多年来,声网汇总梳理语聊领域各类头部App的音效配置,综合声网超过万亿分钟的用户音效偏好的数据模型,并结合声网音频专家的多年沉淀与研究,能够为平台提供针对各种语音场景的最佳音效配置,助力平台用户享受行业顶尖的音效体验。

目前,已上线的最佳音效包括语聊社交、K歌、游戏陪玩、专业主播等场景。国内某头部语音社交平台通过声网提供的最佳音效配置方案,将空间音频、美声、电音等丰富的声音玩法融入互动中,增强平台留存和变现能力。

雷峰网了解到,凤鸣AI引擎目前正在开发变声这一功能,用户将可以体验20+变声风格,多样角色扮演花式玩转语聊场景。

声网算法专家许冉指出,凤鸣AI引擎代表声网在 RTC音频领域针对核心技术的长期投入和产出,以及声网基于音频核心能力衍生出各种复杂功能和高端效果的决心,未来声网将基于凤鸣AI引擎形成新一代RTC音频解决方案,比如探索更个性化的语音方案、语音超分、co-experiencing场景等。

回看近几年音频社交行业的发展,仍呈现持续增长的态势,依旧有广阔的发展空间。总体来说,音频社交的主要玩法集中在多人语聊房、1V1语聊、语音播客、游戏开黑等场景。薛达认为,作为用户之间情感的递进纽带,语音结合虚拟人以及类似ChatGPT这样的大模型,可能未来会带来一波新的社交热潮。

在市场火热的前景下,音频技术的提升对行业来说可谓如虎添翼。正如薛达提到的,降噪技术是实现元宇宙空间中用户体验的一个必不可少因素,因为一般娱乐场景中都会播放背景音乐,加上人声和互动音效,如果没有空间音频和降噪,那用户体验会非常差。

从另一个角度出发,声音是打造差异化社交玩法的一个重要能力,在社交音频这个赛道上,大致分为音视频直播、音频内容生态,以及泛娱乐音频三个类型,音频技术能力的提升可以有效助力业务端提升用户体验。

不仅国内市场火热,大量出海企业也押注音频社交这一赛道且扎堆中东、东南亚市场。缘何会出现这样的情况?刘武华认为,中东市场这种大R市场天然契合音频社交的商业变现形态,而东南亚市场年轻用户多,社交需求旺盛又热衷于尝试新鲜事物,且这两个市场已有成熟的产品形态和产业链。

但是从目前来看,东南亚和中东市场目前还处在快速发展阶段,市场机遇大、用户基数大,但还没有绝对的寡头形成,较之前传统社交类型来讲,音频社交的留存能力也较高,企业需要在用户感兴趣的窗口期尽快实现转化。

谈到音频社交的未来趋势,刘武华表示,社交+游戏、社交+元宇宙、社交+ AIGC 这几种玩法有不错的发展空间和前景。杨帆也认为,元宇宙方向的场景会更受年轻人青睐,另外 AIGC 配合语音转文字等应用,应该也会带来一波新AI音频社交热潮。

(雷峰网雷峰网雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

工业口编辑

关注新基建,聚焦工业互联网领域 网络安全丨微信:15230152798
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说