0
雷锋网按:最近 Oculus 发表官方博文,详细介绍了近场 3D 音效技术和立体声效 (volumetric sounds),这是第一篇关于Audio SDK中新功能的文章。雷锋网编译如下。
双声道3d立体声的原理是通过为左右耳朵提供基于声源3D位置的经过特殊“滤波器”处理的声音而实现的。术语“滤波器”可用于描述从小到简单均衡器EQ,大到复杂混响的所有相关事物。那么我们接下来说什么呢?
正如混响滤波器通过双通道脉冲响应(IR)的方式,捕获的声音可以在到达听众耳朵的途中与周围环境进行交互,而双声道空间环绕滤波器捕获的声音可以在到达听众耳朵的途中与听众的身体进行交互。
在混响的情况下,由于环境的大小和复杂性,脉冲响应IRs时间较长而且秩序混乱。多年来,我们一直在利用这个优势,以单一的双声道混响脉冲响应IR来模拟近似的环境,因为声音脉冲响应经过了最初的几次反射后,空间感逐渐削弱,最终完全消失,使得我们无意识地认为听到的声音就是与我们的周围环境融在一起的。
在双声道3D空间立体声案例中,脉冲响应IRs很小,但是极其具有方向性。即便超过几英尺的距离,脉冲响应IRs也不会有很大变化。我们一直在利用这一点,对3D立体声音频进行另一种近似模拟,这种技术与距离无关,我们称之为“远场”。我们的HRTF数据库在头部如同一个有序的球型网格空间内进行捕获/采样,而不是堆在一起。
我们沿方位角和仰角空间化,而不是沿距离方向。
距离在单独的专用模型中解决:
高低频衰减曲线
介质吸收滤波
处理/原始音频信号平衡
近场渲染技术的理论基础是,当从听众的距离缩小到与人类头部的大小相当时,该模型不起作用。在这种情况下,空间化和距离建模变得密切相关,并且在从以耳为中心的参考空间内,要比以头为中心的空间合成效果要好。在远场,声音世界的中心是以我们的头部为中心。而在近场,声音世界的中心是耳道入口,我们有两只耳朵,这使得近场比远场更为“双通道”。
近场距离(围绕听者头部的近场球体的半径)通常定义为约0.5 - 1.0 m(或3英尺,“在一臂的距离范围内”)。我们目前的远场HRTF技术的演变是通过向数据库添加更多的滤波器样本(红点)将其扩展应用到近场之中,以将整个近场球型空间与头部边界之间的所有空隙填满:
这种方案可能会降低R&D的水平,但同时也需要占用更多的硬件资源。同时,就像混响和远场空间化案例一样,我们正在寻找一种在有限资源的硬件上快速运行的能取得相似效果的方案。
那么近场音频有什么特别之处?
对于我们的近似模拟工作,我们首先必须确定近场渲染的主要感知线索:
越来越近,意味着自由场中的平方反比律更大。
但是响度增加主要表现为ILD(双耳声级差),因为头部对声音传播的干扰,声音可以比另一只耳朵更接近一只耳朵,从而产生比远场更高的ILD。
增加头部阴影/衍射:在相反(遮挡)侧,高频比低频衰减更多。
总体而言,在增加的ILD之上,能带来微妙的低音体验提升。
原始信号:开始的声音反射和漫反射会给人带来强烈的距离感,因此必须控制在最小水平。
由此,这种近似模拟将在侧面位置(远离中间平面)带来更好的效果,在这个位置ILD和环绕滤波器效果最强,并且我们需要完全控制反射信号增益(前期反射和后期混响)。
还值得注意的是缺少ITD(Interaural Time Difference,双耳时间差)特定的线索:较近的距离不会以可感知的方式影响每个耳朵之间的时间差异,但是确实要比它们忽远忽近的移动时,会产生更大的ITD和ILD变化(例如晚上那个讨厌的蚊子!)。
近场渲染模型
az:方位角
el:仰角
d:到聆听者的声音距离
a:头直径
第一步采用我们的远程HRTF数据库(像往常一样),但是从两耳而不是头部中心的几何空间内重新解释它。
下一步是像往常一样卷积我们的源信号,但现在结合上我们刚刚建成的近场HRTF。在这一点上,我们已经补偿了HRTF查找中的方向误差,因此空间化更准确,但是由于我们使用远场HRTF,我们仍然听起来有种很“远”的感觉。
最后,我们应用实时头影效应的物理建模。
这里发挥的关键物理现象是声学衍射:围绕刚性障碍物,如头部,产生的声波弯曲。
这种现象是频率依赖的:
低频可以绕障碍物弯曲
高频不能
截止频率取决于障碍物的大小
这可以认为是双耳(每个耳朵会得到不同的滤波效果)定向低通滤波器,截止频率与头部大小,方位角和仰角直接相关。其中一些滤波已经被捕获在我们的远场HRTF(头衍射不仅仅限于近场使用),所以我们使用一组在距离,方位角和高度参数化的实时滤波器来微调效果。
我们的第二篇文章将涵盖立体声效技术(volumetric sounds),并介绍通过各种各样的声学设计来实现更好的聆听效果。
Via developer.oculus 雷锋网编译
雷峰网原创文章,未经授权禁止转载。详情见转载须知。