3D 音频技术瓶颈在哪里
2017-01-16 11:49
3D音效是个什么技术,说白了,3D音效就是用扬声器仿造出似乎存在但是虚构的声音。是我们身边更真实的环境声音,它的沉浸式音效体验,能让你感觉发出声音的主体就在你的双耳周围。所以是一种明显区别于我们现在声音听取环境的一种声音技术。
VR需要有3D音频才能产生更真实的沉浸感。Jaunt 的音频首席工程师 Adam Somers 在接受 THE VERGE 采访时这样描述:“在沉浸感这件事上面,听觉占了五成,视觉占剩下五成。”
然而,双耳录音技术本身不能支持收听的时候转动头部。玩家在玩 VR 游戏的时候,如果有声音从后面传来,人的本能反应是转头向后看。这时候如果声音继续在你的前方,那么会大大降低沉浸感。可以这么说,3D 音频决定了我们念叨着的 VR 时代是否真正到来。
另一种还原真实声场的技术也不能支持收听的时候转动头部,叫环绕立体声 ( surround audio ) 。环绕立体声用多个物理扬声器来打造一个 360 度的声场,来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是 DTS 和杜比(Dolby)。
比如环绕立体声影院,它会在观众的周围放置很多音箱和扬声器。如果画面左边出现了爆炸,那么左边的音箱会发出声响,而不是右边。由于播放器的位置固定,听众只有在固定的点,才能听到模拟得最真实的声场。
真正的沉浸体验,来自于高中低音频在空间内全方位的还原,即以人头为中心收录一个球形内所有角度的声音,并进行还原。如何解决这个问题?计算成为了重中之重。
在双耳录音技术取到的声音之后,还原 HRTF,然后进行计算,把各个方向的 HRTF 还原,才能合成一套随着转头、位置移动声场自然发生变化的空间音频。
在这三个环节中——收音、录音、计算、渲染 ( processing, rendering ) ;回放——技术壁垒最强的地方在于计算环节。
有些团队则为了减轻计算量,用了一些比较笨的办法。比如 3dio,他们创造出收音设备,可以尽可能地在同一时间录到各个方向的 HRTF 。
通常,三个指标可以用来判断一家公司 3D 音频核心算法技术水平:
*Localization : 指的是声音的定位。环绕立体声对于声音的平面 360 度有较好的模拟效果,而对于上下 360 度则难以模拟。VR 音频的难点也在于做出上下 360 度的声音模拟。能做到上下逼真的则技术更为先进。
*Propagation : 声音在封闭空间中,不是只传输一次,而是有无数次的反射(bounce back),我们可以用回音来理解。Propagation 用来描述是否能让用户感觉到自己的确在一个真实的空间中,这种真实感越强越好。
*Occlusion : 声音在传输过程中,如果中间有一个障碍物,这个障碍物会对声音的传播产生影响。如果一个 VR 音频技术可以对障碍物对于声音的影响模拟得很好,则是一个做得好的 VR 音频。
除去以上三点,目前空间音频最前沿的解决方案是 Ambisonic 技术。于是,能不能做 Ambisonic 也是判断一家公司技术高低的指标。
Ambisonic 同样是一种声场模拟手段,但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球,那么空间中各处传来的声波会对这只气球表面产生作用力。
Ambisonic 利用这个简单道理,在空间中摆放一堆扬声器,来模拟对应现实情况下各处声波对这只气球的作用力,然后计算,还原 HRTF。
通过 Ambisonic 得到的音频数据,是最全面的数据,它可以降解到任何其他音频格式。打个比方,Ambisonic 如果是图像中的 jpg , 则杜比 7.0 、杜比 5.1 等等音频格式相当于像素。
VR需要有3D音频才能产生更真实的沉浸感。Jaunt 的音频首席工程师 Adam Somers 在接受 THE VERGE 采访时这样描述:“在沉浸感这件事上面,听觉占了五成,视觉占剩下五成。”
然而,双耳录音技术本身不能支持收听的时候转动头部。玩家在玩 VR 游戏的时候,如果有声音从后面传来,人的本能反应是转头向后看。这时候如果声音继续在你的前方,那么会大大降低沉浸感。可以这么说,3D 音频决定了我们念叨着的 VR 时代是否真正到来。
另一种还原真实声场的技术也不能支持收听的时候转动头部,叫环绕立体声 ( surround audio ) 。环绕立体声用多个物理扬声器来打造一个 360 度的声场,来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是 DTS 和杜比(Dolby)。
比如环绕立体声影院,它会在观众的周围放置很多音箱和扬声器。如果画面左边出现了爆炸,那么左边的音箱会发出声响,而不是右边。由于播放器的位置固定,听众只有在固定的点,才能听到模拟得最真实的声场。
真正的沉浸体验,来自于高中低音频在空间内全方位的还原,即以人头为中心收录一个球形内所有角度的声音,并进行还原。如何解决这个问题?计算成为了重中之重。
在双耳录音技术取到的声音之后,还原 HRTF,然后进行计算,把各个方向的 HRTF 还原,才能合成一套随着转头、位置移动声场自然发生变化的空间音频。
在这三个环节中——收音、录音、计算、渲染 ( processing, rendering ) ;回放——技术壁垒最强的地方在于计算环节。
有些团队则为了减轻计算量,用了一些比较笨的办法。比如 3dio,他们创造出收音设备,可以尽可能地在同一时间录到各个方向的 HRTF 。
通常,三个指标可以用来判断一家公司 3D 音频核心算法技术水平:
*Localization : 指的是声音的定位。环绕立体声对于声音的平面 360 度有较好的模拟效果,而对于上下 360 度则难以模拟。VR 音频的难点也在于做出上下 360 度的声音模拟。能做到上下逼真的则技术更为先进。
*Propagation : 声音在封闭空间中,不是只传输一次,而是有无数次的反射(bounce back),我们可以用回音来理解。Propagation 用来描述是否能让用户感觉到自己的确在一个真实的空间中,这种真实感越强越好。
*Occlusion : 声音在传输过程中,如果中间有一个障碍物,这个障碍物会对声音的传播产生影响。如果一个 VR 音频技术可以对障碍物对于声音的影响模拟得很好,则是一个做得好的 VR 音频。
除去以上三点,目前空间音频最前沿的解决方案是 Ambisonic 技术。于是,能不能做 Ambisonic 也是判断一家公司技术高低的指标。
Ambisonic 同样是一种声场模拟手段,但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球,那么空间中各处传来的声波会对这只气球表面产生作用力。
Ambisonic 利用这个简单道理,在空间中摆放一堆扬声器,来模拟对应现实情况下各处声波对这只气球的作用力,然后计算,还原 HRTF。
通过 Ambisonic 得到的音频数据,是最全面的数据,它可以降解到任何其他音频格式。打个比方,Ambisonic 如果是图像中的 jpg , 则杜比 7.0 、杜比 5.1 等等音频格式相当于像素。
本文为作者 Cgangs(强氧科技旗下网站) 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/86138
Cgangs(强氧科技旗下网站)
点击了解更多
Cgangs.com,强氧科技旗下网站。为用户提供新鲜的行业资讯、创意灵感、高端作品赏析、分享交流机会众多视频教学。
扫码关注
Cgangs(强氧科技旗下网站)
Cgangs(强氧科技旗下网站)