VR里的声音有多重要？这5个点重塑你对全景声的认知

时间：2020-08-17 08:09:02

关键字： 3d vr

手机看文章

扫描二维码
随时随地手机看文章

[导读] 　　本文作者是时代拓灵CEO孙学京，整理自孙学京在ICEVE（北京国际先进影像大会暨展览会）WorkShop演讲。　　为什么说全景声是VR的标配，我不知道在座的各位对全景声、

　　本文作者是时代拓灵CEO孙学京，整理自孙学京在ICEVE（北京国际先进影像大会暨展览会）WorkShop演讲。

　　为什么说全景声是VR的标配，我不知道在座的各位对全景声、VR的了解程度有多少，很长时间以来大家关注VR可能都是视频，4K，或者是相机的质量，声音确实比较少提及到，我相信大家在电影学院之前也做过配音工作，声音确实在影视里也是很重要，但是我们为什么在今天，尤其在VR里再来强调一下呢，接下来就给大家讲一讲我们对它的认知。

　　什么是全景声

　　全景声这个名词大家也许不是很陌生，因为这几年已经有出现过，包括杜比提出的杜比全景声，所以我就通俗地讲一下它和传统音频的区别。首先全景声是一个全方位的展现形式，区别于立体声和环绕声的在一个水平面上，全景声肯定是需要一个全方位360&TImes;360的展现形式，然后还有很重要的一点就是我们认为它需要支持交互，某种意义上和游戏，或者全景电影里非常密切相关的就是它不是静止的，引用了很多交互的概念。

　　全景声与3D音效的区别

　　可能大家会问全景声和3D音效是什么区别，我们认为全景声是远远大于3D音效，3D音效可以认为是全景声的一个子集，但是确实两者在核心技术上又有非常多相通的地方。

　　从声音的发展历程我们简单回顾一下，传统是单声道，尤其在通讯行业，很多单声道就几乎是使用了数十年。立体声大部分是用来听音乐，这个也是有它一定的道理，因为我们在听歌的时候人的这种平衡感还是很重要的，所以在影视、商业上是5.1/7.1，主要以杜比为首，它在商业上获得了巨大的成功，其实在它出现的时候也是有一些不同的这种制式之争吧，那最后5.1/7.1作为商业上一个能够满足大众需求的，而推广起来又比传统的，其实就是我们今天说的Ambisonics前身的那种技术更加容易普及，所以它在商业上其实是统治了过去应该超过10年。

　　那现在5.1/7.1以后，大家甚至也听到过13.1、22.1，这些都是有些影院在做的，包括日本NHK他们有这种更多扬声器轨道的技术，那最新的这种Channel-based技术之后，大家在音频领域关注的是什么技术呢？

　　目前国际上从标准来讲，就是以杜比为首，它在推杜比全景声Dolby Atmos，然后另外一个阵营是以Fraunhofer、Qualcomm为代表，他们是代表MPEG H这个阵营，也是提出新的制式来替代这种传统的多轨AAC的编解码，其实几年前他们推这些标准的时候，那会儿VR还没有特别火，但是它的核心技术已经开始引入Object Audio这么一个概念，然后在MPEG H的话，它会引入高阶的Ambisonic概念，但是那时候更多面向影院行业，并没有和VR直接挂钩，所以在交互方面它并没有考虑特别多。

　　VR视频里的声音需要有方位性

　　我刚才提到的交互特性也就是说我们在看VR内容的时候，其实是追求一种非常好的临场感、现场感，那所谓体验更好的真实性，是和人的交互必不可少的，如果只是静止在那儿被动体验导演给你呈现的内容，这种沉浸感是不够的。

　　大家都体验过VR头盔，你至少转头会看到不同的全景内容，声音也随之变化。在更进阶一点其实就类似于游戏里边，你从一个房间进入到另外一个房间或者你在一个房间里，你凑近这个房间的角落，或者远离这个角落，你听到的声音其实都是应该不一样的，这和视觉的变化其实是一样的，就是因为这些交互特性的引入，导致了传统和5.1这种混音是不能满足交互需求的。

　　我们还需要VR全景声的技术，作为一个工程的系统，它要支持耳机播放，因为在VR里面目前是以耳机为主，但是扬声器在内也同样需要支持，因为它会有另外一个应用场景，这些支持跨平台，支持不同的VR设备也是我们作为一个商业公司，来做一套商业系统所必须要具备的特性。

　　一些VR相关的录音技术

　　我们一般来讲整个全景声系统实际上是由采集、制作、到播放渲染这几个比较关键的环节。如果大家对视频这块比较了解其实也是同样的类比，你也需要从视频的采集、剪辑到最后播放渲染都是同样类似的几个比较关键的模块。

　　双耳录音

　　首先来讲一些录音技术。录音有几个比较主流的技术，传统的就是立体声录音，比如像XY录音，或者是AB录音，它一般是两个麦克风，位置可近可远，它会收集到一个平面上的空间声。那双耳录音实际上是立体声里一个比较特殊的地方，它是用一个人工头来模拟人的头部特性，然后在人头左右两边的人工耳这块插入一些全向的麦克风，所以它会对三维声场有一个非常逼真的模拟。播放这种声音基本上是通过耳机来播放，不需要额外的编解码或者格式的转换。

　　HRTF

　　HRTF是我们在做3D音效或者是在声音模拟里面最关键、最核心的技术之一，它底层的数学不算特别复杂，是用一些有线的FIR滤波器，模拟从头部到声源之间信息传输的信号Signal path，然后用一些简单的数字来模拟一下。

　　目前我们常用的方法是我提前用人头在一个消音室里从各个方位去采集非常多的人头部传递函数，比如说我在一米处放一个声源在人头的前面，零度角我放扫频，或者是白噪声以及粉噪声，我可以重复很多次，在不同的角度，不同的高度我都会采集，然后把这些声音记录下来，经过一些数学分析，以数字的形式储存下来。如果我将来需要去模拟3D音效的时候再把这些数学函数带进去，当然也是在做的特别好的前提下。这里边其实需要非常多的数学，非常多的工程上的考虑，比如说我们头部的大小等等，其实这是一个很严重的问题。

　　Omni-Binaural

　　现在跟VR比较直接相关的我们叫它Omni-Binaural。看图就能看出来，它是传统人头录音的一个升级版，它是4个方向都有正反的两个人工耳。其实这个设备是国外3Dio公司生产的，它省去了人的面部来模拟人头，实际上是一个简化版本。当然我也看过有国外团队做的是一个有一点恐怖的模型，实际上是每一个面都有一个人脸，可以设想一下，确实有一点恐怖。但是它会比只用人耳的效果好一些。

　　如果我们用这种设备去录音的话，实际上是可以看到每面两个麦克风，所以你最后得到的是8轨声音，所以是模拟四面四个方向，0度、90度、180度、270度，如果你想要更高的精度，那其实可以增加更多的面，现在基本上比较简单的做法就是用四面来模拟，就是人站在不同的方位我都能听到一个特别好的人头录音。

　　它的优势就是解码比较简单，然后我如果想听45度的时候怎么办？它实际上所做的办法就是把0度的时候录下来的声音和90度的时候录下来的声音做一个中间的数学上的差值，所以其实是非常简单的。但是随之而来的效果就会打折扣，它会在45度的时候你听到声音的方位感就会略微模糊一些，这也是它的缺陷。

　　Ambisonic

　　目前VR兴起以后Ambisonic技术则变成了一个重要的技术，所以利用它录音的话，在传统上是以这种比较昂贵的麦克风为主，比如说像TSL的Soundfield，它基本上把麦克风的摆放位置是一个叫正四面体，Tetrahedron的这么一个麦克风摆放，你可以想象它其实就是每一个麦克风朝向一个方向，有朝上的、朝左、朝右、朝水平面四个方向，它可以把360度在一个点上听到的声音收录下来。

　　所以这几款产品TSL、TetraMic就是已经存在很长时间了，然后森海的Ambeo是今年刚出来，这几款都是质量非常高，只是麦克风一个阵列，你如果需要用这个设备去采集的话，也是还要额外去用这种录音设备，我们一般叫它轨机，可以支持多路的麦克风收录。

　　我们可以看到，通常在一阶Ambisonic用WXYZ来表示，这里边用Zoom录出来的话，它的Z轴是为零，只有WXY。第二款设备是我们公司时代拓灵推出的产品Twirling720，这款产品是四个channel，四个轨道都是有分量的，因此是更加完整意义上的一阶Ambisonic的录音设备。

　　刚才简单介绍了我们在做全景声录音尤其在VR里主要用的两个设备，一个就是Omni-Binaural，另外就是基于Ambisonic技术的录音设备，当然还有传统的一些录音，比如5.1环绕声，以及刚才提到的XY，或者AB这种立体声录音。

　　当你采音完了以后，所涉及到全景声的传输与存储，目前这一块我个人认为是业界没有解决的最大的一个问题所在。一旦牵扯到传输与存储，它要求很强的格式上的统一。但是从另一个方面来看，只要谈及到格式，就涉及特别多的商业利益，各家统一起来是非常困难的。

　　Ambisonic这个技术也是在VR出现以后可能用得会越来越多，这也是Google或者Facebook他们在兼容的一个格式，因为这个格式其实没有什么专利的限制，所以是比较开放的。大家如果都遵守一个Ambisonic格式那么我就可以保证我的视频在YouTube或Facebook上都可以播。但是这个格式其实某种意义上就像刚才说的Object Audio或者是Channel-based Audio，我个人称它为表现形式，而并不是一个最终的编解码，因为无论是哪种技术，底层的编解码都可以用MP3或者是AAC来编码，这个具体的编码形式其实是另外更底层的一个技术。

　　全景声如何播放？

　　在这里提到了Ambisonic在VR领域的用处，比较核心的用处我们叫它中间格式，也就是无论什么采集格式或者用分轨做出来的格式，其实可以给它打包成Ambisonic的格式，就是刚才说的WXYZ，然后最后再给它转成5.1或者立体声，或者是支持旋转。这样大家会有一个握手的这么一个机制，有一个interface，这样就比较好办，如果进来就是杜比全景声格式，其实很多品牌是播放不了的。

　　但YouTube和Facebook都可以播这种支持spaTIal 360、spaTIal audio的内容，像YouTube它就是基于Ambisonic为主，然后Google最近推出的网页端的播放器叫Google Omnitone，也是基于Ambisonic这种解码，所以如果你用的内容是刚才提到的Ambisonic采音设备，像Twirling720，那你就可以一键上传到YouTube或者是Google Omnitone支持的网页，所以现在这些网站已经可以看到很多360音频内容，Facebook也是支持的。

　　另外像Quad Binaural这种格式呢，用这种多路人头录音Omni-Binaural这种设备录的话，它支持的平台应该是GearVR，还有其他的一些平台，当然时代拓灵的播放引擎也是支持的，但是它的缺点就是音轨数比较多，在平台兼容性上还不是那么好，至于像Object Audio、杜比全景声，它受局限的程度会更大一些，尤其是如果你不把它做一些转换，那它的复杂度也是偏高。

　　在播放平台方面国内走得还是比国外慢一点，当然我们自己的平台可以支持Ambisonic全景声播放，比如App（拓灵VR）、官网（）和YouTube个人主页（twirlingVR）。我们也希望改变这种形式，可以通过和优酷、橙子VR或其他VR垂直领域播放器去合作，可以尽快在他们的平台上播放支持360度spaTIal audio的VR内容。

　　全景声的重要性

　　在VR体验里，我们首先是讲全景视频。现在视频大家觉得已经差不多了，那接下来在音频上应该怎么做呢？这其实是下半年很多人都在关注的一个问题，目前在国内大家拍摄还是以传统音频为主，少数的团队开始研究这种全景声的概念。

　　传统音频实际上是提前渲染好的声音，无论你是立体声听音乐，或者是在影院里看电影，然后听5.1，这些都是声音混一次永远就不再变了，所以它不存在太多交互的概念。在VR里其实我们是需要强交互的，所以它对传统的音频算法提出了更苛刻的要求，传统的5.1再复杂但是混一次是固定的，播放是非常固定的，所以不存在太多的效率问题。

　　但是在全景声里，如果是做到完全重现现实生活中的场景，比如有一个特别复杂的场景，运算量可能是非常高的，你需要人任何一个动作，转头，低头，移动，都要重新计算一下这个声场里的声音到达人耳应该需要正确的传递函数，导致所有的运算都要重新算一遍，这个运算量其实是非常非常大的。

　　我也坦诚地讲，目前达到这种终极目标在手机上肯定是实现不了的，我们目前所做的是怎么样在特别高效的情况下，还能保证足够好的质量，这也是我们从去年成立公司到现在在研发上一直投入很大精力的地方。

　　全景声就是需要通过交互来给你一个更好的临场感，然后另外很重要的一点就是通过声音我可以给导演更多的工具来展现他的意图，用户可以通过声音来更好地理解导演的表达。

　　在VR视频中，在无声音的引导下，画面可能会出现若干个关注点

　　相信大家都看过全景视频，如果没有声音的提示，那么你在观看的时候完全是按照自己的喜好去看视频，猜测这个全景视频到底在表达什么，我觉得这是非常没有效率的。凡是国外拍的这些非常好的VR作品，无一例外它的声音做得非常棒，都是通过全景声的优势来有想法有目的地去引导观众去看内容。