游戏音乐制作中音频抖动的概念是什么?

抖动是游戏音乐制作词典中最不被理解的词汇之一,但它又是数字音频处理中一个必不可少的因素。

       那么,什么是抖动呢?它其实是一种低电平形式的噪音,在渲染向更低的位深时,被刻意添加到数字音频文件中。抖动的概念可能听似“反直觉”,但却是一个很有效的处理方式。抖动噪音实际上掩盖了所谓的“量化失真”,后者会导致数字音频出现噪声和不自然感。在进入到具体细节之前,我们先快速回顾一些有关数字音频的基本概念,会有助于理解这次的话题。

       采样率和位深度

       当音频通过数模转换器(ADC)被数字化处理时——也就是当录音通过音频接口发送给DAW时,来自话筒或DI盒的模拟音频信号将被转换为一系列的1和0,音频被表现为数字形式。为此,ADC设备获取音频快照(也称为“样本”)时要通过特定的速率和大小——也就是采样率(Sample Rate)和位深度(Bit Depth,或称比特深度)。

       采样率控制着转换器在一秒钟内捕捉到并进行数字化处理的音频采样数量,它在频率响应方面至关重要。基于奈奎斯特定理(Nyquist Theorem)的一般规则,你的采样率必须大于或等于音频最高频率的两倍。否则,被称为“混叠”(Aliasing)的失真就会损坏声音。

       为了获得到高至20kHz的频率——人类听觉的频率上限,通常使用的最低采样率是44.1kHz(CD介质的速率)。但是现在,48kHz或更高的频率也很常用。采样率越高,重现频率范围的精度就越高。

       位深度(也称可之为“字长”)是指每个样本的大小,即它所包含的0和1的数量。它量化了振幅的精确程度,因此动态范围(可捕获到的最大响度和底噪之间的差距)得以在数字化时得到体现。

       位深越高,对振幅的描述就越精确。比较16位(Bit,比特)和24位音频时,分辨率的差异非常惊人。16位音频可以让振幅表现高至65536个等级,而24位则能达到16777216个等级。在动态范围方面,一个比特相当于6dB。16位时,你就有96dB(16x6),24位时则有144dB(24x6)。

       量化失真

       当你将文件从24位转换为16位时,数字音频软件将会删除(“截断”)最后8位,并且必须将数据四舍五入以适合至可用的较小位数。这个过程被称为“量化”(Quantization)。它与你在MIDI中量化音符的过程不同,但概念类似。在MIDI序列中,如果将十六分音符乐句量化为八分音符,你的DAW必须将未落在八分音符上的任何十六分音符都重新指定到最接近的音符上。这样就降低了音乐的精度。

       将24位音频转换为16位(或从32位固点转换为24位等等)时,DAW或音频编辑器会进行比特量化,反映到振幅上,层级就明显更少了。结果就是,整数化可能会导致所谓的量化错误(也称为“量化失真”或“截断失真”),具体表现为低电平噪音或着失真。

       音乐通常会掩盖掉这种错误,但是对于16位音频,这种量化错误有时还是可以在安静段落上或者音乐淡入或淡出时被听到。最重要的,它毕竟是一种失真形式,你不会希望它出现在自己的音乐作品中。一些工程师表示,即使实际上听不出量化失真,它也会让音乐整体听起来更加尖糙。

       抖动救援方案

       将文件保存到较低采样率时,添加抖动是一个解决方案。当抖动被添加到有量化失真的音频时,它会掩盖量化失真,使其出现得更加随机,让耳朵难以辨别。与粗糙刺耳的结果相反,抖动处理将量化失真转变为稳定的低水平的模拟感嘶声。

       另一个在有抖动功能的软件和插件中常见的术语是“噪音塑形”(Noise-shaping)。这基本上是指抖动均衡处理,旨在改变抖动噪音的频率特性,使其处于人耳最难听辨的范围。

       抖,还是不抖?何时添加抖动,是一个让人困惑甚至极具争议的话题。看待它的最简单方式是,在位深下降时,始终应该进行抖动。所以,如果从24位变为16位,应该抖动;如果从32位固点(非浮点)变为24位或16位,也应该抖动。

       但是,如果将混音并轨到MP3或AAC等数据压缩编译码文件上,抖动则不是必要之举。这类格式都会将修饰感加入到信号中,抖动是无法弥补的。

       在给如MP3和AAC这些有损编解码器编码时,你能做的最好的努力是使用最高的比特率,同时确保文件大小可以达到流媒体平台的限制要求。不要将比特率与位深混淆。比特率测量的是信号流的传输速度,最常见的是以kbps(千比特/秒)或mbps(兆比特/秒)表示。比特率越高,质量越好,文件也就越大,了解更多相关内容敬请关注分贝块游戏音乐制作官网。