省流助手:全文约4800字,可以插个眼备不时之需(但愿)。
兄弟们好,今天和大家聊一下音频的录制与收听。
1、声音的产生。
我们先从最浅显易懂的部分讲起,初中物理就讲过声音是由物体振动产生的,物体通过振动产生对应的声波,这里不难理解物体的振动频率越高那么对应声波的频率也越高,而后声波经由介质传入我们的耳中,被我们识别。我们在下文中称这种最初的声波信号为“原始信号”。
才没有求赞呢
2、采集录音!原始信号转化为数字信号。
为了将原始信号进行存储传播,我们需要对振动声波进行采集录音。录音实质上是将原始信号采集下来,后经由一定方式的编制与压缩,变成可以存储在我们电脑之中的数字信号(即0、1组成的数字信号流,通俗来讲便是.mp3、.flac或其它后缀格式文件;有关数字信号的知识后面会讲)。
在采集录音阶段,便涉及到了两个度量名词:“采样率”和“比特深度”。
- 我们先从较好理解的采样率讲起。
采样率是指每秒对原始信号的采集次数,单位是Hz。举个例子,一段5Hz的音频录音,便是指每秒对原始信号进行5次采集。
问:是不是采集率越高越好?为什么常见的歌曲采样率是44.1kHz或48kHz?
为了解答这个问题,我们先绘制如下的一张图来代表某段原始信号:
我们在上面讲过,物体的振动频率越高那么对应声波的频率越高,这段示意图左端代表歌曲的低频部分,右端则代表高频部分。
如果对该信号进行5Hz采集率的采集(如上图)
不难理解在左端(即低频部分)我们的采集效果更好,因为低频段相较高频段每秒产生的波形更少,我们的低频段采集是对很少的波形进行了5次的采集,而在高频段则是对很多的波形进行了5次的采集,最后分别得到的五个点前者更像原始信号。讲得更浅显一点,就是高频段信息相对更多,采集率越高对高频段信息的影响越大,得到的采集效果越好。
我们人类的听觉频率范围在20-20000Hz,也就是说我们的录音只需要采集原始信号在20-20000Hz的声波,这个时候便涉及到了电信号的尼奎斯特采样定理(Nyquist's law)。这个定理简单来讲就是:如果我们想要最低限度地对一个波形(注意是一个)进行较好的采集,那么我们就要采集这个波形的最高点和最低点。
其实不难理解,这就像数学中画sinX图像一样,确定了一个波形的最高点和最低点我们便可以大体地描绘出来波形了。而我们人耳的最高可识别频率是20000Hz,即每秒存在20000个波形,那么根据尼奎斯特采样定理,我们的采样精度最少应该为40000Hz才可以较好地对原始信号进行采集。但这个时候又相应地产生了一个问题,我们不能确保该采样率下每秒的40000个采样点都采集到波形的最低或最高点(即完全满足采样定理的理想情况)
如图1,因为原始信号的声波是不规律的,在等间隔采集的条件下对高频段密集波形的采集,我们往往不能精确地采集到声波的最高和最低点。
图1
图2
那这个时候该怎么办呢?其实很简单,我们只需要再稍提高采样率,对声波进行精度更高的采集(即每秒采集更多的点,如图2)便可以较好地解决问题。
所以后来sony和philips这俩公司合计出的解决办法就是以44100Hz为普适采样率。而在制作歌曲时某些制作人更喜欢用48000Hz以提高操作空间。
图为44.1kHz和48kHz的歌曲,主流音乐平台歌曲的采样率基本上都为这两种规格。
- 再来讲比特深度。
我们已经说过,采集原始信号的根本目的是要得到数字信号,而比特深度便是以某种标度去刻画采集到的声波信息点。
还是以图为例,假设我们用5个等级去刻画我们以5Hz采集到的若干信息点,并规定这五个等级分别为KLMNO,那么我们便可以通过坐标来表示图中框住的点了,该点应为(0.4s,N),所表示的意思为:在开始采集后的第0.4秒发出N等级的声波。我们实际用二进制去描述等级,即把KLMNO这五个等级用二进制表示出来,以达到转化为数字信号的目的。可以粗浅地认为比特深度是配合采样时间去组成一个坐标系来描述信息。比特深度越高(即等级越多),我们对应的标度越精确,主流音乐媒体的录音比特率为16bit,总有2^16=65536种等级。
问:比特深度的提高可以对录音质量带来什么影响?是不是比特深度越高越好?
经由前面的解释,我们不难理解,比特深度是一种量化的描绘方式,它只能记录下特定等级的信息点,而有另一部分的信息点因为不符合规定等级被排除在外不被进行记录。当比特深度提高,我们对原始信号的刻画就会变得更加细腻(例如刚才的图中有些点是不准确落于等级线上的,要进行模糊处理,等级越多需要迷糊处理的点就越少,也就是我所谓的更加细腻)。
比如8bit规格总有2^8=256种等级,相较16bit少了很多,我们将16bit音频降为8bit的音频后再次播放,会明显听到背景有沙沙声,这些声音的产生就是因为8bit规格下的刻画不够细腻,有一部分的信息点被迷糊处理,沙沙声就是因此而来的。而对于16bit规格,它的刻画已经十分细腻,再进一步提升到24bit,即总有2^24=16777216种等级去刻画信息,客观上来讲最后呈现的音频质量肯定是更加还原的,但是人耳可以明显感受到的提升却微乎其微。而且碍于录制设备和各种原因,很多录音原生就是16bit,我们在播放时选择往上提升的意义并不太大。
问:.mp3和.flac格式文件究竟有什么联系和区别?
为了解决这个问题,我们先要介绍采集录音阶段的两种不同调制系统:DSD和PCM。我们上文所介绍的以采样时间为横轴、一定数量的比特深度为纵轴的采集录音方式大体上便是PCM调制的录音原理。我们不难理解,当我们播放一首PCM调制的音频,其实质就是去一个一个地调度记录下时间、比特深度的采样点(说白了就是用点去画线)这样的调制下每个采样点间都是相互独立、不相关联的。
而对于DSD调制系统,仍是以采样时间、比特深度为横、纵两轴来记录信息,但不同的是,在纵轴DSD调制只有1bit深度,即只有两个记录等级。
DSD调制系统下,我们规定一个固定值*(我们先暂且成这一固定值为“*”),通过比较当前采样点和前一个采样点之间的深度差是否满足*,若“满足”则输出“1”,“不满足”则输出“0”。有别于PCM提升采样率和比特深度以提升采样效果,DSD调制系统需要调小比较量度“*”和提高采样率以提升采样效果,同时采样率必须非常非常的高(相应记录的数据也更多,最终展现为音频文件的大小更大),最低规格的DSD64采样率为2.8224MHz是CD采样率(44.1kHz)的64倍。
DSD64采样率为2.8224MHz
我们不难理解,DSD系统下各采样点间是彼此相依存的,有了前一个采样点才会有后一个采样点,虽然其横纵两轴的度量单位与PCM相同,但其记录方式是与PCM截然不同的。由于其记录方式的特殊性(各记录点之间相互关联),想要对DSD调制音频进行调整、修改是极其极其困难的,这也是其不常被使用的原因之一。那么是否意味着“DSD=音质更好”?是又不是。其音质更好是确凿无疑的,但较PCM人们能明显感知到的差别已经很小了,所以客观上更好,但主观上基本无差。
我们常见的.mp3或.flac都是PCM调制,主流音乐媒体中歌曲均为PCM调制;而较为罕见的.dsf、.dsdiff则为DSD调制。而对于.mp3和.flac间的区别,这就是老生常谈了。粗浅地去理解,flac是未经压缩过的数字信号,采集录音时是什么样,转化成的数字信号就是什么样;而mp3是经过压缩的数字信号,即声音由原始信号过渡为数字信号后损失掉了一些信息,在压缩成.mp3后又损失掉了一些信息。
3、解码与收听!数字信号转化为模拟信号。
当我们在音乐平台上点击一首歌曲到收听的过程,实际上是一个黑盒。前面已经讲过,歌曲在电脑中的存储形式是数字信号,是0和1构成的数字码流,我们碳基生物是识别不了这些东西的,这个时候便需要将数字信号转变为模拟信号。
问:模拟信号又是个啥?模拟信号、数字信号、原始信号间有啥区别?
我觉得对于第一个问题最准确的回答就是管话儿:模拟信号是指用连续变化的物理量表示的信息,其信号的幅度,或频率,或相位随时间作连续变化,或在一段连续的时间间隔内,其代表信息的特征量可以在任意瞬间呈现为任意数值的信号。看不懂?没关系,我也看不懂。简单解释一下,模拟信号,就是通过一种模拟方式来模拟现实世界中的信号,它可以被我们碳基生物识别,但不能被计算器识别。模拟信号最重要的特征是连续性,比如我们汽车的仪表盘,其所表示的车辆速度信息就是一种具有连续性的模拟信号。
那啥是连续性?依旧来拿仪表盘举例,仪表盘上的数字指针可以表示出仪表盘量程范围内的任意数值,比如其既可以表示出15km/h也可以表示出来15.0000001km/h;
但我们如果用屏显式的测速仪去测量车辆的速度,屏显出的数字就是数字信号,因为其是非连续的,只能显示出规定精度范围内的数字,15.0000001或许就被四舍五入成了15.0km/h。我们最开始说的所谓“原始信号”,实际上也是一种模拟信号,不过为了更好理解,我称它为原始信号,正式是没有这个名称的。话说回来,我们向录音设备输入的,或者说,录音设备检测到的声音就是模拟信号,而其输出的则是数字信号,是不100%精确的。而“原始信号”(这里我就得给原始信号加上引号了哈哈哈)、数字信号和模拟信号三者间的关系可以用下图表示:
单拿歌曲来举例,我们第二次信号转换的过程有以下步骤:
- 经软件或者数字播放器识别格式进行初解,在这个过程中,我们使用的播放软件要可以识别音频的调制编制格式(即后缀),才能继续进行到更后面的步骤。说白了就是你想播放一首.mp3的歌曲,那你就得用网易云播放,不能用爱奇艺播放。
- 软件进行初解后,会产生PCM或者DSD格式的音频码流,通过以下方式继续传输:通过主板传送到板载声卡或内置声卡(经由PCIE);通过SPDIF(即同轴线或光纤线)、通过Usb(AtoB)或者rca莲花线传送到DAC(也就是数模转化器,我们俗称的解码器)
注意,这里比较容易引起歧义,我所谓的码流只传输到声卡或者DAC两者之一,同时只经过SPDIF、USB、rca以及其他线路传输方式之中的一种传输到DAC。
光纤(左)和同轴(右)接口
光纤线(我手上没有同轴线)
USB-A
USB-B
PCI-E插槽
一根3.5转rca的线
- 经由我们的解码电路进行最后的解码,输出为可以被我们的耳机、音响或者耳放、功放识别的模拟信号
- 我们通过耳机与音响喇叭的振动接受可以被我们识别的声波,完成收听行为。
问:我怎样才能播放DSD音乐?
想要播放DSD音乐也算是比较费劲的事了。首先我们要有DSD调制的音乐,光这步就十分困难,因为DSD的稀有性,我们要去特定的音乐平台购买DSD音乐,价格一般不便宜。而市面上流传的免费的DSD音乐的性质我也不好说,难辨真假,主要听个乐呵吧……但是可以保证的是正规购买的DSD音乐是100%的DSD。因为主流音乐媒体是没有DSD音乐的解码插件的,所以有了DSD音乐之后我们还需要找一款可以解码DSD的音乐软件。到这步还没算完,光输入进去了DSD音乐,那输出呢?如果只给软件加装了decoder即解码插件,它仅能实现识别DSD,而输出得仍是PCM,这仍不是我们想要的效果。我们还需要一个支持ASIO模式的解码器,以实现输入DSD同时输出DSD的效果。(后续我会出详细教程,感兴趣可以关注)
还想看?没啦!
我仅仅是通过搜索网上相关信息进行学习,并不系统,如果有纰漏还望在评论区指正!喜欢的话点个赞吧!
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com