倚楼听风雨
淡看江湖路

那些经常见到的音频格式分别都是什么意思,有什么特点?

2019-12-24 更新:

之前看阮一峰的科技周刊,里面也摘录了一段关于音频压缩的描述,于是作为这篇文章的补充,老四也引用过来。

什么是音频压缩?

声音是一种波,人耳能够听到的频率范围在 20Hz – 20kHz 之间。

为了将音频变成数字信号,需要对音频进行抽样。每秒之内的抽样次数越多,就能越好地还原声音。CD 质量的音频就是每秒进行抽样44100次,也就是 44.1kHz。由于至少两次抽样才能确定一个波峰或波谷,所以 44.1kHz 的抽样频率,最高可以记录 22kHz 频率的声音。

抽样频率越高,所能记录的声音频率也就越高。但是,人耳最高只能听到 20kHz 频率的声音,所以抽样频率太高,意义不大。另一方面,抽样频率太低,高频声音无法记录到,会影响音质。比如,电话质量的声音,抽样频率是 8KHz,因此记录不到 4kHz 以上的声音。

CD 质量的音频在抽样以后,使用16个二进制位保存每一次抽样结果。所以,每秒的数据量是 16位 x 44,100 x 2个立体声声道 = 1411.2kbps,即 176.4KB,保存成 wav 文件,一分钟就是10.1MB。

wav 文件体积太大,一首歌有几十MB,因此人们就发明了音频压缩技术,缩小音频文件的体积。“无损”的音频压缩(比如 FLAC、ALAC、MP3 HD 格式),跟普通的文件压缩技术并无太大不同。为了达到更好的压缩效果,一般都是使用“有损”的音频压缩(比如 MP3、AAC、WMA、Ogg Vorbis 格式)。它的原理是,随着年龄增长,中年人会逐渐听不到 16kHZ 以上的声音,所以这部分信号可以抛弃掉。

MP3 格式可以把每秒钟的数据量压缩到 128kbps(即 16KB),一分钟只有 960KB,比起 wav 格式小了90%多。

写这篇文章是因为老四是个门外汉,因为长了一双及其普通的耳朵,听不出来什么音质好坏。但是随着越来越多的音频格式经常出现在听音乐的过程中,在加上现在各种厂商无论做手机还是做耳机都主打音质,一时间说不上来个子午卯酉,本着学习的态度查找一些资料,记录一下关于音频格式相关的一些基本概念,后期打算慢慢优化和积累,争取早日揭开音频格式中的层层神秘面纱。

那些经常见到的音频格式分别都是什么意思,有什么特点?的图片-高老四博客

常见的音频格式一分为二,有损压缩和无损压缩。

常见的有损压缩格式包括但不限于:mp3、aac、wma、mpc、ogg。

常见的无损压缩格式包括但不限于:flac、ape、wav、wv。

不常见的其他音频格式:cd、midi、dts、dsd。

首先我们来认识一下音频中几个基本的概念 – [采样频率,采样精度,声音通道数,比特率,CBR,VBR,ABR]。

采样频率:既采样率,指记录声音时每秒的采样个数,它用赫兹(Hz)来表示。

采样精度:指记录声音的动态范围,它以位(Bit)为单位。

声音通道:既声道数(1-8个)。

其实是采样频率和采样精度共同决定的,频率越高,精度越大,音质就会越好,文件的体积也会变大。然而我们生活中是不直接拿这两项参数直接判断的,而是比特率。它代表了另一种维度,属于音频文件的压缩,压缩的目的是为了存储和传输。

比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second),比特率越高,传送数据速度越快。声音中的比特率是指将模拟声音信号转换成数字声音信号后,单位时间内的二进制数据量,是间接衡量音频质量的一个指标。 所以通俗的讲比特率越高,音质是越好的。所以音频的比特率实际上就是压缩比例。

常见的 128k、192k、320k 这种文件,他们中的「k」全程代表的就是 kbps,即每秒 128k 个位数(位数 bit,计算机基本知识:1MB = 1024 * 1024 Byte = 1024 * 1024 * 8 bit),所以不同的数字表示的就是压缩比例的不同,还有就是一般来说,比特率高是因为压缩丢失的数据少,所以音质相对高,,是其实比特率只定义文件的体积,他对文件的质量其实没有直接影响,所以你把 128k 的文件转换成 320k 的音质还是那玩楞。

那么什么是有损和无损呢?有损其实就是把不太重要的数据给你删掉来压缩,无损是通过优化排列组合来压缩。这个道理我们可以简单的理解为有损压缩就是一篇文章把一些废话和与其助词全部去掉不影响你阅读但是你几乎不能恢复文章初稿的样子,而无损压缩就是你用 WINRAR 或者好压等压缩软件将你的文件打包共享给别人,别人拿到你的压缩包解压出来得到是源文件。

CBR(Constants Bit Rate,恒定比特率):你可以通俗的理解为比特率乘音频的时间长度。

VBR(Variable Bit Rate,动态比特率): 在压缩时根据音频数据即时确定使用什么比特率。简单理解就是,歌曲在细节表现比较丰富的时间点,比特率此时会比较高,其他情况下会比较低,这样就兼顾了音质和体积大小。举个例子:在歌曲的开始,一个人独唱,声音比较简单,我们就用 64kb来描述一秒种内的声音;在歌曲的高潮,大家合唱,声音比较复杂,我们就用 256kb 来描述一秒种内的声音。

ABR(Average Bitrate,平均比特率):VBR 的一种插值参数。举例来说,当指定用 192kbps ABR 对一段 wav 文件进行编码时,Lame 会将该文件的 85% 用 192kbps 固定编码,然后对剩余 5% 进行动态优化;复杂部分用高于 192kbps 来编码,简单部分用低于 192kbps 来编码。与 192kbps CBR 相比,192kbps ABR 在文件大小上相差不多,音质却提高不少。ABR 编码在速度上是 VBR 编码的 2 到 3 倍,在 128-256kbps 范围内质量要好于 CBR。

有损格式详解:

mp3

mp3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)格式诞生于 80 年代的德国,指的是 MPEG(Moving Picture Experts Group,动态图像专家组)标准中的音频部分。为什么这种格式属于有损格式呢,通俗地讲,mp3 音频文件是通过将音乐以 1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而这种压缩方式对于大多数用户(尤其像老四这种耳朵不灵敏的)来说重放的音质与最初的不压缩音频相比没有明显的下降。但是音乐文件的体积大大降低了,便于存储,再加上音质也没那么次,所以直到现在依然属于主流的音频格式,地位难以撼动。我们经常说网易云音乐比较良心,其中最重要的一方面就是有很多歌曲网易直接提供 320K 比特率的音乐,而有很多音乐厂商只给你免费听 128k、192k 码率的有损,却将320k音乐定义成高音质付费享受。

aac/m4a

aac(Advanced Audio Coding,高级音频编码技术)是一种比 mp3 压缩的更狠的一种音频格式,杜比实验室提供,苹果公司、索尼公司等共同开发出来的,早期也是结合 MPEG-2 标准的音频编码技术,后来 MPEG-4 标准出来之后,aac 又重新整合了新的特性创造了一个新的格式,即现在比较常见的 m4a 格式。

aac 作为一种高级压缩算法,比例达到了 1:18 甚至 1:20,再加上多通道的属性其实已经超越了 128k 的 mp3 音频,其强大的解析能力甚至成为了 DVD 的标准音频编码。但是为什么出色的技术没有得到广泛的传播呢?

  1. mp3 出现的太早,全网支持解码加上当时广泛传播,人们早就习惯了这个格式。
  2. 即使做到了极致压缩,但是在 192k-320k 这个范围内,mp3 还是最牛逼的,有绝对优势。
  3. 都来自于 MPEG 标准,aac 诞生之初也是作为 mp3 的继承者问世的。
wma

wma(Windows Media Audio,微软媒体音频)来自于微软,音质比mp3强一些,通过减少数据流量但是保持音质的算法来压缩,比例一般也在1:18左右,当时是作为微软的亲儿子为自己操作系统中的媒体文件打天下的,与windows操作系统的无缝结合使得其大杀四方,后来也得到越来越多的音乐网站的承认,直至现在也是经常能遇到。

ogg:

ogg(OGGVobis)也是一种音频压缩格式,跟mp3差不多,只不过是完全免费开放,不想mp3那样又专利有版权限制,而且ogg支持多声道也是一个很出众的特点。

mpc:

mpc全称MusePack,严谨的德国人发明的,他比mp3音质高很多,中高码率下,它可以做到比mp3音质更好,更加细腻,是可以取代mp3获得最佳音乐欣赏的有损编码,而且编码速度快,在上述介绍的这几种有所压缩格式中,mpc其实是最好的有损压缩格式。

无损压缩格式详解:

wav:

wav(Windows Wave)依然是微软的一种无损音频文件格式,他和cd(后面会说这种文件格式)格式一样,相差无几,缺点就是几乎没压缩,文件体积过大,不便于存储,但是在PC端几乎都支持这种音频格式的。

flac:

flac(Free Lossless Audio Codec,无损音频压缩编码)可能是我们比较常见的无损格式了,各大音乐厂商提供的付费权益中,你下载的无损多数都是flac格式的。它是一套著名的自由音频压缩编码,特点当然就是能够做到无损压缩,不破坏任何的音频数据,甚至能够还原回光盘的音质。由于这样的特点使得flac广泛传播,而且他有一个重要的特点就是已传播的数据是可以直接使用的,类似于我们如今下载的断电续传,及时你下载一个flac文件只下载了一半,你也可以播放这个文件,挺到一半的音频内容。

ape:

ape(adaptive prencdictive encoding,自适应预测编码),与flac齐名,也是一种无损压缩音频的技术,他就像之前所描述的文件的压缩解压得到文件的还原一样,是的音频文件没有任何的损失,但是大小却能降到一半,他比flac体积更小一些,所以更受欢迎,而跟flac相比,缺点就是不支持”断点续传”,编码速度稍慢。

wv:

wv(WavPack)是开源的无损压缩格式,他根据源数据的变化进行动态的压缩,即VBR模式,不同类型的音乐压缩的比例进行动态的适应,貌似比较少见。

其他格式:

cd:

cd通俗的说就是光盘的录入的无损原声,所以印象发烧友一般都是以cd为首选。

midi:

midi(Music Instrument Digital Interface,数字化乐器接口),听说过什么迷笛音乐节吧?其实迷笛值得就是这玩意儿,他定义了一个标准的接口,将早起的电子合成器技术统一在一起,各种电子乐器可以相互连接起来,形成一个真正的音乐演奏系统,再加上电脑技术的发达,合成这些音乐已经不是什么难事,所以也称midi为电脑音乐,被用来创作。不过我们听着几乎不用这种格式的。

dsd/dts:

要是拿一大堆术语来说这两个东西反正我是看不懂也说不明白,估计除了发烧友很少有人能鼓捣聊这东西。通俗点的解释一下:dsd(Direct Stream Digital,直接比特流数字编码)是cd的一种,可直接在cd机上播放,对语气的细极度,乐器的质感度与及音场背景之宽深度都有大大的改善,务求令广大乐迷可以享受更靓声的音乐。而dts(Digital Theater Systems,数码影院系统),说dsd是双声道的话,dts就是多声道,你下载电影的时候经常能看到5.1声道和6.1声道值得就是他的声道参数,必须用专门的dts解码播放器,当然想享受这种影院级的环绕效果,听这类的音乐你得至少有四个音响,配置最好也都5.1或者6.1的声道,享受这种最高级的音质体验。

更博不易,如果觉得文章对你有帮助并且有能力的老铁烦请赞助盒烟钱,点我去赞助。或者扫描文章下面的微信/支付宝二维码打赏任意金额,老四这里抱拳了。赞助时请备注姓名或者昵称,因为您的署名会出现在赞赏列表页面,您的赞赏钱财也会被用于小站的服务器运维上面,再次抱拳。

赞(14) 给你买杜蕾斯
本站原创文章受自媒体平台原创保护,未经允许不得转载高老四博客 » 那些经常见到的音频格式分别都是什么意思,有什么特点?

开始你的表演 抢沙发

觉得文章有用就打赏一下老四,鼓励我更好的创作

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫打赏

微信扫一扫打赏

登录

找回密码

注册