音频领域基本概念
音频领域基本概念
| 概念 | 作用 | 常见值 |
|---|---|---|
| 采样率 | 决定频率范围 | 44.1kHz, 48kHz |
| 位深度 | 决定动态范围 | 16bit, 24bit |
| 比特率 | 决定数据量与音质 | 128kbps, 320kbps, 无损 |
| 编码方式 | 压缩算法(有损/无损) | MP3, AAC, FLAC |
| 声道数 | 空间感与沉浸感 | 单声道、立体声、5.1 |
| 容器格式 | 文件封装方式 | MP4, MKV, WAV, FLAC |
| 编解码器 | 实现压缩与播放 | LAME(MP3)、FDK AAC |
| 元数据 | 文件信息管理 | ID3、Vorbis Comment |
| 延迟与抖动 | 影响实时性与音质 | 低延迟 < 10ms |
| 响度标准化 | 统一播放音量 | LUFS, ReplayGain |
1. 采样率(Sample Rate)
定义:
采样率是指每秒钟对声音信号进行采样的次数,单位是赫兹(Hz)或千赫兹(kHz)。它决定了音频能还原的频率范围。
原理:
根据奈奎斯特定理(Nyquist Theorem),采样率必须至少是声音最高频率的两倍,才能准确还原原始声音。
常见采样率:
- 8 kHz:电话音质,语音清晰即可。
- 16 kHz:网络语音、对讲机等。
- 22.05 kHz:接近FM广播音质。
- 44.1 kHz:CD 音质标准(如音乐CD)。
- 48 kHz:数字视频、DVD、流媒体常用。
- 96 kHz 或更高:高解析度音频(Hi-Res Audio),用于专业录音。
举例:44.1 kHz 表示每秒采集 44,100 个声音样本。
2. 比特率(Bit Rate)
定义:
比特率是指每秒钟传输或存储的音频数据量,单位是 kbps(千比特每秒)。
作用:
比特率越高,音频质量通常越好,但文件也越大。
影响因素:
- 采样率
- 位深度(Bit Depth)
- 声道数(如单声道、立体声)
- 编码方式(有损/无损)
常见比特率举例:
- 128 kbps:MP3 常见音质,适合流媒体。
- 192 kbps:接近CD音质,平衡质量与大小。
- 320 kbps:MP3 最高质量。
- 1411 kbps:CD 音质(未压缩,44.1kHz, 16bit, 立体声)。
- 无损格式(如 FLAC):500–1000+ kbps,保留全部原始信息。
注意:比特率 ≠ 采样率。比特率是“数据流量”,采样率是“采样频率”。
3. 编码(Encoding) / 音频格式
定义:
编码是指将模拟音频信号转换为数字数据,并通过特定算法进行压缩和存储的过程。不同的编码方式对应不同的音频格式。
分类:
(1)无损编码(Lossless)
- 压缩时不丢失任何原始信息,可完全还原。
- 文件较大。
- 常见格式:
- FLAC(Free Lossless Audio Codec):开源、广泛支持。
- ALAC(Apple Lossless):苹果生态。
- WAV、AIFF:未压缩或无损压缩,质量高但体积大。
(2)有损编码(Lossy)
- 通过去除人耳不易察觉的声音信息来大幅减小文件。
- 不可逆,损失部分音质。
- 常见格式:
- MP3(MPEG-1 Audio Layer III):最普及。
- AAC(Advanced Audio Coding):比 MP3 更高效,常用于 Apple、YouTube、流媒体。
- OGG Vorbis:开源格式,常用于游戏和网页。
- WMA(Windows Media Audio):微软推出。
三者关系总结
| 概念 | 决定什么? | 影响 |
|---|---|---|
| 采样率 | 音频频率范围(清晰度) | 高频还原能力 |
| 比特率 | 数据量(音质与文件大小) | 细节丰富度、噪声 |
| 编码 | 压缩方式与格式 | 兼容性、效率、有损/无损 |
✅ 高采样率 + 高比特率 + 无损编码 = 高保真音质(如 FLAC 96kHz/24bit)
❌ 低采样率 + 低比特率 + 有损编码 = 语音级音质(如 8kbps AMR 语音)
举个实际例子
你听一首 MP3 歌曲:
- 格式:MP3(编码)
- 采样率:44.1 kHz
- 比特率:128 kbps
这意味着:每秒采集 44,100 次声音,每秒传输 128,000 比特的数据,使用有损压缩算法。
4. 位深度(Bit Depth)
定义:
位深度表示每次采样时用来记录声音振幅精度的比特数,决定了音频的动态范围和信噪比。
常见值:
- 8 bit:动态范围小,音质粗糙,多用于早期游戏或语音提示。
- 16 bit:CD 标准,动态范围约 96 dB,适合大多数音乐播放。
- 24 bit:专业录音常用,动态范围可达 144 dB,保留更多细节,便于后期处理。
- 32 bit float:高端录音与混音使用,允许极大动态范围,防止削波失真。
✅ 举例:16 bit 可表示 65,536 个振幅级别;24 bit 可表示超过 1600 万个级别。
5. 声道数(Channels)
定义:
指音频中独立录音或播放的声音通道数量。
常见类型:
- 单声道(Mono):1 个声道,声音来自一个方向。
- 立体声(Stereo):2 个声道(左、右),营造空间感,最常见于音乐。
- 环绕声(Surround Sound):
- 5.1 声道:左、中、右、左后、右后 + 低音炮(.1)
- 7.1 声道:在 5.1 基础上增加两个侧向声道
- 空间音频 / 3D 音频:如 Dolby Atmos,支持声音在三维空间定位。
💡 声道越多,文件越大,沉浸感越强,常用于电影、游戏。
6. 动态范围(Dynamic Range)
定义:
音频中最弱声音与最强声音之间的差值,单位为分贝(dB)。反映声音的“细腻程度”和“冲击力”。
- 高动态范围:能同时表现轻柔耳语和震撼爆炸。
- 低动态范围:声音趋于“平坦”,常因压缩过度导致。
🎧 在流媒体中常使用动态压缩(Dynamic Compression)来缩小动态范围,使声音在嘈杂环境中更清晰。
7. 音频容器(Container / Format)
定义:
容器是封装音频(有时还包括视频、字幕等)数据的文件格式,决定了哪些编码可以被包含。
常见容器与支持的编码:
| 容器格式 | 常见用途 | 支持的音频编码 |
|---|---|---|
.mp4 |
视频/音乐 | AAC, MP3, ALAC |
.mkv |
高清视频 | AAC, DTS, AC3, FLAC |
.avi |
老式视频 | MP3, PCM |
.wav |
未压缩音频 | PCM(通常) |
.flac |
无损音乐 | FLAC(本身是编码+容器) |
.m4a |
Apple 音乐 | AAC, ALAC |
.ogg |
开源媒体 | Vorbis, Opus |
⚠️ 注意:
.mp3是编码也是容器;而.mp4是容器,内部音频可以是 AAC 或其他。
8. 编码器与解码器(Codec)
定义:
Codec = Encoder + Decoder,即“编解码器”,是实现音频压缩与还原的软/硬件算法。
- 编码器(Encoder):将原始音频压缩成 MP3、AAC 等格式。
- 解码器(Decoder):播放时将压缩数据还原为可听声音。
✅ 不同设备是否支持某种 codec,决定了你能否播放某个音频文件。
9. 抖动(Jitter)与延迟(Latency)
- 抖动(Jitter):数字音频传输中,采样时间不精确导致的失真,影响音质。
- 延迟(Latency):声音从输入到输出的时间差,对录音、直播、游戏至关重要。
- 高延迟:说话后回听有明显延迟,影响体验。
- 低延迟:专业声卡通常支持 < 10ms 延迟。
10. 元数据(Metadata)
定义:
嵌入在音频文件中的附加信息,不参与声音播放,但用于管理和识别。
常见元数据(ID3 Tags):
- 歌名、歌手、专辑、年份
- 封面图片、歌词、流派、音量标准化信息(ReplayGain)
📁 例如:你在音乐 App 中看到的封面和歌词,就是元数据。
11. 归一化与响度标准化(Normalization / Loudness Normalization)
- 峰值归一化:调整音频最大音量不超过 0 dB,防止爆音。
- 响度归一化:使不同歌曲播放时听起来“一样响”,如 Spotify 使用 -14 LUFS 标准。
🔊 目的是避免“一首歌很轻,下一首很炸耳朵”。
12. 采样精度与量化误差(Quantization Error)
- 当模拟信号转换为数字时,由于位深度有限,实际振幅会被“四舍五入”到最近的数值,产生微小误差,称为量化噪声。
- 高位深度(如 24bit)可显著降低此误差。

