音频领域基本概念

概念 作用 常见值
采样率 决定频率范围 44.1kHz, 48kHz
位深度 决定动态范围 16bit, 24bit
比特率 决定数据量与音质 128kbps, 320kbps, 无损
编码方式 压缩算法(有损/无损) MP3, AAC, FLAC
声道数 空间感与沉浸感 单声道、立体声、5.1
容器格式 文件封装方式 MP4, MKV, WAV, FLAC
编解码器 实现压缩与播放 LAME(MP3)、FDK AAC
元数据 文件信息管理 ID3、Vorbis Comment
延迟与抖动 影响实时性与音质 低延迟 < 10ms
响度标准化 统一播放音量 LUFS, ReplayGain

1. 采样率(Sample Rate)

定义
采样率是指每秒钟对声音信号进行采样的次数,单位是赫兹(Hz)或千赫兹(kHz)。它决定了音频能还原的频率范围。

原理
根据奈奎斯特定理(Nyquist Theorem),采样率必须至少是声音最高频率的两倍,才能准确还原原始声音。

常见采样率

  • 8 kHz:电话音质,语音清晰即可。
  • 16 kHz:网络语音、对讲机等。
  • 22.05 kHz:接近FM广播音质。
  • 44.1 kHz:CD 音质标准(如音乐CD)。
  • 48 kHz:数字视频、DVD、流媒体常用。
  • 96 kHz 或更高:高解析度音频(Hi-Res Audio),用于专业录音。

举例:44.1 kHz 表示每秒采集 44,100 个声音样本。


2. 比特率(Bit Rate)

定义
比特率是指每秒钟传输或存储的音频数据量,单位是 kbps(千比特每秒)。

作用
比特率越高,音频质量通常越好,但文件也越大。

影响因素

  • 采样率
  • 位深度(Bit Depth)
  • 声道数(如单声道、立体声)
  • 编码方式(有损/无损)

常见比特率举例

  • 128 kbps:MP3 常见音质,适合流媒体。
  • 192 kbps:接近CD音质,平衡质量与大小。
  • 320 kbps:MP3 最高质量。
  • 1411 kbps:CD 音质(未压缩,44.1kHz, 16bit, 立体声)。
  • 无损格式(如 FLAC):500–1000+ kbps,保留全部原始信息。

注意:比特率 ≠ 采样率。比特率是“数据流量”,采样率是“采样频率”。


3. 编码(Encoding) / 音频格式

定义
编码是指将模拟音频信号转换为数字数据,并通过特定算法进行压缩和存储的过程。不同的编码方式对应不同的音频格式

分类

(1)无损编码(Lossless)

  • 压缩时不丢失任何原始信息,可完全还原。
  • 文件较大。
  • 常见格式:
    • FLAC(Free Lossless Audio Codec):开源、广泛支持。
    • ALAC(Apple Lossless):苹果生态。
    • WAVAIFF:未压缩或无损压缩,质量高但体积大。

(2)有损编码(Lossy)

  • 通过去除人耳不易察觉的声音信息来大幅减小文件。
  • 不可逆,损失部分音质。
  • 常见格式:
    • MP3(MPEG-1 Audio Layer III):最普及。
    • AAC(Advanced Audio Coding):比 MP3 更高效,常用于 Apple、YouTube、流媒体。
    • OGG Vorbis:开源格式,常用于游戏和网页。
    • WMA(Windows Media Audio):微软推出。

三者关系总结

概念 决定什么? 影响
采样率 音频频率范围(清晰度) 高频还原能力
比特率 数据量(音质与文件大小) 细节丰富度、噪声
编码 压缩方式与格式 兼容性、效率、有损/无损

✅ 高采样率 + 高比特率 + 无损编码 = 高保真音质(如 FLAC 96kHz/24bit)
❌ 低采样率 + 低比特率 + 有损编码 = 语音级音质(如 8kbps AMR 语音)


举个实际例子

你听一首 MP3 歌曲:

  • 格式:MP3(编码)
  • 采样率:44.1 kHz
  • 比特率:128 kbps

这意味着:每秒采集 44,100 次声音,每秒传输 128,000 比特的数据,使用有损压缩算法。

4. 位深度(Bit Depth)

定义
位深度表示每次采样时用来记录声音振幅精度的比特数,决定了音频的动态范围信噪比

常见值

  • 8 bit:动态范围小,音质粗糙,多用于早期游戏或语音提示。
  • 16 bit:CD 标准,动态范围约 96 dB,适合大多数音乐播放。
  • 24 bit:专业录音常用,动态范围可达 144 dB,保留更多细节,便于后期处理。
  • 32 bit float:高端录音与混音使用,允许极大动态范围,防止削波失真。

✅ 举例:16 bit 可表示 65,536 个振幅级别;24 bit 可表示超过 1600 万个级别。


5. 声道数(Channels)

定义
指音频中独立录音或播放的声音通道数量。

常见类型

  • 单声道(Mono):1 个声道,声音来自一个方向。
  • 立体声(Stereo):2 个声道(左、右),营造空间感,最常见于音乐。
  • 环绕声(Surround Sound)
    • 5.1 声道:左、中、右、左后、右后 + 低音炮(.1)
    • 7.1 声道:在 5.1 基础上增加两个侧向声道
  • 空间音频 / 3D 音频:如 Dolby Atmos,支持声音在三维空间定位。

💡 声道越多,文件越大,沉浸感越强,常用于电影、游戏。


6. 动态范围(Dynamic Range)

定义
音频中最弱声音与最强声音之间的差值,单位为分贝(dB)。反映声音的“细腻程度”和“冲击力”。

  • 高动态范围:能同时表现轻柔耳语和震撼爆炸。
  • 低动态范围:声音趋于“平坦”,常因压缩过度导致。

🎧 在流媒体中常使用动态压缩(Dynamic Compression)来缩小动态范围,使声音在嘈杂环境中更清晰。


7. 音频容器(Container / Format)

定义
容器是封装音频(有时还包括视频、字幕等)数据的文件格式,决定了哪些编码可以被包含。

常见容器与支持的编码

容器格式 常见用途 支持的音频编码
.mp4 视频/音乐 AAC, MP3, ALAC
.mkv 高清视频 AAC, DTS, AC3, FLAC
.avi 老式视频 MP3, PCM
.wav 未压缩音频 PCM(通常)
.flac 无损音乐 FLAC(本身是编码+容器)
.m4a Apple 音乐 AAC, ALAC
.ogg 开源媒体 Vorbis, Opus

⚠️ 注意:.mp3 是编码也是容器;而 .mp4 是容器,内部音频可以是 AAC 或其他。


8. 编码器与解码器(Codec)

定义
Codec = Encoder + Decoder,即“编解码器”,是实现音频压缩与还原的软/硬件算法。

  • 编码器(Encoder):将原始音频压缩成 MP3、AAC 等格式。
  • 解码器(Decoder):播放时将压缩数据还原为可听声音。

✅ 不同设备是否支持某种 codec,决定了你能否播放某个音频文件。


9. 抖动(Jitter)与延迟(Latency)

  • 抖动(Jitter):数字音频传输中,采样时间不精确导致的失真,影响音质。
  • 延迟(Latency):声音从输入到输出的时间差,对录音、直播、游戏至关重要。
    • 高延迟:说话后回听有明显延迟,影响体验。
    • 低延迟:专业声卡通常支持 < 10ms 延迟。

10. 元数据(Metadata)

定义
嵌入在音频文件中的附加信息,不参与声音播放,但用于管理和识别。

常见元数据(ID3 Tags)

  • 歌名、歌手、专辑、年份
  • 封面图片、歌词、流派、音量标准化信息(ReplayGain)

📁 例如:你在音乐 App 中看到的封面和歌词,就是元数据。


11. 归一化与响度标准化(Normalization / Loudness Normalization)

  • 峰值归一化:调整音频最大音量不超过 0 dB,防止爆音。
  • 响度归一化:使不同歌曲播放时听起来“一样响”,如 Spotify 使用 -14 LUFS 标准。

🔊 目的是避免“一首歌很轻,下一首很炸耳朵”。


12. 采样精度与量化误差(Quantization Error)

  • 当模拟信号转换为数字时,由于位深度有限,实际振幅会被“四舍五入”到最近的数值,产生微小误差,称为量化噪声
  • 高位深度(如 24bit)可显著降低此误差。