音频领域基本概念

定义：
采样率是指每秒钟对声音信号进行采样的次数，单位是赫兹（Hz）或千赫兹（kHz）。它决定了音频能还原的频率范围。

原理：
根据奈奎斯特定理（Nyquist Theorem），采样率必须至少是声音最高频率的两倍，才能准确还原原始声音。

常见采样率：

举例：44.1 kHz 表示每秒采集 44,100 个声音样本。

定义：
比特率是指每秒钟传输或存储的音频数据量，单位是 kbps（千比特每秒）。

作用：
比特率越高，音频质量通常越好，但文件也越大。

影响因素：

常见比特率举例：

注意：比特率 ≠ 采样率。比特率是“数据流量”，采样率是“采样频率”。

定义：
编码是指将模拟音频信号转换为数字数据，并通过特定算法进行压缩和存储的过程。不同的编码方式对应不同的音频格式。

分类：

压缩时不丢失任何原始信息，可完全还原。
文件较大。
常见格式：
- FLAC（Free Lossless Audio Codec）：开源、广泛支持。
- ALAC（Apple Lossless）：苹果生态。
- WAV、AIFF：未压缩或无损压缩，质量高但体积大。

通过去除人耳不易察觉的声音信息来大幅减小文件。
不可逆，损失部分音质。
常见格式：
- MP3（MPEG-1 Audio Layer III）：最普及。
- AAC（Advanced Audio Coding）：比 MP3 更高效，常用于 Apple、YouTube、流媒体。
- OGG Vorbis：开源格式，常用于游戏和网页。
- WMA（Windows Media Audio）：微软推出。

✅ 高采样率 + 高比特率 + 无损编码 = 高保真音质（如 FLAC 96kHz/24bit）
❌ 低采样率 + 低比特率 + 有损编码 = 语音级音质（如 8kbps AMR 语音）

你听一首 MP3 歌曲：

这意味着：每秒采集 44,100 次声音，每秒传输 128,000 比特的数据，使用有损压缩算法。

定义：
位深度表示每次采样时用来记录声音振幅精度的比特数，决定了音频的动态范围和信噪比。

常见值：

✅ 举例：16 bit 可表示 65,536 个振幅级别；24 bit 可表示超过 1600 万个级别。

定义：
指音频中独立录音或播放的声音通道数量。

常见类型：

单声道（Mono）：1 个声道，声音来自一个方向。
立体声（Stereo）：2 个声道（左、右），营造空间感，最常见于音乐。
环绕声（Surround Sound）：
- 5.1 声道：左、中、右、左后、右后 + 低音炮（.1）
- 7.1 声道：在 5.1 基础上增加两个侧向声道
空间音频 / 3D 音频：如 Dolby Atmos，支持声音在三维空间定位。

💡 声道越多，文件越大，沉浸感越强，常用于电影、游戏。

定义：
音频中最弱声音与最强声音之间的差值，单位为分贝（dB）。反映声音的“细腻程度”和“冲击力”。

🎧 在流媒体中常使用动态压缩（Dynamic Compression）来缩小动态范围，使声音在嘈杂环境中更清晰。

定义：
容器是封装音频（有时还包括视频、字幕等）数据的文件格式，决定了哪些编码可以被包含。

常见容器与支持的编码：