当前位置：首页 > news >正文

Discrete Audio Tokens: More Than a Survey

news 2025/6/28 16:34:59

文章目录

模型设计的考虑
- 量化的方式：
- 比特率：Fixed vs. Adaptive Bitrate
- 码本内容设计的考虑
- Streamability.
模型评估
- Reconstruction Evaluation and Complexity Analysis.
- 识别和生成任务（SE, SR)
- Acoustic Language Modeling.
- Music Generation
- General Trend

模型设计的考虑

量化的方式：

RVQ
GVQ，
SVQ-single vq,
FSQ，
Cross-Scale RVQ (CSRVQ). 跨尺度 RVQ ，
Multi-Scale RVQ (MSRVQ).
Product Quantization (PQ).

比特率：Fixed vs. Adaptive Bitrate

固定比特率
动态比特率
- 可扩展比特率（Scalable）
- 可缩放比特率

码本内容设计的考虑

disentanglement：TiCodec / FACodec，将音频分成内容、韵律、音色和声学细节
semantic distillation：RVQ 的第一个码本用semantic token，比如MIMI， X-Codec
supervised semantic tokenization：用asr loss 做监督

Streamability.

CNN 结构，或者casual-transformer，对是否可以流式

在这里插入图片描述

模型评估

Reconstruction Evaluation and Complexity Analysis.

重建评估：评估重新合成的音频的质量。
复杂度分析：根据模型大小（参数）、帧速率、标记速率和乘法累加运算（MAC）评估每个分词器的计算效率。
结果分析：
- 对于 EnCodec 和 DAC，随着比特率从 24k 降低到 6k 和 1.5k，重建质量会持续下降。这一趋势证实，更高的比特率可以更好地保留声学细节，从而提高所有评估指标的重建质量。
- 对于 SpeechTokenizer（4k 对 1k）和 Mimi（4.4k 对 1.1k），它们都对第一个码本应用了语义蒸馏，所有客观指标都会在比特率较低时下降。然而，WER 并没有急剧下降，这表明即使整体重建质量下降，语义蒸馏也能有效地保留语言内容。
- 离散 WavLM 表现出显着较低的 SDR、SI-SNR、PESQ、STOI 和 Spk-Sim 分数。由于这些指标依赖于参考真值信号，因此性能不佳表明这些模型没有针对精确的波形重建进行优化。然而，UTMOS、DNSMOS 和 PLCMOS 等指标仍然合理，这表明这些分词器仍然保持语音质量。这种差异表明，离散分词器更关注高级表示，而不是精确的波形重建。
- SQ-SMA-16 的性能与大比特率编解码器模型（例如 Mimi-S-24 4.4kbps 和 DAC-SMA-24 6kbps）相当，甚至更好。
指标分析
- SDR 和 SI-SNR 是不太可靠的指标。一个可能的原因是信号被过度压缩，神经编解码器的生成（尤其是在低比特率下），通常在本地样本级信息中一致性较差。这可能是由于非线性偏移或振幅变化造成的。【这两个指标更多反映的是时域的一致性，模型对于频域可感知指标的改善，可能并不意味着时域指标的同步优化。】

识别和生成任务（SE, SR)

重建任务好，不能说明token好，也有可能是decoder的强大，因此直接用token ，训练下游分类任务和生成任务的有效性。

方法：使用轻参数的head，避免隐藏 token 中的缺陷。更多细节的设置，可以看 DASB论文里写。

语音任务结果分析：

语音识别任务。（1）ASR 类识别任务，包括情感分类，意图分类，关键词识别，离散 WavLM 都是表现最好的；SpeechTokenizer 排名第二；（2）在说话人识别方面，DAC 取得了最好的结果，semantic token类的结果比较差；
语音生成任务：对于语音分离和增强，WavLM 在低比特率和中等比特率下表现良好，但在说话人相似度指标上显示不佳的结果。此外，重建的 DNSMOS 分数（表示编解码器单独设置的上限，没有任何分离）不会超过使用原始混合物作为估计值获得的分数（即下限），这表明重建质量的限制可能会限制下游性能，特别是对于语音分离等高保真任务。

Audio 和 Music 任务。

对于一般的音频和音乐任务，EnCodec 在所有比特率和域中的性能始终优于其他分词器，而 DAC 则落后。（因为DAC 更着重优化感知域信号，时域保真度比较低，因此分离任务上表现不好）。而且增加比特率，性能更差，这可能是由于音乐固有的复音性质和较少的稀疏性质（与语音和一般音频相比），这导致来源高度重叠，更难从详细但语义纠缠的表示中解出来。

Codebook 大小的影响。

增加码本的数量（例如 2、8、32）可以改善信号重建，但通常会降低下游任务的性能。（更多的码本可以提高保真度，但它们通常会增加输出维度和建模复杂性，从而降低判别任务和生成任务的性能。）
在基于 RVQ 的模型中，早期的码本捕获更多的语音信息，而后来的码本通常会添加冗余，这可能解释了这种权衡。这突出了分词器的一个重要设计原则：仅针对重建进行优化并不能保证在下游任务上获得更好的性能。中等比特率设置通常在音频重建质量和任务性能之间提供最佳平衡。

离散token与连续emb。

离散token虽然简单，但是对于比如polyphonic music分离或嘈杂的环境会表现不好。信息含量肯定是连续embedding >>离散token。
数据越多，下游任务性能越好：例如，离散 WavLM 使用 BiLSTM 头在低比特率下在 LibriSpeech（960 小时）上实现了 6.0% 的 WER，在巴斯克语（116 小时）上实现了 22.0% 的 WER，在威尔士语（8 小时）上实现了 58.9%，这表明数据规模与 ASR 准确性之间存在很强的相关性。
较大的下游模型有助于提高收敛性和性能，特别是对于acoustic tokenizers，它们对数据规模和模型容量都更敏感。semantic tokenizers通常在资源匮乏的环境中更鲁棒。data scale & model scale 对于使用离散token提升性能很重要，尤其是acoustic token。