Layer by Layer: Uncovering Hidden Representations in Language Models
这篇论文深入探讨了大型语言模型(LLMs)内部运作机制,并挑战了关于中间层在这些模型中的重要性及所学表示的一些传统假设。研究发现,中间层的表示可以在多种下游任务中提供优于最终层的表现,这对模型的可解释性、鲁棒性和效率都有潜在影响。
主要研究内容包括:
-
指标与下游效用的关系:研究者们提出了一些度量标准,能够捕捉到对下游任务有用的某些中间表示特征。利用这些强相关性,可以在无监督的情况下选择高性能的层,例如通过基于DiME的层选择方法,可以使Pythia-410M模型的MTEB得分平均提高3%。
-
架构和规模差异的影响:不同架构展示出不同的信息压缩模式。自回归模型显示出中间层瓶颈,而双向模型则维持更均匀的趋势。通过对BERT(仅编码器)、Pythia(仅解码器)和Mamba(状态空间模型)三种LLM变体进行比较,并扩展Pythia来观察新兴趋势,研究了架构和模型大小如何影响表示质量。
-
层间表现对比:研究表明,在几乎所有的任务中,某些中间层的表现优于最终层。改进幅度从2%到最高可达16%,最佳层通常位于网络的中部深度。这一现象在所有不同架构中都是一致的。
-
伦理考量:利用中间层表示的能力可能会影响模型性能评估或部署中的公平性和偏见考虑。更好的识别潜在特征和表示的方法可能会放大潜在偏见,因此未来的工作需要探索确保中间层表示不会不成比例地强化偏见或导致实际应用中的意外差异的方法。
此外,文中还详细介绍了实验使用的数据集细节、提示增强方法以及一系列数学基础和技术细节,如变换器架构的具体细节及其注意力机制等。总的来说,这项研究为理解大型语言模型的内部表示提供了新的视角,并为进一步的研究奠定了基础。