论文阅读 Align before Fuse (ALBEF)
文章目录
- 论文介绍
- 研究背景与问题
- 现有视觉 - 语言预训练(VLP)方法的局限性
- 现有方法分类
- ALBEF(Align Before Fuse)框架
- 方法
- 1. 模型架构
- 2. 预训练目标
- 3. 动量蒸馏(Momentum Distillation, MoD)
- 4. 理论视角:互信息最大化
- 实验结果
- 下游任务性能
- 消融实验
- 结论与社会影响
- 贡献
- 局限性
- 代码与模型
论文介绍
题目:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
链接: https://arxiv.org/pdf/2107.07651
研究背景与问题
现有视觉 - 语言预训练(VLP)方法的局限性
- 特征对齐困难:视觉区域特征与文本 token 处于不同空间,多模态编码器难以建模交互。
- 依赖目标检测器:需边界框标注,计算成本高且推理时需高分辨率图像。
- 噪声数据问题:网络图像 - 文本对噪声大,传统训练目标(如 MLM)易过拟合。
现有方法分类
-
多模态编码器方法:
- 代表方法:LXMERT、UNITER
- 特点:需目标检测器,擅长复杂推理但效率低。
-
对比学习方法:
- 代表方法:CLIP、ALIGN
- 特点:无需检测器,擅长检索但缺乏复杂交互建模能力。
ALBEF(Align Before Fuse)框架
方法
1. 模型架构
- 图像编码器:使用 ViT-B/16,无检测器,基于 ImageNet 预训练。
- 文本编码器:6 层 Transformer,基于 BERT 初始化。
- 多模态编码器:6 层 Transformer,通过交叉注意力融合图像与文本特征。
2. 预训练目标
- 图像 - 文本对比学习(ITC):
- 在融合前对齐单模态表示,学习图像与文本的公共低维空间。
- 采用对比损失,通过队列存储动量模型的特征,挖掘难负样本。
对比学习任务中,除了BYOL等模型,一般来说负样本的采集规模非常重要。作者使用的是8卡A100(40G),batch_size=512, 为了进一步扩大对比的负样本数目,作者采用了MoCo中的队列思想来缓存更多的key样本,即为image_encode 和 text_encode 都建设了一个momentum 更新的模型副本,一般队列长度扩充到4096。
- 掩码语言建模(MLM):利用图像和文本上下文预测掩码词。
- 图像 - 文本匹配(ITM):预测图像 - 文本对是否匹配,结合对比学习动态采样难负样本。
作者提出了一种基于零计算开销的ITM任务进行hard negatives采样的策略,即利用对比相似性来寻找batch内的hard negatives.
对于一个 batch中的每一幅图像,作者按照对比相似性分布从同一batch中抽取一个负文本,其中与图像更相似的文本有更高的机会被采样。
同样的,作者还为每个文本采样一个hard negative图像。
3. 动量蒸馏(Momentum Distillation, MoD)
- 解决噪声数据问题:使用动量模型(参数指数移动平均)生成伪目标,作为额外监督。
- 优势:允许模型学习与标注不同但合理的输出,增强泛化能力。
- 应用:同时应用于 ITC 和 MLM,通过 KL 散度将伪目标与模型预测对齐。
采用指数滑动平均来维护image_encoder、text_encoder、fusion_encoder的一个健壮模型副本,并将该模型副本 作为teacher, 来额外指导上述三个任务的优化。
4. 理论视角:互信息最大化
- ITC 和 MLM 可解释为最大化图像 - 文本对不同 “视图” 的互信息。
- 动量蒸馏通过生成语义相似的新视图,增强表示的不变性。
实验结果
下游任务性能
- 图像 - 文本检索:在 Flickr30K 和 COCO 上超越 CLIP、ALIGN 等,即使预训练数据量更小。
- 视觉问答(VQA):相比 SOTA 方法 VILLA,test-std 提升 2.37%。
- 自然语言视觉推理(NLVR²):test-P 提升 3.84%,推理速度快 10 倍以上。
- 弱监督视觉定位:在 RefCOCO + 上显著优于现有方法,Grad-CAM 可视化显示精准定位能力。
消融实验
- ITC、难负样本挖掘和 MoD 均显著提升性能,全量数据(14M 图像)进一步增强效果。
- 多模态编码器参数共享策略优化了 NLVR² 的推理效率。
结论与社会影响
贡献
- 提出 ALBEF 框架,通过对齐 - 融合策略和动量蒸馏,提升视觉 - 语言表示学习效率,无需检测器且适用于噪声数据。
局限性
- 网络数据可能包含隐私或有害信息,需进一步数据净化与伦理分析。
代码与模型
- 已开源:GitHub - salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method