当前位置: 首页 > news >正文

论文阅读 Align before Fuse (ALBEF)

文章目录

  • 论文介绍
  • 研究背景与问题
    • 现有视觉 - 语言预训练(VLP)方法的局限性
    • 现有方法分类
  • ALBEF(Align Before Fuse)框架
    • 方法
      • 1. 模型架构
      • 2. 预训练目标
      • 3. 动量蒸馏(Momentum Distillation, MoD)
      • 4. 理论视角:互信息最大化
    • 实验结果
      • 下游任务性能
      • 消融实验
    • 结论与社会影响
      • 贡献
      • 局限性
      • 代码与模型

论文介绍

题目:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
链接: https://arxiv.org/pdf/2107.07651

研究背景与问题

现有视觉 - 语言预训练(VLP)方法的局限性

  • 特征对齐困难:视觉区域特征与文本 token 处于不同空间,多模态编码器难以建模交互。
  • 依赖目标检测器:需边界框标注,计算成本高且推理时需高分辨率图像。
  • 噪声数据问题:网络图像 - 文本对噪声大,传统训练目标(如 MLM)易过拟合。

现有方法分类

  • 多模态编码器方法

    • 代表方法:LXMERT、UNITER
    • 特点:需目标检测器,擅长复杂推理但效率低。
  • 对比学习方法

    • 代表方法:CLIP、ALIGN
    • 特点:无需检测器,擅长检索但缺乏复杂交互建模能力。

ALBEF(Align Before Fuse)框架

方法

1. 模型架构

在这里插入图片描述

  • 图像编码器:使用 ViT-B/16,无检测器,基于 ImageNet 预训练。
  • 文本编码器:6 层 Transformer,基于 BERT 初始化。
  • 多模态编码器:6 层 Transformer,通过交叉注意力融合图像与文本特征。

2. 预训练目标

  • 图像 - 文本对比学习(ITC)
    • 在融合前对齐单模态表示,学习图像与文本的公共低维空间。
    • 采用对比损失,通过队列存储动量模型的特征,挖掘难负样本。
      在这里插入图片描述
      对比学习任务中,除了BYOL等模型,一般来说负样本的采集规模非常重要。作者使用的是8卡A100(40G),batch_size=512, 为了进一步扩大对比的负样本数目,作者采用了MoCo中的队列思想来缓存更多的key样本,即为image_encode 和 text_encode 都建设了一个momentum 更新的模型副本,一般队列长度扩充到4096。

在这里插入图片描述

  • 掩码语言建模(MLM):利用图像和文本上下文预测掩码词。

在这里插入图片描述

  • 图像 - 文本匹配(ITM):预测图像 - 文本对是否匹配,结合对比学习动态采样难负样本。

作者提出了一种基于零计算开销的ITM任务进行hard negatives采样的策略,即利用对比相似性来寻找batch内的hard negatives.
对于一个 batch中的每一幅图像,作者按照对比相似性分布从同一batch中抽取一个负文本,其中与图像更相似的文本有更高的机会被采样。
同样的,作者还为每个文本采样一个hard negative图像。
在这里插入图片描述

3. 动量蒸馏(Momentum Distillation, MoD)

  • 解决噪声数据问题:使用动量模型(参数指数移动平均)生成伪目标,作为额外监督。
  • 优势:允许模型学习与标注不同但合理的输出,增强泛化能力。
  • 应用:同时应用于 ITC 和 MLM,通过 KL 散度将伪目标与模型预测对齐。

采用指数滑动平均来维护image_encoder、text_encoder、fusion_encoder的一个健壮模型副本,并将该模型副本 作为teacher, 来额外指导上述三个任务的优化。

在这里插入图片描述

4. 理论视角:互信息最大化

  • ITC 和 MLM 可解释为最大化图像 - 文本对不同 “视图” 的互信息。
  • 动量蒸馏通过生成语义相似的新视图,增强表示的不变性。

实验结果

下游任务性能

  • 图像 - 文本检索:在 Flickr30K 和 COCO 上超越 CLIP、ALIGN 等,即使预训练数据量更小。
  • 视觉问答(VQA):相比 SOTA 方法 VILLA,test-std 提升 2.37%。
  • 自然语言视觉推理(NLVR²):test-P 提升 3.84%,推理速度快 10 倍以上。
  • 弱监督视觉定位:在 RefCOCO + 上显著优于现有方法,Grad-CAM 可视化显示精准定位能力。

消融实验

  • ITC、难负样本挖掘和 MoD 均显著提升性能,全量数据(14M 图像)进一步增强效果。
  • 多模态编码器参数共享策略优化了 NLVR² 的推理效率。

结论与社会影响

贡献

  • 提出 ALBEF 框架,通过对齐 - 融合策略和动量蒸馏,提升视觉 - 语言表示学习效率,无需检测器且适用于噪声数据。

局限性

  • 网络数据可能包含隐私或有害信息,需进一步数据净化与伦理分析。

代码与模型

  • 已开源:GitHub - salesforce/ALBEF: Code for ALBEF: a new vision-language pre-training method
http://www.lqws.cn/news/563239.html

相关文章:

  • EXISTS 和 NOT EXISTS 、IN (和 NOT IN)
  • 每日算法刷题Day40 6.27:leetcode前缀和3道题,用时1h20min
  • 1.2 基于蜂鸟E203处理器的完整开发流程
  • 【大模型】Query 改写常见Prompt 模板
  • 【转】PostgreSql的镜像地址
  • InfluxDB 3 Core最后值缓存深度实践:毫秒级响应实时数据的核心引擎
  • Mysql架构
  • c++学习(五、函数高级)
  • 大事件项目记录11-文章分类接口开发-删除文章分类
  • Qt:QCustomPlot库简介
  • Vue基础(18)_收集表单数据
  • debian国内安装docker
  • 【经验】bitsandbytes安装-LLAVA-1.5库调试
  • 【数据标注师】分类标注
  • AD 学习笔记——第一章 系统的安装及参数设置
  • 一个简单测试Deepseek吞吐量的脚本,国内环境可跑
  • 印度和澳洲的地理因素
  • 西门子S7-200 SMART PLC:小型自动化领域的高效之选
  • 数据库(MYsql)
  • Qt-Advanced-Docking-System 关闭、禁止拖动、最大化按钮等设置
  • 从静态到动态:Web渲染模式的演进和突破
  • Spring Cloud:高级特性与最佳实践
  • 布林带的使用
  • 华为云Flexus+DeepSeek征文 |华为云ModelArts Studio集成OpenAI Translator:开启桌面级AI翻译新时代
  • Pytest自动化测试执行环境切换的2种解决方案
  • Linux基本命令篇 —— less命令
  • c++学习(四、引用)
  • ClickHouse基础知识
  • 【编译原理】期末
  • 14-C#的弹出的窗口输入与输出