当前位置：首页 > news >正文

【论文阅读 | CVPR 2025 |MambaVision：一种混合 Mamba-Transformer 视觉骨干网络】

news 2025/6/28 11:17:55

论文阅读 | CVPR 2025 |MambaVision：一种混合 Mamba-Transformer 视觉骨干网络

1.摘要&&引言
2.方法
- 2.1 宏观架构
- 2.2 微观架构
- - 2.2.1 Mamba 基础知识
  - 2.2.2 层架构
3. 实验
4. 结果
- 4.1 图像分类
- 4.2 目标检测与分割
- 4.3 消融研究
5. 结论

在这里插入图片描述

题目：MambaVision: A Hybrid Mamba-Transformer Vision Backbone

会议： Computer Vision and Pattern Recognition（CVPR）

论文：https://openaccess.thecvf.com/content/CVPR2025/html/Hatamizadeh_MambaVision_A_Hybrid_Mamba-Transformer_Vision_Backbone_CVPR_2025_paper.html

代码：https://github.com/NVlabs/MambaVision

年份：2025

1.摘要&&引言

我们提出了一种新颖的混合 Mamba-Transformer 骨干网络 MambaVision，专为视觉应用量身设计。我们的核心贡献包括重新设计 Mamba 公式，以增强其对视觉特征的高效建模能力。通过全面的消融研究，我们证明了将视觉 Transformer（ViT）与 Mamba 集成的可行性。

研究结果表明，在 Mamba 架构的最后几层配备自注意力块，能显著提升其捕捉长距离空间依赖关系的能力。基于这些发现，我们推出了一系列 MambaVision 模型，它们采用层次化架构，可满足不同的设计需求。

在 ImageNet-1K 数据集的分类任务中，MambaVision 各变体在 Top-1 准确率和吞吐量方面均达到了最先进（SOTA）水平。在下游任务中，如 MS COCO 数据集上的目标检测、实例分割以及 ADE20K 数据集上的语义分割，MambaVision 在性能优于同等规模的骨干网络，同时表现出良好的综合性能。

在这项工作中，我们系统地重新设计了 Mamba 块，使其更适合视觉任务。我们提出了一种混合架构，该架构包含我们提出的公式（即 MambaVision 混合器和 MLP）以及 Transformer 块。

具体而言，我们研究了不同的集成模式，例如以等参数方式在早期、中期、最后几层以及每 l 层中添加 Transformer 块。我们的分析表明，在最后阶段使用多个自注意力块可以显著增强捕捉全局上下文和长距离空间依赖关系的能力。

如第 5 节所示，与纯 Mamba 和基于 ViT 的模型相比，采用混合架构还能带来更高的图像吞吐量。我们引入的 MambaVision 模型采用多分辨率架构，并利用基于 CNN 的残差块快速提取更高分辨率特征的特征。

在这里插入图片描述

图1——ImageNet-1K数据集上Top-1准确率与图像吞吐量的对比。MambaVision模型在Top-1准确率和图像吞吐量的权衡方面达到了新的帕累托前沿。具体而言，MambaVision各变体的性能优于VMamba和Vim等基于Mamba的模型，有时优势显著。所有模型的图像吞吐量均在配备128批处理大小的NVIDIA A100 GPU上测得。

如图 1 所示，MambaVision 在 ImageNet-1K 的 Top-1 准确率和图像吞吐量方面达到了新的 SOTA 帕累托前沿，性能优于基于 Mamba、CNN 和 ViT 的模型，有时优势显著。在目标检测、实例分割和语义分割等下游任务中，采用 MambaVision 作为骨干网络的模型在 MS COCO 数据集和 ADE20 数据集上的性能分别优于同等规模的对应模型。因此，这验证了 MambaVision 作为高效骨干网络的有效性和通用性。

据我们所知，MambaVision 是首个研究和开发用于计算机视觉应用的、同时包含 Mamba 和 Transformer 的混合架构的尝试。我们在这项工作中的主要贡献总结如下：

我们引入了经过重新设计的、更适合视觉任务的 Mamba 块，与原始 Mamba 架构相比，提高了准确率和图像吞吐量。
我们系统地研究了 Mamba 和 Transformer 块的集成模式，并证明在最后阶段融入自注意力块能显著提升模型捕捉全局上下文和长距离空间依赖关系的能力。
我们引入了 MambaVision，这是一种新颖的混合 Mamba-Transformer 模型。层次化的 MambaVision 在 ImageNet-1K 数据集的 Top-1 准确率和图像吞吐量方面达到了新的 SOTA 帕累托前沿

2.方法

2.1 宏观架构

在本节中，我们介绍 MambaVision——我们提出的在 ImageNet-1K 数据集上实现 SOTA 性能的新颖架构。如图 2 所示，MambaVision 采用层次化架构，包含 4 个不同的阶段。前两个阶段由基于 CNN 的层组成，用于快速提取较高输入分辨率的特征，而第 3 和第 4 阶段则包含所提出的 MambaVision 和 Transformer 块。具体而言，给定一个尺寸为 $\times W \times 3$ 的图像，首先通过 stem 将其转换为尺寸为 $\frac{H}{4} \times \frac{W}{4} \times C$ 的重叠补丁，并投影到 $c$ 维嵌入空间中；stem 由两个连续的 3×3 CNN 层组成，步长为 2。阶段之间的下采样器由一个步长为 2 的 3×3 CNN 层组成，将图像分辨率降低一半。此外，第 1 和第 2 阶段中的 CNN 块遵循通用的残差块公式，如下所示：
$\begin{aligned} & \hat{z} = GELU\left(BN\left(Conv_{3×3}(z)\right)\right), \\ & z = BN\left(Conv_{3×3}(\hat{z})\right) + z, \end{aligned}$
其中，GELU 和 BN 分别表示高斯误差线性单元激活函数和批归一化。有关 MambaVision 宏观架构的更多细节，请参见补充材料。

2.2 微观架构

在本节中，我们首先回顾 Mamba 和 SSM 的基础知识，然后介绍第 3 和第 4 阶段的微观设计，并更详细地讨论 MambaVision 公式。

在这里插入图片描述

图2——分层MambaVision模型的架构。前两个阶段使用残差卷积块进行快速特征提取。第3和第4阶段同时采用MambaVision块和Transformer块。具体而言，给定N层，我们使用N/2个MambaVision块和MLP块，之后再附加N/2个Transformer块和MLP块。最后几层中的Transformer块能够恢复丢失的全局上下文并捕捉长距离空间依赖关系。

2.2.1 Mamba 基础知识

在 Mamba 中，一维连续输入 $\in \mathbb{R}$ 通过可学习的隐藏状态 $\in \mathbb{R}^{M}$ 转换为 $\in \mathbb{R}$ ，其中参数为 $\in \mathbb{R}^{M×M}$ 、 $\in \mathbb{R}^{M×1}$ 和 $\in \mathbb{R}^{1×M}$ ，公式如下：
$\begin{aligned} h'(t) & = Ah(t) + Bx(t), \\ y(t) & = Ch(t), \end{aligned}$

离散化：为提高计算效率，上述公式中的连续参数 $A$ 、 $B$ 和 $C$ 进一步转换为离散参数 $\bar{A} \in \mathbb{R}^{M×M}$ 、 $\bar{B} \in \mathbb{R}^{M×1}$ 和 $\bar{C} \in \mathbb{R}^{1×M}$ ，具体如下：
$\begin{aligned} \bar{A} & = \exp(\Delta A), \\ \bar{B} & = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot (\Delta B), \\ \bar{C} & = C, \end{aligned}$
然后，公式 2 可以用离散参数表示为：
$\begin{aligned} h(t) & = \bar{A}h(t-1) + \bar{B}x(t), \\ y(t) & = \bar{C}h(t), \end{aligned}$

此外，对于长度为 $T$ 的输入序列，可以应用核为 $\bar{K}$ 的全局卷积来计算公式 4 的输出，如下所示：
$\begin{aligned} \bar{K} & = (C\bar{B}, C\bar{AB}, ..., C\bar{A}^{T-1}\bar{B}), \\ y & = x * \bar{K}, \end{aligned}$

选择性：Mamba 通过引入选择机制进一步扩展了 S4 公式，该机制允许进行依赖于输入的序列处理。这使得模型的参数 $B$ 、 $C$ 和 $\Delta$ 能够根据输入动态调整，并过滤掉无关信息。更多离散化细节请参见文献 [7]。

2.2.2 层架构

假设输入 $\in \mathbb{R}^{T×C}$ 的序列长度为 $T$ ，嵌入维度为 $C$ ，则第 3 和第 4 阶段中第 $n$ 层的输出可计算如下：
$\begin{aligned} & \hat{X}^n = Mixer\left(Norm\left(X^{n-1}\right)\right) + X^{n-1}, \\ & X^n = MLP\left(Norm\left(\hat{X}^n\right)\right) + \hat{X}^n, \end{aligned}$
其中，Norm 和 Mixer 分别表示层归一化和令牌混合块的选择。为简单起见，Norm 使用层归一化。给定 $N$ 层，前 $\frac{N}{2}$ 层采用 MambaVision 混合器块，其余 $\frac{N}{2}$ 层采用自注意力。

在这里插入图片描述

图3——MambaVision块的架构。除了用常规卷积层替代因果卷积层外，我们还创建了一条不含状态空间模型（SSM）的对称路径作为令牌混合器，以增强对全局上下文的建模。

MambaVision 混合器：如图 3 所示，我们重新设计了原始 Mamba 混合器，使其更适合视觉任务。首先，我们提议用常规卷积替换因果卷积，因为因果卷积将影响限制在一个方向上，这对于视觉任务来说是不必要且具有限制性的。此外，我们添加了一个不含 SSM 的对称分支，该分支由一个额外的卷积和 Sigmoid 线性单元（SiLU）激活组成，以弥补由于 SSM 的序列约束而可能丢失的任何内容。然后，我们将两个分支的输出连接起来，并通过最终的线性层进行投影。这种组合确保最终的特征表示整合了序列信息和空间信息，同时利用了两个分支的优势。我们注意到，每个分支的输出都被投影到维度为 $\frac{C}{2}$ 的嵌入空间中（即原始嵌入维度的一半），以保持与原始块设计相当的参数数量。

给定输入 $X_{\text{in}}$ ，MambaVision 混合器的输出 $X_{\text{out}}$ 计算如下：
$\begin{aligned} & X_1 = \text{Scan}\left(\sigma\left(\text{Conv}\left(\text{Linear}\left(C, \frac{C}{2}\right)\left(X_{\text{in}}\right)\right)\right)\right), \\ & X_2 = \sigma\left(\text{Conv}\left(\text{Linear}\left(C, \frac{C}{2}\right)\left(X_{\text{in}}\right)\right)\right), \\ & X_{\text{out}} = \text{Linear}\left(\frac{C}{2}, C\right)\left(\text{Concat}\left(X_1, X_2\right)\right), \end{aligned}$
其中， $\text{Linear}(C_{\text{in}}, C_{\text{out}})(\cdot)$ 表示输入和输出嵌入维度分别为 $C_{\text{in}}$ 和 $C_{\text{out}}$ 的线性层，Scan 是文献 [7] 中的选择性扫描操作， $\sigma$ 是使用 SiLU 的激活函数。此外，Conv 和 Concat 分别表示一维卷积和连接操作。在算法 1 中，我们展示了 MambaVision 混合器的类 PyTorch 伪代码。总体而言，我们提出的修改带来了更丰富的特征表示、更好的泛化能力，并提高了在计算机视觉任务上的性能。我们还在第 5.3 节通过实验验证了我们每个设计选择的有效性。

自注意力：我们使用通用的多头自注意力机制，公式如下：
$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^{\top}}{\sqrt{d_h}}\right)V.$
其中， $Q$ 、 $K$ 、 $V$ 分别表示查询、键和值， $d_h$ 是注意力头的数量。此外，我们的框架允许以类似于先前研究的窗口方式计算注意力（参见补充材料中的窗口大小消融研究）。

3. 实验

在 ImageNet-1K 数据集上进行了图像分类实验。我们遵循先前研究的标准训练方案，以便对不同模型的性能进行可比分析。具体而言，所有模型都使用 32 个 A100 GPU 训练了 300 个 epoch。所有 MambaVision 变体的第 3 和第 4 阶段中的自注意力公式分别使用 14 和 7 的窗口大小。有关详细的训练配置，请参见提供的匿名代码仓库。

在这里插入图片描述

为评估下游任务的性能，我们将预训练模型用作骨干网络，分别在 MS COCO 数据集和 ADE20K 数据集上进行目标检测、实例分割和语义分割任务。具体而言，对于目标检测和实例分割，我们使用 Cascade Mask-RCNN 头，并采用 ×3 学习率调度等超参数。对于语义分割，我们使用 UperNet 网络头，并在所有实验中使用 8 个 A100 GPU。

4. 结果

4.1 图像分类

在这里插入图片描述

表1——ImageNet-1K数据集上的分类基准比较[4]。图像吞吐量是在A100 GPU上以128的批处理大小测量的。

在表 1 中，我们展示了 ImageNet-1K 分类结果。具体而言，我们与不同系列的模型进行了比较，如基于卷积的模型、基于 Transformer 的模型、卷积 - Transformer 混合模型和基于 Mamba 的模型，并证明考虑到 ImageNet 的 Top-1 准确率和图像吞吐量，我们的模型以较大优势优于先前的研究成果。例如，MambaVision-B 的准确率（84.2%）高于 ConvNeXt-B（83.8%）和 Swin-B（83.5%），同时具有显著更高的图像吞吐量。我们在与基于 Mamba 的模型比较时也观察到了类似的趋势。具体而言，MambaVision-B（84.2%）的性能优于 VMamba-B（83.9%），尽管其图像吞吐量明显更高。在与其他基于 Mamba 的模型的性能比较中，我们也观察到了类似的趋势。此外，我们还注意到，尽管我们的主要设计目标是优化准确率和吞吐量的权衡，但与同等规模的对应模型相比，MambaVision 模型变体的 FLOPs 更低。例如，MambaVision-B 的 GFLOPs 比 MaxViT-B 少 56%。

4.2 目标检测与分割

在这里插入图片描述

表2——在MS COCO数据集[19]上使用Cascade Mask R-CNN[13]进行的目标检测和实例分割基准测试。所有模型均采用3×调度方案和1280×800的裁剪分辨率进行训练。

我们在 MS COCO 数据集上评估了我们的模型在目标检测和实例分割任务上的性能，如表 2 所示。为全面验证 MambaVision 的有效性，我们训练了不同规模的模型，并在相同条件下与流行的、规模相当的视觉骨干网络进行了比较。使用 Cascade Mask R-CNN 头，所有 MambaVision 变体的性能都优于其对应模型。具体而言，在 MS COCO 的边界框平均精度（AP）和掩码 AP 方面，MambaVision 模型分别比 ConvNeXt-T 高出 + 0.7 和 + 0.6，比 ConvNeXt-S 高出 + 0.4 和 + 0.2，比 ConvNeXt-B 高出 + 0.1 和 + 0.1。同样，在边界框 AP 和掩码 AP 方面，MambaVision 分别比 Swin-T 高出 + 0.7 和 + 0.6，比 Swin-S 高出 + 0.4 和 + 0.2，比 Swin-B 高出 + 0.9 和 + 0.7。

在这里插入图片描述

表3——使用ADE20K数据集和UperNet模型[34]得到的语义分割结果。所有模型均采用512×512的裁剪分辨率进行训练。

对于语义分割，我们使用 UperNet 在 ADE20K 数据集上评估了性能，如表 3 所示。我们观察到，对于不同变体，MambaVision 模型的性能优于同等规模的竞争模型。例如，MambaVision-T、MambaVision-S 和 MambaVision-B 在 mIoU 方面分别比 Swin-T、Swin-S 和 Swin-B 高出 + 1.5、+0.6 和 + 1.0。值得注意的是，这些改进是在没有对下游任务进行大量超参数优化的情况下实现的，这凸显了 MambaVision 作为各种视觉任务（特别是高分辨率场景）中稳健骨干网络的潜力。此外，我们的方法在所有规模上的 mIoU 始终高于 Focal Transformer，同时模型大小相当。

4.3 消融研究

在这里插入图片描述

图4——不同模型大小和分辨率下，经ImageNet-21K预训练的MambaVision模型的性能可扩展性。

在 ImageNet-21K 上的大规模训练：在所有基于 Mamba 的方法中，我们的工作（MambaVision）首次将训练扩展到大型 ImageNet-21K 数据集，并使用了明显更大的模型规模。如图 4 所示，结果令人鼓舞。具体而言，我们观察到较小的 MambaVision-B 模型（97.7M 参数）在 224 分辨率下的 Top-1 准确率从 84.2% 提高到 84.9%。此外，对 MambaVision-L 进行预训练和微调后，其在 224 分辨率下的 Top-1 准确率从 85% 提高到 86.1%。我们还引入了一个更大的变体 MambaVision-L3（739.6M 参数），其在 256 和 512 分辨率下的 Top-1 准确率分别达到 87.3% 和 88.1%。这些结果验证了我们的模型在更大数据集、不同模型规模和不同图像分辨率上的可扩展性。据我们所知，MambaVision 是首个成功将基于 Mamba 的视觉架构扩展到 ImageNet-21K 并取得优异性能的模型。这种扩展能力对于依赖海量数据集的现实场景至关重要，在这些场景中，需要更大、更强大的模型来实现稳健的性能。我们预计，MambaVision 经证实的可扩展性将进一步鼓励在工业和大规模研究应用中采用基于 Mamba 的模型。

令牌混合器的设计：我们进行了全面的消融研究，以系统地设计 MambaVision 令牌混合器。我们的研究重点是使 Mamba 块适应计算机视觉任务，评估其在分类、目标检测、实例分割和语义分割任务上的性能。所有实验都使用基于 MambaVision-T 配置的模型架构。

在这里插入图片描述

表4——MambaVision令牌混合器的系统设计。w/o和concat分别指“没有”和“拼接”。Conv1和conv2分别表示图3所示的状态空间模型（SSM）分支和额外对称分支中的卷积操作。COCO数据集上的实验使用Mask-RCNN[13]头和×1学习率调度进行。

如表 4 所示，我们从原始 Mamba 公式开始，该公式在 SSM 分支（conv1）中包含因果卷积层，但在我们提出的对称分支中缺少额外的卷积层（conv2）。这种基线配置在所有指标上的性能都不理想，ImageNet 的 Top-1 准确率为 80.9%（-1.8%），MS COCO 的边界框 AP 为 44.8（-1.6），掩码 AP 为 40.2（-1.6），ADE20K 的 mIoU 为 44.2%（-1.4）。然后，我们用常规卷积层替换了 SSM 分支（conv1）中的因果卷积，这提高了所有指标的性能。随后，我们添加了 conv2 层，同时保留 Mamba 原始的门控机制而非连接，结果 ImageNet 的 Top-1 准确率为 81.3%，MS COCO 的边界框 AP 为 45.3，掩码 AP 为 41.0，ADE20K 的 mIoU 为 45.7%。最后，采用连接操作后，所有指标都得到了显著改善，ImageNet 的 Top-1 准确率提高了 + 1.0%，MS COCO 的边界框 AP 提高了 + 1.1，掩码 AP 提高了 + 0.8，ADE20K 的 mIoU 提高了 + 0.9。这些结果验证了我们的假设，即连接来自两个分支（SSM 和非 SSM）的输出能使模型学习更丰富的特征表示，并增强对全局上下文的理解。

混合模式：我们进行了一项全面的研究，考察了自注意力和 MambaVision 令牌混合器之间的各种混合集成模式。所有实验都保持 MambaVision-T 架构布局，并使用等参数模型进行公平比较，在第 3 和第 4 阶段实现混合功能。

初始实验采用随机集成模式，结果不理想，Top-1 准确率为 81.3%，这证实了我们的直觉，即任意的自注意力放置可能是无效的。当我们将自注意力块放置在每个阶段的前 N/2 层中（其中 N 表示阶段的总层数）时，性能提高了 + 0.2%（81.5%）。在自注意力和 MambaVision 混合器块之间交替的混合层模式导致性能略有下降（-0.1%，81.4%），而将顺序改为 MambaVision / 自注意力则将准确率提高到 81.6%。将自注意力块仅放置在每个阶段的最后 N/4 层中，性能显著提高了 + 0.3%（81.9%），这支持了我们的假设，即自注意力在最后几层中最有效。进一步优化表明，将自注意力扩展到每个阶段的最后 N/2 层中，性能达到最佳，为 82.3%，这表明为了实现最佳的表示学习，仔细平衡自注意力块和 MambaVision 层至关重要。

在这里插入图片描述

图5——MambaVision自注意力层的可视化结果，展示了模型如何通过注意力图（中间）和叠加图（右侧）学习关注语义上有意义的区域。

可解释性：为了更好地理解 MambaVision 如何处理视觉信息，我们可视化了最后阶段自注意力层的注意力图。如图 5 所示，这些可视化结果表明，模型无需显式监督就能学会关注语义上有意义的区域。在飞机示例中，注意力明显突出了整个机身，表明能有效捕捉物体边界。对于鸟类图像，我们观察到注意力集中在头部和尾部等独特特征上，这表明模型能够识别细粒度细节。在物体 - 人类交互的案例中（ bottom row），注意力图在主体和所持物体上都有强烈激活，表明自注意力层成功地建模了场景中不同元素之间的关系。这些可视化结果支持了我们的架构设计选择，即在最后阶段使用自注意力块来捕捉全局上下文和长距离依赖关系。

5. 结论

在这项工作中，我们引入了 MambaVision，这是首个专为视觉应用设计的 Mamba-Transformer 混合骨干网络。我们提出了对 Mamba 公式的重新设计，以增强全局上下文表示学习能力。MambaVision 在 Top-1 准确率和图像吞吐量方面达到了新的 SOTA 帕累托前沿，以显著优势优于 Transformer 和基于 Mamba 的模型。通过在多个视觉任务（包括分类、检测和分割）上的广泛实验，我们证明了我们方法的通用性和有效性。我们对集成模式的系统分析表明，在最后几层放置自注意力块能显著提高模型捕捉长距离依赖关系的能力，同时保持效率。此外，我们成功地将 MambaVision 扩展到 ImageNet-21K 预训练，取得了与 SOTA 模型相当的优异性能，证明了其在大规模视觉应用中的潜力。

MambaVision 成功解决了纯基于 Mamba 的架构的局限性，同时利用了它们的优势，为视觉骨干网络设计开辟了新的可能性。我们希望这些发现能成为新型混合视觉模型的基础。

查看全文

http://www.lqws.cn/news/545653.html