当前位置: 首页 > news >正文

(cvpr2025) DefMamba: Deformable Visual State Space Model

论文:(cvpr2025) DefMamba: Deformable Visual State Space Model

代码:https://github.com/leiyeliu/DefMamba

作者指出,现有的视觉Mamba方法把图像扫描成1D序列,无法利用图像中的结构信息。为此,提出了DefMamba模型,通过可变形扫描策略动态调整扫描路径,优先关注重要信息,解决了空间结构信息丢失问题,显著提升了图像分类、目标检测和分割等任务的性能。

模型整体框架如下图所示,是典型的VIT四阶段结构,核心创新点在 Deformable SSM 这里,本质是将 Deformable conv 引入了 Mamba。

Deformable SSM 的架构如下图所示,是典型的VMamba结构,不同的是除了普通的正向扫描和反向扫描,作者添加了一个Deformable扫描。和Deformable conv类似,使用一个网络学习 offset 和 bias。然后上面用 offset 计算像素的偏移;下面分支用bias给像素的 index 重新赋值,最后按照 index 值大小进行扫描,先扫重要的再扫不重要的。

该论文属于动态路径的Mamba,可视化路径就非常重要了。作者做了一个扫描路径的可视化实验。黄色到绿色代表扫描顺序。从图中第一行可以看出,作者模型先扫蛇的头部再扫其它部分,也说明作者模型能够优先学习图像中语义信息强的部分。

其它实验可以参考作者论文,这里不过多介绍。

http://www.lqws.cn/news/498421.html

相关文章:

  • 008 Linux 开发工具(下) —— make、Makefile、git和gdb
  • VitePress搭建静态博客
  • logstash读取kafka日志写到oss归档存储180天
  • 提示词模板设计:LangGPT的提示词设计框架
  • RK3288 android7.1 将普通串口设置为调试串口
  • WinUI3入门8:解决release版异常 取消优化和裁剪
  • QML革命:下一代GUI开发的核心优势详解
  • WebSocket 端点 vs Spring Bean
  • PyTorch 实现的 GlobalPMFSBlock_AP_Separate:嵌套注意力机制在多尺度特征聚合中的应用
  • LLM 编码器 怎么实现语义相关的 Token 向量更贴近? mask训练:上下文存在 ;; 自回归训练:只有上文,生成模型
  • 601N1 icm45696 串口python读取及显示
  • SQL Server2022版详细安装教程(Windows)
  • Flutter开发中记录一个非常好用的图片缓存清理的插件
  • MATLAB GUI界面设计 第四章——图像的绘制与显示
  • 项目上线(若依前后分离版)
  • Kubernetes安全
  • Frida Hook Android App 点击事件实战指南:从进程识别到成功注入
  • H5新增属性
  • C++ Vector 基础入门操作
  • 技能系统详解(2)——特效表现
  • nnv开源神经网络验证软件工具
  • 【第二章:机器学习与神经网络概述】03.类算法理论与实践-(1)逻辑回归(Logistic Regression)
  • 华大北斗TAU951M-P200单频定位模块 多系统冗余保障永不掉线 物流/车载导航首选
  • 历史项目依赖库Bugfix技巧-类覆盖
  • LED-Merging: 无需训练的模型合并框架,兼顾LLM安全和性能!!
  • Spring Boot:运用Redis统计用户在线数量
  • Flask学习笔记
  • 1.2、CAN总线帧格式
  • DeepSeek今天喝什么随机奶茶推荐器
  • Redis简介