当前位置: 首页 > news >正文

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开国防科大]

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开&国防科大]

文章目录

  • 前言
  • 正文
    • 创新点
    • 解决的问题
    • 实验验证
  • 总结
  • 参考

前言

本文介绍了DFormer,一种新的RGB-D预训练框架,用于学习可迁移的RGB-D表示以应用于语义分割任务12

正文

创新点

DFormer的两个关键创新点是:

  1. 不像先前工作那样使用RGB预训练主干网络编码RGB-D信息,而是使用ImageNet-1K中的图像-深度对进行主干网络的预训练,从而赋予DFormer编码RGB-D表示的能力;
  2. DFormer包含一系列专门设计的RGB-D块,用于通过新颖的构建块设计同时编码RGB和深度信息。实验结果表明,DFormer在两项流行的RGB-D任务(即RGB-D语义分割和RGB-D显著目标检测)上取得了最新的最佳性能,计算成本仅为当前最佳方法的一半。

解决的问题

具体来说,DFormer通过以下方式解决了现有方法中存在的问题:

  1. 避免了RGB预训练主干网络对深度图中3D几何关系的不匹配编码;
  2. 在预训练过程中,在构建块内建立RGB和深度特征之间的交互,减少了主干网络外部的重交互模块;
  3. 观察到深度信息只需要少量通道来编码,从而有效减少了模型大小。

实验验证

在实验部分,论文作者展示了DFormer在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的优越性能。例如,DFormer-L在NYU Depthv2数据集上达到了57.2%的mIoU,而参数和计算量分别仅为39.0M和65.7G Flops。相比之下,最近的最佳方法CMX(MiT-B2)使用66.6M参数和67.6G Flops仅能达到54.4%的mIoU。

总结

论文作者进行了消融研究,分析了DFormer各组件的有效性。实验结果表明,RGB-D预训练对于提升分割准确性至关重要,且DFormer的解码器只需使用RGB特征即可高效融合两种模态的信息,进一步证明了所提框架和构建块更适合RGB-D分割任务。

请添加图片描述

请添加图片描述

参考


  1. VCIP-RGBD/DFormer: [CVPR 2025]DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation && [ICLR 2024] DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ↩︎

  2. VCIP-RGBD/RGBD-Pretrain: RGBD Pretraining code used in DFormer [ICLR 2024] ↩︎

http://www.lqws.cn/news/128809.html

相关文章:

  • C++多态与继承实战解析
  • Python-面向对象
  • RabbitMQ 在解决数据库高并发问题中的定位和核心机制
  • 数据结构与算法学习笔记(Acwing 提高课)----动态规划·树形DP
  • 《小明的一站式套餐服务平台:抽象工厂模式》
  • StarRocks与Apache Iceberg:构建高效湖仓一体的实时分析平台
  • 物联网控制技术期末复习 知识点总结 第二章 单片机
  • 【Python训练营打卡】day43 @浙大疏锦行
  • 高并发区块链系统实战:从架构设计到性能优化
  • VS代码生成工具ReSharper v2025.1——支持.NET 10和C# 14预览功能
  • WARNING! The remote SSH server rejected x11 forwarding request.
  • 查找 Vue 项目中未使用的依赖
  • ffmpeg(三):处理原始数据命令
  • 网络编程之TCP编程
  • Ethernet IP转Modbus网关在热泵机组中的协议转换技术实现
  • webpack打包学习
  • Linux操作系统Shell脚本概述与命令实战
  • 标识符关键字
  • 论文阅读笔记——Large Language Models Are Zero-Shot Fuzzers
  • 【读代码】从预训练到后训练:解锁语言模型推理潜能——Xiaomi MiMo项目深度解析
  • NLP常用工具包
  • 打卡第36天:模型可视化以及推理
  • [Linux] Linux GPIO应用编程深度解析与实践指南(代码示例)
  • 乘用车自动驾驶和非乘用车(矿车,卡车)自动驾驶区别
  • 从传统 RAG 到知识图谱 + Agent
  • MySQL补充知识点学习
  • Java中Git基础操作详解(clone、commit、push、branch)
  • 高防IP可以防护什么攻击类型?企业网络安全的第一道防线
  • 【投稿优惠】2025年人工智能与图像处理国际会议(AIIP 2025)
  • (eNSP)配置WDS手拉手业务