当前位置: 首页 > news >正文

【2025CVPR】基于脉冲神经网络的能效目标检测模型:Multi-scale Spiking Detector(MSD)深度解析

目录

一、研究背景与动机

1. 目标检测的应用价值

2. 脉冲神经网络(SNN)的优势

二、模型架构:Multi-scale Spiking Detector(MSD)

1. 核心创新点

2. 网络整体架构

3. 关键组件详解

(1)脉冲卷积神经元(Spiking Convolutional Neuron, SCN)

(2)ONNB模块

(3)MSDF框架

三、核心技术突破

1. 直接训练策略

2. 能效优化

四、实验验证

1. 数据集与指标

2. 对比实验结果

(1)COCO 2017结果

(2)Gen1 Dataset结果

五、消融实验分析

1. ONNB模块贡献

2. MSDF框架作用

六、代码实现要点

1. 核心模块封装

2. 训练配置

七、未来展望

八、总结


 

一、研究背景与动机

1. 目标检测的应用价值

目标检测是计算机视觉领域的核心任务,广泛应用于自动驾驶、机器人导航、智能监控等领域。传统基于卷积神经网络(CNN)的检测模型(如YOLO、Faster R-CNN)虽然在精度上表现优异,但在嵌入式设备和移动端部署时面临高能耗实时性不足的挑战。

2. 脉冲神经网络(SNN)的优势

SNN作为第三代神经网络,通过脉冲序列传递信息,具有以下优势:

  • 低能耗​:仅需在脉冲发放时进行计算(非连续激活)
  • 事件驱动​:天然适配事件相机(Event Camera)等稀疏数据源
  • 生物可解释性​:模拟神经元膜电位动态特性

然而,现有SNN目标检测方案存在两大瓶颈:

  1. 转换方法的性能损失​:ANN-to-SNN转换需长时序模拟(如Spiking-YOLO需3500时间步)
  2. 直接训练的精度瓶颈​:纯SNN模型难以捕捉多尺度时空特征

二、模型架构:Multi-scale Spiking Detector(MSD)

1. 核心创新点

论文提出首个端到端训练的SNN目标检测框架,包含两大核心模块:

  • Optic Nerve Nucleus Block (ONNB)​​:模拟视觉皮层神经核团的信息融合机制
  • Multi-scale Spiking Detection Framework (MSDF)​​:分层整合多尺度时空特征

2. 网络整体架构

3. 关键组件详解

(1)脉冲卷积神经元(Spiking Convolutional Neuron, SCN)

数学模型​:

Vt+1,n+1(i)ot+1,n+1(i)​=kτ1​Vt,n+1(i)(1−ot,n+1(i))+j=1∑l(n)​ωijn​ot+1,n(j)=f(Vt+1,n+1(i)−Vth​)​

  • LIF神经元动态​:通过膜电位衰减(τ)和阈值发放机制(Vth​)模拟生物脉冲
  • Surrogate Gradient​:使用分段线性函数解决不可导问题

∂Vt,n(i)∂ot,n(i)​=a1​Signal(​Vt,n(i)−Vth​​)

(2)ONNB模块

结构特点​:

  • 双路径设计​:主路径(Conv+SCN)保留高频特征,旁路(MaxPooling+SCN)增强鲁棒性
  • 通道重标定​:通过tdBN实现时空域归一化

tdBN(It+1(i))=λi​σci2​+ϵ​αVth​(It+1(i)−μci​)​+βi​

Figure 3. Overall architecture of the optic nerve nucleus block(ONNB) is designed to enable residual learning by applying the final LIF activation function to each residual and shortcut path.

(3)MSDF框架

多尺度融合策略​:

  1. 时空特征对齐​:通过不同时间窗口(T=3,5,7)提取动态特征
  2. 层次化聚合​:从浅层细节到深层语义逐级融合

  3. Figure 4. Overall architecture of the multi-scale spiking detection framework(MSDF), which integrates features at different scales and simulates biological perception of objects by the responses of spiking convolutional neuron(SCN) in decouple head.


三、核心技术突破

1. 直接训练策略

  • 训练流程​:

    python

    # 伪代码示例
    for epoch in range(epochs):for batch in dataloader:# 前向传播spikes = model(batch_images)loss = compute_loss(spikes, labels)# 反向传播optimizer.zero_grad()loss.backward()optimizer.step()
  • 优化技巧​:
    • 使用STBP(时空反向传播)结合tdBN
    • 动态调整时间步长(训练时T=500,推理时T=5)

2. 能效优化

能耗计算公式​:

E=i=1∑n​Ei​=T×(fr​×EAC​×OPAC​+EMAC​×OPMAC​)

  • 实验数据​:
    • 参数量:7.8M(对比Spike-YOLO减少47%)
    • 能耗:6.43mJ(比ANN模型降低82.9%)

四、实验验证

1. 数据集与指标

  • COCO 2017​:80类目标,118k训练图像
  • Gen1 Dataset​:39小时车载事件数据,255k标注框
  • 评价指标​:mAP@0.5与mAP@0.5:0.95

2. 对比实验结果

(1)COCO 2017结果
方法参数量(M)能耗(mJ)mAP@0.5mAP@0.5:0.95
MSD7.86.4362.0%45.3%
Spiking-YOLO13.223.159.2%42.5%
EMS-YOLO26.950.150.1%-

Figure 5. Object detection results on the COCO 2017 dataset. The first three columns compare the effect of Baseline, ONNB, MSDF. The fourth columns compare the MSD performance. MSD could accurately locate and identify pedestrians hidden near vehicles, overlapping pedestrians, and small-scale distant targets, demonstrating proposed methods effectiveness in handling such challenging scenarios.

(2)Gen1 Dataset结果
方法参数量(M)能耗(mJ)mAP@0.5mAP@0.5:0.95
MSD7.86.5166.3%38.9%
Tr-SpikeYOLO7.90.945.3%-

五、消融实验分析

1. ONNB模块贡献

  • 性能提升​:+7.5%mAP@0.5(对比基线)

 

2. MSDF框架作用

  • 多尺度融合增益​:在Gen1数据集上提升6.1%mAP@0.5:0.95
  • 计算效率​:时间步缩减至5步仍保持高精度

六、代码实现要点

1. 核心模块封装

python

class SpikingConvModule(nn.Module):def __init__(self, in_channels, out_channels):super().__init__()self.conv = nn.Conv2d(in_channels, out_channels, 3, padding=1)self.bn = nn.BatchNorm2d(out_channels)self.sn = SpikingNeuron(tau=0.25, vth=0.5)def forward(self, x):x = self.conv(x)x = self.bn(x)x = self.sn(x)return xclass ONNB(nn.Module):def __init__(self, in_channels):super().__init__()self.branch1 = nn.Sequential(SpikingConvModule(in_channels, in_channels//2),SpikingConvModule(in_channels//2, in_channels//2))self.branch2 = nn.MaxPool2d(2)self.concat = nn.Conv2d(in_channels, in_channels, 1)def forward(self, x):x1 = self.branch1(x)x2 = self.branch2(x)x = torch.cat([x1, x2], dim=1)x = self.concat(x)return x

2. 训练配置

yaml

optimizer:type: SGDlr: 0.01momentum: 0.9
scheduler:type: CosineAnnealingT_max: 300
dataset:type: COCODatasetimg_size: 640batch_size: 32
augmentation:type: Mosaicprob: 0.5

七、未来展望

  1. 跨模态融合​:结合RGB与事件流数据进行联合训练
  2. 硬件部署​:优化脉冲操作在存算一体芯片上的映射
  3. 动态场景扩展​:研究时变目标跟踪与行为预测任务

八、总结

本文提出的MSD模型通过生物启发的网络架构端到端训练策略,在保持7.8M超低参数量的同时,实现了COCO数据集62.0%mAP的检测精度,较传统SNN方法提升2.8%。其核心贡献在于:

  1. 首次实现无需预训练ANN的直接SNN目标检测
  2. 能耗较ANN模型降低82.9%,为边缘计算提供新范式
  3. 多尺度融合机制显著提升小目标检测性能
http://www.lqws.cn/news/495775.html

相关文章:

  • PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection
  • 稳定币走向监管:新秩序下的数字货币新局
  • Redis集群性能优化实战指南
  • 96道Docker 容器高频题整理(附答案背诵版)
  • 设计模式 - 工厂方法
  • 在AI时代看清糖网:糖尿病视网膜病变筛查的转型之路
  • CARLsim开源程序 是一个高效、易用、GPU 加速的软件框架,用于模拟具有高度生物细节的大规模脉冲神经网络 (SNN) 模型。
  • Word2Vec 原理是什么
  • mysql一张表,其中一个字段设置了唯一索引,又设置了普通索引,查询的时候很慢,没有走普通索引,是const
  • 如何在 Vue 应用中嵌入 ONLYOFFICE 编辑器
  • OpenLayers:台风轨迹动画
  • AI智能体——MCP 模型上下文协议
  • TestCafe 全解析:免费开源的 E2E 测试解决方案实战指南
  • Python datetime模块详解
  • SpringBoot中使用表单数据有效性检验
  • C#串口通讯实战指南
  • 前端跨域解决方案(7):Node中间件
  • C语言数组介绍 -- 一维数组和二维数组的创建、初始化、下标、遍历、存储,C99 变长数组
  • Linux笔记---线程控制
  • 容器技术入门与Docker环境部署指南
  • js逻辑:【增量更新机制】
  • 【LeetCode 热题 100】42. 接雨水——(解法一)前后缀分解
  • Profibus DP主站转EtherNet/IP从站总线协议转换网关
  • Auto-GPT vs ReAct:两种智能体思路对决
  • 开始读Learning PostgresSQL第二版
  • B端布局性能优化秘籍:如何让个性化页面加载速度提升
  • 实时反欺诈:基于 Spring Boot 与 Flink 构建信用卡风控系统
  • 【AI论文】扩展大型语言模型(LLM)智能体在测试时的计算量
  • 硬件工程师笔试面试高频考点汇总——(2025版)
  • 软件更新 | 从数据到模型,全面升级!TSMaster新版助力汽车研发新突破