当前位置: 首页 > news >正文

Learning a Neural Solver for Multiple Object Tracking

简介:

时间:2022

会议:CVPR

作者:Guillem Bras´o∗,Laura Leal-Taix´e

摘要:

利用图结构来自然地表述跟踪问题

提出了一个基于消息传递网络(MPN)的完全可微分框架

通过直接在图域上操作,该方法能够对整个检测集合进行全局推理,并预测最终的解决方案

创新点:

①提出基于消息传递网络(MPN)的多目标跟踪求解器,该框架能同时进行特征学习和最终解决方案预测,将特征提取和数据关联步骤结合到一个统一的学习过程中

②引入一种新颖的时间感知神经消息传递更新步骤

③直接学习预测图的最终分区,即直接预测轨迹

④对整个检测集进行全局推理预测最终解决方案,不局限于局部特征提取

相关工作:

跟踪作为图形问题:关联建模的标准方法是使用图,其中每个检测都是一个节点,边指示它们之间可能的链接,将数据关联表示为最大流

在跟踪中学习:直接学习求解器并将数据关联视为分类任务,调整原本的方法以与闭式求解器一起使用,利用MOT的通用图表作为执行学习的领域

在图表上进行深度学习:图神经网络(GNN)可以在图结构域上操作的神经网络的推广

跟踪作为图形问题:

问题陈述:

输入:一组对象检测

O=\left \{ o_{1},...,o_{n} \right \}

n是视频的所有帧的对象总数,每个检测o_{i}=(a_{i},p_{i},t_{i})a_{i}表示边界框的原始像素,p_{i}包含其2D图像坐标,t_{i}表示时间戳

轨迹:一组轨迹被定义为

T_{i}=\left \{ o_{i_{1}},..., o_{i_{n_{i}}}\right \}

n_{i}是形成轨迹i的检测数量

目标:找到一组轨迹T_{*}=\left \{ T_{1},...,T_{m} \right \}最好解释观测值O

网络流公式:

在经典的最低成本流程问题中,标签1定义为连接(i)属于同一轨迹的节点的边缘之间的1,并且(ii)在时间上是连续的属于同一轨迹;标签0代表其余的边

对于不同时间戳中的每个节点,我们定义一个二进制变量y(i,j)

当 y(i,j)=1时,边(i,j)是有效的

限制:

从学习成本到预测解决方案:

建议直接学习预测图中的哪个边缘将是活动的,即预测二进制变量y的最终值,将任务视为在边上的分类问题,其中标签是二进制变量y

学习通过消息传递网络跟踪: 

将多对象跟踪器作为边缘分类器训练多对象跟踪器,经过训练,以预测图中每个边缘的二进制流量变量y的值,基于一个新的消息传递网络(MPN)能够捕获MOT问题的图形结构。

主要阶段:

①图形结构:给定视频中的一组对象检测,节点代表检测对象,边作为检测对象之间的连接

②功能编码:对于不同框架中的每对检测,计算一个具有编码其边界框相对大小,位置和时间距离的矢量,将其输入多层感知器

③神经信息传递:对节点和边缘的更新嵌入,其中包含取决于整体图形结构的高阶信息

④训练:使用交叉熵损失函数

消息传递网络:

令图表示为G=(V,E)h_{i}^{(0)}是每个i\in V的节点嵌入,h_{(i,j)}^{(0)}是每个(i,j)\in E的边嵌入。MPN的目标是学习一个函数,以传播节点和边缘的信息。

嵌入可以捕获上下文信息 

时间感知消息传递:

修改现有的消息传递更新规则使其能够区分处理过去和未来的节点,通过将聚合过程分为两部分来实现的:一部分处理过去帧中的节点,另一部分处理未来帧中的节点。

在每个消息传递步骤和每个节点上,计算其所有邻居的过去和未来边缘嵌入式嵌入:

汇总了这些嵌入,具体取决于它们对于节点在以后还是过去的立场:

通过将其串联并将结果馈送到最后一个MLP来计算最终更新的节点嵌入,并表示为N_{v}

流程图:

功能编码: 

外观嵌入:

卷积神经网络(CNN)学习直接从RGB数据中提取功能嵌入

几何嵌入:

 代表以编码不同框架中的每对检测,它们的相对位置大小以及时间距离

训练和推理:

 损失函数:

实验效果:

结论:

 提出了一条完全可区分的管道,其中可以共同学习特征提取和数据关联。算法的核心是一个消息传递网络,具有新颖的时间感知更新步骤,该步骤可以捕获问题的图表结构。实验中,已经在先前的最新状态方面表现出了我们方法的明显性能提高。

http://www.lqws.cn/news/532189.html

相关文章:

  • 表单数据收集实现分析
  • vue3+element-plus 组件功能实现 上传功能
  • python的文学名著分享系统
  • Unity热更新 之 Lua
  • docker 命令
  • Unity AR构建维护系统的以AI驱动增强现实知识检索系统
  • 专题:2025中国游戏科技发展研究报告|附130+份报告PDF、原数据表汇总下载
  • [mcp-servers] docs | AI客户端-MCP服务器-AI 架构
  • 国外开源客服系统chathoot部署,使用教程
  • Windows 下让任何 .bat 脚本后台运行的方法:使用 NSSM 注册为服务,告别误关窗口
  • 常见的排序方法
  • VUE-----常用指令
  • 如何使用 vue vxe-table 来实现一个产品对比表表格
  • ​​深入解析 Vue 中的 pathRewrite:路径重写规则详解​​
  • 算法 按位运算
  • 光场操控新突破!3D 光学信息处理迎来通用 PSF 工程时代--《自然》子刊:无需复杂算法,这一技术让 3D 光学成像实现 “即拍即得”念日
  • AI智能体——OpenManus 源码学习
  • [3D-portfolio] 版块包装高阶组件(封装到HOC) | Email表单逻辑 | 链式调用
  • Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告
  • 记dwz(JUI)前端框架使用之--服务端响应提示框
  • Jenkins与Kubernetes深度整合实践
  • 从零开始理解百度语音识别API的Python实现
  • Trae IDE 大师评测:驾驭 MCP Server - Figma AI Bridge 一键成就前端瑰宝
  • HDC 2025丨华为云AI原生中间件,构建应用运行的领先架构
  • DAY 43 复习日
  • docker 安装Elasticsearch + kibana + ik分词器
  • (七)Dockerfile文件20个命令大全详解
  • 【数据结构】--排序算法
  • Java--程序控制结构(下)
  • RK3568-休眠唤醒关机开机流程