当前位置：首页 > news >正文

Learning a Neural Solver for Multiple Object Tracking

news 2025/6/27 10:56:11

简介：

时间：2022

会议：CVPR

作者：Guillem Bras´o∗，Laura Leal-Taix´e

摘要：

利用图结构来自然地表述跟踪问题

提出了一个基于消息传递网络（MPN）的完全可微分框架

通过直接在图域上操作，该方法能够对整个检测集合进行全局推理，并预测最终的解决方案

创新点：

①提出基于消息传递网络（MPN）的多目标跟踪求解器，该框架能同时进行特征学习和最终解决方案预测，将特征提取和数据关联步骤结合到一个统一的学习过程中

②引入一种新颖的时间感知神经消息传递更新步骤

③直接学习预测图的最终分区，即直接预测轨迹

④对整个检测集进行全局推理预测最终解决方案，不局限于局部特征提取

相关工作：

跟踪作为图形问题：关联建模的标准方法是使用图，其中每个检测都是一个节点，边指示它们之间可能的链接，将数据关联表示为最大流

在跟踪中学习：直接学习求解器并将数据关联视为分类任务，调整原本的方法以与闭式求解器一起使用，利用MOT的通用图表作为执行学习的领域

在图表上进行深度学习：图神经网络(GNN)可以在图结构域上操作的神经网络的推广

跟踪作为图形问题：

问题陈述：

输入：一组对象检测

$O=\left \{ o_{1},...,o_{n} \right \}$

$n$ 是视频的所有帧的对象总数，每个检测 $o_{i}=(a_{i},p_{i},t_{i})$ ， $a_{i}$ 表示边界框的原始像素， $p_{i}$ 包含其2D图像坐标， $t_{i}$ 表示时间戳

轨迹：一组轨迹被定义为

$T_{i}=\left \{ o_{i_{1}},..., o_{i_{n_{i}}}\right \}$

$n_{i}$ 是形成轨迹 $i$ 的检测数量

目标：找到一组轨迹 $T_{*}=\left \{ T_{1},...,T_{m} \right \}$ 最好解释观测值 $O$

网络流公式：

在经典的最低成本流程问题中，标签1定义为连接（i）属于同一轨迹的节点的边缘之间的1，并且（ii）在时间上是连续的属于同一轨迹；标签0代表其余的边

对于不同时间戳中的每个节点，我们定义一个二进制变量 $y(i,j)$ ：

当 $y(i,j)=1$ 时，边 $(i,j)$ 是有效的

限制：

从学习成本到预测解决方案：

建议直接学习预测图中的哪个边缘将是活动的，即预测二进制变量 $y$ 的最终值，将任务视为在边上的分类问题，其中标签是二进制变量 $y$

学习通过消息传递网络跟踪：

将多对象跟踪器作为边缘分类器训练多对象跟踪器，经过训练，以预测图中每个边缘的二进制流量变量 $y$ 的值，基于一个新的消息传递网络（MPN）能够捕获MOT问题的图形结构。

主要阶段：

①图形结构：给定视频中的一组对象检测，节点代表检测对象，边作为检测对象之间的连接

②功能编码：对于不同框架中的每对检测，计算一个具有编码其边界框相对大小，位置和时间距离的矢量，将其输入多层感知器

③神经信息传递：对节点和边缘的更新嵌入，其中包含取决于整体图形结构的高阶信息

④训练：使用交叉熵损失函数

消息传递网络：

令图表示为 $G=(V,E)$ ， $h_{i}^{(0)}$ 是每个 $i\in V$ 的节点嵌入， $h_{(i,j)}^{(0)}$ 是每个 $(i,j)\in E$ 的边嵌入。MPN的目标是学习一个函数，以传播节点和边缘的信息。

嵌入可以捕获上下文信息

时间感知消息传递：

修改现有的消息传递更新规则使其能够区分处理过去和未来的节点，通过将聚合过程分为两部分来实现的：一部分处理过去帧中的节点，另一部分处理未来帧中的节点。

在每个消息传递步骤和每个节点上，计算其所有邻居的过去和未来边缘嵌入式嵌入：

汇总了这些嵌入，具体取决于它们对于节点在以后还是过去的立场：

通过将其串联并将结果馈送到最后一个MLP来计算最终更新的节点嵌入，并表示为 $N_{v}$ ：

流程图：

功能编码：

外观嵌入：

卷积神经网络（CNN）学习直接从RGB数据中提取功能嵌入

几何嵌入：

代表以编码不同框架中的每对检测，它们的相对位置大小以及时间距离

训练和推理：

损失函数：

实验效果：

结论：

提出了一条完全可区分的管道，其中可以共同学习特征提取和数据关联。算法的核心是一个消息传递网络，具有新颖的时间感知更新步骤，该步骤可以捕获问题的图表结构。实验中，已经在先前的最新状态方面表现出了我们方法的明显性能提高。

http://www.lqws.cn/news/532189.html

相关文章：

表单数据收集实现分析

vue3+element-plus 组件功能实现上传功能

python的文学名著分享系统

Unity热更新之 Lua

Unity AR构建维护系统的以AI驱动增强现实知识检索系统

专题：2025中国游戏科技发展研究报告|附130+份报告PDF、原数据表汇总下载

[mcp-servers] docs | AI客户端-MCP服务器-AI 架构

国外开源客服系统chathoot部署，使用教程

Windows 下让任何 .bat 脚本后台运行的方法：使用 NSSM 注册为服务，告别误关窗口

常见的排序方法

VUE-----常用指令

如何使用 vue vxe-table 来实现一个产品对比表表格

深入解析 Vue 中的 pathRewrite：路径重写规则详解

算法按位运算

光场操控新突破！3D 光学信息处理迎来通用 PSF 工程时代--《自然》子刊：无需复杂算法，这一技术让 3D 光学成像实现 “即拍即得”念日

AI智能体——OpenManus 源码学习

[3D-portfolio] 版块包装高阶组件（封装到HOC) | Email表单逻辑 | 链式调用

Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告

记dwz（JUI）前端框架使用之--服务端响应提示框

Jenkins与Kubernetes深度整合实践

从零开始理解百度语音识别API的Python实现

Trae IDE 大师评测：驾驭 MCP Server - Figma AI Bridge 一键成就前端瑰宝

HDC 2025丨华为云AI原生中间件，构建应用运行的领先架构

DAY 43 复习日

docker 安装Elasticsearch + kibana + ik分词器

（七）Dockerfile文件20个命令大全详解

【数据结构】--排序算法

Java--程序控制结构（下）

RK3568-休眠唤醒关机开机流程