Learning a Neural Solver for Multiple Object Tracking
简介:
时间:2022
会议:CVPR
作者:Guillem Bras´o∗,Laura Leal-Taix´e
摘要:
利用图结构来自然地表述跟踪问题
提出了一个基于消息传递网络(MPN)的完全可微分框架
通过直接在图域上操作,该方法能够对整个检测集合进行全局推理,并预测最终的解决方案
创新点:
①提出基于消息传递网络(MPN)的多目标跟踪求解器,该框架能同时进行特征学习和最终解决方案预测,将特征提取和数据关联步骤结合到一个统一的学习过程中
②引入一种新颖的时间感知神经消息传递更新步骤
③直接学习预测图的最终分区,即直接预测轨迹
④对整个检测集进行全局推理预测最终解决方案,不局限于局部特征提取
相关工作:
跟踪作为图形问题:关联建模的标准方法是使用图,其中每个检测都是一个节点,边指示它们之间可能的链接,将数据关联表示为最大流
在跟踪中学习:直接学习求解器并将数据关联视为分类任务,调整原本的方法以与闭式求解器一起使用,利用MOT的通用图表作为执行学习的领域
在图表上进行深度学习:图神经网络(GNN)可以在图结构域上操作的神经网络的推广
跟踪作为图形问题:
问题陈述:
输入:一组对象检测
是视频的所有帧的对象总数,每个检测
,
表示边界框的原始像素,
包含其2D图像坐标,
表示时间戳
轨迹:一组轨迹被定义为
是形成轨迹
的检测数量
目标:找到一组轨迹最好解释观测值
网络流公式:
在经典的最低成本流程问题中,标签1定义为连接(i)属于同一轨迹的节点的边缘之间的1,并且(ii)在时间上是连续的属于同一轨迹;标签0代表其余的边
对于不同时间戳中的每个节点,我们定义一个二进制变量:
当 时,边
是有效的
限制:
从学习成本到预测解决方案:
建议直接学习预测图中的哪个边缘将是活动的,即预测二进制变量的最终值,将任务视为在边上的分类问题,其中标签是二进制变量
学习通过消息传递网络跟踪:
将多对象跟踪器作为边缘分类器训练多对象跟踪器,经过训练,以预测图中每个边缘的二进制流量变量的值,基于一个新的消息传递网络(MPN)能够捕获MOT问题的图形结构。
主要阶段:
①图形结构:给定视频中的一组对象检测,节点代表检测对象,边作为检测对象之间的连接
②功能编码:对于不同框架中的每对检测,计算一个具有编码其边界框相对大小,位置和时间距离的矢量,将其输入多层感知器
③神经信息传递:对节点和边缘的更新嵌入,其中包含取决于整体图形结构的高阶信息
④训练:使用交叉熵损失函数
消息传递网络:
令图表示为,
是每个
的节点嵌入,
是每个
的边嵌入。MPN的目标是学习一个函数,以传播节点和边缘的信息。
嵌入可以捕获上下文信息
时间感知消息传递:
修改现有的消息传递更新规则使其能够区分处理过去和未来的节点,通过将聚合过程分为两部分来实现的:一部分处理过去帧中的节点,另一部分处理未来帧中的节点。
在每个消息传递步骤和每个节点上,计算其所有邻居的过去和未来边缘嵌入式嵌入:
汇总了这些嵌入,具体取决于它们对于节点在以后还是过去的立场:
通过将其串联并将结果馈送到最后一个MLP来计算最终更新的节点嵌入,并表示为:
流程图:
功能编码:
外观嵌入:
卷积神经网络(CNN)学习直接从RGB数据中提取功能嵌入
几何嵌入:
代表以编码不同框架中的每对检测,它们的相对位置大小以及时间距离
训练和推理:
损失函数:
实验效果:
结论:
提出了一条完全可区分的管道,其中可以共同学习特征提取和数据关联。算法的核心是一个消息传递网络,具有新颖的时间感知更新步骤,该步骤可以捕获问题的图表结构。实验中,已经在先前的最新状态方面表现出了我们方法的明显性能提高。