当前位置：首页 > news >正文

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪

news 2025/6/27 19:58:30

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪

自己研一期间的小论文大致上的结构和内容基本上已经完成，到了最后在测试集上测试数据的阶段，在跑测试集的时间上就去看一些25年和多目标跟踪的领域相关的一些内容。掌握一些前言的内容，也可以为之后的实验和后续的工作提高一些baseline去使用。

热红外视频中多无人机的检测和跟踪是一个具有挑战性的问题，因为目标的对比度低、环境噪声大、目标尺寸小。

自己所做的论文存在的比较困难的一个地方就是对极小目标的跟踪上存在困难，检测器能检测到，但是提取特征上存在困难。

摘要

文章本身的创新性上感觉参考的价值不大，主要是集中在了从之前使用比较多的YOLOX上转换到了使用最新的YOLO12的模型来进行替换，整个代码中yolo12的使用是更有参考价值的。

提出了一个基于YOLOv 12和BoT-SORT的跟踪框架，而不是依赖于带有DeepSORT管道的YOLOv5

与传统的RGB图像相比，热红外视频具有许多优势，例如在低光照和恶劣天气条件下增强了能见度，使其成为安全和监控应用的理想选择。

在这里插入图片描述

这里论文中给出的图片信息应该就是热红外视频的跟踪方法。

下面的图像就说明了：从训练集中的边界框注释中裁剪的图像块，说明了UAV的不同大小，从几个像素到个位数像素。我们通过利用最新的YOLOv 12 探测器和BoT-SORT 跟踪算法构建了一个完整的无人机跟踪工作流程，其性能优于成熟的YOLOv 5 与DeepSORT的组合。

在这里插入图片描述

将文章主要的创新点总结如下：

我们建立了一个基于YOLOv 12和BoT-SORT的多无人机跟踪工作流程，为基于热红外视频的多无人机跟踪任务奠定了坚实的基础。
我们对各种试验调整提供了深入的分析，例如输入图像大小和跟踪器缓冲区调整的影响，并从我们强大的基线开始为未来的改进提供了基本考虑。

感觉这个第二个创新点直观的看上去我自己水平可能是理解不了，自我感觉是稍微有点水没提出以些实际有效的模块或者算法提供出来。

我们的方法通过利用最新的探测器和跟踪器，设置一个新的基准热红外视频为基础的无人机跟踪和指导未来的研究在多无人机跟踪任务的领域。

Methodology方法论

介绍了主要的检测模型YOLOv 12和跟踪算法BoT-SORT，然后详细介绍了我们的训练和推理策略。

BOT-SORT对于自己来说是十分熟悉的论文其代码的形式也是很了解用的比较多。对于最新的YOLO12确实是没了解过。

首先说明了它这个无人机跟踪算法的主要的三个任务：

挑战由三个轨道组成，每个轨道对应于不同的场景。航迹1和航迹2是SOT任务，不同之处在于是否给出了UAV的初始位置。航迹3是一个MOT任务，提供了无人机的初始位置。(Single Object Tracking (SOT))

在这里插入图片描述

报告了宽度、高度和面积分布，沿着它们的平均值和标准差，为模型超参数调整提供了重要的见解。请注意，与正式发布版本相比，数量可能略有不同，因为我们已删除了冗余注释和缺陷案例，如下图1所示。

在这里插入图片描述

后面介绍的主要是实验训练和验证以及设置的一些参数条件。

在这里插入图片描述

YOLOv12 with BoT-SORT-ReID for MOT

YOLOv 12因其卓越的上级性能而被选为所有轨道。

YOLOv 12的核心是采用剩余有效层聚合网络（R-ELAN），该网络解决了与注意力机制相关的优化挑战，特别是在大规模模型中。基于ELAN ，R-ELAN引入了具有自适应缩放的块级残差设计以及精细的特征聚合策略，以最小的开销共同促进有效的特征重用和稳定的梯度传播。

这里自己没看过YOLO12的论文不做详细的解释。

YOLOv12通过将FlashAttention与空间感知模块相结合，集成了以注意力为中心的架构，从而在保持低延迟的同时增强了上下文建模。引入7×7大核可分离卷积拓宽了感受野并加强了目标定位，特别是对于中小型目标。该架构针对现代GPU内存层次结构进行了优化，在不影响检测性能的情况下提高了计算效率并缩短了推理时间。这些创新使YOLOv12能够平衡速度和准确性，使其非常适合实时应用，大规模检测任务和跟踪管道。

对BOT-SORT的简单介绍

BoT-SORT 将卡尔曼滤波器与相机运动补偿（CMC）相结合，以在动态条件下稳定跟踪。CMC通过仿射变换采用全局运动补偿（GMC），使用金字塔Lucas-Kanade光流和离群值拒绝跟踪的图像关键点。

BoT-SORT-ReID通过集成来自四种不同ReID架构的外观线索来增强多对象跟踪。Bag of Tricks（Bagtricks）基线采用ResNet-50骨干，具有批量归一化，三重损失和交叉熵损失，用于鲁棒的特征提取。注意力广义平均池与加权三重损失（AGW）改进。

此外，在ByteTrack [45]之后，具有20帧间隙的线性tracklet插值减轻了遮挡或注释错误的错过检测

在这里插入图片描述