CVPR-2025 | 上交拥挤无序环境下的具身导航最新基准!RoboSense:以机器人为中心的具身感知与导航大规模数据集
-
作者:Haisheng Su, Feixiang Song, Cong Ma, Wei Wu, Junchi Yan
-
单位:上海交通大学计算机学院,小马智行研究院,清华大学
-
论文标题: RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments
-
论文链接:https://arxiv.org/pdf/2408.15503
-
代码链接:https://github.com/suhaisheng/RoboSense (coming soon)
主要贡献
-
RoboSense是首个专为自主智能体在非结构化环境中导航的自我中心感知任务而设计的数据集,填补了该领域数据集的空白。
-
数据集包含丰富的标注与轨迹,超过133K同步数据,1.4M个3D边界框和ID标注,覆盖360度全景,形成216K轨迹,跨越7.6K时间序列,且在近距离范围内标注的周围障碍物数量远多于以往自动驾驶数据集,如KITTI和nuScenes。
-
基于RoboSense定义了6个标准化基准任务,包括多视图3D检测、LiDAR 3D检测、多模态3D检测、多目标跟踪、运动预测和占用预测,为相关导航研究的发展提供了评估和公平比较的基准。
研究背景
-
近年来,自动驾驶领域取得了显著进展,但社会移动机器人在校园、景区、街道、公园和人行道等拥挤和非结构化环境中导航的需求日益增长。
-
这些机器人需要从第一人称视角感知和理解周围环境,以安全地与行人和车辆互动并预测其意图。然而,现有针对自动驾驶的基准数据集主要在结构化道路和高速公路上采集数据,无法满足社会移动机器人在复杂环境中的导航需求。
-
因此,本文提出了RoboSense数据集,以推动自主导航技术在更具挑战性的环境中的发展。
RoboSense开放数据集
- 传感器设置与数据采集:
-
使用一款社会移动机器人(如扫地机器人)作为数据采集平台,配备了相机、激光雷达、鱼眼镜头等多种传感器,以确保360度无死角的数据采集。
-
在中国上海滴水湖附近手动遥控采集了42小时的数据,覆盖了22个不同地点,包括景区、公园、广场、校园、街道和人行道等6种主要户外或半封闭社交场景。
-
- 坐标系统:
-
定义了车辆坐标系、全局坐标系、激光雷达坐标系、相机坐标系和像素坐标系等多种坐标系统,以满足不同任务的需求。
-
- 真值标签:
-
在1Hz的频率下对关键帧(激光雷达、图像)进行标注,包括3D目标框(位置、大小、方向和类别)和轨迹。此外,还对周围环境进行了高质量的占用描述,以支持占用预测任务。
-
任务与度量指标
感知任务
- 3D目标检测:
-
要求检测出“车辆”、“行人”和“骑自行车者”三个主要类别的3D边界框,包括位置、大小、方向和类别。
-
采用mAP(平均精度均值)、AOS(平均方向相似性)和ASE(平均尺度误差)来衡量不同检测器的性能,并定义了一种新的匹配标准,即以自身车辆到最近碰撞点的距离比例作为阈值,而不是绝对的中心距离。
-
- 多目标跟踪:
-
需要将检测到的3D框在多视图时间序列中进行关联,为每个对象分配一个唯一且一致的轨迹ID。
-
主要采用sAMOTA(缩放平均多目标跟踪精度)和AMOTP(平均多目标跟踪精度)来衡量3D跟踪性能。
-
预测任务
- 运动预测:
-
基于感知结果,预测每个智能体在未来3秒内的未来轨迹。
-
采用minADE(最小平均位移误差)、minFDE(最小最终位移误差)、MR(未命中率)和EPA(端到端预测精度)等指标来衡量运动预测的准确性。
-
- 占用预测:
-
目标是估计3D空间中每个体素的状态。输入为一系列历史帧的周围视图相机图像,输出包括占用状态和语义标签。
-
使用IoU度量来评估预测占用的质量,并在3D和鸟瞰图空间下,针对不同范围内的体素进行评估。
-
实验
基准设置
-
RoboSense数据集包含7.6K序列(包括130K标注帧)的同步多传感器数据,涵盖6种主要类别(包括22个不同地点)的户外或半封闭场景。
-
数据集被划分为训练集、测试集和验证集,比例分别为50%、40%和10%。为了保护数据隐私,对所有传感器数据中的人脸、车牌和路标进行了脱敏处理。
传感器规格
详细列出了所有设备的规格,包括相机、激光雷达、超声波传感器和定位系统,所有设备通过网络时间协议(NTP)进行时间同步。
实现细节
-
对于激光雷达检测任务,设置了点范围和体素大小;对于图像检测任务,使用ResNet18作为骨干网络,并调整输入图像的大小。
-
在性能评估中,采用了提出的最近碰撞点距离比例(CCDP)作为匹配标准。
感知基线
-
激光雷达3D检测:实现了多种流行的基于CNN的方法,包括PointPillar(基于柱状)、SECOND(基于体素)和PV-RCNN(基于点-体素的两阶段方法),以及基于Transformer的方法Transfusion-L。其中,PointPillar作为激光雷达3D检测任务的基线。
-
多视图3D检测:选择了基于LSS的BEVDet作为图像3D检测任务的基线,并重新实现了其扩展版本BEVDet4D(利用历史时间线索)和BEVDepth(采用额外的深度分支),还包括基于Transformer的BEVFormer。
-
多目标跟踪:遵循“基于检测的跟踪”范式,使用相机或激光雷达数据的3D检测结果作为输入,并采用AB3DMOT作为3D空间中多目标跟踪器的基线。
预测基线
-
运动预测:实现了基于视觉的端到端方法ViP3D和基于激光雷达的PnPNet,用于联合感知和运动预测。此外,还报告了假设智能体以恒定位置或速度移动的运动预测结果,以反映数据集在预测任务上的多样性和难度。
-
占用预测:将BEVDepth扩展到3D占用预测任务,并将其作为视觉占用预测任务的基线。具体来说,用占用重建层替换了原始检测解码器,同时保持了BEV特征编码器。
结果与分析
- 感知结果:
-
激光雷达3D检测中,Transfusion-L表现最佳;多视图3D检测中,BEVDet4D和BEVDepth通过引入时间线索和额外的深度分支取得了显著提升。
-
激光雷达基3D检测器比视觉基方法能生成更高质量的检测结果,但视觉基方法能够检测不同范围内的各种对象。在不同传感器布局下,视觉感知在远距离区域表现更好,而激光雷达在近距离目标定位方面具有明显优势。
-
多模态3D感知通过后期融合策略,将多视图3D检测器和激光雷达3D检测器的结果进行后处理,显著提升了近距离物体的CCP基3D AP。在多目标跟踪任务中,引入更多传感器后,视觉基方法也能取得与激光雷达基方法相媲美的跟踪性能,且多模态输入可以进一步提升性能。
-
然而,即使配备了多模态和多传感器数据,感知性能在近距离物体上仍存在不足,这凸显了本基准在开发针对拥挤和非结构化环境中导航的自我中心感知框架方面的重要性和挑战性。
-
- 预测结果:
-
在运动预测方面,无论是基于视觉的端到端方法还是基于激光雷达的端到端方法,都显著优于将智能体建模为具有恒定位置或速度的基线设置。
-
在占用预测方面,使用4F传感器数据作为输入,在不同范围内报告了3D和鸟瞰图空间下的mIOU度量性能,且近距离范围内的性能优于远距离区域。
-
结论与未来工作
- 结论:
-
RoboSense是一个在复杂社交场景中收集的真实世界多模态数据集,涵盖了7.6K个场景,包含1.4M个3D边界框和216K个轨迹的标注,覆盖了133K个同步帧。此外,还提供了占用描述以促进周围环境的理解。
-
- 未来工作:
-
在未来的工作中,将扩展更多的任务和相关的基准,例如运动规划,以实现端到端的自主导航应用,并探索联合优化为模块化训练带来的额外好处。
-