当前位置: 首页 > news >正文

DEPTHPRO:一秒内实现清晰的单目度量深度估计

摘要

我们提出了一种用于零样本度量单目深度估计的基础模型 —— Depth Pro。该模型能够合成具有极高清晰度和高频细节的高分辨率深度图。预测结果具有绝对尺度,无需依赖相机内参等元数据。同时,该模型运行速度极快,可在标准 GPU 上于 0.3 秒内生成一张 2.25 百万像素的深度图。这些特性得益于多项技术贡献,包括:用于密集预测的高效多尺度视觉 transformer、结合真实与合成数据集的训练协议(以实现高精度度量同时保持精细边界描绘)、专门设计的用于评估预测深度图边界准确性的指标,以及单张图像下的先进焦距估计方法。大量实验证明了这些设计选择的有效性,并展示了 Depth Pro 在多个维度上优于现有方法的表现。我们在 https://github.com/apple/ml-depth-pro 发布了完整代码和模型权重。

1 引言

零样本单目深度估计支撑着越来越多的应用场景,如高级图像编辑、视角合成和条件图像生成等。受到 MiDaS(Ranftl 等人,2022)及其众多后续工作的启发(Ranftl 等,2021;Ke 等,2024;Yang 等,2024a;Piccinelli 等,2024;Hu 等,2024),越来越多的应用开始利用从任意图像中提取稠密像素级深度图的能力。

本研究尤其受到单图新视角合成任务的启发,这是一个因单目深度估计的进展而焕发活力的重要应用方向(Hedman 等,2017;Shih 等,2020;Jampani 等,2021;Khan 等,2023)。视角合成等应用对单目深度估计提出了若干重要要求:

首先,深度估计器应能在零样本的设定下对任意图像工作,而不应局限于特定领域(Ranftl 等,2022;Yang 等,2024a)。此外,方法应当在零样本条件下生成具有度量尺度的深度图,以准确复现物体形状、场景布局和绝对尺寸(Guizilini 等,2023;Hu 等,2024)。为了在真实世界中具有最广泛的适用性,该方法还应在图像不提供相机内参(如焦距)的情况下输出带有绝对尺度的度量深度图(Piccinelli 等,2024)。这使得诸如“从这个场景的当前图像合成一个向外 63 毫米的视角”这样的任务在任意单张图像上都能实现(Dodgson,2004)。

其次,为获得最具视觉冲击力的结果,单目深度估计器应当支持高分辨率推理,生成能够紧密贴合图像细节(如头发、毛发等精细结构)的高质量深度图(Miangoleh 等,2021;Ke 等,2024;Li 等,2024a)。准确描绘精细结构所带来的好处之一是消除“飞行像素”(flying pixels),这种伪影在视角合成等任务中会显著降低图像质量(Jampani 等,2021)。

第三,对于许多交互式应用场景,深度估计器应具备低延迟特性,能够在一秒之内处理高分辨率图像,从而支持按需的交互式视角合成查询。低延迟通常是将零样本单目深度估计简化为神经网络单次前向传播的模型所具备的特性(Ranftl 等,2021;Yang 等,2024a;Piccinelli 等,2024),但这并非所有需要在测试阶段引入复杂计算机制的方法都能做到(Ke 等,2024;Li 等,2024a)。

在这里插入图片描述

在本研究中,我们提出了一个用于零样本度量单目深度估计的基础模型,能够满足上述所有要求。我们的模型 Depth Pro 能在任意图像上(即“野外场景”)输出具有绝对尺度的度量深度图,而无需依赖相机内参等元数据。该模型支持高分辨率推理,能在 V100 GPU 上以 0.3 秒的速度生成分辨率为 1536 × 1536(即 2.25 百万像素)的深度图(该分辨率为原生输出分辨率,后续可选上采样)。图 1 展示了一些代表性结果。Depth Pro 在物体边界的清晰描绘方面远超以往所有工作,包括头发、毛发和植被等精细结构。如图 2 所示,Depth Pro 在边界追踪方面表现出无与伦比的能力,其边界召回率相比此前所有方法都实现了数量级的提升(详见第 4 节)。与当前在边界精度方面的最新方法(Ke 等,2024;Li 等,2024a)相比,Depth Pro 快了 1 到 2 个数量级,边界更加精确,同时还提供具备绝对尺度的度量深度图
在这里插入图片描述

Depth Pro 的实现得益于多项技术创新:

首先,我们设计了一种高效的多尺度 ViT 架构,既能捕捉图像的全局上下文,又能在高分辨率下保留精细结构。

其次,我们提出了一组新的评估指标,可以利用高度精确的抠图数据集来量化单目深度图中边界追踪的准确性。

第三,我们设计了一套损失函数和训练课程,即便在真实数据集(边界区域监督较粗略且不精确)上训练,也能生成清晰的深度预测,同时配合合成数据集(像素级 GT 精确但真实感有限)进行训练,实现互补。

第四,我们提出了一种零样本单图焦距估计方法,性能远超此前的最新方法。

2 相关工作

早期的单目深度估计工作主要集中于在使用单一摄像头采集的独立数据集上进行训练(Saxena et al., 2009;Eigen et al., 2014;Eigen & Fergus, 2015)。虽然这种设置可以直接进行尺度一致的深度预测,但它的适用范围仅限于特定数据集和狭窄领域。

Zero-shot 深度估计。MegaDepth(Li & Snavely, 2018)表明,在多样化数据集上训练可以使单目深度预测从特定领域中泛化开来。MiDaS(Ranftl et al., 2022)进一步发展了这一思想,采用尺度-平移不变的损失函数在大规模多样数据集上训练。后续研究将该方案应用于transformer 架构(Ranftl et al., 2021;Birkl et al., 2023),并通过自监督扩大了可用数据集的范围(Spencer et al., 2023;Yang et al., 2024a)。还有一系列方法使用自监督从未标注的图像和视频数据中学习(Petrovai & Nedevschi, 2022;Yang et al., 2024a)。近年来也有研究(Ke et al., 2024;Gui et al., 2024)利用扩散模型合成相对深度图。尽管这些方法在泛化方面表现出色,但它们的预测结果在尺度和平移方面存在歧义,限制了对形状、尺寸或距离要求精确的下游应用。

Zero-shot 尺度深度(Metric Depth)。有一类研究通过引入全局深度值分布来提升尺度深度预测(Fu et al., 2018;Bhat et al., 2021;2022;Li et al., 2024b),并进一步通过场景类型进行条件建模(Bhat et al., 2023)。另一种方法则直接利用相机内参:Cam-Convs(Facil et al., 2019)将卷积与相机内参结合;LeReS(Yin et al., 2021)训练了一个单独的网络来去除点云的畸变以恢复尺度和平移信息;Metric3D(Yin et al., 2023)将图像或深度图映射到规范空间,并结合焦距重新映射深度预测;ZeroDepth(Guizilini et al., 2023)在变分框架中学习相机特定的 embedding;DMD(Saxena et al., 2023)在扩散模型中引入视场(FOV)条件;Metric3D v2(Hu et al., 2024)引入表面法向量作为辅助输出来提升尺度深度。这些方法都依赖于已知且准确的相机内参。

最近也有一些方法尝试在未知相机内参的情况下进行推理:如 Spencer et al.(2024)使用一个单独的网络,或 Piccinelli et al.(2024)预测一个相机 embedding用于在球面空间中进行深度预测条件建模。与这些方法类似,我们的方法不依赖于提供焦距作为输入,而是提出直接从深度预测网络的中间特征中估计视场(FOV),并展示该方法在跨领域焦距估计任务中大幅超越已有方法。

锐利遮挡轮廓(Sharp Occluding Contours)。SharpNet(Ramamonjisoa & Lepetit, 2019)引入法向量和遮挡轮廓约束,但训练时需要额外的轮廓和法向监督。BoostingDepth(Miangoleh et al., 2021)将低分辨率网络独立地应用于图像块,从而获得细节丰富的预测,但由于块缺乏全局上下文,需要复杂的多阶段融合流程。PatchFusion(Li et al., 2024a)在此基础上引入图像自适应的块采样和模块化设计,实现端到端训练。还有一类近期方法利用扩散先验增强遮挡边界的清晰度(Gui et al., 2024;Ke et al., 2024),但这些方法主要预测相对深度。我们提出了一个更简洁的架构,无需任务特定模块或扩散先验,在生成尺度深度图的同时,边界更清晰准确,推理速度提高了两个数量级。

引导深度超分辨率(Guided Depth Super-Resolution)通过输入图像将低分辨率深度预测进行上采样(Metzger et al., 2023;Zhong et al., 2023)。SMDNet(Tosi et al., 2021)预测双峰混合密度来强化遮挡轮廓。Ramamonjisoa 等(2020)提出一个模块对预训练网络的深度边界进行锐化学习。这些工作与我们的研究方向正交,并可用于进一步提升我们高分辨率预测的清晰度。

用于深度边界追踪的评估。Koch 等(2018)提出 iBims 数据集,该数据集手动标注了遮挡轮廓并定义了相应指标。但由于需要手动注释和高度精确的深度真值,该基准仅适用于少量室内场景。我们贡献了基于图像分割和抠图数据集的评估指标,补充了现有基准,可用于评估复杂动态环境或极细节场景下的边界预测性能,而这些情况下通常无法获得真实的深度真值。

多尺度视觉 Transformer。视觉 Transformer(ViT)已成为感知任务中的主流通用架构,但其运算通常在低分辨率下进行(Dosovitskiy et al., 2021)。将其直接扩展到高分辨率代价高昂,尤其是注意力模块成为主要瓶颈,因此许多研究提出了改进方案(Zhu et al., 2021;Liu et al., 2021;Li et al., 2022c;Chu et al., 2021;Liu et al., 2022a;2023;Cai et al., 2023;Jaegle et al., 2022)。

另一类方法修改 ViT 架构以生成多尺度特征层级结构(Fan et al., 2021;Xie et al., 2021;Yuan et al., 2021;Ranftl et al., 2021;Chen et al., 2021;Lee et al., 2022)。与这些方法不同,我们并不修改 ViT 架构,而是提出一种架构,在多个尺度上使用原始 ViT 主干网络并融合预测,生成一个高分辨率输出。这种架构可以直接受益于 ViT 预训练模型的不断进步,如可轻松替换为新变体(Oquab et al., 2024;Peng et al., 2022b;Sun et al., 2023)。

预训练的 ViT 已被用于语义分割和目标检测任务。ViT-Adapter(Chen et al., 2023)和 ViT-CoMer(Xia et al., 2024)通过添加卷积网络增强 ViT 的密集预测能力,ViT-Det(Li et al., 2022b)则在 ViT 上构建特征金字塔。与这些方法不同,我们的方法在多尺度上融合 ViT 特征以同时学习全局上下文和局部细节。

阅读全文请访问 DEPTHPRO:一秒内实现清晰的单目度量深度估计

http://www.lqws.cn/news/570925.html

相关文章:

  • 云端可视化耦合电磁场:麦克斯韦方程组的应用-AI云计算数值分析和代码验证
  • Leetcode百题斩-双指针
  • 电容屏触摸不灵敏及跳点问题分析
  • PyEcharts教程(010):天猫订单数据可视化项目
  • ISP Pipeline(9):Noise Filter for Chroma 色度去噪
  • H3C-路由器DHCPV6V4配置标准
  • 如何通过自动化减少重复性工作
  • GitHub vs GitLab 全面对比报告(2025版)
  • Java面试宝典:基础三
  • Vue中keep-alive结合router实现部分页面缓存
  • Spring生态创新应用
  • 【Redis#4】Redis 数据结构 -- String类型
  • 用户行为序列建模(篇七)-【阿里】DIN
  • AlphaFold3安装报错
  • 【系统分析师】2021年真题:论文及解题思路
  • GitLab详细分析
  • ​19.自动补全功能
  • 机器学习7——神经网络上
  • SpringCloud系列(40)--SpringCloud Gateway的Filter的简介及使用
  • 基于YOLO的目标检测图形界面应用(适配于YOLOv5、YOLOv6、YOLOv8、YOLOv9、YOLOv10、YOLOv11、YOLOv12)
  • Spring Cloud 服务追踪实战:使用 Zipkin 构建分布式链路追踪
  • NLP文本增强——随机删除
  • ASP.Net依赖注入!使用Microsoft.Extensions.DependencyInjection配置依赖注入
  • Vue中的v-if与emit事件传递:一个常见陷阱分析
  • documents4j导出pdf
  • Spark Web UI从0到1详解
  • 野生动物检测数据集介绍-5,138张图片 野生动物保护监测 智能狩猎相机系统 生态研究与调查
  • 【大模型学习 | CLIP 原理代码实现】
  • Matlab自学笔记六十一:快速上手解方程
  • Vue 与react 生命周期对比