DexGraspVLA:面向通用灵巧抓取的分层VLA-2025.5.22-北京大学
0. 前言
项目页
论文页
github
这篇工作吸引我的点:1200+种未见物体、光照、背景组合上有90%+的成功率。这种对于环境的泛化能力是怎么做到的。而且在我个人领域中也能够参考一下。
1. 背景与相关工作
1.1 提出问题
灵巧多指机械手作为多功能的机器人末端执行器,在各种操作任务中展现出了卓越能力。 在这些能力中,抓取是最基础的前提,却也是最具挑战的问题之一。
一台通用型机器人必须能够在任意场景中抓取各种各样的物体。 然而,现有研究通常依赖一些受限的假设,例如单一物体场景或有限环境,从而导致泛化能力受限。 然而,开发通用灵巧抓取能力面临多方面的挑战。
- 在物体层面,控制策略必须能够跨越几何形状、质量、表面纹理和方向等多种物理属性进行泛化。
- 系统还必须对光照条件、背景复杂性和潜在干扰等环境因素展现出鲁棒性。
- 加之多物体场景带来额外复杂性,需要更复杂的推理能力。
例如,在杂乱或堆叠的环境中,规划抓取所有物体的最佳顺序是一项关键的认知任务,超出了单纯执行抓取动作的范畴。
非常契合水果采摘的环境
一类研究采用两阶段流程:先从单帧图像中预测目标抓取位姿,再执行开环运动规划以达到该位姿。然而,这类方法严重依赖精确的相机标定和机械精度。
相比之下,端到端范式(如模仿学习和强化学习)通过基于实时反馈不断调整动作,实现闭环抓取,提供了更鲁棒、更自适应的解决方案。
模仿学习通过直接学习人类示范,为灵巧抓取提供了可行替代方案。强化学习在仿真中取得了显著成功,但真实世界物理复杂性的仿真仍具挑战,导致不可避免的“仿真到现实”差距。
然而,这些方法通常难以在示范数据之外实现泛化。而且,要覆盖通用抓取所需的所有物体和环境变化来收集专家轨迹,实际上也不切实际。因此,如何有效利用有限的专家数据来实现广泛泛化成为一大关键挑战。
1.2 解决问题
视觉-语言基础模型的快速兴起为机器人操作带来了可喜机遇。通过在互联网规模的数据上预训练,这些模型对视觉和语言输入都展现了出色的场景理解和泛化能力。为了将这些能力用于决策,研究者探索将视觉-语言基础模型与动作生成相结合,催生了视觉-语言-动作(VLA)模型。
一种直接的方法是在机器人数据上以端到端方式训练视觉-语言模型(VLM)。然而,这一范式通常需要大量人工收集的示范,以涵盖真实世界的全部多样性和复杂性。即使如此,这些模型在未见过的场景中性能也会显著下降,还需更多数据收集和微调以适应新情况。此外,机器人数据集与海量预训练语料之间的巨大差异会导致灾难性遗忘,损害模型宝贵的长程推理能力。
另一部分研究提出了分层 VLA 架构,将高层任务规划与低层动作控制解耦。虽然它们对长时程任务完成和更通用的具身智能具有潜力,但如何有效利用基础模型来学习可泛化的低层控制器并实现具身推理仍未被充分研究。
针对杂乱场景,基于 RGB 图像感知和语言指令,他们提出了 DexGraspVLA,首个将基础模型与模仿学习优势互补的、一种面向通用灵巧抓取的分层 VLA 框架。
它利用预训练的 VLM 作为高层任务规划器,并学习基于扩散模型的策略作为低层动作控制器。实现稳健泛化的关键在于,通过基础模型迭代地将多样的语言和视觉输入转化为领域不变表示,从而减缓领域差异,使模仿学习能够更有效地应用,然后在此基础上高效地应用扩散式模仿学习,捕捉他们的灵巧抓取数据集中的动作分布。
领域不变表示(Domain-invariant representations):不管是不同光照、背景,还是不同说法的指令,转化后都落在同一个“抽象空间”,让模型更好地学习。
领域差异(Domain shift):训练和测试环境不一致导致的性能下降,比如在实验室灯光下训练,搬到工厂一用就“盲”。
因此,对训练集中未见过的新场景不再导致失败,因为基础模型将其翻译成类似训练时遇到的表示——仍然落在已学策略的作用域内。
该方法将基础模型的广博世界知识与模仿学习的强大动作建模能力融合,从而在实际应用中实现稳健的泛化性能。
值得注意的是,DexGraspVLA 在“零样本”环境下(1,287种未见过的物体、光照和背景组合上)取得了 90.8% 的成功率。在单物体基准测试中,它达到98.6%的成功率,比直接从原始视觉输入中学习的现有基线模型高出至少48%。
实证分析验证了模型内部行为在环境变化下的一致性,从而证明了他们设计的有效性,并解释了其泛化性能。DexGraspVLA 还展示了:自由形式的长时序指令执行(平均任务成功率达89.6%)、对对抗性物体和人为干扰的鲁棒性,以及失败恢复能力——这些在以往研究中很少能同时实现。
将其扩展到非抓握(nonprehensile)物体操作进一步证明了该方法的通用性。
非抓握(nonprehensile):如推、滑、拍等,不一定要用“抓”的动作,也能完成搬运;拓展了使用场景。
虽然已经十分有效,但当前版本尚未涵盖功能性抓取与后续操作,也未整合触觉传感。未来工作中,计划扩展高层规划器以生成更细粒度的可操作性提示,并学习一个集成触觉反馈的面向任务的操作控制器,进一步拓展 DexGraspVLA 的应用范围。
1.3 相关工作
灵巧抓取通常分为两类:两阶段方法和端到端方法。
两阶段方法先生成一个抓取位姿,然后控制灵巧机械手去达到该位姿。主要挑战在于如何根据视觉观测生成高质量的抓取位姿。目前的方法使用基于采样、基于优化或基于回归的方式来生成目标抓取位姿,然后再做运动规划去执行。
采样(Sample-based):随机生成大量候选抓点,挑最好的来用;像投篮时多投几次选命中率最高的角度。
优化(Optimization-based):定义一个评估函数,自动调整参数让分数最高;好比用梯度下降找到最优位置。
回归(Regression-based):训练模型直接预测抓点坐标,就像看脸就能猜出年龄。
虽然这些方法受益于感知与控制的解耦和仿真数据生成,但通常缺乏闭环反馈,对扰动和标定误差非常敏感。
端到端方法通过模仿学习或强化学习直接对抓取轨迹建模。最近的研究尝试在仿真环境中用强化学习训练灵巧操作,然后迁移到现实世界。然而,依赖仿真不可避免地带来“仿真到现实”的差距,而在真实环境中直接训练有样本效率低的问题。
近来,使用人类示范的模仿学习在复杂任务中取得了显著成果。这些方法需要人进行远程操控来收集示范数据,并直接学习数据集中的动作分布。虽然训练更容易,但这种方法限制了它们的泛化能力。
将 VLM 模型应用于机器人是一个很有前景的方向。一种常见方法——如 RT‑X、OpenVLA 和 Pi0——是在机器人数据上直接微调视觉-语言模型。然而,这需要海量且多样的示范数据,仍然难以应对未见场景,而且常因灾难性遗忘而削弱原有的视觉-语言能力。
另一种范式是采用分层 VLA 架构:高层模块解读视觉和语言,生成中间动作指导;低层模块则在此指导下执行控制。与我们最相关的方法也使用可操作性提示作为动作指导,比如可操作性地图和关键点。
它们通常用预训练的视觉-语言模型来预测可操作性,然后再做开环运动规划。 相比之下,DexGraspVLA 的高层规划器使用边界框作为可靠的可操作性指导,并加入显式推理以处理自由格式指令;而低层控制器则是学来的闭环策略,增强了鲁棒性。
为了学习该策略,他们利用基础模型提取领域不变表示,从而能高效地从有限示范中进行模仿学习,并通过将真实世界复杂性转移给模型的感知主干,实现强大的零样本泛化。
2. DexGraspVLA 具体实现
2.1 问题表述
他们的目标是开发一种基于视觉的控制策略,用于语言指导的灵巧抓取,并将其表述为一个序列决策问题。
首先给出一条语言指令 l,例如“抓起玩具”,以直接指定目标物体。在每个时刻 t,策略 π 会接收:
- 来自腕部摄像头的俯视图像 I t w ∈ R H × W × 3 I^w_t \;\in\; \mathbb{R}^{H \times W \times 3} Itw∈RH×W×3(H 和 W 分别是图像的高度和宽度);
- 来自主视角头部摄像头的第三视角图像 I t h ∈ R H × W × 3 I^h_t \;\in\; \mathbb{R}^{H \times W \times 3} Ith∈RH×W×3;
- 机器人的本体感知 s t ∈ R 13 s_t \;\in\; \mathbb{R}^{13} st∈R13,包含臂部关节角度 s t arm ∈ R 7 s^{\text{arm}}_t \;\in\; \mathbb{R}^{7} starm∈R7,和手部关节角度 s t hand ∈ R 6 s^{\text{hand}}_t \;\in\; \mathbb{R}^{6} sthand∈R6。
在这些观测条件下,机器人会输出一个动作 a t = ( a t arm , a t hand ) ∈ R 13 a_t \;=\; \bigl(a^{\text{arm}}_t,\; a^{\text{hand}}_t\bigr) \;\in\; \mathbb{R}^{13} at=(atarm,athand)∈R13,其中 a t arm ∈ R 7 a^{\text{arm}}_t \;\in\; \mathbb{R}^7 atarm∈R7 和 a t hand ∈ R 6 a^{\text{hand}}_t \;\in\; \mathbb{R}^6 athand∈R6 分别表示臂部和手部的目标关节角度。该动作从策略分布 π ( ⋅ ∣ { I j w } j = 0 t , { I j h } j = 0 t , { s j } j = 0 t , l ) \pi\bigl(\,\cdot\;\bigm|\;\{I^w_j\}_{j=0}^t,\;\{I^h_j\}_{j=0}^t,\;\{s_j\}_{j=0}^t,\;l\bigl) π(⋅ {Ijw}j=0t,{Ijh}j=0t,{sj}j=0t,l) 中采样得到。
这个过程会持续进行,直到满足终止条件为止。机器人会得到一个二值奖励 r ∈ { 0 , 1 } r \;\in\; \{0,1\} r∈{0,1},用于表示它是否成功完成了指令 l。
策略 π 的目标是最大化期望奖励 E l , ( I j w , I j h , s j , a j ) j = 0 T [ r ] \mathbb{E}_{l,\,(I^w_j,I^h_j,s_j,a_j)_{j=0}^T}\bigl[\,r\,\bigr] El,(Ijw,Ijh,sj,aj)j=0T[r]。更一般地,考虑用户提示 p 可能是一个长时程任务,包含多次抓取过程,例如“清理桌面”。这就要求策略 π 能推理用户提示,将其分解为多个子指令 { l i } \{l_i\} {li},并按顺序完成它们。
2.2 DexGraspVLA 框架
如图 2 所示,DexGraspVLA 采用由规划器(planner)和控制器(controller)组成的分层模块化结构。
规划器:
作者意识到,要实现通用灵巧抓取,模型必须处理多模态输入、执行视觉定位(grounding),并对用户提示进行推理。基于最新进展,他们选用了现成的预训练 Qwen 视觉-语言模型作为高层规划器,用于动态规划并监控灵巧抓取流程。
对于用户提示 p(例如“清理桌面”),规划器首先记录初始头部图像,然后基于该观测提出一次抓取指令 l(例如“抓饼干”)。 对于每条指令 l,规划器在初始时刻 t0 的头部摄像头图像中,用边界框 ( x 1 , y 1 , x 2 , y 2 ) (x_1, y_1, x_2, y_2) (x1,y1,x2,y2) 标示目标物体,作为任务可行性指导。
虽然语言指令的表述和内容对不同用户和场景可以多样灵活(呈现领域差异),但边界框作为目标定位格式在语言和视觉输入变化下依然一致(实现领域不变)。 因此,这种转换减轻了控制器的学习难度。
发布边界框后,规划器以 1 Hz 的频率查询摄像头,监控控制器的执行情况。一旦抓取成功,规划器就触发预设的放置动作。每次抓取尝试结束后,规划器将机器人重置到初始状态。
根据初始和当前的头部图像及用户提示 p,规划器提出新的指令 l,循环此过程直到完成整个提示 p。
控制器:
基于目标边界框 ( x 1 , y 1 , x 2 , y 2 ) (x_1, y_1, x_2, y_2) (x1,y1,x2,y2),控制器的目标是在杂乱环境中抓取指定物体。
将边界框输入 SAM ,获得目标物体的初始二值掩码 m 0 ∈ { 0 , 1 } H × W × 1 m_0 \;\in\; \{0,1\}^{H \times W \times 1} m0∈{0,1}H×W×1,然后使用 Cutie 持续跟踪该掩码,得到每个时刻 t 的 m t m_t mt。这保证了在整个抓取过程中对目标物体在杂乱场景中的准确识别。
问题就是去学习策略 π,能有效地对条件观测下的动作分布进行建模: π ( ⋅ ∣ I t w , I t h , s t , m t ) π(· | I^w_t, I^h_t, s_t, m_t) π(⋅∣Itw,Ith,st,mt).
为了实现通用的灵巧抓取,系统必须在各种真实场景中都能有效泛化。 然而,原始视觉输入 I t w , I t h I^w_t, I^h_t Itw,Ith的高度变化性给学习任务关键表示带来了根本性挑战。
传统的模仿学习方法即便在物体或环境条件发生细微变化时,也常常出现灾难性失败。为了解决这一问题,我们再次将可能变化的原始输入转换为适合模仿学习的领域不变表示。作者注意到像素级感知变化很大,但大规模基础模型提取的细粒度语义特征往往更鲁棒、更一致。
因此,使用在互联网级数据上预训练的特征提取器 ϕ(如 DINOv2),从原始图像中提取特征。 在每个时刻 t,得到头部摄像头图像特征
z t h = φ h ( I t h ) ∈ R L h × D h z^h_t = φ_h(I^h_t) ∈ R^{L_h×D_h} zth=φh(Ith)∈RLh×Dh和腕部摄像头图像特征 z t w = φ w ( I t w ) ∈ R L w × D w z^w_t = φ_w(I^w_t) ∈ R^{L_w×D_w} ztw=φw(Itw)∈RLw×Dw,其中 L h , D h , L w , D w L_h,D_h,L_w,D_w Lh,Dh,Lw,Dw 分别表示头部和腕部特征序列的长度和隐藏维度。这些提取的特征对干扰性视觉因素具有较好的不变性。
到此,原始语言和视觉输入(包括指令 l 及图像 I t w , I t h I^w_t, I^h_t Itw,Ith)已借助基础模型迭代转化为领域不变表示——包括掩码 m t m_t mt 和特征 z t h , z t w z^h_t, z^w_t zth,ztw。
这为模仿学习奠定了基础。接下来要学习策略 π,基于这些不变表示预测长度为 H 的动作片段(action chunk)。
为了融合物体掩码和头部图像特征,我们用随机初始化的 ViT 将 m t m_t mt 投影到头部特征空间,得到 z t m ∈ R L h × D h z^m_t ∈ R^{L_h×D_h} ztm∈RLh×Dh, 然后与 z t h z^h_t zth 按 patch 拼接,得到 z ˉ t h ∈ R L h × 2 D h \bar{z}^h_t ∈ R^{L_h×2D_h} zˉth∈RLh×2Dh
随后,我们使用各自的 MLP(多层感知机)将 z t h z^h_t zth 、腕部特征 z t w z^w_t ztw 和机器人状态 s t s_t st 映射到统一的嵌入空间,得到 z ~ t h , z ~ t w , z ~ t s \tilde z^h_t,\ \tilde z^w_t,\ \tilde z^s_t z~th, z~tw, z~ts
然后将这些嵌入拼接,形成完整的观测特征序列 z ~ t obs ∈ R ( 1 + L h + L w ) × D \tilde z^{\text{obs}}_t ∈ R^{(1+L_h+L_w)×D} z~tobs∈R(1+Lh+Lw)×D.
在动作预测阶段,采用 DiT 来生成多步动作,遵循扩散策略(diffusion policy)范式。
在推理阶段,模型通过多次迭代去噪,从学到的分布中恢复出目标多步动作序列,从而实现对复杂长时程行为的稳健模仿。
总而言之,DexGraspVLA 利用基础模型将多变输入转化为领域不变表示,再在此基础上进行模仿学习。该方法不仅利用了基础模型的广博世界知识和泛化能力,还能有效地将这些抽象表示映射到最终动作输出。
2.3 数据收集
为训练灵巧抓取策略,他们手工收集了一个数据集,其中包含 2,094 次在杂乱场景下成功抓取的示范,使用了 36 种在大小、重量、几何形状、纹理、材质和类别上各异的家用物体。
每个示范回合 τ = ( I t h , I t w , s t , m t , a t ) t = 0 T τ = {(I^h_t, I^w_t, s_t, m_t, a_t)}_{t=0}^T τ=(Ith,Itw,st,mt,at)t=0T会在每个时刻 t 记录头部和腕部摄像头原始图像 I t w , I t h I^w_t, I^h_t Itw,Ith、机器人本体感知 s t s_t st、物体掩码 m t m_t mt 以及动作 a t a_t at。掩码 m t m_t mt 的标注方式与控制器中使用的方法相同。
对于每种物体,随机放置并收集多次抓取示范,每个回合中周围的物体也会随机变化。这些示范以典型的人类动作速度进行,每次大约持续 3.5 秒。示范数据经过严格的人工检查,以保证质量和可靠性。
DexGraspVLA 的控制器便是在该数据集上通过模仿学习训练而成。
3. 实验
在本节中,全面评估 DexGraspVLA 的性能。为了确保在真实场景中可用,所有实验都在与示范环境不同的地方进行。这种“零样本”设置在本质上比以往大多数模仿学习研究更具挑战,后者通常需要微调才能取得高性能。
实验旨在回答以下几个问题:
- 大规模泛化(第 3.2 节):DexGraspVLA 能否在成千上万种未见过的物体、光照和背景组合上都表现良好?
- 基线对比(第 3.3 节):与那些直接用原始图像训练、且不固定特征提取器的基线方法相比,表现如何?
- 机制分析(第 3.4 节):在不同环境下,模型内部的行为(如特征、注意力)是否保持一致?
- 长时序任务完成(第 3.5 节):DexGraspVLA 对自由格式的、多步指令完成得有多好?
- 扩展到非抓握操作(第 3.6 节):能否拓展到抓握之外的其他灵巧操作技能?
3.1 实验设置
硬件平台
如图 3 所示,我们用于灵巧抓取的机器人是一台 7 自由度(DoF)RealMan RM75-6F 机械臂,配备一只 6 自由度 PsiBot G0-R 机械手。
一台 RealSense D405C 摄像头安装在腕部,提供第一视角;另一台 RealSense D435 安装在机器人头部,提供第三视角。 待抓取的物体放置在机器人前方的桌面上。机器人的控制频率为 20 Hz。
基线方法
目前没有任何现成方法能直接作为比较基线。
现有的灵巧抓取方法要么无法在杂乱场景中执行语言指令,要么依赖不适配我们机械手结构的优化方法,要么基于点云而非 RGB 图像;而相关的 VLA 框架也与多指机械手不兼容。
因此,选择如下几种方法进行对比:
- DexGraspVLA(ours):完整实现的 DexGraspVLA。
- DexGraspVLA(DINOv2-train):方法相同,但将 DINOv2 编码器设为可训练。
- DexGraspVLA(ViT-small):方法相同,但用小型、可训练的 ViT 代替 DINOv2。
实验上,DexGraspVLA(ViT-small)可视为扩散策略的增强版,该策略是当前的模仿学习最先进基线。
除长时程任务(第 3.5 节)外,所有实验中的规划器均基于 Qwen‑VL‑Chat,长时程任务使用 Qwen2.5‑VL‑72B‑Instruct 。具体实现细节见附录 A。Ours@k(k = 1, 2, 3)每次测试最多允许 k 次尝试。Ours@1 等同于原始 Ours 方法。同一次整体尝试中,策略在初次失败后进行的二次抓取不单独计数。
3.2 大规模泛化评估
挑选了 360 种未见过的物体、6 种全新背景和 3 种全新光照条件。
这些物体在大小、重量、几何形状、纹理、材质和类别上都非常多样,但均可被灵巧手抓取(详见图 4 的测量与可视化)。背景和光照条件的选择要在视觉上有明显差异。通过在杂乱场景(每个场景约 6 个物体)中进行三种抓取任务来评估泛化能力:
- 未见物体:在白色桌面、白光条件下,每种新物体随机摆放一次,共 360 次测试。
- 未见背景:从 360 种中抽取 103 种物体集 S,在每种新背景下摆放 103 个场景(白光),共 618 次测试。
- 未见光照:同样用 S 中的 103 种物体,在白色桌面下为每种光照条件构造 103 个场景,共 309 次测试。
具体细节见附录 B。
左边就是360中未见物体,包括了一些水果。右侧是物体属性的分布
若抓取后的物体在距离桌面 10 cm 处保持 20 秒,则判定为成功抓取。成功率为成功次数与测试总次数之比;综合性能则按各任务的测试比例加权平均。在表 1 中给出了量化结果。
从首行(“Ours@1”)看,DexGraspVLA 在 360 种未见物体上单次尝试成功率为 91.1%,在 6 种未见背景上为 90.5%,在 3 种未见光照下为 90.9%,综合成功率达 90.8%。
这些结果表明,DexGraspVLA 能在多种未见环境中,从杂乱场景中稳健且精准地抓取指定物体,且无需任何领域微调。这凸显了模型的强大泛化能力,并表明我们的框架在很大程度上缓解了模仿学习长期以来“过拟合小场景”这一难题。
将在第 3.4 节深入分析泛化的原因,并在第 3.6 节展示其应用扩展。
从第 2 行和第 3 行(“Ours@2”“Ours@3”)可见,最多三次尝试时成功率进一步提升到 96.9%,说明还有更高的潜力。 最后,模型平均抓取一个物体大约需要 6 秒,接近人类水平,确保在真实场景中具有实用性。
3.3 和不冻结视觉编码器的基线比较
任务与指标
为将 DexGraspVLA 与那些直接从原始视觉输入中学习、且不锁定(冻结)视觉编码器的基线方法进行比较,进行了单物体抓取实验,使用了 13 种已见物体和 8 种未见物体。
每个物体在可达工作区和摄像头视野内的五个桌面位置上各放置一次;每个位置进行两次独立抓取试验,分别计数以考虑推理随机性。总计 210 次测试,均在白色桌面和白色光照下进行。成功率计算方式与第 3.2 节相同。
结果
表 2 显示,DexGraspVLA(ours)在已见和未见物体上均稳定获得超过 98% 的成功率,远超 DINOv2-train 和 ViT-small 变体。在零样本设置下的接近完美表现表明对领域差异具有极强鲁棒性。
有趣的是,对未见物体的表现略优于已见物体,这意味着模型学到的是“抓取任务”本身,而非仅仅对训练数据的过拟合。 相比之下,将原始输入直接映射为动作的基线方法无法泛化,因为感知变化会轻易让它们偏离训练分布。
3.4 模型表现分析
为进一步验证这种设计,他们检查在多种视觉条件下模型内部行为是否保持一致,如图 5 所示。
在同一杂乱场景(9 个物体,目标为“抓住中间的蓝色酸奶”)下,分别测试四种环境:白色桌面、校准板、多彩桌布及多彩桌布下的迪斯科灯光。
虽然图 5 第一行的头部图像看上去差异巨大,但第二行的 DINOv2 特征却相当一致。这些特征通过将主成分映射到 RGB 通道来可视化,方法同 Oquab 等。在不同环境下,物体的特征始终得到稳健保留和匹配,这从根本上让只在单一数据域上训练的 DexGraspVLA 能够泛化。
第三行展示了 Cutie 对目标物体的精确跟踪,为控制器提供正确的引导。在领域不变的掩码和 DINOv2 特征基础上,DiT 动作头即可预测后续动作。
第四行中,对 DiT 所有指向头部图像的交叉注意力做了平均与归一化,发现所有注意力图均聚焦在目标物体上,而未被环境分散注意力。
第五行将注意力图叠加到原始图像上,以验证注意力分布的合理性。所有可视化细节见附录 B。
由此,证明了 DexGraspVLA 确实将多变的原始输入变换为不变表示,并在此基础上有效地应用模仿学习来建模数据分布,解释了其卓越的泛化性能。正如所料,它在这四种环境中均能成功抓取酸奶。
3.5 长时序任务评估
本实验评估 DexGraspVLA 完成长时程复杂任务的能力,我们设计了四种用户提示:“清理桌面”“抓取所有瓶子”“抓取所有绿色物体”和“抓取所有食物”。
这些提示需要模型具备常识和物理知识,才能依次识别并抓取合适的目标。每种提示我们随机配置 24 个杂乱场景。“清理桌面”场景中包含 3 个未见物体,其余提示的场景中各包含 3–4 个未见物体,其中 2 个为需抓取的目标。所有任务均在白色桌面和白色光照下完成。
每种提示随机配置 24 个杂乱场景。“清理桌面”场景中包含 3 个未见物体,其余提示的场景中各包含 3–4 个未见物体,其中 2 个为需抓取的目标。所有任务均在白色桌面和白色光照下完成。
对于每个任务,报告任务成功率(完成全部阶段的测试占比)。在成功测试中,还统计每个目标的平均抓取尝试次数,以及以下各环节的成功率:指令生成、边界框预测、规划器完成判断和控制器抓取执行。
表 3 显示,DexGraspVLA 在四种长时程提示上综合任务成功率为 89.6%,每个目标平均尝试抓取次数略超 1 次。高层规划器基于观测将提示语义落地,并生成正确指令,平均成功率为 94.3%。边界框预测精度始终超过 98%,我们在附录 D 的干扰环境评估中进一步佐证了这一点。
低层控制器凭借其稳健且可泛化的抓取策略,单次抓取成功率超过 91%,保证了多步任务的可靠完成。此外,规划器以超过 94% 的准确率检测任务完成情况,避免多余操作。
3.6 非抓取扩展应用
任务与指标
为了证明 DexGraspVLA 不仅能做灵巧抓取,还能胜任更广泛的操作技能,我们将相同的分层框架应用到“非抓握式”抓取任务上。
体来说,挑选了 32 种扁平且表面较宽、难以直接抓取的物体,例如盘子、盒子和书籍,并在杂乱场景中收集了 1,029 次人类示范。在这些示范中,机器人先通过推动物体到桌边来进行预抓取操作,使其摆出易抓取的姿态,然后再执行最终的抓取动作来提起它。
保持 DexGraspVLA 的高层规划器不变,仅在该数据集上重新训练低层控制器;具体细节见附录 A。为了评估泛化能力,挑选了 18 种之前未见过的可家庭常见类别的非抓握物体,并在零样本环境下设计了三种任务:
- 未见物体(36 次测试):每个物体在白色桌面、白光条件下的两个不同姿态的杂乱场景中各测试一次。
- 未见光照(36 次测试):同样的流程在白桌面、迪斯科灯光条件下进行。
- 未见背景(72 次测试):同样流程在白光下分别将白桌面替换为木质桌面或黄色桌布。
如表 4 所示,DexGraspVLA 在非抓握式抓取任务中取得了 84.7% 的综合泛化性能,表明它对从未见过的物体外观、形状、物理属性,以及新背景和新光照条件都具有强大鲁棒性——显著优于各类基线方法。
观察到,DexGraspVLA 能够可靠地适应物体的各种姿态,通过反复推送直到物体足够悬出桌边,然后再进行稳定的抓取。 这一任务对平行钳式抓手尤为具有挑战性,凸显了我们系统的灵巧操作能力。
更重要的是,DexGraspVLA 无需更改整体架构即可无缝扩展到此新任务,体现了三大通用性要点:
- 高层规划器的定位与推理能力;
- 以边界框作为可操作性(affordance)指导;
- 在基础模型迭代提取的领域不变表示上进行模仿学习