当前位置：首页 > news >正文

经典文献阅读之--PIVOT-R(原始驱动的航点感知世界模型用于机器人操作)

news 2025/7/5 15:32:13

0. 简介

对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。

针对该问题，来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型，《PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation》借助** VLMs 作为机器人的大脑，理解任务之间的动作关联性，并通过 “世界模型” 获取对未来动作的表征**，从而更好地帮助机器人学习和决策。该方法显著提升了机器人的学习能力，并保持良好的泛化性。

1. 主要贡献

当前，现有机器人操作任务有两个关键问题：

机器人模型在开放世界中表现差且不稳定：许多机器人操作模型虽然能够处理复杂任务，但往往直接将用户指令和视觉感知映射到低层次的可执行动作上，而忽略了操作任务中关键状态（路径点）的建模。这种方式容易使模型记住表面数据模式，导致模型在开放环境中表现脆弱。模型缺乏对关键路径点的预测，使得每个动作的随机性可能逐步放大，降低了任务的执行成功率。
计算效率低：随着模型的增大（例如 RT-2, RT-H），运行速率随之降低，无法满足机器人任务实时性的需求。

在这里插入图片描述

图1：PIVOT-R与其他模型的比较。 (a) 顺序执行的机器人操作模型。它们在每个时间步中顺序执行模型中的每个模块，以进行操作推理（例如，RT-2 [64]、RT-X [49]、RT-H [5]、VILA [20]、Octo [36]等）或世界建模（例如，Surfer [42]、Daydreamer [56]、3D-VLA [60]等）。这很容易导致模型冗余和较弱的关键操作节点预测能力。 (b) PIVOT-R是一个原始驱动的航点感知世界模型，具有异步层次执行器。它仅关注与操作任务相关的航点预测，相较于其他方法，它更容易预测操作任务中的关键节点。此外，PIVOT-R为不同模块设置了不同的执行频率，以提高执行效率并降低冗余。

为了解决上述问题，研究团队提出了 PIVOT-R，一种原语驱动的路径点感知世界模型。如上图所示，对比左图现有的方法，右图展示了 PIVOT-R 通过关注与任务相关的路径点预测，提升机器人操作的准确性，并设计了一个异步分层执行器，降低计算冗余，提升模型的执行效率。这样做有几个好处：

它使得模型可以更好的学习任务与动作之间的内在关联性，减少其他干扰因素的影响，并更好地捕捉不同任务之间的相似性（例如，拧瓶盖和拧螺丝的动作是相似的，拿杯子和搭积木都有一个抓住物体的过程），从而使得模型可以在多任务数据下学习到可迁移的知识。
通过世界模型建模的方式获得对未来关键动作的表征，避免了文本语言带来的模糊性、不确定性。
通过异步执行的方式，确保各模块独立运行、互不阻塞，从而有效避免了大模型导致的低速率问题。

2. 架构与问题表述

我们的目标是构建一个能够在各种零-shot复杂和可变环境中准确及时响应用户指令的机器人操作模型。为此，如图2所示，我们引入了一种原始驱动的航点感知世界模型用于机器人操作。接下来，我们将详细讨论PIVOT-R每个模块的结构细节。

在这里插入图片描述

图2：PIVOT-R概述。它主要由一个航点感知世界模型（WAWM）和一个动作预测模块组成，这两个模块通过异步层次执行器（AHE）相互协作。在WAWM中，我们首先使用预训练的VLM对用户指令进行低频原始动作解析，并为场景预测模块提供航点指示。然后，场景预测模块基于航点和操作轨迹学习建模世界知识。最后，我们使用一个轻量级的动作预测模块进行高频动作预测和执行。

如图2 (a)所示，我们将所提出的PIVOT-R表述为学习一个可训练的机器人操作模型 $\pi$ ，该模型将用户的语言指令 $l$ 、一系列观察图像 $O_{t-h:t}$ 和机器人状态 $S_{t-h:t}$ 从时间步 $t - h$ 映射到当前时间步 $t$ 的动作 $A_t$ 。 $h$ 表示历史帧的长度，这里设定为3。此外，我们还为WAWM引入了一个场景预测模块，以帮助模型构建世界知识。PIVOT-R的整体表述如下：

$\pi(VLM(l, O_t), O_{t-h:t}, S_{t-h:t}) \rightarrow M'_t, A'_t,$

其中 $M'_t$ 和 $A'_t$ 分别是模型在时间步 $t$ 预测的机器人操作的航点和动作。特别地，我们使用预训练的VLM从用户指令 $l$ 中解析出当前机器人应采取的原始动作 $P$ ，该解析基于机器人的观察图像 $O_t$ 。然后，我们将 $P$ 作为时间步 $t$ 的机器人操作的航点指示，帮助机器人建立对未来场景信息和世界知识的预测和建模能力。对于每个动作轨迹 $T{ra}$ ，它由语言指令 $l$ 和一系列观察图像 $O$ 、机器人状态 $S$ 、动作 $A$ 和航点 $M$ 组成：

$T_{ra} = \{l, [O_1, S_1, A_1, M_1], ..., [O_T, S_T, A_T, M_T]\},$

其中 $T$ 是机器人操作轨迹的时间步长。请注意，由于我们使用AHE，在不同时间步 $t$ 输入到场景预测模块的原始动作 $P$ 可能是相同的。模型可以通过低频原始动作解析避免因交替使用VLM和世界模型而导致的冗余，从而提高训练和推理效率。我们在动作预测模块上采用类似的设置，以进一步提高模型的效率。

3. 输入与输出

我们在图2（a）中详细描述了PIVOT-R的输入和输出，如下所示：

在这里插入图片描述

• 语言输入。用户的语言指令 $l$ 首先与提示结合，并作为预训练VLM的输入，以解析由简短文本表示的原始动作。提示的详细信息见附录F.1。具体而言，在语言指令“给我一瓶饮用水”的例子中，此时的原始动作可能是“接近/抓取/放下容器”。然后，解析出的原始动作和原始指令 $l$ 通过文本编码器编码为文本序列 $P$ 。遵循文献[45, 46, 42]，我们采用预训练的CLIP [40]作为语言编码器 $E_{text}$ 。
• 视觉输入。对于RGB图像 $O$ 的视觉观测，我们使用预训练的CLIP [40]视觉编码器 $E_{image}$ 进行编码。
• 机器人状态输入。机器人状态包括6个维度的机器人手臂运动 $\text{roll}, \text{pitch}, \text{yaw})$ 。我们使用线性层对其进行编码。
• 输出。PIVOT-R的输出是由场景预测模块预测的与任务相关的航点图像特征 $F_{M'_{t}} \in \mathbb{R}^{b \times n \times d}$ 和由动作预测模块预测的机器人动作 $A'_{t}$ 。其中 $b, n = 49$ ， $d = 512$ 分别表示批量大小、标记数量和特征 $F_{M'_{t}}$ 的维度。动作 $A$ 包含机器人末端执行器的增量状态 $S$ 和夹爪的二元状态 $\in \{0, 1\}$ ，即 $\in \mathbb{R}^{1 \times 7}$ 。

4.网络

总体而言，PIVOT-R由一个强大的航点感知世界模型和一个轻量级的动作预测模块组成，其详细信息如下：

4.1 航点感知世界模型（WAWM）

通过引入航点作为数据结构分块机制，类似于自然语言处理中的标记化，我们将密集且不规则的机器人轨迹分割成有意义的部分，从而减轻预测负担。这种分层方法解耦了语言与动作之间的相互依赖关系，并利用跨轨迹的航点过渡知识，提高了动作预测的准确性。如图2所示，WAWM主要包括一个强大的VLM和一个场景预测模块 $\Phi_{sp}$ 。给定用户指令 $l$ ，VLM解析 $l$ 以提供与任务相关的航点提示，这些提示用于指导场景预测模块 $\Phi_{sp}$ 进行关键航点预测。
具体而言，在每个时间步 $t$ ，我们将提示与用户指令 $l$ 和机器人观察图像 $O_t$ 结合，作为预训练VLM的输入，以执行与操作任务相关的原始动作解析。然后，解析出的原始动作和原始用户指令 $l$ 结合形成航点指示器 $P_t$ ，供场景预测模块使用。上述过程可以表示为：
$P_t = (l, VLM(Prompt(l), O_t)). \quad (3)$
对于场景预测模块 $\Phi_{sp}$ ，我们使用与机器人操作任务相关的航点 $P_t$ 作为提示，并将机器人的历史观察图像 $O_{t-h:t}$ 作为输入，以预测机器人操作的航点特征 $F_{M'_{t}}$ ，即：
$F_{M'_{t}} = \Phi_{sp}(E_{text}(P_t), E_{image}(O_{t-h:t})). \quad (4)$

场景预测模块的模型细节如图2（b）所示。它由 $L S = 12$ 个变换器层堆叠而成。每个变换器层由一个自注意力层、一个交叉注意力层和一个前馈层组成。

4.2 动作预测模块

对于动作预测模块 $\Phi_{ap}$ ，我们使用场景预测模块预测的机器人操作航点状态特征 $F_{M'_{t}}$ 作为提示，并将机器人的历史观察图像 $O_{t-h:t}$ 和机器人状态 $S_{t-h:t}$ 作为输入，以预测机器人在时间 $t$ 应采取的动作 $A'_{t}$ 。因此，动作 $A'_{t}$ 的预测过程可以表示为：
$A'_{t} = \Phi_{ap}(F_{M'_{t}}, E_{image}(O_{t-h:t}), MLP(S_{t-h:t})). \quad (5)$
动作预测模块的细节如图2（c）所示，其结构与场景预测模块相同，由 $L A = 3$ 个变换器层堆叠而成。

5. 异步层次执行器与损失

此外，为了提高PIVOT-R的执行效率，我们采用异步层次执行模式，分别执行原始动作解析、场景预测和动作预测。具体而言，如图2（a）所示，我们根据需求为这三个部分使用不同的执行频率。对于原始动作解析，由于需要大量计算使用VLM，因此我们采用较低的执行频率 $v_1$ 。对于轻量级动作预测模块，我们采用较高的执行频率 $v_3$ 。这三种执行频率遵循以下关系： $v_1 < v_2 < v_3$ ，其中 $v_2$ 是场景预测模块的执行频率。具体而言，在时间步 $t$ ，如果某个模块尚未完成对新请求的处理，它将首先返回先前的结果。

PIVOT-R的训练损失主要包括场景预测损失 $L_{scene}$ 和动作预测损失 $L_{act}$ 。具体而言，对于场景预测损失 $L_{scene}$ ，我们遵循I-JEPA [1]，计算预测航点状态 $M^{'}$ 与真实值 $M$ 之间特征的平均L2距离，其中 $M$ 使用预训练的CLIP图像编码器 $E_{image}$ 进行编码。对于动作预测损失 $L_{act}$ ，我们遵循RT-1 [7]，使用交叉熵损失计算预测动作 $A^{'}$ 与真实动作 $A$ 之间的损失。PIVOT-R的总损失为 $L = L_{scene} + L_{act}$ 。

6. 结论

在本文中，我们提出了PIVOT-R，这是一种以原始动作驱动的航点感知世界模型。PIVOT-R专注于原始动作的执行，预测未来的关键航点极大地提升了性能。它在SeaWave基准测试中取得了最先进的结果，实验也证明了其良好的鲁棒性。我们还采用异步层次执行器，以确保模型的执行速度足够快。此外，我们展示了PIVOT-R在高层次VLM的指导下，完成未见指令和任务的潜力。最后，我们还展示了PIVOT-R通过人类示范提升性能的能力。这些结果彰显了PIVOT-R的潜力。我们展示了PIVOT-R通过结合指令引导的原始动作来完成任务的能力，甚至是未见任务。然而，动作执行与指令有时并不一致。例如，如果需要“向左推”，机器人可能会执行“向前推”。因此，我们还需要加强高层次指令与底层动作之间的一致性，以便机器人能够真正按照我们的指令执行任务，甚至根据需求进行调整，就像一个真正的智能体一样。