英伟达RVT-2,通用机器人模型减少对大量训练数据的依,训练效率提升6倍发表时间:2025-02-23 22:52
《RVT-2: Learning Precise Manipulation from Few Demonstrations》这篇论文探讨了如何通过少量的示范学习样本来训练机器人执行精确操作的任务。该研究的核心目标是减少对大量训练数据的依赖,同时提高机器人操作的准确性和效率。研究团队提出了一种名为RVT-2的新模型,该模型能够从有限的示范中快速学习并泛化到新的操作任务。
在3D操作领域,PerAct和RVT等通用模型虽然在训练上展现了一定的优势,但它们的局限性同样不容忽视。PerAct利用多任务学习框架,通过预测关键帧姿态来实现3D交互,然而其依赖的体素场景表示严重限制了模型的扩展能力。 相较之下,RVT在一定程度上弥补了PerAct的不足,但在处理高精度任务时仍然力不从心。为了突破这些限制,英伟达的研究团队在RVT的基础上推出了第二代模型。这一创新成果不仅将训练效率提升了6倍,推理效率也实现了2倍的飞跃。更令人瞩目的是,该模型仅需10次示范学习即可轻松驾驭各类高精度任务,展现出惊人的学习能力和适应性。
RVT-2的创新之处不仅在于其多阶段推理流程,还在于其对复杂抓取任务的适应性和灵活性。在面对需要极高精确度的抓取任务时,如将销钉插入微小孔洞,RVT-2展现出了**的性能。它首先通过固定视图策略预测出感兴趣的区域,这一步骤确保了对目标区域的初步识别。随后,系统对预测出的区域进行放大处理,并重新渲染图像,以获得更高分辨率的细节信息。这一放大过程不仅提高了图像的细节质量,也为后续的精确抓手姿态预测提供了必要的视觉信息。最后,RVT-2利用这些放大后的特写图像进行精确的姿态预测,从而实现了对微小目标的精准抓取。此外,RVT-2在技术层面也进行了重要革新。它采用了先进的凸上采样技术,优化了基于Vision Transformer(ViT)的图像tokens特征上采样过程。这种优化不仅提高了预测热图的精度,使得抓取动作更加准确无误,同时也大幅降低了内存消耗。这一点对于需要处理大量数据和进行实时计算的应用场景尤为重要,因为它可以减少计算资源的需求,并提高系统的运行效率。
RVT-2模型通过结合视觉变换器(Vision Transformer)架构和模仿学习策略,使得机器人能够仅通过少量的示范学习精确的操控技能。该模型利用视觉变换器强大的数据处理能力来解析机器人摄像头捕获的视觉信息,并将其转化为精确的操控指令。同时,模仿学习策略让机器人通过观察人类操作者的行为来快速掌握新技能,而域随机化技术进一步提升了模型对不同环境的适应能力,使其在真实世界中的表现更加稳健。
训练和评估细节。 为了公平起见,我们在同一个数据集上训练 RVT 和 RVT-2。我们为所有八个任务训练单个 RVT 和 RVT-2 模型。这两个模型都使用余弦学习率计划和与我们的模拟实验相同的数据增强进行了 10 个时期的训练。对于 RVT-2,我们使用与模拟实验相同的批处理大小和学习率。对于 RVT,我们无法在内存中容纳比 RVT-2 更大的批处理大小,因此我们使用官方训练参数批处理大小 24 和学习率
实验结果。 表显示了现实世界中的结果。我们发现 RVT-2 只需少量演示即可执行多项任务( 故障模式。 我们对现实世界中所有任务的所有故障案例进行研究,并报告故障模式。我们将每个失败事件归类为一个“模式”,以表明失败的原因。对于每项任务,我们报告因特定模式而导致的失败占所有失败的百分比。
总体而言,位置预测中的微小误差是“按压消毒剂”、“拾取并插入 16 毫米钉子”、“拾取并插入 8 毫米钉子”和“拾取并插入插头”失败的主要原因。对于“将记号笔放入杯子/碗中”和“将物体放入抽屉中”,拾取错误颜色的记号笔是一种主要失败模式。这可能是因为记号笔是薄结构,点云中很少有点可以告知记号笔的颜色。此外,未能抓住物体导致“将物体放入抽屉中”任务中 40% 的失败事件和“拾取并插入 8 毫米钉子”任务中 20% 的失败事件。 泛化案例研究与之前的研究类似,我们测试了对未见过的环境配置的泛化能力。训练和测试中的对象配置不同,对象位置在尺寸为 2 英尺 X 2 英尺的工作空间中也有所不同。我们还在其他泛化场景中测试了 RVT-2,在这些场景中,我们改变了照明条件、背景(表格)外观和对象外观。具体来说,我们测试了块堆叠任务,发现即使在经过少量演示的训练后,RVT-2 也表现出了对未见过的照明条件、背景和对象外观修改的泛化能力。 本次测试的视频可在项目网站 上找到。我们还研究了对语言输入的泛化。对于块堆叠,训练数据集中的语言输入格式为“将 x 块放在 y 块上”,其中 x 和 y 是不同的颜色。我们发现我们的模型对语言输入具有很强的鲁棒性,例如“移动 x 块使其位于 y 块上”、“将 x 块移动到 y 块上”、“将 x 块堆叠在 y 块上”和“移动块使 x 位于 y 下方”。 故障恢复案例研究 RVT-2 使用当前时间步的观察结果来预测下一个时间步的姿势。因此,网络在关键点的频率上是闭环的。为了证明这一点,我们对堆栈块任务进行了一项研究,其中我们在执行过程中移动目标块并发现策略会进行相应调整。请在项目网站上查看此测试的视频。 我们进一步研究了各种情节,并在模拟中发现了多个任务的故障恢复行为。例如,在“堆叠两个黑色积木”的情节中,当积木掉落时,系统会反复尝试堆叠积木。这表明该架构能够学习恢复行为。我们展示了三个任务的示例:“堆叠积木”、“放置杯子”和“将积木滑到颜色目标”。 实验视频 结论与局限性 在这项研究中,我们提出了 RVT-2,一种快速而精确的 3D 对象操作模型。它建立在之前***的 RVT 之上。通过结合架构和系统级改进,我们显著提高了速度、精度和任务性能。虽然我们使用的技术本身并不新颖,但我们的贡献在于有效地将它们结合起来,以推进少样本 3D 操作的****。我们发现 RVT-2 在 RLBench 上的表现明显优于之前的方法,同时所需的计算量要少得多。在现实世界中,我们发现 RVT-2 可以使用单个第三人称摄像头和仅 10 次演示来解决涉及插入钉子和插头的高精度任务。 我们确定了 RVT-2 的各种局限性,这些局限性可能成为未来研究的方向。RVT-2 与 RVT 和 PerAct 一样,使用经过训练的对象实例进行工作。将其扩展到看不见的对象实例将是一个令人兴奋的方向。尽管在高精度任务中,RVT-2 仅使用单个 RGB-D 传感器就取得了令人惊讶的成功,但有时会因插入位置的微小错误而失败。增强 RVT-2 以使用力信息来调整细粒度运动可能非常有趣。正如RVT-2 的打开抽屉任务所见,随着训练的进行,多任务优化可能会降低某些任务的性能。制定防止这种情况的策略将非常有用。最后,尽管 RVT-2 将多任务 3D 操作的整体性能提高了 17 分,但该任务仍远未得到解决,RVT-2 在模拟中的成功率为 82%,在现实世界中的成功率为 72%。
—全文完 — 具身智能策略和方案精华汇总:
PNP机器人:知识共享,智绘未来! 关于集智联机器/PNP机器人 集智联机器人, 英文名字:Plug & Play Robotics简称PNP机器人, 取义为“集中智慧互联,达到即插即用”,目标用先进的机器人技术实现机器人在各个行业的快速使用。集智联机器人团队成员均来自于国内外机器人行业知名企业,具有较强的学术背景。 PNP机器人是Franka机器人、思灵机器人、ABB机器人等**合作伙伴,欢迎联系PNP机器人提供具身智能方案 集智联机器人(PNP Robotics) www.pnprobotics.com sales@pnprobotics.com 咨询机器人和具身智能——技术咨询/销售/合作 180 1817 5378(微信同号)
需要加入具身机器人数据集和控制策略群,请加微信备注“具身智能加群” |