咨询热线:
400 188 3810

<<微信扫码对接
PNP机器人
学术背景来自于哈尔滨工业大学,多伦多大学等
专业经验来自于UR/ABB等全球先驱机器人企业

PNP机器人是Franka Robotics战略合作伙伴,提供技术、渠道、市场等支持
面向具身智能模仿学习、强化学习、VLA等方向,提供Franka机器人成套解决方案

英伟达RVT-2,通用机器人模型减少对大量训练数据的依,训练效率提升6倍

发表时间:2025-02-23 22:52作者:PNP机器人

《RVT-2: Learning Precise Manipulation from Few Demonstrations》这篇论文探讨了如何通过少量的示范学习样本来训练机器人执行精确操作的任务。该研究的核心目标是减少对大量训练数据的依赖,同时提高机器人操作的准确性和效率。研究团队提出了一种名为RVT-2的新模型,该模型能够从有限的示范中快速学习并泛化到新的操作任务。

在3D操作领域,PerAct和RVT等通用模型虽然在训练上展现了一定的优势,但它们的局限性同样不容忽视。PerAct利用多任务学习框架,通过预测关键帧姿态来实现3D交互,然而其依赖的体素场景表示严重限制了模型的扩展能力。

相较之下,RVT在一定程度上弥补了PerAct的不足,但在处理高精度任务时仍然力不从心。为了突破这些限制,英伟达的研究团队在RVT的基础上推出了第二代模型。这一创新成果不仅将训练效率提升了6倍,推理效率也实现了2倍的飞跃。更令人瞩目的是,该模型仅需10次示范学习即可轻松驾驭各类高精度任务,展现出惊人的学习能力和适应性。

RVT-2的创新之处不仅在于其多阶段推理流程,还在于其对复杂抓取任务的适应性和灵活性。在面对需要极高精确度的抓取任务时,如将销钉插入微小孔洞,RVT-2展现出了**的性能。它首先通过固定视图策略预测出感兴趣的区域,这一步骤确保了对目标区域的初步识别。随后,系统对预测出的区域进行放大处理,并重新渲染图像,以获得更高分辨率的细节信息。这一放大过程不仅提高了图像的细节质量,也为后续的精确抓手姿态预测提供了必要的视觉信息。最后,RVT-2利用这些放大后的特写图像进行精确的姿态预测,从而实现了对微小目标的精准抓取。此外,RVT-2在技术层面也进行了重要革新。它采用了先进的凸上采样技术,优化了基于Vision Transformer(ViT)的图像tokens特征上采样过程。这种优化不仅提高了预测热图的精度,使得抓取动作更加准确无误,同时也大幅降低了内存消耗。这一点对于需要处理大量数据和进行实时计算的应用场景尤为重要,因为它可以减少计算资源的需求,并提高系统的运行效率。

RVT-2模型通过结合视觉变换器(Vision Transformer)架构和模仿学习策略,使得机器人能够仅通过少量的示范学习精确的操控技能。该模型利用视觉变换器强大的数据处理能力来解析机器人摄像头捕获的视觉信息,并将其转化为精确的操控指令。同时,模仿学习策略让机器人通过观察人类操作者的行为来快速掌握新技能,而域随机化技术进一步提升了模型对不同环境的适应能力,使其在真实世界中的表现更加稳健。

训练和评估细节。 为了公平起见,我们在同一个数据集上训练 RVT 和 RVT-2。我们为所有八个任务训练单个 RVT 和 RVT-2 模型。这两个模型都使用余弦学习率计划和与我们的模拟实验相同的数据增强进行了 10 个时期的训练。对于 RVT-2,我们使用与模拟实验相同的批处理大小和学习率。对于 RVT,我们无法在内存中容纳比 RVT-2 更大的批处理大小,因此我们使用官方训练参数批处理大小 24 和学习率2.4×103 .我们使用最终的模型进行评估。

实验结果。 表显示了现实世界中的结果。我们发现 RVT-2 只需少量演示即可执行多项任务(10)每项任务。在 RVT 的五项任务中 [17],RVT-2 的绝对得分比 RVT 高 8 分,相对得分比 RVT 高 12.5 分。在所有三项需要高精度的新任务上,RVT-2 持续超越 RVT,并实现53.3平均成功率与33.3对于 RVT。尽管 RVT-2 仅使用一台摄像机在高精度任务上取得了令人鼓舞的结果,但失败的一个常见原因是插入过程中的小错误。我们相信,通过反应策略增强 RVT-2 以在插入的最后阶段进行微调可能是一个令人兴奋的未来方向。我们鼓励读者观看项目网站上提供的视频结果,以了解成功和失败的示例。

故障模式。 我们对现实世界中所有任务的所有故障案例进行研究,并报告故障模式。我们将每个失败事件归类为一个“模式”,以表明失败的原因。对于每项任务,我们报告因特定模式而导致的失败占所有失败的百分比。

  • 堆叠积木:放置在错误的积木上 (100%)

  • 按压消毒器:错过消毒器顶部 (100%)

  • 将记号笔放入杯子/碗中:选错记号笔(80%);没有达到目标(20%)

  • 把物品放入抽屉:选错标记(40%);没有到达目标(20%);抓取时失败(40%)

  • 将物体放入架子:无失败

  • 拾取并插入 16 毫米钉子:放置钉子时出现小错误 (75%);未到达目标 (25%)

  • 拾取并插入 8 毫米钉子:放置钉子时出现小错误(40%);没有到达目标(40%);无法抓住钉子(20%)

  • 拿起并插入插头:插入插座时出现小错误(100%)

总体而言,位置预测中的微小误差是“按压消毒剂”、“拾取并插入 16 毫米钉子”、“拾取并插入 8 毫米钉子”和“拾取并插入插头”失败的主要原因。对于“将记号笔放入杯子/碗中”和“将物体放入抽屉中”,拾取错误颜色的记号笔是一种主要失败模式。这可能是因为记号笔是薄结构,点云中很少有点可以告知记号笔的颜色。此外,未能抓住物体导致“将物体放入抽屉中”任务中 40% 的失败事件和“拾取并插入 8 毫米钉子”任务中 20% 的失败事件。


泛化案例研究

与之前的研究类似,我们测试了对未见过的环境配置的泛化能力。训练和测试中的对象配置不同,对象位置在尺寸为 2 英尺 X 2 英尺的工作空间中也有所不同。我们还在其他泛化场景中测试了 RVT-2,在这些场景中,我们改变了照明条件、背景(表格)外观和对象外观。具体来说,我们测试了块堆叠任务,发现即使在经过少量演示的训练后,RVT-2 也表现出了对未见过的照明条件、背景和对象外观修改的泛化能力。

本次测试的视频可在项目网站 上找到。我们还研究了对语言输入的泛化。对于块堆叠,训练数据集中的语言输入格式为“将 x 块放在 y 块上”,其中 x 和 y 是不同的颜色。我们发现我们的模型对语言输入具有很强的鲁棒性,例如“移动 x 块使其位于 y 块上”、“将 x 块移动到 y 块上”、“将 x 块堆叠在 y 块上”和“移动块使 x 位于 y 下方”。

故障恢复案例研究

RVT-2 使用当前时间步的观察结果来预测下一个时间步的姿势。因此,网络在关键点的频率上是闭环的。为了证明这一点,我们对堆栈块任务进行了一项研究,其中我们在执行过程中移动目标块并发现策略会进行相应调整。请在项目网站上查看此测试的视频。

我们进一步研究了各种情节,并在模拟中发现了多个任务的故障恢复行为。例如,在“堆叠两个黑色积木”的情节中,当积木掉落时,系统会反复尝试堆叠积木。这表明该架构能够学习恢复行为。我们展示了三个任务的示例:“堆叠积木”、“放置杯子”和“将积木滑到颜色目标”。

实验视频


结论与局限性

在这项研究中,我们提出了 RVT-2,一种快速而精确的 3D 对象操作模型。它建立在之前***的 RVT 之上。通过结合架构和系统级改进,我们显著提高了速度、精度和任务性能。虽然我们使用的技术本身并不新颖,但我们的贡献在于有效地将它们结合起来,以推进少样本 3D 操作的****。我们发现 RVT-2 在 RLBench 上的表现明显优于之前的方法,同时所需的计算量要少得多。在现实世界中,我们发现 RVT-2 可以使用单个第三人称摄像头和仅 10 次演示来解决涉及插入钉子和插头的高精度任务。

我们确定了 RVT-2 的各种局限性,这些局限性可能成为未来研究的方向。RVT-2 与 RVT 和 PerAct 一样,使用经过训练的对象实例进行工作。将其扩展到看不见的对象实例将是一个令人兴奋的方向。尽管在高精度任务中,RVT-2 仅使用单个 RGB-D 传感器就取得了令人惊讶的成功,但有时会因插入位置的微小错误而失败。增强 RVT-2 以使用力信息来调整细粒度运动可能非常有趣。正如RVT-2 的打开抽屉任务所见,随着训练的进行,多任务优化可能会降低某些任务的性能。制定防止这种情况的策略将非常有用。最后,尽管 RVT-2 将多任务 3D 操作的整体性能提高了 17 分,但该任务仍远未得到解决,RVT-2 在模拟中的成功率为 82%,在现实世界中的成功率为 72%。

—全文完 —

具身智能策略和方案精华汇总:

1、具身智能数据配置方案:

具身方案和配置:基于“扩散策略”模仿学习训练机器人以及常用配置方案

2、UMI在FRANKA机器人上通用方案
技术分享:UMI机器人操作通用框架在Franka机器人上的配置方法

3、主流物理引擎和仿真平台介绍

主流仿真平台——18种具身智能机器人仿真平台一文汇总


4、Geesis物理引擎最近超火,参考

开源生成式物理引擎Genesis:CMU 机器人研究所提升具身智能研究效率,机器人学、具身AI和物理AI应用的强大工具


5、Franka机器人10个基本问题-中国区业务和思灵重启

Franka机器人中国业务全新启航——Franka机器人的10个基本问题,一文掌握归来的力控机器人最新产品和趋势


6、协作机器人安全问题-PNP机器人

协作机器人-激烈的市场谁能杀出重围(三) ——机器人的安全性问题的来源和如何保证


7、Franka机器人常见的10个技术问题-硬件

技术要点分享:Franka机器人常见的10个问题——硬件篇,一文干货汇总。


8、ROS Con中国区会议 PNP机器人分享具身智能策略

RosCon中国站:探索具身智能新高度——机器人在数据收集与学习策略中的优势和机会


9、未来七轴机器人和六轴机器人谁会主流?

未来七轴机器人会占据主流?深度解析具身智能方向当前六轴机器人和七轴机器人的区别,七轴力控机器人发展会加快吗?


10、机器人大讲堂:PNP和Franka机器人过去、现在和未来

具身直播活动:机器人大讲堂联合PNP机器人关于Franka机器人具身智能专题直播讨论


PNP机器人:知识共享,智绘未来!


关于集智联机器/PNP机器人

集智联机器人, 英文名字:Plug & Play Robotics简称PNP机器人, 取义为“集中智慧互联,达到即插即用”,目标用先进的机器人技术实现机器人在各个行业的快速使用。集智联机器人团队成员均来自于国内外机器人行业知名企业,具有较强的学术背景。


PNP机器人是Franka机器人、思灵机器人、ABB机器人等**合作伙伴,欢迎联系PNP机器人提供具身智能方案


集智联机器人(PNP Robotics)

www.pnprobotics.com

sales@pnprobotics.com


咨询机器人和具身智能——技术咨询/销售/合作

180 1817 5378(微信同号)


图片


需要加入具身机器人数据集和控制策略群,请加微信备注“具身智能加群”



 PNP机器人
 集智联机器人(苏州)有限公司
 提供机器人即插即用(Plug & Play Robotics)解决方案

官方热线+86  400 188 3810   联系邮箱:sales@pnprobotics.com            联系地址:江苏省苏州市吴江智慧产业园云创路233号第5层                                                                                                                                                                                                         服务网点:北京、上海、深圳、香港、多伦多(美国和加拿大)
Franka机器人具身智能业务:+86 180 1817 5378