选择语言
< 返回主菜单

新型视觉模仿学习算法:3D扩散策略(DP3)

2024-07-14

Innovation Highlights

       许华哲团队提出了一种新颖的视觉模仿学习方法 3D扩散策略 (DP3)。在涉及72个模拟任务的实验中,DP3仅通过10条演示数据就成功完成了大多数任务,并且相对于当前SOTA模型有24.2%的成功率相对提升。在4个非常具有挑战性的真机任务中,DP3展示了精确的控制能力。极大地提高了视觉模仿学习的学习效率和泛化能力。    

Achievements Summary

许华哲1.png

       3D 扩散策略(DP3)是一种专为提高机器人的模仿学习效率和泛化能力设计的新型模仿学习算法。DP3 通过融合简洁高效的 3D 视觉表征和扩散模型来实现对复杂机器人操作的学习和执行。DP3 在处理稀疏点云数据时采用了高效的点云编码器来提取紧凑的 3D 视觉表征,并在此基础上从随机噪声中降噪得到连贯的动作序列。通过在仿真和真实物理数据环境中的广泛测试,DP3 展示了其在少量专家演示数据下快速学习并成功处理多项任务的能力,显著优于当前的SOTA方法。

图片

图1:3D扩散策略(DP3)的方法流程,分为感知和决策2个环节


       在仿真环境中,DP3 被应用于 72 个不同的任务,覆盖从简单的物体操作到复杂的双手协调等多种机器人技能。实验结果显示,DP3仅通过10条演示数便可以成功执行大多数操作任务,并且相对于当前SOTA模型有24.2%的性能相对提升。同时,在真实机器人实验中,DP3 在四个不同的任务上进行了测试,这些任务涉及精细的物体操控和动态交互。DP3 展示了其在实际应用中的高度可行性和效率,依赖其稳定的 3D 视觉表征和动作生成策略,可以实现高达 85% 的成功率。

       DP3 在多个方面显示出优异的泛化能力,包括空间泛化、外观泛化、实例泛化和视角泛化,如下方视频展示。这一广泛的泛化能力证明了 DP3 在真实世界应用中的潜力,尤其是在面对环境变化和新任务时。DP3为教授机器人掌握鲁棒且泛化的灵巧技能提供了有效方法,并大大提高了学习效率。该论文的共同第一作者为上海期智研究院助理研究员迮炎杰,上海期智研究院实习生、上交通大学本科生张谷。

分享到