选择语言
< 返回主菜单

许华哲团队提出一种视觉泛化强化学习框架和端到端的、近实时的三维特殊欧式群等变机器人操作模仿学习框架

2024-10-23

 未命名(11).jpg

Innovation Highlights

1. 陈建宇团队提出一种新颖的机器人操作控制模型框架HiRT—分层机器人变压器框架,旨在通过灵活调节频率和性能,实现高效的机器人控制。与需要高计算成本和低推理速度的基于传统的视觉语言模型的方法不同,HiRT通过在低频率下运行VLM来处理静态任务,并结合高频率视觉策略实现快速与环境动态交互。实验表明,HiRT在静态任务中将控制频率提升了一倍,并在动态任务中将成功率从48%提高到75%。


Achievements Summary

学习在任何地点操作:一种视觉泛化强化学习框架

  如何让智能体具备在多个视角下进行操作的能力是机器人走向落地的关键。许华哲团队设计了在层之间的一个multi-view的表征学习目标函数,去捕捉不同视角下的correspondence和alignment。同时也去插入STN模块,并把affine transformation改成了perspective transformation的形式,辅助网络更好的理解不同视角下的图像。利用该种方式将同一时刻不同视角的表征都投影到特征空间的相似位置。


图片

1. Maniwhere框架能够训练出能够跨各种视觉变化有效泛化的视动机器人

图片

图2. Maniwhere概览


  在具备了视角泛化能力后,团队又设计了一种可泛化框架可以将多种视觉泛化的先验知识融入到智能体中。团队使用基于课程学习的数据增强与域随机化方法,将纹理,具身形态等多种其他视觉泛化类型也融入到网络中。同时利用该种方式也可以更好的扩展训练数据的分布,以便于从模拟仿真器至现实环境的迁移。

图片

图3. 真机实验设置


为了验证方法的有效性,团队设计了8种任务,在3个硬件平台上执行了sim2real的实验。结果表明,该方法效果在所有的任务上都取得了最佳的泛化表现。

本论文一作为上海期智研究院实习生、清华大学交叉信息院博士生袁哲诚和本科生韦天铭,通讯作者为清华大学交叉信息院助理教授许华哲。共同作者为上海期智研究院实习生、清华大学交叉信息院博士生张谷,香港大学程水齐,北京大学陈源培


论文信息:

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning, Zhecheng Yuan*, Tianming Wei*, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu†, https://gemcollector.github.io/maniwhere/, CoRL 2024.

无需点云分割的近实时三维特殊欧式群等变机器人操作

  基于三维视觉的机器人模仿学习算法近年来得到不断提升,但是模仿学习的样本效率和空间泛化性能一直是制约其广泛应用的挑战。为了提升样本效率和泛化性,过去的方法要么使用任务特定的数据增强方式,要么将问题建模为复杂的等变优化问题。这些方法不仅缺乏任务普适性,而且增加了系统的复杂性、降低了推理速度,限制了机器人操作性能的进一步提高。


图片

4. RiEMann概览


 针对这一问题,许华哲团队提出了一个创新的端到端等变形学习框架,首次实现了端到端的三维特殊欧式群(SE(3))上的机器人模仿学习。如图1所示,该方法选择将机器人的动作空间分解为平移部分和旋转部分,并基于等变向量场理论,分别将平移部分建模为点云上0类向量场的加权和、将旋转部分建模为点云上的1类向量场的正交和,实现了端到端的基于点云的机器人等变模仿学习框架,解决了之前工作需要将等变模仿学习建模为复杂优化问题导致的低效学习和推理过程。

图片

图5. 三维特殊欧式群等变的机器人模仿学习


 同时,由于等变的神经网络具有内存占用大的问题,这使得其训练成本高昂。针对这个问题,许华哲团队设计了显存高效的点云学习网络。该方法针对占用主要显存的旋转动作空间学习过程,能够动态地在学习过程中抽取空间点云中的小部分进行旋转动作空间的1向量场的学习,避免了在全场景点云上端到端学习的高昂成本,实现了高效训练和近实时的推理速度。

 为了验证提出的方法有效性,团队在ManiSkill的15种仿真环境和真实世界中基于Franka Panda机械臂的10种真实任务上进行了实验,包括抓取-挂上马克杯、抓取-放置飞机模型等。结果表明,该方法效果在所有任务上都优于4个基线,尤其在定量的测地线距离和推理时间上有显著效果提升。该方法能够使得机器人模仿学习算法泛化到新的物体几何实例(NI)、新的物体三维位姿(NP)、抵抗空间中的干扰物体的视觉干扰(DO)、以及所有因素的组合(ALL),并且能够有效地学习到0类平移向量场和1类旋转向量场

图片

图6. RiEMann能够在多种泛化条件下有效学习到良好的操作动作


 本研究有潜力提高机器人基于三维视觉的模仿学习样本效率和空间泛化性。本论文一作为清华大学交叉信息院访问学者高崇凯,通讯作者为清华大学交叉信息院助理教授许华哲。共同作者为上海期智研究院实习生、清华大学交叉信息研究院博士生薛峥嵘、硕士生梁天海,清华大学本科生邓舒颖、杨思琪,新加坡国立大学助理教授邵林。



论文信息:

RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation, Chongkai Gao, Zhengrong Xue, Shuying Deng, Tianhai Liang, Siqi Yang, Lin Shao, Huazhe Xu†, https://riemann-web.github.io/, CoRL 2024

分享到