选择语言
< 返回主菜单

许华哲团队结合行为克隆与强化学习的分层学习框架等创新成果

2024-10-12

 图片

Innovation Highlights

       许华哲—提出了一种结合行为克隆与强化学习的分层学习框架,旨在让四足机器人实现多种日常操控任务,如提篮子、按按钮、开关门等。在不依赖额外机械臂的情况下,机器人能够保持移动能力,并完成各种复杂操作。该框架利用高层视觉规划器和低层控制器的协同工作,发挥了RL在高动态系统实时控制的优势以及BC在多种操纵任务学习方面的优势。并通过仿真和现实实验验证了其在多个任务中的表现优越性。

Achievements Summary

从示范中学习实现四足机器人移动操纵

     图片

       四足机器人的移动能力近年来得到不断的提升,但在四足机器人技术中,同时实现移动与多任务的操控一直是一个巨大的挑战。传统方法依赖于机械臂来实现复杂的操控任务,这不仅增加了系统的复杂性,而且限制了机器人的运动能力。

       针对这一问题,许华哲团队提出了一个创新的分层学习框架,结合高层的视觉行为克隆规划器和低层的动态控制强化学习控制器,实现了四足机器人通过腿部执行复杂操控任务的能力。这种方法同时发挥了强化学习对高动态系统控制的优势,以及行为克隆对多任务学习的优势

图片

图1. 训练机器人完成的9个运动操作任务概述


同时,模仿学习的算法通常需要大量的数据收集和测试,这在真实环境中执行时成本高昂且效率低下。为了解决这一问题,我们的团队在仿真环境中通过大规模并行仿真采集数据,通过模拟复杂的操纵任务来生成大量的训练数据。利用这些数据,我们训练了能够精确规划和执行复杂移动操纵任务的模型。然后,通过简单的后处理,我们将现实和仿真中的点云进行对齐,实现了仿真到现实的迁移。

图片

图2. 分层学习框架示意图


       为了验证团队提出的框架有效性,团队根据足式操纵器的运用场景和实际需求,设计了9个不同的任务,包括提篮子、踢足球、推门等,并在Isaac Gym仿真器钟进行了实验。结果表明,许华哲团队的方法效果在所有任务上都优于3个基线。

       本研究有潜力加速足式机器人多任务操作技能的发展。本论文一作为上海期智研究院实习生何政茂,通讯作者为许华哲助理教授。共同作者为研究院硕士后雷坤、学士后迮炎杰,加州大学伯克利分校副教授Koushil Sreenath,加州大学伯克利分校博士生李钟毓。


更多信息请阅读论文:


Learning Visual Quadrupedal Loco-Manipulation from Demonstrations, Zhengmao He, Kun Lei, Yanjie Ze, Koushil Sreenath, Zhongyu Li, Huazhe Xu†, https://zhengmaohe.github.io/leg-manip, IROS 2024.

分享到