选择语言
< 返回主菜单

吴翼团队提出“机器人自我教学”的新框架

2024-10-12

 图片

Innovation Highlights

       吴翼团队提出“机器人自我教学”(Robot Self-Teaching, RST) 的新框架,使机器人能够自我生成有效的训练数据,而非依赖人类专家示范,以此来解决收集足够的机器人轨迹数据十分昂贵的问题。团队在多物体堆叠任务和现流行的强化学习基准“Franka厨房”这两个视觉操控测试平台上验证了此框架。实验表明,在自我生成数据上训练的视觉策略能够泛化到需要长时序执行的全新测试目标。

Achievements Summary

通过机器人生成数据来学习可泛化的视觉机器人操作—RST

       在人工智能领域,基于海量数据预训练基础模型已成为一种流行趋势。然而,如何收集足够且高质量的机器人轨迹数据依然面临挑战。相比于图像或文本数据,机器人轨迹的收集更为昂贵,因为它们不仅需要涵盖机器人的状态信息,还必须包含有效的控制动作。传统方法往往依赖于人类专家进行数据收集,限制了数据的多样性和数量。

图片

图1. RST框架概述


吴翼团队研究了这个问题,并提出一种名为“机器人自我教学”(Robot Self-Teaching, RST)的框架,使机器人能够自我生成有效且丰富的训练数据,从而减少对于人类专家采集数据的依赖。团队通过训练一个独立的数据生成策略,使机器人能够自动生成复杂性不断增加的轨迹数据。该方法首先从一个小规模的种子数据集中获取基本任务的示范,然后通过数据生成策略在状态空间中探索新任务。其关键创新在于引入了任务扩展机制,该机制利用数据生成策略的价值函数作为进展指标,逐步识别可达且具有挑战性的目标状态。通过不断发现和生成难度合适的新任务,RST框架实现了一个开放式的任务课程,使其最终学习到的视觉控制策略能够在零样本条件下,对从未见过的目标具有强组合泛化能力。

图片

图2. 由RST框架产生的数据训练得到的可泛化操作策略在真实机器人上部署的效果


团队在两个测试平台上验证了机器人自我教学框架。在一个包含多个长方体的物块堆积任务中,该方法从最初的单块移动数据集逐步生成建筑结构。当在设计新目标结构时,最终的视觉策略在零样本测试中取得了超过40%的成功率。团队还在一个流行的离线强化学习基准“Franka厨房”中评估了此框架。其能够实现需要与厨房中四个组件互动的长期目标,而基于规划的离线强化学习基线则完全无法解决这些复杂任务。

RST框架赋予机器人在开放世界中的持续创新能力,对于自主生成机器人预训练数据有重要价值。本论文共同一作为上海期智研究院实习生、清华大学博士生李云飞和清华大学本科生袁樱,通讯作者为吴翼助理教授。共同作者为清华大学本科生崔景植、宦皓然,上海期智研究院实习生、清华大学博士生傅炜、高嘉煊,上海交通大学博士生徐泽凯。

更多信息请阅读论文:


Robot Generating Data for Learning Generalizable Visual Robotic Manipulation, Yunfei Li∗, Ying Yuan∗, Jingzhi Cui, Haoran Huan, Wei Fu, Jiaxuan Gao, Zekai Xu, Yi Wu†, https://irisli17.github.io/publication/iros24/rst.pdf, IROS 2024