2024-11-27
Innovation Highlights
1. 陈建宇团队提出一种新颖的机器人操作控制模型框架HiRT—分层机器人变压器框架,旨在通过灵活调节频率和性能,实现高效的机器人控制。与需要高计算成本和低推理速度的基于传统的视觉语言模型的方法不同,HiRT通过在低频率下运行VLM来处理静态任务,并结合高频率视觉策略实现快速与环境动态交互。实验表明,HiRT在静态任务中将控制频率提升了一倍,并在动态任务中将成功率从48%提高到75%。
Achievements Summary
基于联合扩散去噪过程的视觉策略学习—PAD
近期,扩散生成模型在图像、视频生成取得了巨大的成功,展现出了对物理世界的良好理解。同时,扩散策略(diffusion policy)也在机器人任务中取得了巨大的成功。使用扩散视频生成模型来帮助构建机器人基础模型是一条有前景的道路。陈建宇团队发现,扩散生成模型和扩散策列在技术上都采用同样的去噪过程,因此提出使用联合去噪策略学习模型PAD,将未来图像生成和动作生成融合到一个网络中,从而让视频预测能力帮助机器人学习。
图1. PAD将扩散生成模型和扩散策略融合到同一网络
陈建宇团队使用多层Diffusion Transformer(DiT)结构来简洁地完成联合预测任务。RGB观测、机器人位姿、深度等各种模态数据被映射到相同的空间中,通过简单的输入令牌拼接(token)和注意力遮盖机制(attention-mask),机器人数据可以与动作缺失的视频数据进行联合训练。
图2. PAD输入当前RGB图,机器人位置,深度图,进行联合去噪过程
在实验中,团队在仿真的metaworld机械臂环境和真实Panda机械臂环境中进行了大量实验。团队使用一个视觉语言输入的策略解决了metaworld环境中的所有50个任务,获得了相对于基线算法26%的提升。在真实世界任务中,在未知任务也获得了28%的成功率提升。同时团队发现,PAD模型呈现出良好的scaling性质,可以通过提升训练模型的计算量来提升策略性能。
图3. 仿真环境、真实环境的性能对比图,Scaling实验图
PAD有潜力发展为基于视频生成的通用机器人基础模型。本论文共同第一作者为上海期智研究院实习生、清华大学博士生郭彦江、胡钰承,通讯作者为上海期智研究院PI、清华大学助理教授陈建宇。共同作者为上海期智研究院实习生、清华大学博士生张荐科、陈晓宇、王彦仁,上海人工智能实验室陆超超。
论文信息:
Prediction with Action: Visual Policy Learning via Joint Denoising Process, Yanjiang Guo∗, Yucheng Hu*, Jianke Zhang, Yen-Jen Wang, Xiaoyu Chen, Chaochao Lu, Jianyu Chen†, https://sites.google.com/view/pad-paper, NeurIPS 2024.
分享到