2024-10-23
Innovation Highlights
1. 陈建宇团队提出一种新颖的机器人操作控制模型框架HiRT—分层机器人变压器框架,旨在通过灵活调节频率和性能,实现高效的机器人控制。与需要高计算成本和低推理速度的基于传统的视觉语言模型的方法不同,HiRT通过在低频率下运行VLM来处理静态任务,并结合高频率视觉策略实现快速与环境动态交互。实验表明,HiRT在静态任务中将控制频率提升了一倍,并在动态任务中将成功率从48%提高到75%。
Achievements Summary
基于分层机器人变压器的机器人操作控制框架:HiRT
大型视觉语言模型(VLM)虽然在机器人控制中展现了巨大的潜力,但由于大模型计算成本高、推理速度较慢,可能导致机器人动作延迟,执行速度慢或在动态跟随任务上表现较差。
图1. HiRT通过层次化变压器模型来解决大模型推理慢的问题
陈建宇团队探究了这个问题,提出了一种新的层次化模型框架来解决具身多模态大模型推理慢的问题。团队创新地使用该框架将高频的视觉控制策略与低频的大型视觉语言模型(VLM)解耦,前者负责通过视觉信息快速与环境交互,后者则负责提供长期的场景理解与指导。为了能够兼顾模型的泛化性能和推理速度,团队提出了新的条件化策略,使上层的快速交互模型能够异步地使用VLM提供的具有广泛语义信息的表征,使模型能够快速地输出机器人动作并具有较强的语义泛化能力。
图2. HiRT使小型策略模型与大模型异步执行,兼顾泛化能力和推理效率
在实验中,团队在仿真的机械臂环境和真实场景的机械臂环境中进行了大量实验。在静态操作类任务中,新的方法展示出了模型具有很好的泛化能力,例如模型能够抓取训练数据中未涉及的新物体,并且能够通过调整异步频率平衡模型推理速度的性能,实现兼顾大模型泛化能力和小模型快速推理的目标。同时在真机环境中的动态任务上,新方法具有相比于基线方法更高的成功率和完成速度,例如可以更快地跟随移动的目标物体,这体现出提升具身模型的推理速度能够使机器人更好地在动态场景中执行任务。
图3. 实验环境:仿真机械臂、真机机械臂硬件平台(静态任务和动态任务)
HiRT有潜力发展为通用的基于视觉语言端到端具身模型框架。本论文共同第一作者为清华大学博士生张荐科,上海期智研究院实习生、清华大学博士生郭彦江,通讯作者为清华大学助理教授陈建宇。
论文信息:
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers, Jianke Zhang∗, Yanjiang Guo∗, Xiaoyu Chen,Yen-Jen Wang, Yucheng Hu, Chengming Shi, Jianyu Chen†, https://arxiv.org/abs/2410.05273, CoRL 2024.