2024-11-27
Innovation Highlights
1. 许华哲—提出智能体生成器框架,一种基于行为提示扩散的通用策略生成方法。该方法通过单次演示即可生成机器人控制策略,具有强泛化能力和高效性,适用于多种任务和场景。框架利用行为嵌入生成潜在策略参数,并通过少样本示例实现高性能策略生成,不仅在模拟环境中表现出色,还成功部署于真实机器人运动任务中。
2. 许华哲—提出一种针对刚性和柔性物体的无监督关键点检测方法Key-Grid,它是一种自编码器框架。与以往的工作不同,团队利用识别出的关键点信息形成三维网格特征热图,称为网格热图,用于在网络解码过程。
Achievements Summary
智能体生成器:一种通过行为提示扩散生成通用策略网络的框架
传统强化学习需要通过行为数据训练策略网络,而许华哲团队Make-An-Agent框架创新性地从离线的次优轨迹中逆向预测最优策略参数。该方法无需显式建模行为分布,直接学习参数空间的潜在分布,揭示任务行为与策略参数之间的隐含关系。通过扩散模型逐步优化噪声为结构化参数,团队实现了行为到策略的直接生成,生成的策略不仅性能优越,还具有更强的鲁棒性和高效性。
图1. 通过扩散模型生成策略参数,解决行为到策略生成问题
Make-An-Agent框架提出了三项关键技术创新:
(1) 使用自编码器压缩并重建策略网络的潜在表示,从而有效捕捉策略参数特征;
(2) 利用对比学习方法,捕获长期轨迹与未来成功状态间的互信息,生成高效的行为嵌入;
(3) 基于行为嵌入,使用条件扩散模型生成潜在的策略参数表示,并通过预训练解码器将其转化为可部署的策略。团队还构建了一个包含策略参数和轨迹数据的预训练数据集以支持模型训练。
图2. 基于课程学习的数据增强与域随机化
在连续控制领域(包括复杂桌面操作和真实机器人运动任务)中,Make-An-Agent在测试阶段通过次优轨迹生成策略,展现出卓越的跨任务泛化能力。相比于多任务学习、元学习及基于超网络的方法,生成的策略在性能、鲁棒性和任务迁移能力上均表现最佳。尤其在嘈杂轨迹输入下,框架仍可生成高性能策略,验证了其对环境随机性的强鲁棒性。这种能力使其成为具备广泛应用潜力的端到端行为到策略生成工具。
图3. MetaWorld、Robosuite和真实四足运动的可视化
该工作提出的Make-An-Agent对多任务和真实世界机器人应用具有重要意义。论文一作为上海期智研究院学士后梁咏园,通讯作者为上海期智研究院PI、清华大学助理教授许华哲。共同作者为清华大学博士生许庭强、胡开哲,加利福尼亚大学硕士生蒋光启,马里兰大学助理教授黄芙蓉。
论文信息:
Make-An-Agent: A Generalizable Policy NetworkGenerator with Behavior Prompted Diffusion, Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu†, https://cheryyunl.github.io/make-an-agent/, NeurIPS 2024.
Key-Grid—使用网格热图特征的无监督3D关键点检测
检测具有语义一致性的3D关键点在许多场景中都有广泛应用,如姿态估计、形状配准和机器人技术。目前,大多数无监督3D关键点检测方法都集中在刚体对象上。然而,面对可变形对象时,它们识别的关键点并不能很好地保持语义一致性。许华哲团队引入了一个创新的无监督关键点检测器Key-Grid,用于处理刚体和可变形对象,这是一个自编码器框架。编码器预测关键点,解码器利用生成的关键点重建对象。
图4. Key-Grid检测到的关键点示例
该方法在编码器部分,给定一个点云,利用 PointNet++ 点云网络检测关键点。然后将检测到的关键点组成一个grid heatmap。在解码器部分,使用 PointNet++ 每一层的信息与 grid heatmap 进行融合,以重建输入点云。其中,grid heatmap 是一种密集的三维特征图,旨在通过预测关键点的信息来稠密地表示三维物体形状。
图5. Key-Grid的处理流程
团队使用 ShapeNetCoreV2 和 ClothesNet 数据集测试了 Key-Grid 的性能。ShapeNetCoreV2 数据集包含 51,300 个刚体,涵盖 55 个不同类别,仅使用来自 KeypointNet 数据集中具有语义对应标签的类别。团队采用 Key-Grid 检测每类刚体的 10 个关键点,并使用 DAS 和 mIoU 指标评估其在 13 类刚体上的性能,结果显示 Key-Grid 在关键点定位方面表现出优异的准确性,显著优于其他自监督方法,并且甚至超过了使用 PointNet 和 SpiderCNN 作为主干的监督方法。对于 ClothesNet 数据集,对不同类型的服装进行拖放、掉落和折叠三种变形,目标是检测每件服装的 8 个关键点,并确保这些关键点在同类别服装下的变形过程中保持语义一致性。Key-Grid 特别是在处理拖拽衣服情况下,其性能优于其他方法。
Key-Grid是一种无监督3D关键点检测方法,适用于刚体和可变形物体,对机器人视觉、计算机图形学和3D建模等领域具有重要应用价值。本论文一作为上海期智研究院硕士后侯程凯,通讯作者为上海期智研究院PI、清华大学助理教授许华哲。共同作者为研究院实习生、清华大学博士生薛峥嵘,香港大学硕士生周邴阳,中国科技大学本科生柯景翰,新加坡国立大学助理教授邵林。
论文信息:
Key-Grid: Unsupervised 3D Keypoints Detection using Grid Heatmap Features, Chengkai Hou, Zhengrong Xue, Bingyang Zhou, Jinghan Ke, Shao Lin, Huazhe Xu†, https://jackhck.github.io/keygrid.github.io/, NeurIPS 2024.
分享到