选择语言
< 返回主菜单

SQZ Talk | 第6期—袁哲诚、刘雪怡学术报告分享

2025-01-03

图片

       2024年12月20日,上海期智研究院第6期“SQZ Talk”学术论坛邀请到两位我院优秀科研人员代表:实习生袁哲诚博士生以及刘雪怡博士生作学术报告。论坛由谢安易主持。


袁哲诚 学术报告

图片

SQZ实习生

清华大学博士生


       研究院许华哲课题组实习生,主要研究方向为强化学习、表征学习以及如何从仿真中获得可部署与可泛化的策略。曾在人工智能机器人顶级会议上发表论文10篇,担任多个期刊会议的审稿人。

图片

       研究人员能否为视觉运动机器人赋予必要的泛化能力,以便它们在多样化的开放世界场景中正常工作?本次演讲探讨为机器人提供广泛视觉泛化能力的各种方法,并介绍如何利用基于视觉的方法实现从模拟到现实(sim2real)以及缩小模拟与现实之间的差距。与基于状态的 sim2real 方法相比,基于视觉的 sim2real 方法具有诸多优势。袁哲诚同学提出了一种名为 Maniwhere 的可定制框架,专为视觉强化学习设计,能够使训练过的机器人策略在多种视觉干扰下实现泛化。此外,本次演讲还从多个角度探讨模拟的应用及其前景。

图片

       到场的科研人员就报告中感兴趣的内容与袁哲诚进行了积极的探讨。人形操作问题的拆解与实现、拆解任务后的接口问题、通用机器人与GPT范式的相似性、Foundation Model与操作级别行为的关系、模型扩展与解决方案以及关于正负样本对定义的问题。

图片

沈马成 SQZ PI

图片

任建玮 SQZ硕士后



刘雪怡学术报告

图片

SQZ实习生

清华大学博士生

       研究院弋力课题组实习生,主要研究方向为三维计算视觉和具身智能。曾在计算机视觉、机器学习顶级会议上以第一作者发表论文五篇,担任多个会议和期刊的审稿人。



图片

为具身智能体赋予完成多样化任务的人类级通用操作能力,是迈向未来具身超级智能的重要一步。为实现这一愿景,刘雪怡同学将操作任务重新表述为统一的操作跟踪问题,并将核心问题转化为开发可泛化的跟踪控制器。刘雪怡同学提出了一种物理课程策略,从固有动力学的角度缓解单一轨迹跟踪的难度。该策略通过最初放宽物理约束,逐步在一系列物理现实性不断增强的环境中解决问题。为了有效地开发通用的操作智能体,刘雪怡同学使用单一轨迹跟踪方法得到演示数据,来训练通用跟踪控制器。同时设计了一种基于通用跟踪控制器的同伦优化方案来提升演示数据的多样性和质量。这一“数据飞轮”使得最后可以使用较高质量的演示数据训练得到有效的通用轨迹跟踪控制器。随着3D视觉在获取人类-物体操作序列方面的快速发展,研究者相信这是一种实现通用灵巧操作智能体的有前景策略。

图片

报告结束后,科研人员们讨论了模拟真实世界时参数化动态模型的构建和学习难度逐步增加的方法,以及这种方法可能导致的最优策略与参数化参数之间的突变性问题。