2024-12-06
Innovation Highlights
1. 张景昭—提出解决简单双层凸优化问题的近似最优一阶算法FC-BiO。团队对简单双层凸优化问题进行了较完整的研究,证明任何满足zero-respecting性质的一阶算法都无法求解与最优解误差绝对值任意小的近似最优解,并进一步提出求解弱近似最优解的最优一阶算法FC-BiO。
2. 张景昭—提出了一种新颖的两层在线算法,通过结合高层学习策略和低层反馈控制策略,为在线控制提供了一种实用且稳健的解决方案,并实现了次线性的遗憾值。首次为有限次与系统交互的连续时间线性系统控制问题提供了非渐近性的结果。
Achievements Summary
智能体生成器:一种通过行为提示扩散生成通用策略网络的框架
图1. FC-BiO算法流程
团队在真实数据集上评估FC-BiO与已有方法的表现。结果显示, FC-BiO的求解效果显著优于已有方法,与理论结果一致。
图2. FC-BiO的求解效果显著优于其他已有算法
本工作弥合了一阶优化算法求解简单双层凸优化问题复杂度下界和上界的差距。本论文共同第一作者为上海期智研究院实习生、清华大学本科生张华清、博士生陈乐偲,通讯作者为上海期智研究院PI、清华大学助理教授张景昭。共同作者为清华大学博士生许靖。
论文信息:
Functionally Constrained Algorithm Solves Convex Simple Bilevel Problems, Huaqing Zhang*, Lesi Chen*, Jing Xu, Jingzhao Zhang†, https://arxiv.org/abs/2409.06530, NeurIPS 2024.
具有对抗扰动的连续时间线性系统的在线控制
机器人领域中一个重要的挑战是如何将模拟环境中的控制器迁移到现实世界,这一过程被称为“模拟到现实迁移”(sim-to-real transfer)。由于模拟和现实之间的动力学不匹配、现实环境中的未预期扰动以及非静态环境的存在,这一过程非常复杂。现有的策略,如领域随机化、元学习和领域自适应等,尽管在实验中表现良好,但这些策略往往会导致智能体在适应不同环境时表现保守,或产生次优的策略。
张景昭团队从在线控制理论的角度分析了模拟到现实的迁移问题,重点针对连续时间系统的非随机控制问题,提出了一种两层在线控制器,以降低在线策略优化中的遗憾 (regret)。具体来说,高层控制器采用带记忆的在线凸优化 (OCO) 框架,通过低频更新策略来减少遗憾,而低层控制器则使用DAC策略提供高频反馈控制,从而减少离散化误差并使实际状态更接近理想化状态。
团队的理论分析表明,对于连续时间线性系统,三种主要因素决定了遗憾的大小:离散化误差、OCO记忆的遗憾以及实际代价与近似代价的差异。通过选择合适的更新频率,可以平衡这些因素,达到与离散系统相同的遗憾。为解决连续时间系统中维数爆炸带来的离散化问题,引入了两级更新机制,在每隔多步后再更新 OCO 参数,最终实现了次线性遗憾。
此外,为了验证理论分析的有效性,团队将该算法应用于领域随机化环境中的多个强化学习任务,并通过引入“Stack & Skip”策略,即利用过去的状态信息并跳过部分状态观测,以增强智能体在动态环境中的适应能力。
图3. 利用“Stack & Skip”策略在域随机化的环境中训练智能体
团队在 MuJoCo 模拟器中对 Hopper、Half-Cheetah 和 Walker2D 三个基准任务进行了实验,随机化环境中的参数包括关节阻尼、摩擦力以及躯干尺寸等物理参数。实验结果表明,在域随机化的环境中,使用“Stack & Skip”策略显著提升了智能体的表现,与标准的SAC(Soft Actor-Critic)算法相比,团队的方法在所有测试环境中均表现更佳。
图4. 域随机化环境中的实验结果
本论文提出了一种适用于连续时间线性系统的两阶段在线控制算法,通过在域随机化环境中的强化学习任务进行实验,验证了该算法在实际应用中的有效性。本论文一作为上海期智研究院实习生、清华大学博士生李经纬,通讯作者为上海期智研究院PI、清华大学助理教授张景昭。共同作者为清华大学博士生常灿,香港中文大学博士生董婧,香港中文大学助理教授王趵翔。
论文信息:
Online Control with Adversarial Disturbance for Continuous-time Linear Systems, Jingwei Li, Jing Dong, Can Chang, Baoxiang Wang, Jingzhao Zhang†, https://arxiv.org/pdf/2306.01952, NeurIPS 2024.
分享到