选择语言
< 返回主菜单

高阳团队提出通用且采样高效的EfficientZero系列强化学习算法

2024-07-09

       上海期智研究院PI、清华大学助理教授高阳团队,一直致力于探索和开发能够在有限数据下实现高水平性能的强化学习算法。团队于NeurIPS 2021大会上提出了EfficientZero算法,首次在雅达利 (Atari) 游戏数据上超过同等游戏时长的人类平均水平,相比谷歌和DeepMind提出的经典强化学习算法 (DQN) 提升500倍效率,受到领域内的极大关注。近期团队又进一步完善并提出EfficientZero V2算法,将EfficientZero的性能扩展到了多种领域,在有限数据设置下在各种任务中均以较大的优势超越了当前的SOTA。研究成果被2024年国际机器学习大会(ICML 2024)收录为Spotlight论文 (Top 3.5%)。

EfficientZero V2

       强化学习 (RL) 已经在诸如围棋、电子游戏和机器人控制等多种任务上表现出色。然而,这些算法需要与环境进行大量的交互,导致时间和计算成本显著增加。例如,一个基于RL的控制器需要近100M次交互才能在使用视觉信息作为输入的场景中,正确操作物体完成日常任务。此外,如果考虑用于完成日常家务的机器人,为其构建逼真的模拟器可能是十分困难的工作。而如果在现实世界中收集数据,过程往往既耗时又昂贵。因此,针对RL领域的这个基础性问题,高阳团队提出EfficientZero V2 (EZ-V2) 算法,这是一个专为提升RL算法采样效率而设计的通用框架。该工作将先前团队提出的EfficientZero的性能扩展到了多种领域,包括连续和离散动作,以及视觉和低维状态输入的情况。EZ-V2算法能够以更高的样本效率掌握各个领域的任务。EZ-V2成功将EfficientZero的强大性能扩展到连续控制问题,展示了对多场景的强大适应性。

图片

图1. EfficientZero V2框架

本工作的主要贡献如下:

1)提出了一个通用的样本高效强化学习框架。具体来说,该框架在离散和连续控制、视觉和低维状态输入方面均实现了稳定的样本效率。

2)在多个基准测试中评估了提出的方法,EZ-V2的性能优于之前的SOTA算法。在数据预算为50k到200k次交互的情况下,EZ-V2在多个领域的表现大幅超越了此前DeepMind提出的通用算法DreamerV3。

3)算法性能的突破得益于两个重要的算法创新:基于采样的树搜索用于动作规划,确保在连续动作空间中的策略提升;基于搜索的价值估计方法,更加有效地利用先前收集的数据来更新价值函数。

图片

图2. EfficientZero V2和基线算法的对比


       EZ-V2算法在各类基准测试中展现出极高的采样效率,对提升现实世界机器人的在线学习具有巨大的潜力。因此团队将继续完善EfficientZero系列算法,在具身智能等场景下实现更广泛的应用。本论文一作为上海期智研究院实习生、清华大学交叉信息研究院博士生王圣杰、叶葳蕤,清华大学交叉信息研究院硕士生刘绍淮。

EfficientZero

       高阳团队于2021年提出的模型EfficientZero首次在雅达利 (Atari) 游戏数据上超过同等游戏时长的人类平均水平,相比谷歌和DeepMind提出的经典强化学习算法 (DQN) 提升500倍效率。这表明EfficientZero的高样本效率与高性能能够让强化学习算法更加贴近真实应用的场景,为强化学习算法能够落地提供了更大的可能性。

图片

图3. EfficientZero在Atari 100k(2h环境数据)基准下与其他算法结果对比


       EfficientZero是一种model-based的算法,基于此前的MuZero模型,这类模型一方面通过收集的数据来学习环境模型,从而能够预测环境的变化,另一方面利用所学出的模型预测未来的轨迹和所得回报,通过MCTS进行规划,从而在少量训练数据情况下能够达到较高的性能。EfficientZero提出了三点改进:时序一致性,预测阶段回报,修正目标价值。其中时序一致性的实现是通过计算机视觉领域中的对比学习算法SimSiam实现的,这使得状态转移模型所预测的下一步状态靠近真实轨迹的下一步状态,从而促进状态转移模型的学习。

图片

图4. EfficientZero通过自监督学习保持时序一致性


       该成果收录于2021年神经信息处理系统进展大会 (NeurIPS 2021)。本论文一作为上海期智研究院实习生、清华大学交叉信息研究院博士生叶葳蕤。


 

更多信息请阅读论文:



1. EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data, Shengjie Wang*, Shaohuai Liu*, Weirui Ye*, Jiacheng You, and Yang Gao, https://arxiv.org/abs/2403.00564, ICML 2024.


2. Mastering Atari Games with Limited Data, Weirui Ye, Shaohuai Liu, Thanard Kurutachy, Pieter Abbeely, Yang Gao*, https://arxiv.org/abs/2111.00210, NeurIPS 2021.

分享到