许华哲团队在强化学习领域取得重要进展

2024-07-12

上海期智研究院PI、清华大学助理教授许华哲团队，近期在强化学习的算法和理论创新方面取得了一系列成果。团队提出了因果感知熵正则化策略、逐点递归结构等方法，提高学习效率、探索效率和整体性能，对强化学习领域及机器人任务等复杂场景具有显著的应用价值。相关3项成果收录在今年的ICML 2024中，其中关于因果感知熵正则化策略ACE的论文被大会选为口头报告（Oral，录取率1.6%）。

Innovation Highlights

提出了一种创新的离策略演员-评论家算法ACE，通过因果感知熵正则化进一步提高了强化学习的效率和效果。在7个领域的29个不同连续控制任务上，相较于其他强化学习基准算法表现出显著的性能优势，凸显了该算法的有效性、通用性和高采样效率。
对Transformer在解决部分可观测马尔可夫决策过程 (POMDPs) 中的有效性提出质疑，揭示了其在理论及实证上的局限性，并提出了引入点式递归结构的改进方案。深度线性递归单元作为部分可观察强化学习的理想替代方案出现，并在实验中展现出显著优势。
提出了一种通用的贝尔曼算子BEE算子，它允许从回放缓冲区中提取最优动作进行Q值更新，减少对当前策略的依赖，从而提升Q值估计质量，可以嵌入到各类离线策略演员-评论家算法中，提升强化学习的效率和效果。

Achievements Summary

ACE: 具有因果感知能力的熵正则化离线策略演员-评论家算法

以往的强化学习算法忽略了不同原始行为在策略学习过程中的重要性变化。许华哲团队探索了不同动作维度与奖励之间的因果关系，以评估各种原始行为在训练过程中的重要性。我们提出的具有因果感知能力的熵正则化离线策略演员-评论家算法ACE (Off-policy Actor-critic with Causality-aware Entropy regularization)，通过因果感知熵正则化进一步提高了强化学习的效率和效果。

图1. ACE的原始策略概念展示与效果

团队首次探索了动作维度与奖励之间的因果关系，评估不同原始行为在训练过程中的重要性，从而评估训练过程中各种行为的重要性。引入了一种因果感知熵项 (causality-aware entropy term)，有效识别并优先探索具有高潜在影响的动作，有效解决了现有强化学习算法存在的探索效率和样本效率问题。分析了梯度休眠现象，并引入了一种休眠引导重置机制，防止过度关注特定原始行为，提升算法鲁棒性。

图2. ACE的优异性能

团队在7个领域的29个不同连续控制任务上，相较于其他强化学习基准算法表现出显著的性能优势，验证了方法的有效性、通用性和更高的采样效率。

图3. 激励性示例—机械臂将螺丝钉锤入墙壁

ACE算法将因果关系分析引入强化学习算法设计，为解决复杂决策问题提供了新的思路，具有重要的理论和实践价值。相关成果收录于ICML 2024中，并将进行Oral口头报告（录取率1.6%）。本论文一作为清华大学博士生嵇天颖，上海期智研究院助理研究员梁咏园。

反思Transformer网络在解决部分可观察马尔可夫决策过程中的应用

在现实世界场景中，序列决策算法（如强化学习）不可避免地会面对部分可观测的环境。许华哲团队审视了一种流行的架构，即注意力模型在部分可观察马尔可夫决策过程中的有效性，并揭示了其理论上的局限性。团队确定了注意力模型难以建模的正规语言是可简化为部分可观察马尔可夫决策过程的。这给注意力模型在学习特定的归纳偏置带来了重大挑战，因为它们缺乏像递归神经网络等其他模型所具有的内在递归性。

图4. 循环序列神经机制（左）和注意力机制（右）的网络结构

图5. 正则语言任务的隐藏状态

团队通过严谨的分析，展示了注意力模型作为序列模型骨干在解决部分可观察马尔可夫决策过程中的理论局限性。为了更好地利用序列模型的归纳偏置，研究了注意力模型和递归神经网络的优势。基于理论分析的见解，在注意力模型中引入了逐点递归结构，得到线性递归神经网络，以作为解决部分可观察马尔可夫决策过程的更合适选择。通过在各种任务上的大量实验，比较了不同序列模型在多个维度上表现出的能力，验证了注意力模型作为某些部分可观察马尔可夫决策过程中的序列模型时表现次优，同时强调了线性递归神经网络在全面评估时的优势。

6. RL算法结合神经序列模型解决 POMDP 任务

本研究深入探索了注意力模型在部分可观测强化学习中适用范围，基于计算理论和形式语言的相关理论，揭示了注意力模型在部分可观测强化学习中的局限性，为强化学习中序列模型的选择提供了新的思路。相关成果收录于ICML 2024中。本论文一作为清华大学交叉信息研究院本科生卢宸昊。

抓住机遇：挖掘过往成功价值提升离线策略演员-评论家算法

高质量的Q值函数学习在现代离线策略深度强化学习算法中起着关键作用。以往的工作主要集中在解决由于采用函数逼近和离线策略学习而导致的值过估问题。然而，在强化学习训练的后期阶段，Q值往往被低估，这可能阻碍策略学习并降低样本效率。许华哲团队发现，这一长期被忽视的现象通常与当前策略在贝尔曼更新过程中使用的次优动作有关，而这些次优动作相比于回放缓冲区中的最佳动作样本更为低劣。

许华哲团队深入探索了强化学习算法中广泛存在但被忽视的Q值低估问题，提出了Blended Exploitation and Exploration (BEE) 贝尔曼算子，这是一种简单而有效的方法，利用历史上表现最好的动作和当前策略更新Q值，减少对当前策略的依赖，从而提升Q值估计质量，可以嵌入到各类离线策略演员-评论家算法中，提升强化学习的效率和效果。

图7. BEE算子的原始策略概念展示

基于BEE算子，团队提出的实例化算法BAC在50多个连续控制任务中表现优于最先进的方法，并在真实四足机器人任务中，BAC展示了其卓越的适应性和鲁棒性。提出了一种新的范式，将离线RL中的利用能力纳入纯在线RL中，以增强在线RL的效果。

图8. BAC的优异性能

BEE算子具有高度的通用性，能够灵活地集成到多种离线策略演员-评论家框架中。它不仅适用于各类无模型强化学习算法 (如嵌入SAC、TD3)，还在基于模型的强化学习算中 (如嵌入MBPO) 中表现出色。

图9. BEE算子的通用性

本研究揭示了强化学习中长期被忽视的Q值低估问题和其内在机理，并提出通用的BEE算子，为强化学习领域的发展做出了重要贡献。相关成果收录于ICML 2024中。本论文一作为清华大学博士生嵇天颖。

更多信息请阅读论文：

1. ACE: Off-Policy Actor-Critic with Causality-Aware Entropy Regularization, Tianying Ji*, Yongyuan Liang*, Yan Zeng, Yu Luo, Guowei Xu, Jiawei Guo, Ruijie Zheng, Furong Huang, Fuchun Sun, Huazhe Xu, https://arxiv.org/pdf/2402.14528, Oral, ICML 2024.

2. Rethinking Transformer in Solving POMDPs, Chenhao Lu*, Ruizhe Shi*, Yuyao Liu*, Kaizhe Hu, Simon Shaolei Du, Huazhe Xu, https://arxiv.org/abs/2405.17358, ICML 2024.

3. Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic， Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu，https://arxiv.org/abs/2306.02865, ICML 2024.

分享到

返回列表