2024-05-09
赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能,解决自动驾驶中的长期规划问题。设计了双分支序列编码器,有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。
论文题目:Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills
论文作者:Zenan Li*, Fan Nie*, Qiao Sun, Fang Da, Hang Zhao
论文链接:https://arxiv.org/abs/2309.13614