促进自动驾驶的离线强化学习—HsO-VP

2024-05-09

赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性，提出了HsO-VP框架，实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能，解决自动驾驶中的长期规划问题。设计了双分支序列编码器，有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。

赵行11.png

论文题目：Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills

论文作者：Zenan Li*, Fan Nie*, Qiao Sun, Fang Da, Hang Zhao

论文链接：https://arxiv.org/abs/2309.13614

分享到

返回列表