选择语言
< 返回主菜单

赵行团队提出了 StateTransformer-2(STR2)

2025-08-07

图片

Innovation Highlights

       赵行团队提出了 StateTransformer-2(STR2),STR2 通过将运动规划任务转化为自监督序列建模,并结合专家混合架构,实现了在各种复杂城市场景下的卓越泛化性能。相较于以往需要多阶段、多范式训练的方案,STR2 仅凭单一阶段的自监督学习,就能在少样本、零样本、以及大规模产业级数据环境中保持高度一致的性能表现,从而大幅降低了研发门槛并提高了部署价值。在 NuPlan 数据集上的大规模实验结果表明,STR2 在不同测试集、包括少样本与零样本场景上,较现有方法均取得显著提升;在 LiAuto 产业级数据集中,数据规模扩展至 10 亿条驾驶场景时,性能稳定随数据与模型规模增长而提升。


Achievements Summary

用于自动驾驶运动规划泛化的专家混合模型扩展(STR2)

图片

在自动驾驶运动规划领域,如何在复杂的城市道路场景和长尾少样本场景下保持规划器的鲁棒与泛化,一直是业内难题。传统的基于规则或优化的规划方法需要工程师手动设计代价函数,以平衡“舒适”“安全”“效率”等多重目标,往往在实际复杂路况中难以兼顾;而基于强化学习的规划器虽然具备一定的泛化潜力,却面临仿真到现实(sim-to-real)的巨大差距、训练成本高昂的挑战导致在实际应用中难以大规模落地应用。近年来,随着大规模驾驶数据的积累,自监督的模仿学习为运动规划提供了新的思路,但如何避免分布漂移与奖励冲突导致的性能下降,仍需在模型和训练范式上做出改进。

赵行团队率先引入了混合专家(MoE)架构的STR2方法,以解决自动驾驶运动规划领域,如何在复杂的城市道路场景和长尾少样本场景下保持规划器的鲁棒与泛化这一困扰业内多年的难题。本研究将驾驶轨迹预测与运动规划视作一个自回归序列建模问题:给定过去两秒的环境观测(包括道路几何、红绿灯状态、周围车辆和行人的位置等),通过使用了MoE的Transformer 架构直接预测未来八秒的最优轨迹,实现对复杂动态场景的预测与规划。这一思路与语言模型类似,利用 Transformer 在建模长序列依赖关系上的天然优势,从而减少对手工设计的依赖。为了在大规模数据上实现高效表达,STR2 首先将多模态交通信息通过 Rasterization 处理成两个尺度(近场与远场)的栅格图,每个栅格图由 34 通道的二值占用图组成,分别代表车道线、交通标志、动态障碍物等要素,并通过一个 12 层堆叠的 Vision Transformer 对这些多尺度栅格图进行编码,将其切分为 16×16 的 Patch 并映射为序列输入,再与车辆历史运动状态特征一并输入解码器。


图片

图1.  STR2 模型结构概览—包含多尺度栅格化 ViT 编码器、专家路由层、Proposal 分类嵌入与 Autoregressive 解码


在解码阶段,团队引入了混合专家(MoE)架构,以解决纯 Transformer 在面对多目标冲突时可能出现的奖励平衡问题。在每一层的 Transformer 中,基于门控路由机制,根据当前样本的场景特征,将不同的奖励(例如对碰撞风险的避开、对前进效率的追求、对车道保持的遵守等)自动分发给若干专家网络,让每个专家在其负责的子任务上专注学习。这种设计一方面避免了普通单一网络在多重目标下出现的模态崩塌,另一方面通过专家并行与高效的 Flash Attention 技术,使得在 8 张 H100 GPU 上训练数十亿参数规模的模型成为可能。为了进一步缓解在连续轨迹空间下的回归难度,我们在自回归序列中插入了 Proposal 分类嵌入,即通过对 70 万条历史轨迹进行 K-Means 聚类得到 512 个典型轨迹原型(Proposal),网络首先预测出轨迹落入哪个原型类别,再基于该原型生成精细的连续关键点。此种先分类后回归的设计有效减少了曲率预测的崩塌风险,使输出轨迹更加平滑合理。与以往需要额外引入强化学习、逆向强化学习或对比学习等多阶段训练范式相比,STR2 仅依靠自监督地拟合专家示例,在一个阶段内完成训练,简化了流程并大幅降低训练成本。训练过程中,我们使用 Cosine-Restart 学习率调度、bfloat16 精度训练,以及多尺度环境输入,使得模型能够快速收敛并具备良好的泛化能力。

在实验设计方面,团队首先在 NuPlan 数据集上构建了大规模训练集:去除静止状态后,提取出超过 700 万条有效驾驶场景作为训练样本;测试阶段,团队从 NuPlan 的验证集和测试集中各随机抽取 4000 条场景,构成 Val4k 与 Test4k 两个基准测试集;同时,为了考察模型在少样本与零样本场景下的表现,团队选取了 Val14(14 万条更具挑战性的场景)、TestHard(包含复杂城市交叉路口与动态障碍物)以及通过场景合成技术生成的 InterPlan(施工区、碰撞现场等全新环境)。团队在开环(Open-Loop)设置下采用 OLS(Open-Loop Score)、8sADE(8 秒平均位移误差)、8sFDE(8 秒最终位移误差)等指标进行评测;在闭环(Closed-Loop)仿真中,则分别在非反应式(Non-Reactive)与反应式(Reactive)两种模式下评定碰撞率、车道合规度、限速合规度和时间到碰撞(TTC)等综合分数。除此之外,为了验证 STR2 在产业级数据上的可伸缩性,团队还在 LiAuto 自研数据集中开展了扩展实验:该数据集覆盖 70 万车次、1 亿条驾驶场景,团队针对不同的数据量级(百万级、千万级、亿级)以及不同模型参数规模(1 亿、3 亿参数)进行训练,并记录测试损失随数据量与参数量变化的幂律关系。

图片

图2.STR2在不同尺度的模型大小、计算资源以及数据量大小上的泛化性能展示


所有实验结果表明,STR2 在 NuPlan 的 Val4k、Test4k 以及 Val14 上,无论是 100M、800M 还是 1B 参数规模的模型,都在 OLS、8sADE、8sFDE 等开环指标上取得了优异成绩;在 Val14 与 TestHard 中,STR2 相较于先前方法(如 PDM-Hybrid、PlanTF、DTPP、GameFormer 等)的性能下降幅度更小,尤其在零样本合成场景(InterPlan)中表现出色,展示了对分布漂移的极强抗性。在闭环仿真中,无论是非反应式还是反应式设置,STR2 都获得了比现有方法更高的综合评分,而那些在反应式仿真下性能下降明显的方法,往往是由于过度拟合训练示例导致对新环境的鲁棒性不足。值得注意的是,在 LiAuto 产业级数据集上进行的可伸缩性实验中,STR2 在不同数据与参数配置下的测试损失都呈现对数线性下降趋势,验证了 MoE-Transformer 在真实工业环境中的有效性与可扩展性。

这项工作展示了仅依靠自监督序列建模与 MoE 架构,便能实现在复杂城市驾驶场景下更强的规划泛化能力。本论文一作为上海期智研究院研究员孙桥,通讯作者为清华大学助理教授赵行。共同作者为理想汽车王慧敏,温馨,许雷猛,詹昆,贾鹏,郎宪鹏,上海期智研究院实习生、复旦大学本科生詹佳豪,上海期智研究院实习生、斯坦福大学硕士研究生聂帆。


论文信息:

Generalizing Motion Planners with Mixture of Experts for Autonomous Driving, Qiao Sun, Huimin Wang, Jiahao Zhan, Fan Nie, Xin Wen, Leimeng Xu, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao†, https://arxiv.org/abs/2410.15774,ICRA 2025.

分享到