选择语言
< 返回主菜单

赵行团队利用神经辐射场实现自动驾驶感知新范式

2024-10-15

     上海期智研究院PI、清华大学助理教授赵行团队,设计了新的感知框架PreSight,使用过去观测信息重建可泛化的城市级先验,为解决自动驾驶在线感知难的问题提供了新的思路。此外,团队利用时序信息在三维空间中构建匹配代价的占据栅格预测方法,显著提升模型的空间理解能力。相关2项成果收录在今年的计算机视觉领域的顶级学术会议之一ECCV 2024。

dda273af1dde7c98307d5e7b51f8ff56.png

Innovation Highlights

1. 团队设计了新的感知框架PreSight,通过构建城市级神经辐射场 (NeRF),对过去的观测数据加以利用,重建城市级先验知识,增强下次经过同一路段时在线感知模型的表现。

2. 团队首次尝试了在三维空间构建匹配代价体时序模块,基于匹配代价 (Cost Volume) 的构建,利用长时序信息,修正模型对深度的预测,显著提升模型的空间理解能力。

Achievements Summary

    PreSight:利用神经辐射场先验帮助自动驾驶场景的在线感知

       今天的自动驾驶系统通常仅依靠在线传感器数据实现实时环境感知,而缺乏高效地利用过去观测数据的手段。与之相比,人类驾驶员在开车时会记住自己所开过的路段,在熟悉的道路上越开越好。为此,赵行团队设计了新的感知框架PreSight,通过构建城市级神经辐射场(NeRF),对过去的观测数据加以利用,重建城市级先验知识,增强下次经过同一路段时在线感知模型的表现。

图片

图1. PreSight方法概览


团队首先提出分块重建的思路,从而实现使用百万数量级图片构建数公里级的城市级NeRF。引入基础视觉模型DINO的知识,构建包含可泛化语义信息的场景先验。设计了一种即插即用的融合模块,可以有效地将构建好的场景先验和在线观测进行融合,能够与任意一种基于BEV的在线感知进行组合,提升其感知能力。最后,在nuScenes数据集上设计实验,证明了该方法能在局部高清地图感知、占据栅格 (Occupancy) 预测任务上有效提升模型表现。

图片

图2.  PreSight对Occupancy预测任务的提升

图片

图3. PreSight对局部高清地图感知任务的提升

图片

图4. PreSight对环境几何信息的精确重建帮助在线感知


PreSight框架首次提出了使用过去观测信息重建可泛化的城市级先验,为解决自动驾驶在线感知难的问题提供了新的思路,具有重要的理论和实践价值。相关成果收录于ECCV 2024中。本论文第一作者为上海期智研究院实习生、清华大学交叉信息院博士生袁天远,通讯作者为赵行助理教授。


CVT-Occ—利用时序信息在三维空间中构建匹配代价的占据栅格预测方法

       纯视觉自动驾驶系统面临从2D图像输入到3D场景建模的视角转换问题,而缺乏深度信息使得这一任务面临严峻挑战。而不同时刻的信息提供了辅助的观测视角,有助于修正模型对深度的预测,提升占据栅格 (Occupancy) 预测效果。为此,赵行团队设计了一个全新的匹配代价体时序模块,基于匹配代价 (Cost Volume) 的构建,利用长时序信息,修正模型对深度的预测,显著提升模型的空间理解能力。


图片

图5. CVT-Occ整体架构图


该模块首次探索了在三维空间中构建匹配代价,通过同一视线在不同时刻的视差信息,降低二维到三维转换中的深度不确定性。具体做法是利用数据集中的投影矩阵,对所有历史时刻的三维体特征与当前时刻进行坐标对齐。在当前时刻的三维体特征上,以固定间距采样多个点,并将其投影到历史时刻的坐标系中。所有采样点在特征维度上拼接形成匹配代价体特征。随后,卷积神经网络以匹配代价体特征作为输入,输出辅助修正深度信息的权重,作用到当前时刻的三维体特征上,从而提升空间理解的准确性。

图片

图6. 在Occ3D-Waymo数据集上

CVT-Occ优于其他时序融合方法


团队在数据集Occ3D-Waymo上与时序融合方法进行了比较,在mIoU指标上有了显著的提升,在大部分类别上都超过了所有其他方法。从可视化结果中也可以看到,CVT-Occ对体素点的深度预测更为精准,表现出了更强的空间理解能力。

图片

图7. 可视化结果


CVT-Occ方法首次尝试了在三维空间构建匹配代价的技术路线,为利用时序信息提升纯视觉自动驾驶Occupancy预测效果提供了新的思路,具有重要的理论和实践价值。相关成果收录于ECCV 2024中。本论文第一作者为清华大学交叉信息院本科生叶章琛,通讯作者为赵行助理教授。



更多信息请阅读论文:


1. PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors, Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao†, https://arxiv.org/abs/2403.09079, ECCV 2024.

2. CVT-Occ: CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction, Zhangchen Ye*, Tao Jiang*, Chenfeng Xu, Yiming Li, Hang Zhao†, https://github.com/Tsinghua-MARS-Lab/CVT-Occ, ECCV 2024.