赵行团队利用神经辐射场实现自动驾驶感知新范式

2024-10-15

上海期智研究院PI、清华大学助理教授赵行团队，设计了新的感知框架PreSight，使用过去观测信息重建可泛化的城市级先验，为解决自动驾驶在线感知难的问题提供了新的思路。此外，团队利用时序信息在三维空间中构建匹配代价的占据栅格预测方法，显著提升模型的空间理解能力。相关2项成果收录在今年的计算机视觉领域的顶级学术会议之一ECCV 2024。

Innovation Highlights

1. 团队设计了新的感知框架PreSight，通过构建城市级神经辐射场 (NeRF)，对过去的观测数据加以利用，重建城市级先验知识，增强下次经过同一路段时在线感知模型的表现。

2. 团队首次尝试了在三维空间构建匹配代价体时序模块，基于匹配代价 (Cost Volume) 的构建，利用长时序信息，修正模型对深度的预测，显著提升模型的空间理解能力。

Achievements Summary

PreSight：利用神经辐射场先验帮助自动驾驶场景的在线感知

今天的自动驾驶系统通常仅依靠在线传感器数据实现实时环境感知，而缺乏高效地利用过去观测数据的手段。与之相比，人类驾驶员在开车时会记住自己所开过的路段，在熟悉的道路上越开越好。为此，赵行团队设计了新的感知框架PreSight，通过构建城市级神经辐射场（NeRF），对过去的观测数据加以利用，重建城市级先验知识，增强下次经过同一路段时在线感知模型的表现。

图1. PreSight方法概览

团队首先提出分块重建的思路，从而实现使用百万数量级图片构建数公里级的城市级NeRF。引入基础视觉模型DINO的知识，构建包含可泛化语义信息的场景先验。设计了一种即插即用的融合模块，可以有效地将构建好的场景先验和在线观测进行融合，能够与任意一种基于BEV的在线感知进行组合，提升其感知能力。最后，在nuScenes数据集上设计实验，证明了该方法能在局部高清地图感知、占据栅格 (Occupancy) 预测任务上有效提升模型表现。

图2. PreSight对Occupancy预测任务的提升

图3. PreSight对局部高清地图感知任务的提升

图4. PreSight对环境几何信息的精确重建帮助在线感知

PreSight框架首次提出了使用过去观测信息重建可泛化的城市级先验，为解决自动驾驶在线感知难的问题提供了新的思路，具有重要的理论和实践价值。相关成果收录于ECCV 2024中。本论文第一作者为上海期智研究院实习生、清华大学交叉信息院博士生袁天远，通讯作者为赵行助理教授。

CVT-Occ—利用时序信息在三维空间中构建匹配代价的占据栅格预测方法

纯视觉自动驾驶系统面临从2D图像输入到3D场景建模的视角转换问题，而缺乏深度信息使得这一任务面临严峻挑战。而不同时刻的信息提供了辅助的观测视角，有助于修正模型对深度的预测，提升占据栅格 (Occupancy) 预测效果。为此，赵行团队设计了一个全新的匹配代价体时序模块，基于匹配代价 (Cost Volume) 的构建，利用长时序信息，修正模型对深度的预测，显著提升模型的空间理解能力。

图5. CVT-Occ整体架构图

该模块首次探索了在三维空间中构建匹配代价，通过同一视线在不同时刻的视差信息，降低二维到三维转换中的深度不确定性。具体做法是利用数据集中的投影矩阵，对所有历史时刻的三维体特征与当前时刻进行坐标对齐。在当前时刻的三维体特征上，以固定间距采样多个点，并将其投影到历史时刻的坐标系中。所有采样点在特征维度上拼接形成匹配代价体特征。随后，卷积神经网络以匹配代价体特征作为输入，输出辅助修正深度信息的权重，作用到当前时刻的三维体特征上，从而提升空间理解的准确性。

图6. 在Occ3D-Waymo数据集上

CVT-Occ优于其他时序融合方法

团队在数据集Occ3D-Waymo上与时序融合方法进行了比较，在mIoU指标上有了显著的提升，在大部分类别上都超过了所有其他方法。从可视化结果中也可以看到，CVT-Occ对体素点的深度预测更为精准，表现出了更强的空间理解能力。

图7. 可视化结果

CVT-Occ方法首次尝试了在三维空间构建匹配代价的技术路线，为利用时序信息提升纯视觉自动驾驶Occupancy预测效果提供了新的思路，具有重要的理论和实践价值。相关成果收录于ECCV 2024中。本论文第一作者为清华大学交叉信息院本科生叶章琛，通讯作者为赵行助理教授。

更多信息请阅读论文：

1. PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors, Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao†, https://arxiv.org/abs/2403.09079, ECCV 2024.

2. CVT-Occ: CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction, Zhangchen Ye*, Tao Jiang*, Chenfeng Xu, Yiming Li, Hang Zhao†, https://github.com/Tsinghua-MARS-Lab/CVT-Occ, ECCV 2024.

分享到

返回列表