选择语言
< 返回主菜单

弋力团队提出弋力—提出ImOV3D方法,针对开放词汇三维目标检测中三维数据和标注稀缺的问题

2024-11-27

 未命名(14).jpg

Innovation Highlights

1. 弋力—提出ImOV3D方法,针对开放词汇三维目标检测中三维数据和标注稀缺的问题,通过整合丰富的二维图像标注资源,灵活的模态转换弥合训练图像与测试点云之间的模态差异,仅利用二维图像数据实现开放词汇3D目标检测。


Achievements Summary

仅从二维图像中学习开放词汇点云的三维目标检测—ImOV3D

图片


在三维视觉领域,开放词汇三维目标检测正受到越来越多的关注。该任务旨在推理阶段时,可以检测到那些在训练阶段未出现的物体类别。在现实世界的动态环境中,目标类别不断出现和变化,这种能力至关重要。尽管开放词汇三维目标检测取得了一定进展,但该领域的三维数据和标注资源仍然稀缺,限制了模型处理新颖目标的能力。

图片

图1. ImOV3D和其他方法对比


现有方法通常借助强大的开放词汇二维检测器。一个常见的方法是利用配对的RGB-D数据二维检测器生成三维伪标注以解决标注稀缺问题。然而,这些方法仍受到现有配对RGB-D数据规模较小的限制。此外,由于模态差异,从头训练的三维检测器很难直接继承开放词汇二维检测器的强大能力。因此,如何更有效地将二维知识转移到三维以支持开放词汇三维目标检测,并有效缓解三维数据少的问题?

弋力团队提出ImOV3D,利用伪多模态表示来解决上述挑战。一方面,通过深度估计和相机矩阵将二维图像提升为伪三维表示;另一方面,可以通过渲染将三维点云转换为伪二维表示。这种伪图像-点云多模态表示可以作为二维到三维知识转移的共同基础

图片

图2. ImOV3D概述图


具体来说,整个流程包括两部分:

(1) 图像 → 伪点云。团队利用大规模的二维图像训练集,通过单目深度估计和近似相机参数,将图像转换为伪点云,并基于二维标注自动生成伪三维标注,提供必要的训练数据。同时,团队设计了一系列修正模块,通过尺寸先验和法线图的估计方向显著提高伪三维数据的质量

图片

图3. 伪三维数据修正模块


(2) 伪点云 → 伪图像。团队学习了一个点云渲染器,能够从伪三维点云生成具有自然纹理的二维图像。这使得ImOV3D即使在推理阶段只有点云输入的情况下,仍能利用伪多模态三维目标检测,将丰富的二维语义信息和提案转移到三维空间,从而进一步提升检测器的性能。

尽管仅使用二维图像集进行训练,ImOV3D在直接处理真实三维测试数据时仍表现出色,这得益于高质量的点云提升和点云渲染。此外,当少量真实三维数据可用时,即使没有三维标注,ImOV3D也能通过微调进一步缩小伪数据和真实数据之间的差距,从而提升检测性能。为了验证ImOV3D的有效性,团队在两个基准数据集上进行了广泛实验。在没有真实三维训练数据的情况下,ImOV3D相比以往的开放词汇三维目标检测器,分别在两个数据集上实现了显著的性能提升。

图片

图4. 预训练阶段和适应阶段在SUNRGBD和ScanNet数据集上表现最好


ImOV3D展示了利用二维图像提升开放词汇三维目标检测的潜力,为未来在伪多模态数据生成及其在三维检测方法中的应用开辟了新方向。本论文共同一作为上海期智研究院实习生杨题鸣、学士后鞠沅良,通讯作者为上海期智研究院PI、清华大学助理教授弋力。



论文信息:

ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images, Timing Yang*, Yuanliang Ju*, Li Yi†, https://yangtiming.github.io/ImOV3D_Page/, NeurIPS 2024.