智猩猩

CVPR 2025 | 无需任何3D标注数据！港科大（广州）开源具身场景零样本3D视觉定位方法SeeGround

分类：具身智能

2025-04-22 11:55:39

近年来，3D视觉定位（3DVG）技术在增强现实和机器人领域取得了重要进展，但现有方法普遍依赖大规模3D标注数据，难以在零样本、开放词汇场景下实现泛化。

为此，香港科技大学（广州）、新加坡A*STAR研究院和新加坡国立大学的研究团队提出了一种全新的零样本3DVG框架SeeGround。该框架通过2D视觉语言模型（VLM）完成3D物体定位，无需任何3D标注数据即可在复杂场景中实现精确定位。

4月23日上午19点，智猩猩邀请到论文一作、香港科技大学 (广州) 人工智能学域博士生李蓉，新加坡科技研究局研究科学家李仕杰，以及新加坡国立大学计算机系在读博士孔令东参与「智猩猩AI新青年讲座具身智能专题」第26讲，主讲《具身场景零样本3D视觉定位方法SeeGround》。

主要创新

SeeGround 通过两个关键模块解决了现有方法在空间理解上的不足：

● 透视自适应模块（Perspective Adaptation Module, PAM）

○ PAM通过动态视角选择生成2D渲染图，帮助VLM更好地理解物体间的空间关系。

○ 解析文本输入，识别锚定物体（Anchor Object），根据其位置计算最佳观察角度，调整虚拟摄像机的角度，生成符合空间描述的2D图像。

○ 该动态视角选择策略使VLM在涉及相对空间位置（如“桌子右边的椅子”）的定位任务中表现更为精准。

● 融合对齐模块（Fusion Alignment Module, FAM）

○ FAM通过视觉提示增强（Visual Prompting）技术，将2D视觉特征与3D坐标信息对齐，提升定位精度。

○ 利用对象查找表（Object Lookup Table, OLT）提取所有物体的3D坐标，通过投影技术在2D图像上生成对应位置标注。

○ 在VLM推理阶段，结合2D视觉特征和3D空间信息，显著提升多目标定位的准确率和鲁棒性。

实验结果

SeeGround 在 ScanRefer 和 Nr3D 数据集上进行了广泛的实验验证：

● 在ScanRefer数据集上的定位准确率达到62.3%，比现有零样本方法提升了9.2%。

● 在Nr3D数据集上的定位准确率为60.8%，显著超过其他方法。

● 在未见类别和未见场景的任务中，SeeGround 的性能接近甚至超越部分弱监督和全监督方法。

● 在消融实验中，去除部分文本信息（例如移除空间锚定描述）后，SeeGround 仍然能够基于视觉提示进行准确定位，展现出卓越的泛化能力。

此外，SeeGround 在多个复杂场景下均展示出稳健性和强大的跨模态理解能力：

● 在包含遮挡和复杂背景的场景中，定位准确率显著优于现有方法。

● 在涉及长文本描述和复杂空间指令的任务中，SeeGround 能够准确理解目标位置并生成精确的3D坐标。

应用场景

● 增强现实（AR）：在AR设备中实现自然语言与3D物体的交互。

● 机器人导航：帮助机器人在复杂环境中自主定位与操作。

● 智能家居：根据语音或文本指令，快速定位房间内的目标物体。

● 3D建模与可视化：在复杂3D场景中进行高效建模和精细可视化。

讲者

李蓉，香港科技大学 (广州) 人工智能学域博士生

香港科技大学 (广州) 人工智能学域二年级博士生，导师是梁俊卫教授。曾于法国国家信息与自动化研究所 (Inria) 实习。研究方向为三维场景理解与具身智能。相关研究成果发表于TPAMI、CVPR、ICCV等国际期刊和会议中。

李仕杰，新加坡科技研究局研究科学家

新加坡科技研究局研究科学家，于2024年在德国波恩大学取得博士学位。曾在阿里巴巴达摩研究院，英特尔研究院和高通研究院实习。研究兴趣是自动驾驶以及机器人视觉，在TPAMI、TNNLS、ICCV、ICRA等会议和期刊上发表文章。

孔令东，新加坡国立大学计算机系在读博士

新加坡国立大学计算机系博士三年级在读，于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。主要研究方向为三维场景感知、理解与生成。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA等国际期刊和会议中，并多次入选Oral、Highlight、Spotlight展示。

第 26 讲

主题

《具身场景零样本3D视觉定位方法SeeGround》

提纲

1、3D视觉定位相关工作概述

2、SeeGround方法介绍

3、SeeGround提升VLM空间理解能力

4、实验结果评估与分析

5、3D视觉定位前景与应用

直播信息

直播时间：4月23日19:00

成果

论文标题

《SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding》

论文链接

https://arxiv.org/pdf/2412.04383

项目主页

https://seeground.github.io

开源代码

https://github.com/iris0329/SeeGround

收录情况

CVPR 2025

如何报名

有讲座直播观看需求的朋友，可以扫码添加小助手期期，发送私信“具身智能26”进行报名，报名通过后将给到直播地址。

针对此次讲座，也有组建学习群。希望入群参与探讨的，也可以与期期进行申请。