运用视觉基础模型分割「任意」激光雷达点云

智猩猩AI新青年讲座自动驾驶专题 2024/01/11 19:00:00

课程讲师

孔令东新加坡国立大学计算机系在读博士

新加坡国立大学计算机系博士在读，本科毕业于华南理工大学。于上海人工智能实验室、英伟达研究院、字节跳动AI Lab等机构进行科研实习。研究方向为3D场景感知、理解与生成。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR等国际期刊和会议中。

孔令东

新加坡国立大学计算机系在读博士

课程提纲

课程简介

3D 场景感知对于自动驾驶的安全性至关重要。来自新加坡国立大学的博士生孔令东等人在 NeurIPS 2023 上提出了一个新颖的点云无监督预训练框架 Seal，该框架旨在利用视觉基础模型 (VFM) 分割不同的激光雷达点云序列。

Seal 具有以下三点特性：

1) 可扩展性：其将VFM中的知识直接蒸馏到点云上，从而无需在预训练期间使用任何2D 或3D 标注。

2）一致性：其在相机到激光雷达和点到簇两个正则化阶段分别进行了空间和时间约束，以促进跨模式表示学习。

3) 通用性：Seal能够将现有模型中的知识迁移到涉及不同类型点云的下游任务中，包括了来自真实/合成、低/高分辨率、大/小规模以及干净/损坏数据集的点云等。

在共11个不同的点云数据集上进行的广泛实验，也验证了 Seal 的有效性和优越性。该成果已被 NeurIPS 2023 收录为 Spotlight。

除了 Seal，在如何提升 3D 场景感知可靠性上，孔令东还分别提出了首个关注于使用半监督信号进行激光雷达点云语义分割的框架 LaserMix 和包含恶劣天气条件、外部干扰和内部传感器故障引起的八种损坏类型的 3D 感知模型测试基线 Robo3D 。

1月11日晚7点，「自动驾驶新青年讲座」第34讲邀请到 Seal 一作、新加坡国立大学在读博士孔令东参与，主讲《运用视觉基础模型分割「任意」激光雷达点云》，包括 Seal、LaserMix 和 Robo3D 等成果内容。

成果

论文标题

《Segment Any Point Cloud Sequences by Distilling Vision Foundation Models》

《LaserMix for Semi-Supervised LiDAR Semantic Segmentation》

《Robo3D: Towards Robust and Reliable 3D Perception against Corruptions》

论文地址

https://arxiv.org/pdf/2306.09347.pdf

https://arxiv.org/pdf/2207.00026.pdf

https://arxiv.org/pdf/2303.17597.pdf

代码链接

https://github.com/youquanl/Segment-Any-Point-Cloud

https://github.com/ldkong1205/LaserMix

https://github.com/ldkong1205/Robo3D.

提问

目前还没有问题，可以点击右侧的“提问按钮”提问