基于Transformer的多模态3D检测表示

课程回放

智猩猩AI新青年讲座 2022/08/11 18:00:00

课程讲师

李彦玮香港中文大学在读博士

师从贾佳亚教授；主要关注方向为计算机视觉和多模态感知；在CVPR、ICCV、ECCV、NeurIPS、TPAMI等会议及期刊上发表20篇以上文章，其中一作9篇，Google Scholar引用1200+；曾获微软奖学金提名，并作为一作获得Microsoft COCO比赛亚军；担任CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、IJCV等会议或期刊审稿人。

李彦玮

香港中文大学在读博士

课程提纲

多模态3D感知的研究与发展
利用图像光束的跨模态融合方法
基于Transformer的多模态3D检测统一表示框架
未来多模态感知的前景

课程简介

相比于单模态检测，而使用多模态传感器（如LiDAR 和相机）的3D检测，可以通过不同模态的数据来补充先验知识。例如来自点云的准确位置和来自图像的丰富上下文。但相机缺乏准确的深度，图像则不能像点云那样在体素空间中自然地表示。因此，对于多模态3D检测而言，统一的表示方法对于促进跨模式的知识转移和特征融合至关重要。

为了有效的表示多模态3D检测，在CVPR 2022上，香港中文大学在读博士李彦玮等人提出了一个概念简单但有效的跨模态三维目标检测框架VFF（Voxel Field Fusion）。该方法旨在通过在Voxel field中将增强图像特征表示为ray并进行融合来保持跨模态一致性。在各种基准测试中，VFF取得了一致的收益，并且优于以前基于KITTI和nuScenes数据集的融合方法。

同时，为了在统一体素空间中的进行多模态表示，以实现准确和鲁棒的单模态或跨模态3D检测，李彦玮博士基于Transformer最新提出了一个用于多模态 3D 对象检测的统一框架UVTR。UVTR在没有高度压缩的情况下保留了体素空间，以减轻语义歧义并实现空间交互。并且通过跨模态交互的方式，充分利用不同传感器的固有属性，包括知识传递和模态融合。

通过这种方式，点云中的几何感知表达式和图像中的上下文丰富的特征得到了很好的利用，以提高性能和鲁棒性。最后的实验证明，UVTR超越了以前在单模态和多模态输入方面的工作，并在 nuScenetest 数据集中取得了领先的性能，激光雷达、相机和多模态输入的 NDS 分别为 69.7%、55.1% 和 71.1%。

8月11日晚6点，「AI新青年讲座」第145讲，邀请到香港中文大学在读博士李彦玮参与，主讲《基于Transformer的多模态3D检测表示》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...