绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
基于Transformer的多模态3D检测表示
AI新青年讲座 2022/08/11 18:00:00
课程讲师

师从贾佳亚教授;主要研究方向主要集中于2D和3D的场景感知,曾在CVPR、NeurIPS、TPAMI等会议和期刊上发表多篇学术论文。

李彦玮
香港中文大学 在读博士

师从贾佳亚教授;主要研究方向主要集中于2D和3D的场景感知,曾在CVPR、NeurIPS、TPAMI等会议和期刊上发表多篇学术论文。

课程提纲
  • 多模态3D感知的研究与发展
  • 利用图像光束的跨模态融合方法
  • 基于Transformer的多模态3D检测统一表示框架
  • 未来多模态感知的前景
课程简介

相比于单模态检测,而使用多模态传感器(如LiDAR 和相机)的3D检测,可以通过不同模态的数据来补充先验知识。例如来自点云的准确位置和来自图像的丰富上下文。但相机缺乏准确的深度,图像则不能像点云那样在体素空间中自然地表示。因此,对于多模态3D检测而言,统一的表示方法对于促进跨模式的知识转移和特征融合至关重要。

为了有效的表示多模态3D检测,在CVPR 2022上,香港中文大学在读博士李彦玮等人提出了一个概念简单但有效的跨模态三维目标检测框架VFF(Voxel Field Fusion)。该方法旨在通过在Voxel field中将增强图像特征表示为ray并进行融合来保持跨模态一致性。在各种基准测试中,VFF取得了一致的收益,并且优于以前基于KITTI和nuScenes数据集的融合方法。

同时,为了在统一体素空间中的进行多模态表示,以实现准确和鲁棒的单模态或跨模态3D检测,李彦玮博士基于Transformer最新提出了一个用于多模态 3D 对象检测的统一框架UVTR。UVTR在没有高度压缩的情况下保留了体素空间,以减轻语义歧义并实现空间交互。并且通过跨模态交互的方式,充分利用不同传感器的固有属性,包括知识传递和模态融合。

通过这种方式,点云中的几何感知表达式和图像中的上下文丰富的特征得到了很好的利用,以提高性能和鲁棒性。最后的实验证明,UVTR超越了以前在单模态和多模态输入方面的工作,并在 nuScenetest 数据集中取得了领先的性能,激光雷达、相机和多模态输入的 NDS 分别为 69.7%、55.1% 和 71.1%。

8月11日晚6点,「AI新青年讲座」第145讲,邀请到香港中文大学在读博士李彦玮参与,主讲《基于Transformer的多模态3D检测表示》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...