基于Transformer的多模态三维目标检测

课程回放

智猩猩AI新青年讲座 2022/04/18 19:00:00

课程讲师

白旭阳香港科技大学在读博士

师从戴秋兰教授，主要研究方向是点云配准和激光雷达感知，曾在CVPR、ICCV、ECCV等会议上发表多篇学术论文。

白旭阳

香港科技大学在读博士

师从戴秋兰教授，主要研究方向是点云配准和激光雷达感知，曾在CVPR、ICCV、ECCV等会议上发表多篇学术论文。

课程提纲

自动驾驶中的多模态三维目标检测方法
多模态融合算法存在的问题
针对低质量图像的Transformer三维目标检测器
多模态三维目标检测的应用及未来展望

课程简介

尽管多传感器融合在自动驾驶领域越来越受欢迎，但在照明不良和传感器未对准等较差的图像条件下鲁棒性较差。现有的多传感器融合方法虽然取得了不错的性能，但仍存在两个主要问题：

1）简单的通过逐个元素相加或拼接融合LiDAR特征和图像特征，因此对于低质量的图像特征，例如光照条件较差的图像，融合的性能会严重下降；

2）稀疏的LiDAR点云与密集的图像像素之间的硬关联，不仅浪费了许多语义信息丰富的图像特征，而且严重依赖于两个传感器之间的高质量校准，但由于固有的时空偏差，这种校准往往难以获得。

为了解决这些问题，香港科技大学、华为IAS BU联合提出一种新的基于Transformer的激光雷达-摄像机融合模型TransFusion用于自动驾驶三维目标检测。由卷积骨干和基于Transformers解码器的检测头组成，解码器的第一层使用稀疏的目标查询数据集预测来自LiDAR点云的初始边界框，第二层解码器自适应地将点云特征与有用的图像特征融合，充分利用空间和上下文关系。Transformer的注意力机制使TransFusion网络能够自适应地决定从图像中获取什么信息和从什么位置获取信息，从而形成一个鲁棒和有效的融合策略。最后，针对点云中难以检测的对象，还引入了图像引导的查询初始化模块进行优化。

TransFusion在nuScenes Dataset和Waymo Open Dataset上取得了最先进的性能，同时TransFusion还扩展到了3D跟踪任务中，并在nuScenes跟踪排行榜上获得第一名。该工作被CVPR 2022接收。

4月18日，「AI新青年讲座」第10讲特邀香港科技大学白旭阳博士参与，并就主题《基于Transformer的多模态三维目标检测》，讲解一种面向自动驾驶中低质量图像的Transformer多模态三维目标检测器。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问