- 课程回放
- 主流的场景理解研究方法
- 在2D和3D跨维度场景上联合优化的可行证明
- BPNet:联合实现2D和3D场景理解的双向投影网络
- 在2D、3D语义分割中的应用
在现实生活中,如何让大脑像人一样观察并解释着周围的环境,场景理解必不可少。它让机器能够精确地认识并理解真实环境中的不同物体,提高机器与现实3D场景交互应用的性能,在机器人、自动驾驶中有广泛应用。
根据输入数据的不同,场景理解可分为2D场景理解和3D场景理解。目前主流的方法大都独立地处理2D和3D场景理解。虽然不同类型的数据各有特点,但它们也有很好的互补性,像2D图像数据可以捕获到大量细粒度的纹理和颜色信息,并且适用于深度卷积神经网络;而3D数据头可以提供场景的重要几何信息。那怎样把2D和3D数据中的优势特性结合起来,联合实现2D/3D场景理解呢?
在CVPR 2021中,来自香港中文大学的胡文博等人提出了一个联合进行2D/3D场景理解的双向投影网络BPNet。BPNet主要包含了2D和3D的子网络,它们是对称的架构,这两个子网络通过双向投影模块BPM连接起来。通过BPM,互补的2D和3D信息能够互相交互,从而使得更好地识别场景。在ScanNet榜单上,BPNet在2D和3D场景理解中取得了顶尖表现,同时BPNet在 2D 和 3D 语义分割中也有不错的性能。想了解更多更多BPNet的内容,下周的课千万不要错过~
8月11日晚7点,智东西公开课特邀香港中文大学在读博士胡文博,带来主题为《基于双向投影网络的跨维度场景理解》的直播讲解。胡文博是香港中文大学在读博士,师从黄田津教授,并于2018年从大连理工大学计算机学院取得学士学位。他的研究兴趣为计算机视觉,图形学,深度学习,尤其感兴趣于3D视觉。同时,他在CVPR、ACMMM、CVM等发表多篇论文。
在本次讲座中,胡博将从主流的场景理解方法及2D和3D跨维度场景上联合优化的可行性讲起,深度解析CVPR 2021 Oral的研究成果:联合实现2D和3D场景理解的双向投影网络BPNet,最后分析其在2D、3D图像分割中的应用。