- 课程回放
- 二维图像与三维模态的特性差异
- 视觉-语言模型在三维场景中面临的挑战
- ScanRefer:基于自然语言描述的3D物体定位
- Scan2Cap:一种上下文感知的密集3D物体文字描述生成方法
5月12日晚8点,「学术新青年讲座」CVPR 2021特别企划第6讲,特邀慕尼黑工业大学在读博士陈振宇主讲,主题为《基于视觉-语言的多模态三维场景理解》。
当前,深度学习方法已经在计算机视觉、自然语言处理等领域得到了广泛而深入的应用,推动了人脸识别、物体识别与检测、语音识别与合成、机器翻译等一系列技术的发展。但这些研究往往局限在特定领域甚至特定的任务上,类似于图像标题生成、视觉问答、视觉常识推理等交叉领域的任务,仅依靠单一的视觉或语言方法很难取得较好的结果。因此,将视觉和语言进行一定程度的融合成为必然的趋势。
目前,视觉-语言任务大多针对二维图像数据,但由于二维图像的特性及视角限制,使得现有的研究方法在感知和推理物体的实际大小及空间位置等方面极度受限。若想捕获对象真实的物理范围及位置,仅依靠二维图像中的视觉线索是不够的,还需考虑三维图像信息。
三维图像的特征是表达空间中三个维度的数据,即三维模态。那三维模态中提取的视觉线索又是如何突破二维图像领域的限制呢?又有哪些不同于二维图像的问题和挑战呢?
在本次讲座中,陈振宇博士将从三维模态与二维图像的特性差异及视觉-语言模型在三维模态中面临的挑战出发,深度讲解两种基于视觉-语言的三维场景理解方法:ScanRefer和Scan2Cap。其中,Scan2Cap是已发表在CVPR 2021的研究成果。对此感兴趣的朋友不要错过下周三的直播呦。
Scan2Cap论文:https://arxiv.org/pdf/2012.02206.pdf
代码:https://github.com/daveredrum/Scan2Cap
ScanRefer论文:https://arxiv.org/pdf/1912.08830.pdf
代码:https://github.com/daveredrum/ScanRefer
陈振宇是慕尼黑工业大学在读博士,师从视觉计算和人工智能实验室的Matthias Niessner教授和加拿大西门菲沙大学(SFU)的Angel X. Chang教授。他的主要研究方向是跨模态深度学习和基于视觉-语言的三维场景理解,曾多次在CVPR、ECCV等计算机视觉顶会上发表文章并担任审稿人。