泛化的视觉-语言模型及多模态视频理解

课程回放

泛化的视觉-语言模型及多模态视频理解

学术新青年讲座 2021/02/03 20:00:00

课程讲师

武宇悉尼科技大学在读博士

主要从事多模态学习和视频理解相关的研究，在CVPR/ICCV/ECCV等顶会发表十余篇论文。曾获得2020年Google PhD Fellowship， ECCV2020杰出审稿人，EPIC-Kitchens Action Recognition Challenge 连续两年比赛冠军。

武宇

悉尼科技大学在读博士

课程提纲

视觉-语言模型研究现状
可泛化的视觉-语言模型解析
视频场景中的多模态信息
跨模态的视频-音频动作定位和无监督的特征空间
基于多模态的第一视角视频动作识别和预测

课程简介

计算机视觉和自然语言处理一直是两个独立的研究方向，计算机视觉是一门研究如何使机器 “看”的科学，而自然语言处理则是研究如何使机器“读”和“写”的科学。受益于深度神经网络的发展，两者在各自的领域都取得了不错的成果，但对于两者领域交叉的任务，仅凭借单一的计算机视觉或自然语言处理很难取得好的效果，因此将视觉和语言进行一定程度的融合成为新的趋势。

自2015年首次提出到现在，视觉-语言任务的研究取得了很大成功，如何去扩展这些模型的泛化性能呢？比如，如何设计语言模型进行新颖物体的图片文字描述生成？如何构造问答机器人传递未知视频的内容信息？如何利用无监督标记点探索未知测试环境？

现实的场景中不止包含视觉和语言信息，还包括音频、文本、结构化数据等信息。作为媒体重要的信息载体，视频的地位无可替代，然而目前AI算法在视频上的应用还不够成熟，理解视频内容仍然是一个亟待解决的问题。而视频作为天然的多模态信息媒体，利用多模态学习成为解决视频理解问题的一大利器。

目前，视频理解主要是以人为中心，包含了动作识别、动作定位、场景识别、动作提取、人脸识别、人物识别等诸多子任务，其中视频动作识别是视频理解中一个充满挑战而又具有较高实际应用价值的任务，那如何利用视频中的多模态信息实现准确识别视频中的动作并做精准预测呢？

2月3日晚8点，智东西公开课邀请到悉尼科技大学在读博士武宇参与到「CV前沿讲座第二季」第2讲，带来主题为《泛化的视觉-语言模型及多模态视频理解》的直播讲解。在本次讲解中，武博首先将从解耦的语言模型、构造问答机器人、无监督标记点三方面解析可泛化的视觉-语言模型，之后利用跨模态全局信息进行视频和音频的动作定位，并通过新的VAE拉近两者的特征空间，最后结合多模态信息实现第一视角视频的识别和预测。

武宇是悉尼科技大学在读博士，主要从事多模态学习和视频理解相关的研究，在CVPR/ICCV/ECCV等顶会发表十余篇论文。他曾获得2020年Google PhD Fellowship， ECCV2020杰出审稿人，EPIC-Kitchens Action Recognition Challenge 连续两年比赛冠军。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...