多模态视频理解的研究与应用

课程回放

多模态视频理解的研究与应用

CV前沿讲座 2020/10/30 10:00:00

课程讲师

淦创 IBM 美国研究院首席科学家

在人工智能的国际顶级期刊和会议（如TPMAI, IJCV, NeuIPS, ICML, ICLR, CVPR, ICCV, ECCV, ）上发表论文80多篇，并有多项研究成果也得到了国际主流媒体 (CNN, BBC, WIRED, MIT Tech Review, Forbes, ZDNet )的关注与报道；在ICLR, NeurIPS, CVPR, ICCV, ACL, 等多个人工智能国际顶级会议担任领域主席，并多次在这些顶级会议的研讨会上做主题报告；在清华读博期间，是清华大学研究生特等奖学金，微软学者奖学金，百度学者奖学金的获得者。

淦创

IBM 美国研究院首席科学家

课程提纲

多模态视频理解的研究进展
结合视觉与音频信号的视频分析及应用
基于语言的视觉场景和物理世界的因果关系推理

课程简介

视频理解是目前计算机领域中非常热门、且极具有挑战力的一个方向。视频通常有多种形式的数据，如音频、视频、文本（字幕）。理解与建模不同模态之间的交互式视频分析任务的关键，如分类、目标检测、活动识别等。然而，数据模态并不总是相关的——因此，了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。

目前关于视频理解的研究主要集中在视频的视觉模态上，而视频数据本身是多模态的，包括视频，声音，文本等。我们人类本身也是通过多模态融合来感知周围的环境。心理学家也在多项实验中发现，婴儿其实可以通过图像，声音和语言的多模式来认识，互动和理解物理世界。因此如何利用多模态的信息进行视频理解的研究，是一个未来发展的趋势。

10月30日上午10点，智东西公开课邀请到了IBM美国研究院首席研究员淦创参与到由英伟达&惠普特约的「CV前沿讲座」第20讲，带来主题为《多模态视频理解的研究与应用》的直播讲解。在本次讲解中，淦创博士将从多模态视频理解的研究进展出发，向大家介绍结合视觉和音频信号在视频分析上的应用，包括声音分离，声源定位和音乐生成的应用，最后将展示语言如何帮助机器学习模型推理视觉场景和物理世界的因果关系。敬请期待！

淦创博士是IBM 美国研究院的首席研究员(Principal Research Staff Member and Manager)，主要从事多模态视频分析相关的研究及产品落地。他在计算机视觉及人工智能国际顶级期刊和会议（如TPMAI, IJCV, CVPR, ICCV, ECCV, NeuIPS, ICLR）上发表论文60多篇，并有多项研究成果也得到了国际主流媒体 (CNN, BBC, WIRED, MIT Tech Review, Forbes, ZDNet )的关注与报道。他还在ICLR, IJCAI. AAAI ACM Multmiedia,BMVC 等多个计算机视觉和人工智能国际顶级会议担任领域主席. 并多次在计算机视觉顶级会议CVPR 和ECCV 的研讨会上做主题报告。在清华读博期间，他是清华大学研究生特等奖学金，微软学者奖学金，百度学者奖学金的获得者。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...