多模态新任务——视觉语言导航VLN及导航命令生成

智猩猩AI新青年讲座 2022/04/20 19:00:00

课程讲师

汪汗青北京理工大学媒体计算与智能系统实验室在读博士

导师为梁玮教授；目前在苏黎世联邦理工学院进行联合培养，接受Luc Van Gool教授和Wenguan Wang老师的指导；研究兴趣包括具身智能导航，多模态信息融合，深度强化学习等，以第一作者在ICCV、CVPR、ECCV、AAAI、SIGGRAPH Asia等知名会议发表多篇论文。

汪汗青

北京理工大学媒体计算与智能系统实验室在读博士

课程提纲

课程简介

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结110讲，错过往期讲座直播的朋友，可以点击文章底部“阅读原文”进行回看！

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

视觉-语言导航（VLN）是近年来兴起的一个研究领域，原因是它们在家用机器人和个人助手等很多有趣的现实应用中都有广泛的使用。同时，通过置身于使用第一人称视觉的主动学习场景中，这样的智能体也能推进视觉和语言的基础发展。

视觉-语言导航任务是指通过自然语言指令引导智能体在真实环境中运动。VLN 需要深度理解语言语义和视觉感知，最重要的是要实现这两者的对齐。智能体必须推理与视觉-语言动态相关的信息，以移动到根据指令推断出的目标。

在VLN任务中有一些独特的挑战。第一，根据视觉图像和自然语言指令进行推理可能很困难。即为了到达目标点，智能体需要将指令「落地」到局部视觉场景中，还要将这些用词序列表示的指令匹配成全局时间空间中的视觉轨迹。

第二，除了严格遵照专家演示之外，反馈是相当粗糙的，因为「成功」反馈仅在智能体到达目标位置时提供，而完全忽视该智能体是遵照了指令还是采用了一条随机路径到达目标。如果智能体停止的时间比应该的略早一些，即使匹配指令的「好」路径也可能被认为是不成功的。不适定的反馈有可能会偏离最优策略学习。

第三，已有的研究成果深受泛化问题之苦，使得智能体在见过的和未见过的环境中的表现会有很大差距。

4月20日，「AI新青年讲座」第11讲邀请到北京理工大学媒体计算与智能系统实验室在读博士汪汗青参与，主讲《多模态新任务——视觉语言导航VLN及导航命令生成》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...