- 课程回放
- 视觉导航在移动机器人中的研究
- 主流视觉SLAM算法在复杂场景中的局限性
- 基于机器学习的通用视觉里程计模型TartanVO
- TartanVO在复杂场景中的表现及泛化应用
视觉里程计(VisualOdometry,VO),是一个仅利用单个或多个相机的输入信息估计智能体的运动信息的过程。VO 通过获取相邻两帧之间的 RT 变换关系,将获取得到的多个 RT 相乘获取得到当前帧与原始位置之间的变换关系, 然后进行迭代优化。
作为基于视觉技术的一种视觉导航形式,相比传统的里程计技术,视觉里程计更具优势。它只利用相机完成,无需场景和运动的先验信息;不会存在编码器读数不准、传感器精度降低或惯导漂移等因素引起的数据误差;可以运用于非结构化的环境或非常规的任务和平台,如城市环境和室内环境;系统在利用视觉信息完成里程计的同时,还可以提供丰富的景象特征, 完成障碍物识别、目标检测和可通行区域的划分等任务,为机器人和车辆的实时导航提供更充分的支持。
目前视觉里程计已经被广泛应用于各种场景,但是在复杂场景(如光照变化强烈、天气条件差、有动态物体、运动剧烈等)的鲁棒性还非常有限。针对这些场景,卡内基梅隆大学的机器人研究所的项目科学家王雯珊等人在高度真实的仿真平台AirSim里搭建了大量的仿真环境,并开发了一套自动数据采集算法,发布了一个大规模、多样化的视觉SLAM数据集TartanAir。
在此基础上,她们还对比了当前主流的视觉SLAM算法的鲁棒性和准确性,并且开发了基于机器学习的视觉里程计模型TartanVO。TartanVO模型在仿真数据上训练,能够直接泛化到真实数据集,并且在复杂场景中表现得比其他主流的SLAM算法更加鲁棒。
这两项研究成果都可以在arXiv上下载获得,附上论文下载链接:
论文:《TartanAir: A Dataset to Push the Limits of Visual SLAM》
链接:https://arxiv.org/abs/2003.14338
论文:《TartanVO: A Generalizable Learning-based VO》
链接:https://arxiv.org/pdf/2011.00359
12月30日上午10点,智东西公开课邀请到卡内基梅隆大学机器人研究所的项目科学家王雯珊老师参与到「CV前沿讲座」第29讲中,并带来主题为《面向复杂场景的通用SLAM视觉里程计TartanVO》的直播讲解。王雯珊老师将会从视觉导航的研究和现有主流视觉SLAM算法的局限性出发,对TartanAir和TartanVO进行全面的讲解。研究自动驾驶和机器人的朋友千万不能错过。
王雯珊目前是卡内基梅隆大学机器人研究所的项目科学家,主要研究兴趣是利用机器学习使机器人变得更加鲁棒和智能。她近期的研究课题包括复杂非结构化环境的自动驾驶、自主无人机摄影、主动环境感知与探索等,并在今年与微软研究院等合作,组织并主持了CVPR SLAM Workshop,举办了鲁棒视觉SLAM挑战赛。