绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
基于离线强化学习和在线自适应学习的机器人自主探索
AI新青年讲座 2023/06/02 10:00:00
课程讲师
Jeffrey Hu 卡内基梅隆大学 Robotics Institute在读博士

主要研究方向为机器人感知与决策,涉及深度强化学习,运动规划,机器人自主探索,视觉SLAM等问题,在计算机视觉和机器人领域顶会顶刊发表数篇论文,并担任CVPR、ICRA、RAL等会议和期刊审稿人。

Jeffrey Hu
卡内基梅隆大学 Robotics Institute在读博士

主要研究方向为机器人感知与决策,涉及深度强化学习,运动规划,机器人自主探索,视觉SLAM等问题,在计算机视觉和机器人领域顶会顶刊发表数篇论文,并担任CVPR、ICRA、RAL等会议和期刊审稿人。

课程提纲
  • 离线强化学习在机器人领域应用
  • 预训练模型对机器人技术的影响
  • 探索机器人控制的基础模型
  • 使用离线预训练与在线自适应学习的机器人探索方法OPERE
  • OPERE在复杂场景中的真机测试
课程简介

机器人的自主探索具有许多重要的应用。然而,基于信息增益或边界的经典探索方法仅依靠机器人的当前状态确定即时的探索目标,缺乏预测未来状态价值的能力,从而导致探索决策效率低下。

最近几年随着离线强化学习算法的兴起,相关算法也被应用在机器人控制,规划以及决策等领域。离线强化学习由于其安全性,数据可复用性,以及预训练的便捷性,使得其在机器人领域拥有巨大前景。随着基础模型在视觉和语言领域的成功,离线强化学习也成为机器人控制基础模型的潜在解决方案。

针对此类问题,来自 CMU 机器人研究所的在读博士胡亚飞等人在提出的最新研究工作 OPERE 中,使用离线预训练与在线自适应算法来学习状态价值函数,让机器人可以在稀疏的外在奖励下获得更多信息。

最终的结果也表明,OPERE 在复杂的场景中可以有效提升移动机器人自主探索的效果。与其他最先进的 OPE 方法相比,OPERE 算法实现了更好的预测性能。同时,这也是首次在具有挑战性的地下和城市环境中的机器人探索的真实数据集上展示价值函数预测的工作。

6月2日早10点,「AI新青年讲座」第211讲邀请到 CMU 机器人研究所在读博士胡亚飞参与,主讲《基于离线强化学习和在线自适应学习的机器人自主探索》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...