绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
基于梯度场学习的物体重排方法研究
智猩猩AI新青年讲座 2022/11/30 18:00:00
课程讲师
吴铭东 北京大学 前沿计算研究中心在读博士

2017-2021就读于北京大学第一届AI图灵班,2021至今继续图灵博士计划,由北京大学前沿中心董豪老师指导;博士第一年工作已被NeurIPS2022接收。

吴铭东
北京大学 前沿计算研究中心在读博士

2017-2021就读于北京大学第一届AI图灵班,2021至今继续图灵博士计划,由北京大学前沿中心董豪老师指导;博士第一年工作已被NeurIPS2022接收。

课程提纲
  • 基于样例的物体重排任务的定义
  • 强化学习与模仿学习的局限性
  • 基于目标梯度场的物体重排框架TarGF
  • 在多球重排和房间重排任务上的方法对比
课程简介

模仿学习是要训练机器能够复制人类的连续动作,进而达到模仿的目的。强化学习需要通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。但是对于物体重排这类没有明确的目标规范的问题,很难描述奖励工程的目标分布或收集专家轨迹作为演示。因此,直接使用强化学习或模仿学习算法来解决任务是不可行的。

在今年的NeurIPS 2022中,北京大学前沿计算研究中心在读博士吴铭东等人提出一个新范式—梯度场学习,这是不同于强化学习和模仿学习的决策AI算法。通过分数匹配目标训练出一个目标梯度场TarGF(Target Gradient Field)来指导物体重排任务。

TarGF 有两种方式可以使用:

(1)对于基于模型的计划,将目标梯度转换为参考控件并使用分布式路径规划器输出动作。

(2)对于无模型强化学习,TarGF不仅用于估计可能性变化作为奖励,而且还在残差策略学习中提供建议的行动。

除此之外,吴铭东博士等人还提出了两个新的无显式目标物体重排任务,多球重排和房间重排,并展示了重排框架TarGF在这两个任务上的表现。与基于传统规划和学习的基线方法相比较,终端状态的质量、执行效率和可扩展性方面明显优于最先进的方法。

11月30日晚6点,「AI新青年讲座」第176讲邀请到北京大学前沿计算研究中心在读博士吴铭东参与,主讲《基于梯度场学习的物体重排方法研究》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...