- 课程回放
基于梯度场学习的物体重排方法研究
智猩猩AI新青年讲座 2022/11/30 18:00:00
课程讲师
课程提纲
- 基于样例的物体重排任务的定义
- 强化学习与模仿学习的局限性
- 基于目标梯度场的物体重排框架TarGF
- 在多球重排和房间重排任务上的方法对比
课程简介
模仿学习是要训练机器能够复制人类的连续动作,进而达到模仿的目的。强化学习需要通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。但是对于物体重排这类没有明确的目标规范的问题,很难描述奖励工程的目标分布或收集专家轨迹作为演示。因此,直接使用强化学习或模仿学习算法来解决任务是不可行的。
在今年的NeurIPS 2022中,北京大学前沿计算研究中心在读博士吴铭东等人提出一个新范式—梯度场学习,这是不同于强化学习和模仿学习的决策AI算法。通过分数匹配目标训练出一个目标梯度场TarGF(Target Gradient Field)来指导物体重排任务。
TarGF 有两种方式可以使用:
(1)对于基于模型的计划,将目标梯度转换为参考控件并使用分布式路径规划器输出动作。
(2)对于无模型强化学习,TarGF不仅用于估计可能性变化作为奖励,而且还在残差策略学习中提供建议的行动。
除此之外,吴铭东博士等人还提出了两个新的无显式目标物体重排任务,多球重排和房间重排,并展示了重排框架TarGF在这两个任务上的表现。与基于传统规划和学习的基线方法相比较,终端状态的质量、执行效率和可扩展性方面明显优于最先进的方法。
11月30日晚6点,「AI新青年讲座」第176讲邀请到北京大学前沿计算研究中心在读博士吴铭东参与,主讲《基于梯度场学习的物体重排方法研究》。
精彩问答
提问
提问