基于梯度场学习的物体重排方法研究

基于梯度场学习的物体重排方法研究

智猩猩AI新青年讲座 2022/11/30 18:00:00

课程讲师

吴铭东北京大学前沿计算研究中心在读博士

2017-2021就读于北京大学第一届AI图灵班，2021至今继续图灵博士计划，由北京大学前沿中心董豪老师指导；博士第一年工作已被NeurIPS2022接收。

吴铭东

北京大学前沿计算研究中心在读博士

2017-2021就读于北京大学第一届AI图灵班，2021至今继续图灵博士计划，由北京大学前沿中心董豪老师指导；博士第一年工作已被NeurIPS2022接收。

课程提纲

课程简介

模仿学习是要训练机器能够复制人类的连续动作，进而达到模仿的目的。强化学习需要通过环境给予的反馈（奖励）来不断优化状态-行为的对应关系。但是对于物体重排这类没有明确的目标规范的问题，很难描述奖励工程的目标分布或收集专家轨迹作为演示。因此，直接使用强化学习或模仿学习算法来解决任务是不可行的。

在今年的NeurIPS 2022中，北京大学前沿计算研究中心在读博士吴铭东等人提出一个新范式—梯度场学习，这是不同于强化学习和模仿学习的决策AI算法。通过分数匹配目标训练出一个目标梯度场TarGF（Target Gradient Field）来指导物体重排任务。

TarGF 有两种方式可以使用：

（1）对于基于模型的计划，将目标梯度转换为参考控件并使用分布式路径规划器输出动作。

（2）对于无模型强化学习，TarGF不仅用于估计可能性变化作为奖励，而且还在残差策略学习中提供建议的行动。

除此之外，吴铭东博士等人还提出了两个新的无显式目标物体重排任务，多球重排和房间重排，并展示了重排框架TarGF在这两个任务上的表现。与基于传统规划和学习的基线方法相比较，终端状态的质量、执行效率和可扩展性方面明显优于最先进的方法。

11月30日晚6点，「AI新青年讲座」第176讲邀请到北京大学前沿计算研究中心在读博士吴铭东参与，主讲《基于梯度场学习的物体重排方法研究》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...