大模型驱动下的具身智能体脑身同步

课程回放

大模型驱动下的具身智能体脑身同步

智猩猩AI新青年讲座具身智能专题 2024/05/30 19:00:00

课程讲师

罗谦香港大学在读博士

前阿里巴巴算法工程师，硕士毕业于佐治亚理工学院。研究方向为具身智能、模仿学习与强化学习。研究目标为构建可自主学习的通用具身智能体。在ICRA,IROS,ICLR,AAAI,ICDM等国际会议上发表多篇论文。

罗谦

香港大学在读博士

课程提纲

1、基础模型如何驱动具身智能体学习？
2、基于多模态大模型的脑身同步框架BBSEA
3、大语言模型驱动的强化学习奖励函数设计
4、总结与未来展望

课程简介

具身智能包括机器人本体，和决定其智能化的大脑、小脑、脑身同步。目前大脑的研究方向是大模型，让机器人听懂人的语言；小脑为控制身体运动，掌握基本运动技能；脑身同步指机器人的意识训练。

大语言模型能在语言空间中进行推理，并通过视觉输入进行问答，但不具备环境的具身感知能力，无法与其互动。而具身智能体能与场景互动，但缺乏对物理世界的理解，无法完成具有意义的语义任务。

为此，香港大学杨言超老师团队提出一种基于大型基础模型的具身智能体脑身同步框架BBSEA。将包括LLMs和VLMs的大型基础模型（Large Foundation Models，LFMs）视为一个拥有物理世界常识的“大脑”，并探索了利用大脑的非物质结构知识训练具身智能体（身体）与物理世界的互动。

该成果的主要贡献包括如下三点：

1）提出了一个脑身同步框架BBSEA。该框架将基础模型与具身智能体相结合，使智能体能够在未知环境中自主学习物理交互任务，实现了高效的脑身同步。

2）设计了一个任务提议模块。该模块能够高效理解场景并自动提出与场景相匹配的任务。此外，该模块还设定了任务完成的评估指标，有助于具身智能体在几乎无需人为干预的情况下学习新技能。

3）通过在零次学习和少量学习设置下连续学习有效的基于语言的策略，对所提出的同步机制进行了广泛的验证，展现了其对新任务和配置的良好适应性。

此外，香港大学数据科学学院还联合南京大学、CMU、微软等提出一种TEXT2REWARD框架。该框架能够基于自然语言目标和大型语言模型自动生成强化学习的稠密奖励函数。该框架实现了广泛的任务覆盖和人机交互，解决了强化学习中奖励函数设计的挑战。与TEXT2REWARD相关的论文成果收录于ICLR 2024 并获得 Spotlight。

5月30日晚7点，智猩猩邀请到香港大学在读博士罗谦参与「智猩猩机器人新青年讲座」第7讲，主讲《大模型驱动下的具身智能体脑身同步》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...