大模型在具身多智能体合作中的研究进展与展望

课程回放

智猩猩AI新青年讲座具身智能专题 2024/05/23 19:00:00

课程讲师

郭旭东清华大学自动化系在读博士

郭旭东为清华大学自动化系在读博士生，师从范文慧教授。普林斯顿大学访问学生，师从王梦迪教授。研究方向为大模型智能体，多智能体系统建模与决策，强化学习，人工智能的社会影响。曾于CVPR、IJCAI等会议与SCI期刊发表多篇论文。

郭旭东

清华大学自动化系在读博士

课程提纲

1、大模型在具身多智能体合作中的研究现状
2、具身多智能体系统组织结构的实现框架
3、基于大模型的组织结构优化方法Criticize-Reflect
4、实验结果及未来展望

课程简介

具身智能体可以与环境实时交互并进行自主决策，而大模型可以帮助具身智能体适应复杂的环境，并使具身多智能体之间通过自然语言进行交互与协作，进而使人类能够更轻易地了解具身智能体的任务进度，以及遇到的困难，为加速具身智能机器人等场景落地提供助力。

然而，具身多智能体间的有组织合作还面临着诸多挑战。在训练和微调过程中，大模型往往容易出现过度报告信息和过度服从指令的问题，难以像人类一样灵活，这可能会导致合作中的信息冗余和决策混乱。因此如何高效地进行信息交换，以达成更优的集体决策，还需要进一步探索。

那么，具身智能体是否能够像人类一样展现出领导力，并帮助整个系统达成更优的集体决策？针对这一问题，普林斯顿大学王梦迪教授团队在具身多智能体系统中探索了人类组织结构和领导力的实现，相关论文《Embodied LLM Agents Learn to Cooperate in Organized Teams》收录在 arXiv 上。其中，清华大学在读博士郭旭东为论文一作，普林斯顿大学王梦迪教授为通讯作者。

该团队基于大模型多智能体框架 AutoGen和 CoELA实现了具身智能体的动作决策和通讯功能，并提出了一种具身多智能体系统组织结构的实现框架。具身多智能体通过观测模块将对环境和对队友状态的局部观测转变为自然语言。在大模型输出当前的决策规划后，进一步由执行模块分解为每一步在环境中执行的具体动作，从而实现了分层规划。由此构建的具身多智能体可以在虚拟公寓中合作完成各种家务。

在实验中，具有领导者的具身智能体系统相较没有领导者时，其完成任务的效率提高了 30%，而额外增加的通讯量至多只有 3%。具身智能体也可以自行选举团队中的领导者，通过通讯实现领导者的轮替。

此外，王梦迪团队沿着强化学习的思路设计了基于大模型的组织结构优化方法Criticize-Reflect。具身智能体不但可以按照人类设计的提示来实现组织结构，还可以引入额外的大模型进行迭代。这种迭代过程有助于形成更有效的团队结构，提高合作效率。

5月23日晚7点，智猩猩邀请到论文一作、清华大学在读博士郭旭东参与「智猩猩机器人新青年讲座」第6讲，主讲《大模型在具身多智能体合作中的研究进展与展望》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...