AgentOccam：通过观测与动作空间对齐提升Web智能体性能

智猩猩AI新青年讲座 2025/07/14 10:00:00

课程讲师

杨可伊利诺伊大学厄巴纳-香槟分校博士生

伊利诺伊大学厄巴纳-香槟分校计算机科学博士二年级学生，师从 ChengXiang Zhai 教授，研究方向主要包括AI智能体、大语言模型、信息检索、算法歧视与偏见。本科毕业于清华大学自动化系。曾在亚马逊担任实习研究员，专注于网络任务智能体的设计与开发；目前在微软研究院从事研究实习。她的研究工作发表于NeurIPS、ICLR、AAAI等国际顶级人工智能会议。代表性成果包括TinyHelen、JIRArena、AgentOccam、Ten Principles of AI Agent Economics等，系统探索并推进AI智能体在效果、效率及安全性等关键维度的持续优化。

杨可

伊利诺伊大学厄巴纳-香槟分校博士生

课程提纲

1、LLM驱动的Web智能体研究背景
2、将LLM应用于Web智能体的核心挑战
3、AgentOccam方法设计
4、实验验证与结果分析
5、总结与未来展望

课程简介

随着大语言模型（LLM）能力的迅速发展，基于LLM的自治智能体正成为自动化执行网页任务（如预订酒店、在线购物等）的一大趋势。这类任务不仅具备实际应用价值，更是验证通用智能体在真实交互场景中能效的关键基准。然而，现有多数方法主要侧重于设计复杂的策略流程（例如提示模板、角色扮演、多智能体协同等），这往往带来泛化能力弱、实施成本高等问题。

针对上述问题，来自伊利诺伊大学厄巴纳-香槟分校和亚马逊的研究者们提出AgentOccam，该智能体不依靠增加策略复杂度，而是通过观测与动作空间的有效对齐，显著提升了由LLM驱动的Web智能体性能。北京时间7月14日上午10点，论文一作杨可将参与智猩猩AI新青年讲座对AgentOccam进行讲解。

部分可观测马尔可夫决策过程（POMDP）的典型目标是寻找一个策略，以最大化预期累积奖励。在基于LLM的网络智能体设计中，这一目标转化为：通过基础LLM策略和规则化映射函数（用来处理观测和动作空间），以构建智能体策略。研究者将其定义为“观测与动作空间对齐”，其核心限制：仅通过优化观测和动作空间来提升智能体性能，而无需引入额外模块（如搜索控制、反思或记忆管理机制）。

不同于复杂化的智能体策略，AgentOccam关注：能否通过优化观测和动作空间，使用基础LLM策略构建出强大的Web智能体。

AgentOccam包含三项改进措施：

优化可执行动作集合：减少非必要网络交互动作，最小化智能体的具身需求和琐碎交互；

压缩冗余网页信息：消除冗余和不相关的网页元素，并重构网页内容块，以生成更简洁且信息量相当的表示；

引入轻量的导航规划操作：引入规划动作（分支和修剪），使智能体能够通过规划树，自主组织导航工作流，并利用同一结构筛选历史轨迹以进行回放。

这三项改进措施的规则体系可适配所有标记语言构建的网页，无需依赖测试基准中的任务相关信息。

Web智能体编辑动作空间需要解决两个关键挑战：

1）删除LLM难以理解且经常误用的无关动作；

2）执行任务需要通过多个潜在路径时，需要提高智能体的记忆和规划能力。

针对第一个问题，AgentOccam引入简单的删除和合并动作来改进。第二个问题在以往的研究中通常依赖手工设计的规则或策略，使得这些方法难以泛化。在这项工作中，AgentOccam引入LLM自主生成计划并管理任务流程来解决第二个问题。

Web智能体的观测空间（提示词）包括任务目标、指令、过往交互记录以及当前的网页文本描述或截图。其中，过往交互记录和当前的网页内容占用的token最多，其数量随着单个页面长度和历史记录长度的增长而增加，这就导致LLM的推理成本增加，还增加了提取页面相关信息的难度。为了优化观测空间，AgentOccam将具有相同标签的功能描述性Web元素与交互式元素合并；将表格和列表块转换为Markdown，消除重复的结构标记。通过这种方式AgentOccam使得网页的单个页面更易于LLM阅读，在保持相同信息的同时实现了更简洁的表示。

将观测历史作为输入，对于执行长期规划任务至关重要，因为一些关键信息可能不会显示在当前页面上。然而，引入观测历史会显著增加上下文长度，提高推理成本与推理难度。为了解决这个问题，AgentOccam基于关键节点和规划树选择最重要的Web元素，有效减少了LLM输入的数据量和噪声水平。

研究者使用WebArena作为测试基准，该基准主要包含四个领域的完整功能网站：电子商务平台（OneStopShop）、社会论坛（Reddit）、协作软件开发平台（GitLab）以及在线商店管理系统，并提供地图、计算器、便签本和Wikipedia等实用工具，整个基准共包含由241个任务模板生成的812项任务。实验使用GPT-4-Turbo构建AgentOccam。

从实验结果可以看出，通过优化观测与动作空间，AgentOccam在WebArena基准测试中达到了SOTA水平，总体成功率从37.2%提高到了43.1%。研究者测评了每个观测和动作空间的变化对AgentOccam产生的贡献。可以看出：

缩小动作空间可以减少LLM策略的分心，并显著改善所有网站测试的性能；

禁用滚动动作并将整个页面传递给智能体有利于GitLab和Reddit任务的执行，尽管这一做法会增加观测token的数量；

去除冗余文本和网页格式，能够帮助智能体专注于与任务相关的网页元素，并提升各种类型任务的性能表现。但在GitLab任务中，有时会导致智能体忽视更简单的解决方案；

引入分支和修剪动作，允许智能体自主生成计划，并将不在当前子计划中的历史步骤从提示中移除，该优化措施能够给各种类型的任务都带来性能提升，同时减少了观测token的数量。

由于观测与动作空间的改进与其他智能体策略具有正交性和互补性，研究者通过两项实验评估AgentOccam的兼容性。可以发现：

AgentOccam+SteP组合虽优于独立SteP方法，但未达到基础AgentOccam的性能水平，在需要领域经验的任务（如购物网站操作）中，人工编写的策略指引能够显著提升任务的成功率；

AgentOccam+LLM-as-a-judge的组合中，裁判机制的引入不会影响智能体的泛化性，同时还能够修正一些基础智能体的错误行为，使得该组合在WebArena任务上成功率提升2.6%。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...