- 开课提醒

伊利诺伊大学厄巴纳-香槟分校计算机科学博士二年级学生,师从 ChengXiang Zhai 教授,研究方向主要包括AI智能体、大语言模型、信息检索、算法歧视与偏见。本科毕业于清华大学自动化系。曾在亚马逊担任实习研究员,专注于网络任务智能体的设计与开发;目前在微软研究院从事研究实习。她的研究工作发表于NeurIPS、ICLR、AAAI等国际顶级人工智能会议。代表性成果包括TinyHelen、JIRArena、AgentOccam、Ten Principles of AI Agent Economics等,系统探索并推进AI智能体在效果、效率及安全性等关键维度的持续优化。

伊利诺伊大学厄巴纳-香槟分校计算机科学博士二年级学生,师从 ChengXiang Zhai 教授,研究方向主要包括AI智能体、大语言模型、信息检索、算法歧视与偏见。本科毕业于清华大学自动化系。曾在亚马逊担任实习研究员,专注于网络任务智能体的设计与开发;目前在微软研究院从事研究实习。她的研究工作发表于NeurIPS、ICLR、AAAI等国际顶级人工智能会议。代表性成果包括TinyHelen、JIRArena、AgentOccam、Ten Principles of AI Agent Economics等,系统探索并推进AI智能体在效果、效率及安全性等关键维度的持续优化。
- 1、LLM驱动的Web智能体研究背景
- 2、将LLM应用于Web智能体的核心挑战
- 3、AgentOccam方法设计
- 4、实验验证与结果分析
- 5、总结与未来展望
随着大语言模型(LLM)能力的迅速发展,基于LLM的自治智能体正成为自动化执行网页任务(如预订酒店、在线购物等)的一大趋势。这类任务不仅具备实际应用价值,更是验证通用智能体在真实交互场景中能效的关键基准。然而,现有多数方法主要侧重于设计复杂的策略流程(例如提示模板、角色扮演、多智能体协同等),这往往带来泛化能力弱、实施成本高等问题。
针对上述问题, 来自伊利诺伊大学厄巴纳-香槟分校和亚马逊的研究者们提出AgentOccam,该智能体不依靠增加策略复杂度,而是通过观测与动作空间的有效对齐,显著提升了由LLM驱动的Web智能体性能。 北京时间7月14日上午10点,论文一作杨可将参与智猩猩AI新青年讲座对AgentOccam进行讲解。
部分可观测马尔可夫决策过程(POMDP)的典型目标是寻找一个策略,以最大化预期累积奖励。在基于LLM的网络智能体设计中,这一目标转化为:通过基础LLM策略和规则化映射函数(用来处理观测和动作空间),以构建智能体策略。研究者将其定义为“观测与动作空间对齐”,其核心限制:仅通过优化观测和动作空间来提升智能体性能,而无需引入额外模块(如搜索控制、反思或记忆管理机制)。
不同于复杂化的智能体策略,AgentOccam关注:能否通过优化观测和动作空间,使用基础LLM策略构建出强大的Web智能体。
AgentOccam包含三项改进措施:
优化可执行动作集合:减少非必要网络交互动作,最小化智能体的具身需求和琐碎交互;
压缩冗余网页信息:消除冗余和不相关的网页元素,并重构网页内容块,以生成更简洁且信息量相当的表示;
引入轻量的导航规划操作:引入规划动作(分支和修剪),使智能体能够通过规划树,自主组织导航工作流,并利用同一结构筛选历史轨迹以进行回放。
这三项改进措施的规则体系可适配所有标记语言构建的网页,无需依赖测试基准中的任务相关信息。
Web智能体编辑动作空间需要解决两个关键挑战:
1)删除LLM难以理解且经常误用的无关动作;
2)执行任务需要通过多个潜在路径时,需要提高智能体的记忆和规划能力。
针对第一个问题,AgentOccam引入简单的删除和合并动作来改进。第二个问题在以往的研究中通常依赖手工设计的规则或策略,使得这些方法难以泛化。在这项工作中,AgentOccam引入LLM自主生成计划并管理任务流程来解决第二个问题。
Web智能体的观测空间(提示词)包括任务目标、指令、过往交互记录以及当前的网页文本描述或截图。其中,过往交互记录和当前的网页内容占用的token最多,其数量随着单个页面长度和历史记录长度的增长而增加,这就导致LLM的推理成本增加,还增加了提取页面相关信息的难度。为了优化观测空间,AgentOccam将具有相同标签的功能描述性Web元素与交互式元素合并;将表格和列表块转换为Markdown,消除重复的结构标记。通过这种方式AgentOccam使得网页的单个页面更易于LLM阅读,在保持相同信息的同时实现了更简洁的表示。
将观测历史作为输入,对于执行长期规划任务至关重要,因为一些关键信息可能不会显示在当前页面上。然而,引入观测历史会显著增加上下文长度,提高推理成本与推理难度。为了解决这个问题,AgentOccam基于关键节点和规划树选择最重要的Web元素,有效减少了LLM输入的数据量和噪声水平。
研究者使用WebArena作为测试基准,该基准主要包含四个领域的完整功能网站:电子商务平台(OneStopShop)、社会论坛(Reddit)、协作软件开发平台(GitLab)以及在线商店管理系统,并提供地图、计算器、便签本和Wikipedia等实用工具,整个基准共包含由241个任务模板生成的812项任务。实验使用GPT-4-Turbo构建AgentOccam。
从实验结果可以看出,通过优化观测与动作空间,AgentOccam在WebArena基准测试中达到了SOTA水平,总体成功率从37.2%提高到了43.1%。研究者测评了每个观测和动作空间的变化对AgentOccam产生的贡献。可以看出:
缩小动作空间可以减少LLM策略的分心,并显著改善所有网站测试的性能;
禁用滚动动作并将整个页面传递给智能体有利于GitLab和Reddit任务的执行,尽管这一做法会增加观测token的数量;
去除冗余文本和网页格式,能够帮助智能体专注于与任务相关的网页元素,并提升各种类型任务的性能表现。但在GitLab任务中,有时会导致智能体忽视更简单的解决方案;
引入分支和修剪动作,允许智能体自主生成计划,并将不在当前子计划中的历史步骤从提示中移除,该优化措施能够给各种类型的任务都带来性能提升,同时减少了观测token的数量。
由于观测与动作空间的改进与其他智能体策略具有正交性和互补性,研究者通过两项实验评估AgentOccam的兼容性。可以发现:
AgentOccam+SteP组合虽优于独立SteP方法,但未达到基础AgentOccam的性能水平,在需要领域经验的任务(如购物网站操作)中,人工编写的策略指引能够显著提升任务的成功率;
AgentOccam+LLM-as-a-judge的组合中,裁判机制的引入不会影响智能体的泛化性,同时还能够修正一些基础智能体的错误行为,使得该组合在WebArena任务上成功率提升2.6%。
