智猩猩

让龙虾实时进化！普林斯顿王梦迪团队开源OpenClaw-RL，日常聊天变成最强训练数据

分类： AI开源项目

2026-03-18 11:27:08

智猩猩AI整理

编辑：没方

当下 AI Agent赛道火热，以 OpenClaw 为代表的本地部署框架迅速走红，成为现象级开源项目。但传统面向大模型的强化学习系统，依赖中心化批量训练和预先标注数据集，训练流程繁琐、无法实时响应对话反馈，难以真正贴合用户个性化需求。

为此，普林斯顿大学王梦迪团队提出专为 OpenClaw 打造的全异步强化学习框架OpenClaw-RL，能够把日常对话直接转化为训练信号，让自托管模型在不中断服务的前提下持续进化，实现越用越聪明。

论文标题：OpenClaw-RL: Train Any Agent Simply by Talking
论文链接：https://arxiv.org/pdf/2603.10165
项目地址：https://github.com/Gen-Verse/OpenClaw-RL

01 方法

研究团队指出，每次智能体（agent）交互都会产生一个“下一状态”信号，无论是用户回复、执行结果、测试判定还是图形界面（GUI）状态转换，“下一状态”信号都编码了关于前序动作的评估性和指导性信息。

评估性信号：指示动作执行得有多好，这些信号通过一个过程奖励模型（PRM）裁判提取为标量奖励。
指导性信号：指示动作本应如何不同，这些信号通过基于提示的在线策略蒸馏（Hindsight-Guided On-Policy Distillation, OPD）技术恢复。

OpenClaw-RL 基于 slime 构建，能够让 AI 正常服务用户的同时，后台有四个完全解耦的模块在异步运转：策略服务、轨迹收集、过程奖励评估与参数训练，彼此互不阻塞（如上图所示）。

如上图所示，在个人智能体应用中，OpenClaw-RL 能够让模型通过日常使用过程中的自然交互信号进行在线、持续的策略优化，这一机制极大地拓展了现有强化学习基础设施。研究团队提供了两种优化选项：

二元强化学习（Binary RL）：利用 PRM 将对话恢复为标量过程奖励。
基于提示的在线策略蒸馏（OPD）：从下一状态中提取文本提示，构建增强的教师上下文，并将 token 级的方向性监督蒸馏回学生模型，从而提供仅靠标量奖励无法获得的训练信号。

二元强化学习和OPD方法是互补而非竞争关系。通过二元强化学习在所有轮次上提供广泛的梯度覆盖，而OPD则在那些可获得指导性信号的轮次子集上，提供高分辨率的、逐token的修正。

因此，研究团队通过加权损失函数来结合这两种互补方法。它们共享相同的PPO损失，只是优势函数的计算不同。因此，可以直接使用以下优势：

针对通用智能体的强化学习，除了标准的 RLVR外还提供了集成的逐步奖励（Step-wise Reward）机制，通过简单相加来整合结果奖励和过程奖励。

与 GRPO 不同，逐步奖励的存在使得优势函数的计算变得不那么直接。终端智能体的状态并不容易被聚类。因此，研究团队直接将具有相同步骤索引的动作进行分组，这种方法非常有效。

02 评估

（1）智能体设置

①个人智能体设置

使用 OpenClaw 做作业的学生（不希望被发现使用了 AI）

在此场景中，LLM模拟一名学生：该学生在个人电脑上使用 OpenClaw 完成作业，同时试图避免被认为依赖 AI。回答是否像 AI 生成，完全取决于该学生的个人偏好和写作风格。学生与 OpenClaw 持续互动并寻求作业帮助。作业任务选自 GSM8K 数据集。此场景中使用的 OpenClaw 策略模型为 Qwen3-4B 。将学习率设为 1×10⁻⁵，KL 散度系数设为 0，并在每收集到 16 个训练样本后触发训练。

使用 OpenClaw 批改作业的教师（希望评语具体且友好）

在学生完成文件中的作业后，教师也使用 OpenClaw 来批改这些由 AI 完成的作业。教师希望给学生的评语既具体又友好。OpenClaw 策略模型同样采用 Qwen3-4B，并使用相同的优化设置。

②通用智能体设置

模型

在终端、GUI、SWE（软件工程）和工具调用场景中，分别使用Qwen3-8B 、Qwen3VL-8B-Thinking 、Qwen3-32B 以及 Qwen3-4B-SFT。用于 GUI 和工具调用智能体的过程奖励模型分别是 Qwen3VL-8B-Thinking 和 Qwen3-4B。

数据集

分别使用 SETA RL 数据、OSWorld-Verified、SWE-Bench-Verified 以及 DAPO RL 数据来训练终端、GUI、SWE 和工具调用智能体。

（2）个人智能体评估

如上表所示，组合方法实现了最有效的优化。虽然在线蒸馏的表现优于二元强化学习，但由于训练样本的稀疏性，其效果显现需要更长的时间。

如上图所示，在组合优化方法下，OpenClaw 仅需在学生设置中进行 36 次解题交互，以及在教师设置中进行 24 次评分交互，即可实现明显的性能提升。

（3）通用智能体评估

如图4所示，研究团队的框架能够处理多样化的真实世界场景，包括终端、图形界面（GUI）、软件工程（SWE）以及工具调用智能体，并能在不同模型规模和模态下实现大规模的环境并行化。

研究团队在工具调用（250 步）和图形界面（120 步）场景中进行了集成奖励的强化学习训练，可以发现将结果奖励与过程奖励相结合能进一步提升性能（如表 4）。但与仅基于结果的优化相比，部署过程奖励模型需要额外的计算资源。