李飞飞 AgentAI 第8章第9章精读
从数据飞轮到评测闭环:Agent AI 如何持续自我改进
内容基于论文 Agent AI: Surveying the Horizons of Multimodal Interaction 的第 8 章 Continuous and Self-improvement for Agent AI 与第 9 章 Agent Dataset and Leaderboard,并补充了截至 2026-05-27 仍值得关注的外部论文、benchmark、GitHub 项目和工程框架。
结论
Agent AI 的能力不应该停留在一次性预训练,而应该通过交互、反馈、数据生成、再训练和评测形成持续演化的闭环。
第 8 章关注 Agent 如何变强:
- 从真实用户交互中收集成功轨迹、失败轨迹、偏好选择和安全攻击样本。
- 用更强的 LLM/VLM 生成指令数据、图文配对、视频描述和困难负样本。
- 把这些数据用于下一轮微调、偏好优化、强化学习或记忆更新。
第 9 章关注 如何证明 Agent 真的变强了:
- 论文提出 CuisineWorld,用于评估多智能体协作。
- 论文提出 VideoAnalytica,用于评估音频、视频、语言结合的分析型视频理解。
- 今天这个 benchmark 版图已经扩展到 WebArena、OSWorld、τ-bench、AppWorld、SWE-bench、Video-MME、Open X-Embodiment 等更多真实环境。
第 8 章是数据飞轮,第 9 章是评测闭环。没有数据,Agent 不会进化;没有评测,进化只是幻觉。
1. 为什么这两章值得单独讲?
Agent AI 和普通聊天模型的最大差异在于:Agent 不只是回答问题,它要在环境中完成任务。
普通大模型的交互像这样:
用户问题 -> 模型回答Agent 的交互更接近这样:
用户目标 -> 观察环境 -> 制定计划 -> 调用工具或执行动作 -> 接收反馈 -> 修正计划 -> 完成任务这意味着 Agent 会留下大量过程数据:看到了什么、想了什么、点了什么、调用了什么工具、哪里失败了、最后有没有成功。第 8 章看到的是这些数据的训练价值,第 9 章看到的是这些数据如何被组织成 benchmark。
可以把这两章看成 Agent 研究中的一台小发动机:
这就是数据飞轮。飞轮转起来之后,Agent 不再只是“被训练好的模型”,而更像一个持续维护、持续测试、持续迭代的软件系统。
2. 先补基础:Agent 到底是什么?
2.1 普通模型和 Agent 的区别
最简单的区分是:
模型回答问题,Agent 完成任务。
一个完整 Agent 通常包含五个部件:
| 部件 | 英文 | 作用 | 例子 |
|---|---|---|---|
| 感知 | Perception | 获取环境状态 | 网页截图、游戏画面、机器人摄像头、API 返回值 |
| 记忆 | Memory | 保存过去发生过什么 | 对话历史、用户偏好、失败反思、技能库 |
| 规划 | Planning | 决定下一步怎么做 | ReAct、任务分解、Tree of Thoughts |
| 行动 | Action | 对环境采取操作 | 点击网页、调用工具、写代码、移动机器人 |
| 学习 | Learning | 根据反馈改进 | SFT、RLHF、DPO、Agent RL、持续数据回流 |
如果把普通语言模型看成一颗大脑,Agent 就是大脑加上眼睛、手、记忆本、任务清单和试错记录。这个比喻不完美,但能帮助初学者抓住差异:Agent 的关键不只是“会说”,而是“会做”。
2.2 Agent 的学习分三层
很多论文喜欢说“self-improvement”,但这个词容易让人误以为模型会自动无限变聪明。建议把 Agent 的学习拆成三层:
| 层级 | 是否更新模型权重 | 常见方法 | 优点 | 限制 |
|---|---|---|---|---|
| 上下文层学习 | 否 | prompt、few-shot、RAG、工具调用 | 快,成本低,容易上线 | 不是真正固化能力,换环境容易失效 |
| 记忆或技能库更新 | 通常否 | Reflexion、Voyager、长期记忆、代码技能库 | 能积累经验,可解释 | 记忆污染、检索错误、维护困难 |
| 参数级学习 | 是 | SFT、RLHF、DPO、Agent RL、VLA post-training | 能把能力写入模型 | 成本高,需要可靠评测和安全约束 |
第 8 章主要讨论后两层:Agent 如何从交互和基础模型生成数据中获得新训练材料。
第 9 章则回答一个更硬的问题:Agent 更新之后,怎么证明它真的更强?
3. 第 8 章详解:Agent 的持续自我改进
第 8 章标题是 Continuous and Self-improvement for Agent AI。它的核心判断是:Agent 可以从多种数据源学习,这让训练数据不再只依赖一次性人工标注。
论文强调两类来源:
- Human-based Interaction Data:人类交互数据。
- Foundation Model Generated Data:基础模型生成数据。
这两类数据共同构成 Agent 的成长燃料。
3.1 人类交互数据:最接近真实任务分布的燃料
人类交互数据指的是用户和 Agent 在真实或模拟环境中的互动过程。它可能来自聊天,也可能来自网页操作、机器人演示、游戏协作、代码修复、客服流程或医疗辅助场景。
一条 Agent 轨迹通常长这样:
用户目标-> Agent 观察环境-> Agent 生成计划-> Agent 调用工具或执行动作-> 环境返回结果-> Agent 修正计划-> 最终成功或失败这条轨迹比单个问答样本更有价值,因为它记录了“模型怎么走到答案”的路径。对于 Agent,路径常常比最终回答更重要。
3.1.1 成功轨迹可以变成训练样本
最直接的做法是保存成功交互,把它们作为下一轮训练数据。比如:
- Web Agent 成功完成某个网页任务。
- Coding Agent 成功修复一个 issue 并通过测试。
- 机器人成功完成抓取和放置。
- 多 Agent 游戏中成功分工完成菜谱。
这些轨迹可以用于监督微调,也可以用于构造偏好样本。
但关键问题是筛选。交互日志天然嘈杂,不能直接全丢进训练锅里。常见过滤方法包括:
| 过滤方式 | 例子 | 优点 | 风险 |
|---|---|---|---|
| 规则过滤 | 测试是否通过、任务状态是否达成 | 便宜,可自动化 | 规则太弱会误判 |
| 模型过滤 | 用 judge model 判断轨迹质量 | 灵活 | judge 也会错 |
| 人工审核 | 专家检查高风险样本 | 可靠 | 成本高 |
3.1.2 失败轨迹更像“诊断报告”
成功样本告诉我们该怎么做,失败样本告诉我们哪里会坏。
对于 Agent,失败常见于这些环节:
| 失败类型 | 具体表现 |
|---|---|
| 感知失败 | 看错网页按钮、误读图像、漏掉关键 UI |
| 计划失败 | 任务分解错误、步骤顺序不合理 |
| 工具失败 | API 参数错、调用时机错、忘记检查返回值 |
| 规则失败 | 完成任务但违反业务规则或安全边界 |
| 记忆失败 | 引用过期信息、把错误反思带入新任务 |
| 恢复失败 | 出错后不会回退、重试或请求澄清 |
这些失败轨迹可以被整理成“反例训练集”“red-team 集合”或“评测集”。从工程角度看,失败日志是 Agent 进化的矿脉。
3.2 人类偏好学习:不只问对错,还问哪个更好
偏好学习的思路不是让人写唯一标准答案,而是让人比较多个输出或多条轨迹:
同一个任务 -> Agent 生成多个候选方案 -> 人类选择更好的 -> 用偏好数据训练模型经典路线是 RLHF。InstructGPT 先用人工示范做监督微调,再用人类排序训练奖励模型,最后用强化学习优化模型行为。1
后来 DPO 简化了这个流程。DPO 不需要显式训练奖励模型,也不需要复杂的 RL 过程,而是直接用偏好对优化语言模型。2
对 Agent 来说,偏好学习可以比较的不只是文本回答,还包括:
- 哪条工具调用轨迹更短。
- 哪个网页操作方案更稳定。
- 哪个多 Agent 协作策略更高效。
- 哪个机器人动作更安全。
- 哪个代码修复 patch 更小、更可维护。
换句话说,Agent 的偏好学习更像“任务过程质量评估”,而不只是“回答口吻评估”。
3.3 Red-teaming:主动制造危险样本
第 8 章还提到 red-teaming。它的目标是让人或模型故意攻击 Agent,诱导系统暴露漏洞。
普通聊天模型出错,多数时候只是说错话。Agent 出错,可能会执行动作:
- 错删文件。
- 调错 API。
- 泄露隐私。
- 在客服场景中错误退款。
- 在机器人场景中造成物理风险。
所以 Agent 的 red-teaming 必须覆盖两类问题:
- 内容安全:模型说了什么。
- 行动安全:模型做了什么。
Anthropic 的 red-teaming 研究系统化讨论了如何发现并减少语言模型有害输出。3 Constitutional AI 进一步探索用原则列表和 AI feedback 减少人工标签依赖。4
对 Agent 系统而言,未来更重要的问题是:
如何对“工具调用权限、动作边界、环境副作用、隐私访问”做 red-teaming?
这也是第 8 章之后被明显放大的研究方向。
3.4 基础模型生成数据:老师模型给学生模型造题
第 8.2 节讨论 Foundation Model Generated Data。它的核心逻辑是:
这个方向在 2023 到 2024 年非常重要,今天仍然重要。
3.4.1 Self-Instruct 和 Alpaca
Self-Instruct 让模型自己生成任务指令、输入和输出,再过滤无效或重复样本。5
Stanford Alpaca 使用类似思路,从少量种子任务出发生成 52K 指令数据,用来微调 LLaMA。6
它们证明了一件事:
只要有足够强的教师模型和足够好的过滤策略,合成指令数据可以显著降低训练成本。
不过,这条路线也有明显风险:学生模型可能只学到教师模型的表达风格,而没有学到深层能力。Gudibande 等人的研究曾指出,模仿专有 LLM 的输出并不能自动复制其事实性和推理能力。7
3.4.2 LLaVA 与多模态指令数据
LLaVA 是多模态指令微调的代表。它使用 GPT-4 生成的视觉指令数据训练视觉语言助手,并开源了数据、模型和代码。8
第 8 章提到 LLaVA 约 150K 的 GPT 生成多模态 instruction-following 数据。今天看,这个规模已经是早期版本,但原则仍然有效:
用强模型把图像、视频、OCR、区域定位等视觉信息转成可训练的语言监督信号。
这也是后续大量 VLM、video-language model 和 multimodal agent 的基本配方。
3.4.3 视频重标注和困难负样本
视频比图像更难,因为视频包含时间、动作、语音、字幕、背景音和长程依赖。
第 9 章提出 VideoAnalytica 时,使用了一个很有价值的思路:让模型生成“看起来很像但实际错误”的困难负样本。这样可以迫使模型真正理解视频,而不是靠标题或语音关键词猜答案。
今天的视频 benchmark 仍然在沿着这个方向前进。例如 Video-MME 覆盖 900 个视频、254 小时内容和 2700 个人工标注问答对,并强调短、中、长视频以及字幕、音频等多模态输入。9
4. 第 8 章现在是否过时?
结论比较明确:
第 8 章的方向没有过时,但内容已经不够新。现在的 Agent 学习已经从“合成数据和人类反馈”扩展到“多轮交互轨迹、验证器、Agent RL、工具协议和具身模型”。
4.1 仍然正确的判断
| 第 8 章观点 | 今天是否仍成立 | 原因 |
|---|---|---|
| Agent 需要从人类交互中学习 | 是 | 真实用户任务分布无法完全靠静态语料覆盖 |
| 基础模型生成数据很重要 | 是 | Self-Instruct、Alpaca、LLaVA、ToolBench 等都证明了可行性 |
| Red-teaming 是安全训练关键 | 是 | Agent 能调用工具,风险比聊天模型更直接 |
| 多数 Agent 部署时不会在线更新权重 | 大体仍成立 | 生产系统更常见做法是日志回流、RAG、记忆和离线再训练 |
4.2 已经明显扩展的方向一:Agent RL
早期 Agent 多依赖 prompt、few-shot、工具调用和合成数据。2025 之后,越来越多工作把 Agent 的多轮交互视为强化学习问题。
代表项目包括:
- Agent Lightning:微软提出的框架,目标是把 Agent 执行和 RL 训练解耦,让已有 Agent 以较少改造接入 RL 训练。1011
- AgentGym-RL:面向长程、多轮交互决策的 LLM Agent RL 框架。12
- RAGEN:面向 reasoning agent 的 RL 框架,用于研究多轮 RL 中的自我演化和失败模式。13
- Agent-R1:面向多步 Agent 任务的端到端 RL 训练框架。14
新的核心问题变成:
如何把 Agent 的长轨迹拆成可学习的训练信号?
这比普通 RLHF 难得多,因为 Agent 的一次成功或失败可能涉及几十步操作,奖励很稀疏,错误原因也可能埋在中间某一步。
4.3 已经明显扩展的方向二:反思、记忆和技能库
不是所有自我改进都需要更新权重。
| 路线 | 是否更新权重 | 代表 | 适合场景 |
|---|---|---|---|
| 语言反思 | 否 | Reflexion | 失败后写总结,下次检索使用 |
| 自我迭代 | 否 | Self-Refine | 生成、反馈、修改循环 |
| 技能库积累 | 否或部分否 | Voyager | 在 Minecraft 中积累可执行代码技能 |
| 参数级训练 | 是 | Agent Lightning、AgentGym-RL | 把经验固化进模型 |
Reflexion 通过语言反思和 episodic memory 改进下一次决策。15
Voyager 在 Minecraft 中使用自动课程、技能库和环境反馈持续积累能力。16
这些方法提示我们:工程上可以先做“记忆级自改进”,再考虑“参数级自改进”。前者便宜,后者更重。
4.4 已经明显扩展的方向三:具身 Agent 与 VLA
第 8 章引用 RoboCat,说明机器人 Agent 可以通过自生成数据形成改进循环。17
现在这个方向已经扩展为 Vision-Language-Action, VLA 路线:
| 项目 | 重点 |
|---|---|
| RoboCat | 自改进机器人操作 Agent |
| Open X-Embodiment / RT-X | 跨机器人、跨任务的大规模轨迹数据与模型 |
| DROID | 大规模真实环境机器人操作数据集 |
| π0 / π0.5 | 通用机器人控制的 VLA 模型 |
| NVIDIA GR00T N1 | 面向 humanoid robots 的开放基础模型 |
Open X-Embodiment 汇集多种机器人 embodiment 和真实轨迹,用于训练跨机器人策略。18 DROID 则提供大规模 in-the-wild 机器人操作数据。19
这说明机器人 Agent 的学习重点已经从“单个机器人自改进”走向“跨 embodiment、跨数据源、跨任务泛化”。
4.5 已经明显扩展的方向四:工具协议和 Agent 工程框架
第 8 章关注数据,但今天要落地 Agent,还必须关注工具接入和轨迹记录。
值得关注的工程框架和协议包括:
| 框架或协议 | 作用 |
|---|---|
| MCP | 标准化连接 Agent 与外部工具、数据源 |
| OpenAI Agents SDK | 提供 Agent、工具、协作、状态等工程抽象 |
| LangGraph | 构建有状态、长期运行的 Agent 工作流 |
| AutoGen | 多 Agent 对话和协作框架 |
| CrewAI | 角色化多 Agent 编排 |
Anthropic 将 MCP 定义为连接 AI 应用与外部系统的开放标准。20
OpenAI Agents SDK 则把 Agent 看作能够计划、调用工具、协作和完成多步工作的应用构件。21
这些框架不一定直接训练模型,但它们决定了 Agent 的交互轨迹、工具调用、状态变化和失败日志能否被稳定记录。没有这些工程层,数据飞轮很难转起来。
5. 第 9 章详解:数据集和排行榜如何评测 Agent
第 9 章标题是 Agent Dataset and Leaderboard。它的动机很清楚:
如果没有 benchmark,就无法判断 Agent 的自我改进是否有效。
论文提出两个 benchmark 方向:
- CuisineWorld:多 Agent 游戏协作。
- VideoAnalytica:音频、视频、语言结合的分析型视频理解。
这两个 benchmark 分别对应 Agent AI 的两类关键能力。
| Benchmark | 评估能力 | 为什么重要 |
|---|---|---|
| CuisineWorld | 多 Agent 协作、任务规划、分工、协作效率 | 真实任务常常需要多个角色协同,而不是单模型独白 |
| VideoAnalytica | 长视频理解、多模态融合、领域知识、分析推理 | Agent 需要从视频、语音、文本中理解复杂过程 |
5.1 CuisineWorld:用厨房游戏测多 Agent 协作
CuisineWorld 是一个文本版、类似 Overcooked 的多智能体协作环境。多个 Agent 需要在厨房任务中配合完成目标。
论文中提到它支持:
- 可扩展任务定义文件。
- 多 Agent 交互接口。
- 人机交互接口。
- 自动评估系统。
- centralized dispatcher 和 decentralized 两种协作模式。
- 使用 Collaboration Score, CoS 衡量协作效率。
可以把 CuisineWorld 理解成一个简化但可控的多 Agent 试验厨房。锅、菜、食材、动作和配合关系都被文本化,适合研究 LLM Agent 的规划与协作。
MindAgent 项目页和 GitHub 仓库已经公开。GitHub README 将其描述为一个 minimal text-based Overcooked! 2 game,支持 LLM 实验、RL 实验、web app 收集 few-shot 示例,以及添加新 recipe 和 level。2223
这说明 CuisineWorld 不只是论文里的概念,而是有实际工程入口。
5.2 VideoAnalytica:用长视频测分析型理解
VideoAnalytica 面向 analytical video demonstration comprehension。也就是说,它不是只问“视频里有什么”,而是问:
- 视频演示了什么过程?
- 哪些步骤是关键?
- 音频、字幕、动作之间如何互相解释?
- 模型能否区分正确描述和困难负样本?
- 模型能否根据视频回答需要推理的问题?
第 9.2 节设计了两个任务:
- Video Text Retrieval:从视频中检索正确文本描述,要求模型区分相关和无关信息。
- Video Assisted Informative Question Answering:根据视频信息回答复杂问题,强调分析推理。
论文还提出使用 LLM 生成 hard negatives,再由人工验证负样本是否有效。这一点很重要,因为视频模型很容易靠标题、字幕或关键词“蒙对”。困难负样本能逼迫模型真正看懂过程。
需要注意:本次整理没有发现一个明确公开、活跃、独立的 VideoAnalytica 官方仓库或排行榜。因此更适合把它看作一个方向性提案。今天可用的外部补充是 Video-MME、LVBench、LongVideoBench、EgoSchema、AudioBench、ACVUBench 等视频 benchmark。
6. 第 9 章现在是否过时?
结论:
第 9 章提出的两个方向仍有启发,但 benchmark 版图已经明显更新。今天的 Agent 评测更强调真实环境、执行结果、状态验证、多次稳定性和安全约束。
6.1 过时点一:排行榜计划不够具体
第 9 章中的 leaderboard 还处于计划状态,部分位置写有 TBA。现在的 Agent benchmark 已经更强调:
- 可复现环境。
- 自动评分脚本。
- 状态级验证,而不是文本相似度。
- 多次运行稳定性。
- 轨迹日志。
- 成本、时延和安全边界。
τ-bench 就是一个代表。它不只看一次任务成功,还提出 pass^k 来衡量多次运行可靠性。24
6.2 过时点二:评测不再只看“会不会回答”
现代 Agent benchmark 更像软件测试、游戏关卡、API 沙箱或机器人环境。
| 评测范式 | 输入 | 输出 | 评分方式 |
|---|---|---|---|
| 传统问答 | 文本或图片问题 | 文本答案 | accuracy、exact match |
| 多模态问答 | 图像或视频加问题 | 文本答案 | accuracy、人评 |
| Agent benchmark | 目标加环境 | 一串动作或工具调用 | 环境状态是否达成目标 |
| 可靠性 benchmark | 用户模拟器、规则、工具 | 多轮交互和动作轨迹 | pass^k、状态正确性、规则合规 |
这就是第 9 章之后最大的变化:
Agent 的答案不是它说了什么,而是世界状态是否被正确改变。
6.3 过时点三:VideoAnalytica 的方向被更多公开 benchmark 拆解
VideoAnalytica 想测长视频、多模态和分析推理。现在这些能力被多个公开 benchmark 分别推进:
| Benchmark | 关注点 |
|---|---|
| Video-MME | 全谱视频、多时长、音频字幕 |
| LVBench | 极长视频理解 |
| LongVideoBench | 长上下文视频语言交错理解 |
| EgoSchema | 第一视角长视频问答 |
| AudioBench | Audio LLM 通用评测 |
| ACVUBench | 音频中心的视频理解 |
这些 benchmark 更适合作为今天补充 VideoAnalytica 的外部材料。
7. 现在的 Agent 学习和评测版图
下面这张表可以作为博客中的“总览图”。
| 方向 | 代表项目或论文 | 主要解决什么问题 | 适合怎么用 |
|---|---|---|---|
| 通用 Agent 评测 | AgentBench | 在多类环境中评估 LLM-as-Agent | 入门了解 Agent benchmark |
| 通用助手评测 | GAIA | 推理、多模态、web、tool use | 测综合助理能力 |
| Web Agent | WebArena, VisualWebArena | 在真实网站中执行任务 | 学网页自动化 Agent |
| 企业 Web Agent | WorkArena | 企业知识工作流程 | 学企业流程自动化 |
| 桌面 Agent | OSWorld | 真实操作系统中的开放任务 | 学 GUI/电脑控制 Agent |
| 移动 Agent | AndroidWorld, AndroidLab | Android app 控制 | 学手机端 Agent |
| 工具与用户交互 | τ-bench | 用户模拟器、工具调用、规则遵循 | 学客服/订单/合规 Agent |
| App/API Agent | AppWorld | 多 app、多 API、状态验证 | 学复杂 API 组合 |
| 编程 Agent | SWE-bench, SWE-agent, OpenHands | 修复真实 GitHub issue | 学代码 Agent |
| 游戏协作 Agent | MindAgent/CuisineWorld, Voyager | 多 Agent 协作或开放世界探索 | 学规划和技能库 |
| 视频多模态 | Video-MME, LVBench, LongVideoBench, EgoSchema | 长视频理解与多模态推理 | 学视频 Agent 评测 |
| 机器人 Agent | RoboCat, Open X-Embodiment, DROID, π0, GR00T | 机器人操作和 VLA | 学 embodied Agent |
| Agent RL | Agent Lightning, AgentGym-RL, RAGEN, Agent-R1 | 多轮交互强化学习 | 研究型进阶方向 |
| 工具协议 | MCP, OpenAI Agents SDK, LangGraph | 工具接入和状态管理 | 工程落地必备 |
8. 重点 benchmark 解读
8.1 AgentBench:把 LLM 放进环境里考试
AgentBench 是较早系统评估 LLM-as-Agent 的 benchmark。它的重要性在于:不再只问模型知识题,而是让模型在环境中做决策。25
适合初学者理解的点是:Agent 的能力体现在多步交互中,而不是一次性文本输出中。
8.2 GAIA:综合 AI 助手任务
GAIA 的任务对人类不算难,但对 AI 很难,因为它要求多步推理、工具使用、网页浏览和多模态处理。26
它说明一个事实:会做标准考试题,不等于会完成现实任务。
8.3 WebArena 和 VisualWebArena:真实网页任务
WebArena 构建了自托管真实网站环境,用来测试 Agent 是否能把高层自然语言指令转化为网页操作。27
VisualWebArena 则强调视觉网页任务,要求 Agent 理解页面图像、布局和文字。28
它们代表了执行型评测的一个关键方向:让 Agent 真正操作环境。
8.4 OSWorld:真实电脑环境
OSWorld 支持在真实操作系统和应用中评估多模态 Agent。它覆盖 Ubuntu、Windows、macOS 等环境,提供任务设置、执行型评测和交互式学习能力。29
这比网页 Agent 更进一步:Agent 要面对完整电脑,而不是单个网页沙箱。
8.5 τ-bench:测试 Agent 是否稳定可靠
τ-bench 关注真实交互中的工具、用户和规则。它评估 Agent 在多轮用户交互中是否能正确调用工具、遵守规则并完成任务。24
它提出 pass^k,这一点非常值得在汇报中强调:
一个 Agent 偶尔成功一次不够,真正可部署的 Agent 要多次运行都稳定成功。
8.6 AppWorld:API 世界里的执行评测
AppWorld 构建了 9 个日常 app、457 个 API 和 750 个复杂任务。它不是看模型输出文字是否像答案,而是检查 app 数据库状态是否正确。30
这非常符合 Agent 学习需要,因为状态验证可以变成自动奖励信号。
8.7 SWE-bench:代码 Agent 的关键评测
SWE-bench 用真实 GitHub issue 测试模型是否能修改代码并通过测试。31
SWE-bench Verified 是 OpenAI 参与发布的人类验证子集,包含 500 个任务。32
但热门 benchmark 会逐渐被过度优化。OpenAI 在 2026 年指出,SWE-bench Verified 已无法很好衡量前沿编码 Agent,原因包括测试设计问题和污染,并建议使用 SWE-bench Pro。33
这对第 9 章有一个重要启发:
Leaderboard 不是永久真理。好的评测也会过时。
8.8 Video-MME、LVBench、LongVideoBench、EgoSchema
这些 benchmark 可以作为 VideoAnalytica 的现实替代或补充。
| Benchmark | 适合评估什么 |
|---|---|
| Video-MME | 短中长视频、字幕、音频、多模态问答 |
| LVBench | 极长视频理解和长程记忆 |
| LongVideoBench | 长上下文视频语言交错输入 |
| EgoSchema | 第一视角长视频日常活动理解 |
它们共同推动的问题是:模型能否跨越几十秒、几分钟甚至几小时的视频上下文进行推理。
9. 值得关注的 Agent 学习项目
9.1 入门项目:先学会构建 Agent
| 项目 | 类型 | 适合学习什么 | 链接 |
|---|---|---|---|
| LangGraph | 工作流框架 | 有状态、多步 Agent | https://github.com/langchain-ai/langgraph |
| OpenAI Agents SDK | Agent SDK | Agent、工具、协作、状态抽象 | https://developers.openai.com/api/docs/guides/agents |
| AutoGen | 多 Agent 框架 | 多 Agent 对话与工具协作 | https://github.com/microsoft/autogen |
| CrewAI | 多 Agent 编排 | 角色化 Agent 工作流 | https://github.com/crewAIInc/crewAI |
| MCP | 工具协议 | 标准化连接外部工具和数据源 | https://modelcontextprotocol.io/docs/getting-started/intro |
9.2 反馈学习项目:看 Agent 如何从经验中变强
| 项目或论文 | 学习机制 | 适合看什么 |
|---|---|---|
| ReAct | 推理与行动交替 | Agent 最经典基础范式 |
| Reflexion | 语言反思记忆 | 不改权重也能改进行为 |
| Self-Refine | 自我反馈迭代 | 生成、反馈、修改循环 |
| Voyager | 技能库积累 | Minecraft 中的开放式终身学习 |
| ToolBench / ToolLLM | 工具调用数据 | 如何构造 API 使用数据 |
9.3 进阶项目:Agent RL
| 项目 | 主要价值 |
|---|---|
| AgentGym | 多环境、多任务、统一轨迹格式 |
| AgentGym-RL | 多轮长程交互的强化学习训练 |
| Agent Lightning | 解耦 Agent 执行和 RL 训练 |
| RAGEN | 分析 reasoning agent 的多轮 RL 失败模式 |
| Agent-R1 | 多步工具任务的端到端 RL 训练 |
9.4 领域型项目:把 Agent 放进真实任务
| 领域 | 项目 | 学什么 |
|---|---|---|
| 多 Agent 游戏 | MindAgent/CuisineWorld | 协作、分工、任务调度 |
| 开放世界游戏 | Voyager | 自动课程、技能库、环境反馈 |
| 编程 | SWE-agent, OpenHands | issue 修复、测试驱动、shell 操作 |
| Web | WebArena, VisualWebArena | 网页浏览、表单填写、页面理解 |
| OS | OSWorld | 电脑 GUI grounding 和跨应用工作流 |
| Mobile | AndroidWorld | 手机 app 控制 |
| Robotics | Open X-Embodiment, DROID, π0, GR00T | 机器人数据、VLA、跨 embodiment 泛化 |
10. 推荐文献阅读路线
10.1 第一组:Agent 基础范式
-
ReAct: Synergizing Reasoning and Acting in Language Models
关键词:reasoning trace、action、tool use、environment feedback。34 -
Toolformer: Language Models Can Teach Themselves to Use Tools
关键词:工具调用、自监督 API 使用。35 -
Tree of Thoughts
关键词:搜索、分支推理、self-evaluation。36 -
The Rise and Potential of Large Language Model Based Agents: A Survey
关键词:LLM Agent 全景、感知、规划、行动。37 -
A Survey on Large Language Model based Autonomous Agents
关键词:autonomous agents、规划、记忆、工具。38
10.2 第二组:自我改进和反馈学习
10.3 第三组:数据和工具学习
10.4 第四组:Benchmark 和执行型评测
10.5 第五组:机器人和 embodied Agent
- RoboCat:自改进机器人基础 Agent。17
- Open X-Embodiment / RT-X:跨机器人数据与模型。18
- DROID:大规模真实环境机器人操作数据。19
- π0 / π0.5:VLA generalist robot policy。4546
- GR00T N1:humanoid robot foundation model。47
11. 新手最容易误解的地方
11.1 “自我改进”不等于模型自己无限变聪明
很多系统所谓 self-improvement,只是在下一轮 prompt 里加入失败反思或记忆。它不是在线更新模型权重。
这类方法很有用,但要讲清楚边界:
- Reflexion 更像记笔记。
- Voyager 更像积累技能脚本。
- Agent RL 才更接近把经验写进模型参数。
11.2 合成数据不是越多越好
基础模型生成数据可能带来四个问题:
- 错误被放大。
- 学到风格而非能力。
- 数据分布变窄,模型输出同质化。
- benchmark 泄漏或过拟合。
所以今天更强调:
- 可验证奖励。
- 人工抽检。
- 困难负样本。
- 真实环境轨迹。
- 多次稳定性评测。
11.3 单一 leaderboard 不能代表真实能力
SWE-bench Verified 的例子说明,一个 benchmark 一旦成为热门指标,就可能被过度优化、污染或饱和。33
评估 Agent 要看多维度:
- 成功率。
- 平均步数。
- 成本和时延。
- 多次运行稳定性。
- 失败恢复能力。
- 是否遵守规则。
- 是否造成环境副作用。
11.4 Agent 训练更像系统工程
Agent 的成功不只取决于模型本身,还取决于:
- 工具定义是否清楚。
- 环境状态是否可观测。
- 动作空间是否合理。
- 评测器是否可靠。
- 日志是否完整。
- 权限和安全边界是否明确。
一个糟糕的工具接口,会让强模型变成瞎忙的机械鸽。
12. 术语表
| 术语 | 简明解释 |
|---|---|
| Agent | 能观察环境、规划并采取行动完成任务的系统。 |
| Trajectory | Agent 执行任务的完整过程,包括观察、思考、动作、反馈。 |
| SFT | Supervised Fine-tuning,用标注样本做监督微调。 |
| RLHF | Reinforcement Learning from Human Feedback,用人类偏好训练奖励模型并优化策略。 |
| DPO | Direct Preference Optimization,直接用偏好数据优化模型。 |
| RLAIF | Reinforcement Learning from AI Feedback,用 AI 反馈替代部分人类反馈。 |
| Red-teaming | 主动攻击模型或系统,发现安全漏洞和失败模式。 |
| ReAct | 让模型交替生成 reasoning 和 action 的 Agent 范式。 |
| Tool use | Agent 调用外部 API、搜索、数据库、代码执行器等工具。 |
| VLA | Vision-Language-Action,视觉、语言和动作统一建模,常用于机器人。 |
| Embodiment | Agent 的身体或执行载体,例如机器人手臂、网页浏览器、手机。 |
| Benchmark | 用于比较不同 Agent 能力的数据集或环境。 |
| Execution-based evaluation | 基于任务是否真正完成来评分,而不是只看文本相似度。 |
| Pass^k | 多次运行中的稳定成功指标,τ-bench 强调此类可靠性。 |
| MCP | Model Context Protocol,连接 Agent 与外部工具、数据源的协议。 |
13. 最后一页总结
第 8 章和第 9 章合起来看,是 Agent AI 研究中非常关键的一组问题:
更简洁地说:
- 第 8 章问:Agent 如何继续变强?
- 第 9 章问:我们怎么知道它真的变强?
- 今天的答案是:让 Agent 在可验证环境中产生可评分轨迹,并用这些轨迹不断改进系统。
如果第一次看 Agent AI,只要记住这一点就够了:
Agent 的未来不是一个更会聊天的模型,而是一套会行动、会被测试、会从失败中改进的系统。
参考文献与项目链接
原论文
第 8 章相关:人类反馈、偏好学习、自我改进、合成数据
Agent 基础范式
第 9 章相关:CuisineWorld、VideoAnalytica、Agent benchmark
视频和多模态 benchmark
Agent RL 与训练框架
机器人与 VLA
工程框架和协议
Footnotes
-
Ouyang et al. Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 ↩ ↩2
-
Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290 ↩ ↩2
-
Ganguli et al. Red Teaming Language Models to Reduce Harms. arXiv:2209.07858. https://arxiv.org/abs/2209.07858 ↩
-
Bai et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 ↩ ↩2
-
Wang et al. Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560 ↩ ↩2
-
Stanford CRFM. Alpaca: A Strong, Replicable Instruction-Following Model. https://crfm.stanford.edu/2023/03/13/alpaca.html GitHub: https://github.com/tatsu-lab/stanford_alpaca ↩ ↩2
-
Gudibande et al. The False Promise of Imitating Proprietary LLMs. arXiv:2305.15717. https://arxiv.org/abs/2305.15717 ↩
-
Liu et al. Visual Instruction Tuning / LLaVA. arXiv:2304.08485. https://arxiv.org/abs/2304.08485 Project: https://llava-vl.github.io/ GitHub: https://github.com/haotian-liu/LLaVA ↩ ↩2
-
Fu et al. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv:2405.21075. https://arxiv.org/abs/2405.21075 Project: https://video-mme.github.io/home_page.html GitHub: https://github.com/MME-Benchmarks/Video-MME ↩ ↩2
-
Microsoft. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. Project: https://microsoft.github.io/agent-lightning/latest/ arXiv: https://arxiv.org/abs/2508.03680 GitHub: https://github.com/microsoft/agent-lightning ↩
-
Microsoft Research Blog. Agent Lightning: Adding reinforcement learning to AI agents without code rewrites. https://www.microsoft.com/en-us/research/blog/agent-lightning-adding-reinforcement-learning-to-ai-agents-without-code-rewrites/ ↩
-
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning. GitHub: https://github.com/WooooDyy/AgentGym-RL ↩
-
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv:2504.20073. https://arxiv.org/abs/2504.20073 GitHub: https://github.com/mll-lab-nu/RAGEN ↩
-
Agent-R1 GitHub. https://github.com/AgentR1/Agent-R1 ↩
-
Shinn et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366. https://arxiv.org/abs/2303.11366 GitHub: https://github.com/noahshinn/reflexion ↩ ↩2
-
Wang et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291. https://arxiv.org/abs/2305.16291 Project: https://voyager.minedojo.org/ GitHub: https://github.com/MineDojo/Voyager ↩
-
Bousmalis et al. RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation. arXiv:2306.11706. https://arxiv.org/abs/2306.11706 DeepMind blog: https://deepmind.google/blog/robocat-a-self-improving-robotic-agent/ ↩ ↩2
-
O’Neill et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv:2310.08864. https://arxiv.org/abs/2310.08864 Project: https://robotics-transformer-x.github.io/ GitHub: https://github.com/google-deepmind/open_x_embodiment ↩ ↩2
-
Khazatsky et al. DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset. arXiv:2403.12945. https://arxiv.org/abs/2403.12945 ↩ ↩2
-
Anthropic. Introducing the Model Context Protocol. https://www.anthropic.com/news/model-context-protocol Docs: https://modelcontextprotocol.io/docs/getting-started/intro ↩
-
OpenAI. Agents SDK. https://developers.openai.com/api/docs/guides/agents Blog: https://openai.com/index/new-tools-for-building-agents/ ↩
-
MindAgent project page. https://mindagent.github.io/ ↩
-
MindAgent GitHub. https://github.com/mindagent/mindagent ↩
-
Yao et al. τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv:2406.12045. https://arxiv.org/abs/2406.12045 GitHub: https://github.com/sierra-research/tau2-bench ↩ ↩2 ↩3
-
Liu et al. AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688. https://arxiv.org/abs/2308.03688 GitHub: https://github.com/THUDM/AgentBench ↩ ↩2
-
Mialon et al. GAIA: a benchmark for General AI Assistants. arXiv:2311.12983. https://arxiv.org/abs/2311.12983 Leaderboard: https://huggingface.co/spaces/gaia-benchmark/leaderboard ↩ ↩2
-
Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. arXiv:2307.13854. https://arxiv.org/abs/2307.13854 GitHub: https://github.com/web-arena-x/webarena ↩ ↩2
-
Koh et al. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks. Project: https://jykoh.com/vwa GitHub: https://github.com/web-arena-x/visualwebarena ↩
-
Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. arXiv:2404.07972. https://arxiv.org/abs/2404.07972 Project: https://os-world.github.io/ GitHub: https://github.com/xlang-ai/OSWorld ↩ ↩2
-
Trivedi et al. AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents. arXiv:2407.18901. https://arxiv.org/abs/2407.18901 GitHub: https://github.com/StonyBrookNLP/appworld ↩ ↩2
-
Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770. https://arxiv.org/abs/2310.06770 GitHub: https://github.com/swe-bench/SWE-bench Leaderboard: https://www.swebench.com/ ↩ ↩2
-
OpenAI. Introducing SWE-bench Verified. https://openai.com/index/introducing-swe-bench-verified/ ↩
-
OpenAI. Why SWE-bench Verified no longer measures frontier coding capabilities. https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ ↩ ↩2
-
Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629. https://arxiv.org/abs/2210.03629 GitHub: https://github.com/ysymyth/ReAct ↩
-
Schick et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761. https://arxiv.org/abs/2302.04761 ↩
-
Yao et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601. https://arxiv.org/abs/2305.10601 GitHub: https://github.com/princeton-nlp/tree-of-thought-llm ↩
-
Xi et al. The Rise and Potential of Large Language Model Based Agents: A Survey. arXiv:2309.07864. https://arxiv.org/abs/2309.07864 Repo: https://github.com/WooooDyy/LLM-Agent-Paper-List ↩
-
Wang et al. A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432. https://arxiv.org/abs/2308.11432 ↩
-
Madaan et al. Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651. https://arxiv.org/abs/2303.17651 ↩
-
Qin et al. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789. https://arxiv.org/abs/2307.16789 GitHub: https://github.com/OpenBMB/ToolBench ↩
-
Guo et al. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of LLMs. arXiv:2403.07714. https://arxiv.org/abs/2403.07714 ↩
-
Wang et al. LVBench: An Extreme Long Video Understanding Benchmark. arXiv:2406.08035. https://arxiv.org/abs/2406.08035 Project: https://lvbench.github.io/ GitHub: https://github.com/zai-org/LVBench ↩
-
Wu et al. LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding. arXiv:2407.15754. https://arxiv.org/abs/2407.15754 Project: https://longvideobench.github.io/ ↩
-
Mangalam et al. EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding. NeurIPS 2023. https://egoschema.github.io/ GitHub: https://github.com/egoschema/EgoSchema ↩
-
Physical Intelligence. π0: A Vision-Language-Action Flow Model for General Robot Control. Blog: https://www.pi.website/blog/pi0 arXiv: https://arxiv.org/abs/2410.24164 ↩
-
Physical Intelligence. π0.5: a Vision-Language-Action Model with Open-World Generalization. Blog: https://www.pi.website/blog/pi05 arXiv: https://arxiv.org/abs/2504.16054 ↩
-
NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734. https://arxiv.org/abs/2503.14734 NVIDIA page: https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots ↩
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!