从数据飞轮到评测闭环：Agent AI 如何持续自我改进#

内容基于论文 Agent AI: Surveying the Horizons of Multimodal Interaction 的第 8 章 Continuous and Self-improvement for Agent AI 与第 9 章 Agent Dataset and Leaderboard，并补充了截至 2026-05-27 仍值得关注的外部论文、benchmark、GitHub 项目和工程框架。

结论#

Agent AI 的能力不应该停留在一次性预训练，而应该通过交互、反馈、数据生成、再训练和评测形成持续演化的闭环。

第 8 章关注 Agent 如何变强：

从真实用户交互中收集成功轨迹、失败轨迹、偏好选择和安全攻击样本。
用更强的 LLM/VLM 生成指令数据、图文配对、视频描述和困难负样本。
把这些数据用于下一轮微调、偏好优化、强化学习或记忆更新。

第 9 章关注 如何证明 Agent 真的变强了：

论文提出 CuisineWorld，用于评估多智能体协作。
论文提出 VideoAnalytica，用于评估音频、视频、语言结合的分析型视频理解。
今天这个 benchmark 版图已经扩展到 WebArena、OSWorld、τ-bench、AppWorld、SWE-bench、Video-MME、Open X-Embodiment 等更多真实环境。

第 8 章是数据飞轮，第 9 章是评测闭环。没有数据，Agent 不会进化；没有评测，进化只是幻觉。

1. 为什么这两章值得单独讲？#

Agent AI 和普通聊天模型的最大差异在于：Agent 不只是回答问题，它要在环境中完成任务。

普通大模型的交互像这样：

1
用户问题 -> 模型回答

Agent 的交互更接近这样：

1
用户目标 -> 观察环境 -> 制定计划 -> 调用工具或执行动作 -> 接收反馈 -> 修正计划 -> 完成任务

这意味着 Agent 会留下大量过程数据：看到了什么、想了什么、点了什么、调用了什么工具、哪里失败了、最后有没有成功。第 8 章看到的是这些数据的训练价值，第 9 章看到的是这些数据如何被组织成 benchmark。

可以把这两章看成 Agent 研究中的一台小发动机：

flowchart LR A[真实任务与用户需求] --> B[Agent 执行任务] B --> C[产生交互轨迹] C --> D[筛选成功与失败案例] D --> E[训练或更新 Agent] E --> F[新版 Agent] F --> G[Benchmark 与真实环境评测] G --> H[暴露失败模式] H --> C

这就是数据飞轮。飞轮转起来之后，Agent 不再只是“被训练好的模型”，而更像一个持续维护、持续测试、持续迭代的软件系统。

2. 先补基础：Agent 到底是什么？#

2.1 普通模型和 Agent 的区别#

最简单的区分是：

模型回答问题，Agent 完成任务。

一个完整 Agent 通常包含五个部件：

部件	英文	作用	例子
感知	Perception	获取环境状态	网页截图、游戏画面、机器人摄像头、API 返回值
记忆	Memory	保存过去发生过什么	对话历史、用户偏好、失败反思、技能库
规划	Planning	决定下一步怎么做	ReAct、任务分解、Tree of Thoughts
行动	Action	对环境采取操作	点击网页、调用工具、写代码、移动机器人
学习	Learning	根据反馈改进	SFT、RLHF、DPO、Agent RL、持续数据回流

如果把普通语言模型看成一颗大脑，Agent 就是大脑加上眼睛、手、记忆本、任务清单和试错记录。这个比喻不完美，但能帮助初学者抓住差异：Agent 的关键不只是“会说”，而是“会做”。

2.2 Agent 的学习分三层#

很多论文喜欢说“self-improvement”，但这个词容易让人误以为模型会自动无限变聪明。建议把 Agent 的学习拆成三层：

层级	是否更新模型权重	常见方法	优点	限制
上下文层学习	否	prompt、few-shot、RAG、工具调用	快，成本低，容易上线	不是真正固化能力，换环境容易失效
记忆或技能库更新	通常否	Reflexion、Voyager、长期记忆、代码技能库	能积累经验，可解释	记忆污染、检索错误、维护困难
参数级学习	是	SFT、RLHF、DPO、Agent RL、VLA post-training	能把能力写入模型	成本高，需要可靠评测和安全约束

第 8 章主要讨论后两层：Agent 如何从交互和基础模型生成数据中获得新训练材料。

第 9 章则回答一个更硬的问题：Agent 更新之后，怎么证明它真的更强？

3. 第 8 章详解：Agent 的持续自我改进#

第 8 章标题是 Continuous and Self-improvement for Agent AI。它的核心判断是：Agent 可以从多种数据源学习，这让训练数据不再只依赖一次性人工标注。

论文强调两类来源：

Human-based Interaction Data：人类交互数据。
Foundation Model Generated Data：基础模型生成数据。

这两类数据共同构成 Agent 的成长燃料。

3.1 人类交互数据：最接近真实任务分布的燃料#

人类交互数据指的是用户和 Agent 在真实或模拟环境中的互动过程。它可能来自聊天，也可能来自网页操作、机器人演示、游戏协作、代码修复、客服流程或医疗辅助场景。

一条 Agent 轨迹通常长这样：

1
用户目标
2
-> Agent 观察环境
3
-> Agent 生成计划
4
-> Agent 调用工具或执行动作
5
-> 环境返回结果
6
-> Agent 修正计划
7
-> 最终成功或失败

这条轨迹比单个问答样本更有价值，因为它记录了“模型怎么走到答案”的路径。对于 Agent，路径常常比最终回答更重要。

3.1.1 成功轨迹可以变成训练样本#

最直接的做法是保存成功交互，把它们作为下一轮训练数据。比如：

Web Agent 成功完成某个网页任务。
Coding Agent 成功修复一个 issue 并通过测试。
机器人成功完成抓取和放置。
多 Agent 游戏中成功分工完成菜谱。

这些轨迹可以用于监督微调，也可以用于构造偏好样本。

但关键问题是筛选。交互日志天然嘈杂，不能直接全丢进训练锅里。常见过滤方法包括：

过滤方式	例子	优点	风险
规则过滤	测试是否通过、任务状态是否达成	便宜，可自动化	规则太弱会误判
模型过滤	用 judge model 判断轨迹质量	灵活	judge 也会错
人工审核	专家检查高风险样本	可靠	成本高

3.1.2 失败轨迹更像“诊断报告”#

成功样本告诉我们该怎么做，失败样本告诉我们哪里会坏。

对于 Agent，失败常见于这些环节：

失败类型	具体表现
感知失败	看错网页按钮、误读图像、漏掉关键 UI
计划失败	任务分解错误、步骤顺序不合理
工具失败	API 参数错、调用时机错、忘记检查返回值
规则失败	完成任务但违反业务规则或安全边界
记忆失败	引用过期信息、把错误反思带入新任务
恢复失败	出错后不会回退、重试或请求澄清

这些失败轨迹可以被整理成“反例训练集”“red-team 集合”或“评测集”。从工程角度看，失败日志是 Agent 进化的矿脉。

3.2 人类偏好学习：不只问对错，还问哪个更好#

偏好学习的思路不是让人写唯一标准答案，而是让人比较多个输出或多条轨迹：

1
同一个任务 -> Agent 生成多个候选方案 -> 人类选择更好的 -> 用偏好数据训练模型

经典路线是 RLHF。InstructGPT 先用人工示范做监督微调，再用人类排序训练奖励模型，最后用强化学习优化模型行为。¹

后来 DPO 简化了这个流程。DPO 不需要显式训练奖励模型，也不需要复杂的 RL 过程，而是直接用偏好对优化语言模型。²

对 Agent 来说，偏好学习可以比较的不只是文本回答，还包括：

哪条工具调用轨迹更短。
哪个网页操作方案更稳定。
哪个多 Agent 协作策略更高效。
哪个机器人动作更安全。
哪个代码修复 patch 更小、更可维护。

换句话说，Agent 的偏好学习更像“任务过程质量评估”，而不只是“回答口吻评估”。

3.3 Red-teaming：主动制造危险样本#

第 8 章还提到 red-teaming。它的目标是让人或模型故意攻击 Agent，诱导系统暴露漏洞。

普通聊天模型出错，多数时候只是说错话。Agent 出错，可能会执行动作：

错删文件。
调错 API。
泄露隐私。
在客服场景中错误退款。
在机器人场景中造成物理风险。

所以 Agent 的 red-teaming 必须覆盖两类问题：

内容安全：模型说了什么。
行动安全：模型做了什么。

Anthropic 的 red-teaming 研究系统化讨论了如何发现并减少语言模型有害输出。³ Constitutional AI 进一步探索用原则列表和 AI feedback 减少人工标签依赖。⁴

对 Agent 系统而言，未来更重要的问题是：

如何对“工具调用权限、动作边界、环境副作用、隐私访问”做 red-teaming？

这也是第 8 章之后被明显放大的研究方向。

3.4 基础模型生成数据：老师模型给学生模型造题#

第 8.2 节讨论 Foundation Model Generated Data。它的核心逻辑是：

flowchart LR A[强 LLM/VLM 教师模型] --> B[生成指令、答案、解释、图文问答、视频描述] B --> C[过滤与验证] C --> D[训练学生模型或专门 Agent] D --> E[更便宜、更专用、更可部署的 Agent]

这个方向在 2023 到 2024 年非常重要，今天仍然重要。

3.4.1 Self-Instruct 和 Alpaca#

Self-Instruct 让模型自己生成任务指令、输入和输出，再过滤无效或重复样本。⁵

Stanford Alpaca 使用类似思路，从少量种子任务出发生成 52K 指令数据，用来微调 LLaMA。⁶

它们证明了一件事：

只要有足够强的教师模型和足够好的过滤策略，合成指令数据可以显著降低训练成本。

不过，这条路线也有明显风险：学生模型可能只学到教师模型的表达风格，而没有学到深层能力。Gudibande 等人的研究曾指出，模仿专有 LLM 的输出并不能自动复制其事实性和推理能力。⁷

3.4.2 LLaVA 与多模态指令数据#

LLaVA 是多模态指令微调的代表。它使用 GPT-4 生成的视觉指令数据训练视觉语言助手，并开源了数据、模型和代码。⁸

第 8 章提到 LLaVA 约 150K 的 GPT 生成多模态 instruction-following 数据。今天看，这个规模已经是早期版本，但原则仍然有效：

用强模型把图像、视频、OCR、区域定位等视觉信息转成可训练的语言监督信号。

这也是后续大量 VLM、video-language model 和 multimodal agent 的基本配方。

3.4.3 视频重标注和困难负样本#

视频比图像更难，因为视频包含时间、动作、语音、字幕、背景音和长程依赖。

第 9 章提出 VideoAnalytica 时，使用了一个很有价值的思路：让模型生成“看起来很像但实际错误”的困难负样本。这样可以迫使模型真正理解视频，而不是靠标题或语音关键词猜答案。

今天的视频 benchmark 仍然在沿着这个方向前进。例如 Video-MME 覆盖 900 个视频、254 小时内容和 2700 个人工标注问答对，并强调短、中、长视频以及字幕、音频等多模态输入。⁹

4. 第 8 章现在是否过时？#

结论比较明确：

第 8 章的方向没有过时，但内容已经不够新。现在的 Agent 学习已经从“合成数据和人类反馈”扩展到“多轮交互轨迹、验证器、Agent RL、工具协议和具身模型”。

4.1 仍然正确的判断#

第 8 章观点	今天是否仍成立	原因
Agent 需要从人类交互中学习	是	真实用户任务分布无法完全靠静态语料覆盖
基础模型生成数据很重要	是	Self-Instruct、Alpaca、LLaVA、ToolBench 等都证明了可行性
Red-teaming 是安全训练关键	是	Agent 能调用工具，风险比聊天模型更直接
多数 Agent 部署时不会在线更新权重	大体仍成立	生产系统更常见做法是日志回流、RAG、记忆和离线再训练

4.2 已经明显扩展的方向一：Agent RL#

早期 Agent 多依赖 prompt、few-shot、工具调用和合成数据。2025 之后，越来越多工作把 Agent 的多轮交互视为强化学习问题。

代表项目包括：

Agent Lightning：微软提出的框架，目标是把 Agent 执行和 RL 训练解耦，让已有 Agent 以较少改造接入 RL 训练。¹⁰¹¹
AgentGym-RL：面向长程、多轮交互决策的 LLM Agent RL 框架。¹²
RAGEN：面向 reasoning agent 的 RL 框架，用于研究多轮 RL 中的自我演化和失败模式。¹³
Agent-R1：面向多步 Agent 任务的端到端 RL 训练框架。¹⁴

新的核心问题变成：

如何把 Agent 的长轨迹拆成可学习的训练信号？

这比普通 RLHF 难得多，因为 Agent 的一次成功或失败可能涉及几十步操作，奖励很稀疏，错误原因也可能埋在中间某一步。

4.3 已经明显扩展的方向二：反思、记忆和技能库#

不是所有自我改进都需要更新权重。

路线	是否更新权重	代表	适合场景
语言反思	否	Reflexion	失败后写总结，下次检索使用
自我迭代	否	Self-Refine	生成、反馈、修改循环
技能库积累	否或部分否	Voyager	在 Minecraft 中积累可执行代码技能
参数级训练	是	Agent Lightning、AgentGym-RL	把经验固化进模型

Reflexion 通过语言反思和 episodic memory 改进下一次决策。¹⁵

Voyager 在 Minecraft 中使用自动课程、技能库和环境反馈持续积累能力。¹⁶

这些方法提示我们：工程上可以先做“记忆级自改进”，再考虑“参数级自改进”。前者便宜，后者更重。

4.4 已经明显扩展的方向三：具身 Agent 与 VLA#

第 8 章引用 RoboCat，说明机器人 Agent 可以通过自生成数据形成改进循环。¹⁷

现在这个方向已经扩展为 Vision-Language-Action, VLA 路线：

项目	重点
RoboCat	自改进机器人操作 Agent
Open X-Embodiment / RT-X	跨机器人、跨任务的大规模轨迹数据与模型
DROID	大规模真实环境机器人操作数据集
π0 / π0.5	通用机器人控制的 VLA 模型
NVIDIA GR00T N1	面向 humanoid robots 的开放基础模型

Open X-Embodiment 汇集多种机器人 embodiment 和真实轨迹，用于训练跨机器人策略。¹⁸ DROID 则提供大规模 in-the-wild 机器人操作数据。¹⁹

这说明机器人 Agent 的学习重点已经从“单个机器人自改进”走向“跨 embodiment、跨数据源、跨任务泛化”。

4.5 已经明显扩展的方向四：工具协议和 Agent 工程框架#

第 8 章关注数据，但今天要落地 Agent，还必须关注工具接入和轨迹记录。

值得关注的工程框架和协议包括：

框架或协议	作用
MCP	标准化连接 Agent 与外部工具、数据源
OpenAI Agents SDK	提供 Agent、工具、协作、状态等工程抽象
LangGraph	构建有状态、长期运行的 Agent 工作流
AutoGen	多 Agent 对话和协作框架
CrewAI	角色化多 Agent 编排

Anthropic 将 MCP 定义为连接 AI 应用与外部系统的开放标准。²⁰

OpenAI Agents SDK 则把 Agent 看作能够计划、调用工具、协作和完成多步工作的应用构件。²¹

这些框架不一定直接训练模型，但它们决定了 Agent 的交互轨迹、工具调用、状态变化和失败日志能否被稳定记录。没有这些工程层，数据飞轮很难转起来。

5. 第 9 章详解：数据集和排行榜如何评测 Agent#

第 9 章标题是 Agent Dataset and Leaderboard。它的动机很清楚：

如果没有 benchmark，就无法判断 Agent 的自我改进是否有效。

论文提出两个 benchmark 方向：

CuisineWorld：多 Agent 游戏协作。
VideoAnalytica：音频、视频、语言结合的分析型视频理解。

这两个 benchmark 分别对应 Agent AI 的两类关键能力。

Benchmark	评估能力	为什么重要
CuisineWorld	多 Agent 协作、任务规划、分工、协作效率	真实任务常常需要多个角色协同，而不是单模型独白
VideoAnalytica	长视频理解、多模态融合、领域知识、分析推理	Agent 需要从视频、语音、文本中理解复杂过程

5.1 CuisineWorld：用厨房游戏测多 Agent 协作#

CuisineWorld 是一个文本版、类似 Overcooked 的多智能体协作环境。多个 Agent 需要在厨房任务中配合完成目标。

论文中提到它支持：

可扩展任务定义文件。
多 Agent 交互接口。
人机交互接口。
自动评估系统。
centralized dispatcher 和 decentralized 两种协作模式。
使用 Collaboration Score, CoS 衡量协作效率。

可以把 CuisineWorld 理解成一个简化但可控的多 Agent 试验厨房。锅、菜、食材、动作和配合关系都被文本化，适合研究 LLM Agent 的规划与协作。

MindAgent 项目页和 GitHub 仓库已经公开。GitHub README 将其描述为一个 minimal text-based Overcooked! 2 game，支持 LLM 实验、RL 实验、web app 收集 few-shot 示例，以及添加新 recipe 和 level。²²²³

这说明 CuisineWorld 不只是论文里的概念，而是有实际工程入口。

5.2 VideoAnalytica：用长视频测分析型理解#

VideoAnalytica 面向 analytical video demonstration comprehension。也就是说，它不是只问“视频里有什么”，而是问：

视频演示了什么过程？
哪些步骤是关键？
音频、字幕、动作之间如何互相解释？
模型能否区分正确描述和困难负样本？
模型能否根据视频回答需要推理的问题？

第 9.2 节设计了两个任务：

Video Text Retrieval：从视频中检索正确文本描述，要求模型区分相关和无关信息。
Video Assisted Informative Question Answering：根据视频信息回答复杂问题，强调分析推理。

论文还提出使用 LLM 生成 hard negatives，再由人工验证负样本是否有效。这一点很重要，因为视频模型很容易靠标题、字幕或关键词“蒙对”。困难负样本能逼迫模型真正看懂过程。

需要注意：本次整理没有发现一个明确公开、活跃、独立的 VideoAnalytica 官方仓库或排行榜。因此更适合把它看作一个方向性提案。今天可用的外部补充是 Video-MME、LVBench、LongVideoBench、EgoSchema、AudioBench、ACVUBench 等视频 benchmark。

6. 第 9 章现在是否过时？#

结论：

第 9 章提出的两个方向仍有启发，但 benchmark 版图已经明显更新。今天的 Agent 评测更强调真实环境、执行结果、状态验证、多次稳定性和安全约束。

6.1 过时点一：排行榜计划不够具体#

第 9 章中的 leaderboard 还处于计划状态，部分位置写有 TBA。现在的 Agent benchmark 已经更强调：

可复现环境。
自动评分脚本。
状态级验证，而不是文本相似度。
多次运行稳定性。
轨迹日志。
成本、时延和安全边界。

τ-bench 就是一个代表。它不只看一次任务成功，还提出 pass^k 来衡量多次运行可靠性。²⁴

6.2 过时点二：评测不再只看“会不会回答”#

现代 Agent benchmark 更像软件测试、游戏关卡、API 沙箱或机器人环境。

评测范式	输入	输出	评分方式
传统问答	文本或图片问题	文本答案	accuracy、exact match
多模态问答	图像或视频加问题	文本答案	accuracy、人评
Agent benchmark	目标加环境	一串动作或工具调用	环境状态是否达成目标
可靠性 benchmark	用户模拟器、规则、工具	多轮交互和动作轨迹	pass^k、状态正确性、规则合规

这就是第 9 章之后最大的变化：

Agent 的答案不是它说了什么，而是世界状态是否被正确改变。

6.3 过时点三：VideoAnalytica 的方向被更多公开 benchmark 拆解#

VideoAnalytica 想测长视频、多模态和分析推理。现在这些能力被多个公开 benchmark 分别推进：

Benchmark	关注点
Video-MME	全谱视频、多时长、音频字幕
LVBench	极长视频理解
LongVideoBench	长上下文视频语言交错理解
EgoSchema	第一视角长视频问答
AudioBench	Audio LLM 通用评测
ACVUBench	音频中心的视频理解

这些 benchmark 更适合作为今天补充 VideoAnalytica 的外部材料。

7. 现在的 Agent 学习和评测版图#

下面这张表可以作为博客中的“总览图”。

方向	代表项目或论文	主要解决什么问题	适合怎么用
通用 Agent 评测	AgentBench	在多类环境中评估 LLM-as-Agent	入门了解 Agent benchmark
通用助手评测	GAIA	推理、多模态、web、tool use	测综合助理能力
Web Agent	WebArena, VisualWebArena	在真实网站中执行任务	学网页自动化 Agent
企业 Web Agent	WorkArena	企业知识工作流程	学企业流程自动化
桌面 Agent	OSWorld	真实操作系统中的开放任务	学 GUI/电脑控制 Agent
移动 Agent	AndroidWorld, AndroidLab	Android app 控制	学手机端 Agent
工具与用户交互	τ-bench	用户模拟器、工具调用、规则遵循	学客服/订单/合规 Agent
App/API Agent	AppWorld	多 app、多 API、状态验证	学复杂 API 组合
编程 Agent	SWE-bench, SWE-agent, OpenHands	修复真实 GitHub issue	学代码 Agent
游戏协作 Agent	MindAgent/CuisineWorld, Voyager	多 Agent 协作或开放世界探索	学规划和技能库
视频多模态	Video-MME, LVBench, LongVideoBench, EgoSchema	长视频理解与多模态推理	学视频 Agent 评测
机器人 Agent	RoboCat, Open X-Embodiment, DROID, π0, GR00T	机器人操作和 VLA	学 embodied Agent
Agent RL	Agent Lightning, AgentGym-RL, RAGEN, Agent-R1	多轮交互强化学习	研究型进阶方向
工具协议	MCP, OpenAI Agents SDK, LangGraph	工具接入和状态管理	工程落地必备

8. 重点 benchmark 解读#

8.1 AgentBench：把 LLM 放进环境里考试#

AgentBench 是较早系统评估 LLM-as-Agent 的 benchmark。它的重要性在于：不再只问模型知识题，而是让模型在环境中做决策。²⁵

适合初学者理解的点是：Agent 的能力体现在多步交互中，而不是一次性文本输出中。

8.2 GAIA：综合 AI 助手任务#

GAIA 的任务对人类不算难，但对 AI 很难，因为它要求多步推理、工具使用、网页浏览和多模态处理。²⁶

它说明一个事实：会做标准考试题，不等于会完成现实任务。

8.3 WebArena 和 VisualWebArena：真实网页任务#

WebArena 构建了自托管真实网站环境，用来测试 Agent 是否能把高层自然语言指令转化为网页操作。²⁷

VisualWebArena 则强调视觉网页任务，要求 Agent 理解页面图像、布局和文字。²⁸

它们代表了执行型评测的一个关键方向：让 Agent 真正操作环境。

8.4 OSWorld：真实电脑环境#

OSWorld 支持在真实操作系统和应用中评估多模态 Agent。它覆盖 Ubuntu、Windows、macOS 等环境，提供任务设置、执行型评测和交互式学习能力。²⁹

这比网页 Agent 更进一步：Agent 要面对完整电脑，而不是单个网页沙箱。

8.5 τ-bench：测试 Agent 是否稳定可靠#

τ-bench 关注真实交互中的工具、用户和规则。它评估 Agent 在多轮用户交互中是否能正确调用工具、遵守规则并完成任务。²⁴

它提出 pass^k，这一点非常值得在汇报中强调：

一个 Agent 偶尔成功一次不够，真正可部署的 Agent 要多次运行都稳定成功。

8.6 AppWorld：API 世界里的执行评测#

AppWorld 构建了 9 个日常 app、457 个 API 和 750 个复杂任务。它不是看模型输出文字是否像答案，而是检查 app 数据库状态是否正确。³⁰

这非常符合 Agent 学习需要，因为状态验证可以变成自动奖励信号。

8.7 SWE-bench：代码 Agent 的关键评测#

SWE-bench 用真实 GitHub issue 测试模型是否能修改代码并通过测试。³¹

SWE-bench Verified 是 OpenAI 参与发布的人类验证子集，包含 500 个任务。³²

但热门 benchmark 会逐渐被过度优化。OpenAI 在 2026 年指出，SWE-bench Verified 已无法很好衡量前沿编码 Agent，原因包括测试设计问题和污染，并建议使用 SWE-bench Pro。³³

这对第 9 章有一个重要启发：

Leaderboard 不是永久真理。好的评测也会过时。

8.8 Video-MME、LVBench、LongVideoBench、EgoSchema#

这些 benchmark 可以作为 VideoAnalytica 的现实替代或补充。

Benchmark	适合评估什么
Video-MME	短中长视频、字幕、音频、多模态问答
LVBench	极长视频理解和长程记忆
LongVideoBench	长上下文视频语言交错输入
EgoSchema	第一视角长视频日常活动理解

它们共同推动的问题是：模型能否跨越几十秒、几分钟甚至几小时的视频上下文进行推理。

9. 值得关注的 Agent 学习项目#

9.1 入门项目：先学会构建 Agent#

项目	类型	适合学习什么	链接
LangGraph	工作流框架	有状态、多步 Agent	https://github.com/langchain-ai/langgraph
OpenAI Agents SDK	Agent SDK	Agent、工具、协作、状态抽象	https://developers.openai.com/api/docs/guides/agents
AutoGen	多 Agent 框架	多 Agent 对话与工具协作	https://github.com/microsoft/autogen
CrewAI	多 Agent 编排	角色化 Agent 工作流	https://github.com/crewAIInc/crewAI
MCP	工具协议	标准化连接外部工具和数据源	https://modelcontextprotocol.io/docs/getting-started/intro

9.2 反馈学习项目：看 Agent 如何从经验中变强#

项目或论文	学习机制	适合看什么
ReAct	推理与行动交替	Agent 最经典基础范式
Reflexion	语言反思记忆	不改权重也能改进行为
Self-Refine	自我反馈迭代	生成、反馈、修改循环
Voyager	技能库积累	Minecraft 中的开放式终身学习
ToolBench / ToolLLM	工具调用数据	如何构造 API 使用数据

9.3 进阶项目：Agent RL#

项目	主要价值
AgentGym	多环境、多任务、统一轨迹格式
AgentGym-RL	多轮长程交互的强化学习训练
Agent Lightning	解耦 Agent 执行和 RL 训练
RAGEN	分析 reasoning agent 的多轮 RL 失败模式
Agent-R1	多步工具任务的端到端 RL 训练

9.4 领域型项目：把 Agent 放进真实任务#

领域	项目	学什么
多 Agent 游戏	MindAgent/CuisineWorld	协作、分工、任务调度
开放世界游戏	Voyager	自动课程、技能库、环境反馈
编程	SWE-agent, OpenHands	issue 修复、测试驱动、shell 操作
Web	WebArena, VisualWebArena	网页浏览、表单填写、页面理解
OS	OSWorld	电脑 GUI grounding 和跨应用工作流
Mobile	AndroidWorld	手机 app 控制
Robotics	Open X-Embodiment, DROID, π0, GR00T	机器人数据、VLA、跨 embodiment 泛化

10. 推荐文献阅读路线#

10.1 第一组：Agent 基础范式#

ReAct: Synergizing Reasoning and Acting in Language Models
关键词：reasoning trace、action、tool use、environment feedback。³⁴
Toolformer: Language Models Can Teach Themselves to Use Tools
关键词：工具调用、自监督 API 使用。³⁵
Tree of Thoughts
关键词：搜索、分支推理、self-evaluation。³⁶
The Rise and Potential of Large Language Model Based Agents: A Survey
关键词：LLM Agent 全景、感知、规划、行动。³⁷
A Survey on Large Language Model based Autonomous Agents
关键词：autonomous agents、规划、记忆、工具。³⁸

10.2 第二组：自我改进和反馈学习#

Training language models to follow instructions with human feedback
关键词：RLHF、SFT、奖励模型。¹
Direct Preference Optimization
关键词：DPO、偏好学习。²
Self-Instruct
关键词：自生成指令数据。⁵
Reflexion
关键词：语言反思、episodic memory。¹⁵
Self-Refine
关键词：自我反馈、自我修改。³⁹
Constitutional AI
关键词：AI feedback、安全原则。⁴

10.3 第三组：数据和工具学习#

Alpaca
关键词：低成本指令微调、teacher-generated data。⁶
LLaVA / Visual Instruction Tuning
关键词：多模态指令数据、GPT-4 生成图文问答。⁸
ToolLLM / ToolBench
关键词：工具调用数据、API use、ToolEval。⁴⁰
StableToolBench
关键词：稳定工具评测、虚拟 API server。⁴¹

10.4 第四组：Benchmark 和执行型评测#

AgentBench：通用 LLM-as-Agent benchmark。²⁵
GAIA：综合助手任务，强调工具、多模态和 web。²⁶
WebArena：真实网站环境。²⁷
OSWorld：真实电脑环境。²⁹
τ-bench：用户、工具和规则的可靠性交互。²⁴
AppWorld：复杂 app/API 任务和状态验证。³⁰
SWE-bench：真实 GitHub issue 修复。³¹
Video-MME / LVBench / LongVideoBench / EgoSchema：长视频和视频多模态理解。⁹⁴²⁴³⁴⁴

10.5 第五组：机器人和 embodied Agent#

RoboCat：自改进机器人基础 Agent。¹⁷
Open X-Embodiment / RT-X：跨机器人数据与模型。¹⁸
DROID：大规模真实环境机器人操作数据。¹⁹
π0 / π0.5：VLA generalist robot policy。⁴⁵⁴⁶
GR00T N1：humanoid robot foundation model。⁴⁷

11. 新手最容易误解的地方#

11.1 “自我改进”不等于模型自己无限变聪明#

很多系统所谓 self-improvement，只是在下一轮 prompt 里加入失败反思或记忆。它不是在线更新模型权重。

这类方法很有用，但要讲清楚边界：

Reflexion 更像记笔记。
Voyager 更像积累技能脚本。
Agent RL 才更接近把经验写进模型参数。

11.2 合成数据不是越多越好#

基础模型生成数据可能带来四个问题：

错误被放大。
学到风格而非能力。
数据分布变窄，模型输出同质化。
benchmark 泄漏或过拟合。

所以今天更强调：

可验证奖励。
人工抽检。
困难负样本。
真实环境轨迹。
多次稳定性评测。

11.3 单一 leaderboard 不能代表真实能力#

SWE-bench Verified 的例子说明，一个 benchmark 一旦成为热门指标，就可能被过度优化、污染或饱和。³³

评估 Agent 要看多维度：

成功率。
平均步数。
成本和时延。
多次运行稳定性。
失败恢复能力。
是否遵守规则。
是否造成环境副作用。

11.4 Agent 训练更像系统工程#

Agent 的成功不只取决于模型本身，还取决于：

工具定义是否清楚。
环境状态是否可观测。
动作空间是否合理。
评测器是否可靠。
日志是否完整。
权限和安全边界是否明确。

一个糟糕的工具接口，会让强模型变成瞎忙的机械鸽。

12. 术语表#

术语	简明解释
Agent	能观察环境、规划并采取行动完成任务的系统。
Trajectory	Agent 执行任务的完整过程，包括观察、思考、动作、反馈。
SFT	Supervised Fine-tuning，用标注样本做监督微调。
RLHF	Reinforcement Learning from Human Feedback，用人类偏好训练奖励模型并优化策略。
DPO	Direct Preference Optimization，直接用偏好数据优化模型。
RLAIF	Reinforcement Learning from AI Feedback，用 AI 反馈替代部分人类反馈。
Red-teaming	主动攻击模型或系统，发现安全漏洞和失败模式。
ReAct	让模型交替生成 reasoning 和 action 的 Agent 范式。
Tool use	Agent 调用外部 API、搜索、数据库、代码执行器等工具。
VLA	Vision-Language-Action，视觉、语言和动作统一建模，常用于机器人。
Embodiment	Agent 的身体或执行载体，例如机器人手臂、网页浏览器、手机。
Benchmark	用于比较不同 Agent 能力的数据集或环境。
Execution-based evaluation	基于任务是否真正完成来评分，而不是只看文本相似度。
Pass^k	多次运行中的稳定成功指标，τ-bench 强调此类可靠性。
MCP	Model Context Protocol，连接 Agent 与外部工具、数据源的协议。

13. 最后一页总结#

第 8 章和第 9 章合起来看，是 Agent AI 研究中非常关键的一组问题：

flowchart TB A[交互] --> B[轨迹数据] B --> C[筛选与标注] C --> D[训练或记忆更新] D --> E[新版 Agent] E --> F[Benchmark] F --> G[失败分析] G --> B

更简洁地说：

第 8 章问：Agent 如何继续变强？
第 9 章问：我们怎么知道它真的变强？
今天的答案是：让 Agent 在可验证环境中产生可评分轨迹，并用这些轨迹不断改进系统。

如果第一次看 Agent AI，只要记住这一点就够了：

Agent 的未来不是一个更会聊天的模型，而是一套会行动、会被测试、会从失败中改进的系统。

参考文献与项目链接#

原论文#

第 8 章相关：人类反馈、偏好学习、自我改进、合成数据#

Agent 基础范式#

第 9 章相关：CuisineWorld、VideoAnalytica、Agent benchmark#

视频和多模态 benchmark#

Agent RL 与训练框架#

机器人与 VLA#

工程框架和协议#

Ouyang et al. Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 ↩ ↩²
Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290 ↩ ↩²
Ganguli et al. Red Teaming Language Models to Reduce Harms. arXiv:2209.07858. https://arxiv.org/abs/2209.07858 ↩
Bai et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 ↩ ↩²
Wang et al. Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560 ↩ ↩²
Stanford CRFM. Alpaca: A Strong, Replicable Instruction-Following Model. https://crfm.stanford.edu/2023/03/13/alpaca.html GitHub: https://github.com/tatsu-lab/stanford_alpaca ↩ ↩²
Gudibande et al. The False Promise of Imitating Proprietary LLMs. arXiv:2305.15717. https://arxiv.org/abs/2305.15717 ↩
Liu et al. Visual Instruction Tuning / LLaVA. arXiv:2304.08485. https://arxiv.org/abs/2304.08485 Project: https://llava-vl.github.io/ GitHub: https://github.com/haotian-liu/LLaVA ↩ ↩²
Fu et al. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv:2405.21075. https://arxiv.org/abs/2405.21075 Project: https://video-mme.github.io/home_page.html GitHub: https://github.com/MME-Benchmarks/Video-MME ↩ ↩²
Microsoft. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. Project: https://microsoft.github.io/agent-lightning/latest/ arXiv: https://arxiv.org/abs/2508.03680 GitHub: https://github.com/microsoft/agent-lightning ↩
Microsoft Research Blog. Agent Lightning: Adding reinforcement learning to AI agents without code rewrites. https://www.microsoft.com/en-us/research/blog/agent-lightning-adding-reinforcement-learning-to-ai-agents-without-code-rewrites/ ↩
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning. GitHub: https://github.com/WooooDyy/AgentGym-RL ↩
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv:2504.20073. https://arxiv.org/abs/2504.20073 GitHub: https://github.com/mll-lab-nu/RAGEN ↩
Agent-R1 GitHub. https://github.com/AgentR1/Agent-R1 ↩
Shinn et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366. https://arxiv.org/abs/2303.11366 GitHub: https://github.com/noahshinn/reflexion ↩ ↩²
Wang et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291. https://arxiv.org/abs/2305.16291 Project: https://voyager.minedojo.org/ GitHub: https://github.com/MineDojo/Voyager ↩
Bousmalis et al. RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation. arXiv:2306.11706. https://arxiv.org/abs/2306.11706 DeepMind blog: https://deepmind.google/blog/robocat-a-self-improving-robotic-agent/ ↩ ↩²
O’Neill et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv:2310.08864. https://arxiv.org/abs/2310.08864 Project: https://robotics-transformer-x.github.io/ GitHub: https://github.com/google-deepmind/open_x_embodiment ↩ ↩²
Khazatsky et al. DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset. arXiv:2403.12945. https://arxiv.org/abs/2403.12945 ↩ ↩²
Anthropic. Introducing the Model Context Protocol. https://www.anthropic.com/news/model-context-protocol Docs: https://modelcontextprotocol.io/docs/getting-started/intro ↩
OpenAI. Agents SDK. https://developers.openai.com/api/docs/guides/agents Blog: https://openai.com/index/new-tools-for-building-agents/ ↩
MindAgent project page. https://mindagent.github.io/ ↩
MindAgent GitHub. https://github.com/mindagent/mindagent ↩
Yao et al. τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv:2406.12045. https://arxiv.org/abs/2406.12045 GitHub: https://github.com/sierra-research/tau2-bench ↩ ↩² ↩³
Liu et al. AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688. https://arxiv.org/abs/2308.03688 GitHub: https://github.com/THUDM/AgentBench ↩ ↩²
Mialon et al. GAIA: a benchmark for General AI Assistants. arXiv:2311.12983. https://arxiv.org/abs/2311.12983 Leaderboard: https://huggingface.co/spaces/gaia-benchmark/leaderboard ↩ ↩²
Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. arXiv:2307.13854. https://arxiv.org/abs/2307.13854 GitHub: https://github.com/web-arena-x/webarena ↩ ↩²
Koh et al. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks. Project: https://jykoh.com/vwa GitHub: https://github.com/web-arena-x/visualwebarena ↩
Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. arXiv:2404.07972. https://arxiv.org/abs/2404.07972 Project: https://os-world.github.io/ GitHub: https://github.com/xlang-ai/OSWorld ↩ ↩²
Trivedi et al. AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents. arXiv:2407.18901. https://arxiv.org/abs/2407.18901 GitHub: https://github.com/StonyBrookNLP/appworld ↩ ↩²
Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770. https://arxiv.org/abs/2310.06770 GitHub: https://github.com/swe-bench/SWE-bench Leaderboard: https://www.swebench.com/ ↩ ↩²
OpenAI. Introducing SWE-bench Verified. https://openai.com/index/introducing-swe-bench-verified/ ↩
OpenAI. Why SWE-bench Verified no longer measures frontier coding capabilities. https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ ↩ ↩²
Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629. https://arxiv.org/abs/2210.03629 GitHub: https://github.com/ysymyth/ReAct ↩
Schick et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761. https://arxiv.org/abs/2302.04761 ↩
Yao et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601. https://arxiv.org/abs/2305.10601 GitHub: https://github.com/princeton-nlp/tree-of-thought-llm ↩
Xi et al. The Rise and Potential of Large Language Model Based Agents: A Survey. arXiv:2309.07864. https://arxiv.org/abs/2309.07864 Repo: https://github.com/WooooDyy/LLM-Agent-Paper-List ↩
Wang et al. A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432. https://arxiv.org/abs/2308.11432 ↩
Madaan et al. Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651. https://arxiv.org/abs/2303.17651 ↩
Qin et al. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789. https://arxiv.org/abs/2307.16789 GitHub: https://github.com/OpenBMB/ToolBench ↩
Guo et al. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of LLMs. arXiv:2403.07714. https://arxiv.org/abs/2403.07714 ↩
Wang et al. LVBench: An Extreme Long Video Understanding Benchmark. arXiv:2406.08035. https://arxiv.org/abs/2406.08035 Project: https://lvbench.github.io/ GitHub: https://github.com/zai-org/LVBench ↩
Wu et al. LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding. arXiv:2407.15754. https://arxiv.org/abs/2407.15754 Project: https://longvideobench.github.io/ ↩
Mangalam et al. EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding. NeurIPS 2023. https://egoschema.github.io/ GitHub: https://github.com/egoschema/EgoSchema ↩
Physical Intelligence. π0: A Vision-Language-Action Flow Model for General Robot Control. Blog: https://www.pi.website/blog/pi0 arXiv: https://arxiv.org/abs/2410.24164 ↩
Physical Intelligence. π0.5: a Vision-Language-Action Model with Open-World Generalization. Blog: https://www.pi.website/blog/pi05 arXiv: https://arxiv.org/abs/2504.16054 ↩
NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734. https://arxiv.org/abs/2503.14734 NVIDIA page: https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots ↩

李飞飞 AgentAI 第8章第9章精读