李飞飞 AgentAI 第8章第9章精读

8887 字
44 分钟
李飞飞 AgentAI 第8章第9章精读

从数据飞轮到评测闭环:Agent AI 如何持续自我改进#

内容基于论文 Agent AI: Surveying the Horizons of Multimodal Interaction 的第 8 章 Continuous and Self-improvement for Agent AI 与第 9 章 Agent Dataset and Leaderboard,并补充了截至 2026-05-27 仍值得关注的外部论文、benchmark、GitHub 项目和工程框架。


结论#

Agent AI 的能力不应该停留在一次性预训练,而应该通过交互、反馈、数据生成、再训练和评测形成持续演化的闭环。

第 8 章关注 Agent 如何变强

  • 从真实用户交互中收集成功轨迹、失败轨迹、偏好选择和安全攻击样本。
  • 用更强的 LLM/VLM 生成指令数据、图文配对、视频描述和困难负样本。
  • 把这些数据用于下一轮微调、偏好优化、强化学习或记忆更新。

第 9 章关注 如何证明 Agent 真的变强了

  • 论文提出 CuisineWorld,用于评估多智能体协作。
  • 论文提出 VideoAnalytica,用于评估音频、视频、语言结合的分析型视频理解。
  • 今天这个 benchmark 版图已经扩展到 WebArena、OSWorld、τ-bench、AppWorld、SWE-bench、Video-MME、Open X-Embodiment 等更多真实环境。

第 8 章是数据飞轮,第 9 章是评测闭环。没有数据,Agent 不会进化;没有评测,进化只是幻觉。


1. 为什么这两章值得单独讲?#

Agent AI 和普通聊天模型的最大差异在于:Agent 不只是回答问题,它要在环境中完成任务。

普通大模型的交互像这样:

用户问题 -> 模型回答

Agent 的交互更接近这样:

用户目标 -> 观察环境 -> 制定计划 -> 调用工具或执行动作 -> 接收反馈 -> 修正计划 -> 完成任务

这意味着 Agent 会留下大量过程数据:看到了什么、想了什么、点了什么、调用了什么工具、哪里失败了、最后有没有成功。第 8 章看到的是这些数据的训练价值,第 9 章看到的是这些数据如何被组织成 benchmark。

可以把这两章看成 Agent 研究中的一台小发动机:

flowchart LR A[真实任务与用户需求] --> B[Agent 执行任务] B --> C[产生交互轨迹] C --> D[筛选成功与失败案例] D --> E[训练或更新 Agent] E --> F[新版 Agent] F --> G[Benchmark 与真实环境评测] G --> H[暴露失败模式] H --> C

这就是数据飞轮。飞轮转起来之后,Agent 不再只是“被训练好的模型”,而更像一个持续维护、持续测试、持续迭代的软件系统。


2. 先补基础:Agent 到底是什么?#

2.1 普通模型和 Agent 的区别#

最简单的区分是:

模型回答问题,Agent 完成任务。

一个完整 Agent 通常包含五个部件:

部件英文作用例子
感知Perception获取环境状态网页截图、游戏画面、机器人摄像头、API 返回值
记忆Memory保存过去发生过什么对话历史、用户偏好、失败反思、技能库
规划Planning决定下一步怎么做ReAct、任务分解、Tree of Thoughts
行动Action对环境采取操作点击网页、调用工具、写代码、移动机器人
学习Learning根据反馈改进SFT、RLHF、DPO、Agent RL、持续数据回流

如果把普通语言模型看成一颗大脑,Agent 就是大脑加上眼睛、手、记忆本、任务清单和试错记录。这个比喻不完美,但能帮助初学者抓住差异:Agent 的关键不只是“会说”,而是“会做”。

2.2 Agent 的学习分三层#

很多论文喜欢说“self-improvement”,但这个词容易让人误以为模型会自动无限变聪明。建议把 Agent 的学习拆成三层:

层级是否更新模型权重常见方法优点限制
上下文层学习prompt、few-shot、RAG、工具调用快,成本低,容易上线不是真正固化能力,换环境容易失效
记忆或技能库更新通常否Reflexion、Voyager、长期记忆、代码技能库能积累经验,可解释记忆污染、检索错误、维护困难
参数级学习SFT、RLHF、DPO、Agent RL、VLA post-training能把能力写入模型成本高,需要可靠评测和安全约束

第 8 章主要讨论后两层:Agent 如何从交互和基础模型生成数据中获得新训练材料。

第 9 章则回答一个更硬的问题:Agent 更新之后,怎么证明它真的更强?


3. 第 8 章详解:Agent 的持续自我改进#

第 8 章标题是 Continuous and Self-improvement for Agent AI。它的核心判断是:Agent 可以从多种数据源学习,这让训练数据不再只依赖一次性人工标注。

论文强调两类来源:

  1. Human-based Interaction Data:人类交互数据。
  2. Foundation Model Generated Data:基础模型生成数据。

这两类数据共同构成 Agent 的成长燃料。


3.1 人类交互数据:最接近真实任务分布的燃料#

人类交互数据指的是用户和 Agent 在真实或模拟环境中的互动过程。它可能来自聊天,也可能来自网页操作、机器人演示、游戏协作、代码修复、客服流程或医疗辅助场景。

一条 Agent 轨迹通常长这样:

用户目标
-> Agent 观察环境
-> Agent 生成计划
-> Agent 调用工具或执行动作
-> 环境返回结果
-> Agent 修正计划
-> 最终成功或失败

这条轨迹比单个问答样本更有价值,因为它记录了“模型怎么走到答案”的路径。对于 Agent,路径常常比最终回答更重要。

3.1.1 成功轨迹可以变成训练样本#

最直接的做法是保存成功交互,把它们作为下一轮训练数据。比如:

  • Web Agent 成功完成某个网页任务。
  • Coding Agent 成功修复一个 issue 并通过测试。
  • 机器人成功完成抓取和放置。
  • 多 Agent 游戏中成功分工完成菜谱。

这些轨迹可以用于监督微调,也可以用于构造偏好样本。

但关键问题是筛选。交互日志天然嘈杂,不能直接全丢进训练锅里。常见过滤方法包括:

过滤方式例子优点风险
规则过滤测试是否通过、任务状态是否达成便宜,可自动化规则太弱会误判
模型过滤用 judge model 判断轨迹质量灵活judge 也会错
人工审核专家检查高风险样本可靠成本高

3.1.2 失败轨迹更像“诊断报告”#

成功样本告诉我们该怎么做,失败样本告诉我们哪里会坏。

对于 Agent,失败常见于这些环节:

失败类型具体表现
感知失败看错网页按钮、误读图像、漏掉关键 UI
计划失败任务分解错误、步骤顺序不合理
工具失败API 参数错、调用时机错、忘记检查返回值
规则失败完成任务但违反业务规则或安全边界
记忆失败引用过期信息、把错误反思带入新任务
恢复失败出错后不会回退、重试或请求澄清

这些失败轨迹可以被整理成“反例训练集”“red-team 集合”或“评测集”。从工程角度看,失败日志是 Agent 进化的矿脉。


3.2 人类偏好学习:不只问对错,还问哪个更好#

偏好学习的思路不是让人写唯一标准答案,而是让人比较多个输出或多条轨迹:

同一个任务 -> Agent 生成多个候选方案 -> 人类选择更好的 -> 用偏好数据训练模型

经典路线是 RLHF。InstructGPT 先用人工示范做监督微调,再用人类排序训练奖励模型,最后用强化学习优化模型行为。1

后来 DPO 简化了这个流程。DPO 不需要显式训练奖励模型,也不需要复杂的 RL 过程,而是直接用偏好对优化语言模型。2

对 Agent 来说,偏好学习可以比较的不只是文本回答,还包括:

  • 哪条工具调用轨迹更短。
  • 哪个网页操作方案更稳定。
  • 哪个多 Agent 协作策略更高效。
  • 哪个机器人动作更安全。
  • 哪个代码修复 patch 更小、更可维护。

换句话说,Agent 的偏好学习更像“任务过程质量评估”,而不只是“回答口吻评估”。


3.3 Red-teaming:主动制造危险样本#

第 8 章还提到 red-teaming。它的目标是让人或模型故意攻击 Agent,诱导系统暴露漏洞。

普通聊天模型出错,多数时候只是说错话。Agent 出错,可能会执行动作:

  • 错删文件。
  • 调错 API。
  • 泄露隐私。
  • 在客服场景中错误退款。
  • 在机器人场景中造成物理风险。

所以 Agent 的 red-teaming 必须覆盖两类问题:

  1. 内容安全:模型说了什么。
  2. 行动安全:模型做了什么。

Anthropic 的 red-teaming 研究系统化讨论了如何发现并减少语言模型有害输出。3 Constitutional AI 进一步探索用原则列表和 AI feedback 减少人工标签依赖。4

对 Agent 系统而言,未来更重要的问题是:

如何对“工具调用权限、动作边界、环境副作用、隐私访问”做 red-teaming?

这也是第 8 章之后被明显放大的研究方向。


3.4 基础模型生成数据:老师模型给学生模型造题#

第 8.2 节讨论 Foundation Model Generated Data。它的核心逻辑是:

flowchart LR A[强 LLM/VLM 教师模型] --> B[生成指令、答案、解释、图文问答、视频描述] B --> C[过滤与验证] C --> D[训练学生模型或专门 Agent] D --> E[更便宜、更专用、更可部署的 Agent]

这个方向在 2023 到 2024 年非常重要,今天仍然重要。

3.4.1 Self-Instruct 和 Alpaca#

Self-Instruct 让模型自己生成任务指令、输入和输出,再过滤无效或重复样本。5

Stanford Alpaca 使用类似思路,从少量种子任务出发生成 52K 指令数据,用来微调 LLaMA。6

它们证明了一件事:

只要有足够强的教师模型和足够好的过滤策略,合成指令数据可以显著降低训练成本。

不过,这条路线也有明显风险:学生模型可能只学到教师模型的表达风格,而没有学到深层能力。Gudibande 等人的研究曾指出,模仿专有 LLM 的输出并不能自动复制其事实性和推理能力。7

3.4.2 LLaVA 与多模态指令数据#

LLaVA 是多模态指令微调的代表。它使用 GPT-4 生成的视觉指令数据训练视觉语言助手,并开源了数据、模型和代码。8

第 8 章提到 LLaVA 约 150K 的 GPT 生成多模态 instruction-following 数据。今天看,这个规模已经是早期版本,但原则仍然有效:

用强模型把图像、视频、OCR、区域定位等视觉信息转成可训练的语言监督信号。

这也是后续大量 VLM、video-language model 和 multimodal agent 的基本配方。

3.4.3 视频重标注和困难负样本#

视频比图像更难,因为视频包含时间、动作、语音、字幕、背景音和长程依赖。

第 9 章提出 VideoAnalytica 时,使用了一个很有价值的思路:让模型生成“看起来很像但实际错误”的困难负样本。这样可以迫使模型真正理解视频,而不是靠标题或语音关键词猜答案。

今天的视频 benchmark 仍然在沿着这个方向前进。例如 Video-MME 覆盖 900 个视频、254 小时内容和 2700 个人工标注问答对,并强调短、中、长视频以及字幕、音频等多模态输入。9


4. 第 8 章现在是否过时?#

结论比较明确:

第 8 章的方向没有过时,但内容已经不够新。现在的 Agent 学习已经从“合成数据和人类反馈”扩展到“多轮交互轨迹、验证器、Agent RL、工具协议和具身模型”。

4.1 仍然正确的判断#

第 8 章观点今天是否仍成立原因
Agent 需要从人类交互中学习真实用户任务分布无法完全靠静态语料覆盖
基础模型生成数据很重要Self-Instruct、Alpaca、LLaVA、ToolBench 等都证明了可行性
Red-teaming 是安全训练关键Agent 能调用工具,风险比聊天模型更直接
多数 Agent 部署时不会在线更新权重大体仍成立生产系统更常见做法是日志回流、RAG、记忆和离线再训练

4.2 已经明显扩展的方向一:Agent RL#

早期 Agent 多依赖 prompt、few-shot、工具调用和合成数据。2025 之后,越来越多工作把 Agent 的多轮交互视为强化学习问题。

代表项目包括:

  • Agent Lightning:微软提出的框架,目标是把 Agent 执行和 RL 训练解耦,让已有 Agent 以较少改造接入 RL 训练。1011
  • AgentGym-RL:面向长程、多轮交互决策的 LLM Agent RL 框架。12
  • RAGEN:面向 reasoning agent 的 RL 框架,用于研究多轮 RL 中的自我演化和失败模式。13
  • Agent-R1:面向多步 Agent 任务的端到端 RL 训练框架。14

新的核心问题变成:

如何把 Agent 的长轨迹拆成可学习的训练信号?

这比普通 RLHF 难得多,因为 Agent 的一次成功或失败可能涉及几十步操作,奖励很稀疏,错误原因也可能埋在中间某一步。

4.3 已经明显扩展的方向二:反思、记忆和技能库#

不是所有自我改进都需要更新权重。

路线是否更新权重代表适合场景
语言反思Reflexion失败后写总结,下次检索使用
自我迭代Self-Refine生成、反馈、修改循环
技能库积累否或部分否Voyager在 Minecraft 中积累可执行代码技能
参数级训练Agent Lightning、AgentGym-RL把经验固化进模型

Reflexion 通过语言反思和 episodic memory 改进下一次决策。15

Voyager 在 Minecraft 中使用自动课程、技能库和环境反馈持续积累能力。16

这些方法提示我们:工程上可以先做“记忆级自改进”,再考虑“参数级自改进”。前者便宜,后者更重。

4.4 已经明显扩展的方向三:具身 Agent 与 VLA#

第 8 章引用 RoboCat,说明机器人 Agent 可以通过自生成数据形成改进循环。17

现在这个方向已经扩展为 Vision-Language-Action, VLA 路线:

项目重点
RoboCat自改进机器人操作 Agent
Open X-Embodiment / RT-X跨机器人、跨任务的大规模轨迹数据与模型
DROID大规模真实环境机器人操作数据集
π0 / π0.5通用机器人控制的 VLA 模型
NVIDIA GR00T N1面向 humanoid robots 的开放基础模型

Open X-Embodiment 汇集多种机器人 embodiment 和真实轨迹,用于训练跨机器人策略。18 DROID 则提供大规模 in-the-wild 机器人操作数据。19

这说明机器人 Agent 的学习重点已经从“单个机器人自改进”走向“跨 embodiment、跨数据源、跨任务泛化”。

4.5 已经明显扩展的方向四:工具协议和 Agent 工程框架#

第 8 章关注数据,但今天要落地 Agent,还必须关注工具接入和轨迹记录。

值得关注的工程框架和协议包括:

框架或协议作用
MCP标准化连接 Agent 与外部工具、数据源
OpenAI Agents SDK提供 Agent、工具、协作、状态等工程抽象
LangGraph构建有状态、长期运行的 Agent 工作流
AutoGen多 Agent 对话和协作框架
CrewAI角色化多 Agent 编排

Anthropic 将 MCP 定义为连接 AI 应用与外部系统的开放标准。20

OpenAI Agents SDK 则把 Agent 看作能够计划、调用工具、协作和完成多步工作的应用构件。21

这些框架不一定直接训练模型,但它们决定了 Agent 的交互轨迹、工具调用、状态变化和失败日志能否被稳定记录。没有这些工程层,数据飞轮很难转起来。


5. 第 9 章详解:数据集和排行榜如何评测 Agent#

第 9 章标题是 Agent Dataset and Leaderboard。它的动机很清楚:

如果没有 benchmark,就无法判断 Agent 的自我改进是否有效。

论文提出两个 benchmark 方向:

  1. CuisineWorld:多 Agent 游戏协作。
  2. VideoAnalytica:音频、视频、语言结合的分析型视频理解。

这两个 benchmark 分别对应 Agent AI 的两类关键能力。

Benchmark评估能力为什么重要
CuisineWorld多 Agent 协作、任务规划、分工、协作效率真实任务常常需要多个角色协同,而不是单模型独白
VideoAnalytica长视频理解、多模态融合、领域知识、分析推理Agent 需要从视频、语音、文本中理解复杂过程

5.1 CuisineWorld:用厨房游戏测多 Agent 协作#

CuisineWorld 是一个文本版、类似 Overcooked 的多智能体协作环境。多个 Agent 需要在厨房任务中配合完成目标。

论文中提到它支持:

  • 可扩展任务定义文件。
  • 多 Agent 交互接口。
  • 人机交互接口。
  • 自动评估系统。
  • centralized dispatcher 和 decentralized 两种协作模式。
  • 使用 Collaboration Score, CoS 衡量协作效率。

可以把 CuisineWorld 理解成一个简化但可控的多 Agent 试验厨房。锅、菜、食材、动作和配合关系都被文本化,适合研究 LLM Agent 的规划与协作。

MindAgent 项目页和 GitHub 仓库已经公开。GitHub README 将其描述为一个 minimal text-based Overcooked! 2 game,支持 LLM 实验、RL 实验、web app 收集 few-shot 示例,以及添加新 recipe 和 level。2223

这说明 CuisineWorld 不只是论文里的概念,而是有实际工程入口。

5.2 VideoAnalytica:用长视频测分析型理解#

VideoAnalytica 面向 analytical video demonstration comprehension。也就是说,它不是只问“视频里有什么”,而是问:

  • 视频演示了什么过程?
  • 哪些步骤是关键?
  • 音频、字幕、动作之间如何互相解释?
  • 模型能否区分正确描述和困难负样本?
  • 模型能否根据视频回答需要推理的问题?

第 9.2 节设计了两个任务:

  1. Video Text Retrieval:从视频中检索正确文本描述,要求模型区分相关和无关信息。
  2. Video Assisted Informative Question Answering:根据视频信息回答复杂问题,强调分析推理。

论文还提出使用 LLM 生成 hard negatives,再由人工验证负样本是否有效。这一点很重要,因为视频模型很容易靠标题、字幕或关键词“蒙对”。困难负样本能逼迫模型真正看懂过程。

需要注意:本次整理没有发现一个明确公开、活跃、独立的 VideoAnalytica 官方仓库或排行榜。因此更适合把它看作一个方向性提案。今天可用的外部补充是 Video-MME、LVBench、LongVideoBench、EgoSchema、AudioBench、ACVUBench 等视频 benchmark。


6. 第 9 章现在是否过时?#

结论:

第 9 章提出的两个方向仍有启发,但 benchmark 版图已经明显更新。今天的 Agent 评测更强调真实环境、执行结果、状态验证、多次稳定性和安全约束。

6.1 过时点一:排行榜计划不够具体#

第 9 章中的 leaderboard 还处于计划状态,部分位置写有 TBA。现在的 Agent benchmark 已经更强调:

  • 可复现环境。
  • 自动评分脚本。
  • 状态级验证,而不是文本相似度。
  • 多次运行稳定性。
  • 轨迹日志。
  • 成本、时延和安全边界。

τ-bench 就是一个代表。它不只看一次任务成功,还提出 pass^k 来衡量多次运行可靠性。24

6.2 过时点二:评测不再只看“会不会回答”#

现代 Agent benchmark 更像软件测试、游戏关卡、API 沙箱或机器人环境。

评测范式输入输出评分方式
传统问答文本或图片问题文本答案accuracy、exact match
多模态问答图像或视频加问题文本答案accuracy、人评
Agent benchmark目标加环境一串动作或工具调用环境状态是否达成目标
可靠性 benchmark用户模拟器、规则、工具多轮交互和动作轨迹pass^k、状态正确性、规则合规

这就是第 9 章之后最大的变化:

Agent 的答案不是它说了什么,而是世界状态是否被正确改变。

6.3 过时点三:VideoAnalytica 的方向被更多公开 benchmark 拆解#

VideoAnalytica 想测长视频、多模态和分析推理。现在这些能力被多个公开 benchmark 分别推进:

Benchmark关注点
Video-MME全谱视频、多时长、音频字幕
LVBench极长视频理解
LongVideoBench长上下文视频语言交错理解
EgoSchema第一视角长视频问答
AudioBenchAudio LLM 通用评测
ACVUBench音频中心的视频理解

这些 benchmark 更适合作为今天补充 VideoAnalytica 的外部材料。


7. 现在的 Agent 学习和评测版图#

下面这张表可以作为博客中的“总览图”。

方向代表项目或论文主要解决什么问题适合怎么用
通用 Agent 评测AgentBench在多类环境中评估 LLM-as-Agent入门了解 Agent benchmark
通用助手评测GAIA推理、多模态、web、tool use测综合助理能力
Web AgentWebArena, VisualWebArena在真实网站中执行任务学网页自动化 Agent
企业 Web AgentWorkArena企业知识工作流程学企业流程自动化
桌面 AgentOSWorld真实操作系统中的开放任务学 GUI/电脑控制 Agent
移动 AgentAndroidWorld, AndroidLabAndroid app 控制学手机端 Agent
工具与用户交互τ-bench用户模拟器、工具调用、规则遵循学客服/订单/合规 Agent
App/API AgentAppWorld多 app、多 API、状态验证学复杂 API 组合
编程 AgentSWE-bench, SWE-agent, OpenHands修复真实 GitHub issue学代码 Agent
游戏协作 AgentMindAgent/CuisineWorld, Voyager多 Agent 协作或开放世界探索学规划和技能库
视频多模态Video-MME, LVBench, LongVideoBench, EgoSchema长视频理解与多模态推理学视频 Agent 评测
机器人 AgentRoboCat, Open X-Embodiment, DROID, π0, GR00T机器人操作和 VLA学 embodied Agent
Agent RLAgent Lightning, AgentGym-RL, RAGEN, Agent-R1多轮交互强化学习研究型进阶方向
工具协议MCP, OpenAI Agents SDK, LangGraph工具接入和状态管理工程落地必备

8. 重点 benchmark 解读#

8.1 AgentBench:把 LLM 放进环境里考试#

AgentBench 是较早系统评估 LLM-as-Agent 的 benchmark。它的重要性在于:不再只问模型知识题,而是让模型在环境中做决策。25

适合初学者理解的点是:Agent 的能力体现在多步交互中,而不是一次性文本输出中。

8.2 GAIA:综合 AI 助手任务#

GAIA 的任务对人类不算难,但对 AI 很难,因为它要求多步推理、工具使用、网页浏览和多模态处理。26

它说明一个事实:会做标准考试题,不等于会完成现实任务。

8.3 WebArena 和 VisualWebArena:真实网页任务#

WebArena 构建了自托管真实网站环境,用来测试 Agent 是否能把高层自然语言指令转化为网页操作。27

VisualWebArena 则强调视觉网页任务,要求 Agent 理解页面图像、布局和文字。28

它们代表了执行型评测的一个关键方向:让 Agent 真正操作环境。

8.4 OSWorld:真实电脑环境#

OSWorld 支持在真实操作系统和应用中评估多模态 Agent。它覆盖 Ubuntu、Windows、macOS 等环境,提供任务设置、执行型评测和交互式学习能力。29

这比网页 Agent 更进一步:Agent 要面对完整电脑,而不是单个网页沙箱。

8.5 τ-bench:测试 Agent 是否稳定可靠#

τ-bench 关注真实交互中的工具、用户和规则。它评估 Agent 在多轮用户交互中是否能正确调用工具、遵守规则并完成任务。24

它提出 pass^k,这一点非常值得在汇报中强调:

一个 Agent 偶尔成功一次不够,真正可部署的 Agent 要多次运行都稳定成功。

8.6 AppWorld:API 世界里的执行评测#

AppWorld 构建了 9 个日常 app、457 个 API 和 750 个复杂任务。它不是看模型输出文字是否像答案,而是检查 app 数据库状态是否正确。30

这非常符合 Agent 学习需要,因为状态验证可以变成自动奖励信号。

8.7 SWE-bench:代码 Agent 的关键评测#

SWE-bench 用真实 GitHub issue 测试模型是否能修改代码并通过测试。31

SWE-bench Verified 是 OpenAI 参与发布的人类验证子集,包含 500 个任务。32

但热门 benchmark 会逐渐被过度优化。OpenAI 在 2026 年指出,SWE-bench Verified 已无法很好衡量前沿编码 Agent,原因包括测试设计问题和污染,并建议使用 SWE-bench Pro。33

这对第 9 章有一个重要启发:

Leaderboard 不是永久真理。好的评测也会过时。

8.8 Video-MME、LVBench、LongVideoBench、EgoSchema#

这些 benchmark 可以作为 VideoAnalytica 的现实替代或补充。

Benchmark适合评估什么
Video-MME短中长视频、字幕、音频、多模态问答
LVBench极长视频理解和长程记忆
LongVideoBench长上下文视频语言交错输入
EgoSchema第一视角长视频日常活动理解

它们共同推动的问题是:模型能否跨越几十秒、几分钟甚至几小时的视频上下文进行推理。


9. 值得关注的 Agent 学习项目#

9.1 入门项目:先学会构建 Agent#

项目类型适合学习什么链接
LangGraph工作流框架有状态、多步 Agenthttps://github.com/langchain-ai/langgraph
OpenAI Agents SDKAgent SDKAgent、工具、协作、状态抽象https://developers.openai.com/api/docs/guides/agents
AutoGen多 Agent 框架多 Agent 对话与工具协作https://github.com/microsoft/autogen
CrewAI多 Agent 编排角色化 Agent 工作流https://github.com/crewAIInc/crewAI
MCP工具协议标准化连接外部工具和数据源https://modelcontextprotocol.io/docs/getting-started/intro

9.2 反馈学习项目:看 Agent 如何从经验中变强#

项目或论文学习机制适合看什么
ReAct推理与行动交替Agent 最经典基础范式
Reflexion语言反思记忆不改权重也能改进行为
Self-Refine自我反馈迭代生成、反馈、修改循环
Voyager技能库积累Minecraft 中的开放式终身学习
ToolBench / ToolLLM工具调用数据如何构造 API 使用数据

9.3 进阶项目:Agent RL#

项目主要价值
AgentGym多环境、多任务、统一轨迹格式
AgentGym-RL多轮长程交互的强化学习训练
Agent Lightning解耦 Agent 执行和 RL 训练
RAGEN分析 reasoning agent 的多轮 RL 失败模式
Agent-R1多步工具任务的端到端 RL 训练

9.4 领域型项目:把 Agent 放进真实任务#

领域项目学什么
多 Agent 游戏MindAgent/CuisineWorld协作、分工、任务调度
开放世界游戏Voyager自动课程、技能库、环境反馈
编程SWE-agent, OpenHandsissue 修复、测试驱动、shell 操作
WebWebArena, VisualWebArena网页浏览、表单填写、页面理解
OSOSWorld电脑 GUI grounding 和跨应用工作流
MobileAndroidWorld手机 app 控制
RoboticsOpen X-Embodiment, DROID, π0, GR00T机器人数据、VLA、跨 embodiment 泛化

10. 推荐文献阅读路线#

10.1 第一组:Agent 基础范式#

  1. ReAct: Synergizing Reasoning and Acting in Language Models
    关键词:reasoning trace、action、tool use、environment feedback。34

  2. Toolformer: Language Models Can Teach Themselves to Use Tools
    关键词:工具调用、自监督 API 使用。35

  3. Tree of Thoughts
    关键词:搜索、分支推理、self-evaluation。36

  4. The Rise and Potential of Large Language Model Based Agents: A Survey
    关键词:LLM Agent 全景、感知、规划、行动。37

  5. A Survey on Large Language Model based Autonomous Agents
    关键词:autonomous agents、规划、记忆、工具。38

10.2 第二组:自我改进和反馈学习#

  1. Training language models to follow instructions with human feedback
    关键词:RLHF、SFT、奖励模型。1

  2. Direct Preference Optimization
    关键词:DPO、偏好学习。2

  3. Self-Instruct
    关键词:自生成指令数据。5

  4. Reflexion
    关键词:语言反思、episodic memory。15

  5. Self-Refine
    关键词:自我反馈、自我修改。39

  6. Constitutional AI
    关键词:AI feedback、安全原则。4

10.3 第三组:数据和工具学习#

  1. Alpaca
    关键词:低成本指令微调、teacher-generated data。6

  2. LLaVA / Visual Instruction Tuning
    关键词:多模态指令数据、GPT-4 生成图文问答。8

  3. ToolLLM / ToolBench
    关键词:工具调用数据、API use、ToolEval。40

  4. StableToolBench
    关键词:稳定工具评测、虚拟 API server。41

10.4 第四组:Benchmark 和执行型评测#

  1. AgentBench:通用 LLM-as-Agent benchmark。25
  2. GAIA:综合助手任务,强调工具、多模态和 web。26
  3. WebArena:真实网站环境。27
  4. OSWorld:真实电脑环境。29
  5. τ-bench:用户、工具和规则的可靠性交互。24
  6. AppWorld:复杂 app/API 任务和状态验证。30
  7. SWE-bench:真实 GitHub issue 修复。31
  8. Video-MME / LVBench / LongVideoBench / EgoSchema:长视频和视频多模态理解。9424344

10.5 第五组:机器人和 embodied Agent#

  1. RoboCat:自改进机器人基础 Agent。17
  2. Open X-Embodiment / RT-X:跨机器人数据与模型。18
  3. DROID:大规模真实环境机器人操作数据。19
  4. π0 / π0.5:VLA generalist robot policy。4546
  5. GR00T N1:humanoid robot foundation model。47

11. 新手最容易误解的地方#

11.1 “自我改进”不等于模型自己无限变聪明#

很多系统所谓 self-improvement,只是在下一轮 prompt 里加入失败反思或记忆。它不是在线更新模型权重。

这类方法很有用,但要讲清楚边界:

  • Reflexion 更像记笔记。
  • Voyager 更像积累技能脚本。
  • Agent RL 才更接近把经验写进模型参数。

11.2 合成数据不是越多越好#

基础模型生成数据可能带来四个问题:

  1. 错误被放大。
  2. 学到风格而非能力。
  3. 数据分布变窄,模型输出同质化。
  4. benchmark 泄漏或过拟合。

所以今天更强调:

  • 可验证奖励。
  • 人工抽检。
  • 困难负样本。
  • 真实环境轨迹。
  • 多次稳定性评测。

11.3 单一 leaderboard 不能代表真实能力#

SWE-bench Verified 的例子说明,一个 benchmark 一旦成为热门指标,就可能被过度优化、污染或饱和。33

评估 Agent 要看多维度:

  • 成功率。
  • 平均步数。
  • 成本和时延。
  • 多次运行稳定性。
  • 失败恢复能力。
  • 是否遵守规则。
  • 是否造成环境副作用。

11.4 Agent 训练更像系统工程#

Agent 的成功不只取决于模型本身,还取决于:

  • 工具定义是否清楚。
  • 环境状态是否可观测。
  • 动作空间是否合理。
  • 评测器是否可靠。
  • 日志是否完整。
  • 权限和安全边界是否明确。

一个糟糕的工具接口,会让强模型变成瞎忙的机械鸽。


12. 术语表#

术语简明解释
Agent能观察环境、规划并采取行动完成任务的系统。
TrajectoryAgent 执行任务的完整过程,包括观察、思考、动作、反馈。
SFTSupervised Fine-tuning,用标注样本做监督微调。
RLHFReinforcement Learning from Human Feedback,用人类偏好训练奖励模型并优化策略。
DPODirect Preference Optimization,直接用偏好数据优化模型。
RLAIFReinforcement Learning from AI Feedback,用 AI 反馈替代部分人类反馈。
Red-teaming主动攻击模型或系统,发现安全漏洞和失败模式。
ReAct让模型交替生成 reasoning 和 action 的 Agent 范式。
Tool useAgent 调用外部 API、搜索、数据库、代码执行器等工具。
VLAVision-Language-Action,视觉、语言和动作统一建模,常用于机器人。
EmbodimentAgent 的身体或执行载体,例如机器人手臂、网页浏览器、手机。
Benchmark用于比较不同 Agent 能力的数据集或环境。
Execution-based evaluation基于任务是否真正完成来评分,而不是只看文本相似度。
Pass^k多次运行中的稳定成功指标,τ-bench 强调此类可靠性。
MCPModel Context Protocol,连接 Agent 与外部工具、数据源的协议。

13. 最后一页总结#

第 8 章和第 9 章合起来看,是 Agent AI 研究中非常关键的一组问题:

flowchart TB A[交互] --> B[轨迹数据] B --> C[筛选与标注] C --> D[训练或记忆更新] D --> E[新版 Agent] E --> F[Benchmark] F --> G[失败分析] G --> B

更简洁地说:

  • 第 8 章问:Agent 如何继续变强?
  • 第 9 章问:我们怎么知道它真的变强?
  • 今天的答案是:让 Agent 在可验证环境中产生可评分轨迹,并用这些轨迹不断改进系统。

如果第一次看 Agent AI,只要记住这一点就够了:

Agent 的未来不是一个更会聊天的模型,而是一套会行动、会被测试、会从失败中改进的系统。


参考文献与项目链接#

原论文#

第 8 章相关:人类反馈、偏好学习、自我改进、合成数据#

Agent 基础范式#

第 9 章相关:CuisineWorld、VideoAnalytica、Agent benchmark#

视频和多模态 benchmark#

Agent RL 与训练框架#

机器人与 VLA#

工程框架和协议#

Footnotes#

  1. Ouyang et al. Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 2

  2. Rafailov et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290 2

  3. Ganguli et al. Red Teaming Language Models to Reduce Harms. arXiv:2209.07858. https://arxiv.org/abs/2209.07858

  4. Bai et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 2

  5. Wang et al. Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560 2

  6. Stanford CRFM. Alpaca: A Strong, Replicable Instruction-Following Model. https://crfm.stanford.edu/2023/03/13/alpaca.html GitHub: https://github.com/tatsu-lab/stanford_alpaca 2

  7. Gudibande et al. The False Promise of Imitating Proprietary LLMs. arXiv:2305.15717. https://arxiv.org/abs/2305.15717

  8. Liu et al. Visual Instruction Tuning / LLaVA. arXiv:2304.08485. https://arxiv.org/abs/2304.08485 Project: https://llava-vl.github.io/ GitHub: https://github.com/haotian-liu/LLaVA 2

  9. Fu et al. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv:2405.21075. https://arxiv.org/abs/2405.21075 Project: https://video-mme.github.io/home_page.html GitHub: https://github.com/MME-Benchmarks/Video-MME 2

  10. Microsoft. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. Project: https://microsoft.github.io/agent-lightning/latest/ arXiv: https://arxiv.org/abs/2508.03680 GitHub: https://github.com/microsoft/agent-lightning

  11. Microsoft Research Blog. Agent Lightning: Adding reinforcement learning to AI agents without code rewrites. https://www.microsoft.com/en-us/research/blog/agent-lightning-adding-reinforcement-learning-to-ai-agents-without-code-rewrites/

  12. AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning. GitHub: https://github.com/WooooDyy/AgentGym-RL

  13. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv:2504.20073. https://arxiv.org/abs/2504.20073 GitHub: https://github.com/mll-lab-nu/RAGEN

  14. Agent-R1 GitHub. https://github.com/AgentR1/Agent-R1

  15. Shinn et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366. https://arxiv.org/abs/2303.11366 GitHub: https://github.com/noahshinn/reflexion 2

  16. Wang et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291. https://arxiv.org/abs/2305.16291 Project: https://voyager.minedojo.org/ GitHub: https://github.com/MineDojo/Voyager

  17. Bousmalis et al. RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation. arXiv:2306.11706. https://arxiv.org/abs/2306.11706 DeepMind blog: https://deepmind.google/blog/robocat-a-self-improving-robotic-agent/ 2

  18. O’Neill et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv:2310.08864. https://arxiv.org/abs/2310.08864 Project: https://robotics-transformer-x.github.io/ GitHub: https://github.com/google-deepmind/open_x_embodiment 2

  19. Khazatsky et al. DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset. arXiv:2403.12945. https://arxiv.org/abs/2403.12945 2

  20. Anthropic. Introducing the Model Context Protocol. https://www.anthropic.com/news/model-context-protocol Docs: https://modelcontextprotocol.io/docs/getting-started/intro

  21. OpenAI. Agents SDK. https://developers.openai.com/api/docs/guides/agents Blog: https://openai.com/index/new-tools-for-building-agents/

  22. MindAgent project page. https://mindagent.github.io/

  23. MindAgent GitHub. https://github.com/mindagent/mindagent

  24. Yao et al. τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv:2406.12045. https://arxiv.org/abs/2406.12045 GitHub: https://github.com/sierra-research/tau2-bench 2 3

  25. Liu et al. AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688. https://arxiv.org/abs/2308.03688 GitHub: https://github.com/THUDM/AgentBench 2

  26. Mialon et al. GAIA: a benchmark for General AI Assistants. arXiv:2311.12983. https://arxiv.org/abs/2311.12983 Leaderboard: https://huggingface.co/spaces/gaia-benchmark/leaderboard 2

  27. Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. arXiv:2307.13854. https://arxiv.org/abs/2307.13854 GitHub: https://github.com/web-arena-x/webarena 2

  28. Koh et al. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks. Project: https://jykoh.com/vwa GitHub: https://github.com/web-arena-x/visualwebarena

  29. Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. arXiv:2404.07972. https://arxiv.org/abs/2404.07972 Project: https://os-world.github.io/ GitHub: https://github.com/xlang-ai/OSWorld 2

  30. Trivedi et al. AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents. arXiv:2407.18901. https://arxiv.org/abs/2407.18901 GitHub: https://github.com/StonyBrookNLP/appworld 2

  31. Jimenez et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv:2310.06770. https://arxiv.org/abs/2310.06770 GitHub: https://github.com/swe-bench/SWE-bench Leaderboard: https://www.swebench.com/ 2

  32. OpenAI. Introducing SWE-bench Verified. https://openai.com/index/introducing-swe-bench-verified/

  33. OpenAI. Why SWE-bench Verified no longer measures frontier coding capabilities. https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ 2

  34. Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629. https://arxiv.org/abs/2210.03629 GitHub: https://github.com/ysymyth/ReAct

  35. Schick et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761. https://arxiv.org/abs/2302.04761

  36. Yao et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601. https://arxiv.org/abs/2305.10601 GitHub: https://github.com/princeton-nlp/tree-of-thought-llm

  37. Xi et al. The Rise and Potential of Large Language Model Based Agents: A Survey. arXiv:2309.07864. https://arxiv.org/abs/2309.07864 Repo: https://github.com/WooooDyy/LLM-Agent-Paper-List

  38. Wang et al. A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432. https://arxiv.org/abs/2308.11432

  39. Madaan et al. Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651. https://arxiv.org/abs/2303.17651

  40. Qin et al. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789. https://arxiv.org/abs/2307.16789 GitHub: https://github.com/OpenBMB/ToolBench

  41. Guo et al. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of LLMs. arXiv:2403.07714. https://arxiv.org/abs/2403.07714

  42. Wang et al. LVBench: An Extreme Long Video Understanding Benchmark. arXiv:2406.08035. https://arxiv.org/abs/2406.08035 Project: https://lvbench.github.io/ GitHub: https://github.com/zai-org/LVBench

  43. Wu et al. LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding. arXiv:2407.15754. https://arxiv.org/abs/2407.15754 Project: https://longvideobench.github.io/

  44. Mangalam et al. EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding. NeurIPS 2023. https://egoschema.github.io/ GitHub: https://github.com/egoschema/EgoSchema

  45. Physical Intelligence. π0: A Vision-Language-Action Flow Model for General Robot Control. Blog: https://www.pi.website/blog/pi0 arXiv: https://arxiv.org/abs/2410.24164

  46. Physical Intelligence. π0.5: a Vision-Language-Action Model with Open-World Generalization. Blog: https://www.pi.website/blog/pi05 arXiv: https://arxiv.org/abs/2504.16054

  47. NVIDIA. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv:2503.14734. https://arxiv.org/abs/2503.14734 NVIDIA page: https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

李飞飞 AgentAI 第8章第9章精读
https://blog.idotcar.top/posts/agent-ai-lifeifei/
作者
老鼠溺水
发布于
2026-05-27
许可协议
CC BY-NC-SA 4.0
相关文章 智能推荐
1
从 Obsidian 到 Astro,我的懒人同步方案
技术记录 自从把博客从 NotionNext 迁移到 Astro 之后,需要考虑的就是同步方案了。之前基于 NotionNext 同步方案基本上是先同步到 Notion,再发布,该方案需要解决图床的问题,现在使用 Astro,基本不要考虑图床,只要 Markdown 格式维持对图片路径的相对引用即可。我使用的方案为插件配合使用 Github Action同步。
2
Komari 探针服务部署安装
技术记录 这份博客记录了我在 **2026年3月15日** 在 **Ubuntu 24.04 (x86_64)** 环境下,搭建 [Komari Monitor](https://blog.dejavu.moe/posts/install-komari-monitor/) 的完整实操记录。包含了踩过的 Nginx 版本坑、Tailscale 冲突解决以及后续更新教程。
3
IP 中转学习:从 DNAT、SNAT 到 nftables 单跳转发
技术记录 记录我理解 IP 中转、nftables DNAT、SNAT、masquerade 和单跳端口转发的过程。文中所有 IP 和端口均为脱敏示例。
4
PO0 到 RFC 再到多落地:一次 nftables 转发链路学习记录
技术记录 记录一次从单跳 IP 中转演进到 PO0、RFC、多台落地机两级 nftables 转发的学习过程,重点整理 DNAT、SNAT、masquerade、UDP 放行、持久化和 SS2022 时间戳排障。文中 IP、端口和机器名均已脱敏。
5
VPS 安全加固教程
技术记录 整理 VPS 的 SSH 登录加固、iptables/ip6tables 防火墙、INPUT/OUTPUT 策略、服务端口白名单、DNS/邮件/扫描端口阻断和持久化维护流程。文中地址与端口均为脱敏示例。
随机文章 随机推荐

评论区

Profile Image of the Author
老鼠溺水
事实上,我们每个人都不过是在给自己写信。
分类
标签
站点统计
文章
7
分类
2
标签
9
总字数
29,837
运行时长
0
最后活动
0 天前

目录