Agent 系统正在从”单次调用”走向”持续循环”。不是跑一遍就完,而是不断自我迭代、自我修正、自我进化。这个模式有个名字——Loop Engineering。
但循环不是免费转的。每一轮迭代都有成本,Agent 为什么会继续转下去?是什么力量在推着它往下一轮走?迭代的方向又是由什么决定的?
这些问题比”怎么实现循环”更根本。因为理解了动力来源,才知道怎么设计循环,以及循环会不会跑偏。
Loop Engineering 是什么
先对齐一下概念。Loop Engineering 指的是:把 Agent 的执行过程设计成一个闭合循环,输出的结果反馈到输入,驱动下一轮改进。
跟传统的 open-loop(调一次 prompt 看一次结果)不同,loop engineering 的核心假设是:单次执行几乎不可能完美,但通过反馈-修正的循环,系统可以逐步逼近目标。
这个模式在不同领域有不同的名字:
- 代码领域叫 iterative refinement(SWE-Search)
- 科学发现叫 hypothesis-tree refinement(Jin et al., 2026)
- 推荐系统叫 self-iteration(AgentX, 2026)
- 机器人叫 policy self-improvement(ENPIRE, 2026)
名字不同,底层都是同一件事:闭环、迭代、进化。
动力的三个层次
把驱动循环的力量拆开来看,有三个层次:外因、内因、结构因。
外因:环境反馈
最直接的动力来源——环境告诉 Agent “你做得不对”。
误差信号是最基础的。Agent 执行一个动作,环境返回一个结果,结果和目标之间的差距就是误差。误差越大,循环的驱动力越强。
EurekAgent(Xin et al., 2026)的工作把环境反馈拆成了几个工程维度:执行反馈(代码能不能跑)、评估反馈(结果好不好)、预算反馈(还剩多少资源)。每一维反馈都在推动 Agent 进入下一轮循环。
Frontier-Eng(Chi et al., 2026)更进一步,用 generative optimization 替代 binary pass/fail。不是简单地告诉 Agent “对”或”错”,而是生成一个连续的优化方向——“你在哪个维度可以改进,改进多少”。这种反馈比二元信号更能驱动有方向的迭代。
关键洞察: 外因驱动是”被推着走”——没有误差就没有动力。这意味着,当 Agent 表现已经足够好时,外因驱动的循环会自然减速。这是好事(节能),也是坏事(停滞)。
内因:好奇心与不确定感
这是更隐蔽但更根本的动力。
Agent 在执行任务时,内部有一个隐式的”不确定度”。如果 Agent 对自己的决策很有信心,循环就不会启动;如果不确定,就会触发探索行为。
WorldEvolver(Zhang et al., 2026)的 Selective Foresight 模块就是这种思路的工程实现:世界模型对某个预测的置信度低,就把这个预测标记为”需要进一步验证”,驱动 Agent 去做实验确认。
好奇心驱动(curiosity-driven)是另一个内因。Agent 不是因为做错了才去探索,而是因为”还不知道”——认知地图上有空白,想要填补。CODE-SHARP(Bornemann et al., 2026)的 open-ended skill discovery 就是这种模式:Agent 不停地发现新技能,不是因为旧技能不够用,而是因为环境里还有没尝试过的可能性。
关键洞察: 内因驱动是”被拉着走”——Agent 内部的不确定感和好奇心在主动寻求下一轮迭代。这种动力不依赖外部反馈,即使当前表现已经足够好,依然可以驱动循环继续。这是持续进化的核心引擎。
结构因:循环本身的势能
这是最容易被忽略的一层。
循环一旦建立,就有了自己的惯性。每一轮迭代产出的中间产物(经验、记忆、修正后的 prompt、新发现的技能)都会降低下一轮迭代的启动成本,同时提高下一轮的预期收益。
EvolveR(Wu et al., 2025)的 experience-driven lifecycle 就是典型的结构因驱动:Agent 积累的经验越多,下一轮学习越高效,形成正向飞轮。
SkillForge(Liu et al., 2026)在云技术支持场景中展示了另一种结构因:技能执行失败后,失败信息被自动追踪回技能定义的缺陷,驱动技能重构。整个回路是:执行 → 失败 → 诊断 → 修复 → 再执行。失败本身就变成了下一轮循环的燃料。
关键洞察: 结构因驱动是”惯性地滚着走”——循环本身产生了维持循环的势能。这是三个层次中最”自动”的,也是设计者最应该重点构建的。
迭代方向的内在逻辑
循环不仅要有动力,还要有方向。没有方向的循环是空转。
梯度下降类比
可以把 Agent 的迭代过程类比成梯度下降:外因反馈提供梯度方向,内因驱动步长,结构因保证收敛。
但 Agent 的”损失函数”比深度学习复杂得多——它不是单一的、可微的标量,而是一个多目标、非凸的、甚至动态变化的优化问题。
AgentX(Lao et al., 2026)在工业推荐系统中的做法提供了一个工程解法:把迭代方向分解成可量化的子目标(点击率、停留时长、转化率),每一轮循环只优化其中一个子目标,同时确保其他子目标不退化。
假设树剪枝
Jin et al. 的 Hypothesis-Tree Refinement 提供了另一个方向控制思路:不是沿着单一方向迭代,而是维护一棵假设树,每一轮循环在树上选择最有前途的分支展开,同时剪掉被证伪的分支。
方向不是预设的,而是通过实验-证伪动态发现的。这比单纯的梯度方向更灵活,也更符合科学发现的实际过程。
经验的沉淀与抽象
DarwinTOD(Zhang et al., 2026)在对话系统中展示了一种更高级的方向控制:Agent 不只是修正当前行为,还会把修正的经验抽象成可复用的策略。方向从”修掉这个 bug”变成了”建立这类问题的通用解法”。
这是一种质变——迭代方向从具体到抽象,从修修补补到架构升级。
循环的方向发展:四种形态
循环不是永远以同样方式转的。随着系统成熟,循环的形态会演变。
形态一:纠错循环
最基础的形态。做错了→发现错误→修正→再做。方向明确,动力来自外因。
大多数 coding agent 的 iterative refinement 处于这个阶段。SWE-Search 用 MCTS 搜索修正路径,本质上是高效的纠错循环。
形态二:优化循环
从”做对”升级到”做好”。Agent 已经能完成任务,但还在追求更高的效率、更好的质量。
Frontier-Eng 的 generative optimization 就是优化循环——不是找 bug,而是找提升空间。动力从外因(错误信号)转向结构因(优化潜力)。
形态三:探索循环
从已知领域走向未知领域。Agent 不再只是改进已有能力,而是发现新能力。
CODE-SHARP 的 open-ended skill discovery、ENPIRE 的真实世界机器人自我改进,都处于这个形态。动力主要来自内因(好奇心)。
形态四:进化循环
最高阶的形态:Agent 不仅在改进自己的行为,还在改进自己改进的方式。元学习、学会学习。
EvoSynth(Chen et al., 2025)从优化 prompt 进化到优化生成 prompt 的代码,就是一种进化循环的雏形——改进的对象从”做什么”变成了”如何决定做什么”。
动力衰减与循环断裂
循环不是永动的。几个常见的断裂模式:
满意停顿: Agent 认为自己做得够好了,循环提前终止。这可能是因为评估标准太松,也可能是因为缺乏内因驱动。
方向漂移: 外因反馈噪声太大,迭代方向不确定,循环变成随机游走。这在多目标场景中很常见。
成本塌缩: 每轮迭代的成本(API 调用、计算时间)超过了预期收益。Agent 被迫停循环,不是不想转,是转不起。
记忆腐化: 经验积累到一定程度后,新旧经验冲突,反而降低性能。OEP(Wang et al., 2026)展示的”局部正确但全局有害”经验,就是记忆腐化的一个案例。
设计原则
基于以上分析,设计 Loop Engineering 系统时有几条原则:
1. 三层动力都要有
只靠外因(错误反馈)驱动的循环,在 Agent 表现足够好后就停了。要有内因机制(不确定度评估、好奇心模块)来驱动持续探索,也要有结构因设计(经验复用、失败追踪)来维持惯性。
2. 方向控制要分层
底层用外因反馈做纠错方向,中层用多目标优化做改进方向,顶层用假设树或元策略做探索方向。不要试图用单一机制控制所有层级的方向。
3. 设置循环的”逃逸条件”
不是所有循环都应该一直转。要有明确的终止条件——性能达标、预算耗尽、方向收敛。同时要有”重启条件”——环境变化、新任务出现时,循环应该能重新激活。
4. 管理经验的半衰期
不是所有经验都值得永远保留。设置经验的衰减机制,让过时的经验自然退出,避免记忆腐化拖慢循环。
5. 区分纠错和进化
纠错循环和进化循环需要不同的设计。纠错要快、要确定;进化要慢、要容忍不确定性。把它们混在一起,要么进化太急,要么纠错太慢。
参考资料
- Xin et al. “EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery.” arXiv, June 2026.
- Chi et al. “Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization.” arXiv, April 2026.
- Zhang et al. “Self-Evolving World Models for LLM Agent Planning.” arXiv, June 2026.
- Bornemann et al. “CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs.” arXiv, May 2026.
- Wu et al. “EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle.” arXiv, October 2025.
- Liu et al. “SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support.” arXiv, April 2026.
- Lao et al. “AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems.” arXiv, June 2026.
- Jin et al. “Toward Generalist Autonomous Research via Hypothesis-Tree Refinement.” arXiv, June 2026.
- Zhang et al. “DarwinTOD: LLM-driven Lifelong Self-evolution for Task-oriented Dialog Systems.” arXiv, January 2026.
- Chen et al. “EvoSynth: Evolutionary Synthesis of Jailbreak Attacks on LLMs.” arXiv, November 2025.
- Xiao et al. “ENPIRE: Agentic Robot Policy Self-Improvement in the Real World.” arXiv, June 2026.
- Wang et al. “OEP: Poisoning Self-Evolving LLM Agents via Locally Correct but Non-Transferable Experiences.” arXiv, May 2026.
- Antoniades et al. “SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement.” arXiv, October 2024.