Loop Engineering 的动力分析：循环何以自驱

2026-06-30

Agent 系统正在从”单次调用”走向”持续循环”。不是跑一遍就完，而是不断自我迭代、自我修正、自我进化。这个模式有个名字——Loop Engineering。

但循环不是免费转的。每一轮迭代都有成本，Agent 为什么会继续转下去？是什么力量在推着它往下一轮走？迭代的方向又是由什么决定的？

这些问题比”怎么实现循环”更根本。因为理解了动力来源，才知道怎么设计循环，以及循环会不会跑偏。

Loop Engineering 是什么

先对齐一下概念。Loop Engineering 指的是：把 Agent 的执行过程设计成一个闭合循环，输出的结果反馈到输入，驱动下一轮改进。

跟传统的 open-loop（调一次 prompt 看一次结果）不同，loop engineering 的核心假设是：单次执行几乎不可能完美，但通过反馈-修正的循环，系统可以逐步逼近目标。

这个模式在不同领域有不同的名字：

代码领域叫 iterative refinement（SWE-Search）
科学发现叫 hypothesis-tree refinement（Jin et al., 2026）
推荐系统叫 self-iteration（AgentX, 2026）
机器人叫 policy self-improvement（ENPIRE, 2026）

名字不同，底层都是同一件事：闭环、迭代、进化。

动力的三个层次

把驱动循环的力量拆开来看，有三个层次：外因、内因、结构因。

外因：环境反馈

最直接的动力来源——环境告诉 Agent “你做得不对”。

误差信号是最基础的。Agent 执行一个动作，环境返回一个结果，结果和目标之间的差距就是误差。误差越大，循环的驱动力越强。

EurekAgent（Xin et al., 2026）的工作把环境反馈拆成了几个工程维度：执行反馈（代码能不能跑）、评估反馈（结果好不好）、预算反馈（还剩多少资源）。每一维反馈都在推动 Agent 进入下一轮循环。

Frontier-Eng（Chi et al., 2026）更进一步，用 generative optimization 替代 binary pass/fail。不是简单地告诉 Agent “对”或”错”，而是生成一个连续的优化方向——“你在哪个维度可以改进，改进多少”。这种反馈比二元信号更能驱动有方向的迭代。

关键洞察： 外因驱动是”被推着走”——没有误差就没有动力。这意味着，当 Agent 表现已经足够好时，外因驱动的循环会自然减速。这是好事（节能），也是坏事（停滞）。

内因：好奇心与不确定感

这是更隐蔽但更根本的动力。

Agent 在执行任务时，内部有一个隐式的”不确定度”。如果 Agent 对自己的决策很有信心，循环就不会启动；如果不确定，就会触发探索行为。

WorldEvolver（Zhang et al., 2026）的 Selective Foresight 模块就是这种思路的工程实现：世界模型对某个预测的置信度低，就把这个预测标记为”需要进一步验证”，驱动 Agent 去做实验确认。

好奇心驱动（curiosity-driven）是另一个内因。Agent 不是因为做错了才去探索，而是因为”还不知道”——认知地图上有空白，想要填补。CODE-SHARP（Bornemann et al., 2026）的 open-ended skill discovery 就是这种模式：Agent 不停地发现新技能，不是因为旧技能不够用，而是因为环境里还有没尝试过的可能性。

关键洞察： 内因驱动是”被拉着走”——Agent 内部的不确定感和好奇心在主动寻求下一轮迭代。这种动力不依赖外部反馈，即使当前表现已经足够好，依然可以驱动循环继续。这是持续进化的核心引擎。

结构因：循环本身的势能

这是最容易被忽略的一层。

循环一旦建立，就有了自己的惯性。每一轮迭代产出的中间产物（经验、记忆、修正后的 prompt、新发现的技能）都会降低下一轮迭代的启动成本，同时提高下一轮的预期收益。

EvolveR（Wu et al., 2025）的 experience-driven lifecycle 就是典型的结构因驱动：Agent 积累的经验越多，下一轮学习越高效，形成正向飞轮。

SkillForge（Liu et al., 2026）在云技术支持场景中展示了另一种结构因：技能执行失败后，失败信息被自动追踪回技能定义的缺陷，驱动技能重构。整个回路是：执行 → 失败 → 诊断 → 修复 → 再执行。失败本身就变成了下一轮循环的燃料。

关键洞察： 结构因驱动是”惯性地滚着走”——循环本身产生了维持循环的势能。这是三个层次中最”自动”的，也是设计者最应该重点构建的。

迭代方向的内在逻辑

循环不仅要有动力，还要有方向。没有方向的循环是空转。

梯度下降类比

可以把 Agent 的迭代过程类比成梯度下降：外因反馈提供梯度方向，内因驱动步长，结构因保证收敛。

但 Agent 的”损失函数”比深度学习复杂得多——它不是单一的、可微的标量，而是一个多目标、非凸的、甚至动态变化的优化问题。

AgentX（Lao et al., 2026）在工业推荐系统中的做法提供了一个工程解法：把迭代方向分解成可量化的子目标（点击率、停留时长、转化率），每一轮循环只优化其中一个子目标，同时确保其他子目标不退化。

假设树剪枝

Jin et al. 的 Hypothesis-Tree Refinement 提供了另一个方向控制思路：不是沿着单一方向迭代，而是维护一棵假设树，每一轮循环在树上选择最有前途的分支展开，同时剪掉被证伪的分支。

方向不是预设的，而是通过实验-证伪动态发现的。这比单纯的梯度方向更灵活，也更符合科学发现的实际过程。

经验的沉淀与抽象

DarwinTOD（Zhang et al., 2026）在对话系统中展示了一种更高级的方向控制：Agent 不只是修正当前行为，还会把修正的经验抽象成可复用的策略。方向从”修掉这个 bug”变成了”建立这类问题的通用解法”。

这是一种质变——迭代方向从具体到抽象，从修修补补到架构升级。

循环的方向发展：四种形态

循环不是永远以同样方式转的。随着系统成熟，循环的形态会演变。

形态一：纠错循环

最基础的形态。做错了→发现错误→修正→再做。方向明确，动力来自外因。

大多数 coding agent 的 iterative refinement 处于这个阶段。SWE-Search 用 MCTS 搜索修正路径，本质上是高效的纠错循环。

形态二：优化循环

从”做对”升级到”做好”。Agent 已经能完成任务，但还在追求更高的效率、更好的质量。

Frontier-Eng 的 generative optimization 就是优化循环——不是找 bug，而是找提升空间。动力从外因（错误信号）转向结构因（优化潜力）。

形态三：探索循环

从已知领域走向未知领域。Agent 不再只是改进已有能力，而是发现新能力。

CODE-SHARP 的 open-ended skill discovery、ENPIRE 的真实世界机器人自我改进，都处于这个形态。动力主要来自内因（好奇心）。

形态四：进化循环

最高阶的形态：Agent 不仅在改进自己的行为，还在改进自己改进的方式。元学习、学会学习。

EvoSynth（Chen et al., 2025）从优化 prompt 进化到优化生成 prompt 的代码，就是一种进化循环的雏形——改进的对象从”做什么”变成了”如何决定做什么”。

动力衰减与循环断裂

循环不是永动的。几个常见的断裂模式：

满意停顿： Agent 认为自己做得够好了，循环提前终止。这可能是因为评估标准太松，也可能是因为缺乏内因驱动。

方向漂移： 外因反馈噪声太大，迭代方向不确定，循环变成随机游走。这在多目标场景中很常见。

成本塌缩： 每轮迭代的成本（API 调用、计算时间）超过了预期收益。Agent 被迫停循环，不是不想转，是转不起。

记忆腐化： 经验积累到一定程度后，新旧经验冲突，反而降低性能。OEP（Wang et al., 2026）展示的”局部正确但全局有害”经验，就是记忆腐化的一个案例。

设计原则

基于以上分析，设计 Loop Engineering 系统时有几条原则：

1. 三层动力都要有

只靠外因（错误反馈）驱动的循环，在 Agent 表现足够好后就停了。要有内因机制（不确定度评估、好奇心模块）来驱动持续探索，也要有结构因设计（经验复用、失败追踪）来维持惯性。

2. 方向控制要分层

底层用外因反馈做纠错方向，中层用多目标优化做改进方向，顶层用假设树或元策略做探索方向。不要试图用单一机制控制所有层级的方向。

3. 设置循环的”逃逸条件”

不是所有循环都应该一直转。要有明确的终止条件——性能达标、预算耗尽、方向收敛。同时要有”重启条件”——环境变化、新任务出现时，循环应该能重新激活。

4. 管理经验的半衰期

不是所有经验都值得永远保留。设置经验的衰减机制，让过时的经验自然退出，避免记忆腐化拖慢循环。

5. 区分纠错和进化

纠错循环和进化循环需要不同的设计。纠错要快、要确定；进化要慢、要容忍不确定性。把它们混在一起，要么进化太急，要么纠错太慢。

参考资料

Xin et al. “EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery.” arXiv, June 2026.
Chi et al. “Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization.” arXiv, April 2026.
Zhang et al. “Self-Evolving World Models for LLM Agent Planning.” arXiv, June 2026.
Bornemann et al. “CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs.” arXiv, May 2026.
Wu et al. “EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle.” arXiv, October 2025.
Liu et al. “SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support.” arXiv, April 2026.
Lao et al. “AgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems.” arXiv, June 2026.
Jin et al. “Toward Generalist Autonomous Research via Hypothesis-Tree Refinement.” arXiv, June 2026.
Zhang et al. “DarwinTOD: LLM-driven Lifelong Self-evolution for Task-oriented Dialog Systems.” arXiv, January 2026.
Chen et al. “EvoSynth: Evolutionary Synthesis of Jailbreak Attacks on LLMs.” arXiv, November 2025.
Xiao et al. “ENPIRE: Agentic Robot Policy Self-Improvement in the Real World.” arXiv, June 2026.
Wang et al. “OEP: Poisoning Self-Evolving LLM Agents via Locally Correct but Non-Transferable Experiences.” arXiv, May 2026.
Antoniades et al. “SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement.” arXiv, October 2024.