构建 Coding Agent 的飞轮:从状态感知到人机共生
大模型正在重新定义软件。在百度 Comate 的实践中,Coding Agent 已从研发专属工具走向全员普及,Vibe Coding 渐成常态,人均 Query 次数增长 5 倍,AI IDE 唤起时长占比超 60%。如何让 Agent 持续进化而非停滞不前?核心在于构建由 Feedback Loop、Benchmark 和 Agent Engineers 驱动的飞轮。本文将拆解这三大环节的落地实践,探讨如何从“流程定义”走向“状态感知”,重塑研发协作模式。
核心问题与挑战
传统软件研发依赖稳定的协作流程,但基于模型的 Agent 应用本质上是混沌态。在构建通用 Agent 产品时,我们面临三大核心挑战:
- 通用框架忽略模型特性:试图用统一框架适配所有模型,反而拖累了效果。模型能力在快速变化,框架原则必须从“教模型怎么做(流程定义)”转向“感知模型状态(状态感知)”。
- 传统评测失效:传统评测只看解题分数,无法体现 Agent 的“调性”,也难以发现模型的偏好和异常值。
- 角色分工滞后:传统大 Feature 拆分的协作模式,无法适应“一人+Agent一竿子捅到底”的新范式,人的角色定位亟待重塑。
方案与实践
Feedback Loop:让行为可观测,让状态可感知
要让 Agent 进化,首先要让它的行为可观测。我们构建了线上的 Feedback Loop 观测体系,从工具、上下文、结果、流程四个维度量化 Agent 执行状态与自愈指标。
- MCP 动态加载:MCP 全量加载会导致大量无效 Token 消耗。我们使用 Skills 风格描述动态加载 MCP Server,模型根据 Query 自动判断是否需要加载,按需调用直接节省 98% 的 Tokens。
- 顺应模型偏好:观测发现 GPT 系列偏好 Bash 工具,容易产生冗余调用占用上下文。与其强行抑制,不如顺应偏好,定向调整工具权重,让模型用最舒服的方式解决问题。
- 解构任务复杂度:用 Agent 分析 Agent 执行数据,将任务分为复杂、中等、简单,通过不同类别观测执行时长、Tools 次数、压缩次数等指标,明确 Agent 的能力边界。
Benchmark:挖掘评测集,洞察异常值
评测的重点不是解题分数,而是发现异常值以洞察模型偏好。
- 业务评测集挖掘:脱离业务的静态评测集意义有限。我们利用 Agent 分析 Git Logs 和 Blame,自动提取跨 Commit 的业务评测集,并辅以独立 Agent 验证和人工校验。
- 四象限分析法:基于 Outcome(结果质量,权重 60%)和 Execution(执行效率)构建四象限。高分不代表一切,我们更关注象限边缘的异常值。
- 上下文压缩与自愈:通过异常值分析,发现 8% 的无效工具调用(如探索阶段的冗余调用)占用了大量上下文。我们引入基于当前任务信息的 Prompt,自动整理历史无效调用,实现上下文压缩与 Agent 自愈。
- 发现隐式状态机:从评测的执行网络中,我们发现工具调用存在隐式状态机(如 Edit 失败转 Read,删除后转 List)。这印证了框架只需告知模型“当前状态和什么是好的”,模型自会摸索出执行路径。
Agent Engineers:把人放进 Loop 里
Agent 不是替代人,而是将人纳入 Loop,重塑协作边界。
- 全员转型:开发者从执行者转向问题提出者,每个人都是 Agent Engineer。PM、UE 等角色也通过素材原子化,协同 Agent “一竿子捅到底”。
- 人即 Context 和 Tool:人的判断和业务知识是 Agent 无法自生成的 Context,必须将人作为节点放入 Agent Loop。
- 云端沙盒:全员转型催生了新诉求,我们建设了云端沙盒,实现可授权、可观测、可回放、可验证、可交付的 Agent 任务操作空间。
- 交付物升维:Agent 交付的不再只是文本代码,而是包含产物包、验证材料、可运行、有据可查的完整工程成果。
原则/方法论沉淀
在构建 Coding Agent 飞轮的过程中,我们沉淀出以下核心原则:
- 状态感知优于流程定义:Agent 框架的目的是构建模型能运作的环境,而非必须遵守的执行路径。不要教模型怎么做,只告诉它当前状态和什么是好的。
- 评测即洞察:评测的重点不是解题分数,而是发现异常值以洞察模型偏好。
- 人机共生:人是 Agent Loop 的一部分,人的隐性知识是 Agent 最稀缺的 Context。
- 交付升维:交付物从“文本代码”升维到“可运行、有据可查的完整工程成果”。
总结与行动建议
不是未来,就是现在,我们已经活在 Agent 的世界。Coding Agent 正深刻改变战场形态,研发协作模式正向“一人+Agent一竿子捅到底”演进。要构建自己的 Agent 飞轮,建议立即行动:建立线上观测体系让行为可见,用业务数据挖掘评测集洞察异常,并将团队重塑为与 Agent 协作的 Agent Engineers。飞轮一旦转动,将是核心竞争优势。
开放问题与延伸方向
- MCP动态加载节省98% Tokens的基准测试设计,及不同复杂度下的稳定性?——关联Feedback Loop的Token优化实践,需关注极端场景的收益边界。
- 顺应模型偏好是否会导致长周期演进中被偏好锁死?——关联顺应偏好的策略,需警惕短期收益对泛化能力的长期侵蚀。
- 引入运行时异常或回退操作构建负向对抗评测集?——关联Git Blame挖掘评测集,是扩充数据源和增强鲁棒性的有效延展。
- 混沌态Agent在强合规场景如何满足可审计与可追溯?——关联状态感知原则,是框架落地高安全业务必须跨越的门槛。
- 异常值洞察思路如何迁移到非Coding通用Agent?——关联四象限评测法,验证了该调性优化方法的跨域通用潜力。
- 极简协作模式是否推高个体认知负荷与单点故障风险?——关联人机协作重塑,提示需关注新范式下的开发者体验与系统韧性。
- Git Logs提取测试用例如何保证多样性与无偏性?——关联评测集挖掘,是确保Benchmark质量不退化的重要前提。
- 构建Agent红蓝对抗网络驱动自愈?——关联上下文压缩自愈,将单点自愈升级为系统级对抗进化。
- 人作为Context被显性化消耗后的知识产权与隐私边界?——关联人即Context理念,是组织协作重塑中不可回避的伦理问题。
- 飞轮冷启动阶段的资源投入优先级?——关联三大飞轮环节,决定了从0到1构建Agent的落地路径选择。
- 交付物升维对传统验收标准与契约模式的颠覆性收益?——关联交付物升维,深挖工程化标准升级带来的业务价值。