基于 papers.cool/arxiv/cs.AI 2026-05-22 收录论文整理,聚焦 Agent 相关最新进展。
📊 今日趋势总览
今日 cs.AI 共收录 25 篇论文,其中与 Agent 强相关的约 18 篇。核心趋势可以归纳为以下五个方向:
| 趋势方向 | 论文数 | 关键词 |
|---|---|---|
| 🛠️ Agent 技能自进化 | 3 | SkillOpt、EVE-Agent、经验到技能 |
| 🤝 多智能体协调与规划 | 4 | Foundation Protocol、认知校准、人机协作、协调层 |
| 🛡️ Agent 安全与鲁棒性 | 3 | MemAudit、DART、问责边界 |
| 🔍 Agent 推理增强 | 3 | Co-ReAct、PathCal、GENSTRAT |
| 🏗️ Agent 基础设施 | 5 | 并行上下文压缩、工具代理恢复、自动科研、知识工作基准、可验证系统合成 |
🛠️ 趋势一:Agent 技能自进化(Skill Self-Evolution)
这是今天最密集的方向,三篇论文形成了一条完整的技术链路。
1. SkillOpt:Agent 技能的”深度学习优化器”
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
核心贡献:首次提出将 Agent 技能文档当作可优化的”外部状态”,用类似深度学习优化器的范式在文本空间中系统化训练。
- 独立的优化器模型根据评分 rollout 对技能文档执行 add/delete/replace 编辑
- 仅当验证集分数严格提升时才接受编辑(类似 early stopping)
- 引入”文本学习率”、拒绝编辑缓冲区、epoch 级慢更新机制
- 在 GPT-5.5 上将无技能基线准确率提升 +23.5 分(直接对话)、**+24.8 分**(Codex agentic loop)
- 技能可跨模型规模、跨执行环境迁移
点评:把技能优化做得像 weight optimization 一样严谨,这个范式很可能成为 Agent 技能管理的新标准。
2. 技能生命周期系统研究
From Raw Experience to Skill Consumption
对模型生成技能的完整生命周期(经验生成 → 技能提取 → 技能消费)做了系统性研究:
- 模型生成的技能平均有效,但存在 显著的负迁移
- 一个模型可以是好的”提取器”但差的”消费者”(反之亦然)
- 技能效用与模型规模或基线任务强度无关
- 提出 meta-skill 引导提取,显著减少负迁移
3. EVE-Agent:证据可验证的自进化
EVE-Agent: Evidence-Verifiable Self-Evolving Agents
要求自进化搜索 Agent 的每个训练样本都必须附带可验证的证据:
- Proposer 生成问题+答案+原文证据片段
- 证据验证器根据”提供证据后的边际准确率提升”来奖励
- 训练数据天然可审计
🤝 趋势二:多智能体协调与规划
4. Foundation Protocol:Agent 社会的协调层
Foundation Protocol: A Coordination Layer for Agentic Society
来自 MetaGPT 团队的大作。随着 Agent 从工具走向社会基础设施,瓶颈从模型能力转向协调。
- 图优先的协调层,统一 Agent、工具、人类、机构等异构实体
- 原生支持多方组织和事件驱动协作
- 内置经济原语(计量、收据、结算)
- 策略、溯源、审计作为一等公民
点评:这是”Agent 经济”的基础设施论文,思考的层次已经超越了单个 Agent 的能力提升。
5. 多 Agent 规划的认知校准
When Planning Fails Despite Correct Execution
提出了一个被忽视的问题:Agent 可能正确执行了计划,但计划本身就是基于错误的知识判断。
- 定义了”规划中的认知失调”现象
- 提出 EPC-AW 工作流,通过信息一致性选择计划
- 系统成功率平均提升 9.75%
6. 人机闭环多 Agent 呼吸机决策
Human-in-the-Loop Multi-Agent Ventilator Decision Support
医疗场景下的多 Agent 协作,使用 contextual bandit 学习临床医生偏好。
7. 战略推理评估
GENSTRAT: Toward a Science of Strategic Reasoning in LLMs
- 过程化生成策略环境(非固定博弈),支持 evergreen 评估
- 六维能力画像 + jaggedness 度量
- 36,000+ 场对局评估九个前沿模型
- GPT-5 和 Claude 比 Gemini-3.1-Pro 更”锯齿”
🛡️ 趋势三:Agent 安全与鲁棒性
8. MemAudit:Agent 记忆投毒的事后审计
MemAudit: Post-hoc Auditing of Poisoned Agent Memory
Agent 的持久记忆是新的攻击面:
- 反事实记忆影响力评分 + 记忆一致性图
- QA 攻击成功率从 70% 降到 0%
- RAP 攻击成功率从 83.3% 降到 0%
点评:随着 Agent 记忆系统普及,这类安全审计工具将成为标配。
9. DART:工具 Agent 的语义可恢复性
DART: Semantic Recoverability for Structured Tool Agents
当工具 Agent 执行中途失败时,传统 checkpoint 回滚可能破坏下游已提交的工作:
- 提出”语义可恢复性”概念
- 定位失败实例 → 认证可恢复边界 → 对齐 checkpoint → 选择合法恢复点
- 所有评估的提交敏感案例中正确恢复
10. Agent 生态系统的问责边界理论
Redrawing the AI Map: A Theory of Accountability Boundaries
- 提出问责资产概念
- 三种边界策略:组件式、集成式、双轨制
- 引入”规则债务”——当组织决策规则从未治理的 Agent 执行环境中积累的治理负担
🔍 趋势四:Agent 推理增强
11. Co-ReAct:Rubric 引导的 ReAct Agent
Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents
- 在每个决策步注入 rubric 指导下一步 Reason-or-Act
- 用 GRPO 训练专门的 rubric 生成器
- 列表式 Spearman 排名相关奖励(非传统的二元偏好)
- 在 DeepResearchBench 和 SQA-CS-V2 上持续优于 ReAct
12. PathCal:推理路径校准
PathCal: State-Aware Reflection-Marker Calibration
- 发现不同 reflection marker(”wait”/“but”/“alternatively”)的功能角色和影响时机不同
- 无训练解码控制器,在局部不确定状态干预 marker logits
- 六个推理基准上实现更好的效率-性能权衡
13. Agentic Proving:程序验证
Agentic Proving for Program Verification
- Claude Code 在 CLEVER(Lean 4)上:98.8% 规范生成、87.5% 实现认证、98.1% 端到端成功率
- 编译器在环的 Agent 范式是目前最有效的程序验证方法
🏗️ 趋势五:Agent 基础设施
14. 长上下文 Agent 的并行压缩
Parallel Context Compaction for Long-Horizon LLM Agent Serving
- 顺序摘要会阻塞 Agent 推理数十秒
- 并行压缩:可预测的摘要体积控制 + 更快的端到端时间
- 跨 8B-120B 四个骨干模型验证
15. 自动科研 Agent 综述
从任务级 AI for Science 到工作流级科研自动化的全景综述:
- 五个工作流条件:文献基础、假设形成、实验与工具、反馈验证、报告传播
- 提出”Vibe Research”概念(人驾驶的 prompt-based 科研辅助)
- 五维评估:新颖性、有效性、影响力、可靠性、溯源
16. 可验证系统的归纳-演绎合成
- Agent 联合合成实现和证明,从失败中学习
- 分布式键值存储 7/7 规格,平均约 6.8 小时/$106
- 比专家快 200x,比 SOTA agent 便宜 17%
17. 知识工作基准设计方法论
Design and Report Benchmarks for Knowledge Work
- 从 O*NET 提取 18 项工作活动清单
- 三步法:定义工作活动 → 指定测试设置 → 评分工作产物
🔑 关键洞察
技能优化走向工程化:SkillOpt 把 Agent 技能训练做到了深度学习级别的严谨性,这可能是 Agent 从”能用”到”可靠”的关键一步。
协调 > 能力:Foundation Protocol 代表了一个重要转向——Agent 领域的瓶颈正在从单 Agent 能力转向多 Agent 协调和社会化基础设施。
安全审计从预防走向事后:MemAudit 证明了事后因果审计的可行性,Agent 安全正在形成完整的攻防体系。
推理控制精细化:Co-ReAct 和 PathCal 代表了推理控制从粗粒度到细粒度的趋势——每一步都有针对性的引导。
科研自动化加速:AutoResearch 和 IDS 两篇论文共同指向一个方向——AI 正在从辅助科研走向自动化科研工作流。
📌 推荐阅读优先级
| 优先级 | 论文 | 理由 |
|---|---|---|
| ⭐⭐⭐ | SkillOpt | Agent 技能优化的里程碑工作 |
| ⭐⭐⭐ | Foundation Protocol | Agent 社会基础设施 |
| ⭐⭐ | MemAudit | Agent 安全新范式 |
| ⭐⭐ | Co-ReAct | 推理增强实用方案 |
| ⭐⭐ | AutoResearch | 科研自动化全景综述 |
| ⭐ | IDS | 形式化验证+Agent |
| ⭐ | GENSTRAT | LLM 策略评估方法论 |