今天从 arXiv cs.AI 分类中整理了 Agent 相关 的最新研究趋势。本期共 25 篇论文中,有约 15 篇与 Agent 高度相关,呈现出几个明显的研究热点:科学 Agent 全生命周期系统、Web Agent 自我进化、Agent 轨迹诊断与评估、Agent 安全对齐、长时程上下文管理。
🔥 核心趋势一览
| 趋势方向 | 代表论文 | 关键词 |
|---|---|---|
| 科学研究全生命周期 Agent | AutoSci | 记忆驱动、五阶段流程、DAG 多智能体 |
| Web Agent 自我进化 | SCALE | 对抗角色、认知边界探索、图搜索策略 |
| Agent 轨迹诊断 | TraceGraph | 共享决策景观、陷阱检测、SWE-bench |
| 多智能体协作故障诊断 | CoSee | 共享工作记忆、噪声强化、策略坍塌 |
| Agent 安全对齐 | COMPASS | MCTS 引导、过程级对齐、搜索 Agent 安全 |
| 长时程上下文管理 | AdaCoM | 外部上下文管理器、保真度-可靠性权衡 |
| 推理结构化搜索 | LinTree | 显式树结构、父指针、搜索历史 |
| 知识图谱交互推理 | HypoAgent | 三 Agent 协作、溯因假设生成 |
| Agent 技能蒸馏 | COLLEAGUE.SKILL | 专家知识蒸馏、版本化技能包 |
| Deep Research 规划 | DecomposeR | DAG 计划、规划器 RL、结构感知奖励 |
📝 重点论文解读
1. AutoSci:记忆驱动的科学研究全生命周期 Agent 系统
论文: AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle
核心亮点: AutoSci 是一个以记忆为中心的科学研究 Agent 系统,覆盖从文献理解到论文 rebuttal 的完整研究生命周期。
四大模块架构:
- SciMem: Schema 治理的研究记忆,分离长期知识记忆和活跃研究记忆
- SciFlow: 五阶段研究生命周期执行引擎
- SciDAG: DAG 形状的多智能体操作器,可复用的阶段模板
- SciEvolve: 将反馈信号转化为版本化更新,实现自我进化
💡 趋势洞察: 科学 Agent 正从”单点工具”走向”全生命周期系统”,记忆和自我进化能力成为核心差异化要素。
2. SCALE:自我认知的 Web Agent 探索学习
论文: Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration
核心亮点: 提出了 SCALE 框架,通过三个对抗角色(Selector/Predictor/Judger)让 Web Agent 自主发现自身局限性并扩展认知边界。
关键创新:
- SCALE-Hop: 图探索策略,帮助 Agent 进行全局规划,避免局部探索陷阱
- SCALE-20k: 从 19 个真实网站收集的大规模数据集
- 无需昂贵专家轨迹,Agent 通过环境探索自我进化
💡 趋势洞察: Web Agent 训练正从”依赖专家演示”转向”自主探索学习”,降低对标注数据的依赖。
3. TraceGraph:Agent 轨迹的共享决策景观
论文: TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories
核心亮点: 将多模型的 Agent 轨迹转化为图结构的共享决策景观,揭示隐藏在聚合分数之下的导航差异。
三个关键事件: Access(访问)、Trap Exposure(陷阱暴露)、Repair(修复)
实际效果: 在 SWE-bench 上,陷阱感知恢复管线将解决率从 40.4% 提升到 43.5%。
💡 趋势洞察: Agent 评估正从”结果导向”转向”过程诊断”,轨迹级分析成为优化 Agent 的关键手段。
4. CoSee:资源受限多 Agent 协作的故障模式
论文: Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents
核心亮点: 对弱模型(4B-8B)共享工作记忆的协作推理进行故障诊断,发现了一个反直觉现象:天真的共享工作空间往往会放大幻觉而非消除它们。
两种主要故障模式:
- 噪声强化: 未经验证的笔记被当作证据反复使用
- 策略坍塌: 上下文增加导致模型偏向模糊的简短回答
💡 趋势洞察: 对于小模型 Agent,瓶颈不在推理深度而在通信保真度——这对 Agent 系统设计有重要指导意义。
5. COMPASS:搜索 Agent 的安全过程对齐
论文: COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents
核心亮点: 针对 LLM 搜索 Agent 的安全问题,提出 MCTS 引导的过程级对齐框架。有害意图可能被分解为看似无害的子查询,COMPASS 通过认知树探索合成隐蔽攻击轨迹,再进行逐步对齐。
💡 趋势洞察: Agent 安全对齐从”输入/输出过滤”升级为”过程级监督”,这对生产环境中的 Agent 部署至关重要。
6. AdaCoM:Agent 兼容的长时程上下文管理
论文: Learning Agent-Compatible Context Management for Long-Horizon Tasks
核心亮点: 训练一个外部 LLM 来管理冻结 Agent 的上下文,通过灵活的修改动作和端到端 RL 实现。揭示了保真度-可靠性权衡:高性能 Agent 需要高保真上下文保留,低性能 Agent 则需要更激进的压缩。
💡 趋势洞察: 上下文管理正从”Agent 内部策略”转向”外部可复用管理器”,这对闭源 API Agent 尤为重要。
7. LinTree:显式树结构搜索提升 LLM 推理
论文: LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories
核心亮点: 发现 LLM 推理轨迹中隐式搜索树表示的问题——回溯时不明确标识被重新访问的早期状态。添加简单父指针(parent pointers)构成显式 LinTree 结构后,显著提升了任务性能和搜索效率。
💡 趋势洞察: Agent 推理的改进方向之一是让隐式过程变为显式结构,这与 TraceGraph 的思路一脉相承。
8. HypoAgent:知识图谱上的交互式溯因推理 Agent
核心亮点: 三个 Agent 协作完成知识图谱上的交互式假设生成——意图识别 Agent、假设生成 Agent、根因分析 Agent。在多轮对话场景下实现了 SOTA 语义相似度。
9. COLLEAGUE.SKILL:自动化的 Agent 技能蒸馏
论文: COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation
核心亮点: 将人的异构行为轨迹自动蒸馏为可检查、可纠正、可跨平台安装的版本化技能包。18.5k GitHub Stars,215 个技能来自 165 个贡献者。
💡 趋势洞察: Agent 技能的”标准化封装”正在形成生态,从个人 prompt 到可复用技能包的演进路径清晰。
10. DecomposeR:以规划器为中心的 Deep Research
论文: Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
核心亮点: 将研究计划表示为类型化 DAG,分两阶段 RL 训练:先学规划(结构和分解),再学执行(分支执行和合成)。Qwen3-8B 在长文本基准上比开源基线提升 5.1-8.0 分。
🎯 趋势总结
本期三大关键词
- 自我进化(Self-Improving): AutoSci、SCALE、COLLEAGUE.SKILL 都在探索 Agent 如何从经验中持续学习和改进
- 过程诊断(Process Diagnosis): TraceGraph、CoSee、COMPASS 转向分析 Agent 的执行过程而非仅看结果
- 结构化推理(Structured Reasoning): LinTree、DecomposeR、HypoAgent 通过显式结构(树、DAG、多 Agent)增强推理能力
值得关注的方向
- 外部上下文管理器(AdaCoM)可能是解决闭源 API Agent 长时程任务的关键
- Agent 安全从粗粒度过滤升级为细粒度过程监督
- 科学 Agent 正在从”文献工具”进化为”全生命周期研究平台”
- 技能包生态正在形成,标准化和可复用性成为焦点
数据来源: papers.cool/arxiv/cs.AI | 自动生成于 2026-06-01