今日 arXiv cs.AI 板块更新了多篇重磅论文,Agent 方向呈现出几个明显的趋势。以下按主题梳理。
🔥 趋势一:Agent 自进化与长期记忆成为核心能力
MLEvolve — 自进化多 Agent 框架,自动发现 ML 算法
核心问题:现有 MLE Agent 在长程任务中存在分支信息隔离、无记忆搜索、缺乏层次控制等问题。
方法:
- Progressive MCGS:将树搜索扩展为图搜索,通过 reference edge 实现跨分支信息流,用熵驱动的渐进策略从探索转向利用
- Retrospective Memory:冷启动领域知识库 + 动态全局记忆,支持任务级经验检索与复用
- Adaptive Coding Modes:将策略规划与代码生成分离,保证长程迭代稳定性
结果:在 MLE-Bench 上以 12 小时(标准时长一半)达到 SOTA,在数学算法优化任务上超越 AlphaEvolve。
📌 趋势信号:Agent 不再只是”执行器”,开始具备”自我进化”能力——从经验中学习并持续改进。
Agent Memory — 首个 Agent 记忆系统的系统级刻画
核心贡献:首次从系统角度系统性地分析 Agent 记忆。
- 提出四轴分类法对 Agent 记忆系统分类
- 构建阶段感知分析工具,将成本归因到构建、检索、生成三阶段
- 对 10 个代表性系统进行刻画,揭示设计选择如何影响读写路径成本
- 提出 10 条系统建议:构建调度、能力底线、查询量摊销、新鲜度-延迟权衡、fleet 级管理
📌 趋势信号:Agent Memory 从”有什么”阶段进入”怎么用”阶段,系统优化开始受到关注。
TokenMizer — 图结构会话记忆,长程上下文管理
核心思路:将会话历史建模为类型化知识图谱(14 节点类型 + 7 边类型),替代扁平文本。
- 三层 checkpoint 系统将图谱序列化为紧凑 resume block
- 8 层压缩管道减少上下文开销
- Resume block 平均仅 78 tokens,比 baseline 小 2 倍,决策回忆率却高 9-17 个百分点
- 压缩率达 47.3%,零外部依赖
📌 趋势信号:结构化记忆(图谱)正在取代扁平文本记忆,成为长程 Agent 的基础设施。
🔥 趋势二:Agent 技能发现与能力增强
DataCOPE — 无监督技能发现,提升数据分析 Agent
核心问题:如何从无标签探索中发现可复用的数据分析技能?
方法:DataCOPE 框架迭代协调三个组件:
- Data-Analytic Agent — 轨迹生成
- Unsupervised Verifier — 信号提取(自适应清单验证器 / 答案一致性验证器)
- Skill Manager — 对比技能蒸馏
结果:在 4 个模型设置上,报告风格任务提升 9.71%,推理风格任务提升 32.30%。
📌 趋势信号:Agent 不需要人类标注就能自主发现和积累技能——无监督技能发现是关键方向。
🔥 趋势三:GUI Agent 交互精细化
DragOn — 拖拽交互 Benchmark
关注点:当前 GUI Agent 主要关注点击和输入,拖拽(Drag)操作被严重忽视。DragOn 填补了这一空白,提供了拖拽交互的基准测试和数据集。
📌 趋势信号:GUI Agent 从”能操作”走向”精细操作”,拖拽、多指手势等复杂交互是下一个前沿。
🔥 趋势四:Agent 用来自动构建 Benchmark
Benchmark Agent — 全自动 Benchmark 构建系统
核心思路:用 Agent 自动化整个 benchmark 构建流水线——从用户查询分析、子任务设计到数据标注和质量控制。
- 成功生成 15 个跨领域 benchmark
- 人工评估 + LLM-as-judge + 一致性检查均验证了高质量
- 发现当前模型在特定领域推理任务上仍然挣扎
📌 趋势信号:Benchmark 构建成本高、易饱和的问题,正通过 Agent 自身来解决——Agent 造 Benchmark 评估 Agent。
🔥 趋势五:Agent 基础设施优化(推理加速)
Vortex — 可编程稀疏注意力服务系统
问题:Agent 推理时上下文越来越长,稀疏注意力算法部署困难。
方案:
- Python 嵌入式前端 + page-centric 张量抽象,支持快速原型设计
- 紧密集成现代 LLM 服务栈
- AI Agent 用 Vortex 自动生成和优化稀疏注意力算法,最佳算法吞吐量提升 3.46×
- 在 GLM-4.7-Flash 上达 4.7×,在 229B MiniMax-M2.7 上达 1.37×
📌 趋势信号:Agent 不仅被优化,也开始优化自身的基础设施——Agent 设计 Agent 的推理内核。
🔥 趋势六:Agent 协作中的心智模型
ALMANAC — 人类协作数据集,带动作级心智模型标注
核心缺口:当前 Agent 只优化任务完成,缺乏过程级协作能力;社区缺乏带心智模型标注的人类协作数据。
贡献:
- 基于 Map Task 构建,包含 2,987 个协作动作
- 每个动作配有理论驱动的心智模型标注:自我推理、感知的伙伴意图、感知的团队目标
- 对 6 个 LLM 进行 benchmark
📌 趋势信号:Agent 协作研究从”能不能完成”转向”能不能理解队友”——心智模型对齐是关键。
🔥 趋势七:定理证明 Agent
Goedel-Architect — 蓝图生成与精化的形式化定理证明 Agent
方法:生成定义和引理的依赖图(蓝图),用工具增强的 Lean prover 并行证明每个引理节点,失败引理驱动蓝图精化。
结果(基于 DeepSeek-V4-Flash):
- MiniF2F-test: 100% pass@1
- PutnamBench: 88.8% (597/672)
- IMO 2025: 4/6,Putnam 2025: 11/12,USAMO 2026: 3/6
成本仅为同类开源方案的 1/500。
📌 趋势信号:定理证明 Agent 已进入竞赛级水平,开源方案的成本效率大幅提升。
📊 总结:今日 Agent 趋势图谱
| 趋势 | 代表论文 | 核心关键词 |
|---|---|---|
| 自进化 Agent | MLEvolve | 自进化、多 Agent、算法发现 |
| Agent 记忆系统 | Agent Memory, TokenMizer | 记忆分类、图结构、长程上下文 |
| 无监督技能发现 | DataCOPE | 技能蒸馏、无监督验证 |
| GUI 精细交互 | DragOn | 拖拽、benchmark |
| Agent 造 Benchmark | Benchmark Agent | 自动化、持续评估 |
| 推理基础设施 | Vortex | 稀疏注意力、可编程 |
| 协作心智模型 | ALMANAC | 心智模型、协作标注 |
| 定理证明 | Goedel-Architect | 蓝图、Lean 4、竞赛级 |
一句话总结今天的 Agent 方向:Agent 正在从”能完成任务”进化为”能自我进化、自我优化基础设施、理解队友、自主构建评估体系”的系统。记忆、技能发现、协作心智模型是三大新兴基础设施。