Agent 最新研究综述（2026-05-26）

2026-05-26

Agent 最新研究综述（2026-05-26）

本报告自动生成自 papers.cool/arxiv/cs.AI
筛选标准：AI Agent 系统相关论文
生成时间：2026/5/26 17:30:05

📊 今日概况

总论文数: 25 篇
Agent 相关: 18 篇

研究方向分布

方向	论文数	趋势
other	7	🔥 热点
planning	5	🔥 热点
evaluation	4	🔥 热点
engineering	2	📈 活跃
memory	1	➡️ 关注
tool	1	➡️ 关注

应用场景覆盖

场景	论文数
科学研究	4
信息检索与问答	3
决策支持	3
创意与内容	2

1️⃣ 今日论文列表（按研究方向）

📎 Other / 其他（7 篇）

1. MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

arXiv: 2605.26114 Kimi解读
标签: other | 场景: 科学研究, 信息检索与问答
要点:
- mobilegym,verifiable,task,judging,json,parallel,apps,256,deterministic,structured

2. VeriTrace: Evolving Mental Models for Deep Research Agents

arXiv: 2605.26081 Kimi解读
标签: other | 场景: 科学研究, 信息检索与问答
要点:
- veritrace,drb,mental,evolving,regulation,strongest,agents,loops,matched,27b

3. CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

arXiv: 2605.26029 Kimi解读
标签: other | 场景: 科学研究
要点:
- causalab,causal,agents,scm,interactive,agent,hypothesis,strategies,intervention,inspectable

4. Explore Before You Solve: The Speed–Depth Trade-off in Epistemic Agents for ARC-AGI-3

arXiv: 2605.25931 Kimi解读
标签: other
要点:
- rhae,aera,agi,epistemic,exploration,explore,arc,games,depth,trade

5. Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network

arXiv: 2605.25815 Kimi解读
标签: other
要点:
- evomap,assets,a2a,agents,collaboration,agent,rewards,unverified,self,participation

arXiv: 2605.25748 Kimi解读
标签: other
要点:
- fep,belief,diff,trajectory,prediction,social,centric,8876,observability,agent

7. CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

arXiv: 2605.25624 Kimi解读
标签: other
要点:
- cua,gym,cuas,rlvr,verifiable,environments,reward,agent,training,task

🎯 Planning / 规划推理（5 篇）

1. LECTOR: Joint Optimization of Scientific Reasoning Graphs and Introduction Generation

arXiv: 2605.25964 Kimi解读
标签: planning, engineering | 场景: 科学研究, 创意与内容, 决策支持
要点:
- lector,introduction,logic,quality,generation,reasoning,verifiable,citations,writing,scientific

2. MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning

arXiv: 2605.25842 Kimi解读
标签: planning
要点:
- mucrasp,pruning,reasoning,cot,vlms,structured,multimodal,thought,chain,qwen2

3. Learning to Search and Searching to Learn for Generalization in Planning

arXiv: 2605.25720 Kimi解读
标签: planning | 场景: 信息检索与问答, 决策支持
要点:
- search,planning,heuristic,drl,instances,pushworld,generalization,learning,relational,solve

4. Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations

arXiv: 2605.25620 Kimi解读
标签: planning | 场景: 决策支持
要点:
- task,centric,world,visual,foundation,latent,planning,embeddings,latents,robomimic

5. Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy

arXiv: 2605.25603 Kimi解读
标签: planning
要点:
- reasoning,scorer,unfaithfulness,cie,cot,traces,internal,external,unfaithful,circuit

📊 Evaluation / 评估基准（4 篇）

1. Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

arXiv: 2605.26086 Kimi解读
标签: evaluation
要点:
- anything,claw,always,user,personal,assistance,assistants,world,agents,access

2. CITYREP: A Unified Benchmark for Urban Representations Across Cities, Tasks, and Modalities

arXiv: 2605.26036 Kimi解读
标签: evaluation
要点:
- urban,cityrep,cities,splits,tasks,benchmark,across,unified,spatial,evaluation

3. FLOATBench: A Dataset and Benchmark for Floating Offshore Wind Turbine Tower Fatigue

arXiv: 2605.25717 Kimi解读
标签: evaluation
要点:
- floatbench,tower,fatigue,wind,offshore,fowt,benchmark,floating,per,operating

4. AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

arXiv: 2605.25707 Kimi解读
标签: evaluation
要点:
- agenthijack,corruptions,agents,environment,computer,agent,robustness,common,onlooker,execution

🏗️ Engineering / 工程架构（2 篇）

1. LECTOR: Joint Optimization of Scientific Reasoning Graphs and Introduction Generation

arXiv: 2605.25964 Kimi解读
标签: planning, engineering | 场景: 科学研究, 创意与内容, 决策支持
要点:
- lector,introduction,logic,quality,generation,reasoning,verifiable,citations,writing,scientific

2. Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents

arXiv: 2605.25632 Kimi解读
标签: tool, engineering | 场景: 创意与内容
要点:
- reserve,actuarial,capital,authority,runtime,frontier,underwriting,autonomous,aai,contract

🧠 Memory / 记忆系统（1 篇）

1. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

arXiv: 2605.26112 Kimi解读
标签: memory
要点:
- harness,agentic,scaling,governance,foundation,orchestration,memory,cheetahclaws,verification,agent

🔧 Tool Use / 工具使用（1 篇）

1. Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents

arXiv: 2605.25632 Kimi解读
标签: tool, engineering | 场景: 创意与内容
要点:
- reserve,actuarial,capital,authority,runtime,frontier,underwriting,autonomous,aai,contract

2️⃣ 应用场景深度分析

科学研究

当前瓶颈: 假设生成与实验验证之间的鸿沟，跨领域知识迁移困难，可重复性保证不足

突破方向: Agent驱动的假设-验证循环、跨领域知识图谱集成、自动化实验设计

工程落地难点: 计算资源的弹性调度、实验数据的版本管理、跨团队协作的可复现性

信息检索与问答

当前瓶颈: 复杂查询的意图理解偏差，多跳推理的幻觉累积，实时性保证不足

突破方向: 多跳推理链的可信度传播、检索策略的自适应调整、知识时效性管理

工程落地难点: 索引更新的实时性、多源数据的去重与融合、检索延迟与质量的平衡

决策支持

当前瓶颈: 决策可解释性不足，风险量化评估粗糙，人类偏好对齐不精确

突破方向: 因果推理增强的决策解释、多目标优化的帕累托前沿探索、决策敏感度分析

工程落地难点: 数据新鲜度与推理延迟的权衡、决策过程的可审计性、多维度指标聚合

创意与内容

相关论文: 2605.25964 Kimi解读, 2605.25632 Kimi解读

当前瓶颈: 原创性评估标准缺失，长程一致性维护困难，个性化与多样性的平衡

突破方向: 创意评估的自动化指标、风格一致性建模、人机协作的创意增强

工程落地难点: 内容安全审核的自动化、版权合规检测、A/B测试与效果归因

场景交叉洞察

跨场景论文: 4 篇论文覆盖多个应用场景，表明通用 Agent 能力正在成为研究焦点
- 2605.26114 Kimi解读覆盖: 科学研究 + 信息检索与问答
- 2605.26081 Kimi解读覆盖: 科学研究 + 信息检索与问答
- 2605.25964 Kimi解读覆盖: 科学研究 + 创意与内容 + 决策支持
- 2605.25720 Kimi解读覆盖: 信息检索与问答 + 决策支持
通用与专用的张力: 4 个应用场景共享 Memory、Planning、Tool Use 等基础能力，但每个场景对它们的侧重不同——这要求架构层面做好「核心能力复用 + 场景特化扩展」的分层设计
AI for Science 加速: Agent 正在从辅助工具升级为科研流程的核心驱动力，但「AI 做假设、人类做验证」的分工模式短期内不会改变

3️⃣ 思想、趋势与方法论

范式层面的思想转变

从工具到智能体: 今日论文进一步验证了一个关键转变——Agent 正在从「被调用的工具」进化为「自主行动的智能体」。这意味着系统设计的核心不再是「如何编排工具」，而是「如何设定目标和约束，让 Agent 自主决策」。工程上，这要求从声明式 Pipeline 转向目标驱动的自主规划架构。

从无状态到有状态: Memory 研究的持续升温揭示了一个根本认知——智能不是单次推理的产物，而是经验积累的结果。从工程角度看，这意味着 Agent 系统必须有持久化的状态管理，包括经验存储、失败记忆、成功模式沉淀。架构上需要回答：记忆何时写入、如何压缩、何时遗忘、如何检索。

从规则到涌现: 强化学习在 Agent 训练中的应用表明，我们正在从「人类编写规则」转向「Agent 从交互中学习策略」。这是一个认识论层面的转变——我们不再试图穷举所有规则，而是设计奖励函数让 Agent 自行探索。但这也带来了新的挑战：奖励函数的设计本身就是一项需要领域专家知识的创造性工作。

方法论演进

规划方法论: 从 ReAct 的简单 interleaving，到 Tree of Thought 的搜索式规划，再到今天的层次化/自适应规划，规划方法论正在从「prompt 技巧」进化为「系统化算法」。关键趋势：(1) 规划不再是一次性的，而是持续修正的；(2) 规划粒度根据任务复杂度自适应调整；(3) 规划过程本身可以被学习和优化。

记忆方法论: RAG 作为记忆的初级形态正在被更系统化的记忆架构取代。方法论演进路径：简单向量检索 → 混合检索（向量+关键词+图谱）→ 分层记忆（工作记忆/情景记忆/语义记忆）→ 主动记忆管理（遗忘、压缩、整合）。工程上，这意味着 Memory 不再是一个 embedding 查询，而是一个有写入策略、检索策略、管理策略的完整子系统。

评估方法论: 评估正在从「单一任务准确率」走向「多维度能力画像」。新趋势包括：(1) 过程评估而不仅是结果评估；(2) 长程任务中的累积误差评估；(3) 安全边界与鲁棒性的系统性评估；(4) 人类偏好对齐的量化评估。这要求评估框架从静态测试集进化为动态评测环境。

技术趋势研判

🔥 Agent 自进化: Agent 正在获得修改自身行为代码或策略的能力。这不仅是「学习」，而是「自我重写」——Agent 可以调整自己的 prompt、工具定义、甚至决策逻辑。工程上这带来了新问题：如何确保自进化方向与人类意图一致？如何回滚有害的自行修改？如何评估自进化的收益？

📊 评估驱动开发: 无论具体方向，今日论文共同反映的趋势是——评估正在前置。不再是「先做系统再找 benchmark」，而是「基于 benchmark 设计系统」。这种评估驱动的开发方式将加速 Agent 能力的可衡量进步。

🔧 工具生态标准化: MCP 等协议的出现暗示工具接口正在走向标准化。这类似于 API 标准化对微服务架构的推动——当工具接口有了统一标准，Agent 就可以从「预定义工具集」升级为「动态发现和使用工具」，极大地扩展了能力边界。

4️⃣ 关键洞察

Memory 正在从「检索」走向「推理」 — 单纯的向量相似度检索已不够用，新研究关注记忆的推理整合：什么时候该用哪段记忆、多段记忆之间如何推理、记忆冲突如何消解。这对工程架构的启示是：Memory 模块需要一个「推理层」而非仅仅是「存储+检索」。
Planning 的瓶颈从「生成计划」转向「执行监控」 — 生成一个看起来合理的计划已经不难，难的是在执行过程中持续监控偏差、动态调整、优雅降级。这要求 Planning 系统与 Execution 系统之间有紧密的反馈回路，而非一次规划全程执行。
Evaluation 正在从「评分」进化为「诊断」 — 好的评估不只是给一个分数，而是告诉你「哪里好、哪里差、差的原因是什么」。这种诊断式评估才能指导有效的改进。工程上意味着评估系统需要输出结构化的诊断报告，而非单一的 accuracy 数值。
Tool Use 从「调用」进化为「编排」 — 单个工具的调用已基本解决，新挑战是多工具的编排：工具间的依赖关系、执行顺序、错误传播、结果聚合。这本质上是一个分布式系统问题，需要借鉴工作流引擎和数据流编程的思想。
Agent 的「能力天花板」由最弱的子模块决定 — 一个 Agent 的实际表现不取决于最强的能力，而取决于最弱的环节。评估和优化应聚焦瓶颈模块，而非持续打磨已经够用的部分。

5️⃣ 工程实践深挖

系统架构实践

记忆架构: 分层记忆已从理论走向实践。推荐架构：

Working Memory (对话上下文, 窗口内)
    ↓ 压缩/摘要
Episodic Memory (事件序列, 向量+时序索引)
    ↓ 抽象/泛化
Semantic Memory (知识图谱, 结构化)

工程关键：每层有不同的写入频率、检索策略和遗忘策略。Working Memory 随会话清除，Episodic Memory 需要定期压缩（保留关键转折点），Semantic Memory 需要一致性校验。

规划架构: 实践中有效的规划架构是「分层规划 + 执行反馈」：

战略层: 将目标分解为子目标序列（低频更新）
战术层: 将子目标分解为可执行步骤（中频更新）
执行层: 逐步执行并收集反馈（高频更新）
监控层: 检测偏差并触发重规划（事件驱动）

关键设计：每层有独立的超时和重试策略，避免单层失败导致整个计划崩溃。

数据与训练工程

评估数据工程: 构建有效评估集的工程要点：

难度梯度: 从简单到困难的梯度分布，避免全是简单或全是难题
多样性覆盖: 覆盖不同子能力、不同场景、不同边界条件
抗污染: 训练数据和评估数据的严格隔离，防止数据泄露
版本管理: 评估集需要版本化和增量更新，避免对固定测试集过拟合

记忆数据工程: Memory 系统的数据管线要点：

写入质量控制: 不是所有交互都值得记忆，需要相关性/重要性过滤
去重与合并: 相似记忆需要合并而非重复存储，避免检索结果冗余
时效性标注: 记忆需要时间戳和有效期，过时信息应降权或归档
索引策略: 多模态索引（向量、关键词、图谱）各有优劣，混合索引是工程最优解

部署与运维考量

监控与可观测性: Agent 系统的监控比传统软件更复杂：

行为监控: 不仅监控延迟/错误率，还要监控 Agent 的决策路径和工具使用模式
漂移检测: Agent 行为可能随时间漂移（prompt 磨损、数据分布变化），需要基线对比
成本追踪: LLM 调用成本是可变成本，需要按任务/用户/时段的成本分摊
安全审计: 所有对外操作（API 调用、消息发送）需要完整审计日志

弹性设计: Agent 系统必须具备弹性：

LLM 降级: 主模型不可用时切换备用模型，接受质量下降但保证可用性
工具降级: 外部 API 失败时使用缓存结果或简化方案
记忆降级: 向量数据库不可用时回退到关键词检索
优雅超时: 长时间运行的任务需要检查点和恢复机制

性能与成本权衡

延迟优化: Agent 系统的延迟主要来自 LLM 推理和工具调用：

流式输出: 使用 streaming 让用户尽早看到中间结果
推测执行: 对可能需要的工具调用做预取，减少串行等待
缓存策略: 相似查询的 LLM 响应可以做语义缓存（embedding 相似度 > 阈值则复用）
模型路由: 简单任务用小模型，复杂任务用大模型，降低平均延迟和成本

成本控制: LLM 调用成本是 Agent 系统最大的可变成本：

Token 预算: 为每个任务设定 token 上限，避免无限循环消耗
Prompt 优化: 精简 system prompt，减少每次调用的固定开销
批处理: 非实时任务可以攒批后用更便宜的 batch API
模型蒸馏: 对高频场景，用大模型生成训练数据蒸馏小模型

6️⃣ 架构级结论

Agent 架构的第一性原理是「感知-决策-行动-反馈」循环 — 任何 Agent 子系统（记忆、规划、工具）都应遵循这个闭环。开环设计（只管输出不管结果）是工程事故的主要来源。
Memory 不是数据库，是认知系统 — 把 Memory 当数据库设计（只管存取）会错失核心价值。Memory 需要主动管理：写入过滤、压缩整合、遗忘机制、冲突消解。这些认知层面的操作才是 Memory 系统区分于存储系统的关键。
Planning 的价值不在完美计划，而在快速适应 — 追求完美的初始规划是徒劳的，因为真实环境充满不确定性。更好的策略是：快速生成满意计划 → 执行 → 检测偏差 → 快速调整。Planning 系统的核心指标不是计划质量，而是适应速度。
评估是架构决策的基石 — 没有评估，所有架构决策都是猜测。建立持续评估机制，用数据而非直觉驱动架构演进。评估框架本身也是架构的一部分，需要与系统同步迭代。

7️⃣ 行动建议

记忆系统

设计分层记忆架构：Working → Episodic → Semantic，每层独立的写入/检索/遗忘策略
实现记忆质量评分机制，低质量记忆自动降权或归档
建立记忆一致性校验，防止矛盾记忆共存
设计记忆压缩策略：保留关键转折点，丢弃冗余细节

规划系统

实现分层规划：战略/战术/执行三层，各自独立更新
添加执行监控系统：偏差检测 → 告警 → 自动重规划
设计规划超时和降级策略，避免陷入无限规划循环
建立规划效果回溯机制，用执行结果反哺规划策略优化

工具系统

建立工具注册表，支持运行时动态发现和加载
实现工具编排引擎：支持 DAG 依赖、并行执行、错误隔离
设计工具使用审计日志，追踪每次调用的输入/输出/耗时/成本
建立工具健康检查机制，自动禁用不可用的工具并通知下游

通用建议

建立持续评估流水线，每次架构变更都自动运行核心评估集
实现 LLM 调用的成本追踪和预算控制
设计统一的可观测性框架：行为日志 + 决策追踪 + 性能指标
建立 Agent 行为的回放和调试工具，支持时间旅行调试

📚 附录：论文完整列表

MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research Kimi解读 — other | 科学研究, 信息检索与问答
From Model Scaling to System Scaling: Scaling the Harness in Agentic AI Kimi解读 — memory
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World Kimi解读 — evaluation
VeriTrace: Evolving Mental Models for Deep Research Agents Kimi解读 — other | 科学研究, 信息检索与问答
CITYREP: A Unified Benchmark for Urban Representations Across Cities, Tasks, and Modalities Kimi解读 — evaluation
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists Kimi解读 — other | 科学研究
LECTOR: Joint Optimization of Scientific Reasoning Graphs and Introduction Generation Kimi解读 — planning, engineering | 科学研究, 创意与内容, 决策支持
Explore Before You Solve: The Speed–Depth Trade-off in Epistemic Agents for ARC-AGI-3 Kimi解读 — other
MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning Kimi解读 — planning
Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network Kimi解读 — other
Agent-Centric Social Trajectory Prediction: A Free Energy Principle Perspective Kimi解读 — other
Learning to Search and Searching to Learn for Generalization in Planning Kimi解读 — planning | 信息检索与问答, 决策支持
FLOATBench: A Dataset and Benchmark for Floating Offshore Wind Turbine Tower Fatigue Kimi解读 — evaluation
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions Kimi解读 — evaluation
Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents Kimi解读 — tool, engineering | 创意与内容
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents Kimi解读 — other
Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations Kimi解读 — planning | 决策支持
Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy Kimi解读 — planning

本报告由 OpenClaw 自动生成 · 面向 Agent 架构师与工程师，提供决策与工程参考

Agent 最新研究综述（2026-05-26）

📊 今日概况

研究方向分布

应用场景覆盖

1️⃣ 今日论文列表（按研究方向）

📎 Other / 其他（7 篇）

1. MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

2. VeriTrace: Evolving Mental Models for Deep Research Agents

3. CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

4. Explore Before You Solve: The Speed–Depth Trade-off in Epistemic Agents for ARC-AGI-3

5. Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network

6. Agent-Centric Social Trajectory Prediction: A Free Energy Principle Perspective

7. CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

🎯 Planning / 规划推理（5 篇）

1. LECTOR: Joint Optimization of Scientific Reasoning Graphs and Introduction Generation

2. MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning

3. Learning to Search and Searching to Learn for Generalization in Planning

4. Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations

5. Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy

📊 Evaluation / 评估基准（4 篇）

1. Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

2. CITYREP: A Unified Benchmark for Urban Representations Across Cities, Tasks, and Modalities

3. FLOATBench: A Dataset and Benchmark for Floating Offshore Wind Turbine Tower Fatigue

4. AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

🏗️ Engineering / 工程架构（2 篇）

1. LECTOR: Joint Optimization of Scientific Reasoning Graphs and Introduction Generation

2. Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents

🧠 Memory / 记忆系统（1 篇）

1. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

🔧 Tool Use / 工具使用（1 篇）

1. Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents

2️⃣ 应用场景深度分析

科学研究

信息检索与问答

决策支持

创意与内容

场景交叉洞察

3️⃣ 思想、趋势与方法论

范式层面的思想转变

方法论演进

技术趋势研判

4️⃣ 关键洞察

5️⃣ 工程实践深挖

系统架构实践

数据与训练工程

部署与运维考量

性能与成本权衡

6️⃣ 架构级结论

7️⃣ 行动建议

记忆系统

规划系统

工具系统

通用建议

📚 附录：论文完整列表