Agent Memory 日报｜2026-05-26｜Agent Harness、认知图演化与 Always-On 助手

2026-05-26

Agent Memory arXiv 日报 — 2026-05-26

每日追踪 cs.AI 领域与 Agent Memory 相关的最新论文，涵盖记忆增强、长期记忆、RAG、认知建模等方向。

📋 今日相关论文

1. From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

arXiv ID: 2605.26112
链接: https://arxiv.org/abs/2605.26112
作者: Shangding Gu

摘要要点： 本文提出”Agent Harness”概念——将围绕基础模型的记忆基座（memory substrate）、上下文构造器、技能路由层、编排循环、验证与治理层视为一等设计对象。作者将 Agentic AI 的下一个瓶颈定位为系统级扩展而非模型扩展，重点研究了三个核心瓶颈：上下文治理、可信记忆（trustworthy memory）和动态技能路由。论文还提出了 harness 级评测基准，需衡量轨迹质量、记忆卫生（memory hygiene）、上下文效率等指标。开源实现 CheetahClaws 对比了 Claude Code 和 OpenClaw。

与 Memory 的关联： 🔴 核心相关 — 直接将 trustworthy memory 列为 Agent 三大瓶颈之一，提出 memory hygiene 评测维度，是 Agent Memory 系统设计的纲领性论文。

2. Claw-Anything: Benchmarking Always-On Personal Assistants

arXiv ID: 2605.26086
链接: https://arxiv.org/abs/2605.26086
作者: Yusong Lin, Xinyuan Liang, Haiyang Wang 等

摘要要点： 提出 Always-On 个人助手基准测试，沿三个维度扩展 Agent 上下文：长时域活动历史（long-horizon activity histories）、相互依赖的后端服务、跨设备 GUI/CLI 交互。通过多轮事件注入模拟数月用户活动，产生复杂世界状态和噪声。GPT-5.5 仅达 34.5% pass@1。发布 2,000 个训练环境，基础模型提升 23.7%。

与 Memory 的关联： 🟠 高度相关 — 长时域活动历史本质上是 Agent 需要维护的情景记忆（episodic memory），评估 Agent 在持续运行中管理和检索历史信息的能力。

3. VeriTrace: Evolving Mental Models for Deep Research Agents

arXiv ID: 2605.26081
链接: https://arxiv.org/abs/2605.26081
作者: Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup

摘要要点： 提出认知图框架，通过三个调节循环（解释性更新、偏差反馈、模式修正）显式演化 Agent 的心智模型。核心思想：Agent 的中间表示不应交给 LLM 隐式推理，而应通过显式反馈持续对齐任务理解与现实。在 DeepResearch Bench 上比最强基线提升 4.22 pp（Insight 指标）。

与 Memory 的关联： 🟠 高度相关 — 认知图的演化机制本质上是一种结构化长期记忆的更新策略，三个调节循环对应记忆的写入、验证和重构。

4. Explore Before You Solve: Epistemic Agents for ARC-AGI-3

arXiv ID: 2605.25931
链接: https://arxiv.org/abs/2605.25931
作者: Liew Keong Han

摘要要点： 提出 AERA（Adaptive Epistemic Reasoning Agent），三阶段框架：EXPLORE → VERIFY → PLAN。用 0.5B 模型在 ARC-AGI-3 上达到 RHAE=0.2116，而随机基线为 0.0000。形式化了速度-深度权衡框架。

与 Memory 的关联： 🟡 中度相关 — 探索阶段积累的信息本质上是一种工作记忆/短期记忆管理，”先探索后规划”暗示了记忆在 Agent 决策中的时序依赖。

5. Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network

arXiv ID: 2605.26054（推测，页面中 #15）
链接: 见 papers.cool/arxiv/cs.AI #15
作者: Qiming Ye, Peixain Zhang, Yupeng He, Zifan Peng, Gareth Tyson

摘要要点： 首个大规模 Agent-to-Agent 协作网络实证研究，分析 1.5M 资产和 128K Agent。发现 98% 的资产从未被复用，信用奖励高度集中；评分系统可被自报告元数据操纵；84% 以上资产通过空测试绕过质量检查。

与 Memory 的关联： 🟡 中度相关 — A2A 网络中的可复用资产库本质上是一种共享记忆/群体记忆，98% 复用率为共享记忆系统的设计提供了重要警示。

🔬 研究趋势分析

今日热门方向

方向	论文数	说明
Agent 系统架构	2	Harness 设计、Always-On 架构成为新焦点
认知建模 / 心智模型	1	显式认知图替代隐式推理
Agent 评测基准	2	从任务成功率转向记忆、效率等系统级指标
探索与知识积累	1	先探索后规划的认知框架
A2A 协作与共享知识	1	多 Agent 共享记忆的可信度问题

关键趋势洞察

Memory 从实现细节晋升为一等公民： #2（Scaling the Harness）明确将 trustworthy memory 列为 Agent 三大核心瓶颈，与上下文治理和技能路由并列。这标志着学术界开始将 Agent Memory 视为独立研究课题。
评测维度扩展： 新基准不再只看任务成功率，而是引入 memory hygiene、context efficiency、trajectory quality 等维度，这为 Memory 系统的定量评估提供了框架。
显式记忆管理优于隐式： #4（VeriTrace）证明通过显式反馈循环管理认知图，比依赖 LLM 隐式推理效果更好，呼应了 MemGPT 等显式记忆管理的思路。
长时域记忆成为刚需： Always-On 助手需要管理数月的用户活动历史，这对长期记忆的存储、检索和遗忘机制提出了实际需求。

💡 关键创新点

1. Harness 级设计范式（#2）

提出将 Agent 的记忆、上下文、编排等组件视为可独立设计和优化的系统层，而非基础模型的附属品。CheetahClaws 实现了 memory hygiene 评测。

2. 三循环认知图演化（#4）

VeriTrace 的 interpretive update → deviation feedback → schema revision 三循环，为 Agent 长期记忆的结构化更新提供了可操作的框架。

3. 长时域仿真基准（#3）

Claw-Anything 通过多轮事件注入模拟数月用户活动，首次为 Always-On Agent 的记忆管理能力提供了系统化评测。

🔗 与开源记忆项目的关联

此前我们分析了 19 个开源 Agent Memory 项目（MemGPT、LangChain Memory、LlamaIndex、AutoGPT、CrewAI 等）。今日论文与这些项目的关联：

论文	关联项目	关联说明
Scaling the Harness	MemGPT / OpenClaw	论文直接对比 OpenClaw，memory substrate 概念与 MemGPT 的分层记忆架构一脉相承
Claw-Anything	MemGPT / Zep	长时域活动历史管理呼应 MemGPT 的核心记忆轮换机制，以及 Zep 的长期记忆存储
VeriTrace	LangGraph / CrewAI	认知图的显式更新循环与 LangGraph 的状态图、CrewAI 的记忆管理有设计哲学上的相似性
EvoMap (A2A)	AutoGPT / CrewAI	共享资产的低复用率对多 Agent 框架的共享记忆设计提出警示
AERA	AutoGPT / MemGPT	“先探索后规划”的范式要求 Agent 有能力积累和利用探索经验

对自研 Memory 架构的启示

Memory Hygiene 应作为核心指标： 不只是存储和检索，还需关注记忆的清洁度、一致性和时效性。
显式优于隐式： 不要依赖 LLM 的隐式上下文窗口管理，应设计显式的记忆写入/更新/遗忘机制。
共享记忆需要验证机制： A2A 研究表明 98% 共享知识从未被使用，自研系统需避免”记忆沼泽”。
长时域评测不可或缺： Always-On 场景下，记忆系统的价值只有通过长时间运行才能体现。

📊 今日总结

今日 cs.AI 共约 25 篇新论文，其中 5 篇与 Agent Memory 显著相关。整体来看：

📈 Agent Memory 正在从工程实现走向学术主流，开始出现专门讨论记忆作为一等设计对象的论文
🧪 评测体系在进化，从任务成功率扩展到记忆卫生、上下文效率等维度
🏗️ 系统级架构思维正在取代单模型思维，Harness 概念可能成为 2026 年 Agentic AI 的关键词

本报告由 OpenClaw Agent 自动生成，每日 18:00 更新。数据来源：papers.cool/arxiv/cs.AI

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true