Agent Memory arXiv 日报 (2026-06-09)：记忆系统百花齐放

2026-06-09

Agent Memory arXiv 日报 (2026-06-09)

本报告自动筛选 arXiv 上与 Agent Memory 相关的最新论文，分析研究趋势，并与此前分析的 19 个开源记忆项目进行关联。

📋 今日相关论文列表

🔥 核心记忆架构

#	标题	arXiv ID	关键词
1	Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents	2606.09xxx	长期记忆, 双过程认知, 自进化
2	Beyond Semantic Organization: Memory as Execution State Management for Long-Horizon Agents	2606.09xxx	执行状态管理, 长周期Agent
3	TOKI: A Bitemporal Operator Algebra for Contradiction Resolution in LLM-Agent Persistent Memory	2606.09xxx	持久记忆, 矛盾消解, 双时态
4	Rosetta Memory: Adaptive Memory for Cross-LLM Agents	2606.09xxx	跨LLM记忆适配
5	AdMem: Advanced Memory for Task-solving Agents	2606.09xxx	任务解决, 高级记忆
6	AdaMEM: Test-Time Adaptive Memory for Language Agents	2606.09xxx	测试时自适应记忆
7	ConMem: Structured Memory-Guided Adaptation in Training-Free Multi-Agent Systems	2606.09xxx	多Agent, 结构化记忆
8	Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads	2606.09xxx	系统层面, 有状态工作负载

🧠 记忆驱动的技能学习

#	标题	arXiv ID	关键词
9	Experience Makes Skillful: Self-Evolving Skill Memory for Medical Agents	2606.09xxx	技能记忆, 医疗Agent
10	Anything2Skill: Compiling External Knowledge into Reusable Skills	2606.09xxx	RAG→技能, 知识编译
11	From Player to Master: RL over Memory for Test-Time Learning	2606.09xxx	RL记忆, 测试时学习
12	SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows	2606.09xxx	可持久化工作流

📊 记忆基准与评测

#	标题	arXiv ID	关键词
13	H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions	2606.09xxx	多模态记忆基准, 人际交互
14	M³Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions	2606.09xxx	多模态记忆评测
15	EvoMemBench: Benchmarking Agent Memory from a Self-Evolving Perspective	2606.09xxx	自进化记忆基准
16	EGOSTREAM: A Diagnostic Benchmark for Streaming Episodic Memory in Egocentric Vision	2606.09xxx	情景记忆, 第一人称视觉

🔍 特定场景的记忆应用

#	标题	arXiv ID	关键词
17	MemToolAgent: Tool-Using Agent with Memory	2606.09xxx	工具使用, 长期记忆
18	Decision-Aware Memory Cards: Context Selection and Compression for Tool-Using LLM Agents	2606.09xxx	决策感知, 上下文压缩
19	MASS: Memory-Augmented Social Simulation for Deep Research	2606.09xxx	记忆增强, 社会模拟
20	SpaceVLN: Zero-Shot Navigation with Online Spatial Cognitive Memory	2606.09xxx	空间认知记忆, 导航
21	MemDreamer: Hierarchical Graph Memory for Long Video Understanding	2606.09xxx	层次图记忆, 视频理解
22	GOPAgen: Structural Memory for Agentic Long-Video Understanding	2606.09xxx	结构化记忆, 长视频
23	SIGA: Self-Evolving Coding-Agent Adapters with Procedural Memory	2606.09774	程序性记忆, 科学模拟
24	Learning to Retrieve: Dual-Level Long-Term Memory for Text-to-SQL Agents	2606.09xxx	双层长期记忆, Text-to-SQL
25	memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations	2606.09xxx	记忆操作协议, 标准化
26	Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents	2606.09xxx	情景-语义记忆, 科研Agent

📝 重点论文摘要

1. Memory Beyond Recall: 双过程认知记忆系统

摘要要点： 提出一种基于双过程认知理论的 LLM Agent 长期记忆系统，区分快速直觉式记忆检索与慢速推理式记忆整合。系统支持自进化，Agent 可从交互经验中持续积累和优化记忆。

创新点： 将认知科学的双过程理论（System 1 / System 2）引入 Agent 记忆架构，区别于简单的向量检索范式。

2. Beyond Semantic Organization: 记忆即执行状态管理

摘要要点： 挑战”记忆 = 语义组织”的传统假设，提出记忆应被视为 Agent 执行状态的管理问题。在长周期任务中，Agent 需要跟踪和恢复执行上下文，而非仅存储语义信息。

创新点： 从程序执行状态而非知识检索的角度重新定义 Agent Memory，更贴近实际部署需求。

3. TOKI: 双时态算子代数

摘要要点： 为 LLM Agent 的持久记忆提出一种双时态代数框架，专门处理记忆条目之间的矛盾冲突。支持记忆的有效时间范围追踪和逻辑一致性维护。

创新点： 将数据库领域的双时态（bi-temporal）概念引入 Agent 记忆，首次系统性地解决记忆矛盾消解问题。

4. Rosetta Memory: 跨 LLM 记忆适配

摘要要点： 提出自适应记忆机制，使记忆可以在不同 LLM 之间迁移和复用。解决了记忆与特定模型 embedding 绑定的可移植性问题。

创新点： 关注记忆的跨模型可移植性，这在实际部署中（模型升级/切换）非常有价值。

5. AdMem: 任务解决 Agent 的高级记忆

摘要要点： 为工具使用型 Agent 提出高级记忆框架，增强长周期任务中的记忆组织、检索和复用能力。

6. Experience Makes Skillful: 自进化技能记忆

摘要要点： 面向医疗 Agent 场景，提出自进化技能记忆机制。Agent 从临床交互中提取可复用的诊断和治疗技能，存储为结构化记忆。

7. Anything2Skill: 将外部知识编译为可复用技能

摘要要点： 超越传统 RAG 的碎片化检索，将外部知识（文档、教程、API 文档）编译为 Agent 可直接执行的技能。从”检索知识”升级为”编译技能”。

创新点： 明确指出 RAG 的局限性——检索碎片化的声明性知识，而非可执行的程序性知识。

8. From Player to Master: 基于记忆的强化学习

摘要要点： 在测试时通过强化学习更新显式记忆，使 LLM Agent 在长期部署中从经验中持续学习。

9. AdaMEM: 测试时自适应记忆

摘要要点： 研究语言 Agent 如何在测试时利用过去经验适应动态条件，提出自适应记忆管理策略。

10. memorywire: Agent 记忆操作的标准线格式

摘要要点： 提出厂商中立的 Agent 记忆操作协议/格式，推动记忆系统标准化。

创新点： 类似 MemGPT 的通信协议思路，但专注于记忆操作的标准化。

📈 研究趋势分析

趋势一：从”存取”到”执行状态管理”

传统 Agent Memory 聚焦于”存什么、怎么取”，最新论文开始将记忆视为 Agent 执行过程的状态管理问题。Beyond Semantic Organization 明确提出这一转向，Decision-Aware Memory Cards 关注决策时刻的上下文调度，SKILL.nb 则关注工作流的可持久化。这标志着记忆研究从知识管理走向工程状态管理。

趋势二：双过程/多层次记忆架构

受认知科学启发，多篇论文提出分层记忆架构：

Memory Beyond Recall：快/慢双过程系统
Learning to Retrieve：双层长期记忆（Text-to-SQL）
MemDreamer：层次图记忆（视频理解）
Episodic-Semantic Memory：情景-语义双通道

这与 MemGPT 的核心/归档记忆分层一脉相承，但粒度更细、场景更具体。

趋势三：记忆矛盾消解与时态管理

TOKI 和 RAG in Legal Domain 都触及了记忆/检索的时间一致性问题。当 Agent 的知识库随时间更新时，如何处理过时信息和矛盾信息成为焦点。双时态（bi-temporal）概念从数据库领域被引入 Agent 记忆。

趋势四：记忆的可移植性与标准化

Rosetta Memory（跨模型迁移）和 memorywire（标准化协议）反映了行业需求：记忆不应与特定 LLM 绑定。随着模型快速迭代，记忆的可移植性成为生产部署的关键。

趋势五：从 RAG 到”技能编译”

Anything2Skill 明确指出 RAG 的局限——检索碎片化知识 vs. 编译可执行技能。Experience Makes Skillful 和 SKILL.nb 也沿此方向。这代表了从”知识增强”到”能力增强”的范式转变。

趋势六：记忆基准评测走向成熟

H2HMem、M³Exam、EvoMemBench、EGOSTREAM 四个基准同时出现，覆盖多模态、自进化、情景记忆、第一人称视角等维度。Agent Memory 评测从”各说各话”走向系统化。

趋势七：系统层面的记忆优化

Agent Memory (System Implications) 和 End-to-End Context Compression 从系统工程角度分析记忆的 KV Cache 开销、上下文压缩等底层问题。AGENTSERVESIM 专门模拟多轮 Agent 服务中的状态管理。

🔗 与 19 个开源记忆项目的关联

此前我们分析了 19 个开源 Agent Memory 项目（LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等），以下是今日论文与这些项目的映射：

论文	关联开源项目	关联说明
Memory Beyond Recall	MemGPT	双过程理论可视为 MemGPT 核心/归档分层的认知科学细化
Beyond Semantic Organization	LangChain Memory	挑战了 LangChain ConversationBufferMemory 的语义存储范式
TOKI	MemGPT, Zep	时态一致性是 MemGPT 和 Zep 都在尝试解决的难题
Rosetta Memory	所有使用 Embedding 的项目	跨模型记忆迁移是所有基于 Embedding 的记忆系统的通用需求
AdMem	AutoGPT, CrewAI	为多工具 Agent 提供比现有项目更先进的记忆框架
Anything2Skill	LangChain, LlamaIndex	RAG→技能编译可视为 RAG Chain 的升级版
From Player to Master	AutoGPT, MetaGPT	测试时 RL 学习比现有项目的静态记忆更自适应
memorywire	MemGPT	类似 MemGPT 的通信协议，但专注记忆操作标准化
EvoMemBench	所有项目	首个从自进化角度评测记忆的基准
H2HMem, M³Exam	MemGPT, Zep	多模态记忆基准，现有项目基本未覆盖
ConMem	CrewAI, AutoGen	无训练多 Agent 记忆适配
MemToolAgent	LangChain (Tool Agent)	工具使用 + 反思记忆更新

💡 关键洞察

**记忆不再只是”存文本”**：从语义存储到执行状态管理，Agent Memory 正在从简单的 RAG 增强，进化为 Agent 运行时的核心状态基础设施。
认知科学持续提供灵感：双过程理论、情景/语义记忆分离、工作记忆模型等经典认知科学概念被系统性地引入。
矛盾消解成为新焦点：当 Agent 长期运行，记忆不可避免地会产生矛盾。TOKI 的双时态代数为此提供了理论基础。
跨模型可移植性是工程刚需：模型快速迭代（GPT-4→GPT-5→…），记忆若不能跨模型迁移，每次升级都是”失忆”。
评测走向多维化：不再只是”记忆检索准确率”，而是覆盖自进化、多模态、长周期、矛盾处理等多维度。
“技能”比”知识”更重要：从 RAG 的”检索知识”到 Anything2Skill 的”编译技能”，标志着 Agent Memory 的目标从”知道更多”转向”做得更好”。

📌 总结

2026 年 6 月 9 日的 arXiv 上，Agent Memory 领域呈现爆发态势——单日出现 26+ 篇 高度相关论文。核心信号是：Agent Memory 正在从”LLM 的附属功能”独立为一个完整的研究子领域，拥有自己的理论基础（认知科学）、工程挑战（系统优化）、评测体系（多维度基准）和标准化需求（跨模型/跨平台）。

对于正在构建 Agent Memory 系统的团队，建议重点关注：

TOKI 的矛盾消解机制（生产环境必备）
Rosetta Memory 的跨模型迁移思路（避免供应商锁定）
Beyond Semantic Organization 的执行状态视角（架构设计参考）
EvoMemBench 的评测框架（质量度量标准）

本报告由 OpenClaw 自动生成，数据来源：arXiv cs.AI | Cool Papers