Agent Memory arXiv 日报 — 2026-06-23
本报告自动筛选 arXiv cs.AI 及相关分类中与 Agent Memory 相关的最新论文,涵盖记忆增强、长期记忆、程序性记忆、RAG、情景记忆等方向。
📋 今日相关论文列表
1. Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
- arXiv ID: 2606.23122
- 链接: https://arxiv.org/abs/2606.23122
- 作者: Julia Belikova, Rauf Parchiev, Evgeny Egorov 等
- 摘要要点: 提出 AFTER 基准(382 个企业任务,6 种职业角色,22 项程序性技能),评估 LLM Agent 的程序性记忆在跨任务、跨角色、跨模型之间的迁移能力。实验发现单轮精炼提升 3.7-6.7 分,来自多模型执行轨迹的进化技能达到 73.1% 的跨模型测试准确率。部分技能具有广泛泛化性,另一些则角色特化。
- 关键词: Procedural Memory, Skill Transfer, Benchmark
2. Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=Root+Memories
- 作者: Hongxun Ding, Xiang Yu, Chengbing Wang 等
- 摘要要点: 研究个性化 LLM 中的隐式逻辑记忆检索问题,提出”根记忆”(Root Memories)概念,构建基准评估 LLM 从历史交互中检索隐含逻辑关系的能力。
- 关键词: Implicit Memory, Logical Retrieval, Personalization
3. Memory Contagion: Cross-Temporal Propagation of Evaluator Bias via Agent Memory
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=Memory+Contagion
- 摘要要点: 揭示 LLM Agent 记忆系统中的一种新型偏差传播机制——“记忆传染”。评估者偏见通过 Agent 记忆跨时间步传播并放大,影响后续决策质量。这一发现对 Agent 记忆系统设计有重要安全启示。
- 关键词: Memory Bias, Contagion, Safety
4. DynamicMem: A Long-Horizon Memory Benchmark in Real-World Settings
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=DynamicMem
- 作者: Wenya Xie, Shengming Zhou, Zelin Li 等
- 摘要要点: 提出面向真实场景的长时程记忆基准 DynamicMem,评估 LLM 在长时间跨度下的记忆动态管理能力,填补现有基准在真实世界长时程评估上的空白。
- 关键词: Long-Horizon, Benchmark, Real-World
5. RaMem: Contextual Reinstatement for Long-term Agentic Memory
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=RaMem
- 作者: Wei Yang, Bryce Kan, Shixuan Li 等
- 摘要要点: 借鉴认知科学中”情境重现”(Contextual Reinstatement) 概念,提出 RaMem 方法用于 Agent 长期记忆管理。核心思想是检索时重建原始编码情境,提升记忆召回的准确性与相关性。
- 关键词: Contextual Reinstatement, Long-term Memory, Cognitive Science
6. AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents
- arXiv ID: 待确认(2026-06-19 提交)
- 链接: arxiv.org/search/?query=AdaMem
- 作者: Xingyu Chen, Rui Wang, Zhaopeng Tu, Liefeng Bo
- 摘要要点: 提出自适应记忆选择框架 AdaMem,让 Agent 学会”记住什么”。针对个性化长时程场景,通过学习策略动态决定哪些信息值得保留,优于固定规则的记忆管理方案。
- 关键词: Adaptive Memory, Personalization, What to Remember
7. Learning What Not to Forget: Long-Horizon Agent Memory from a Few Kilobytes of Learning
- arXiv ID: 待确认(2026-06-18 提交)
- 链接: arxiv.org/search/?query=Learning+What+Not+to+Forget
- 作者: Nusrat Jahan Lia, Aritra Mazumder
- 摘要要点: 提出 LRE 方法,从完整历史中识别关键信息并逐字提取保留,仅需几 KB 学习量。在匹配预算比较中,LRE 在精度-成本平面上无基线能超越;在简单任务上甚至超过保留全部历史的基线 27%。
- 关键词: Memory Compression, Few-KB Learning, No Eviction
8. HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=HoloAgent-0
- 作者: Xiaolin Zhou, Liu Liu, Tingyang Xiao 等
- 摘要要点: 提出具备 3D 空间记忆的统一具身 Agent 框架 HoloAgent-0,将空间记忆作为 Agent 感知和决策的核心组件,为具身 AI 中的空间推理提供新范式。
- 关键词: Spatial Memory, Embodied Agent, 3D
9. Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies
- arXiv ID: 待确认(2026-06-22 提交)
- 链接: arxiv.org/search/?query=Safety+Self-Evolving+LLM+Agent
- 作者: Ruixuan Lin, Xinhao Deng, Qingming Li 等
- 摘要要点: 分析自进化 LLM Agent 系统的安全威胁,特别关注记忆、工具和架构的自主更新如何引入新型攻击面——对抗性影响被永久编码、跨代自放大、通过共享记忆传播。
- 关键词: Self-Evolving, Safety, Memory Poisoning
10. AlphaMemo: Structured Search-Process Memory for Self-Evolving Alpha Mining Agents
- arXiv ID: 待确认(2026-05-26 提交)
- 链接: arxiv.org/search/?query=AlphaMemo
- 作者: Hang Yu, Zifan Zheng, Jeff Z. Pan 等
- 摘要要点: 为 Alpha 挖掘 Agent 提出结构化搜索过程记忆 AlphaMemo,将搜索过程本身作为可复用的记忆资产,支持 Agent 在迭代搜索中积累和利用经验。
- 关键词: Search Process Memory, Self-Evolving, Alpha Mining
11. GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
- arXiv ID: 待确认(2026-06-17 提交)
- 链接: arxiv.org/search/?query=GateMem
- 作者: Zhe Ren, Yibo Yang, Yimeng Chen 等
- 摘要要点: 提出多主体共享记忆 Agent 的治理基准 GateMem,关注多个 Agent 共享记忆时的访问控制、冲突解决和隐私保护问题。
- 关键词: Memory Governance, Multi-Agent, Shared Memory
12. Multi-Agent Transactive Memory
- arXiv ID: 待确认(2026-06-18 提交)
- 链接: arxiv.org/search/?query=Multi-Agent+Transactive+Memory
- 作者: To Eun Kim, Xuhong He, Dishank Jain 等
- 摘要要点: 将认知科学中的”交互记忆系统”(Transactive Memory) 概念引入多 Agent 系统,研究去中心化部署下 LLM Agent 如何通过交互记忆协调知识分工。
- 关键词: Transactive Memory, Multi-Agent, Decentralization
13. AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts
- arXiv ID: 待确认(2026-06-18 提交)
- 链接: arxiv.org/search/?query=AtomMem
- 作者: Yanyu Yao, Shangze Li, Zhi Zheng 等
- 摘要要点: 提出基于原子事实的记忆系统 AtomMem,将信息分解为最小粒度的原子事实进行存储和检索,解决多会话交互中上下文窗口限制下的信息积累和复用问题。
- 关键词: Atomic Facts, Memory Decomposition, Multi-Session
14. MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
- arXiv ID: 待确认(2026-06-15 提交)
- 链接: arxiv.org/search/?query=MemTrace
- 作者: Xianxuan Long, Zhikai Chen, Shenglai Zeng 等
- 摘要要点: 提出 MemTrace 探针方法,揭示仅用最终准确率评估长期记忆系统的不足。通过细粒度追踪记忆检索过程,发现许多”准确”的回答实际上依赖错误或偏移的记忆路径。
- 关键词: Memory Probing, Evaluation, Long-Term Memory
15. TokenPilot: Cache-Efficient Context Management for LLM Agents
- arXiv ID: 待确认(2026-06-15 提交)
- 链接: arxiv.org/search/?query=TokenPilot
- 作者: Buqiang Xu, Zirui Xue 等
- 摘要要点: 针对 LLM Agent 长时程会话中的上下文膨胀问题,提出缓存高效的上下文管理方案 TokenPilot。通过保持 KV-Cache 布局一致性,避免文本裁剪和动态记忆驱逐引起的 prefix cache 失效。
- 关键词: Cache Efficiency, Context Management, KV-Cache
16. PACMS: Submodular Context Selection as a Pluggable Engine for LLM Agents
- arXiv ID: 待确认(2026-06-18 提交)
- 链接: arxiv.org/search/?query=PACMS+Submodular+Context
- 作者: Manu Ghulyani, Arunabh Singh 等
- 摘要要点: 将子模函数优化引入 Agent 上下文选择,提出可插拔的记忆选择引擎 PACMS,为对话和工具使用 Agent 提供最优上下文子集选择。
- 关键词: Submodular Optimization, Context Selection, Pluggable
17. AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction
- arXiv ID: 2606.23449
- 链接: https://arxiv.org/abs/2606.23449
- 作者: Shanhui Zhao, Jiacheng Liu 等
- 摘要要点: 在 AOSP 上构建 OS 级 Agent 框架,其中包含 Agent 记忆管理机制。将 Agent 视为 OS 一等公民,支持记忆的个性化服务组合、高效接口和安全信息流。
- 关键词: OS-Level Agent, Memory Management, Android
🔬 研究趋势分析
趋势一:记忆基准(Benchmark)井喷
今日论文中至少出现 4 个新的记忆基准:AFTER(程序性记忆)、DynamicMem(长时程)、GateMem(多主体共享记忆治理)、MemTrace(记忆评估探针)。这表明社区正从”能不能记”转向”怎么评”,评估维度更加细粒度。
趋势二:认知科学概念持续渗透
RaMem 的”情境重现”、Multi-Agent Transactive Memory 的”交互记忆系统”、Abstract Representational Geometry 的”海马体抽象几何”——认知科学的记忆理论正在深度影响 Agent Memory 架构设计。
趋势三:”记住什么”比”记多少”更重要
AdaMem(学习记住什么)、LRE(学习不遗忘什么)、AtomMem(原子事实分解)、PACMS(子模上下文选择)——这一系列工作共同指向一个核心洞察:记忆系统的关键瓶颈不是存储容量,而是选择与遗忘策略。
趋势四:多 Agent 记忆治理成为新议题
GateMem(共享记忆治理)、Multi-Agent Transactive Memory(交互记忆)、Memory Contagion(记忆传染)——随着多 Agent 系统普及,记忆的共享、冲突、安全和隐私问题浮出水面。
趋势五:记忆安全从边缘走向中心
Memory Contagion 揭示评估者偏见通过记忆传播放大;Safety in Self-Evolving Agent Systems 分析记忆投毒和跨代自放大;AOHP 关注安全信息流。记忆安全正在成为独立研究方向。
趋势六:程序性记忆与技能进化
AFTER 专注程序性记忆的迁移评估,AlphaMemo 关注搜索过程记忆的结构化复用,Hypothesis-Driven Skill Optimization 优化外部技能。Agent 的”怎么做”记忆正在获得与”知道什么”同等的关注。
💡 关键洞察和创新点
| 论文 | 核心创新 | 潜在影响 |
|---|---|---|
| AFTER | 首个程序性记忆跨模型迁移基准 | 指导生产环境技能库部署策略 |
| RaMem | 认知科学情境重现 → Agent 记忆检索 | 为记忆召回提供理论驱动的改进路径 |
| AdaMem | 自适应学习”记住什么”策略 | 替代固定规则的记忆管理范式 |
| LRE | 几 KB 学习量匹配全历史基线 | 极致压缩的工程可行方案 |
| AtomMem | 原子事实粒度的记忆分解 | 提升检索精度、降低幻觉 |
| Memory Contagion | 揭示记忆传染偏差机制 | 改变 Agent 评估和部署的安全假设 |
| GateMem | 多主体共享记忆治理基准 | 多 Agent 系统的安全基础 |
| TokenPilot | KV-Cache 感知的上下文管理 | 工程落地的推理成本优化 |
| AlphaMemo | 搜索过程即记忆 | 开辟过程记忆新范式 |
🔗 与 19 个开源记忆项目的关联
基于之前对 LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等 19 个开源 Agent Memory 项目的分析,今日论文与已有项目形成以下对照:
| 今日论文 | 关联的开源项目 | 关联说明 |
|---|---|---|
| AtomMem | MemGPT / Letta | MemGPT 的核心记忆架构基于对话段和召回段,AtomMem 提出更细粒度的原子事实分解,可作为 MemGPT 记忆层的改进方案 |
| RaMem | LangChain Memory | LangChain 的 ConversationBufferMemory 等缺乏情境重现机制,RaMem 的认知科学方法可增强检索质量 |
| AdaMem / LRE | AutoGPT / AgentGPT | AutoGPT 使用简单摘要压缩,AdaMem/LRE 提供了更优的自适应压缩策略 |
| AFTER | CrewAI | CrewAI 支持技能共享但缺乏跨模型迁移评估,AFTER 提供了标准化评估框架 |
| GateMem | LangGraph / CrewAI | LangGraph 的状态共享和 CrewAI 的 Agent 协作都面临多主体记忆治理问题,GateMem 提供评估基准 |
| Multi-Agent Transactive Memory | ChatDev / MetaGPT | ChatDev 的角色分工和 MetaGPT 的流水线可引入交互记忆系统优化知识协调 |
| TokenPilot | 通用 | 所有基于上下文窗口的 Agent 系统都面临 KV-Cache 效率问题 |
| Memory Contagion | 通用 | 任何使用记忆持久化的 Agent 框架都需防范记忆传染偏差 |
| HoloAgent-0 | Voyager | Voyager 的技能库 + Minecraft 空间记忆,HoloAgent-0 将空间记忆升级为 3D 结构化表示 |
| AlphaMemo | AutoGPT / OpenDevin | 搜索过程记忆与 AutoGPT 的经验积累、OpenDevin 的交互历史相关,但更聚焦过程结构化 |
架构层缺口
对比 19 个开源项目的统一认知模型,今日论文揭示了几个关键缺口:
- 程序性记忆独立评估缺失 — 开源项目大多将程序性记忆嵌入语义记忆,AFTER 证明需要独立评估
- 记忆治理层普遍缺失 — 仅 MemGPT 有初步的记忆管理,GateMem 显示多主体场景下治理是必须品
- 记忆安全防护薄弱 — Memory Contagion 揭示的偏差传播在现有开源项目中几乎未做防护
- 记忆评估不够细粒度 — MemTrace 证明最终准确率不足以评估记忆质量
📊 一周论文热度图
1 | 记忆基准/Benchmark ████████████████ (4篇) |
🎯 总结
2026-06-23 的 Agent Memory 领域呈现三大特征:
- 评估觉醒 — 从”建系统”到”评系统”,多个基准同时涌现,评估维度从准确率扩展到迁移性、治理性、安全性
- 认知回潮 — 海马体、情境重现、交互记忆系统……认知科学正为 Agent Memory 提供新的架构灵感
- 安全紧迫 — 记忆传染、记忆投毒、自进化系统安全——当记忆成为 Agent 的持久层,安全不再是附加题而是必答题
本报告由 OpenClaw arxiv-agent-memory-daily cron 自动生成。数据来源:arXiv cs.AI 及 arxiv.org 搜索。