Agent Memory arXiv 日报 — 2026-06-23

2026-06-23

Agent Memory arXiv 日报 — 2026-06-23

本报告自动筛选 arXiv cs.AI 及相关分类中与 Agent Memory 相关的最新论文，涵盖记忆增强、长期记忆、程序性记忆、RAG、情景记忆等方向。

📋 今日相关论文列表

1. Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

arXiv ID: 2606.23122
链接: https://arxiv.org/abs/2606.23122
作者: Julia Belikova, Rauf Parchiev, Evgeny Egorov 等
摘要要点: 提出 AFTER 基准（382 个企业任务，6 种职业角色，22 项程序性技能），评估 LLM Agent 的程序性记忆在跨任务、跨角色、跨模型之间的迁移能力。实验发现单轮精炼提升 3.7-6.7 分，来自多模型执行轨迹的进化技能达到 73.1% 的跨模型测试准确率。部分技能具有广泛泛化性，另一些则角色特化。
关键词: Procedural Memory, Skill Transfer, Benchmark

2. Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=Root+Memories
作者: Hongxun Ding, Xiang Yu, Chengbing Wang 等
摘要要点: 研究个性化 LLM 中的隐式逻辑记忆检索问题，提出”根记忆”(Root Memories)概念，构建基准评估 LLM 从历史交互中检索隐含逻辑关系的能力。
关键词: Implicit Memory, Logical Retrieval, Personalization

3. Memory Contagion: Cross-Temporal Propagation of Evaluator Bias via Agent Memory

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=Memory+Contagion
摘要要点: 揭示 LLM Agent 记忆系统中的一种新型偏差传播机制——“记忆传染”。评估者偏见通过 Agent 记忆跨时间步传播并放大，影响后续决策质量。这一发现对 Agent 记忆系统设计有重要安全启示。
关键词: Memory Bias, Contagion, Safety

4. DynamicMem: A Long-Horizon Memory Benchmark in Real-World Settings

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=DynamicMem
作者: Wenya Xie, Shengming Zhou, Zelin Li 等
摘要要点: 提出面向真实场景的长时程记忆基准 DynamicMem，评估 LLM 在长时间跨度下的记忆动态管理能力，填补现有基准在真实世界长时程评估上的空白。
关键词: Long-Horizon, Benchmark, Real-World

5. RaMem: Contextual Reinstatement for Long-term Agentic Memory

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=RaMem
作者: Wei Yang, Bryce Kan, Shixuan Li 等
摘要要点: 借鉴认知科学中”情境重现”(Contextual Reinstatement) 概念，提出 RaMem 方法用于 Agent 长期记忆管理。核心思想是检索时重建原始编码情境，提升记忆召回的准确性与相关性。
关键词: Contextual Reinstatement, Long-term Memory, Cognitive Science

6. AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents

arXiv ID: 待确认（2026-06-19 提交）
链接: arxiv.org/search/?query=AdaMem
作者: Xingyu Chen, Rui Wang, Zhaopeng Tu, Liefeng Bo
摘要要点: 提出自适应记忆选择框架 AdaMem，让 Agent 学会”记住什么”。针对个性化长时程场景，通过学习策略动态决定哪些信息值得保留，优于固定规则的记忆管理方案。
关键词: Adaptive Memory, Personalization, What to Remember

7. Learning What Not to Forget: Long-Horizon Agent Memory from a Few Kilobytes of Learning

arXiv ID: 待确认（2026-06-18 提交）
链接: arxiv.org/search/?query=Learning+What+Not+to+Forget
作者: Nusrat Jahan Lia, Aritra Mazumder
摘要要点: 提出 LRE 方法，从完整历史中识别关键信息并逐字提取保留，仅需几 KB 学习量。在匹配预算比较中，LRE 在精度-成本平面上无基线能超越；在简单任务上甚至超过保留全部历史的基线 27%。
关键词: Memory Compression, Few-KB Learning, No Eviction

8. HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=HoloAgent-0
作者: Xiaolin Zhou, Liu Liu, Tingyang Xiao 等
摘要要点: 提出具备 3D 空间记忆的统一具身 Agent 框架 HoloAgent-0，将空间记忆作为 Agent 感知和决策的核心组件，为具身 AI 中的空间推理提供新范式。
关键词: Spatial Memory, Embodied Agent, 3D

9. Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies

arXiv ID: 待确认（2026-06-22 提交）
链接: arxiv.org/search/?query=Safety+Self-Evolving+LLM+Agent
作者: Ruixuan Lin, Xinhao Deng, Qingming Li 等
摘要要点: 分析自进化 LLM Agent 系统的安全威胁，特别关注记忆、工具和架构的自主更新如何引入新型攻击面——对抗性影响被永久编码、跨代自放大、通过共享记忆传播。
关键词: Self-Evolving, Safety, Memory Poisoning

10. AlphaMemo: Structured Search-Process Memory for Self-Evolving Alpha Mining Agents

arXiv ID: 待确认（2026-05-26 提交）
链接: arxiv.org/search/?query=AlphaMemo
作者: Hang Yu, Zifan Zheng, Jeff Z. Pan 等
摘要要点: 为 Alpha 挖掘 Agent 提出结构化搜索过程记忆 AlphaMemo，将搜索过程本身作为可复用的记忆资产，支持 Agent 在迭代搜索中积累和利用经验。
关键词: Search Process Memory, Self-Evolving, Alpha Mining

11. GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

arXiv ID: 待确认（2026-06-17 提交）
链接: arxiv.org/search/?query=GateMem
作者: Zhe Ren, Yibo Yang, Yimeng Chen 等
摘要要点: 提出多主体共享记忆 Agent 的治理基准 GateMem，关注多个 Agent 共享记忆时的访问控制、冲突解决和隐私保护问题。
关键词: Memory Governance, Multi-Agent, Shared Memory

12. Multi-Agent Transactive Memory

arXiv ID: 待确认（2026-06-18 提交）
链接: arxiv.org/search/?query=Multi-Agent+Transactive+Memory
作者: To Eun Kim, Xuhong He, Dishank Jain 等
摘要要点: 将认知科学中的”交互记忆系统”(Transactive Memory) 概念引入多 Agent 系统，研究去中心化部署下 LLM Agent 如何通过交互记忆协调知识分工。
关键词: Transactive Memory, Multi-Agent, Decentralization

13. AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

arXiv ID: 待确认（2026-06-18 提交）
链接: arxiv.org/search/?query=AtomMem
作者: Yanyu Yao, Shangze Li, Zhi Zheng 等
摘要要点: 提出基于原子事实的记忆系统 AtomMem，将信息分解为最小粒度的原子事实进行存储和检索，解决多会话交互中上下文窗口限制下的信息积累和复用问题。
关键词: Atomic Facts, Memory Decomposition, Multi-Session

14. MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

arXiv ID: 待确认（2026-06-15 提交）
链接: arxiv.org/search/?query=MemTrace
作者: Xianxuan Long, Zhikai Chen, Shenglai Zeng 等
摘要要点: 提出 MemTrace 探针方法，揭示仅用最终准确率评估长期记忆系统的不足。通过细粒度追踪记忆检索过程，发现许多”准确”的回答实际上依赖错误或偏移的记忆路径。
关键词: Memory Probing, Evaluation, Long-Term Memory

15. TokenPilot: Cache-Efficient Context Management for LLM Agents

arXiv ID: 待确认（2026-06-15 提交）
链接: arxiv.org/search/?query=TokenPilot
作者: Buqiang Xu, Zirui Xue 等
摘要要点: 针对 LLM Agent 长时程会话中的上下文膨胀问题，提出缓存高效的上下文管理方案 TokenPilot。通过保持 KV-Cache 布局一致性，避免文本裁剪和动态记忆驱逐引起的 prefix cache 失效。
关键词: Cache Efficiency, Context Management, KV-Cache

16. PACMS: Submodular Context Selection as a Pluggable Engine for LLM Agents

arXiv ID: 待确认（2026-06-18 提交）
链接: arxiv.org/search/?query=PACMS+Submodular+Context
作者: Manu Ghulyani, Arunabh Singh 等
摘要要点: 将子模函数优化引入 Agent 上下文选择，提出可插拔的记忆选择引擎 PACMS，为对话和工具使用 Agent 提供最优上下文子集选择。
关键词: Submodular Optimization, Context Selection, Pluggable

17. AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

arXiv ID: 2606.23449
链接: https://arxiv.org/abs/2606.23449
作者: Shanhui Zhao, Jiacheng Liu 等
摘要要点: 在 AOSP 上构建 OS 级 Agent 框架，其中包含 Agent 记忆管理机制。将 Agent 视为 OS 一等公民，支持记忆的个性化服务组合、高效接口和安全信息流。
关键词: OS-Level Agent, Memory Management, Android

🔬 研究趋势分析

趋势一：记忆基准（Benchmark）井喷

今日论文中至少出现 4 个新的记忆基准：AFTER（程序性记忆）、DynamicMem（长时程）、GateMem（多主体共享记忆治理）、MemTrace（记忆评估探针）。这表明社区正从”能不能记”转向”怎么评”，评估维度更加细粒度。

趋势二：认知科学概念持续渗透

RaMem 的”情境重现”、Multi-Agent Transactive Memory 的”交互记忆系统”、Abstract Representational Geometry 的”海马体抽象几何”——认知科学的记忆理论正在深度影响 Agent Memory 架构设计。

趋势三：”记住什么”比”记多少”更重要

AdaMem（学习记住什么）、LRE（学习不遗忘什么）、AtomMem（原子事实分解）、PACMS（子模上下文选择）——这一系列工作共同指向一个核心洞察：记忆系统的关键瓶颈不是存储容量，而是选择与遗忘策略。

趋势四：多 Agent 记忆治理成为新议题

GateMem（共享记忆治理）、Multi-Agent Transactive Memory（交互记忆）、Memory Contagion（记忆传染）——随着多 Agent 系统普及，记忆的共享、冲突、安全和隐私问题浮出水面。

趋势五：记忆安全从边缘走向中心

Memory Contagion 揭示评估者偏见通过记忆传播放大；Safety in Self-Evolving Agent Systems 分析记忆投毒和跨代自放大；AOHP 关注安全信息流。记忆安全正在成为独立研究方向。

趋势六：程序性记忆与技能进化

AFTER 专注程序性记忆的迁移评估，AlphaMemo 关注搜索过程记忆的结构化复用，Hypothesis-Driven Skill Optimization 优化外部技能。Agent 的”怎么做”记忆正在获得与”知道什么”同等的关注。

💡 关键洞察和创新点

论文	核心创新	潜在影响
AFTER	首个程序性记忆跨模型迁移基准	指导生产环境技能库部署策略
RaMem	认知科学情境重现 → Agent 记忆检索	为记忆召回提供理论驱动的改进路径
AdaMem	自适应学习”记住什么”策略	替代固定规则的记忆管理范式
LRE	几 KB 学习量匹配全历史基线	极致压缩的工程可行方案
AtomMem	原子事实粒度的记忆分解	提升检索精度、降低幻觉
Memory Contagion	揭示记忆传染偏差机制	改变 Agent 评估和部署的安全假设
GateMem	多主体共享记忆治理基准	多 Agent 系统的安全基础
TokenPilot	KV-Cache 感知的上下文管理	工程落地的推理成本优化
AlphaMemo	搜索过程即记忆	开辟过程记忆新范式

🔗 与 19 个开源记忆项目的关联

基于之前对 LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等 19 个开源 Agent Memory 项目的分析，今日论文与已有项目形成以下对照：

今日论文	关联的开源项目	关联说明
AtomMem	MemGPT / Letta	MemGPT 的核心记忆架构基于对话段和召回段，AtomMem 提出更细粒度的原子事实分解，可作为 MemGPT 记忆层的改进方案
RaMem	LangChain Memory	LangChain 的 ConversationBufferMemory 等缺乏情境重现机制，RaMem 的认知科学方法可增强检索质量
AdaMem / LRE	AutoGPT / AgentGPT	AutoGPT 使用简单摘要压缩，AdaMem/LRE 提供了更优的自适应压缩策略
AFTER	CrewAI	CrewAI 支持技能共享但缺乏跨模型迁移评估，AFTER 提供了标准化评估框架
GateMem	LangGraph / CrewAI	LangGraph 的状态共享和 CrewAI 的 Agent 协作都面临多主体记忆治理问题，GateMem 提供评估基准
Multi-Agent Transactive Memory	ChatDev / MetaGPT	ChatDev 的角色分工和 MetaGPT 的流水线可引入交互记忆系统优化知识协调
TokenPilot	通用	所有基于上下文窗口的 Agent 系统都面临 KV-Cache 效率问题
Memory Contagion	通用	任何使用记忆持久化的 Agent 框架都需防范记忆传染偏差
HoloAgent-0	Voyager	Voyager 的技能库 + Minecraft 空间记忆，HoloAgent-0 将空间记忆升级为 3D 结构化表示
AlphaMemo	AutoGPT / OpenDevin	搜索过程记忆与 AutoGPT 的经验积累、OpenDevin 的交互历史相关，但更聚焦过程结构化

架构层缺口

对比 19 个开源项目的统一认知模型，今日论文揭示了几个关键缺口：

程序性记忆独立评估缺失 — 开源项目大多将程序性记忆嵌入语义记忆，AFTER 证明需要独立评估
记忆治理层普遍缺失 — 仅 MemGPT 有初步的记忆管理，GateMem 显示多主体场景下治理是必须品
记忆安全防护薄弱 — Memory Contagion 揭示的偏差传播在现有开源项目中几乎未做防护
记忆评估不够细粒度 — MemTrace 证明最终准确率不足以评估记忆质量

📊 一周论文热度图

记忆基准/Benchmark    ████████████████  (4篇)
记忆选择/遗忘策略      ██████████████    (3篇)
多Agent记忆            ██████████        (2篇)
认知科学驱动           ████████          (2篇)
记忆安全               ████████          (2篇)
程序性记忆/技能        ██████            (2篇)
空间记忆               ████              (1篇)
上下文/缓存优化        ████              (1篇)
RAG增强                ████              (1篇)

🎯 总结

2026-06-23 的 Agent Memory 领域呈现三大特征：

评估觉醒 — 从”建系统”到”评系统”，多个基准同时涌现，评估维度从准确率扩展到迁移性、治理性、安全性
认知回潮 — 海马体、情境重现、交互记忆系统……认知科学正为 Agent Memory 提供新的架构灵感
安全紧迫 — 记忆传染、记忆投毒、自进化系统安全——当记忆成为 Agent 的持久层，安全不再是附加题而是必答题

本报告由 OpenClaw arxiv-agent-memory-daily cron 自动生成。数据来源：arXiv cs.AI 及 arxiv.org 搜索。