Agent Memory arXiv 日报 — 2026-06-25
每日追踪 arXiv 上与 Agent Memory 相关的最新论文,覆盖长期记忆、情景记忆、RAG、记忆增强智能体等方向。
📋 今日相关论文列表
1. TRUSTMEM: Learning Trustworthy Memory Consolidation for LLM Agents with Long-Term Memory
- arXiv ID: 2606.25161
- 链接: https://arxiv.org/abs/2606.25161
- 方向: 记忆可信度 / 记忆巩固
- 摘要要点:
- 提出TrustMem框架,关注记忆更新过程中的可信度问题(遗漏、损坏、幻觉)
- 设计Memory Transition Verifier,从coverage、preservation、faithfulness三个维度评估记忆转换
- 通过偏好引导的强化学习直接优化记忆更新行为
- 在MemoryAgentBench、HaluMem、Mem-alpha上达到SOTA,HaluMem提取F1提升12.14,遗漏/损坏/幻觉分别降低40.1%/79.1%/50.0%
2. Are We Ready For An Agent-Native Memory System?
- arXiv ID: 2606.25099 (cs.CL #5)
- 链接: https://papers.cool/arxiv/2606.25099
- 方向: 记忆系统架构 / 数据管理
- 摘要要点:
- 从数据管理视角系统研究Agent Memory,将记忆分解为四大模块:表示与存储、提取、检索与路由、维护
- 评估12个代表性记忆系统和2个基线,横跨5个基准工作负载和11个数据集
- 发现:没有单一架构在所有场景下占优,效果高度依赖记忆结构与工作负载瓶颈的匹配
- 局部维护比全局重组更具成本效益
3. MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery
- arXiv ID: 2606.25073 (cs.CL #19)
- 链接: https://papers.cool/arxiv/2606.25073
- 方向: 记忆评估基准
- 摘要要点:
- 提出从Agent记忆中恢复隐藏用户状态作为新的评估范式(而非仅看下游任务表现)
- 构建MEMPROBE基准:50个模拟用户,31个隐藏维度,1550个恢复目标
- 关键发现:任务完成和可恢复记忆是两种不同能力——无记忆基线也能饱和完成任务,但类别平衡恢复仅约0.6
- 首个直接研究记忆恢复的基准
4. Memory Makes the Difference: Evaluating How Different Memory Roles Shape Conversational Agents
- arXiv ID: 新提交 (2026-06-23)
- 链接: arxiv搜索
- 方向: 对话记忆角色
- 摘要要点:
- 研究RAG对话系统中不同记忆角色对Agent表现的影响
- 系统评估记忆机制在对话系统中的不同功能定位
5. RAVEN: Long-Horizon Reasoning & Navigation with a Visuo-Spatio-Temporal Memory
- arXiv ID: 新提交 (2026-06-23)
- 链接: arxiv搜索
- 方向: 具身智能 / 视觉-空间-时间记忆
- 摘要要点:
- 面向长程推理与导航的视觉-空间-时间记忆系统
- 将多模态时序记忆引入具身导航Agent
6. MADARA: Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG
- arXiv ID: 2606.25191
- 链接: https://arxiv.org/abs/2606.25191
- 方向: 多Agent RAG / 检索增强
- 摘要要点:
- 揭示弱模型在RAG评估中主要受益于文档隔离而非评分质量
- 提出Reasoning-Score Coupling无标签探测方法分类评分行为
- MADARA架构的诊断阈值从单一试点模型泛化到4个未见模型家族
7. DynamicMem: A Long-Horizon Memory Benchmark in Real-World Settings
- arXiv ID: 新提交 (2026-06-22)
- 方向: 记忆基准 / 动态更新
- 摘要要点:
- 面向真实场景的长程记忆基准
- 评估Agent在数月跨度内维护用户属性、习惯和偏好的能力
- 关注工作、日常和口味随时间漂移的情况
8. RaMem: Contextual Reinstatement for Long-term Agentic Memory
- arXiv ID: 新提交 (2026-06-22)
- 方向: 记忆提取 / 上下文恢复
- 摘要要点:
- 通过上下文恢复(contextual reinstatement)改善长期Agent记忆的检索效果
9. Securing LLM-Agent Long-Term Memory Against Poisoning
- arXiv ID: 新提交 (2026-06-23)
- 方向: 记忆安全 / 投毒防御
- 摘要要点:
- 针对LLM Agent长期记忆的投毒攻击防御
- 提出Non-Malleable、Origin-Bound Authority机制
10. Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs
- arXiv ID: 新提交 (2026-06-22)
- 方向: 逻辑记忆检索 / 个性化
- 摘要要点:
- 现有记忆检索过度依赖语义相似度,可能遗漏逻辑关键记忆
- 提出隐式逻辑记忆检索的基准与增强方法
11. Memory Contagion: Cross-Temporal Propagation of Evaluator Bias via Agent Memory
- arXiv ID: 新提交 (2026-06-22)
- 方向: 记忆偏差 / 评估偏见
- 摘要要点:
- 揭示Agent记忆中评估偏见的跨时间传播现象
- 记忆系统可能放大和传播系统性的评估偏差
12. AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents
- arXiv ID: 新提交 (2026-06-19)
- 方向: 自适应记忆 / 个性化
- 摘要要点:
- 学习性化的记忆保留策略
- 针对长程Agent的自适应记忆选择
13. AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts
- arXiv ID: 新提交 (2026-06-18)
- 方向: 原子事实记忆
- 摘要要点:
- 通过原子事实构建简单有效的LLM Agent记忆系统
- 将记忆粒度分解到原子级别以提高检索精度
14. MemRefine: LLM-Guided Compression for Long-Term Agent Memory
- arXiv ID: 新提交 (2026-06-11)
- 方向: 记忆压缩
- 摘要要点:
- LLM引导的长期Agent记忆压缩
- 在保持关键信息的同时减少记忆存储量
15. T-Mem: Memory That Anticipates, Not Archives
- arXiv ID: 新提交 (2026-06-13)
- 方向: 预测性记忆
- 摘要要点:
- 提出”预测而非归档”的记忆范式
- 记忆系统应主动预判未来需要的信息
16. Nous: A Predictive World Model for Long-Term Agent Memory
- arXiv ID: 新提交 (2026-06-20)
- 方向: 世界模型 / 预测记忆
- 摘要要点:
- 将世界模型作为Agent长期记忆的基础
- 通过预测能力增强记忆的实用性
17. CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents
- arXiv ID: 新提交 (2026-06-16)
- 方向: 记忆检索 / 对话Agent
- 摘要要点:
- 黎曼检索 + Fisher引导蒸馏用于对话Agent长期记忆
- 结合流形学习和知识蒸馏优化记忆检索
18. Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory
- arXiv ID: 新提交 (2026-06-09)
- 方向: 主题文档记忆
- 摘要要点:
- 以可维护的主题文档作为长期记忆载体
- 将记忆组织为结构化的主题文档而非扁平条目
19. Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents
- arXiv ID: 新提交 (2026-06-08)
- 方向: 认知双过程 / 自演化记忆
- 摘要要点:
- 借鉴认知科学双过程理论构建自演化Agent记忆系统
- System 1(快思考)+ System 2(慢思考)的记忆架构
20. User as Code: Executable Memory for Personalized Agents
- arXiv ID: 新提交 (2026-06-15)
- 方向: 可执行记忆 / 个性化
- 摘要要点:
- 将用户模型编码为可执行代码而非静态数据
- 通过”用户即代码”实现动态个性化
21. FragFuse: Bypassing Access Control of LLM Agents via Memory-Based Query Fragmentation and Fusion
- arXiv ID: 新提交 (2026-06-14)
- 方向: 记忆安全 / 访问控制
- 摘要要点:
- 通过基于记忆的查询分片与融合绕过LLM Agent访问控制
- 揭示记忆系统的新型攻击面
22. G-Long: Graph-Enhanced Memory Management for Efficient Long-Term Dialogue Agents
- arXiv ID: 新提交 (2026-06-11)
- 方向: 图增强记忆 / 对话Agent
- 摘要要点:
- 图结构增强的长期对话记忆管理
- 利用图结构建模记忆间的关系
23. MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
- arXiv ID: 新提交 (2026-06-15)
- 方向: 记忆评估
- 摘要要点:
- 探究最终准确率指标遗漏的长期记忆问题
- 超越端到端指标,深入分析记忆质量
24. AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents
- arXiv ID: 新提交 (2026-05-29)
- 方向: 持续学习 / 情景记忆
- 摘要要点:
- 为测试时持续学习Agent生成开放式长程文字游戏
- Agent需要探索、获取世界知识和技能、保留相关情景经验并规划
🔥 研究趋势分析
趋势一:记忆可信度与安全性成为核心关注点
本周最突出的趋势是记忆可信度。TRUSTMEM、Memory Contagion、Securing LLM-Agent Memory Against Poisoning、FragFuse 四篇论文从不同角度审视记忆更新中的错误和安全问题:
- 记忆幻觉/损坏:记忆写入可能引入幻觉内容,且一旦存储就成为持久性错误
- 投毒攻击:长期记忆是攻击面的新入口
- 偏见传播:记忆可以跨时间传播和放大评估偏见
- 访问控制绕过:记忆分片攻击可绕过安全机制
趋势二:记忆评估方法论走向成熟
从”端到端任务成功”到”直接审计记忆质量”的范式转移:
- MEMPROBE:直接从记忆恢复用户状态,而非间接通过下游任务
- MemTrace:指出最终准确率遗漏的关键记忆问题
- DynamicMem:真实场景下长时跨度的记忆基准
- **Are We Ready For An Agent-Native Memory System?**:从数据管理视角系统性评估
趋势三:记忆粒度与结构的精细化
从简单的key-value记忆到更精细的结构:
- AtomMem:原子事实粒度
- Infini Memory:主题文档组织
- G-Long:图结构建模记忆关系
- Root Memories:逻辑关联而非仅语义相似
趋势四:认知科学启发的记忆架构
- T-Mem:预测性记忆(前瞻而非归档)
- Memory Beyond Recall:双过程认知理论
- Nous:世界模型作为记忆基础
- User as Code:可执行记忆
趋势五:个性化与长期用户建模
AdaMem、CoreMem、Root Memories、DynamicMem 等多篇论文聚焦于如何让Agent持续理解和记忆用户,是记忆应用最密集的场景。
💡 关键洞察与创新点
记忆更新是比记忆检索更关键的问题:TrustMem表明记忆写入/修改/删除操作中的错误(遗漏40%、损坏79%、幻觉50%)比检索不准确影响更大。这指向一个重要方向——记忆巩固(consolidation)质量优先于检索策略优化。
任务完成 ≠ 记忆质量:MEMPROBE的核心发现——无记忆基线也能饱和完成任务,但记忆恢复能力仅0.6。现有基准可能高估了记忆系统的实际效果。
弱模型的RAG本质是隔离而非评分:MADARA揭示弱模型在多文档RAG中50个百分点的提升来自文档隔离(减少混淆),而非评分质量。这颠覆了对RAG评估的常规理解。
记忆应预测而非归档:T-Mem和Nous代表的新范式——记忆系统的价值不在于存储过去,而在于预判未来。
记忆是Agent最大的攻击面:投毒、偏见传播、访问控制绕过,安全论文集中出现说明社区开始认真对待记忆安全。
🔗 与19个开源记忆项目的关联
基于之前对 LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等19个开源记忆项目的分析,本周论文与这些项目的关联如下:
| 论文 | 关联项目 | 关联说明 |
|---|---|---|
| TrustMem | MemGPT, Zep | 记忆更新验证直接回应了MemGPT的核心write/revise/delete机制;Zep的memory update可受益于Transition Verifier |
| Are We Ready For An Agent-Native Memory System? | 全部19个项目 | 系统性评估框架覆盖了所有项目的架构模式,12个评估系统可能包含这些开源实现 |
| MEMPROBE | MemGPT, Letta | 用户状态恢复评估方式与MemGPT/Letta的persona memory理念高度一致 |
| AtomMem | LangChain, LlamaIndex | 原子事实粒度vs LangChain的文档级/LlamaIndex的节点级存储 |
| G-Long | MemGPT, Zep | 图增强记忆管理可补强MemGPT的recall机制和Zep的关系建模 |
| T-Mem / Nous | MemGPT, AutoGPT | 预测性记忆vs现有项目的被动检索范式,是范式级创新 |
| Memory Beyond Recall | MemGPT, Letta | 双过程认知模型可改进MemGPT的core/recall记忆分层 |
| MADARA | LangChain, LlamaIndex | 多Agent RAG评估发现对RAG pipeline设计有直接指导意义 |
| FragFuse / Security | 全部使用长期记忆的项目 | 投毒防御是所有持久化记忆项目的刚需 |
| DynamicMem | Zep, Mem0 | 动态漂移评估直接关联Zep的temporal knowledge和Mem0的记忆衰减 |
| Root Memories | LlamaIndex, RAG框架 | 逻辑检索vs语义检索的对比对RAG架构有直接影响 |
总体观察: 本周论文密集关注记忆质量评估和记忆安全,这两个方向在19个开源项目中普遍薄弱。MemGPT/Letta的架构与本周论文最为相关,但多数项目在记忆验证和安全防护方面仍处于空白状态。
📊 本周论文方向分布
1 | 记忆评估/基准 ████████████ 5篇 |
本报告由 Agent Memory arXiv 日报系统自动生成,数据来源:papers.cool 及 arxiv.org