Agent Memory arXiv 日报 — 2026-06-25

2026-06-25

Agent Memory arXiv 日报 — 2026-06-25

每日追踪 arXiv 上与 Agent Memory 相关的最新论文，覆盖长期记忆、情景记忆、RAG、记忆增强智能体等方向。

📋 今日相关论文列表

1. TRUSTMEM: Learning Trustworthy Memory Consolidation for LLM Agents with Long-Term Memory

arXiv ID: 2606.25161
链接: https://arxiv.org/abs/2606.25161
方向: 记忆可信度 / 记忆巩固
摘要要点:
- 提出TrustMem框架，关注记忆更新过程中的可信度问题（遗漏、损坏、幻觉）
- 设计Memory Transition Verifier，从coverage、preservation、faithfulness三个维度评估记忆转换
- 通过偏好引导的强化学习直接优化记忆更新行为
- 在MemoryAgentBench、HaluMem、Mem-alpha上达到SOTA，HaluMem提取F1提升12.14，遗漏/损坏/幻觉分别降低40.1%/79.1%/50.0%

2. Are We Ready For An Agent-Native Memory System?

arXiv ID: 2606.25099 (cs.CL #5)
链接: https://papers.cool/arxiv/2606.25099
方向: 记忆系统架构 / 数据管理
摘要要点:
- 从数据管理视角系统研究Agent Memory，将记忆分解为四大模块：表示与存储、提取、检索与路由、维护
- 评估12个代表性记忆系统和2个基线，横跨5个基准工作负载和11个数据集
- 发现：没有单一架构在所有场景下占优，效果高度依赖记忆结构与工作负载瓶颈的匹配
- 局部维护比全局重组更具成本效益

3. MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery

arXiv ID: 2606.25073 (cs.CL #19)
链接: https://papers.cool/arxiv/2606.25073
方向: 记忆评估基准
摘要要点:
- 提出从Agent记忆中恢复隐藏用户状态作为新的评估范式（而非仅看下游任务表现）
- 构建MEMPROBE基准：50个模拟用户，31个隐藏维度，1550个恢复目标
- 关键发现：任务完成和可恢复记忆是两种不同能力——无记忆基线也能饱和完成任务，但类别平衡恢复仅约0.6
- 首个直接研究记忆恢复的基准

4. Memory Makes the Difference: Evaluating How Different Memory Roles Shape Conversational Agents

arXiv ID: 新提交 (2026-06-23)
链接: arxiv搜索
方向: 对话记忆角色
摘要要点:
- 研究RAG对话系统中不同记忆角色对Agent表现的影响
- 系统评估记忆机制在对话系统中的不同功能定位

arXiv ID: 新提交 (2026-06-23)
链接: arxiv搜索
方向: 具身智能 / 视觉-空间-时间记忆
摘要要点:
- 面向长程推理与导航的视觉-空间-时间记忆系统
- 将多模态时序记忆引入具身导航Agent

6. MADARA: Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG

arXiv ID: 2606.25191
链接: https://arxiv.org/abs/2606.25191
方向: 多Agent RAG / 检索增强
摘要要点:
- 揭示弱模型在RAG评估中主要受益于文档隔离而非评分质量
- 提出Reasoning-Score Coupling无标签探测方法分类评分行为
- MADARA架构的诊断阈值从单一试点模型泛化到4个未见模型家族

7. DynamicMem: A Long-Horizon Memory Benchmark in Real-World Settings

arXiv ID: 新提交 (2026-06-22)
方向: 记忆基准 / 动态更新
摘要要点:
- 面向真实场景的长程记忆基准
- 评估Agent在数月跨度内维护用户属性、习惯和偏好的能力
- 关注工作、日常和口味随时间漂移的情况

8. RaMem: Contextual Reinstatement for Long-term Agentic Memory

arXiv ID: 新提交 (2026-06-22)
方向: 记忆提取 / 上下文恢复
摘要要点:
- 通过上下文恢复（contextual reinstatement）改善长期Agent记忆的检索效果

9. Securing LLM-Agent Long-Term Memory Against Poisoning

arXiv ID: 新提交 (2026-06-23)
方向: 记忆安全 / 投毒防御
摘要要点:
- 针对LLM Agent长期记忆的投毒攻击防御
- 提出Non-Malleable、Origin-Bound Authority机制

10. Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs

arXiv ID: 新提交 (2026-06-22)
方向: 逻辑记忆检索 / 个性化
摘要要点:
- 现有记忆检索过度依赖语义相似度，可能遗漏逻辑关键记忆
- 提出隐式逻辑记忆检索的基准与增强方法

11. Memory Contagion: Cross-Temporal Propagation of Evaluator Bias via Agent Memory

arXiv ID: 新提交 (2026-06-22)
方向: 记忆偏差 / 评估偏见
摘要要点:
- 揭示Agent记忆中评估偏见的跨时间传播现象
- 记忆系统可能放大和传播系统性的评估偏差

12. AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents

arXiv ID: 新提交 (2026-06-19)
方向: 自适应记忆 / 个性化
摘要要点:
- 学习性化的记忆保留策略
- 针对长程Agent的自适应记忆选择

13. AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

arXiv ID: 新提交 (2026-06-18)
方向: 原子事实记忆
摘要要点:
- 通过原子事实构建简单有效的LLM Agent记忆系统
- 将记忆粒度分解到原子级别以提高检索精度

14. MemRefine: LLM-Guided Compression for Long-Term Agent Memory

arXiv ID: 新提交 (2026-06-11)
方向: 记忆压缩
摘要要点:
- LLM引导的长期Agent记忆压缩
- 在保持关键信息的同时减少记忆存储量

15. T-Mem: Memory That Anticipates, Not Archives

arXiv ID: 新提交 (2026-06-13)
方向: 预测性记忆
摘要要点:
- 提出”预测而非归档”的记忆范式
- 记忆系统应主动预判未来需要的信息

16. Nous: A Predictive World Model for Long-Term Agent Memory

arXiv ID: 新提交 (2026-06-20)
方向: 世界模型 / 预测记忆
摘要要点:
- 将世界模型作为Agent长期记忆的基础
- 通过预测能力增强记忆的实用性

17. CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

arXiv ID: 新提交 (2026-06-16)
方向: 记忆检索 / 对话Agent
摘要要点:
- 黎曼检索 + Fisher引导蒸馏用于对话Agent长期记忆
- 结合流形学习和知识蒸馏优化记忆检索

18. Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

arXiv ID: 新提交 (2026-06-09)
方向: 主题文档记忆
摘要要点:
- 以可维护的主题文档作为长期记忆载体
- 将记忆组织为结构化的主题文档而非扁平条目

19. Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents

arXiv ID: 新提交 (2026-06-08)
方向: 认知双过程 / 自演化记忆
摘要要点:
- 借鉴认知科学双过程理论构建自演化Agent记忆系统
- System 1（快思考）+ System 2（慢思考）的记忆架构

20. User as Code: Executable Memory for Personalized Agents

arXiv ID: 新提交 (2026-06-15)
方向: 可执行记忆 / 个性化
摘要要点:
- 将用户模型编码为可执行代码而非静态数据
- 通过”用户即代码”实现动态个性化

21. FragFuse: Bypassing Access Control of LLM Agents via Memory-Based Query Fragmentation and Fusion

arXiv ID: 新提交 (2026-06-14)
方向: 记忆安全 / 访问控制
摘要要点:
- 通过基于记忆的查询分片与融合绕过LLM Agent访问控制
- 揭示记忆系统的新型攻击面

22. G-Long: Graph-Enhanced Memory Management for Efficient Long-Term Dialogue Agents

arXiv ID: 新提交 (2026-06-11)
方向: 图增强记忆 / 对话Agent
摘要要点:
- 图结构增强的长期对话记忆管理
- 利用图结构建模记忆间的关系

23. MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

arXiv ID: 新提交 (2026-06-15)
方向: 记忆评估
摘要要点:
- 探究最终准确率指标遗漏的长期记忆问题
- 超越端到端指标，深入分析记忆质量

24. AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents

arXiv ID: 新提交 (2026-05-29)
方向: 持续学习 / 情景记忆
摘要要点:
- 为测试时持续学习Agent生成开放式长程文字游戏
- Agent需要探索、获取世界知识和技能、保留相关情景经验并规划

🔥 研究趋势分析

趋势一：记忆可信度与安全性成为核心关注点

本周最突出的趋势是记忆可信度。TRUSTMEM、Memory Contagion、Securing LLM-Agent Memory Against Poisoning、FragFuse 四篇论文从不同角度审视记忆更新中的错误和安全问题：

记忆幻觉/损坏：记忆写入可能引入幻觉内容，且一旦存储就成为持久性错误
投毒攻击：长期记忆是攻击面的新入口
偏见传播：记忆可以跨时间传播和放大评估偏见
访问控制绕过：记忆分片攻击可绕过安全机制

趋势二：记忆评估方法论走向成熟

从”端到端任务成功”到”直接审计记忆质量”的范式转移：

MEMPROBE：直接从记忆恢复用户状态，而非间接通过下游任务
MemTrace：指出最终准确率遗漏的关键记忆问题
DynamicMem：真实场景下长时跨度的记忆基准
**Are We Ready For An Agent-Native Memory System?**：从数据管理视角系统性评估

趋势三：记忆粒度与结构的精细化

从简单的key-value记忆到更精细的结构：

AtomMem：原子事实粒度
Infini Memory：主题文档组织
G-Long：图结构建模记忆关系
Root Memories：逻辑关联而非仅语义相似

趋势四：认知科学启发的记忆架构

T-Mem：预测性记忆（前瞻而非归档）
Memory Beyond Recall：双过程认知理论
Nous：世界模型作为记忆基础
User as Code：可执行记忆

趋势五：个性化与长期用户建模

AdaMem、CoreMem、Root Memories、DynamicMem 等多篇论文聚焦于如何让Agent持续理解和记忆用户，是记忆应用最密集的场景。

💡 关键洞察与创新点

记忆更新是比记忆检索更关键的问题：TrustMem表明记忆写入/修改/删除操作中的错误（遗漏40%、损坏79%、幻觉50%）比检索不准确影响更大。这指向一个重要方向——记忆巩固（consolidation）质量优先于检索策略优化。
任务完成 ≠ 记忆质量：MEMPROBE的核心发现——无记忆基线也能饱和完成任务，但记忆恢复能力仅0.6。现有基准可能高估了记忆系统的实际效果。
弱模型的RAG本质是隔离而非评分：MADARA揭示弱模型在多文档RAG中50个百分点的提升来自文档隔离（减少混淆），而非评分质量。这颠覆了对RAG评估的常规理解。
记忆应预测而非归档：T-Mem和Nous代表的新范式——记忆系统的价值不在于存储过去，而在于预判未来。
记忆是Agent最大的攻击面：投毒、偏见传播、访问控制绕过，安全论文集中出现说明社区开始认真对待记忆安全。

🔗 与19个开源记忆项目的关联

基于之前对 LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等19个开源记忆项目的分析，本周论文与这些项目的关联如下：

论文	关联项目	关联说明
TrustMem	MemGPT, Zep	记忆更新验证直接回应了MemGPT的核心write/revise/delete机制；Zep的memory update可受益于Transition Verifier
Are We Ready For An Agent-Native Memory System?	全部19个项目	系统性评估框架覆盖了所有项目的架构模式，12个评估系统可能包含这些开源实现
MEMPROBE	MemGPT, Letta	用户状态恢复评估方式与MemGPT/Letta的persona memory理念高度一致
AtomMem	LangChain, LlamaIndex	原子事实粒度vs LangChain的文档级/LlamaIndex的节点级存储
G-Long	MemGPT, Zep	图增强记忆管理可补强MemGPT的recall机制和Zep的关系建模
T-Mem / Nous	MemGPT, AutoGPT	预测性记忆vs现有项目的被动检索范式，是范式级创新
Memory Beyond Recall	MemGPT, Letta	双过程认知模型可改进MemGPT的core/recall记忆分层
MADARA	LangChain, LlamaIndex	多Agent RAG评估发现对RAG pipeline设计有直接指导意义
FragFuse / Security	全部使用长期记忆的项目	投毒防御是所有持久化记忆项目的刚需
DynamicMem	Zep, Mem0	动态漂移评估直接关联Zep的temporal knowledge和Mem0的记忆衰减
Root Memories	LlamaIndex, RAG框架	逻辑检索vs语义检索的对比对RAG架构有直接影响

总体观察： 本周论文密集关注记忆质量评估和记忆安全，这两个方向在19个开源项目中普遍薄弱。MemGPT/Letta的架构与本周论文最为相关，但多数项目在记忆验证和安全防护方面仍处于空白状态。

📊 本周论文方向分布

记忆评估/基准    ████████████  5篇
记忆安全         ████████     3篇
记忆结构/粒度    ████████     3篇
认知启发架构     ██████       3篇
RAG/检索增强    ████         2篇
个性化/用户建模  ████████     3篇
记忆压缩        ██           1篇
具身智能记忆     ██           1篇
持续学习         ██           1篇

本报告由 Agent Memory arXiv 日报系统自动生成，数据来源：papers.cool 及 arxiv.org

刘道玉 AI 工作坊

Agent Memory arXiv 日报 — 2026-06-25

Agent Memory arXiv 日报 — 2026-06-25

📋 今日相关论文列表

1. TRUSTMEM: Learning Trustworthy Memory Consolidation for LLM Agents with Long-Term Memory

2. Are We Ready For An Agent-Native Memory System?

3. MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery

4. Memory Makes the Difference: Evaluating How Different Memory Roles Shape Conversational Agents

5. RAVEN: Long-Horizon Reasoning & Navigation with a Visuo-Spatio-Temporal Memory

6. MADARA: Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG

7. DynamicMem: A Long-Horizon Memory Benchmark in Real-World Settings

8. RaMem: Contextual Reinstatement for Long-term Agentic Memory

9. Securing LLM-Agent Long-Term Memory Against Poisoning

10. Towards Root Memories: Benchmarking and Enhancing Implicit Logical Memory Retrieval for Personalized LLMs

11. Memory Contagion: Cross-Temporal Propagation of Evaluator Bias via Agent Memory

12. AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents

13. AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts

14. MemRefine: LLM-Guided Compression for Long-Term Agent Memory

15. T-Mem: Memory That Anticipates, Not Archives

16. Nous: A Predictive World Model for Long-Term Agent Memory

17. CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

18. Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

19. Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents

20. User as Code: Executable Memory for Personalized Agents

21. FragFuse: Bypassing Access Control of LLM Agents via Memory-Based Query Fragmentation and Fusion

22. G-Long: Graph-Enhanced Memory Management for Efficient Long-Term Dialogue Agents

23. MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

24. AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents

🔥 研究趋势分析

趋势一：记忆可信度与安全性成为核心关注点

趋势二：记忆评估方法论走向成熟

趋势三：记忆粒度与结构的精细化

趋势四：认知科学启发的记忆架构

趋势五：个性化与长期用户建模

💡 关键洞察与创新点

🔗 与19个开源记忆项目的关联

📊 本周论文方向分布