Agent Memory arXiv 日报 (2026-05-30)
本报告自动筛选自 arXiv cs.AI / cs.CL 最新论文,聚焦 Agent Memory 相关研究。
📋 今日相关论文列表
1. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents (MMPO)
- arXiv ID: 2605.30159
- 链接: https://arxiv.org/abs/2605.30159
- 摘要要点: 提出 **Metacognitive Memory Policy Optimization (MMPO)**,解决 memory-augmented LLM agent 在长程任务中递归摘要逐步丢失信息的问题。引入 Belief Entropy 作为自监督代理指标,衡量模型对潜在任务状态的不确定性,并通过显式惩罚高认知不确定性的摘要来提供细粒度的 memory-specific 监督。实验表明 MMPO 在 1.75M token 上下文中仍保持 97.1% 性能。
2. Unlocking the Working Memory of Large Language Models for Latent Reasoning (RiM)
- arXiv ID: 2605.30343
- 链接: https://arxiv.org/abs/2605.30343
- 摘要要点: 提出 Reasoning in Memory (RiM),用固定序列的特殊 token(memory blocks)替代自回归生成的推理步骤,解锁 LLM 的工作记忆能力。memory blocks 可在单次前向传播中处理,实现计算高效的 latent reasoning。采用两阶段课程学习:先通过预测显式推理步骤来 grounded memory blocks,再迭代精炼最终答案。
3. Selective QA over Conflicting Multi-Source Personal Memory
- arXiv ID: 2605.30087
- 链接: https://arxiv.org/abs/2605.30087
- 摘要要点: 研究个人 AI agent 的多源冲突记忆问题。构建了一个包含 34,560 个实例的基准,覆盖 18 种问题模板和 8 种推理类型。系统需要基于冲突、有时不完整的来源回答或选择放弃。最佳 fusion resolver 达到 80.3% 准确率,加入弃答机制后可达 85.3% 选择性准确率。这直接对应个人 agent 的长期记忆管理挑战。
4. When Should Models Change Their Minds? Contextual Belief Management in LLMs (CBM)
- arXiv ID: 2605.30219
- 链接: https://arxiv.org/abs/2605.30219
- 摘要要点: 提出 Contextual Belief Management (CBM) 框架,研究 LLM 在长程交互中如何维护、更新和忽略信念状态。引入 BeliefTrack 基准,诊断三种失败模式:Failed Stay、Failed Update、Failed Isolation。强化学习 + belief-state reward 平均降低 70.9% 失败率。这本质上是 agent 在持续交互中的记忆更新机制。
5. Loong: A Human-Like Long Document Translation Agent with 3E Memory Module
- arXiv ID: 2605.30274
- 链接: https://arxiv.org/abs/2605.30274
- 摘要要点: 提出 3E Memory Module(Essence-Exemplar-Entity),存储摘要、句对和实体记录作为历史上下文。Agent 通过深度推理自适应选择最优上下文,并通过 RL 优化上下文策略。翻译质量平均提升 13.0 个点。这是一种结构化的 episodic memory 方案。
6. How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
- arXiv ID: 2605.30260
- 链接: https://arxiv.org/abs/2605.30260
- 摘要要点: 从参数化记忆角度研究 LoRA 微调,提出 Parametric Memory Law(幂律关系连接 loss 降低与有效参数和序列长度)。发现确定性相变:p > 0.5 构成贪心解码下逐字回忆的充分条件。提出 MemFT 优化策略。这为理解 LLM 的参数记忆容量提供了定量框架。
7. HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?
- arXiv ID: 2605.30058
- 链接: https://arxiv.org/abs/2605.30058
- 摘要要点: 构建 11 个人物角色,每人配备 1,000 条结构化的自传体式 episodic memories,分布在发展心理学理论锚定的生命阶段。使用 DIAMONDS 分类法的 8 个维度设计 64 个决策场景,测试 agent 能否整合性格特质和自传记忆做出一致的行为决策。直接关联 episodic memory 的建模与评估。
8. Agent-Radar: Enhancing Multi-Agent Communication through Attention Steering
- arXiv ID: 2605.30136
- 链接: https://arxiv.org/abs/2605.30136
- 摘要要点: 提出 Agent-Radar,一种免训练的上下文管理方法,通过时间-空间衰减机制动态引导 agent 注意力到相关上下文。解决多 agent 系统中长对话历史导致的信息稀释问题。本质上是一种运行时记忆检索/过滤策略,在 5 个基准上提升最多 7.64 个点。
9. History-Aware Profiles for Student Simulation in Tutoring Dialogues
- arXiv ID: 2605.30051
- 链接: https://arxiv.org/abs/2605.30051
- 摘要要点: 提出基于学习历史的学生模拟框架:profile generator 总结学生历史,simulator 基于生成的 profile 预测学生对话。两个组件均通过 RL 训练。展示了历史记忆(学习轨迹)如何影响行为预测,是 memory-grounded behavior 的一个案例。
🔥 研究趋势分析
趋势一:从被动记忆到主动元认知记忆管理
MMPO 和 CBM 两篇论文都指向一个核心方向:agent 不应仅仅”存储和检索”记忆,还需要主动监控自己对记忆的理解质量。MMPO 的 Belief Entropy 和 CBM 的 belief-state reward 本质上都是让 agent 意识到”我不确定自己是否记住了”。这与 MemGPT 等项目的 memory management 思路一脉相承,但更强调元认知层面。
趋势二:结构化记忆模块化
Loong 的 3E Memory(Essence-Exemplar-Entity)和 HEART-Bench 的 episodic memory 设计都体现了记忆分层、分类的趋势。不再是把所有历史塞进一个上下文窗口,而是按语义类型组织。这与之前分析的 Letta (MemGPT) 的 core/recall/archival 分层、Zep 的 episodic/semantic memory 分层高度一致。
趋势三:冲突记忆与记忆可靠性
Selective QA 论文直接研究多源冲突记忆的推理问题。这在开源项目中几乎未被充分解决——大多数项目假设记忆是干净一致的。这是一个重要的新方向:当 agent 持续运行并从多个信息源积累记忆时,冲突不可避免。
趋势四:参数记忆 vs 外部记忆的统一理解
Parametric Memory Law 论文从理论角度量化了 LLM 的参数记忆容量。结合外部记忆系统(RAG、向量数据库),一个完整的 agent memory 框架需要同时理解”模型本身能记住多少”和”外部存储需要补充什么”。
趋势五:记忆驱动的 latent reasoning
RiM 提出了一种全新范式:不生成中间 token,而是在”记忆空间”中推理。这模糊了记忆和推理的边界,与之前分析中 Cognosys、AutoGPT 等项目的”内部思考 → 外部记忆 → 行动”循环形成有趣对比。
💡 关键洞察和创新点
| 论文 | 核心创新 | 记忆类型映射 |
|---|---|---|
| MMPO | Belief Entropy 作为记忆质量的自监督信号 | 元认知监控 + 工作记忆 |
| RiM | Memory blocks 替代自回归推理步骤 | 工作记忆 + 潜在推理 |
| Selective QA | 多源冲突记忆的结构化评估框架 | 长期记忆 + 语义记忆 |
| CBM | 信念状态的三种失败模式分类 | 信念更新 + 记忆维护 |
| Loong 3E | Essence-Exemplar-Entity 三层记忆 | 情景记忆 + 语义记忆 |
| Parametric Memory Law | LoRA 记忆容量的幂律量化 | 参数记忆 |
| HEART-Bench | 自传体式 episodic memory + 人格整合 | 情景记忆 |
| Agent-Radar | 时间-空间衰减的上下文注意力引导 | 短期记忆过滤 |
🔗 与 19 个开源记忆项目的关联
高度相关
| 项目 | 关联论文 | 关联分析 |
|---|---|---|
| Letta (MemGPT) | MMPO, CBM | MMPO 的元认知记忆优化直接可应用于 MemGPT 的 memory management controller;CBM 的信念更新失败模式对应 MemGPT 的 memory editing 场景 |
| Zep | Selective QA, Loong | Zep 的 episodic/semantic 分层与 Selective QA 的多源冲突问题直接相关;Loong 的 3E 结构与 Zep 的知识图谱提取类似 |
| LangChain Memory | Agent-Radar | LangChain 的 ConversationBufferMemory 等模块面临与 Agent-Radar 相同的上下文膨胀问题 |
| Mem0 | MMPO, Selective QA | Mem0 的记忆去重和冲突解决可借鉴 Selective QA 的评估方法 |
| Cognosys | CBM, HEART-Bench | Cognosys 的长期记忆 + 反思机制与 CBM 的信念管理高度契合 |
间接相关
| 项目 | 关联论文 | 关联分析 |
|---|---|---|
| AutoGPT | MMPO, Agent-Radar | AutoGPT 的长期记忆衰减可参考 MMPO 的 belief entropy 和 Agent-Radar 的时间衰减 |
| CrewAI | Agent-Radar, CBM | 多 agent 协作中的共享记忆管理可借鉴 Agent-Radar 的上下文过滤 |
| LlamaIndex | Loong, Parametric Memory Law | LlamaIndex 的 RAG pipeline 可参考 Loong 的自适应上下文选择策略 |
| MemGPT (原版) | MMPO, RiM | RiM 的 latent memory reasoning 为 MemGPT 的内部推理提供了新思路 |
待探索方向
- 评估标准统一: HEART-Bench 的 episodic memory 评估方法可为开源项目提供标准化测试框架
- 参数记忆理论: Parametric Memory Law 的幂律关系可帮助确定何时需要外部记忆(即参数记忆饱和点)
- 冲突解决机制: Selective QA 的评估方法论可直接用于改进 Zep、Mem0 等项目的去重/冲突解决模块
📊 今日总结
| 维度 | 数据 |
|---|---|
| 扫描论文总数 | ~45 篇 (cs.AI + cs.CL) |
| 筛选相关论文 | 9 篇 |
| 核心记忆论文 | MMPO, RiM, Selective QA, CBM |
| 最具突破性 | MMPO (Belief Entropy 元认知) |
| 最具实用价值 | Loong 3E Memory, Selective QA |
| 与开源项目关联最紧密 | Letta/MemGPT, Zep, Mem0 |
本报告由来顺 🎋 自动生成 | 数据来源: papers.cool/arxiv