Agent Memory arXiv 日报 (2026-05-30)

2026-05-30

Agent Memory arXiv 日报 (2026-05-30)

本报告自动筛选自 arXiv cs.AI / cs.CL 最新论文，聚焦 Agent Memory 相关研究。

📋 今日相关论文列表

1. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents (MMPO)

arXiv ID: 2605.30159
链接: https://arxiv.org/abs/2605.30159
摘要要点: 提出 **Metacognitive Memory Policy Optimization (MMPO)**，解决 memory-augmented LLM agent 在长程任务中递归摘要逐步丢失信息的问题。引入 Belief Entropy 作为自监督代理指标，衡量模型对潜在任务状态的不确定性，并通过显式惩罚高认知不确定性的摘要来提供细粒度的 memory-specific 监督。实验表明 MMPO 在 1.75M token 上下文中仍保持 97.1% 性能。

2. Unlocking the Working Memory of Large Language Models for Latent Reasoning (RiM)

arXiv ID: 2605.30343
链接: https://arxiv.org/abs/2605.30343
摘要要点: 提出 Reasoning in Memory (RiM)，用固定序列的特殊 token（memory blocks）替代自回归生成的推理步骤，解锁 LLM 的工作记忆能力。memory blocks 可在单次前向传播中处理，实现计算高效的 latent reasoning。采用两阶段课程学习：先通过预测显式推理步骤来 grounded memory blocks，再迭代精炼最终答案。

3. Selective QA over Conflicting Multi-Source Personal Memory

arXiv ID: 2605.30087
链接: https://arxiv.org/abs/2605.30087
摘要要点: 研究个人 AI agent 的多源冲突记忆问题。构建了一个包含 34,560 个实例的基准，覆盖 18 种问题模板和 8 种推理类型。系统需要基于冲突、有时不完整的来源回答或选择放弃。最佳 fusion resolver 达到 80.3% 准确率，加入弃答机制后可达 85.3% 选择性准确率。这直接对应个人 agent 的长期记忆管理挑战。

4. When Should Models Change Their Minds? Contextual Belief Management in LLMs (CBM)

arXiv ID: 2605.30219
链接: https://arxiv.org/abs/2605.30219
摘要要点: 提出 Contextual Belief Management (CBM) 框架，研究 LLM 在长程交互中如何维护、更新和忽略信念状态。引入 BeliefTrack 基准，诊断三种失败模式：Failed Stay、Failed Update、Failed Isolation。强化学习 + belief-state reward 平均降低 70.9% 失败率。这本质上是 agent 在持续交互中的记忆更新机制。

5. Loong: A Human-Like Long Document Translation Agent with 3E Memory Module

arXiv ID: 2605.30274
链接: https://arxiv.org/abs/2605.30274
摘要要点: 提出 3E Memory Module（Essence-Exemplar-Entity），存储摘要、句对和实体记录作为历史上下文。Agent 通过深度推理自适应选择最优上下文，并通过 RL 优化上下文策略。翻译质量平均提升 13.0 个点。这是一种结构化的 episodic memory 方案。

6. How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

arXiv ID: 2605.30260
链接: https://arxiv.org/abs/2605.30260
摘要要点: 从参数化记忆角度研究 LoRA 微调，提出 Parametric Memory Law（幂律关系连接 loss 降低与有效参数和序列长度）。发现确定性相变：p > 0.5 构成贪心解码下逐字回忆的充分条件。提出 MemFT 优化策略。这为理解 LLM 的参数记忆容量提供了定量框架。

7. HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?

arXiv ID: 2605.30058
链接: https://arxiv.org/abs/2605.30058
摘要要点: 构建 11 个人物角色，每人配备 1,000 条结构化的自传体式 episodic memories，分布在发展心理学理论锚定的生命阶段。使用 DIAMONDS 分类法的 8 个维度设计 64 个决策场景，测试 agent 能否整合性格特质和自传记忆做出一致的行为决策。直接关联 episodic memory 的建模与评估。

8. Agent-Radar: Enhancing Multi-Agent Communication through Attention Steering

arXiv ID: 2605.30136
链接: https://arxiv.org/abs/2605.30136
摘要要点: 提出 Agent-Radar，一种免训练的上下文管理方法，通过时间-空间衰减机制动态引导 agent 注意力到相关上下文。解决多 agent 系统中长对话历史导致的信息稀释问题。本质上是一种运行时记忆检索/过滤策略，在 5 个基准上提升最多 7.64 个点。

9. History-Aware Profiles for Student Simulation in Tutoring Dialogues

arXiv ID: 2605.30051
链接: https://arxiv.org/abs/2605.30051
摘要要点: 提出基于学习历史的学生模拟框架：profile generator 总结学生历史，simulator 基于生成的 profile 预测学生对话。两个组件均通过 RL 训练。展示了历史记忆（学习轨迹）如何影响行为预测，是 memory-grounded behavior 的一个案例。

🔥 研究趋势分析

趋势一：从被动记忆到主动元认知记忆管理

MMPO 和 CBM 两篇论文都指向一个核心方向：agent 不应仅仅”存储和检索”记忆，还需要主动监控自己对记忆的理解质量。MMPO 的 Belief Entropy 和 CBM 的 belief-state reward 本质上都是让 agent 意识到”我不确定自己是否记住了”。这与 MemGPT 等项目的 memory management 思路一脉相承，但更强调元认知层面。

趋势二：结构化记忆模块化

Loong 的 3E Memory（Essence-Exemplar-Entity）和 HEART-Bench 的 episodic memory 设计都体现了记忆分层、分类的趋势。不再是把所有历史塞进一个上下文窗口，而是按语义类型组织。这与之前分析的 Letta (MemGPT) 的 core/recall/archival 分层、Zep 的 episodic/semantic memory 分层高度一致。

趋势三：冲突记忆与记忆可靠性

Selective QA 论文直接研究多源冲突记忆的推理问题。这在开源项目中几乎未被充分解决——大多数项目假设记忆是干净一致的。这是一个重要的新方向：当 agent 持续运行并从多个信息源积累记忆时，冲突不可避免。

趋势四：参数记忆 vs 外部记忆的统一理解

Parametric Memory Law 论文从理论角度量化了 LLM 的参数记忆容量。结合外部记忆系统（RAG、向量数据库），一个完整的 agent memory 框架需要同时理解”模型本身能记住多少”和”外部存储需要补充什么”。

趋势五：记忆驱动的 latent reasoning

RiM 提出了一种全新范式：不生成中间 token，而是在”记忆空间”中推理。这模糊了记忆和推理的边界，与之前分析中 Cognosys、AutoGPT 等项目的”内部思考 → 外部记忆 → 行动”循环形成有趣对比。

💡 关键洞察和创新点

论文	核心创新	记忆类型映射
MMPO	Belief Entropy 作为记忆质量的自监督信号	元认知监控 + 工作记忆
RiM	Memory blocks 替代自回归推理步骤	工作记忆 + 潜在推理
Selective QA	多源冲突记忆的结构化评估框架	长期记忆 + 语义记忆
CBM	信念状态的三种失败模式分类	信念更新 + 记忆维护
Loong 3E	Essence-Exemplar-Entity 三层记忆	情景记忆 + 语义记忆
Parametric Memory Law	LoRA 记忆容量的幂律量化	参数记忆
HEART-Bench	自传体式 episodic memory + 人格整合	情景记忆
Agent-Radar	时间-空间衰减的上下文注意力引导	短期记忆过滤

🔗 与 19 个开源记忆项目的关联

高度相关

项目	关联论文	关联分析
Letta (MemGPT)	MMPO, CBM	MMPO 的元认知记忆优化直接可应用于 MemGPT 的 memory management controller；CBM 的信念更新失败模式对应 MemGPT 的 memory editing 场景
Zep	Selective QA, Loong	Zep 的 episodic/semantic 分层与 Selective QA 的多源冲突问题直接相关；Loong 的 3E 结构与 Zep 的知识图谱提取类似
LangChain Memory	Agent-Radar	LangChain 的 ConversationBufferMemory 等模块面临与 Agent-Radar 相同的上下文膨胀问题
Mem0	MMPO, Selective QA	Mem0 的记忆去重和冲突解决可借鉴 Selective QA 的评估方法
Cognosys	CBM, HEART-Bench	Cognosys 的长期记忆 + 反思机制与 CBM 的信念管理高度契合

间接相关

项目	关联论文	关联分析
AutoGPT	MMPO, Agent-Radar	AutoGPT 的长期记忆衰减可参考 MMPO 的 belief entropy 和 Agent-Radar 的时间衰减
CrewAI	Agent-Radar, CBM	多 agent 协作中的共享记忆管理可借鉴 Agent-Radar 的上下文过滤
LlamaIndex	Loong, Parametric Memory Law	LlamaIndex 的 RAG pipeline 可参考 Loong 的自适应上下文选择策略
MemGPT (原版)	MMPO, RiM	RiM 的 latent memory reasoning 为 MemGPT 的内部推理提供了新思路

待探索方向

评估标准统一: HEART-Bench 的 episodic memory 评估方法可为开源项目提供标准化测试框架
参数记忆理论: Parametric Memory Law 的幂律关系可帮助确定何时需要外部记忆（即参数记忆饱和点）
冲突解决机制: Selective QA 的评估方法论可直接用于改进 Zep、Mem0 等项目的去重/冲突解决模块

📊 今日总结

维度	数据
扫描论文总数	~45 篇 (cs.AI + cs.CL)
筛选相关论文	9 篇
核心记忆论文	MMPO, RiM, Selective QA, CBM
最具突破性	MMPO (Belief Entropy 元认知)
最具实用价值	Loong 3E Memory, Selective QA
与开源项目关联最紧密	Letta/MemGPT, Zep, Mem0

本报告由来顺 🎋 自动生成 | 数据来源: papers.cool/arxiv