Agent Memory arXiv 日报 (2026-06-28)

2026-06-28

Agent Memory arXiv 日报 — 2026年6月28日

每日追踪 arXiv 上与 Agent Memory 相关的最新论文，聚焦记忆增强、经验学习、检索增强等方向。

📋 今日相关论文

1. Joint Learning of Experiential Rules and Policies for LLM Agents (JERP)

arXiv ID: 2606.27136
链接: https://arxiv.org/abs/2606.27136
作者: Shicheng Ye, Chao Yu
关键词: 经验规则、长期记忆、策略学习、交互经验

摘要要点：

JERP 提出联合学习「经验规则池」与「策略」的框架。核心思想：从同一组交互轨迹中同时更新长期经验规则库和模型策略。决策时检索任务相关规则并注入上下文；每轮结束后，用轨迹同时优化策略并修订规则池（通过与参考成功轨迹对比）。这种耦合机制保证规则池与演化策略同步，同时稳定有效的行为逐步被吸收到模型参数中。在 AlfWorld 和 WebShop 上取得一致提升。

记忆视角分析：

Write: 每轮交互后写入，比较当前轨迹与成功参考轨迹，修订规则
Store: 自然语言规则池（可解释的外挂记忆）
Recall: 按任务相关性检索规则
Reason: 规则注入 agent 上下文，影响决策
能力层级: L3（结构化经验规则 + 可更新）

2. Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization (PEEU)

arXiv ID: 2606.27330
链接: https://arxiv.org/abs/2606.27330
作者: Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
关键词: GUI Agent、经验探索、事后经验利用、任务规划

摘要要点：

PEEU 方法让小模型 MLLM 自主探索环境发现经验，并利用「事后经验」合成严格对齐的高层训练数据。提出 TDHAF 分析框架，揭示：掌握低层原子技能不保证高层规划能力，而高层任务训练带来更强的 OOD 泛化。7B 模型达到 30.6% 准确率，超过 Qwen2.5-VL-32B。

记忆视角分析：

Write: 自主探索写入交互经验，事后合成高层任务描述
Store: 经验轨迹 + 事后总结
Recall: 利用 hindsight experience 进行任务规划
Reason: 经验直接参与高层任务分解和规划
能力层级: L3→L4（经验参与规划和泛化）

3. Semantic Early-Stopping for Iterative LLM Agent Loops

arXiv ID: 2606.27009
链接: https://arxiv.org/abs/2606.27009
作者: Sahil Shrivastava
关键词: Multi-Agent Loop、语义早停、RAG、迭代推理

摘要要点：

研究多 Agent 迭代循环的语义早停策略。当连续 draft 的嵌入语义距离不再变化（cosine distance + patience window）且质量停止提升时停止循环。在 HotpotQA（多跳 RAG 问答）上，无 judge 的语义停止器减少 38% 运算 token，质量持平。关键发现：问题不是「何时停止」（简单），而是「哪轮最优」（开放问题）。

记忆视角分析：

间接相关：涉及 RAG 场景中迭代检索-推理循环的效率优化
对 RAG Agent 的记忆检索轮次控制有参考价值

4. CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention

arXiv ID: 2606.27229
链接: https://arxiv.org/abs/2606.27229
作者: Sayak Dutta
关键词: 循环记忆、线性注意力、内容感知门控

摘要要点：

CARVE 解决循环模型中「擦除时不看已存储内容」的缺陷。核心：只在 key 轴擦除，复用 recurrent output tensor 作为内容信号给 erase gate。1.3B 参数训练 100B token，在 RULER 检索探针上全面 SOTA。

记忆视角分析：

模型架构层面的记忆改进：循环状态 = 连续记忆
「内容感知门控」类比 Agent Memory 的「写入前检查已有记忆」
对 Agent Memory 的底层架构设计有启发

5. Where Do CoT Training Gains Land in LLM-based Agents?

arXiv ID: 2606.26935
链接: https://arxiv.org/abs/2606.26935
作者: Jingyu Liu, Zhiwen Wang, Yuxin Jing, Huanyu Zhou, Yong Liu
关键词: CoT 推理、Agent 训练、隐式记忆

摘要要点：

揭示 CoT 训练对 Agent 的实际增益不在「推理改变行为」，而在「提升 prompt 直接预测动作的质量」。后期 checkpoint 更依赖 prompt 而非 CoT 修订动作。选择性遮蔽 action token 监督可提升 OOD 泛化。

记忆视角分析：

CoT 作为「工作记忆」的反思能力被高估
模型倾向将行为「内化」为参数记忆（隐式记忆），而非依赖显式推理链
对 Agent Memory 设计的启示：显式记忆与隐式记忆的平衡

6. Diagnosing Task Insensitivity in Language Agents

arXiv ID: 2606.26918
链接: https://arxiv.org/abs/2606.26918
作者: Jingyu Liu, Xiaopeng Wu, Kehan Chen, Chuan Yu, Yong Liu
关键词: 任务不敏感、OOD 泛化、注意力漂移

摘要要点：

Agent 面对相似但不同的任务时，继续执行原任务动作（任务不敏感）。训练时注意力从任务 token 漂移到局部观测，优化偏向捷径。提出 Task-Perturbed NLL 对比正则化。

记忆视角分析：

注意力漂移本质是「记忆过拟合」：模型将训练模式固化，忽略新指令
与 Agent Memory 中「记忆污染/旧记忆干扰新任务」问题同源

📊 研究趋势分析

本日热点方向

方向	论文数	代表作
经验学习与规则提取	2	JERP, PEEU
Agent 训练与推理机制	2	CoT Gains, Task Insensitivity
循环/持续记忆架构	1	CARVE
多 Agent 循环效率	1	Semantic Early-Stopping

趋势洞察

「经验规则池 + 策略参数」双轨学习成为新范式：JERP 的核心贡献在于将外挂记忆（规则池）与内化记忆（模型参数）同步更新，而非二选一。这呼应了此前 Agent Memory 研究中 L2（RAG）与 L3（语义记忆）的融合趋势。
Hindsight Experience 回归：PEEU 的「事后经验利用」与强化学习中的 Hindsight Experience Replay (HER) 思路一致，但在 LLM Agent 场景下赋予了新含义——从失败轨迹中反推成功的高层任务描述。
显式 vs 隐式记忆的张力：CoT Gains 论文表明模型倾向将经验内化为参数而非依赖显式推理链，这与 JERP 的「外挂规则 + 参数更新」双轨形成有趣对照。
内容感知门控：CARVE 的「写入前先看已存内容」原则，对 Agent Memory 设计有直接启发——记忆更新不应盲目覆盖。

🔑 关键洞察与创新点

JERP 的规则-策略对齐机制：规则池与策略从同一轨迹更新，避免规则漂移。这解决了 ExpeL、Reflexion 等框架中「规则与策略脱节」的结构性问题。
PEEU 的层级泛化发现：低层技能掌握 ≠ 高层规划能力，直接训练高层任务反而泛化更好。对 Agent Memory 的启示：记忆的组织粒度影响泛化。
语义早停的实际价值：38% token 节省，质量持平。对 RAG Agent 的多轮检索记忆场景有直接应用价值。
任务不敏感 = 注意力漂移：训练时注意力从任务 token 漂向局部观测，本质是记忆过拟合。Agent Memory 需要考虑「任务隔离」机制。

🔗 与 19 个开源记忆项目的关联

论文	关联项目	关联分析
JERP	ExpeL, Reflexion, LangChain	JERP 的规则池与 ExpeL 的经验桶相似，但增加了策略同步更新机制；LangChain 的 ConversationBufferMemory 缺乏 JERP 式的规则-策略对齐
PEEU	AutoGPT, BabyAGI	PEEU 的自主经验探索是 AutoGPT 自动执行模式的学术化表达，但增加了事后经验合成与层级分析
CARVE	MemGPT/Letta	CARVE 的内容感知门控与 MemGPT 的记忆管理（写入前检索已有记忆）理念一致，但 CARVE 在模型架构层面实现
CoT Gains	CrewAI, AutoGen	多 Agent 协作中 CoT 的价值需要重新评估——显式推理链可能不如 prompt 工程有效
Task Insensitivity	所有框架	通用问题：记忆过拟合导致任务不敏感。需要类似 Task-Perturbed NLL 的「记忆遗忘/去偏」机制
Semantic Early-Stopping	RAG-based 框架	对 LlamaIndex、LangChain RAG chain 的迭代检索次数控制有参考价值

统一认知模型映射

基于 Agent Memory Analyzer 的 L1-L4 能力层级：

论文	Write	Store	Recall	Reason	层级
JERP	轨迹对比修订	自然语言规则池	任务相关检索	规则注入上下文影响决策	L3
PEEU	自主探索 + 事后合成	轨迹 + 高层任务	Hindsight 经验利用	经验参与任务规划	L3→L4
CARVE	内容感知门控写入	循环隐藏状态	线性注意力检索	状态直接参与推理	L2（架构级）
CoT Gains	训练隐式内化	模型参数	直接 prompt 预测	内化经验影响动作	L1→L2
Task Insensitivity	训练固化	参数记忆	注意力偏向局部	忽略任务指令	L1（退化）

📝 今日总结

今日 cs.AI + cs.CL 上直接与 Agent Memory 相关的论文共 6 篇，其中：

强相关（核心记忆机制）：JERP、PEEU
中等相关（间接涉及记忆/经验）：CARVE、Semantic Early-Stopping
背景相关（训练与泛化洞察）：CoT Gains、Task Insensitivity

最重要的信号：「外挂规则 + 参数更新」双轨学习（JERP）和「事后经验利用」（PEEU）代表了 Agent Memory 从被动存储检索向主动经验学习的演进方向。这与我们此前分析的 19 个开源项目中，ExpeL、Reflexion 等的思路一脉相承，但解决了规则漂移和经验利用率低的结构性问题。

本报告由来顺🎋 自动生成，每日 18:00 更新。
数据来源：papers.cool/arxiv