Agent 日报 | 2026-06-30 · cs.AI Agent 趋势速览

2026-06-30

今日 cs.AI 共 13 篇新文，其中 7 篇与 Agent 直接相关，趋势清晰——安全免疫、世界模型、训练蒸馏、具身规划四大方向齐头并进。

🔥 趋势一：Agent 安全从”对齐”走向”免疫”

[#1] Agent-Native Immune System (ANIS)

论文 | cs.AI + cs.MA

首个生物启发式 Agent 内生防御架构。核心观点：**模型对齐是”宪法”，Agent 免疫是”执法”**——对齐只提供训练时的静态价值基础，而 Agent 在运行时面临记忆投毒、工具链操控、多 Agent 协议攻击等动态威胁，需要一套嵌入认知循环的免疫系统。

六层免疫塔 L0-L5，L1 为非认知的物理-逻辑隔离层
Agent Virus / Agent Vaccine 分类体系，区分非参数防御 vs 参数化疫苗
Harness Triad（Meta/Self/Auto）驱动持续免疫学习（CIL）
提出 Autoimmunity Rate 等新评估指标

💡 信号：Agent 安全正在从”外围防护”转向”内生免疫”，与生物免疫系统类比极具启发性。随着 Agent 自主性增强，运行时安全将成为独立于对齐的核心研究方向。

🔥 趋势二：世界模型 + Agent 规划，减少幻觉是核心

[#11] GILP — Grounded Iterative Language Planning

论文 | cs.AI

LLM Agent 的世界模型有两种：基于 API 的语言世界模型（灵活但幻觉多）和参数化世界模型（可度量但能力弱）。GILP 将两者结合——小参数化 backbone 提供合法动作、状态预测、风险值，LLM 起草动作，一致性门控在两者不一致时请求修订。

幻觉状态率从 17.6% 降至 3.5%
成功率从 0.668 提升至 0.838，仅增加 ~22% LLM 调用

[#12] Understanding Rollout Error in Graph World Models

论文 | cs.AI

同一团队的前作，研究图结构世界模型的长时域 rollout 误差。提出 Error-Aware GWM（谱正则化 + rollout 一致性 + 关键节点加权），防止长时域发散。

图世界模型最适合动态图 rollout 和 Agent 规划
边预测 vs 固定边的误差传播模式截然不同

💡 信号：**小模型做”锚”，大模型做”想象”**——这是 Agent 规划中平衡可靠性与灵活性的新范式。世界模型研究正从向量/图像转向图结构，更贴近真实 Agent 场景。

🔥 趋势三：小模型 Agent 的训练方法持续演进

[#10] ATOD — Annealed Turn-aware On-policy Distillation

论文 | cs.AI

训练小模型 Agent 的核心矛盾：在线蒸馏（OPD）早期快但天花板低，RL 直接优化奖励但早期慢。ATOD 用退火调度（OPD → RL 渐进切换）+ Turn 级别重加权来解决。

ALFWorld / WebShop / Search-QA 三个基准全面超越
比 OPD 平均高 3.03 分，比 GRPO 高 23.62 分
超越对应 Teacher 模型 2.16 分

[#2] TRL — Tandem Reinforcement Learning

论文 | cs.AI

解决 RLVR 的”兼容性问题”——强模型推理能力虽强，但推理模式人类/弱模型难以跟随。TRL 让强模型（senior）和冻结弱模型（junior）交替生成，作为团队获得奖励。

匹配 GRPO 的独立推理能力
同时获得更强的交接鲁棒性、更小的分布漂移、更易读的 CoT

💡 信号：小模型 Agent 训练进入”混合策略”时代——蒸馏和 RL 不是二选一，而是需要时序调度和细粒度控制。人机兼容性成为 Agent 训练的新优化目标。

🔥 趋势四：具身 Agent 的社会规范与可靠规划

论文 | cs.AI

具身规划不仅要完成任务，还要遵守隐性社会规范。NormAct 基准揭示：GPT-5.4/Claude Opus 4.7/Gemini 3 Pro 在显式目标达成 67.3%，但隐性规范遵守仅 26.4%。

提出 NormPerceptor：上下文条件化的线索生成器
Task Success 从 24.2% 提升至 46.7%

论文 | cs.AI

符号反馈驱动的 LLM 规划自精炼框架：自然语言提示机制映射逻辑符号，符号验证器识别错误并转为纠正指令，规划识别器推断目标可达性。

[#8] SD-GPS — Solver-Driven Geometry Problem Solving

论文 | cs.AI + cs.CL + cs.CV

将符号求解器作为执行预言机，贯穿形式化和推导全程。提出 impasse-aware agent 提出辅助引理，经符号验证确保正确性。

💡 信号：神经+符号的深度融合是 Agent 可靠规划的关键路径。从社会规范到几何证明，”让 Agent 知道自己不知道什么”比”让 Agent 更聪明”更紧迫。

📊 今日 Agent 论文全景

#	论文	关键词	核心贡献
1	ANIS	安全·免疫	Agent 内生防御架构
10	ATOD	训练·蒸馏	OPD-RL 退火调度
11	GILP	世界模型·规划	参数化锚+LLM 想象
12	Graph WM	世界模型·理论	图世界模型 rollout 误差
9	NormAct	具身·规范	隐性社会规范基准
13	Symbolic Feedback	规划·可靠	符号反馈自精炼
8	SD-GPS	推理·验证	求解器驱动形式化

🧭 总结

今日 Agent 研究呈现四条清晰主线：

安全内生化：从外围防护到认知循环内的免疫系统，对齐 ≠ 免疫
世界模型锚定：小参数化模型做”现实锚点”，大模型做”想象力”，一致性门控防幻觉
训练策略混合化：蒸馏+RL 退火调度，人机兼容成为优化目标
神经符号融合：符号验证器/求解器作为 Agent 的”校验层”，确保规划可靠可验证

一句话：**Agent 正在从”能做事”走向”安全地做事”和”可靠地做事”**。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true

刘道玉 AI 工作坊

Agent 日报 | 2026-06-30 · cs.AI Agent 趋势速览

🔥 趋势一：Agent 安全从”对齐”走向”免疫”

[#1] Agent-Native Immune System (ANIS)

🔥 趋势二：世界模型 + Agent 规划，减少幻觉是核心

[#11] GILP — Grounded Iterative Language Planning

[#12] Understanding Rollout Error in Graph World Models

🔥 趋势三：小模型 Agent 的训练方法持续演进

[#10] ATOD — Annealed Turn-aware On-policy Distillation

[#2] TRL — Tandem Reinforcement Learning

🔥 趋势四：具身 Agent 的社会规范与可靠规划

[#13] Symbolic Feedback-Driven Iterative Self-Refinement

[#8] SD-GPS — Solver-Driven Geometry Problem Solving

📊 今日 Agent 论文全景

🧭 总结

🔥 趋势一：Agent 安全从”对齐”走向”免疫”

[#1] Agent-Native Immune System (ANIS)

🔥 趋势二：世界模型 + Agent 规划，减少幻觉是核心

[#11] GILP — Grounded Iterative Language Planning

[#12] Understanding Rollout Error in Graph World Models

🔥 趋势三：小模型 Agent 的训练方法持续演进

[#10] ATOD — Annealed Turn-aware On-policy Distillation

[#2] TRL — Tandem Reinforcement Learning

🔥 趋势四：具身 Agent 的社会规范与可靠规划

[#9] NormAct — Hidden Social Norm Compliance

[#13] Symbolic Feedback-Driven Iterative Self-Refinement

[#8] SD-GPS — Solver-Driven Geometry Problem Solving

📊 今日 Agent 论文全景

🧭 总结