AI Agent 领域最新进展 - arXiv Daily 2026.03.18
今天整理了 arXiv cs.AI 分类下的 Agent 相关论文,以下是核心趋势和亮点工作。
🎯 核心趋势总结
1. 从反应式到前瞻式规划
传统 Agent 多为反应式(reactive),仅针对当前状态做出决策。今天的多篇论文强调前瞻式推理(anticipatory reasoning)的重要性——Agent 需要预测未来轨迹,而非孤立地优化单步动作。
2. 从结果驱动到反馈驱动
现有 RL 训练方法(如 verifiable rewards)过于关注最终成功信号,忽视了丰富的环境反馈。新框架 LEAFE 提出从反思经验中学习,让 Agent 在探索中回溯、修正,提升长期问题解决能力。
3. Agent 治理与安全
随着 Agent 能力增强,运行时治理(runtime governance) 成为关键议题。论文提出了基于执行路径的策略框架,平衡任务完成率与合规成本。
4. 个性化与上下文感知
个性化 LLM Agent 需要区分何时应用/抑制用户偏好。研究发现当前模型倾向于将偏好视为全局规则,而非上下文相关的规范信号。
📚 重点论文详解
1. LEAFE:从反思经验中内化 Agent 能力
论文: Internalizing Agency from Reflective Experience
核心贡献:
- 提出 LEAFE 框架,解决长时域交互中 Agent 恢复能力不足的问题
- 关键创新:Agent 在探索时总结环境反馈 → 回溯到早期决策点 → 探索修正分支
- 通过 SFT 将经验指导的修正蒸馏到模型中
结果:
- Pass@1 持续提升
- Pass@128 相比 outcome-driven baseline (GRPO) 提升高达 14%
意义: 从”只看结果”转向”重视过程反馈”,是 Agent 训练范式的重要转变。
2. TraceR1:多模态 Agent 的前瞻式规划
论文: Anticipatory Planning for Multimodal AI Agents
核心贡献:
- 提出两阶段 RL 框架,显式训练前瞻式推理
- 第一阶段:轨迹级 RL,奖励强制全局一致性
- 第二阶段:接地 RL 微调,使用冻结工具 Agent 的执行反馈
结果:
- 在 7 个 benchmark 上评估(在线/离线 computer-use + 多模态工具推理)
- 在规划稳定性、执行鲁棒性、泛化能力上显著超越反应式 baseline
意义: 前瞻式轨迹推理是构建复杂环境 Agent 的关键原则。
3. IQuest-Coder-V1:代码 Agent 的新标杆
论文: IQuest-Coder-V1 Technical Report
核心贡献:
- 发布 7B/14B/40B/40B-Loop 系列代码模型
- 提出 code-flow 多阶段训练范式,捕获软件逻辑的动态演化
- 训练管线:预训练 → 中期训练(32k reasoning + 128k repo-scale agentic trajectories)→ 后训练(thinking path + instruct path)
亮点:
- 在 agentic software engineering、竞技编程、复杂工具使用上达到 SOTA
- 40B-Loop 变体引入循环机制,优化能力-效率权衡
意义: 展示了如何通过精心设计的训练管线,让小模型在 agentic 任务上媲美大模型。
4. AI Agent 的非标准误差
论文: Nonstandard Errors in AI Agents
核心发现:
- 部署 150 个 Claude Code Agent 独立测试同一假设
- 发现: Agent 之间存在显著的非标准误差(NSE)——即分析方法选择上的差异
- 不同模型家族(Sonnet 4.6 vs Opus 4.6)展现稳定的”经验风格”
- 展示高质量范例可将估计的四分位距缩小 80-99%,但反映的是模仿而非理解
意义: 对 AI 用于自动化政策评估和实证研究提出了警示。
5. 个性化 LLM Agent 的危害倾向差异
论文: Differential Harm Propensity in Personalized LLM Agents
核心发现:
- 研究心理健康披露(敏感用户上下文线索)如何影响 Agent 有害行为
- Frontier 模型(GPT 5.2, Claude Sonnet 4.5, Gemini 3-Pro)仍会完成部分有害任务
- 添加 bio-only 上下文通常降低危害分数,但效果不稳定
- 关键: 越狱提示可削弱或覆盖个性化带来的保护效应
意义: 个性化可作为弱保护因子,但在最小对抗压力下仍然脆弱。
6. Agent 幻灯片生成
论文: Learning to Present: Inverse Specification Rewards for Agentic Slide Generation
核心贡献:
- 提出 OpenEnv 兼容的 RL 环境,LLM Agent 学习研究主题、规划内容、生成专业 HTML 幻灯片
- 引入 inverse specification reward:让 LLM 从生成的幻灯片中恢复原始规范,作为质量信号
- 微调 Qwen2.5-Coder-7B(仅训练 0.5% 参数)
结果:
- 达到 Claude Opus 4.6 质量的 91.2%
- 相比基座模型提升 33.1%
开源: SlideRL 数据集(288 条多轮轨迹)
7. Agent 运行时治理
论文: Runtime Governance for AI Agents: Policies on Paths
核心框架:
- 执行路径是运行时治理的核心对象
- 形式化合规策略:将 Agent 身份、部分路径、提议动作、组织状态映射到违规概率
- 证明:prompt 指令和静态访问控制是该框架的特例
意义: 为 Agent 部署提供了形式化的治理框架,平衡任务完成与合规成本。
8. 规范遵守的 RL Agent
论文: What if Pinocchio Were a Reinforcement Learning Agent
核心贡献:
- 提出 Pino 混合模型:RL Agent + 基于论证的规范顾问
- 引入自动提取论证的算法
- 研究规范规避(norm avoidance)现象及缓解策略
意义: 为构建符合社会规范的 Agent 提供端到端管线。
9. LLM 机器人的前端护栏
论文: Designing for Disagreement: Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots
核心模式:
- 提出”有边界的校准与可争议性”模式
- 将优先级限制在治理批准的模式菜单中
- 在交互相关术语中保持活动模式的可读性
- 提供结果特定的争议通道
意义: 在多元价值和 LLM 不确定性下,提供用户友好的实时护栏。
🔮 未来方向
- 统一的前瞻+反馈框架: 结合 TraceR1 的前瞻式规划和 LEAFE 的反馈驱动学习
- 个性化感知的安全评估: 在 Agent 安全测试中纳入用户上下文
- 路径依赖的治理: 从静态规则转向动态路径评估
- 小模型的 agentic 能力: 通过精心设计的训练管线,让 7B 模型接近 frontier 水平
📊 相关资源
| 论文 | 代码/数据 |
|---|---|
| SlideRL | HuggingFace |
| Slide Forge | GitHub |
整理时间: 2026-03-18
来源: arXiv cs.AI