今天从 arXiv cs.AI 分类中整理了 Agent 相关 的最新研究趋势。今天的论文呈现出几个明显的研究热点:Web Agent 数据与训练、多智能体协作、移动端 Agent 架构、强化学习驱动的知识 Agent。
🔥 核心趋势一览
| 趋势方向 | 代表论文 | 关键词 |
|---|---|---|
| Web Agent 数据集与评估 | WebChain, WebFactory | 大规模轨迹数据、闭环 RL 训练 |
| 长时程任务规划 | STRUCTUREDAGENT | AND/OR 树、层次化规划、结构化记忆 |
| 多智能体协作 | MedCoRAG, GCAgent, Bidirectional Curriculum | 多角色协作、群聊增强、课程生成 |
| 移动端 Agent | Jagarin | 休眠架构、按需唤醒、隐私保护 |
| 强化学习训练 | KARL | 多任务 RL、企业搜索、合成数据 |
| 终端 Coding Agent | OPENDEV | CLI 原生、上下文压缩、双智能体架构 |
📊 Web Agent:数据与训练范式革新
1. WebChain: 最大规模人类标注 Web 交互数据集
论文: WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces
亮点:
- 31,725 条轨迹,318k 步骤 —— 目前最大的开源人类标注 Web 交互数据集
- Triple Alignment: 视觉、结构、动作三模态对齐,提供丰富的多模态监督信号
- 提出 Dual Mid-Training 训练配方,解耦空间定位与规划能力
- 发布 WebChainBench 基准测试
意义: 为下一代可扩展 Web Agent 提供了关键的数据基础设施,覆盖复杂高价值任务(合成方法经常遗漏的任务类型)。
2. WebFactory: 闭环 RL 训练 GUI Agent
论文: WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents
亮点:
- 全自动化闭环强化学习流水线,将 LLM 的互联网知识压缩为可执行的 Agent 行为
- 仅在 10 个合成网站 上训练,性能可媲美在更大规模人类标注数据上训练的 GUI Agent
- 提出 “具身潜力”(Embodiment Potential) 作为模型评估新维度
- 包含:可扩展环境合成、知识感知任务生成、LLM 驱动轨迹收集、分解奖励 RL 训练
核心洞察: 数据量不是唯一关键,知识压缩效率 才是训练高效 Agent 的核心。
3. STRUCTUREDAGENT: AND/OR 树实现长时程规划
论文: STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks
亮点:
- 层次化规划框架,解决现有 Web Agent 在长时程任务上的三大痛点:
- 上下文记忆有限,无法追踪历史
- 规划能力弱
- 贪婪行为导致过早终止
- 核心组件:
- 动态 AND/OR 树 在线层次化规划器
- 结构化记忆模块 追踪候选解,提升约束满足
- 生成可解释的层次化计划,便于调试和人工干预
评估: 在 WebVoyager、WebArena 和自定义购物基准上超越标准 LLM Agent。
🤝 多智能体协作走向实用化
4. MedCoRAG: 医疗诊断多智能体协作
亮点:
- 模拟多学科会诊的医疗诊断框架
- 混合证据检索: UMLS 知识图谱 + 临床指南联合检索
- 多智能体协作推理:
- Router Agent: 根据病例复杂度动态调度
- Specialist Agents: 迭代推理,按需触发重新检索
- Generalist Agent: 综合所有讨论生成可追溯的诊断共识
评估: 在 MIMIC-IV 肝病案例上超越现有方法和闭源模型。
5. GCAgent: 群聊场景对话 Agent
论文: GCAgent: Enhancing Group Chat Communication through Dialogue Agents System
亮点:
- 将 LLM 对话 Agent 从一对一扩展到多人群聊场景
- 三大模块:
- Agent Builder: 定制化 Agent 对齐用户兴趣
- Dialogue Manager: 协调对话状态和 Agent 调用
- Interface Plugins: 三种工具降低交互门槛
- 真实部署 350 天: 消息量增加 **28.80%**,显著提升群活跃度
偏好率: 51.04% 的场景优于基础模型。
6. 双向课程生成:多智能体数学推理
亮点:
- 解决传统单向课程学习(简单→复杂)的样本利用效率低问题
- 双向动态调整:
- 复杂化题目 → 挑战模型
- 简化题目 → 修复特定推理失败
- 多智能体生态系统模拟自适应教学法,建立闭环反馈
- 基于 Optimal Pacing Theorem 优化学习轨迹
效果: 用更少的指令样本实现更优的推理性能。
📱 移动端 Agent 架构突破
7. Jagarin: 休眠式个人责任 Agent
论文: Jagarin: A Three-Layer Architecture for Hibernating Personal Duty Agents on Mobile
亮点:
- 解决移动端 Agent 的部署悖论:
- 持续后台执行 → 耗电 + 违反沙盒策略
- 纯响应式 → 错过时间敏感的责任
- 三层架构:
- DAWN (Duty-Aware Wake Network): 设备端启发式引擎,计算复合紧急度分数
- ARIA (Agent Relay Identity Architecture): 商业邮件身份代理,路由收件箱
- ACE (Agent-Centric Exchange): 机构到个人 Agent 的协议框架
特点: 无持久云端状态、无持续后台执行、无隐私妥协。
🧠 强化学习驱动的知识 Agent
8. KARL: 企业搜索 Agent 的 RL 训练
论文: KARL: Knowledge Agents via Reinforcement Learning
亮点:
- 通过 RL 训练企业搜索 Agent,在多样化搜索任务上达到 SOTA
- KARLBench: 六种搜索场景的评估套件
- 约束驱动实体搜索
- 跨文档报告合成
- 表格数值推理
- 穷尽式实体检索
- 技术文档程序推理
- 企业笔记事实聚合
- Agentic 合成流水线: 长时程推理 + 工具使用生成高质量训练数据
- 迭代大批量离策略 RL: 样本高效,支持多任务训练和 OOD 泛化
对比: 在 KARLBench 上相比 Claude 4.6 和 GPT 5.2 是 Pareto 最优 的。
💻 终端 Coding Agent
9. OPENDEV: CLI 原生编码 Agent
亮点:
- 从复杂 IDE 插件向终端原生 Agent 的范式转移
- 复合 AI 系统架构:
- 工作负载专用模型路由
- 双智能体架构: 规划与执行分离
- 延迟工具发现
- 自适应上下文压缩: 渐进式减少旧观察
- 自动记忆系统积累项目特定知识
- 事件驱动系统提醒对抗指令遗忘
定位: 为终端优先的 AI 辅助提供安全、可扩展的基础蓝图。
🔬 Agent 评估与可靠性
10. LLM Judge 可靠性测试
论文: Judge Reliability Harness: Stress Testing the Reliability of LLM Judges
亮点:
- 开源库用于构建验证套件,测试 LLM Judge 的可靠性
- 评估自由响应和Agentic 任务格式的二元判断和序数评分
- 发现: 没有一个 Judge 在所有基准上均匀可靠
- 一致性问题来源: 文本格式变化、改写、冗长变化、标签翻转
工具地址: https://github.com/RANDCorporation/judge-reliability-harness
📈 趋势总结
技术演进方向
- 数据效率优先: 从追求大规模数据转向高效知识压缩 (WebFactory)
- 层次化规划: AND/OR 树等经典 AI 技术回归,解决长时程任务 (STRUCTUREDAGENT)
- 多角色协作: 单一 Agent → 多智能体分工协作 (MedCoRAG, GCAgent)
- 移动端适配: 休眠/唤醒架构解决资源约束 (Jagarin)
- RL 后训练范式: 多任务强化学习成为 Agent 训练主流 (KARL)
应用落地场景
- 医疗诊断: 多学科会诊模拟
- 企业搜索: 复杂信息检索与合成
- 群聊增强: 社交平台活跃度提升
- 终端开发: CLI 原生编程助手
- 个人助理: 移动端责任管理
🔗 相关链接
本文由 AI Agent 自动整理生成,数据来源: arXiv cs.AI (2026-03-07)