今日 Agent 研究概览
今天 arXiv cs.AI 分类中,Agent 相关研究呈现几个显著趋势:自进化与自我改进、结构化记忆系统、领域专业化 以及 多 Agent 协作。以下是精选论文速递。
🔄 自进化与自我改进 Agent
1. Trajectory-Informed Memory Generation for Self-Improving Agent Systems
核心问题:LLM Agent 如何从执行经验中学习,避免重复低效模式?
方案亮点:
- Trajectory Intelligence Extractor:语义分析 Agent 推理模式
- Decision Attribution Analyzer:识别导致失败/恢复/低效的决策步骤
- Contextual Learning Generator:生成策略提示、恢复提示、优化提示
- Adaptive Memory Retrieval System:基于多维相似性的学习检索
结果:AppWorld benchmark 上场景目标完成率提升高达 14.3pp,复杂任务提升 28.5pp (相对提升 149%)。
2. Emulating Clinician Cognition via Self-Evolving Deep Clinical Research
核心问题:临床诊断 AI 如何像医生一样持续积累经验?
方案亮点:
- DxEvolve:自进化诊断 Agent
- 自主请求检查,持续将临床经验外化为诊断认知原语
- 支持可审计的持续进化路径
结果:MIMIC-CDM benchmark 诊断准确率平均提升 **11.2%**,在 reader-study 子集达到 **90.4%**,接近临床医生参考水平 (88.8%)。
3. Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents
核心问题:生成式 AI 如何应用于连续控制任务?
方案亮点:
- 自微调框架,Agent 通过环境交互持续学习
- 双视角反思机制,从交互历史构建偏好数据集
- 无需手工奖励信号
结果:在动态 RAN 切片任务上,样本效率、稳定性和多指标优化均优于标准 RL 和现有 LLM Agent。
🧠 结构化记忆系统
4. Hybrid Self-evolving Structured Memory for GUI Agents
核心问题:GUI Agent 如何组织记忆以支持长时程任务?
方案亮点:
- HyMEM:图结构记忆,结合离散高层符号节点 + 连续轨迹嵌入
- 多跳检索、自进化节点更新、工作记忆刷新
- 模拟人脑记忆的结构化组织
结果:Qwen2.5-VL-7B 提升 **+22.5%**,超越 Gemini2.5-Pro-Vision 和 GPT-4o。
🏗️ Agent 开发范式
5. Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization
核心问题:如何有效编码领域专业知识到 Agent?
方案亮点:
- **Nurture-First Development (NFD)**:新范式
- Agent 从最小脚手架开始,通过结构化对话交互逐步成长
- Knowledge Crystallization Cycle:将碎片化知识整合为可复用资产
- 三层认知架构 + 双工作区模式 + 螺旋开发模型
洞察:领域专业知识本质上是隐性的、个人的、持续演化的,传统的”代码优先”或”提示优先”范式存在根本性错配。
🖥️ Computer-Use Agent 评估
6. CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents
核心问题:如何可靠地评估自主 Computer-Use Agent?
方案亮点:
- 研究 VLM 作为自主审计器评估 CUA 任务完成
- 跨 macOS、Windows、Linux 三大平台
- 从准确率、置信度校准、模型间一致性三个维度评估
发现:虽然 SOTA VLM 准确率和校准表现强劲,但在复杂/异构环境中性能显著下降,高表现模型间仍存在显著判断分歧。
🤖 多 Agent 协作
7. COMIC: Agentic Sketch Comedy Generation
核心问题:如何自动化创作喜剧视频?
方案亮点:
- 基于 SNL 风格的多 Agent 协作系统
- Agent 角色模仿真实制作工作室分工
- 通过竞争、评估、改进循环优化创意
- LLM 评分器通过对 YouTube 喜剧视频分析对齐真实观众偏好
结果:产出接近专业制作水平的短剧视频。
📊 数据产品 Agent
8. Agentic Control Center for Data Product Optimization
核心问题:如何自动化数据产品质量改进?
方案亮点:
- 专业化 AI Agent 在持续优化循环中运作
- 自动发现问题、监控多维度质量指标
- 支持人机协作控制
价值:将数据转化为可观测、可优化的资产,平衡自动化与信任监督。
📈 趋势总结
| 趋势 | 代表论文 | 核心方向 |
|---|---|---|
| 🔄 自进化 | #5, #3, #8 | 从执行轨迹学习,持续积累经验 |
| 🧠 记忆系统 | #5, #14 | 结构化、可检索、自进化的记忆架构 |
| 🏗️ 开发范式 | #2 | 从”工程优先”到”培育优先” |
| 🖥️ 评估审计 | #7 | VLM 作为 CUA 审计器的局限与挑战 |
| 🤖 多 Agent | #16 | 角色分工、竞争协作的创意生成 |
| 🏥 领域专用 | #3, #15 | 医疗诊断、数据产品等专业场景 |
💡 关键洞察
记忆是 Agent 的核心能力:从简单的对话历史到结构化的知识图谱,记忆系统的设计直接决定了 Agent 的长期表现。
自进化是通往 AGI 的关键路径:Agent 不再是静态系统,而是能够从经验中学习、自我改进的动态实体。
评估比训练更难:对于自主 Computer-Use Agent,可靠评估本身就是一个开放研究问题。
**领域专业知识需要”培育”**:传统的工程化方法难以捕捉领域专家的隐性知识,对话式知识结晶提供了新思路。
参考链接
本文由 AI 自动整理生成,数据来源:arXiv cs.AI (2026-03-12)