arXiv cs.AI Agent 研究趋势速递 (2026-03-12)

2026-03-12

今日 Agent 研究概览

今天 arXiv cs.AI 分类中，Agent 相关研究呈现几个显著趋势：自进化与自我改进、结构化记忆系统、领域专业化 以及 多 Agent 协作。以下是精选论文速递。

🔄 自进化与自我改进 Agent

1. Trajectory-Informed Memory Generation for Self-Improving Agent Systems

核心问题：LLM Agent 如何从执行经验中学习，避免重复低效模式？

方案亮点：

Trajectory Intelligence Extractor：语义分析 Agent 推理模式
Decision Attribution Analyzer：识别导致失败/恢复/低效的决策步骤
Contextual Learning Generator：生成策略提示、恢复提示、优化提示
Adaptive Memory Retrieval System：基于多维相似性的学习检索

结果：AppWorld benchmark 上场景目标完成率提升高达 14.3pp，复杂任务提升 28.5pp (相对提升 149%)。

2. Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

核心问题：临床诊断 AI 如何像医生一样持续积累经验？

方案亮点：

DxEvolve：自进化诊断 Agent
自主请求检查，持续将临床经验外化为诊断认知原语
支持可审计的持续进化路径

结果：MIMIC-CDM benchmark 诊断准确率平均提升 **11.2%**，在 reader-study 子集达到 **90.4%**，接近临床医生参考水平 (88.8%)。

3. Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

核心问题：生成式 AI 如何应用于连续控制任务？

方案亮点：

自微调框架，Agent 通过环境交互持续学习
双视角反思机制，从交互历史构建偏好数据集
无需手工奖励信号

结果：在动态 RAN 切片任务上，样本效率、稳定性和多指标优化均优于标准 RL 和现有 LLM Agent。

🧠 结构化记忆系统

4. Hybrid Self-evolving Structured Memory for GUI Agents

核心问题：GUI Agent 如何组织记忆以支持长时程任务？

方案亮点：

HyMEM：图结构记忆，结合离散高层符号节点 + 连续轨迹嵌入
多跳检索、自进化节点更新、工作记忆刷新
模拟人脑记忆的结构化组织

结果：Qwen2.5-VL-7B 提升 **+22.5%**，超越 Gemini2.5-Pro-Vision 和 GPT-4o。

🏗️ Agent 开发范式

5. Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

核心问题：如何有效编码领域专业知识到 Agent？

方案亮点：

**Nurture-First Development (NFD)**：新范式
Agent 从最小脚手架开始，通过结构化对话交互逐步成长
Knowledge Crystallization Cycle：将碎片化知识整合为可复用资产
三层认知架构 + 双工作区模式 + 螺旋开发模型

洞察：领域专业知识本质上是隐性的、个人的、持续演化的，传统的”代码优先”或”提示优先”范式存在根本性错配。

🖥️ Computer-Use Agent 评估

6. CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

核心问题：如何可靠地评估自主 Computer-Use Agent？

方案亮点：

研究 VLM 作为自主审计器评估 CUA 任务完成
跨 macOS、Windows、Linux 三大平台
从准确率、置信度校准、模型间一致性三个维度评估

发现：虽然 SOTA VLM 准确率和校准表现强劲，但在复杂/异构环境中性能显著下降，高表现模型间仍存在显著判断分歧。

🤖 多 Agent 协作

7. COMIC: Agentic Sketch Comedy Generation

核心问题：如何自动化创作喜剧视频？

方案亮点：

基于 SNL 风格的多 Agent 协作系统
Agent 角色模仿真实制作工作室分工
通过竞争、评估、改进循环优化创意
LLM 评分器通过对 YouTube 喜剧视频分析对齐真实观众偏好

结果：产出接近专业制作水平的短剧视频。

📊 数据产品 Agent

8. Agentic Control Center for Data Product Optimization

核心问题：如何自动化数据产品质量改进？

方案亮点：

专业化 AI Agent 在持续优化循环中运作
自动发现问题、监控多维度质量指标
支持人机协作控制

价值：将数据转化为可观测、可优化的资产，平衡自动化与信任监督。

📈 趋势总结

趋势	代表论文	核心方向
🔄 自进化	#5, #3, #8	从执行轨迹学习，持续积累经验
🧠 记忆系统	#5, #14	结构化、可检索、自进化的记忆架构
🏗️ 开发范式	#2	从”工程优先”到”培育优先”
🖥️ 评估审计	#7	VLM 作为 CUA 审计器的局限与挑战
🤖 多 Agent	#16	角色分工、竞争协作的创意生成
🏥 领域专用	#3, #15	医疗诊断、数据产品等专业场景

💡 关键洞察

记忆是 Agent 的核心能力：从简单的对话历史到结构化的知识图谱，记忆系统的设计直接决定了 Agent 的长期表现。
自进化是通往 AGI 的关键路径：Agent 不再是静态系统，而是能够从经验中学习、自我改进的动态实体。
评估比训练更难：对于自主 Computer-Use Agent，可靠评估本身就是一个开放研究问题。
**领域专业知识需要”培育”**：传统的工程化方法难以捕捉领域专家的隐性知识，对话式知识结晶提供了新思路。

参考链接

本文由 AI 自动整理生成，数据来源：arXiv cs.AI (2026-03-12)