从烟囱到积木：基于openYuanrong的Agentic AI基础设施实践

2026-06-01

从烟囱到积木：基于openYuanrong的Agentic AI基础设施实践

导语

随着AI Agent与强化学习（RL）的深度融合，Agentic AI正在重塑应用形态。然而，这类新负载对底层分布式系统提出了长程有状态Session、极速沙箱调度和训推分离等严苛要求。传统的应对方式是为不同需求各自搭建系统，最终演变为资源利用率低下、运维复杂的烟囱式架构。

openYuanrong Serverless分布式计算引擎通过统一的函数系统与数据系统，提供“单机体验编程，极致分布式性能”的积木式架构。它针对Agent场景实现了有状态函数亲和、Session动态迁移与大规模沙箱调度；针对RL场景支持了异步高速传输、集合调度填补NPU空泡及异构函数自适应调度。本文将深入剖析这一从烟囱到积木的演进实践，探讨如何打破系统壁垒，释放集群吞吐与资源利用率。

核心问题与挑战

Agentic AI负载的多样化需求，正将传统分布式架构推向极限，主要体现在Agent与RL两大场景的痛点上。

Agent场景的架构痛点

长程Session导致负载不均：Agent服务从毫秒级无状态请求演变为小时级有状态Session。传统微服务架构下，固定并发导致实例间忙闲不均，CPU利用率极低。
沙箱调度性能瓶颈：Agent需要执行动态生成的代码，要求沙箱“用后即焚”。传统沙箱启动与回收速度慢，无法满足极速调度的需求。
KV cache共享模式变迁：大模型推理的KV cache从全局前缀共享转向会话级时分复用，传统数据面机制难以应对Agent多轮对话的缓存管理挑战。

RL场景的资源效率陷阱

训推共卡引发NPU空泡：Agentic RL推动系统从训推同步共卡走向异步分离。共卡模式下，长尾推理请求会严重阻塞训练，导致NPU资源产生大量空泡。
跨集群协同复杂度高：RL的训推与环境交互通常跨Kubernetes集群协同，部署复杂且CPU利用率极低。
Multi Agent空闲等待：在Multiple Agent RL训练中，仅Top K个Agent参与训练，其余Agent空闲等待，造成昂贵的算力资源白白浪费。

整体痛点：为应对上述多样需求，系统容易陷入烟囱化建设，带来极高的维护复杂度与低下的资源效率。

方案与实践

为打破烟囱式壁垒，我们基于openYuanrong构建了统一的积木式底座，其核心在于“函数系统”与“数据系统”的双轮驱动，并在此基础上沉淀了面向Agent和RL的关键技术实践。

openYuanrong引擎底座：函数与数据双系统

函数系统：支持多语言单机体验的分布式编程，提供大规模分布式动态函数调度与生命周期管理，实现极速冷启动。
数据系统：提供近计算高性能分布式内存数据多级缓存，并基于异构内存对象实现点对点数据异步高速传输，打通数据流转大动脉。

Agent关键技术实践

有状态函数亲和：基于有状态函数构建分布式Agent Runtime，实现Session亲和，大幅提升长程并发处理能力。
Session动态迁移：打破实例与Session的静态绑定，根据集群负载动态迁移Session，实现负载均衡与资源利用率提升。
大规模沙箱预热池超售调度：构建低资源占用的统一预热池，通过超售、快照回补与并行调度，将沙箱启动与回收速度提升一个数量级。
KV cache聚合管理与时分复用：基于内存对象聚合管理KV cache以减少元数据开销；结合间隔预测调度，实现推理集群缓存在Agent会话间的高效时分复用，提升集群吞吐。

Agentic RL关键技术实践

训推分离与异步传输：架构上彻底分离训练与推理。基于数据对象实现模型参数异步更新与分布式并行转换，以及RL样本数据的高速异步传输，消除长尾推理对NPU的阻塞。
集合调度填空泡：通过集合调度机制，将多个RL任务动态填入NPU资源的空泡中，实现百毫秒级极速状态切换，提升集群NPU利用率。
异构函数自适应调度：针对Multi Agent RL场景，实现异构函数的自适应动态调度与自动休眠唤醒，彻底解决非Top K Agent空闲等待的资源浪费问题。
平滑迁移：提供兼容Ray核心接口的平替方案，支持一行代码平替迁移，大幅降低开发者的迁移成本。

原则/方法论沉淀

在从烟囱向积木式架构的演进中，我们沉淀了以下核心工程原则：

单机体验编程，极致分布式运行性能：屏蔽分布式复杂性，让开发者以单机思维编写Agentic逻辑，由底层引擎保障极致性能。
近计算高性能分布式内存数据共享：缩短数据搬运距离，打破训推分离下的传输瓶颈。
异构多级缓存与数据对象抽象：统一管理CPU、NPU、DDR与SSD异构内存，以数据对象抽象简化缓存管理。
动态生命周期管理与极速弹性伸缩：以Serverless思维应对Agent与RL的突发与长尾负载，实现毫秒级扩缩容。
资源时分复用与动态聚合调度：从静态分配走向动态流转，通过时分复用与空泡填补，榨干硬件红利。

总结与行动建议

基于openYuanrong的积木式架构，我们成功实现了Agentic AI负载的统一系统支撑，打破了传统烟囱式架构的壁垒。在华为小艺等业务中，该架构显著提升了集群吞吐与资源利用率，验证了其工程有效性。

行动建议：

审视现有架构：识别当前AI Infra中的烟囱式子系统，评估被统一函数与数据底座收编的可行性。
优先突破RL空泡：在RL场景中优先尝试训推分离与集合调度，这是提升NPU利用率最直接的路径。
低成本灰度验证：利用openYuanrong对Ray接口的兼容能力，进行一行代码平替的灰度迁移，验证积木式架构的收益。

开放问题与延伸方向

Ray平替兼容性边界：在复杂Agentic RL场景下，一行代码平替的兼容性边界与性能折损仍需更多基准测试数据支撑。
NPU状态切换开销：百毫秒级NPU状态切换的上下文开销与稳定性基准数据，是评估集合调度收益的关键。
底层复杂性排查：积木式架构将复杂性下沉，跨集群跨组件的性能瓶颈排查可能变得困难，需配套建设深度可观测性方案。
沙箱超售雪崩风险：极端流量突增时，预热池超售调度是否会导致资源争抢与雪崩，需要限流与熔断机制兜底。
长程记忆迁移延迟：Session动态迁移在极长程记忆下，内存对象同步延迟可能反噬并发收益，需关注迁移策略的阈值设计。
缓存驱逐策略：KV cache间隔预测失效时的驱逐策略，若处理不当易引发推理性能断崖下跌，需设计退化保底机制。
异构算力扩展：异构调度能否扩展至GPU与NPU混布集群，进一步压榨全局利用率，是未来的重要演进方向。
Serverless冷启动借鉴：针对非Top K Agent空闲，可借鉴Serverless按需冷启动彻底释放休眠资源，实现更极致的弹性。
灰度验证策略：烟囱向积木演进中，如何设计灰度策略确保核心RL训练收敛性不受底层调度抖动影响，是落地过程控制的核心。
AI原生调度决策：面向大模型重新定义软件的愿景，统一底座是否需原生引入大模型作为调度决策器，实现自演进AI Infra，值得长远探索。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true