从烟囱到积木:基于openYuanrong的Agentic AI基础设施实践
导语
随着AI Agent与强化学习(RL)的深度融合,Agentic AI正在重塑应用形态。然而,这类新负载对底层分布式系统提出了长程有状态Session、极速沙箱调度和训推分离等严苛要求。传统的应对方式是为不同需求各自搭建系统,最终演变为资源利用率低下、运维复杂的烟囱式架构。
openYuanrong Serverless分布式计算引擎通过统一的函数系统与数据系统,提供“单机体验编程,极致分布式性能”的积木式架构。它针对Agent场景实现了有状态函数亲和、Session动态迁移与大规模沙箱调度;针对RL场景支持了异步高速传输、集合调度填补NPU空泡及异构函数自适应调度。本文将深入剖析这一从烟囱到积木的演进实践,探讨如何打破系统壁垒,释放集群吞吐与资源利用率。
核心问题与挑战
Agentic AI负载的多样化需求,正将传统分布式架构推向极限,主要体现在Agent与RL两大场景的痛点上。
Agent场景的架构痛点
- 长程Session导致负载不均:Agent服务从毫秒级无状态请求演变为小时级有状态Session。传统微服务架构下,固定并发导致实例间忙闲不均,CPU利用率极低。
- 沙箱调度性能瓶颈:Agent需要执行动态生成的代码,要求沙箱“用后即焚”。传统沙箱启动与回收速度慢,无法满足极速调度的需求。
- KV cache共享模式变迁:大模型推理的KV cache从全局前缀共享转向会话级时分复用,传统数据面机制难以应对Agent多轮对话的缓存管理挑战。
RL场景的资源效率陷阱
- 训推共卡引发NPU空泡:Agentic RL推动系统从训推同步共卡走向异步分离。共卡模式下,长尾推理请求会严重阻塞训练,导致NPU资源产生大量空泡。
- 跨集群协同复杂度高:RL的训推与环境交互通常跨Kubernetes集群协同,部署复杂且CPU利用率极低。
- Multi Agent空闲等待:在Multiple Agent RL训练中,仅Top K个Agent参与训练,其余Agent空闲等待,造成昂贵的算力资源白白浪费。
整体痛点:为应对上述多样需求,系统容易陷入烟囱化建设,带来极高的维护复杂度与低下的资源效率。
方案与实践
为打破烟囱式壁垒,我们基于openYuanrong构建了统一的积木式底座,其核心在于“函数系统”与“数据系统”的双轮驱动,并在此基础上沉淀了面向Agent和RL的关键技术实践。
openYuanrong引擎底座:函数与数据双系统
- 函数系统:支持多语言单机体验的分布式编程,提供大规模分布式动态函数调度与生命周期管理,实现极速冷启动。
- 数据系统:提供近计算高性能分布式内存数据多级缓存,并基于异构内存对象实现点对点数据异步高速传输,打通数据流转大动脉。
Agent关键技术实践
- 有状态函数亲和:基于有状态函数构建分布式Agent Runtime,实现Session亲和,大幅提升长程并发处理能力。
- Session动态迁移:打破实例与Session的静态绑定,根据集群负载动态迁移Session,实现负载均衡与资源利用率提升。
- 大规模沙箱预热池超售调度:构建低资源占用的统一预热池,通过超售、快照回补与并行调度,将沙箱启动与回收速度提升一个数量级。
- KV cache聚合管理与时分复用:基于内存对象聚合管理KV cache以减少元数据开销;结合间隔预测调度,实现推理集群缓存在Agent会话间的高效时分复用,提升集群吞吐。
Agentic RL关键技术实践
- 训推分离与异步传输:架构上彻底分离训练与推理。基于数据对象实现模型参数异步更新与分布式并行转换,以及RL样本数据的高速异步传输,消除长尾推理对NPU的阻塞。
- 集合调度填空泡:通过集合调度机制,将多个RL任务动态填入NPU资源的空泡中,实现百毫秒级极速状态切换,提升集群NPU利用率。
- 异构函数自适应调度:针对Multi Agent RL场景,实现异构函数的自适应动态调度与自动休眠唤醒,彻底解决非Top K Agent空闲等待的资源浪费问题。
- 平滑迁移:提供兼容Ray核心接口的平替方案,支持一行代码平替迁移,大幅降低开发者的迁移成本。
原则/方法论沉淀
在从烟囱向积木式架构的演进中,我们沉淀了以下核心工程原则:
- 单机体验编程,极致分布式运行性能:屏蔽分布式复杂性,让开发者以单机思维编写Agentic逻辑,由底层引擎保障极致性能。
- 近计算高性能分布式内存数据共享:缩短数据搬运距离,打破训推分离下的传输瓶颈。
- 异构多级缓存与数据对象抽象:统一管理CPU、NPU、DDR与SSD异构内存,以数据对象抽象简化缓存管理。
- 动态生命周期管理与极速弹性伸缩:以Serverless思维应对Agent与RL的突发与长尾负载,实现毫秒级扩缩容。
- 资源时分复用与动态聚合调度:从静态分配走向动态流转,通过时分复用与空泡填补,榨干硬件红利。
总结与行动建议
基于openYuanrong的积木式架构,我们成功实现了Agentic AI负载的统一系统支撑,打破了传统烟囱式架构的壁垒。在华为小艺等业务中,该架构显著提升了集群吞吐与资源利用率,验证了其工程有效性。
行动建议:
- 审视现有架构:识别当前AI Infra中的烟囱式子系统,评估被统一函数与数据底座收编的可行性。
- 优先突破RL空泡:在RL场景中优先尝试训推分离与集合调度,这是提升NPU利用率最直接的路径。
- 低成本灰度验证:利用openYuanrong对Ray接口的兼容能力,进行一行代码平替的灰度迁移,验证积木式架构的收益。
开放问题与延伸方向
- Ray平替兼容性边界:在复杂Agentic RL场景下,一行代码平替的兼容性边界与性能折损仍需更多基准测试数据支撑。
- NPU状态切换开销:百毫秒级NPU状态切换的上下文开销与稳定性基准数据,是评估集合调度收益的关键。
- 底层复杂性排查:积木式架构将复杂性下沉,跨集群跨组件的性能瓶颈排查可能变得困难,需配套建设深度可观测性方案。
- 沙箱超售雪崩风险:极端流量突增时,预热池超售调度是否会导致资源争抢与雪崩,需要限流与熔断机制兜底。
- 长程记忆迁移延迟:Session动态迁移在极长程记忆下,内存对象同步延迟可能反噬并发收益,需关注迁移策略的阈值设计。
- 缓存驱逐策略:KV cache间隔预测失效时的驱逐策略,若处理不当易引发推理性能断崖下跌,需设计退化保底机制。
- 异构算力扩展:异构调度能否扩展至GPU与NPU混布集群,进一步压榨全局利用率,是未来的重要演进方向。
- Serverless冷启动借鉴:针对非Top K Agent空闲,可借鉴Serverless按需冷启动彻底释放休眠资源,实现更极致的弹性。
- 灰度验证策略:烟囱向积木演进中,如何设计灰度策略确保核心RL训练收敛性不受底层调度抖动影响,是落地过程控制的核心。
- AI原生调度决策:面向大模型重新定义软件的愿景,统一底座是否需原生引入大模型作为调度决策器,实现自演进AI Infra,值得长远探索。