从 Computer Use 到 Datacenter Use:AKernel 的 AI 原生基础设施实践
大模型推理与 Agent 能力持续突破,AI 应用的交互边界正在从单机拓展至整个数据中心。然而,算力与模型的红利并未顺畅转化为开发者的生产力,基础设施的高门槛正成为明显的绊脚石。蚂蚁集团推出的 AKernel 系统,致力于推动从 Computer Use 向 Datacenter Use 演进,让 AI 开发者摆脱基础设施泥潭,真正专注于模型与应用本身。
核心问题与挑战
当前,AI 开发者在基础设施层面面临着三大核心痛点:
- 门槛居高不下,陷入 BYOC 泥潭:开发者往往被基础设施劝退,不得不陷入“Build Your Own Cluster”的泥潭,大量精力耗费在底层资源的搭建与调优上。
- 开发者体验严重滞后:依赖冲突、部署复杂、运维繁重成为常态,开发体验与模型能力的飞速发展严重脱节。
- 大团队依赖与重复造轮子:传统基础设施研发必须依赖大团队协作,不同团队间往往重复建设,工程效率低下。
方案与实践
针对上述挑战,AKernel 从工程范式、开发体验、部署运维到 Agent 核心运行时,提供了一套端到端的解决方案。
工程范式重塑:Monorepo + AI 辅助,3 人全栈团队的突围
传统基础设施依赖大团队,而 AKernel 探索出了一条极小团队的高效工程路径:
- 统一代码库消除版本灾难:采用 Monorepo 统一管理 14 个 Git Submodule,从沙箱运行时、资源管理、网络到 SDK 与调度,全栈组件集中管理。通过 submodule 锁定外部依赖版本,彻底消除分布式多仓库带来的版本矩阵爆炸问题。
- AI 辅助打破人力瓶颈:利用 AI 辅助生成 80% 的代码,使得 3 人全栈团队即可端到端负责覆盖 Go/Rust/Python/C++ 多语言栈的核心基础设施研发,打破了传统大团队依赖。
开发者体验革新:像调用本地函数一样使用数据中心
为解决体验滞后问题,AKernel 将数据中心的能力抽象为本地开发原语:
- Sandbox SDK:开发者无需关心底层资源调度,通过 SDK 即可像调用本地函数一样使用数据中心的计算与存储资源。
- 标准化监控体系:基于开源标准方案构建 metric/log/trace 监控,提供实时资源监控与 Sandbox 创建链路追踪,让分布式系统的可观测性开箱即用。
一站式多云部署:Terraform + Helm,10 分钟就绪
部署与运维是基础设施的深水区,AKernel 实现了极简的闭环体验:
- 多云模块化部署:基于 Terraform 实现多云支持(目前已支持阿里云 ACK 与华为云 CCE),结合 Helm 进行核心组件一键编排,10 分钟即可从零完成部署。
- AI 驱动的运维闭环:仓库内置部署 Skill,支持 Claude Code 自动部署,从单机到公有云,实现一键切换。
Agent 时代的技术支柱:极致冷启动与状态持久化
面向 Agent 场景的高频调度与长周期运行需求,AKernel 构建了三大核心技术支柱:
- 极致冷启动:基于 AFaaS 安全沙箱技术,实现 10ms 节点侧冷启动与 40ms 端到端延迟,相较传统容器秒级启动提升 2 个数量级。
- 状态持久化:提供 Checkpoint / Restore 全链路支持,从 SDK、调度器到节点端全栈实现,完整覆盖 Agent 生命周期的状态快照与恢复,解决 Agent 长时运行的容错与迁移难题。
- 分布式数据系统:核心运行时与函数系统、数据系统协同,结合 openYuanrong 调度,构成完整的分布式执行引擎,支持多实例状态共享。
原则与方法论沉淀
在 AKernel 的设计与演进中,我们沉淀了以下核心原则:
- AI Native DevOps:从研发、部署到监控、问题排查,全流程 AI 驱动,重塑基础设施研发范式。
- 极简运维闭环:CLI 工具与 Grafana 仪表盘开箱即用,将复杂度封装在底层,降低开发者心智负担。
- Agent Friendly 设计:一切面向 Agent 调度优化,支持极速冷启动、状态快照恢复与多实例状态共享,让基础设施适应 Agent,而非 Agent 适配基础设施。
总结与行动建议
AKernel 的实践验证了“Monorepo + 极小团队 + AI 辅助”的可持续工程范式,并在 Agentic RL 全链路、Serverless Function、Spark 大数据处理等典型场景中跑通了闭环。其核心价值在于:为中小团队提供了一条可借鉴的全栈基础设施突围路径,让 Datacenter Use 成为现实。
给工程团队的建议:
- 引入 AI 辅助研发:在基础设施与工具链开发中,大胆引入 AI 代码生成,压缩团队规模需求,提升端到端交付效率。
- 面向 Agent 设计运行时:在构建新一代应用时,将冷启动耗时与状态快照能力作为核心考量指标,优先选择支持 Checkpoint/Restore 的运行时环境。
- 拥抱多云与自动化:沉淀 Terraform + Helm 等基础设施编排代码,将部署与运维动作标准化、自动化,彻底告别手工运维。