AI原生计算:开源基础设施的三大支柱与破局之道
导语
AI与基础设施已不可分割。当Google的token处理量在一年内激增50倍时,底层算力与调度系统正承受着前所未有的压力。与此同时,以DeepSeek R1为代表的开源模型正迅速瓦解闭源模型的护城河,证明在颠覆性技术面前,封闭的壁垒是短暂的。然而,仅靠开放代码并不足以支撑下一个计算时代。我们需要重新审视AI原生计算的堆栈,用开源与中立治理构建真正的繁荣生态。
核心问题与挑战
AI在迈向产业落地的过程中,基础设施层面正暴露出严重的瓶颈:
- 基础设施极限承压:AI面临的最大挑战不在算法本身,而在底层算力调度与资源供给。推理作为AI走向市场的路径,其工作负载体量可达训练的50倍,对系统的可靠性提出了严苛要求。
- 推理堆栈失配:当前推理层的组装极其复杂,缺乏像云时代那样的统一调度内核,导致大规模分布式推理效率低下。
- 智能体引发架构错位:智能体将软件交互从“人类键入”转向“AI规划与编排”,这带来了全新的延迟与可靠性约束,传统面向人类输入的架构无法满足智能体池化水平扩展的SLA要求。
- 生态脆弱性:仅开放代码或模型权重,缺乏标准与治理,无法形成健康的开发者生态,极易陷入厂商锁定。
方案与实践:AI原生计算的三大支柱
AI原生计算是为模型而非人类思考与交互设计的基础设施。随着软件开始自我编写,计算范式正从虚拟机、容器演进至Token。围绕这一新范式,我们需要构建训练、推理、智能体三大支柱。
支柱一:训练——开放权重加速迭代
训练是将数据输入并调整算法参数以输出预测模型的过程。在开源生态中,PyTorch结合ONNX、Transformers、DeepSpeed与Ray已形成坚实的底层支撑。更重要的是,开放检查点与开放权重使得下游微调与强化学习能够快速迭代,这是打破闭源护城河的第一步。
支柱二:推理——效率至上与分布式内核
推理是AI最大的工作负载,效率即生命。针对当前推理堆栈拼凑复杂的痛点,开源社区给出了明确的解法:
- vLLM:已成为事实上的通用生成式AI推理平台,支持跨云、跨加速器(CPU/TPU/Neuron等)提供高吞吐推理服务。
- LLM-d:作为新兴的分布式推理内核,基于Kubernetes实现了Prefill/decode分离等高级调度机制,解决了大规模推理的扩展难题。
如果将AI原生计算比作操作系统,推理运行时(如ONNX Runtime、vLLM、LLM-d)就是内核,负责像OS调度线程一样调度Token。
支柱三:智能体——开放协议与互操作生态
智能体通过代码包裹模型,调用工具并与其他Agent或人类协作,将推理结果转化为行动。为了避免厂商锁定,标准化的协议至关重要:
- MCP与A2A:这些开放协议如同操作系统的Syscalls,标准化了函数调用、Agent生成与内存共享。
- 中立治理实践:Google Cloud将A2A协议捐赠给Linux Foundation,联合AWS、Cisco等共同构建中立生态,标志着智能体互操作正在走向成熟。
- 上下文工程:在智能体架构中,小语言模型(SLM)因其经济性在多次调用中展现出优势,而“上下文工程”正取代简单的提示词工程,成为构建有效智能体的核心技能。
原则/方法论沉淀
在构建AI原生计算堆栈的过程中,以下原则应成为工程团队的共识:
- AI与基础设施不可分割:脱离底层谈AI应用是空中楼阁,架构设计必须软硬协同。
- 推理效率至上:商业系统的可靠性要求远超训练,吞吐与尾部延迟是生死线。
- 开放驱动创新:开放不仅驱动创新,更决定技术的采纳率与可及性。
- 上下文工程是核心技能:智能体的智商上限取决于上下文的管理与传递能力。
- 中立治理放大生态价值:采用“4 Opens Way”(开源、开放设计、开放开发、开放社区),依托中立基金会制定标准,才能避免生态碎片化。
总结与行动建议
训练、推理、智能体构成了AI原生计算的三大支柱。开源力量已证明其颠覆性,但我们需要一个重力的中心。仅开放代码是不够的,开放平台需要巨额的集体投资——正如云时代对OpenStack和Kubernetes的数亿美元投入一样。
工程团队应立即行动:
- 在推理侧,积极拥抱vLLM与LLM-d,降低堆栈组装复杂度;
- 在智能体侧,基于MCP/A2A等开放协议构建应用,避免被单一厂商绑定;
- 在社区侧,参与中立基金会的标准制定与代码贡献。只有协调一致,AI原生时代的未来才是真正开放的。
开放问题与延伸方向
- vLLM和LLM-d在异构算力与长上下文场景下的基准测试表现如何?(关联:推理层方案的实际效能验证)
- MCP与A2A协议的采纳率及端到端互操作性验证情况?(关联:智能体协议的落地可行性)
- 智能体自主编排的不可预测性,是否会引发运维对系统失控的焦虑?(关联:智能体带来的新可靠性约束)
- 开源打破闭源护城河的论断,是否低估了巨头在算力霸权与数据飞轮上的深度?(关联:开源与闭源的长期博弈)
- 依赖中立基金会治理协议,是否会导致标准制定冗长而错失市场窗口?(关联:中立治理的效率风险)
- 强调小模型在智能体中的经济性,是否掩盖了其复杂逻辑推理的缺陷?(关联:智能体模型选型的权衡)
- 推理层抽象为OS内核,为硬件厂商提供了怎样的软硬解耦商业机会?(关联:推理架构演进带来的生态切入点)
- “上下文工程”如何为传统工程师转型AI原生开发提供低门槛路径?(关联:智能体核心技能的工程化落地)
- 面对公共基础设施投资,能否设计去中心化算力网络等新型激励模型?(关联:超越传统捐赠的集体投资机制)
- 推理效率极致优化与智能体协议标准化,哪个应被赋予更高优先级以推动产业闭环?(关联:AI原生计算堆栈建设的资源分配策略)