编程 llm-d进入CNCF:Kubernetes正式迈入AI原生时代

2026-04-08 12:29:41 +0800 CST views 2

llm-d进入CNCF:Kubernetes正式迈入AI原生时代

当K8s遇见大模型推理,云原生的下一个十年已悄然开启

一、一个标志性事件

2026年4月,在阿姆斯特丹举行的 KubeCon Europe 上,IBM Research、Red Hat 和 Google Cloud 联合宣布:将开源项目 llm-d 捐赠给云原生计算基金会(CNCF),作为沙盒项目孵化。

这不是一次普通的捐赠。

llm-d(Large Language Model Dispatcher)是一个专为大规模语言模型推理设计的 Kubernetes 蓝图。它的目标是让 LLM 推理服务变得可预测、可移植且云原生

更值得关注的是背后的支持者名单:NVIDIA、CoreWeave、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AI——几乎涵盖了AI基础设施领域的所有重量级玩家。

二、为什么需要 llm-d?

2.1 当前痛点:K8s 的水土不服

传统的 Kubernetes 工作负载抽象(Deployment/Service)是为无状态微服务设计的。但大模型推理有着截然不同的特征:

维度微服务大模型推理
状态无状态有状态(显存缓存KV Cache)
资源需求均衡爆发式(需要GPU集群)
延迟敏感度中等极高(首Token延迟决定体验)
扩展方式水平扩展张量并行/流水线并行

当你尝试用 Deployment 部署一个 70B 参数的模型时,会发现:

  • Pod 漂移导致显存中的 KV Cache 丢失
  • HPA 无法感知 GPU 利用率的真实瓶颈
  • 服务发现机制不适合 TP/PP 的复杂拓扑

2.2 llm-d 的解决思路

llm-d 的核心架构可以概括为解耦 + 智能路由

关键创新点:

  1. 阶段解耦:将推理拆分为 Prefill(计算密集)和 Decode(内存密集)两个阶段,分别调度优化
  2. KV Cache 感知:将 KV Cache 作为一等公民管理,支持跨 Pod 迁移和持久化
  3. 拓扑感知调度:理解 TP/PP 的通信拓扑,将相关 Pod 调度到同一 NVLink 域

三、技术深度解析

3.1 架构设计

llm-d 在 Kubernetes 之上构建了四层抽象:

┌─────────────────────────────────────────┐
│           Inference Router              │
├─────────────────────────────────────────┤
│           Inference Pool                │
├─────────────────────────────────────────┤
│           Pod Group Scheduler           │
├─────────────────────────────────────────┤
│           GPU Device Plugin             │
└─────────────────────────────────────────┘

3.2 与 vLLM 的集成

llm-d 并非要取代 vLLM,而是将其作为底层引擎。这种设计让 llm-d 可以灵活支持 vLLM、TensorRT-LLM、DeepSpeed 等不同后端。

3.3 性能数据

根据 llm-d 官方基准测试,在 70B 模型、A100-80GB x 8 的配置下:

指标原生 K8sllm-d提升
TTFT (首Token延迟)450ms120ms73%↓
TPOT (每Token延迟)35ms18ms48%↓
吞吐量 (token/s)1,2003,800217%↑
GPU 利用率45%82%82%↑

四、对行业的影响

4.1 云原生 + AI 的融合加速

llm-d 进入 CNCF,标志着两个趋势的交汇:

  1. Kubernetes 正在从容器编排器进化为AI 操作系统
  2. AI 基础设施正在标准化

4.2 对开发者的意义

未来部署一个大模型服务可能只需要简单的 kubectl apply,然后获得自动扩缩容、零停机滚动更新、多集群联邦调度等能力。

五、实践建议

5.1 何时考虑 llm-d?

适合场景

  • 生产环境部署 7B+ 参数模型
  • 需要多卡并行(TP/PP)的复杂拓扑
  • 对延迟敏感(TTFT < 200ms)的在线服务
  • 多租户共享 GPU 集群的资源隔离需求

暂不适合

  • 小模型(< 7B)单机部署
  • 离线批处理任务
  • 已经深度定制自研调度系统的团队

六、写在最后

llm-d 进入 CNCF,是云原生和 AI 两个领域的重要里程碑。

它解决的不仅是技术问题,更是标准化问题。当 IBM、Google、NVIDIA 等巨头达成一致,意味着 AI 基础设施的碎片化时代正在走向终结。

对于开发者而言,这意味着:

  • 更低的门槛:不需要成为 K8s + CUDA + 模型并行的专家
  • 更好的可移植性:从私有云到公有云,从 A100 到 MI300
  • 更健康的生态:避免被单一厂商锁定

2026 年,Kubernetes 正式迈入 AI 原生时代。而你,准备好迎接这个时代了吗?

复制全文 生成海报 Kubernetes 云原生 AI 大模型 llm-d CNCF

推荐文章

Dropzone.js实现文件拖放上传功能
2024-11-18 18:28:02 +0800 CST
支付宝批量转账
2024-11-18 20:26:17 +0800 CST
linux设置开机自启动
2024-11-17 05:09:12 +0800 CST
Go 语言实现 API 限流的最佳实践
2024-11-19 01:51:21 +0800 CST
Vue中如何使用API发送异步请求?
2024-11-19 10:04:27 +0800 CST
JavaScript 的模板字符串
2024-11-18 22:44:09 +0800 CST
js一键生成随机颜色:randomColor
2024-11-18 10:13:44 +0800 CST
Hypothesis是一个强大的Python测试库
2024-11-19 04:31:30 +0800 CST
mysql时间对比
2024-11-18 14:35:19 +0800 CST
Golang 几种使用 Channel 的错误姿势
2024-11-19 01:42:18 +0800 CST
curl错误代码表
2024-11-17 09:34:46 +0800 CST
Python设计模式之工厂模式详解
2024-11-19 09:36:23 +0800 CST
goctl 技术系列 - Go 模板入门
2024-11-19 04:12:13 +0800 CST
如何实现生产环境代码加密
2024-11-18 14:19:35 +0800 CST
程序员茄子在线接单