llm-d CNCF 沙箱完整指南 — Kubernetes 原生分布式 LLM 推理

llm-d CNCF 沙箱完整指南 — Kuber..

作者

观澜Media

2026-04-01

无评论

2 分

阅读时间

llm-d CNCF 沙箱完整指南 — Kubernetes 原生分布式 LLM 推理框架。

在阿姆斯特丹举行的 KubeCon Europe 2026 上，IBM Research、红帽和 Google Cloud 联合将 llm-d 作为沙箱项目捐赠给 CNCF。

llm-d 是一个分布式推理框架，由 NVIDIA、CoreWeave、AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 等创始合作伙伴支持，旨在在 Kubernetes 上以生产规模运行大型语言模型 (LLM) 推理。

如果您使用 vLLM 提供模型或使用 KServe 托管推理端点，您可能会感受到其中的差距：vLLM 功能强大，但作为单个 Pod 会遇到扩展障碍，而 KServe 提供高级抽象，但缺乏推理感知路由。

llm-d 作为中间件层恰好填补了这一空白，提供分解服务、分层 KV 缓存卸载和前缀缓存感知路由——所有这些都是 Kubernetes 原生的。

解码（令牌生成）是内存带宽密集型的 — 在同一 Pod 中运行时，GPU 利用率上限为 40-60%。

来源：Dev.to

关于作者

观澜Media

See author's post

2026-04-01

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

关注我们

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

查看全部

财经

甲骨文大规模裁员震撼科技行业

观澜Media

2026-04-01
技术

具有激光导星自适应光学器件的地基光学干涉测量：综合性……

观澜Media

2026-04-01
技术

编辑器战争又回来了：为什么 VS Code 不再是唯一的选择

观澜Media

2026-04-01
AI

停止编写自己的测试：为什么 AI 代理是新的 SDET

观澜Media

2026-04-01
互联网

互联网正在发生变化，所向无敌的谷歌可能是第一个受害者

观澜Media

2026-04-01
AI

论美国的人工智能宣言

观澜Media

2026-04-01

观澜Media