大模型部署太慢?这个"超级引擎"帮你搞定!SGLang速通指南
训练好的大模型怎么部署才能像ChatGPT一样快?今天带你认识大模型领域当前最火的推理服务框架——SGLang!
是什么?
SGLang是由LMSYS Org开发的高性能大语言模型推理框架。LMSYS就是那个开发vLLM的伯克利团队,SGLang是他们的新一代作品。
GitHub: github.com/sgl-project/sglang
文档: docs.sglang.ai
核心特点
- 🚀 超快推理:RadixAttention前缀缓存技术,复用KV缓存
- ⚡ 零开销调度:CPU调度器近乎无开销
- 🔄 PD分离:Prefill-Decode disaggregation架构
- 🎯 结构化输出:原生支持JSON格式输出
- 📦 量化支持:FP4/FP8/INT4/AWQ/GPTQ全支持
- 🔧 多LoRA:支持多LoRA批量推理
为什么火?
1. DeepSeek官方推荐
SGLang是DeepSeek官方推荐的推理引擎之一,专门针对DeepSeek系列模型做了深度优化。
2. 性能碾压
在顺序请求和并发请求场景中,SGLang始终优于vLLM。并发负载下差异尤其明显。
3. 生态强大
- 兼容OpenAI API格式,迁移零成本
- 支持400,000+ GPU运行
- a16z开源AI基金资助项目
- PyTorch官方生态成员
支持哪些模型?
语言模型: Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral...
多模态: LLaVA、Qwen-VL、DeepSeek-VL...
Embedding: e5-mistral、gte、mcdse
Diffusion: WAN、Qwen-Image
支持哪些硬件?
- NVIDIA: GB200/B300/H100/A100/5090
- AMD: MI355/MI300
- Intel Xeon CPU
- Google TPU
- 华为昇腾NPU
怎么用?
安装
# 创建环境
conda create -n sglang python=3.12
conda activate sglang
# 安装
pip install "sglang[all]>=0.4.4.post1"
一键启动
# 启动模型服务(兼容OpenAI API)
python -m sglang.launch_server \
--model-path deepseek-ai/deepseek-llm-7b-chat \
--port 30000
调用API
import openai
client = openai.OpenAI(
base_url="http://localhost:30000/v1",
api_key="None"
)
response = client.chat.completions.create(
model="deepseek-ai/deepseek-llm-7b-chat",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)
对比vLLM
| 特性 | SGLang | vLLM |
|---|---|---|
| 前缀缓存 | RadixAttention | PagedAttention |
| 结构化输出 | 原生支持 | 需要额外配置 |
| DeepSeek优化 | 官方推荐 | 支持 |
| 生态成熟度 | 快速发展中 | 更成熟 |
结论:vLLM生态更成熟,SGLang性能更优。根据需求选择。
适合谁?
- 企业级推理服务部署
- 高并发API服务
- 需要结构化输出的应用
- DeepSeek模型私有化部署
官网: lmsys.org/blog/
文档: docs.sglang.ai
Slack: slack.sglang.io