程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
2026大模型推理框架年度横评:vLLM/TGI/TensorRT-LLM/DeepSpeed-MII 架构深度解析与生产级选型指南
编程
2026大模型推理框架年度横评:vLLM/TGI/TensorRT-LLM/DeepSpeed-MII 架构深度解析与生产级选型指南
2026-06-18 17:54:54 +0800 CST
view 314
深度横评2026年四大主流大模型推理框架,涵盖PagedAttention架构、ContinuousBatching、算子融合、FP8量化、NVMe卸载等核心技术,配实测数据与生产级选型指南
大模型
LLM
推理框架
vLLM
TensorRT-LLM
TGI
DeepSpeed
GPU推理
AI部署
NVIDIA
Ollama 深度实战:当本地大模型成为生产级基础设施——从模型量化到高并发推理、从 REST API 到 Kubernetes 部署的完全指南(2026)
编程
Ollama 深度实战:当本地大模型成为生产级基础设施——从模型量化到高并发推理、从 REST API 到 Kubernetes 部署的完全指南(2026)
2026-06-20 01:25:22 +0800 CST
view 318
Ollama本地大模型生产级部署完全指南:从GGUF格式原理、INT4/INT8量化实战、REST API集成、多语言SDK(Python/Go/TypeScript)、GPU显存管理、Kubernetes+Helm生产部署、性能调优到RAG知识库构建,全流程深度实战。
Ollama
本地大模型
LLM部署
模型量化
GGUF
llama.cpp
REST API
Kubernetes
GPU
RAG
LLM 推理框架选型实战:vLLM、TensorRT-LLM、TGI、DeepSpeed-MII 深度对比与生产部署指南
编程
LLM 推理框架选型实战:vLLM、TensorRT-LLM、TGI、DeepSpeed-MII 深度对比与生产部署指南
2026-07-03 13:49:04 +0800 CST
view 56
深度对比 vLLM 0.5、TensorRT-LLM 1.8、TGI 2.0、DeepSpeed-MII 0.9 四大推理框架,从核心技术原理、性能数据、成本账本到生产部署实战,帮你做出正确的框架选型决策。
LLM
vLLM
TensorRT-LLM
TGI
DeepSpeed
推理优化
大模型部署
GPU优化
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
编程
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
2026-05-17 10:21:56 +0800 CST
view 427
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
编程
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
2026-05-17 10:22:13 +0800 CST
view 409
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
Go 1.27 的小对象分配革命:当编译器学会为每个尺寸定制 malloc
编程
Go 1.27 的小对象分配革命:当编译器学会为每个尺寸定制 malloc
2026-07-05 16:38:18 +0800 CST
view 19
Go 1.27编译器为小于80字节的小对象生成尺寸特化分配代码,绕过mallocgc通用路径,直接内联分配逻辑。小对象分配延迟降低约30%,整体免费1%性能提升,无需改代码。解析Swiss Tables/Green Tea GC/栈分配的基础建设如何促成这一优化。
Go
Go 1.27
编译器
性能优化
内存管理
malloc
小对象分配
尺寸特化
mallocgc
GreenTeaGC
SwissTables
栈分配
GOEXPERIMENT
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
编程
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
2026-04-09 03:15:44 +0800 CST
view 850
2026年TensorRT-LLM v0.19全面解析:Skip Softmax稀疏注意力、Paged KV Cache显存管理、INT8/INT4低比特量化完整实战,Blackwell架构适配指南,70B模型单卡部署方案
TensorRT-LLM
低比特量化
Blackwell
INT8
INT4
推理优化
NVIDIA
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 217
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
vLLM 2026 推理引擎全解:从 PagedAttention 到分离式 Prefill,如何把大模型跑出 GPU 极限性能
编程
vLLM 2026 推理引擎全解:从 PagedAttention 到分离式 Prefill,如何把大模型跑出 GPU 极限性能
2026-06-29 17:16:04 +0800 CST
view 128
2026年vLLM 0.18深度解析:PagedAttention显存管理、EAGLE3推测解码、连续批处理、分离式Prefill、FP4量化,附生产级部署代码与Benchmark对比
vLLM
LLM推理
PagedAttention
推测解码
EAGLE3
FP4量化
CUDA
GPU性能优化
万字长文拆解 vLLM 0.18:PagedAttention 如何用操作系统思维颠覆大模型推理
编程
万字长文拆解 vLLM 0.18:PagedAttention 如何用操作系统思维颠覆大模型推理
2026-06-29 17:17:00 +0800 CST
view 103
2026年vLLM 0.18深度解析:PagedAttention显存管理、EAGLE3推测解码、连续批处理、分离式Prefill、FP4量化,附生产级部署代码与Benchmark对比
vLLM
LLM推理
PagedAttention
推测解码
EAGLE3
FP4量化
CUDA
GPU性能优化
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
编程
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
2026-05-03 15:13:07 +0800 CST
view 505
2026年深度解析vLLM核心架构,从PagedAttention进化到多节点分布式推理,涵盖SIG社区组织、v1架构重写、生产部署实战与性能优化全链路指南。
vLLM
PagedAttention
LLM
推理优化
分布式
Kubernetes
Python
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 534
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
万字深度解析 Langfuse:当 LLM 应用遇见「全链路可观测性」——从 Tracing 架构到生产级 LLM Ops 的完整技术指南(2026)
编程
万字深度解析 Langfuse:当 LLM 应用遇见「全链路可观测性」——从 Tracing 架构到生产级 LLM Ops 的完整技术指南(2026)
2026-07-02 05:42:52 +0800 CST
view 69
2026年LLM应用可观测性完整指南:深度解析Langfuse架构、Tracing系统、ClickHouse存储、SDK集成、生产部署与性能优化,15+可运行代码示例
Langfuse
LLM
可观测性
Tracing
AI Engineering
LLM Ops
ClickHouse
Prompt Management
Ollama v0.20 Tool Calling 深度解析:让本地大模型真正「动起手来」——从协议原理到生产级多工具 Agent 系统实战
编程
Ollama v0.20 Tool Calling 深度解析:让本地大模型真正「动起手来」——从协议原理到生产级多工具 Agent 系统实战
2026-07-03 08:43:53 +0800 CST
view 45
深度解析 Ollama v0.20 的 Tool Calling 能力:从 JSON Schema 协议原理、HTTP API 调用循环,到生产级多工具 Agent 系统的完整实战(天气查询/数据库查询/Web搜索),配套 LangChain4j 集成方案与安全防护策略。
Ollama
AI Agent
Tool Calling
本地大模型
LangChain4j
生产级实战
Ollama v0.20 Tool Calling 深度解析:本地 AI Agent 的最后一公里——JSON Schema 协议 × 生产级多工具实战 × 安全防护全指南
编程
Ollama v0.20 Tool Calling 深度解析:本地 AI Agent 的最后一公里——JSON Schema 协议 × 生产级多工具实战 × 安全防护全指南
2026-07-03 08:44:52 +0800 CST
view 43
深度解析 Ollama v0.20 的 Tool Calling 能力,从 JSON Schema 协议原理到生产级多工具 Agent 实战,含安全防护与性能基准测试。
Ollama
AI Agent
Tool Calling
本地大模型
LangChain4j
Ollama Tool Calling × 本地 AI Agent:JSON Schema 协议 × 生产级多工具系统 × 安全防护实战
编程
Ollama Tool Calling × 本地 AI Agent:JSON Schema 协议 × 生产级多工具系统 × 安全防护实战
2026-07-03 08:45:53 +0800 CST
view 41
深度解析 Ollama v0.20 Tool Calling,从协议原理到生产级多工具 Agent 实战,含天气查询、数据库查询、Web搜索三大实战案例与安全防护策略。
Ollama
AI Agent
Tool Calling
本地大模型
【深度长文】Ollama v0.20 工具调用实战:本地大模型 + JSON Schema + 生产级 Agent 系统搭建指南(2026)
编程
【深度长文】Ollama v0.20 工具调用实战:本地大模型 + JSON Schema + 生产级 Agent 系统搭建指南(2026)
2026-07-03 08:47:18 +0800 CST
view 43
深度长文:Ollama v0.20 Tool Calling 从协议原理到生产级多工具 Agent 实战,含天气查询、数据库操作、Web搜索三大案例与安全防护策略(2026)。
Ollama
AI Agent
Tool Calling
本地大模型
生产级
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
编程
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
2026-06-08 22:52:24 +0800 CST
view 338
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
编程
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
2026-06-08 22:53:03 +0800 CST
view 210
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
编程
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
2026-05-30 15:42:55 +0800 CST
view 333
深度解析 LLM 推理优化的核心技术:PagedAttention 内存管理革命、投机解码加速策略、INT4/FP8 量化技术、MoE 架构优化,从架构原理到代码实战,让大模型推理成本下降 70%。
LLM
推理优化
vLLM
PagedAttention
投机解码
量化
MoE
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
编程
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
2026-06-15 11:18:23 +0800 CST
view 247
深度解析大模型推理中 KV Cache 管理的五世代演进:从连续分配到 PagedAttention,再到异构缓存、分布式 KV 和统一混合内存架构。结合 vLLM、SGLang、TensorRT-LLM 给出生产环境选型指南。
LLM
大模型
KVCache
PagedAttention
vLLM
SGLang
TensorRT
推理优化
显存管理
分布式
vLLM 0.5 深度解析:PagedAttention 架构原理与生产级 LLM 推理优化实战
编程
vLLM 0.5 深度解析:PagedAttention 架构原理与生产级 LLM 推理优化实战
2026-07-04 18:15:46 +0800 CST
view 27
深度解析 vLLM 0.5 的 PagedAttention 架构原理,涵盖 KV Cache 分页管理、MoE 优化、分布式推理、量化技术,并通过代码实战和性能对比,帮助开发者掌握生产级 LLM 推理最佳实践。
vLLM
PagedAttention
LLM推理
CUDA
KV Cache
深度学习
AI基础设施
Python
生产部署
性能优化
SGLang深度解析:RadixAttention架构下的大模型推理革命——从零到生产的高性能LLM服务框架实战指南
编程
SGLang深度解析:RadixAttention架构下的大模型推理革命——从零到生产的高性能LLM服务框架实战指南
2026-07-05 18:13:38 +0800 CST
view 17
深度解析SGLang高性能大模型推理框架:RadixAttention自动前缀缓存、零开销C++调度器、PD分离架构、多LoRA批处理、推测解码。含完整代码实战与vLLM/TensorRT-LLM对比。
SGLang
RadixAttention
LLM
推理引擎
大模型
vLLM
GPU
高并发
AI基础设施
性能优化
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
编程
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
2026-06-30 11:16:18 +0800 CST
view 84
深度解析 SGLang 大模型推理框架:RadixAttention 前缀缓存、零开销 CPU 调度器、结构化输出约束、推测解码、PD 分离等核心技术,对比 vLLM/TensorRT-LLM 选型,提供完整代码示例与生产级部署实践
SGLang
大模型推理
RadixAttention
前缀缓存
结构化输出
推测解码
PD分离
vLLM
TensorRT-LLM
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
7
8
9
10
11
...
57
下一页