程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
TensorRT-LLM 深度实战:从 Blackwell 架构到 INT4 量化的 LLM 推理性能革命
编程
TensorRT-LLM 深度实战:从 Blackwell 架构到 INT4 量化的 LLM 推理性能革命
2026-05-22 06:19:51 +0800 CST
view 309
深入解析TensorRT-LLM推理框架,从Paged KV Cache、连续批处理到INT4/INT8/FP8量化实战,覆盖Blackwell架构适配、Triton部署与K8s生产方案
TensorRT-LLM
LLM推理
量化
INT4
Blackwell
GPU优化
小米 MiMo UltraSpeed 深度解析:当 SWA 架构重塑 LLM 推理——从 O(n²) 困境到 1000 tokens/s 的极致跨越
编程
小米 MiMo UltraSpeed 深度解析:当 SWA 架构重塑 LLM 推理——从 O(n²) 困境到 1000 tokens/s 的极致跨越
2026-06-15 21:20:49 +0800 CST
view 38
深入解析小米MiMo UltraSpeed如何通过SWA架构在通用GPU上突破1000 tokens/s推理速度,从O(n²)困境到极致跨越的完整技术指南。
SWA
Sliding Window Attention
LLM推理
小米MiMo
推理优化
Transformer
PagedAttention
量化推理
端侧AI
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
编程
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
2026-04-09 03:15:44 +0800 CST
view 707
2026年TensorRT-LLM v0.19全面解析:Skip Softmax稀疏注意力、Paged KV Cache显存管理、INT8/INT4低比特量化完整实战,Blackwell架构适配指南,70B模型单卡部署方案
TensorRT-LLM
低比特量化
Blackwell
INT8
INT4
推理优化
NVIDIA
TileLang + TileKernels 深度解析:DeepSeek 如何用 Python 写出让 GPU 逼近理论性能上限的 GPU 内核
编程
TileLang + TileKernels 深度解析:DeepSeek 如何用 Python 写出让 GPU 逼近理论性能上限的 GPU 内核
2026-04-28 10:55:20 +0800 CST
view 321
深度剖析 DeepSeek 开源的 TileLang DSL 和 TileKernels GPU 内核库:从 GEMM 到 MoE,从 TVM 编译基础设施到生产级量化内核,揭示用 Python 写接近硬件极限性能 GPU 代码的秘密。
TileLang
GPU内核
DeepSeek
高性能计算
CUDA
GEMM
MoE
量化
TVM
开源项目
llama.cpp 深度实战:当 C/C++ 重写遇见端侧 LLM 推理——从 GGUF 量化到 Apple Silicon 38 tokens/s 的生产级完全指南(2026)
编程
llama.cpp 深度实战:当 C/C++ 重写遇见端侧 LLM 推理——从 GGUF 量化到 Apple Silicon 38 tokens/s 的生产级完全指南(2026)
2026-06-16 01:17:28 +0800 CST
view 56
llama.cpp 是端侧 LLM 推理的事实标准(180K+ Stars)。本文从源码架构、GGUF 格式、量化方法、跨平台后端、生产部署、性能优化到 DeepSeek V4 Flash 实战,全方位讲解本地 AI 推理。
llama.cpp
GGUF
量化
端侧推理
本地AI
C/C++
Apple Silicon
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
下一页