程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
River-LLM 深度解析:上交大如何让大模型推理速度翻倍,却几乎不损失精度
编程
River-LLM 深度解析:上交大如何让大模型推理速度翻倍,却几乎不损失精度
2026-05-02 19:05:49 +0800 CST
view 137
深入解析上海交通大学 River-LLM 框架:通过退出层与骨干层共享 KV 缓存,解决早期退出的缓存缺失难题,实现 1.71x-2.16x 推理加速,几乎不损失精度。
LLM
推理优化
KV缓存
早期退出
量化
上海交通大学
LRT 隐式思维链深度解析:当 AI 学会「静默思考」,推理效率提升数十倍的工程革命
编程
LRT 隐式思维链深度解析:当 AI 学会「静默思考」,推理效率提升数十倍的工程革命
2026-04-12 21:54:21 +0800 CST
view 394
深入解读 ICLR 2026 论文 LRT,揭示如何用轻量级推理网络将冗长的思维链压缩为隐式向量,实现推理效率数十倍提升
AI
LLM
推理优化
思维链
ICLR2026
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
编程
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
2026-05-03 15:13:07 +0800 CST
view 226
2026年深度解析vLLM核心架构,从PagedAttention进化到多节点分布式推理,涵盖SIG社区组织、v1架构重写、生产部署实战与性能优化全链路指南。
vLLM
PagedAttention
LLM
推理优化
分布式
Kubernetes
Python
Helios深度解析:北大袁粒团队如何用14B参数重塑实时视频生成——从架构革命到工程落地的全解
编程
Helios深度解析:北大袁粒团队如何用14B参数重塑实时视频生成——从架构革命到工程落地的全解
2026-04-13 05:23:52 +0800 CST
view 404
深入解析北京大学袁粒团队发布的Helios 14B实时长视频生成模型,涵盖三阶段训练流程、统一历史注入、金字塔预测校正器、对抗层次蒸馏等核心技术创新,以及完整部署实战指南
视频生成
Helios
扩散模型
深度学习
实时推理
PyTorch
HuggingFace
OpenAI 证明数学核心猜想:AI 首次解决 80 年经典难题——2026 年 AI 数学推理完全指南
编程
OpenAI 证明数学核心猜想:AI 首次解决 80 年经典难题——2026 年 AI 数学推理完全指南
2026-05-24 23:52:54 +0800 CST
view 15
本文深入解析 OpenAI 解决 Erdős 单位距离问题的历史性突破,介绍 AI 数学推理的技术原理、形式化验证与定理证明器,以及构建数学推理 AI Agent 的完整流程。
AI
数学推理
定理证明
形式化验证
Lean4
AI 攻克 80 年数学难题:形式化验证与定理证明的技术革命——2026 年完全指南
编程
AI 攻克 80 年数学难题:形式化验证与定理证明的技术革命——2026 年完全指南
2026-05-24 23:53:21 +0800 CST
view 17
本文深入解析 AI 如何解决 Erdős 单位距离问题,介绍形式化验证、定理证明器技术,以及构建数学推理 AI Agent 的完整流程。
AI
数学推理
定理证明
形式化验证
Lean4
大模型部署太慢?这个超级引擎帮你搞定!SGLang速通指南
编程
大模型部署太慢?这个超级引擎帮你搞定!SGLang速通指南
2026-04-22 09:27:57 +0800 CST
view 269
DeepSeek官方推荐!SGLang高性能大模型推理框架速通指南,RadixAttention前缀缓存、零开销调度、OpenAI API兼容,性能碾压vLLM。
SGLang
大模型推理
DeepSeek
开源
vLLM
ds4.c 深度解析:Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕
编程
ds4.c 深度解析:Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕
2026-05-18 06:15:03 +0800 CST
view 133
Redis之父antirez开源ds4.c项目深度解析:用纯C语言在MacBook上运行284B参数大模型,不对称2-bit量化、KV缓存磁盘化、OpenAI/Anthropic API兼容,打造首个真正的本地Agent推理后端
AI推理
本地大模型
Redis
Apple Silicon
DeepSeek
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
编程
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
2026-04-13 14:53:38 +0800 CST
view 330
深度解析英特尔与SambaNova联合发布的商用异构AI推理架构,涵盖三阶段分工、至强6 AMX加速向量数据库70%性能提升、LLVM编译50%加速等核心技术创新
AI推理
异构计算
至强6
SambaNova
Agentic
向量数据库
LLVM
性能优化
DFlash 深度实战:基于块扩散的极速投机解码模型——2026年完全指南
编程
DFlash 深度实战:基于块扩散的极速投机解码模型——2026年完全指南
2026-05-25 03:31:37 +0800 CST
view 17
本文深入讲解DFlash的核心概念、架构设计、实战安装与集成,以及性能优化方法,帮助开发者全面掌握这一2026年热门的LLM推理速度优化工具。
DFlash
投机解码
LLM推理速度
开源项目
2026
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
编程
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
2026-05-05 19:01:32 +0800 CST
view 375
深度解析 vLLM 2026年第二季度技术路线图,涵盖 v1 架构核心设计、九大 SIG 技术演进方向、生产级部署实战经验。
vLLM
LLM推理
架构设计
性能优化
BitNet b1.58 深度解析:微软如何用1.58位量化颠覆大模型推理范式
编程
BitNet b1.58 深度解析:微软如何用1.58位量化颠覆大模型推理范式
2026-04-23 19:09:57 +0800 CST
view 253
深度解析微软开源的BitNet b1.58 2B4T模型,从1.58位三值量化原理、架构设计、性能对比到部署实战,全面剖析这个仅需0.4GB内存、在普通CPU上流畅运行的革命性大语言模型。
BitNet
量化
大模型
微软
CPU推理
边缘计算
腾讯混元 Hy3 preview 开源:295B 参数、推理提效 40%,姚顺雨首秀交卷
资讯
腾讯混元 Hy3 preview 开源:295B 参数、推理提效 40%,姚顺雨首秀交卷
2026-04-23 21:18:45 +0800 CST
view 393
2026年4月23日,腾讯发布并开源新一代大模型混元Hy3preview,总参数295B、激活参数21B的MoE架构,支持256K超长上下文,推理效率提升40%,API最低1.2元/百万tokens。在复杂推理、代码与Agent能力上表现突出,接近GPT-5.4级别,数学推理创国内最高纪录。已接入腾讯云、元宝等多条产品线,并上架TokenHub。
人工智能
大模型
腾讯
开源
MoE
推理
代码生成
Agent
云计算
Docker AI Toolkit 2026 深度解析:从镜像构建到推理服务,AI 工作流的全链路重构
编程
Docker AI Toolkit 2026 深度解析:从镜像构建到推理服务,AI 工作流的全链路重构
2026-05-14 01:55:02 +0800 CST
view 96
Docker AI Toolkit 2026于2026年3月1日发布,原生支持PyTorch 2.4、TensorFlow 2.17、ONNX Runtime 1.19一键构建,Sigstore签名+OIDC身份绑定防止供应链攻击,docker ai serve --adaptive自适应推理让GPU利用率稳定在80%,LLM微调延迟压至83ms,WASM沙箱让边缘AI应用启动时间<100ms。
Docker,AI Toolkit,PyTorch,TensorFlow,ONNX Runtime,模型签名验证,Sigstore,WASM沙箱,自适应推理
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 310
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
SGLang 深度实战:新一代 LLM 编程与推理框架——从 RadixAttention 原理到 Agent 系统生产部署
编程
SGLang 深度实战:新一代 LLM 编程与推理框架——从 RadixAttention 原理到 Agent 系统生产部署
2026-05-06 17:37:39 +0800 CST
view 277
深度解析 SGLang 推理框架的 RadixAttention 原理、DSL 编程范式、正则约束解码,以及在 Agent 系统和多轮对话场景的生产部署实践。
SGLang
LLM
推理加速
Agent
RadixAttention
结构化生成
Kubernetes v1.36 深度解析:当 Ingress NGINX 退役遇上 Istio 环境模式——云原生网络架构的范式革命
编程
Kubernetes v1.36 深度解析:当 Ingress NGINX 退役遇上 Istio 环境模式——云原生网络架构的范式革命
2026-04-16 04:40:40 +0800 CST
view 362
深入解析 Kubernetes v1.36 重大变革:Ingress NGINX 退役、Gateway API 崛起、Istio 环境模式多集群支持、AI 推理网关等云原生网络架构的范式革命
Kubernetes
Istio
云原生
Gateway API
服务网格
Ambient Mode
AI推理
多集群
Kubernetes v1.36 与 Istio 环境模式深度解析:云原生网络架构的范式革命——从 Ingress NGINX 退役到 AI 推理网关
编程
Kubernetes v1.36 与 Istio 环境模式深度解析:云原生网络架构的范式革命——从 Ingress NGINX 退役到 AI 推理网关
2026-04-16 04:41:31 +0800 CST
view 344
深入解析 Kubernetes v1.36 重大变革:Ingress NGINX 退役、Gateway API 崛起、Istio 环境模式多集群支持、AI 推理网关等云原生网络架构的范式革命
Kubernetes
Istio
云原生
Gateway API
服务网格
Ambient Mode
AI推理
多集群
BitNet 深度实战:微软 32K Star 的 1-bit LLM 推理框架——从三值量化原理到 CPU 原生推理的全链路架构解析
编程
BitNet 深度实战:微软 32K Star 的 1-bit LLM 推理框架——从三值量化原理到 CPU 原生推理的全链路架构解析
2026-05-07 03:35:48 +0800 CST
view 180
深度解析微软 BitNet 1-bit LLM 推理框架,从三值量化数学原理到 bitnet.cpp 内核优化,再到 CPU 原生推理实战部署的全链路架构解析
BitNet
1-bit LLM
量化
CPU推理
微软
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
编程
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
2026-05-19 12:42:27 +0800 CST
view 92
2026年,边缘AI不再只是云端模型的精简版。本文深入剖析DeepSeek-R1 CPU版的技术原理,从模型蒸馏、量化技术的底层原理到生产环境的完整部署方案,提供可直接落地的代码和可量化的性能数据。
DeepSeek
R1
边缘计算
AI推理
模型蒸馏
量化
llama.cpp
Ollama
端侧AI
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
编程
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
2026-05-19 13:46:15 +0800 CST
view 75
高通AI研究院提出的MELT架构通过门控机制让循环Transformer的内存消耗保持恒定,无论思考多少轮。本文深度解析其架构原理、数学推导、训练策略与性能实测。
AI
Transformer
内存优化
深度推理
高通
oMLX 深度解析:Apple Silicon 原生的本地大模型推理服务器——从分层 KV 缓存到菜单栏级 AI 编码伴侣
编程
oMLX 深度解析:Apple Silicon 原生的本地大模型推理服务器——从分层 KV 缓存到菜单栏级 AI 编码伴侣
2026-05-21 22:30:11 +0800 CST
view 73
深入解析 oMLX 的分层 KV 缓存架构(热 RAM + 冷 SSD)、Copy-on-Write 优化、与 Claude Code 的深度集成,以及 Apple Silicon 原生的推理性能优化。
oMLX
Apple Silicon
本地大模型
KV缓存
MLX
推理服务器
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
编程
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
2026-04-08 15:51:53 +0800 CST
view 1084
深度对比SGLang与vLLM两大LLM推理框架,从架构设计、核心原理、性能实测、适用场景多维度解析,附2026年选型建议
LLM
SGLang
vLLM
推理优化
大模型
ds4 深度解析:Redis 作者的最后一战?—— DwarfStar 4 本地推理引擎的技术革命
编程
ds4 深度解析:Redis 作者的最后一战?—— DwarfStar 4 本地推理引擎的技术革命
2026-05-15 17:47:40 +0800 CST
view 199
深入解析 antirez(Redis 作者)新开源项目 ds4:DwarfStar 4 本地推理引擎,专门为 DeepSeek V4 Flash 打造,支持 Metal/CUDA 后端,2-bit 量化可在 96GB 内存 MacBook 上运行 284B 参数模型。
AI推理
本地部署
DeepSeek
Redis
Apple Silicon
CUDA
Metal
MoE
量化
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
下一页