程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
编程
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
2026-05-17 04:14:18 +0800 CST
view 286
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
编程
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
2026-05-17 04:14:33 +0800 CST
view 264
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
BitNet 1.58-bit:微软如何用三个值就让大模型在 CPU 上飞奔
编程
BitNet 1.58-bit:微软如何用三个值就让大模型在 CPU 上飞奔
2026-05-11 13:55:11 +0800 CST
view 292
微软开源BitNet 1.58-bit大模型推理框架,2B参数模型仅需0.4GB内存、29ms/token推理速度。核心创新:训练时量化、-1/0/+1三值权重、位运算加速,精度损失<5%却比INT4表现更好。纯CPU运行,71%能耗降低。
BitNet,1.58bit,微软,大模型量化,1bit LLM,CPU推理,bitnet.cpp,训练时量化,位运算加速,模型压缩
9Router 深度解析:开源路由器如何让 AI 编程成本归零,RTK 压缩省 40% Token
编程
9Router 深度解析:开源路由器如何让 AI 编程成本归零,RTK 压缩省 40% Token
2026-05-12 02:44:46 +0800 CST
view 615
深度解析9Router:RTK Token Saver压缩工具输出省20-40% token、Caveman Mode省65%输出token、三层自动降级Subscription→Cheap→Free、40+供应商100+模型、格式转换9种API格式、多账户轮询+OAuth自动刷新
9Router,AI路由器,RTK,Token压缩,ClaudeCode,Cursor,多模型路由,自动降级,KiroAI,免费AI编程,CavemanMode,OpenAI兼容
9Router:三层降级路由+RTK Token压缩,让AI编程订阅永不中断
编程
9Router:三层降级路由+RTK Token压缩,让AI编程订阅永不中断
2026-05-12 20:20:40 +0800 CST
view 313
9Router把40+AI供应商、100+模型统一调度,三层降级路由确保开发不中断,RTK Token压缩平均节省20%-40%,GitHub连续多日登上Trending。npm一行命令安装,支持Claude Code/Codex/Cursor等所有主流AI编程工具。
9Router
AI路由
Token压缩
Claude Code
Codex
RTK
嵌入式AI模型部署实战:从服务器到Arduino的模型压缩与优化指南
编程
嵌入式AI模型部署实战:从服务器到Arduino的模型压缩与优化指南
2026-05-13 17:55:43 +0800 CST
view 277
本文详细介绍如何将训练好的神经网络部署到Arduino、树莓派等嵌入式设备,涵盖模型量化、剪枝、知识蒸馏三大压缩技术,以及不同硬件平台的部署方案和实战经验。
嵌入式AI
模型部署
神经网络压缩
Arduino
树莓派
模型量化
TurboQuant 深度实战:Google 的 KV 缓存压缩算法完全指南(2026)
编程
TurboQuant 深度实战:Google 的 KV 缓存压缩算法完全指南(2026)
2026-06-08 20:52:38 +0800 CST
view 144
2026年3月Google Research在ICLR 2026发表TurboQuant算法,将LLM的KV缓存压缩至3-bit,实现6倍内存缩减和8倍推理加速。本文深入剖析TurboQuant的技术原理,并提供生产级部署指南。
TurboQuant
KV缓存压缩
LLM推理优化
量化算法
Google Research
ICLR2026
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
下一页