程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
编程
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
2026-05-17 04:14:18 +0800 CST
view 157
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
编程
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
2026-05-23 18:44:14 +0800 CST
view 157
2026年深度长文,从PagedAttention分页思想、Continuous Batching调度算法、Speculative Decoding并行验证机制到CUDA Kernel底层实现,全面拆解vLLM推理引擎内核架构,附生产级部署实战与框架横向对比。
vLLM
PagedAttention
Continuous Batching
Speculative Decoding
GPU推理
大模型部署
深度学习
CUDA
最全面的 `history` 命令指南
代码
最全面的 `history` 命令指南
2024-11-18 21:32:45 +0800 CST
view 1645
本文全面介绍了Linux和Unix系统中的`history`命令,包括其基本用法和高级选项。用户可以通过该命令查看、清空和管理命令历史记录,使用不同选项如`-c`、`-d`、`-w`等来操作历史记录。此外,文中还讨论了如何通过环境变量设置来优化历史记录的管理和使用。
Linux
Unix
命令行
Shell
技术
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
编程
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
2026-05-17 04:14:33 +0800 CST
view 151
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
Unsloth 深度实战:从 Triton 内核优化到 70% 显存压缩——2026 年 LLM 本地微调的工业级完全指南
编程
Unsloth 深度实战:从 Triton 内核优化到 70% 显存压缩——2026 年 LLM 本地微调的工业级完全指南
2026-05-23 20:00:37 +0800 CST
view 76
深度剖析 Unsloth 如何通过手写 Triton 内核、智能显存管理和 LoRA/QLoRA 优化,实现训练速度 2-5 倍提升、显存占用降低 70% 的技术奇迹。
LLM
微调
Unsloth
LoRA
深度学习
Rust 正在吃掉前端:Rolldown、Oxc 与 Vite 8 统一工具链的技术真相与行业启示
编程
Rust 正在吃掉前端:Rolldown、Oxc 与 Vite 8 统一工具链的技术真相与行业启示
2026-04-20 18:19:12 +0800 CST
view 321
深度解析 Rust 如何通过 Rolldown、Oxc 与 Vite 8 重塑 JavaScript 工具链格局,探讨 Rust 在前端领域渗透的深层逻辑与开发者行动建议。
Rust
Vite
Rolldown
Oxc
前端工具链
BitNet 1.58-bit:微软如何用三个值就让大模型在 CPU 上飞奔
编程
BitNet 1.58-bit:微软如何用三个值就让大模型在 CPU 上飞奔
2026-05-11 13:55:11 +0800 CST
view 168
微软开源BitNet 1.58-bit大模型推理框架,2B参数模型仅需0.4GB内存、29ms/token推理速度。核心创新:训练时量化、-1/0/+1三值权重、位运算加速,精度损失<5%却比INT4表现更好。纯CPU运行,71%能耗降低。
BitNet,1.58bit,微软,大模型量化,1bit LLM,CPU推理,bitnet.cpp,训练时量化,位运算加速,模型压缩
MarkItDown 深度解析:微软10万星开源工具如何重塑 LLM 时代的文档处理范式
编程
MarkItDown 深度解析:微软10万星开源工具如何重塑 LLM 时代的文档处理范式
2026-04-21 05:47:35 +0800 CST
view 310
深度解析微软开源工具MarkItDown:如何将PDF、Word、Excel等20+格式转换为结构化Markdown,为LLM和RAG场景提供高质量的文档预处理方案。涵盖架构设计、实战代码、性能优化与生产部署最佳实践。
MarkItDown
文档转换
LLM
RAG
Python
开源工具
微软
Zabbix 7.4 深度解析:嵌套低级别自动发现如何重新定义企业监控的自动化边界
编程
Zabbix 7.4 深度解析:嵌套低级别自动发现如何重新定义企业监控的自动化边界
2026-05-11 16:53:52 +0800 CST
view 169
Zabbix 7.4 引入嵌套低级别自动发现,彻底改变企业监控的自动化边界。本文深度解析嵌套LLD原理、发现原型机制、主机向导配置,并提供Kubernetes多层级监控的完整实战代码。
Zabbix
监控
运维
LLD
自动化
DevOps
TradingAgents 深度实战:从 78.7k Star 的多智能体交易框架到量化投研工程化完全指南
编程
TradingAgents 深度实战:从 78.7k Star 的多智能体交易框架到量化投研工程化完全指南
2026-05-24 06:38:48 +0800 CST
view 200
深度拆解 TradingAgents 多智能体交易框架的架构设计,从 LangGraph 状态图编排到结构化辩论机制,完整代码实战指南
AI Agent
量化交易
LangGraph
多智能体
LLM
AI Scientist-v2 深度解析:当人工智能学会「从零开始做科研」——Agentic Tree Search 如何改写科学发现的游戏规则
编程
AI Scientist-v2 深度解析:当人工智能学会「从零开始做科研」——Agentic Tree Search 如何改写科学发现的游戏规则
2026-04-12 15:55:06 +0800 CST
view 559
AI Scientist-v2 由 Sakana AI 联合牛津大学等机构研发,于 2026 年正式发表于 Nature,首次实现端到端科研自动化。其核心创新 Agentic Tree Search 让 AI 在 ML 领域生成论文通过 ICLR Workshop 双盲评审,获 6.33 分高于 55% 人类投稿。本文全面解析其系统架构、核心算法与未来方向。
AI Scientist
Sakana AI
Agentic Tree Search
科研自动化
AI Agent
LLM
Nature
170亿参数撬动万亿算力:Llama 4 Scout/Maverick如何用MoE架构重新定义开源大模型
编程
170亿参数撬动万亿算力:Llama 4 Scout/Maverick如何用MoE架构重新定义开源大模型
2026-05-11 20:48:39 +0800 CST
view 200
深度解析Llama 4 Scout/Maverick的MoE架构、128专家设计、1000万token超长上下文,附本地部署实战与许可证分析
Meta
Llama4
MoE
开源大模型
混合专家架构
Scout
Maverick
iRoPE
花3块钱、2小时训练一个64M的"小破模型",能干啥?
编程
花3块钱、2小时训练一个64M的"小破模型",能干啥?
2026-04-21 09:05:56 +0800 CST
view 242
MiniMind:从零手写完整LLM训练流水线,64M参数,2小时+3块钱训练完成,支持预训练+SFT+RLHF+工具调用,适合Multi-Agent/自动化/端侧集成
开源
LLM
PyTorch
模型训练
MiniMind
AI
工具调用
RLHF
River-LLM 深度解析:上交大如何让大模型推理速度翻倍,却几乎不损失精度
编程
River-LLM 深度解析:上交大如何让大模型推理速度翻倍,却几乎不损失精度
2026-05-02 19:05:49 +0800 CST
view 169
深入解析上海交通大学 River-LLM 框架:通过退出层与骨干层共享 KV 缓存,解决早期退出的缓存缺失难题,实现 1.71x-2.16x 推理加速,几乎不损失精度。
LLM
推理优化
KV缓存
早期退出
量化
上海交通大学
Kimi K2.6实测:Claude 1/6价格,原生多模态编码,能吃截图能迭代
编程
Kimi K2.6实测:Claude 1/6价格,原生多模态编码,能吃截图能迭代
2026-04-21 09:50:07 +0800 CST
view 471
Kimi K2.6 code preview实测:原生多模态+Tool Calling+Agent能力,价格为Claude 1/6,适合独立开发者做前端复刻和日常编码辅助
AI
LLM
Kimi
K2.6
模型实测
多模态
Agent
编程模型
独立开发
Rust如何重塑前端工具链?2026年生态全景与深度迁移指南
编程
Rust如何重塑前端工具链?2026年生态全景与深度迁移指南
2026-05-17 17:16:25 +0800 CST
view 139
深度解析Rust如何重塑前端工具链,对比Rspack、Rolldown、Oxc、Turbopack的性能数据,提供从Webpack/ESLint/Babel到Rust方案的完整迁移指南。2026年前端工程化必读
Rust
前端工具链
Rspack
Rolldown
Oxc
Turbopack
性能优化
VibeVoice 深度拆解:微软如何用 LLM+扩散模型重新发明语音合成——从双Tokenizer到90分钟超长对话的全链路技术实战
编程
VibeVoice 深度拆解:微软如何用 LLM+扩散模型重新发明语音合成——从双Tokenizer到90分钟超长对话的全链路技术实战
2026-05-02 22:34:34 +0800 CST
view 210
微软开源VibeVoice深度技术拆解:双Tokenizer架构、LLM对话中枢、Next-Token扩散模型、7.5Hz超低帧率,90分钟多角色对话生成的全链路实战
VibeVoice
语音合成
TTS
扩散模型
LLM
微软开源
CSS 2026 新特性深度解析:从锚点定位到瀑布流布局,前端开发迎来纯 CSS 解决方案时代
编程
CSS 2026 新特性深度解析:从锚点定位到瀑布流布局,前端开发迎来纯 CSS 解决方案时代
2026-04-21 10:51:18 +0800 CST
view 353
深度解析 CSS 2026 核心新特性:锚点定位彻底替代 Popper.js、原生瀑布流布局告别 JavaScript 库、滚动驱动动画实现零 JS 滚动效果。包含完整代码示例、性能对比和浏览器兼容性方案。
CSS
前端
Web开发
Anchor Positioning
Masonry
Scroll Animation
LRT 隐式思维链深度解析:当 AI 学会「静默思考」,推理效率提升数十倍的工程革命
编程
LRT 隐式思维链深度解析:当 AI 学会「静默思考」,推理效率提升数十倍的工程革命
2026-04-12 21:54:21 +0800 CST
view 437
深入解读 ICLR 2026 论文 LRT,揭示如何用轻量级推理网络将冗长的思维链压缩为隐式向量,实现推理效率数十倍提升
AI
LLM
推理优化
思维链
ICLR2026
Tokio v1.43 深度解析:Rust 异步运行时的「涡轮引擎」是如何炼成的
编程
Tokio v1.43 深度解析:Rust 异步运行时的「涡轮引擎」是如何炼成的
2026-05-12 02:12:40 +0800 CST
view 155
深度解析Tokio v1.43异步运行时的内部架构:多线程工作窃取调度器减少30%虚假唤醒、I/O驱动并发Slab重构降低40%分配延迟、分层时间轮O(1)定时任务调度、io_uring批量I/O提交、Toasty ORM与Tokio深度集成,附Discord从Go迁移到Rust的完整性能对比数据
Tokio,Rust,异步编程,运行时,工作窃取,调度器,Future,Waker,epoll,io_uring,高并发,性能优化,ORM
Google LangExtract 深度解析:用LLM实现非结构化文本的精准结构化提取与可视化
编程
Google LangExtract 深度解析:用LLM实现非结构化文本的精准结构化提取与可视化
2026-05-17 19:18:49 +0800 CST
view 131
Google LangExtract库深度解析,介绍如何使用LLM从非结构化文本中精准提取结构化信息,包含精确源接地、交互式可视化、代码实战和性能优化。
LLM
信息提取
Google
Python
NLP
Ollama v0.14.3 深度实战:从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南
编程
Ollama v0.14.3 深度实战:从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南
2026-05-24 12:04:34 +0800 CST
view 78
Ollama v0.14.3 深度实战指南:从架构解析到生产部署,涵盖 GGUF 格式、API 集成、多模态模型、性能优化等核心内容,2026 年私有化大模型首选方案。
Ollama
大模型
本地部署
GGUF
多模态
从原理到实战:llama.cpp 与 GGUF 量化格式的工程实践全解
编程
从原理到实战:llama.cpp 与 GGUF 量化格式的工程实践全解
2026-04-12 22:56:41 +0800 CST
view 459
2026年深度解析 llama.cpp 架构设计与 GGUF 量化格式,从底层原理到工程实战,涵盖 K-Quant/IQ 量化、Flash Attention、KV Cache 优化、Intel NPU/GPU 部署全流程。
llama.cpp
GGUF
量化
大模型
C++
本地部署
React Compiler 深度解析:让 React 终于学会「自动优化」的编译器魔法
编程
React Compiler 深度解析:让 React 终于学会「自动优化」的编译器魔法
2026-05-12 02:15:08 +0800 CST
view 174
深度解析React Compiler(React Forget)的工作原理:通过静态分析自动推导依赖关系、自动插入useMemo/useCallback记忆化代码、构建数据流图与活性分析算法、Babel插件实现细节、与手动优化性能对比,附Vite/Next.js集成指南与渐进式迁移策略
React,React Compiler,性能优化,自动记忆化,useMemo,useCallback,React.memo,Babel插件,静态分析,前端性能
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
13
14
15
16
17
18
下一页