程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
TriAttention深度解析:MIT韩松团队如何用三角函数让单卡4090跑出百万Token上下文
编程
TriAttention深度解析:MIT韩松团队如何用三角函数让单卡4090跑出百万Token上下文
2026-04-17 10:15:58 +0800 CST
view 472
2026年4月,MIT、英伟达、浙江大学联合发布TriAttention,用三角函数建模注意力距离偏好,实现KV缓存10.7倍压缩,让单卡4090跑出百万Token上下文。
AI
大模型
Transformer
注意力机制
KV缓存
长上下文
模型优化
论文解读
2026
OpenRouter Fusion 深度实战:当「群殴战术」打破 AI 智商天花板——从多模型并行分发到裁判聚合引擎的全栈架构解析
编程
OpenRouter Fusion 深度实战:当「群殴战术」打破 AI 智商天花板——从多模型并行分发到裁判聚合引擎的全栈架构解析
2026-06-20 14:56:09 +0800 CST
view 66
深度解析 OpenRouter Fusion 的多模型并行分发与裁判聚合引擎架构,从原理、代码实战、性能基准到生产落地,全面拆解"群殴战术"如何打破 AI 智商天花板。
AI
OpenRouter
Fusion
多模型
MCP
Agent
大模型
架构设计
GLM-5.2 深度实战:当开源编程模型首次摸到 Opus 4.8 的天花板——从 753B MoE 架构到 1M 无损上下文、从 DSA 稀疏注意力到国产算力 Day-0 部署的生产级完全指南(2026)
编程
GLM-5.2 深度实战:当开源编程模型首次摸到 Opus 4.8 的天花板——从 753B MoE 架构到 1M 无损上下文、从 DSA 稀疏注意力到国产算力 Day-0 部署的生产级完全指南(2026)
2026-06-20 15:52:19 +0800 CST
view 93
GLM-5.2 开源深度解析:753B MoE 架构、1M 无损上下文、DSA 稀疏注意力、生产级部署完全指南
AI
开源模型
GLM
智谱
编程工具
MoE
大模型
Kimi K2.6开源:13小时编码与300子Agent集群,国产大模型抢滩长程编程高地
编程
Kimi K2.6开源:13小时编码与300子Agent集群,国产大模型抢滩长程编程高地
2026-04-27 14:52:59 +0800 CST
view 609
深度解析月之暗面开源的Kimi K2.6模型:13小时不间断编码、300子Agent集群协作、5天自主运行的技术架构与实测案例分析
Kimi K2.6
开源模型
长程编程
AI Agent
国产大模型
Moonshot AI
Agent集群
编程助手
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 136
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
METATRON 深度解析:当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」
编程
METATRON 深度解析:当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」
2026-04-09 07:55:23 +0800 CST
view 825
深度解析 METATRON:如何在本地零成本跑起一个完整的 AI 渗透测试助手,基于 Qwen 微调模型 + Ollama + MariaDB,无需 API Key,数据完全不出本地。
AI渗透测试
Ollama
Qwen
本地大模型
MariaDB
Pentest
安全工具
Agent
GPT-6 深度解析:当"土豆"成为 AGI 的最后一公里
编程
GPT-6 深度解析:当"土豆"成为 AGI 的最后一公里
2026-04-09 08:39:00 +0800 CST
view 504
OpenAI GPT-6 深度解析:代号Spud,Symphony原生多模态架构、5-6万亿MoE参数、200万Token上下文、双系统推理框架,定位AGI最后一公里。含核心技术解读、架构分析、代码示例。
AI
GPT-6
OpenAI
AGI
大模型
Unsloth 深度实战:从显存爆炸到 70% 压缩——本地大模型微调的工程化革命与生产级实践
编程
Unsloth 深度实战:从显存爆炸到 70% 压缩——本地大模型微调的工程化革命与生产级实践
2026-05-22 16:15:29 +0800 CST
view 439
Unsloth通过底层算子优化让大模型微调显存降低70%、速度提升2-5x,本文从原理到生产实战全方位拆解,含完整代码。
Unsloth
LoRA
QLoRA
大模型微调
本地训练
超详细的Hermes Agent上手指南,养马不求人!GitHub最活跃的开源AI Agent框架
案例
超详细的Hermes Agent上手指南,养马不求人!GitHub最活跃的开源AI Agent框架
2026-05-09 10:29:10 +0800 CST
view 496
超详细的Hermes Agent上手指南。Hermes Agent是GitHub上最活跃的开源AI Agent框架之一,被称为「爱马仕」。支持MCP协议工具调用、多Agent协作、记忆系统(短期+长期),上手简单扩展强,适合快速搭建AI智能体。本文涵盖概念解析、安装部署、基础用法、进阶功能和实战案例。
AI Agent
开源框架
大模型
智能体
GitHub
工作流自动化
自定义工具
MCP
Hermes Agent
多Agent协作
记忆系统
Python
AstronClaw 深度解析:科大讯飞如何用软硬一体架构让AI Agent走进物理世界
编程
AstronClaw 深度解析:科大讯飞如何用软硬一体架构让AI Agent走进物理世界
2026-04-19 07:17:09 +0800 CST
view 498
深度解析科大讯飞AstronClaw软硬一体AI Agent架构,从技术原理到应用场景全面剖析,探讨AI Agent如何突破屏幕限制走进物理世界。
AstronClaw
科大讯飞
AI Agent
软硬一体
智能体
星火大模型
Loomy
GlassClaw
SkillHub
LiteLLM 深度解析:100+ 大模型统一网关的架构设计与生产实战
编程
LiteLLM 深度解析:100+ 大模型统一网关的架构设计与生产实战
2026-04-29 05:42:47 +0800 CST
view 392
深度解析开源AI网关LiteLLM:100+大模型统一接入、虚拟密钥体系、负载均衡与故障降级、MCP/A2A网关、生产级Docker部署实战
LiteLLM
AI网关
大模型
LLM
API网关
Python
Docker
云原生
oMLX 深度实战:当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南(2026)
编程
oMLX 深度实战:当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南(2026)
2026-06-16 16:46:05 +0800 CST
view 201
深度解析 2026 年 Apple Silicon 本地大模型推理技术栈:从 llama.cpp 量化体系到 oMLX 分层 KV 缓存架构,从 MTP 加速到 CoreAI 全栈指南,包含实测 Benchmark 与生产级部署方案。
Apple Silicon
MLX
llama.cpp
oMLX
MTP
本地大模型
量化
本地推理
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
2026-06-11 03:16:24 +0800 CST
view 172
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
DeepSeek V4 专家模式深度解析:当国产大模型终于学会「分场景思考」
编程
DeepSeek V4 专家模式深度解析:当国产大模型终于学会「分场景思考」
2026-04-10 07:21:56 +0800 CST
view 571
DeepSeek V4专家模式深度解析:双模式架构、LTM长期记忆技术、6710亿参数、场景分层设计,标志着国产大模型从参数比拼转向精细化竞争
DeepSeek
V4
专家模式
国产大模型
AI
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
编程
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
2026-06-11 03:17:21 +0800 CST
view 222
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
OpenHarness 深度解析:当 1.1 万行 Python 把闭源巨头的 51.2 万行代码「压缩」成开源自由
编程
OpenHarness 深度解析:当 1.1 万行 Python 把闭源巨头的 51.2 万行代码「压缩」成开源自由
2026-04-11 06:59:04 +0800 CST
view 595
港大开源 OpenHarness,用 1.1 万行 Python 实现 Claude Code 98% 核心能力,体积缩小 44 倍,完全开源免费,模型无关。深度解析其 10 大子系统架构、工具系统、记忆系统、安全治理等核心模块。
AI Agent
开源
Python
Claude Code
香港大学
大模型
Ollama 深度实战:当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南(2026)
编程
Ollama 深度实战:当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南(2026)
2026-06-11 05:47:01 +0800 CST
view 218
本文深入讲解Ollama的原理、实战部署、性能优化,帮助开发者快速掌握本地大模型部署能力
Ollama
本地大模型
AI部署
Go语言
Python
TurboQuant + RWKV-6:AI 推理效率双重突破——从内存压缩到线性架构,大模型部署范式的革命性重构
编程
TurboQuant + RWKV-6:AI 推理效率双重突破——从内存压缩到线性架构,大模型部署范式的革命性重构
2026-04-20 10:46:48 +0800 CST
view 375
深度解析 2026 年 AI 推理效率的双重突破:Google TurboQuant 实现 6 倍内存压缩与 8 倍速度提升,RWKV-6 以线性复杂度架构打破 Transformer 的二次方魔咒。从数学原理到代码实战,详解这场效率革命的本质。
TurboQuant
RWKV
AI推理
内存压缩
大模型
LLM推理引擎终极对决:vLLM vs TensorRT-LLM深度解析与2026生产环境选型指南
编程
LLM推理引擎终极对决:vLLM vs TensorRT-LLM深度解析与2026生产环境选型指南
2026-04-20 13:45:31 +0800 CST
view 547
深度对比vLLM与TensorRT-LLM两大LLM推理框架,从PagedAttention到Kernel Fusion,从量化技术到生产部署,助你做出正确的技术选型决策
LLM
vLLM
TensorRT-LLM
推理优化
大模型部署
量化技术
AI工程
LCLM 深度实战:当「潜在上下文」颠覆大模型记忆困境——从 8.8 倍速提升到工业级部署的完整指南(2026)
编程
LCLM 深度实战:当「潜在上下文」颠覆大模型记忆困境——从 8.8 倍速提升到工业级部署的完整指南(2026)
2026-06-17 08:57:22 +0800 CST
view 129
深入解析2026年LCLM潜在上下文语言模型,8.8倍速度提升背后的技术原理与工业级部署实战,含完整代码示例与性能对比。
大模型
上下文压缩
KV缓存
LCLM
Transformer
AI优化
推理加速
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
编程
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
2026-05-23 18:44:14 +0800 CST
view 335
2026年深度长文,从PagedAttention分页思想、Continuous Batching调度算法、Speculative Decoding并行验证机制到CUDA Kernel底层实现,全面拆解vLLM推理引擎内核架构,附生产级部署实战与框架横向对比。
vLLM
PagedAttention
Continuous Batching
Speculative Decoding
GPU推理
大模型部署
深度学习
CUDA
当「潜在上下文」颠覆大模型记忆困境:LCLM 8.8 倍速提升完整拆解与工业部署指南(2026)
编程
当「潜在上下文」颠覆大模型记忆困境:LCLM 8.8 倍速提升完整拆解与工业部署指南(2026)
2026-06-17 08:57:46 +0800 CST
view 102
深入解析2026年LCLM潜在上下文语言模型,8.8倍速度提升背后的技术原理与工业级部署实战,含完整代码示例与性能对比。
大模型
上下文压缩
KV缓存
LCLM
Transformer
AI优化
推理加速
MCP + A2A 双协议时代:2026 AI Agent 互操作标准全景解析
编程
MCP + A2A 双协议时代:2026 AI Agent 互操作标准全景解析
2026-04-12 02:23:58 +0800 CST
view 957
深度解析2026年AI Agent互操作领域的两大核心协议MCP与A2A的设计理念、核心架构、代码实战与演进方向,探讨多Agent系统从单体走向协作的技术路径。
AI Agent
MCP
A2A
大模型
协议标准
2026技术趋势
Agent互操作
CC Switch:45K Star 的 AI 大模型万能遥控器,让 100+模型说同一种语言
案例
CC Switch:45K Star 的 AI 大模型万能遥控器,让 100+模型说同一种语言
2026-05-01 15:33:28 +0800 CST
view 1177
GitHub 45K+ Star 的 CC Switch 是什么?详解这款大模型万能遥控器的核心功能、与 One API 的区别、以及如何配合 OpenClaw 使用。
CC Switch
AI工具
大模型
OpenClaw
Claude Code
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
...
8
下一页