程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
编程
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
2026-05-23 18:44:14 +0800 CST
view 44
2026年深度长文,从PagedAttention分页思想、Continuous Batching调度算法、Speculative Decoding并行验证机制到CUDA Kernel底层实现,全面拆解vLLM推理引擎内核架构,附生产级部署实战与框架横向对比。
vLLM
PagedAttention
Continuous Batching
Speculative Decoding
GPU推理
大模型部署
深度学习
CUDA
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
编程
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
2026-05-17 04:14:33 +0800 CST
view 104
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
CC Switch:45K Star 的 AI 大模型万能遥控器,让 100+模型说同一种语言
案例
CC Switch:45K Star 的 AI 大模型万能遥控器,让 100+模型说同一种语言
2026-05-01 15:33:28 +0800 CST
view 761
GitHub 45K+ Star 的 CC Switch 是什么?详解这款大模型万能遥控器的核心功能、与 One API 的区别、以及如何配合 OpenClaw 使用。
CC Switch
AI工具
大模型
OpenClaw
Claude Code
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
编程
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
2026-05-11 10:53:54 +0800 CST
view 171
DeepSeek-V4-Pro 以 1.6T 总参数、49B 激活参数的 MoE 架构,原生支持 100 万 token 上下文,同时将推理算力降至 V3.2 的 27%、KV Cache 降至 10%。本文深度解析 CSA/HCA 混合注意力机制、mHC 流形约束超连接、KV Cache 极致优化、Muon 优化器等核心技术创新,以及如何在 Ollama、vLLM、官方 API 三种方式下部署运行。
DeepSeek-V4,MoE架构,CSA注意力,HCA注意力,KV Cache,1M上下文,长文本推理,开源大模型
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
编程
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
2026-05-17 10:21:56 +0800 CST
view 123
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
编程
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
2026-05-17 10:22:13 +0800 CST
view 148
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
Apache Doris 4.1 深度拆解:当实时数仓长出 AI 大脑——从向量检索到统一数据底座的全链路技术实战
编程
Apache Doris 4.1 深度拆解:当实时数仓长出 AI 大脑——从向量检索到统一数据底座的全链路技术实战
2026-05-02 10:33:28 +0800 CST
view 189
深入拆解Apache Doris 4.1的技术内核:从FE/BE架构到存算分离、从原生向量检索到混合搜索、从RAG实战到生产部署,全方位解析实时数仓如何演化为AI时代统一数据底座
Apache Doris
向量检索
实时数仓
RAG
存算分离
OLAP
AI数据库
Kimi K2.6 开源了!还附送了 300 个 Agent 员工?
编程
Kimi K2.6 开源了!还附送了 300 个 Agent 员工?
2026-04-21 07:57:28 +0800 CST
view 336
Kimi K2.6开源发布,SWE-Bench Pro 58.6分超越GPT-5.4和Claude Opus 4.6,300个子Agent并行4000步骤持续5天
Kimi
开源
AI编程
Agent
月之暗面
SWE-Bench
大模型
PostgreSQL:从关系数据库到万能数据平台——扩展生态如何让 PG 吞掉一切场景
编程
PostgreSQL:从关系数据库到万能数据平台——扩展生态如何让 PG 吞掉一切场景
2026-04-21 08:50:25 +0800 CST
view 234
深度解析 PostgreSQL 如何通过六大扩展覆盖向量搜索、HTAP、时序、地理空间、图数据库、消息队列全场景,含完整代码实战与性能优化方案
PostgreSQL
pgvector
pgvectorscale
pg_duckpipe
TimescaleDB
PostGIS
Apache AGE
pgmq
数据库
扩展
告别"辅助驾驶":GPT-5-Codex如何用动态思考重新定义AI编程
编程
告别"辅助驾驶":GPT-5-Codex如何用动态思考重新定义AI编程
2026-05-11 19:45:54 +0800 CST
view 166
GPT-5-Codex突破性引入Dynamic Thinking机制,简单任务节省93.7%token,复杂任务可自主工作7小时以上。深度解析核心技术架构与SWE-Bench表现,及其对开发者工作方式的根本性改变。
GPT-5-Codex
OpenAI
AI编程
Dynamic Thinking
Codex
SWE-Bench
自主编程
Agent
开源Chrome插件一键扒光网站设计:自动提取配色/字体/间距,生成AI可读的SKILL.md
编程
开源Chrome插件一键扒光网站设计:自动提取配色/字体/间距,生成AI可读的SKILL.md
2026-04-21 09:02:26 +0800 CST
view 250
design-md-chrome:Chrome插件一键提取网站设计规范(字体/配色/间距/阴影/动画),生成DESIGN.md或SKILL.md喂给Claude Code/Cursor复刻
开源
Chrome插件
设计工具
AI编程
前端
设计系统
Claude Code
Cursor
OpenSSL 4.0 深度解析:ECH 加密握手与后量子密码学的双重革命
编程
OpenSSL 4.0 深度解析:ECH 加密握手与后量子密码学的双重革命
2026-05-12 01:18:07 +0800 CST
view 158
深度解析OpenSSL4.0三大核心升级:ECH加密整个TLS握手消除SNI隐私泄露、ML-DSA-MU与RFC8998后量子国密混合算法套件实现量子安全、cSHAKE可定制哈希函数防止重放攻击,附完整C/Python/Go多语言迁移实战与ECH部署指南
OpenSSL,TLS,ECH,后量子密码学,ML-DSA-MU,RFC8998,SM2,SM3,SM4,cSHAKE,隐私保护,国密算法,迁移指南
CSS 2026 新特性深度解析:从锚点定位到瀑布流布局,前端开发迎来纯 CSS 解决方案时代
编程
CSS 2026 新特性深度解析:从锚点定位到瀑布流布局,前端开发迎来纯 CSS 解决方案时代
2026-04-21 10:51:18 +0800 CST
view 313
深度解析 CSS 2026 核心新特性:锚点定位彻底替代 Popper.js、原生瀑布流布局告别 JavaScript 库、滚动驱动动画实现零 JS 滚动效果。包含完整代码示例、性能对比和浏览器兼容性方案。
CSS
前端
Web开发
Anchor Positioning
Masonry
Scroll Animation
Kimi K2.6 开源:12小时连续编码,300个Agent并行,4000次工具调用
编程
Kimi K2.6 开源:12小时连续编码,300个Agent并行,4000次工具调用
2026-04-21 11:06:57 +0800 CST
view 331
Kimi K2.6 开源版发布:SWE-Bench Pro 58.6,多项榜单压GPT-5.4和Claude Opus 4.6,支持300个并行sub-agent、12小时持续编码、4000次工具调用,开源SOTA位置稳固
Kimi
K2.6
开源
SWE-Bench
Agent
Swarm
长程编码
AI编程
模型开源
HuggingFace
Moonshot
向量数据库终极选型指南(2026版):Qdrant、Milvus、Pgvector、Chroma 深度对比与架构解析
编程
向量数据库终极选型指南(2026版):Qdrant、Milvus、Pgvector、Chroma 深度对比与架构解析
2026-05-18 05:44:15 +0800 CST
view 255
深度对比2026年最主流的四大向量数据库:Qdrant、Milvus、Pgvector、Chroma,从架构设计、索引算法、性能基准到生产实践,帮你做出不后悔的技术决策。
向量数据库
Qdrant
Milvus
Pgvector
Chroma
WeChatFerry 聊天 MCP 工具:让 AI 直接操控微信
编程
WeChatFerry 聊天 MCP 工具:让 AI 直接操控微信
2026-05-12 12:18:09 +0800 CST
view 152
基于WeChatFerry的聊天MCP工具,通过标准MCP协议让AI编程工具直接操控微信:发消息、管群聊、查通讯录、接收转账。支持Claude Code/Codex/VSCode等客户端,Go语言开发,仅Windows。
WeChatFerry
MCP
微信
Claude Code
Codex
Nuxt 4 深度解析:全栈框架的新里程碑与开发者体验革命
编程
Nuxt 4 深度解析:全栈框架的新里程碑与开发者体验革命
2026-05-12 13:43:36 +0800 CST
view 309
深度解析Nuxt 4的重大革新:app/目录新结构、useAsyncData/useFetch智能升级、性能提升34%、TypeScript类型系统强化、Vue Router v5集成。
Nuxt4
全栈框架
Vue
VueRouter
app目录
useAsyncData
useFetch
ChatDev 2.0 深度解析:零代码多智能体平台如何用角色扮演重构软件工程全流程
编程
ChatDev 2.0 深度解析:零代码多智能体平台如何用角色扮演重构软件工程全流程
2026-05-05 05:35:54 +0800 CST
view 198
深度解析ChatDev 2.0的四层架构、DAG工作流、多智能体角色扮演机制,附待办事项应用完整实战代码。
ChatDev 2.0
多智能体
软件工程
零代码
AI
MemPalace 深度解析:当古希腊"记忆宫殿"成为AI长期记忆的工程解法
编程
MemPalace 深度解析:当古希腊"记忆宫殿"成为AI长期记忆的工程解法
2026-04-13 22:25:59 +0800 CST
view 253
MemPalace是一款本地AI记忆系统,基于古希腊记忆宫殿原理构建Wing/Hall/Room三级结构,Raw verbatim模式在LongMemEval上达到96.6% R@5,无摘要零LLM调用。本文深度解析其架构设计、存储管线与MCP集成。
AI记忆系统
向量数据库
ChromaDB
MCP协议
MemPalace
CC Switch:一个桌面应用统一管理你的多个CLI工具
编程
CC Switch:一个桌面应用统一管理你的多个CLI工具
2026-05-13 17:54:00 +0800 CST
view 141
CC Switch是基于Tauri 2构建的跨平台桌面应用,一个界面统一管理Claude Code/Codex/Gemini CLI/OpenCode/OpenClaw等AI编程CLI工具。50+供应商预设一键切换,MCP和Skills统一管理面板,云同步多设备配置。
CC Switch
AI编程
CLI管理
Tauri
MCP
WebGPU 深度解析:当 Chrome 正式发布 WebGPU 实现,Web 图形与通用计算的新纪元已至
编程
WebGPU 深度解析:当 Chrome 正式发布 WebGPU 实现,Web 图形与通用计算的新纪元已至
2026-04-15 19:20:07 +0800 CST
view 266
深入解析 Chrome 113 正式发布的 WebGPU 实现:架构设计、WGSL 着色器语言、Compute Shader 机器学习推理实战、性能对比与完整代码示例
WebGPU
WGSL
Chrome
图形API
GPU计算
Compute Shader
机器学习
Web图形
Go Web框架对比(2026版):Gin、Echo、Beego、Fiber 深度选型指南
编程
Go Web框架对比(2026版):Gin、Echo、Beego、Fiber 深度选型指南
2026-05-19 01:51:17 +0800 CST
view 64
深入对比2026年最主流的4大Go Web框架:Gin、Echo、Beego、Fiber。从架构设计、性能基准、功能特性、适用场景等维度进行全面分析,附带完整的代码示例和性能测试数据。
Go
Web框架
Gin
Echo
Beego
Fiber
Go Web框架深度对比(2026):Gin vs Echo vs Beego vs Fiber 全面解析
编程
Go Web框架深度对比(2026):Gin vs Echo vs Beego vs Fiber 全面解析
2026-05-19 01:51:59 +0800 CST
view 96
深入对比2026年最主流的4大Go Web框架:Gin、Echo、Beego、Fiber。从架构设计、性能基准、功能特性、适用场景等维度进行全面分析,附带完整的代码示例和性能测试数据。
Go
Web框架
Gin
Echo
Beego
Fiber
LangChain 2026 深度解析:从 Chain 到 Agent,LLM 应用开发的事实标准全面进化
编程
LangChain 2026 深度解析:从 Chain 到 Agent,LLM 应用开发的事实标准全面进化
2026-05-14 12:41:08 +0800 CST
view 223
LangChain 2026完成架构级重构:Agent取代Chain成为核心抽象、LangGraph状态机支持分支循环暂停、Deep Agents多智能体协作、MCP标准化工具协议、LangSmith全链路可观测性。完整API对比(2024 vs 2026)、迁移指南与企业知识库Agent实战。
LangChain
LangGraph
Agent
MCP
AI
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
3
4
5
6
7
...
17
下一页