程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
案例
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
2026-05-06 07:35:19 +0800 CST
view 273
25K+Star的LLMFit一键检测你的电脑能跑哪些大模型,Rust编写支持NVIDIA/AMD/Intel/Apple Silicon,智能量化推荐Q8到Q2,四维评分系统,TUI+CLI双模式
LLM部署
硬件检测
量化推荐
Rust
终端工具
本地部署
Ollama
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 13
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
45+在线图片工具+REST API+AI修图:SnapOtter让NAS秒变个人图片处理中心
编程
45+在线图片工具+REST API+AI修图:SnapOtter让NAS秒变个人图片处理中心
2026-04-28 18:27:20 +0800 CST
view 445
基于Docker的自托管图片编辑器SnapOtter:45+工具、REST API接入AI Agent、本地AI修图(OCR/背景移除/高清化)、数据永久存NAS。海康智存部署教程。
Docker
NAS
图片处理
AI修图
本地部署
REST API
OpenClaw
Hermes
Go Fiber v3 深度实战:当 Express 风格遇上 Go 高性能——从零基础到生产级 Web 开发的完全指南(2026)
编程
Go Fiber v3 深度实战:当 Express 风格遇上 Go 高性能——从零基础到生产级 Web 开发的完全指南(2026)
2026-06-11 02:16:42 +0800 CST
view 9
Go Fiber v3 深度实战教程,从零开始构建生产级 Web 应用,涵盖路由系统、中间件、数据库集成、性能优化和容器化部署
Go Fiber v3
Go Web 框架
Express 风格
高性能 Web 开发
生产级部署
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
2026-06-11 03:16:24 +0800 CST
view 7
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
编程
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
2026-06-11 03:17:21 +0800 CST
view 14
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
Ollama 深度实战:当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南(2026)
编程
Ollama 深度实战:当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南(2026)
2026-06-11 05:47:01 +0800 CST
view 6
本文深入讲解Ollama的原理、实战部署、性能优化,帮助开发者快速掌握本地大模型部署能力
Ollama
本地大模型
AI部署
Go语言
Python
LLM推理引擎终极对决:vLLM vs TensorRT-LLM深度解析与2026生产环境选型指南
编程
LLM推理引擎终极对决:vLLM vs TensorRT-LLM深度解析与2026生产环境选型指南
2026-04-20 13:45:31 +0800 CST
view 437
深度对比vLLM与TensorRT-LLM两大LLM推理框架,从PagedAttention到Kernel Fusion,从量化技术到生产部署,助你做出正确的技术选型决策
LLM
vLLM
TensorRT-LLM
推理优化
大模型部署
量化技术
AI工程
agents-cli:谷歌开源 AI Agent 全流程开发工具,从搭建到部署一键搞定
案例
agents-cli:谷歌开源 AI Agent 全流程开发工具,从搭建到部署一键搞定
2026-05-11 08:01:29 +0800 CST
view 255
谷歌云官方开源的 agents-cli 工具,专为简化 AI 智能体开发生命周期设计。支持 Gemini CLI、Claude Code、Codex、Cursor 等主流编程助手,内置七大技能包覆盖构建-评估-部署全流程,支持本地模拟评估、自动化部署到 Cloud Run/GKE、Gemini Enterprise 注册。
Google
agents-cli
AI Agent
CLI
部署
评估
ADK
Cloud Run
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
编程
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST
view 777
2026年深度拆解 llama.cpp 的核心架构:GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测,与 Ollama/vLLM 完整横评。
llama.cpp
GGUF
量化
CUDA
Metal
LLM推理
C++
本地部署
性能优化
GGML
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
编程
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
2026-05-23 18:44:14 +0800 CST
view 250
2026年深度长文,从PagedAttention分页思想、Continuous Batching调度算法、Speculative Decoding并行验证机制到CUDA Kernel底层实现,全面拆解vLLM推理引擎内核架构,附生产级部署实战与框架横向对比。
vLLM
PagedAttention
Continuous Batching
Speculative Decoding
GPU推理
大模型部署
深度学习
CUDA
Gunicorn是一个高性能、易于使用的Python,适用于多种应用部署场景
编程
Gunicorn是一个高性能、易于使用的Python,适用于多种应用部署场景
2024-11-18 13:34:51 +0800 CST
view 2000
Gunicorn是一个高性能、易于使用的PythonWSGIHTTP服务器,适用于多种应用部署场景。它支持多种工作模式,能够高效处理并发请求,并兼容多种PythonWeb框架。本文详细介绍了Gunicorn的安装方法、主要特性、基本和高级功能,以及实际应用场景,帮助开发者全面掌握该库的使用。
Python
Web开发
服务器
并发处理
应用部署
Ollama v0.14.3 深度实战:从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南
编程
Ollama v0.14.3 深度实战:从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南
2026-05-24 12:04:34 +0800 CST
view 142
Ollama v0.14.3 深度实战指南:从架构解析到生产部署,涵盖 GGUF 格式、API 集成、多模态模型、性能优化等核心内容,2026 年私有化大模型首选方案。
Ollama
大模型
本地部署
GGUF
多模态
从原理到实战:llama.cpp 与 GGUF 量化格式的工程实践全解
编程
从原理到实战:llama.cpp 与 GGUF 量化格式的工程实践全解
2026-04-12 22:56:41 +0800 CST
view 562
2026年深度解析 llama.cpp 架构设计与 GGUF 量化格式,从底层原理到工程实战,涵盖 K-Quant/IQ 量化、Flash Attention、KV Cache 优化、Intel NPU/GPU 部署全流程。
llama.cpp
GGUF
量化
大模型
C++
本地部署
Gemma 4 MoE 架构技术深度解析:Dense MLP + Routed MoE 双路径设计如何重塑开源大模型
编程
Gemma 4 MoE 架构技术深度解析:Dense MLP + Routed MoE 双路径设计如何重塑开源大模型
2026-04-21 14:22:20 +0800 CST
view 401
深度解析 Google Gemma 4 的 Dual-Path 混合架构设计:Dense MLP 保障通用基座能力,Routed MoE 释放专业化推理效率。一文吃透技术原理、部署实战与选型对比。
Gemma 4
MoE架构
Dense MLP
Routed MoE
Google DeepMind
开源大模型
Transformer
模型部署
混合专家
里程碑!AI Agent 现在可以自己注册账号、购买域名、部署上线了
案例
里程碑!AI Agent 现在可以自己注册账号、购买域名、部署上线了
2026-05-04 07:37:15 +0800 CST
view 256
Cloudflare与Stripe合作推出Stripe Projects,让AI Agent可以自动完成账号创建、域名购买和应用部署,无需人工介入,标志着Agent能力边界的重要突破
Cloudflare
Stripe
AI Agent
自动化部署
无服务器
DevOps
嵌入式AI模型部署实战:从服务器到Arduino的模型压缩与优化指南
编程
嵌入式AI模型部署实战:从服务器到Arduino的模型压缩与优化指南
2026-05-13 17:55:43 +0800 CST
view 212
本文详细介绍如何将训练好的神经网络部署到Arduino、树莓派等嵌入式设备,涵盖模型量化、剪枝、知识蒸馏三大压缩技术,以及不同硬件平台的部署方案和实战经验。
嵌入式AI
模型部署
神经网络压缩
Arduino
树莓派
模型量化
实现系统的动态热部署功能,允许用户上传自定义实现的Jar包并在不重启系统的情况下自动加载
编程
实现系统的动态热部署功能,允许用户上传自定义实现的Jar包并在不重启系统的情况下自动加载
2024-11-18 20:57:45 +0800 CST
view 1520
本文讨论了如何实现系统的动态热部署功能,允许用户上传自定义实现的Jar包并在不重启系统的情况下自动加载。通过定义简单的计算器接口及其实现,展示了两种热部署方式:一种是通过反射加载Jar包,另一种是通过Spring上下文管理。还介绍了工具类DeployUtils的实现,提供了读取Jar包、判断SpringBean及生成Bean名称的方法,并提供了Jar包删除时同步删除SpringBean的代码示例。
Java
开发
热部署
Spring
编程
Cloudflare Workers AI 模型绑定深度剖析:从架构内幕到生产级部署的完整指南(2026)
编程
Cloudflare Workers AI 模型绑定深度剖析:从架构内幕到生产级部署的完整指南(2026)
2026-05-26 13:10:20 +0800 CST
view 203
深度剖析 Cloudflare Workers AI 的模型绑定机制、边缘推理架构内幕,以及生产级部署中最实用的优化策略与避坑指南。
Cloudflare
Workers AI
边缘计算
AI推理
Serverless
模型部署
低延迟
2026
oh-my-claudecode 深度实战:让 Claude Code 从"写代码"到"能交付"——2026 年多智能体编排完全指南
编程
oh-my-claudecode 深度实战:让 Claude Code 从"写代码"到"能交付"——2026 年多智能体编排完全指南
2026-05-26 16:07:56 +0800 CST
view 158
深入剖析 oh-my-claudecode 的四层架构(Hooks、Skills、Agents、State),详解模型路由策略,并通过完整实战案例展示从需求到部署的全生命周期编排。
AI编程
Claude Code
多智能体
Agent编排
自动化部署
科大讯飞开源SkillHub:企业级智能体技能注册中心
案例
科大讯飞开源SkillHub:企业级智能体技能注册中心
2026-05-06 07:34:11 +0800 CST
view 282
科大讯飞开源SkillHub企业级智能体技能注册中心,自托管私有化部署,支持发布/发现/管理技能包,RBAC权限控制,两级审核治理,完整审计日志,Java 21 + React 19 + PostgreSQL 16技术栈
AI Agent
Skill Registry
企业级
讯飞开源
技能管理
Rbac
私有化部署
MCP 2026 契约范式深度解析:OpenAPI 3.1+ 动态契约广播、Python 服务部署提速 300%、WebAssembly 性能优化
编程
MCP 2026 契约范式深度解析:OpenAPI 3.1+ 动态契约广播、Python 服务部署提速 300%、WebAssembly 性能优化
2026-05-14 03:40:17 +0800 CST
view 239
MCP 2026契约范式深度解析:动态契约广播gRPC-Web+SSE、结构化错误语义含恢复建议码、语义版本兼容性断言,以及Python MCP服务部署提速300%基于FastAPI+Rust扩展+WebAssembly。
MCP2026,契约范式,动态契约广播,OpenAPI3.1,Python服务部署,WebAssembly
Llama 4 MoE 架构深度解析:从混合专家到万亿参数的技术革命
编程
Llama 4 MoE 架构深度解析:从混合专家到万亿参数的技术革命
2026-05-28 16:37:41 +0800 CST
view 121
深入解析 Meta Llama 4 的 MoE 混合专家架构原理,探讨其如何以 17B 激活参数撬动万亿级算力,并提供完整的本地部署实战指南。
Llama4
MoE
混合专家
开源大模型
本地部署
Meta
人工智能
深度学习
编程
使用 node-ssh 实现自动化部署
2024-11-18 20:06:21 +0800 CST
view 1463
本文介绍了如何使用node-ssh实现自动化部署,避免依赖Jenkins、GitLabCI/CD和GitHubActions。通过示例代码展示了如何与服务器建立SSH连接,执行命令,上传文件,以及实现完整的自动化部署流程,包括备份和Nginx配置的修改。适合需要快速部署的开发者。
自动化
开发工具
部署
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
下一页