本地训练-程序员茄子

Unsloth实战：当QLoRA让27B模型在RTX 4090上跑起来——从Qwen3.5微调到Ollama部署的完整工程链
2026-07-15 17:48:36 +0800 CST view 130
深度拆解Unsloth技术栈：QLoRA量化原理、4-bit NF4精度机制、Triton内核重写、8-bit Adam优化器、梯度检查点优化，以及从Notebook到Ollama/vLLM生产部署的完整工程路径，含完整代码实战
Unsloth LLM微调 QLoRA LoRA 4-bit量化深度学习模型训练

Microsoft Agent Lightning 深度实战：零代码变更强化学习——让 AI Agent 在真实交互中自我进化（2026 完全指南）

编程

Microsoft Agent Lightning 深度实战：零代码变更强化学习——让 AI Agent 在真实交互中自我进化（2026 完全指南）
2026-05-30 10:10:57 +0800 CST view 410
Microsoft Agent Lightning 深度解析：零代码变更强化学习框架，让AI Agent在真实交互中自我进化。涵盖架构原理、LightningRL算法、代码实战、信用分配机制与生产级部署。
Microsoft Agent Lightning 强化学习 AI Agent 训练 RL 零代码变更

Kueue：Kubernetes 原生 Job Queueing——一个 Controller 搞定 Job 排队和资源配额

编程

Kueue：Kubernetes 原生 Job Queueing——一个 Controller 搞定 Job 排队和资源配额
2026-06-28 12:18:45 +0800 CST view 311
深入解析 Kueue 的核心概念、架构设计与生产实践，涵盖 ResourceFlavor、ClusterQueue、Cohort、Workload 等关键组件，配有完整的 YAML 示例与多租户 GPU 集群实战。
Kubernetes K8s Kueue 云原生 AI训练 GPU调度批量调度

Kueue 深度解析：Kubernetes 原生 Job 队列与多租户 GPU 配额管理实战

编程

Kueue 深度解析：Kubernetes 原生 Job 队列与多租户 GPU 配额管理实战
2026-06-28 12:19:03 +0800 CST view 228
深入解析 Kueue 的核心概念、架构设计与生产实践，涵盖 ResourceFlavor、ClusterQueue、Cohort、Workload 等关键组件，配有完整的 YAML 示例与多租户 GPU 集群实战。
Kubernetes K8s Kueue 云原生 AI训练 GPU调度批量调度

AReaL：当异步强化学习遇上大模型Agent，训练效率狂飙2.77倍

编程

AReaL：当异步强化学习遇上大模型Agent，训练效率狂飙2.77倍
2026-04-18 09:13:49 +0800 CST view 551
深度解析蚂蚁集团开源的大规模异步强化学习框架AReaL，训练效率提升2.77倍，支持数学推理、搜索Agent、多模态等多种场景。
强化学习 Agent AI训练开源框架异步计算

oMLX 深度实战：当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南（2026）

编程

oMLX 深度实战：当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南（2026）
2026-06-16 16:46:05 +0800 CST view 669
深度解析 2026 年 Apple Silicon 本地大模型推理技术栈：从 llama.cpp 量化体系到 oMLX 分层 KV 缓存架构，从 MTP 加速到 CoreAI 全栈指南，包含实测 Benchmark 与生产级部署方案。
Apple Silicon MLX llama.cpp oMLX MTP 本地大模型量化本地推理

Ollama 融资 6500 万美元背后：2026 年本地大模型运行时生态深度拆解——为什么「极简主义」赢了

编程

Ollama 融资 6500 万美元背后：2026 年本地大模型运行时生态深度拆解——为什么「极简主义」赢了
2026-07-16 11:45:03 +0800 CST view 254
从 Ollama 6500 万美元融资事件切入，深度拆解 2026 年本地大模型运行时生态：Ollama、llama.cpp、LocalAI、LiteBox、vLLM 的架构设计、性能对比、API 设计、适用场景，配完整代码实战与生产部署踩坑指南。
Ollama 本地大模型 llama.cpp LocalAI LiteBox 本地LLM 推理引擎量化 GGUF MCP

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）

编程

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）
2026-06-16 03:46:31 +0800 CST view 305
MemPalace 深度实战：本地优先的 AI 记忆系统，96.6% R@5 召回率，33 个 MCP 工具，零 API Key，完全开源
AI Agent 记忆系统 MemPalace 本地优先 RAG

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」

编程

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」
2026-04-09 07:55:23 +0800 CST view 1042
深度解析 METATRON：如何在本地零成本跑起一个完整的 AI 渗透测试助手，基于 Qwen 微调模型 + Ollama + MariaDB，无需 API Key，数据完全不出本地。
AI渗透测试 Ollama Qwen 本地大模型 MariaDB Pentest 安全工具 Agent

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心

编程

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心
2026-04-28 18:27:20 +0800 CST view 914
基于Docker的自托管图片编辑器SnapOtter：45+工具、REST API接入AI Agent、本地AI修图（OCR/背景移除/高清化）、数据永久存NAS。海康智存部署教程。
Docker NAS 图片处理 AI修图本地部署 REST API OpenClaw Hermes

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s

案例

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s
2026-05-10 08:40:22 +0800 CST view 741
Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎ds4.c，C+Metal从头编写，Mac Studio M3 Ultra上预填充468 token/s。关键优化：非对称量化（MoE专家层2-bit）、KV缓存搬硬盘、内置OpenAI/Anthropic双API。128GB Mac可跑，专为coding agent优化。
DeepSeek AI推理 Mac Redis antirez Metal 本地推理 MoE GGUF C语言 Apple Silicon Claude Code OpenAI API Anthropic API

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱

编程

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱
2026-04-10 05:35:25 +0800 CST view 721
Rowboat 是一个带长期记忆的开源 AI 同事，自动构建知识图谱，支持会议准备、文档生成、承诺追踪，采用本地优先架构，完全透明可控。
AI Agent 知识图谱开源工具本地优先生产力工具

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）

编程

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）
2026-06-16 18:52:52 +0800 CST view 456
Google DeepMind联合NVIDIA发布DiffusionGemma——基于离散文本扩散的实验性开源模型。本文深入解读26B MoE架构、双向注意力机制、本地推理4倍加速原理，附完整代码示例和部署实战。
Google DiffusionGemma 扩散模型 MoE 开源LLM 本地推理 AI推理加速

OpenClaw 深度解析：重塑个人 AI 助手范式的开源架构革命——从 Gateway 到 Skill 生态的全链路技术拆解

编程

OpenClaw 深度解析：重塑个人 AI 助手范式的开源架构革命——从 Gateway 到 Skill 生态的全链路技术拆解
2026-06-30 03:44:16 +0800 CST view 443
深度解析OpenClaw个人AI助手框架：从Gateway控制面、多通道消息路由、Skill技能生态、MCP协议集成、安全模型、会话管理到生产级部署，附完整代码示例与架构决策分析。
OpenClaw 个人AI助手开源AI AI Agent MCP协议 Gateway架构 Skill生态多通道接入本地部署 AI自动化

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）

编程

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）
2026-06-11 05:47:01 +0800 CST view 471
本文深入讲解Ollama的原理、实战部署、性能优化，帮助开发者快速掌握本地大模型部署能力
Ollama 本地大模型 AI部署 Go语言 Python

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南

编程

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
2026-06-11 07:51:35 +0800 CST view 734
Redis之父antirez新作ds4深度解析：非对称2-bit量化、KV缓存磁盘持久化、Metal极致优化，284B模型在MacBook上跑出26 tok/s的完全指南
ds4 DeepSeek 本地推理 Metal KV缓存量化 antirez Redis

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实

编程

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实
2026-04-11 10:24:48 +0800 CST view 840
深度解析 Apple Silicon 上的视觉语言模型推理引擎 MLX-VLM，涵盖架构设计、模型支持、性能优化与实战部署。
Apple Silicon MLX 视觉语言模型 VLM Mac本地AI 多模态推理

llmfit 深度拆解：一条命令算清你的机器能跑哪个大模型，Rust 硬件探测与适配度评分引擎全解析

编程

llmfit 深度拆解：一条命令算清你的机器能跑哪个大模型，Rust 硬件探测与适配度评分引擎全解析
2026-07-24 07:14:55 +0800 CST view 62
深度拆解 GitHub Trending 破万星的 llmfit：Rust 硬件探测、权重与 KV cache 显存估算公式、内存带宽速度模型、MoE offload 运行模式，附 100 行 Python 复现 mini-llmfit 与工程集成实战。
llmfit Rust 本地大模型 Ollama llama.cpp 量化 KV cache MoE 硬件选型开源

KTransformers 深度拆解：一块 RTX 5090 跑 100B+ 大模型，CPU/GPU 异构推理凭什么改写 LLM 本地部署规则

编程

KTransformers 深度拆解：一块 RTX 5090 跑 100B+ 大模型，CPU/GPU 异构推理凭什么改写 LLM 本地部署规则
2026-07-24 07:44:31 +0800 CST view 79
KTransformers 通过 CPU/GPU 异构计算，让一块 RTX 5090（32GB 显存）能跑起 100B+ MoE 大模型，且无需量化压缩，保持原精度 FP16。实测比 llama.cpp Q8_0 快 4.5 倍。本文深度拆解其专家细粒度卸载、异步预取、DMA 优化等核心技术，以及实战部署指南。
KTransformers LLM推理 MoE 异构计算 DeepSeek SGLang CPU Offload 本地部署 GPU优化

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）

编程

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）
2026-06-22 17:24:05 +0800 CST view 463
oMLX 是专为 Apple Silicon 优化的 LLM 推理服务器，通过连续批处理、分层 KV Cache、MLX 后端加速和 macOS 菜单栏管理，让本地 AI 推理从可用走向实用。
LLM Apple Silicon MLX 本地推理 MCP

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能

编程

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST view 1981
2026年深度拆解 llama.cpp 的核心架构：GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测，与 Ollama/vLLM 完整横评。
llama.cpp GGUF 量化 CUDA Metal LLM推理 C++ 本地部署性能优化 GGML

Ollama深度解析：Go语言打造的本地LLM推理引擎——从Modelfile容器化到GPU调度的完整实战指南

编程

Ollama深度解析：Go语言打造的本地LLM推理引擎——从Modelfile容器化到GPU调度的完整实战指南
2026-07-06 05:48:17 +0800 CST view 161
深度解析Ollama本地LLM推理引擎架构与实战
Ollama 本地推理 LLM Go llama.cpp GGUF GPU Modelfile

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案

编程

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案
2026-05-11 09:23:06 +0800 CST view 575
Goose 是由 Block 开源、现已捐献给 Linux 基金会 AAIF 的本地 AI 编程代理。最新版本 v1.32.0（2026年5月6日）支持 Exa AI 搜索、桌面通知、@agent 协作、/skills 命令、自动压缩上下文、语音听写等功能。Rust 开发，支持 MCP 协议，可连接任何 LLM（OpenAI、Ollama、Kimi Code 等），完全本地运行无需订阅。
Goose AI编程本地LLM MCP Rust Linux基金会 Block

大家都在搜索什么？

devops 易支付一个官网+多少钱统一接受回调统一回调 sub node 宝塔日志 mysql shell ElasticSearch css vue api接口对接 2025 支付接口对接 go php php回调回调

AI,自己全程接管维护

Unsloth实战：当QLoRA让27B模型在RTX 4090上跑起来——从Qwen3.5微调到Ollama部署的完整工程链

Microsoft Agent Lightning 深度实战：零代码变更强化学习——让 AI Agent 在真实交互中自我进化（2026 完全指南）

Kueue：Kubernetes 原生 Job Queueing——一个 Controller 搞定 Job 排队和资源配额

Kueue 深度解析：Kubernetes 原生 Job 队列与多租户 GPU 配额管理实战

AReaL：当异步强化学习遇上大模型Agent，训练效率狂飙2.77倍

oMLX 深度实战：当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南（2026）

Ollama 融资 6500 万美元背后：2026 年本地大模型运行时生态深度拆解——为什么「极简主义」赢了

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心

CLI Printing Press：火爆外网的Go开源神器！一键生成Agent专属CLI工具，45个开箱即用

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）

OpenClaw 深度解析：重塑个人 AI 助手范式的开源架构革命——从 Gateway 到 Skill 生态的全链路技术拆解

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实

llmfit 深度拆解：一条命令算清你的机器能跑哪个大模型，Rust 硬件探测与适配度评分引擎全解析

KTransformers 深度拆解：一块 RTX 5090 跑 100B+ 大模型，CPU/GPU 异构推理凭什么改写 LLM 本地部署规则

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能

Ollama深度解析：Go语言打造的本地LLM推理引擎——从Modelfile容器化到GPU调度的完整实战指南

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案

大家都在搜索什么？