本地AI-程序员茄子

oMLX 深度实战：当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南（2026）
2026-06-16 16:46:05 +0800 CST view 264
深度解析 2026 年 Apple Silicon 本地大模型推理技术栈：从 llama.cpp 量化体系到 oMLX 分层 KV 缓存架构，从 MTP 加速到 CoreAI 全栈指南，包含实测 Benchmark 与生产级部署方案。
Apple Silicon MLX llama.cpp oMLX MTP 本地大模型量化本地推理

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）

编程

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）
2026-06-16 03:46:31 +0800 CST view 123
MemPalace 深度实战：本地优先的 AI 记忆系统，96.6% R@5 召回率，33 个 MCP 工具，零 API Key，完全开源
AI Agent 记忆系统 MemPalace 本地优先 RAG

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」

编程

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」
2026-04-09 07:55:23 +0800 CST view 860
深度解析 METATRON：如何在本地零成本跑起一个完整的 AI 渗透测试助手，基于 Qwen 微调模型 + Ollama + MariaDB，无需 API Key，数据完全不出本地。
AI渗透测试 Ollama Qwen 本地大模型 MariaDB Pentest 安全工具 Agent

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心

编程

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心
2026-04-28 18:27:20 +0800 CST view 615
基于Docker的自托管图片编辑器SnapOtter：45+工具、REST API接入AI Agent、本地AI修图（OCR/背景移除/高清化）、数据永久存NAS。海康智存部署教程。
Docker NAS 图片处理 AI修图本地部署 REST API OpenClaw Hermes

Unsloth 深度实战：从显存爆炸到 70% 压缩——本地大模型微调的工程化革命与生产级实践

编程

Unsloth 深度实战：从显存爆炸到 70% 压缩——本地大模型微调的工程化革命与生产级实践
2026-05-22 16:15:29 +0800 CST view 496
Unsloth通过底层算子优化让大模型微调显存降低70%、速度提升2-5x，本文从原理到生产实战全方位拆解，含完整代码。
Unsloth LoRA QLoRA 大模型微调本地训练

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s

案例

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s
2026-05-10 08:40:22 +0800 CST view 608
Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎ds4.c，C+Metal从头编写，Mac Studio M3 Ultra上预填充468 token/s。关键优化：非对称量化（MoE专家层2-bit）、KV缓存搬硬盘、内置OpenAI/Anthropic双API。128GB Mac可跑，专为coding agent优化。
DeepSeek AI推理 Mac Redis antirez Metal 本地推理 MoE GGUF C语言 Apple Silicon Claude Code OpenAI API Anthropic API

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱

编程

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱
2026-04-10 05:35:25 +0800 CST view 525
Rowboat 是一个带长期记忆的开源 AI 同事，自动构建知识图谱，支持会议准备、文档生成、承诺追踪，采用本地优先架构，完全透明可控。
AI Agent 知识图谱开源工具本地优先生产力工具

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）

编程

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）
2026-06-16 18:52:52 +0800 CST view 249
Google DeepMind联合NVIDIA发布DiffusionGemma——基于离散文本扩散的实验性开源模型。本文深入解读26B MoE架构、双向注意力机制、本地推理4倍加速原理，附完整代码示例和部署实战。
Google DiffusionGemma 扩散模型 MoE 开源LLM 本地推理 AI推理加速

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）

编程

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）
2026-06-11 05:47:01 +0800 CST view 268
本文深入讲解Ollama的原理、实战部署、性能优化，帮助开发者快速掌握本地大模型部署能力
Ollama 本地大模型 AI部署 Go语言 Python

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南

编程

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
2026-06-11 07:51:35 +0800 CST view 244
Redis之父antirez新作ds4深度解析：非对称2-bit量化、KV缓存磁盘持久化、Metal极致优化，284B模型在MacBook上跑出26 tok/s的完全指南
ds4 DeepSeek 本地推理 Metal KV缓存量化 antirez Redis

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实

编程

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实
2026-04-11 10:24:48 +0800 CST view 711
深度解析 Apple Silicon 上的视觉语言模型推理引擎 MLX-VLM，涵盖架构设计、模型支持、性能优化与实战部署。
Apple Silicon MLX 视觉语言模型 VLM Mac本地AI 多模态推理

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）

编程

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）
2026-06-22 17:24:05 +0800 CST view 204
oMLX 是专为 Apple Silicon 优化的 LLM 推理服务器，通过连续批处理、分层 KV Cache、MLX 后端加速和 macOS 菜单栏管理，让本地 AI 推理从可用走向实用。
LLM Apple Silicon MLX 本地推理 MCP

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能

编程

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST view 1513
2026年深度拆解 llama.cpp 的核心架构：GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测，与 Ollama/vLLM 完整横评。
llama.cpp GGUF 量化 CUDA Metal LLM推理 C++ 本地部署性能优化 GGML

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案

编程

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案
2026-05-11 09:23:06 +0800 CST view 405
Goose 是由 Block 开源、现已捐献给 Linux 基金会 AAIF 的本地 AI 编程代理。最新版本 v1.32.0（2026年5月6日）支持 Exa AI 搜索、桌面通知、@agent 协作、/skills 命令、自动压缩上下文、语音听写等功能。Rust 开发，支持 MCP 协议，可连接任何 LLM（OpenAI、Ollama、Kimi Code 等），完全本地运行无需订阅。
Goose AI编程本地LLM MCP Rust Linux基金会 Block

MemPalace 深度实战：当记忆宫殿遇上 AI Agent——从 2000 年前认知术到 96.6% 召回率的本地记忆系统完全指南（2026）

编程

MemPalace 深度实战：当记忆宫殿遇上 AI Agent——从 2000 年前认知术到 96.6% 召回率的本地记忆系统完全指南（2026）
2026-06-12 15:20:19 +0800 CST view 268
从 2000 年前古希腊记忆术到 96.6% R@5 的 AI 本地记忆系统，深度解析 MemPalace 的 Wing/Room/Drawer 架构、可插拔后端设计与 MCP 集成实践
AI记忆 MemPalace MCP 向量检索 RAG 本地部署 Python AI Agent

3MB就能跑PostgreSQL：PGlite如何用WebAssembly彻底改变前端数据库生态

编程

3MB就能跑PostgreSQL：PGlite如何用WebAssembly彻底改变前端数据库生态
2026-05-11 17:27:19 +0800 CST view 334
PGlite将完整PostgreSQL编译为WebAssembly，在浏览器里跑真正的数据库。3MB gzip、无依赖、完整SQL支持、ACID事务、pgvector向量搜索。本文深度解析PGlite技术架构，并从零构建本地优先AI笔记应用实战。
PGlite PostgreSQL WebAssembly 前端数据库 WASM 本地优先 pgvector

DiffusionGemma 深度实战：当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命

编程

DiffusionGemma 深度实战：当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命
2026-06-12 17:21:39 +0800 CST view 154
2026年6月Google发布DiffusionGemma，首个生产级文本扩散大模型，本地推理速度提升4倍。本文深入剖析其从自回归到并行生成的架构革命，附完整代码实战。
DiffusionGemma 文本扩散本地AI Gemma 大模型推理扩散模型 Python Ollama

ds4 深度解析：当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解

编程

ds4 深度解析：当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解
2026-06-12 18:19:08 +0800 CST view 223
深度解析 Redis 之父 antirez 最新开源项目 ds4（DwarfStar）：一个纯 C 语言手写的 DeepSeek V4 Flash 本地推理引擎。从「窄而深」的工程哲学、非对称 2-bit 量化、磁盘 KV 缓存、Metal/CUDA 内核优化到实际部署，完整拆解这个 13K+ Star 项目的技术内幕。
AI推理引擎 DeepSeek 本地推理系统编程开源项目 C语言

Ollama v0.14.3 深度实战：从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南

编程

Ollama v0.14.3 深度实战：从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南
2026-05-24 12:04:34 +0800 CST view 239
Ollama v0.14.3 深度实战指南：从架构解析到生产部署，涵盖 GGUF 格式、API 集成、多模态模型、性能优化等核心内容，2026 年私有化大模型首选方案。
Ollama 大模型本地部署 GGUF 多模态

从原理到实战：llama.cpp 与 GGUF 量化格式的工程实践全解

编程

从原理到实战：llama.cpp 与 GGUF 量化格式的工程实践全解
2026-04-12 22:56:41 +0800 CST view 720
2026年深度解析 llama.cpp 架构设计与 GGUF 量化格式，从底层原理到工程实战，涵盖 K-Quant/IQ 量化、Flash Attention、KV Cache 优化、Intel NPU/GPU 部署全流程。
llama.cpp GGUF 量化大模型 C++ 本地部署

EchoBird百灵鸟：2.2K Star开源AI桌面客户端，一个工具搞定所有AI Agent的安装配置与管理

编程

EchoBird百灵鸟：2.2K Star开源AI桌面客户端，一个工具搞定所有AI Agent的安装配置与管理
2026-06-18 08:34:13 +0800 CST view 272
EchoBird（百灵鸟）是2200+ Star的开源AI桌面客户端，基于Tauri+Rust，图形界面一键安装管理12+ AI Agent工具（Claude Code/Codex/OpenClaw/Aider等），Model Nexus统一配置模型，内置llama.cpp/vLLM本地推理引擎，一键启动本地大模型。
EchoBird AI桌面客户端 Agent管理 Tauri Rust 开源本地大模型 AI工具管理百灵鸟

ds4.c 深度解析：Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕

编程

ds4.c 深度解析：Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕
2026-05-18 06:15:03 +0800 CST view 480
Redis之父antirez开源ds4.c项目深度解析：用纯C语言在MacBook上运行284B参数大模型，不对称2-bit量化、KV缓存磁盘化、OpenAI/Anthropic API兼容，打造首个真正的本地Agent推理后端
AI推理本地大模型 Redis Apple Silicon DeepSeek

MemPalace 深度实战：当《生化危机》女主给 Claude Code 装上「记忆宫殿」——本地优先 AI 记忆系统的 96.6% 召回率之谜（2026完全指南）

编程

MemPalace 深度实战：当《生化危机》女主给 Claude Code 装上「记忆宫殿」——本地优先 AI 记忆系统的 96.6% 召回率之谜（2026完全指南）
2026-06-26 04:44:59 +0800 CST view 54
深度解析MemPalace——由《生化危机》女主Milla Jovovich联合开发的本地优先AI记忆系统。96.6% LongMemEval R@5高分，原始逐字存储，记忆宫殿架构，四层记忆栈，零API调用。
MemPalace AI记忆系统 Claude Code ChromaDB LongMemEval MCP协议本地优先向量数据库

大家都在搜索什么？

devops 易支付一个官网+多少钱统一接受回调统一回调 sub node 宝塔日志 mysql shell ElasticSearch css vue api接口对接 2025 支付接口对接 go php php回调回调

AI,自己全程接管维护

oMLX 深度实战：当 Apple Silicon 遇见本地大模型推理——从 MTP 加速到分层 KV 缓存的生产级完全指南（2026）

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）

METATRON 深度解析：当 AI 渗透测试在本地跑出「免费版 GPT-4 安全助手」

45+在线图片工具+REST API+AI修图：SnapOtter让NAS秒变个人图片处理中心

Unsloth 深度实战：从显存爆炸到 70% 压缩——本地大模型微调的工程化革命与生产级实践

CLI Printing Press：火爆外网的Go开源神器！一键生成Agent专属CLI工具，45个开箱即用

Redis之父antirez亲自下场！为DeepSeek V4 Flash打造专属推理引擎，Mac上跑出468 token/s

Rowboat 深度解析：当 AI 同事第一次拥有「长期记忆」，工作变成可积累的知识图谱

DiffusionGemma 深度实战：当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南（2026）

Ollama 深度实战：当本地大模型部署成为事实标准——从一行命令跑 Llama/Qwen/DeepSeek 到生产级 API 兼容与多语言接入完全指南（2026）

ds4 深度实战：当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南

当 Apple Silicon 遇上视觉大模型：MLX-VLM 如何把「本地多模态推理」变成现实

oMLX 深度实战：当 macOS 菜单栏成为本地 LLM 推理的控制中心——从连续批处理到 SSD 分层缓存、从 MLX 后端加速到生产级部署的完全指南（2026）

llama.cpp 深度实战：从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能

Goose：Block 开源、Linux 基金会托管——本地 AI 编程代理的终极答案

MemPalace 深度实战：当记忆宫殿遇上 AI Agent——从 2000 年前认知术到 96.6% 召回率的本地记忆系统完全指南（2026）

3MB就能跑PostgreSQL：PGlite如何用WebAssembly彻底改变前端数据库生态

DiffusionGemma 深度实战：当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命

ds4 深度解析：当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解

Ollama v0.14.3 深度实战：从本地部署到多模态 AI——2026 年私有化大模型工程化完全指南

从原理到实战：llama.cpp 与 GGUF 量化格式的工程实践全解

EchoBird百灵鸟：2.2K Star开源AI桌面客户端，一个工具搞定所有AI Agent的安装配置与管理

ds4.c 深度解析：Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕

MemPalace 深度实战：当《生化危机》女主给 Claude Code 装上「记忆宫殿」——本地优先 AI 记忆系统的 96.6% 召回率之谜（2026完全指南）

大家都在搜索什么？