Redis之父antirez亲自下场!为DeepSeek V4 Flash打造专属推理引擎,Mac上跑出468 token/s
标签: DeepSeek / AI推理 / Mac / Redis / antirez / Metal / 本地推理 / MoE / GGUF
原文: https://mp.weixin.qq.com/s/BxGuMYfogQUl_Dmuzt7p6A
来源: 量子位
引言
DeepSeek V4 发布才两周,开源圈里,第一批 V4 原生基础设施已经冒了出来。
而且,不是那种在现有框架上套一层壳的「小修小补」。
不是通用 GGUF 加载器;不是 llama.cpp 的 wrapper;甚至压根不支持别的模型。
它只干一件事:把 DeepSeek V4 Flash,在 Mac 上跑到极致。
这条「专属高速公路」,叫 ds4.c。
而修出来的人,分量有点吓人——Salvatore Sanfilippo,程序员圈更熟悉他的另一个名字:antirez。
他一手创造了 Redis(GitHub 7.4 万 Star),并亲自主导这个全球最流行的内存数据库整整 11 年。
而现在,他的新项目 ds4.c,是一个专门为 DeepSeek V4 Flash 打造的本地推理引擎。
一、专为 V4 Flash 打造的本地推理引擎
4月24日,DeepSeek 发布 V4 系列。其中,V4 Flash 是效率型号:
- 284B 总参数
- 13B 激活参数
- 100万 token 上下文
这样的体量,过去几乎默认属于云端。
而 antirez 想做的,是把它塞进一台 Mac。于是,ds4.c 诞生了。
1.1 项目架构
这是一个用 C + Metal 从头写出来的推理引擎。
| 语言 | 占比 |
|---|---|
| C | 55.4% |
| Objective-C | 30.2% |
| Metal | 13.8% |
Metal-only,没有运行时,没有框架依赖,没有抽象层。
Metal 是苹果自家的图形和计算 API,在 Mac、iPhone、iPad 上调用 GPU 都靠它,相当于苹果生态里的 CUDA。
ds4 只用 Metal 的意思是:这个引擎只在 Apple Silicon 上跑,不管 Nvidia 显卡,也不管 AMD。
整个项目只有一个目标:让 V4 Flash 在本地的苹果机器上,不只是「能跑」,而是真正「能用」。
1.2 性能数据
目前测试结果已经相当夸张:
| 配置 | 量化 | 上下文 | 预填充 | 生成 |
|---|---|---|---|---|
| MacBook Pro M3 Max (128GB) | 2-bit | 32K | 58.52 token/s | 26.68 token/s |
| Mac Studio M3 Ultra (512GB) | 2-bit | 长prompt (11709 token) | 468.03 token/s | 27.39 token/s |
对一个 284B 参数 的 MoE 模型来说,这个速度在本地机器上是真正可用的。
二、怎么做到的?关键在三件事
2.1 非对称量化
ds4 并不会把所有参数都压到 2-bit,而是:
| 层级 | 量化方式 | 说明 |
|---|---|---|
| MoE 专家层(路由) | 2-bit | 只量化这部分,占了模型空间的绝大部分 |
| up/gate | IQ2_XXS | 高压缩量化 |
| down | Q2_K | 高压缩量化 |
| 共享专家层、投影层、路由层 | Q8 精度不动 | 保持高精度 |
antirez 在 README 里写了一句很直接的话:
「这些 2-bit 量化不是开玩笑,它们在 coding agent 下表现良好,能可靠地调用工具。」
2.2 KV 缓存搬到硬盘上
现在的 LLM agent 客户端都是无状态的,每次请求把整段对话重新发一遍。
通用引擎的做法是每次重新做 prefill。
ds4 的做法是:把 KV 状态写到磁盘上,下次请求过来匹配 token 前缀,命中了就直接从磁盘加载,跳过 prefill。
- 缓存的 key 是 token ID 序列的 SHA1 哈希值
- 这对 Claude Code 这种每次启动会发 25K token 初始 prompt 的 agent 场景尤其有用
- 第一次 prefill 完成后,后续会话直接从磁盘恢复
2.3 内置 OpenAI 和 Anthropic 两套 API 兼容层
| API | 协议 |
|---|---|
/v1/chat/completions | OpenAI 协议 |
/v1/messages | Anthropic 协议 |
Tool calling 也做了适配。README 里直接给了三种 agent 客户端的配置示例:
- opencode
- Pi
- Claude Code
三、为什么要做这件事
antirez 的回答是:
「本地推理领域有很多优秀项目,但新模型不断发布,注意力立刻被下一个要实现的模型吸走。」
通用引擎为了兼容所有模型,必须做抽象。抽象意味着妥协。
他想做的是一条刻意的窄路:一次只赌一个模型,用官方 logits 做验证,做长上下文测试,做足够的 agent 集成来确认它真的能用。
四、一个模型一个推理框架?
这件事,也在开发者圈炸出了一个更大的讨论:
未来会不会变成——一个模型,一个推理框架?
Hacker News 上一条高赞评论提了一个有意思的方向:
「如果开始针对精确的 GPU + 模型组合构建超优化推理引擎呢?」
GPU 越来越贵,如果去掉足够多的抽象层,直接针对精确的硬件和模型编码,可能能优化很多。
这条路的代价也很明显:一旦模型过时,一切从头来过。
antirez 自己也承认了这个问题。他说 ds4 当前赌的是 DeepSeek V4 Flash,但模型可能会换。
不变的约束是:本地推理要在高端个人机器或 Mac Studio 上跑得靠谱,起步 128GB 内存。
五、本地推理的「全栈思路」
更值得关注的是他在 README 里抛出的一个观点:
「本地推理应该是三件事一起做好,开箱即用:」
- 一个有 HTTP API 的推理引擎
- 一份针对这个引擎和这套假设特别打造的 GGUF
- 一套和 coding agent 对接的测试和验证
这是一种全栈本地推理的思路,不是把组件拼起来,是把链路当成一个产品来设计。
如果这条路走通了,它可能改变本地推理的玩法:
模型厂商发布新模型的同时,社区里就会有人跳出来给它做专属引擎,做专属量化,做专属 agent 接入。每一代模型都有一个自己的「antirez」。
六、关于 antirez
真名 Salvatore Sanfilippo,1977 年出生于西西里岛。
| 项目 | 说明 |
|---|---|
| Redis | 2009 年创建,主导 11 年,GitHub 7.4 万 Star |
| Kilo | 不到 1000 行 C 代码的文本编辑器 |
| dump1090 | 航空 ADS-B 信号解码器 |
| linenoise | readline 的微型替代品 |
| Flipper Zero 工具 | RF 协议分析工具,把 Asteroids 移植到上面 |
| 《WOHPE》 | 2022 年出版的科幻小说,主题是 AI、气候变化、程序员 |
他个人主页第一行写的是:
「我把大部分专业时间花在写代码和写小说上。」
关于 Redis 的诞生,他在个人主页里写了一段:
「我老婆说,Redis 的前几年我大部分代码都是坐在马桶上写的,用一台 MacBook Air 11 寸。我真希望能说她错了,但她正好说得完全对。」
这种调性贯穿了他做的所有项目。小、精确、自成一体。
ds4.c 也是同一个路子。
七、ds4 的一个坦率细节
README 里有一段声明:
「这个软件是在 GPT 5.5 的『强力辅助』下开发的,人类负责想法、测试和调试。」
antirez 说如果你不接受 AI 辅助开发的代码,这个软件不适合你。
两周时间,从 fork llama.cpp 做适配,到从头写一个专用引擎,离不开 AI 辅助。这件事本身可能比 ds4 还更值得关注。
八、未来展望
当前是 Metal-only,未来可能会做 CUDA 支持。但他写得很谨慎:
「也许会,但仅此而已。」
这个项目刻意保持小、快、专注。
他在个人主页里还留了一句话:
「现代编程正变得复杂、无趣,全是要粘合的层。它正失去大部分美感。大多数程序员既不在面对编程的艺术面,也不在面对编程的高级工程面。」
从 Redis 到 ds4.c,十五年过去,antirez 还是那个 antirez。
只不过这一次,他开始给 AI 修路了。
资源汇总
| 资源 | 链接 |
|---|---|
| 项目地址 | github.com/antirez/ds4 |
| Hacker News 讨论 | news.ycombinator.com/item?id=48050751 |
| antirez 个人主页 | invece.org |
硬件要求
| 配置 | 说明 |
|---|---|
| 最低 | 128GB 内存的 Mac(M3 Max 及以上) |
| 推荐 | 512GB 的 Mac Studio M3 Ultra |
时间线上,已经有网友在 128GB Mac 上把它跑了起来。可以说,这波,Mac 库存又被 DeepSeek 清了一遍。鲸鱼,确实值得。
本文整理自量子位,原文链接:https://mp.weixin.qq.com/s/BxGuMYfogQUl_Dmuzt7p6A