Kimi K2.6 开源：12小时连续编码，300个Agent并行，4000次工具调用

Moonshot 凌晨发布 K2.6 开源版：SWE-Bench Pro 58.6，多项榜单压 GPT-5.4 和 Claude Opus 4.6，价格便宜约76%，开源SOTA位置继续稳固

凌晨炸场

Moonshot 悄悄把 Kimi K2.6 推了出来，上来就甩出一串数字：

SWE-Bench Pro: 58.6
HLE 带工具: 54.0
DeepSearchQA F1: 92.5

在几个关键榜单上，这个开源模型把 GPT-5.4 和 Claude Opus 4.6 都压了下去。

更炸的是那句 slogan：一个 prompt 下去，可以并行跑 300 个 sub-agent，持续编码 12 小时，工具调用超过 4000 次。

对熟悉 Agent 工程的朋友来说，这组数字已经不是模型升级，而是把长程任务的工程门槛重新拉了一遍。

跑分对比

这次对标的是各家旗舰的高配档：GPT-5.4（xhigh）、Claude Opus 4.6（max effort）、Gemini 3.1 Pro（thinking high）。

榜单	K2.6	GPT-5.4	Claude Opus 4.6	Gemini 3.1
SWE-Bench Pro	58.6	57.7	53.4	—
HLE 带工具	54.0	—	—	—
DeepSearchQA F1	92.5	78.6	—	—
BrowseComp	—	—	—	头部水平
Terminal-Bench 2.0	—	—	—	头部水平
MathVision	—	领先	—	—
SWE-Bench Multilingual	76.7	—	77.8	—

简单讲：K2.6 没有在每个榜上都赢，但在开源阵营里坐稳了 SOTA 的位置，而且在几个真实代码场景的榜单上已经挤进了闭源前列。

五大功能升级

1. 长程编码（Long-horizon Coding）

单次任务支持 4000 次以上工具调用，跨 Rust、Go、Python 多种语言，覆盖前端、DevOps、性能优化等方向。

实测案例：

Qwen3.5-0.8B 推理吞吐从 15 tokens/s 优化到 193 tokens/s（提升 12.8 倍）
exchange-core 项目中位吞吐提升 185%，峰值吞吐提升 133%

这种性能优化类任务本身就不是"写一段代码"能搞定的，需要模型在工具链里反复定位瓶颈、实验、回归验证。

2. 前端能力升级

支持 hero section 视频嵌入、WebGL shader、GSAP + Framer Motion 动画、Three.js 3D 场景。以前开源模型写前端基本卡在"能跑的静态页面"，这次在带动效的生产级前端上做了明显加码。

3. Agent Swarm 扩容

K2.5 时代单次最多 100 个 sub-agent、1500 步，K2.6 直接拉到 300 个 sub-agent、4000 步，一条指令就能让几百个小弟协同改 100+ 个文件。

4. Proactive Agents（24/7 常驻 Agent 基座）

给 OpenClaw、Hermes Agent 这类 24/7 常驻的后台 Agent 供血。Moonshot 内部 RL 团队演示了一个 5 天连续自主运行的案例：监控、事件响应、系统操作一条龙。

5. Claw Groups（研究预览）

这次最有意思的一块。允许把自己的 Agent、朋友的 bot、甚至人类成员都拉进同一个工作组，K2.6 在中间做自适应调度，根据任务特征把活派给最合适的执行者。

官方说法是"多 Agent 加人类作为真实协作者"，看演示有点像 Agent 世界的飞书 + Slack 合体。

全面可用

Kimi 这次给的渠道比较全：

网页版 kimi.com：Agent 模式和 Chat 模式并存
移动端 App 同步支持
API：platform.moonshot.ai
开源：权重和代码挂在 Hugging Face 官方账号 moonshotai 下开源
CLI：生产级编码任务建议配合 Kimi Code 工具使用

价格

官方博客这次没直接给数字。但海外开发者对比后的结论：

编码能力接近 GPT-5.4，价格比 Claude Opus 4.7 便宜约 76%，而且 100% 开源。

客观说：亮点和问号

亮点很明确：

开源 SOTA 的位置继续稳固
长程编码的 12 小时 + 4000 次工具调用是目前开源阵营里相当激进的工程指标
Claw Groups 这种"Agent + 人类协作"的产品形态走在不少闭源产品前面

要打的问号也有：

视觉推理任务（MathVision、V* 带 python）仍然被 GPT-5.4 压着，视觉理解加推理的组合还有差距
SWE-Bench Multilingual 上 Claude Opus 4.6 的 77.8 依然高于 K2.6 的 76.7，多语言代码场景没有被完全拿下
300 个并行 sub-agent 听起来很科幻，到底在多少真实业务场景下能稳定跑完 4000 步，还得等社区实测给答案
12 小时连续执行 对调用方的钱包、网络稳定性和任务编排框架都是实打实的压力。对大多数工程团队来说，先把 30 分钟到 2 小时的中等长度 Agent 跑稳，可能比追求 12 小时极限更有 ROI

一句话总结

从 K2 到 K2.5 再到 K2.6，开源编码模型的迭代节奏比想象中更快。K2.6 把 sub-agent 数量、单次步数、工具调用次数都翻了一倍以上，再加上 DeepSeek 传闻本周也要发新模型，开源阵营在 Agent 编码赛道上的这波密集更新，正在把"闭源才配跑长程任务"的默认假设一点点松开。

开源地址：https://huggingface.co/moonshotai/kimi-k2.6