Kimi K2.6 开源:12小时连续编码,300个Agent并行,4000次工具调用
Moonshot 凌晨发布 K2.6 开源版:SWE-Bench Pro 58.6,多项榜单压 GPT-5.4 和 Claude Opus 4.6,价格便宜约76%,开源SOTA位置继续稳固
凌晨炸场
Moonshot 悄悄把 Kimi K2.6 推了出来,上来就甩出一串数字:
- SWE-Bench Pro: 58.6
- HLE 带工具: 54.0
- DeepSearchQA F1: 92.5
在几个关键榜单上,这个开源模型把 GPT-5.4 和 Claude Opus 4.6 都压了下去。
更炸的是那句 slogan:一个 prompt 下去,可以并行跑 300 个 sub-agent,持续编码 12 小时,工具调用超过 4000 次。
对熟悉 Agent 工程的朋友来说,这组数字已经不是模型升级,而是把长程任务的工程门槛重新拉了一遍。
跑分对比
这次对标的是各家旗舰的高配档:GPT-5.4(xhigh)、Claude Opus 4.6(max effort)、Gemini 3.1 Pro(thinking high)。
| 榜单 | K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | — |
| HLE 带工具 | 54.0 | — | — | — |
| DeepSearchQA F1 | 92.5 | 78.6 | — | — |
| BrowseComp | — | — | — | 头部水平 |
| Terminal-Bench 2.0 | — | — | — | 头部水平 |
| MathVision | — | 领先 | — | — |
| SWE-Bench Multilingual | 76.7 | — | 77.8 | — |
简单讲:K2.6 没有在每个榜上都赢,但在开源阵营里坐稳了 SOTA 的位置,而且在几个真实代码场景的榜单上已经挤进了闭源前列。
五大功能升级
1. 长程编码(Long-horizon Coding)
单次任务支持 4000 次以上工具调用,跨 Rust、Go、Python 多种语言,覆盖前端、DevOps、性能优化等方向。
实测案例:
- Qwen3.5-0.8B 推理吞吐从 15 tokens/s 优化到 193 tokens/s(提升 12.8 倍)
- exchange-core 项目中位吞吐提升 185%,峰值吞吐提升 133%
这种性能优化类任务本身就不是"写一段代码"能搞定的,需要模型在工具链里反复定位瓶颈、实验、回归验证。
2. 前端能力升级
支持 hero section 视频嵌入、WebGL shader、GSAP + Framer Motion 动画、Three.js 3D 场景。以前开源模型写前端基本卡在"能跑的静态页面",这次在带动效的生产级前端上做了明显加码。
3. Agent Swarm 扩容
K2.5 时代单次最多 100 个 sub-agent、1500 步,K2.6 直接拉到 300 个 sub-agent、4000 步,一条指令就能让几百个小弟协同改 100+ 个文件。
4. Proactive Agents(24/7 常驻 Agent 基座)
给 OpenClaw、Hermes Agent 这类 24/7 常驻的后台 Agent 供血。Moonshot 内部 RL 团队演示了一个 5 天连续自主运行的案例:监控、事件响应、系统操作一条龙。
5. Claw Groups(研究预览)
这次最有意思的一块。允许把自己的 Agent、朋友的 bot、甚至人类成员都拉进同一个工作组,K2.6 在中间做自适应调度,根据任务特征把活派给最合适的执行者。
官方说法是"多 Agent 加人类作为真实协作者",看演示有点像 Agent 世界的飞书 + Slack 合体。
全面可用
Kimi 这次给的渠道比较全:
- 网页版 kimi.com:Agent 模式和 Chat 模式并存
- 移动端 App 同步支持
- API:platform.moonshot.ai
- 开源:权重和代码挂在 Hugging Face 官方账号
moonshotai下开源 - CLI:生产级编码任务建议配合 Kimi Code 工具使用
价格
官方博客这次没直接给数字。但海外开发者对比后的结论:
编码能力接近 GPT-5.4,价格比 Claude Opus 4.7 便宜约 76%,而且 100% 开源。
客观说:亮点和问号
亮点很明确:
- 开源 SOTA 的位置继续稳固
- 长程编码的 12 小时 + 4000 次工具调用是目前开源阵营里相当激进的工程指标
- Claw Groups 这种"Agent + 人类协作"的产品形态走在不少闭源产品前面
要打的问号也有:
- 视觉推理任务(MathVision、V* 带 python)仍然被 GPT-5.4 压着,视觉理解加推理的组合还有差距
- SWE-Bench Multilingual 上 Claude Opus 4.6 的 77.8 依然高于 K2.6 的 76.7,多语言代码场景没有被完全拿下
- 300 个并行 sub-agent 听起来很科幻,到底在多少真实业务场景下能稳定跑完 4000 步,还得等社区实测给答案
- 12 小时连续执行 对调用方的钱包、网络稳定性和任务编排框架都是实打实的压力。对大多数工程团队来说,先把 30 分钟到 2 小时的中等长度 Agent 跑稳,可能比追求 12 小时极限更有 ROI
一句话总结
从 K2 到 K2.5 再到 K2.6,开源编码模型的迭代节奏比想象中更快。K2.6 把 sub-agent 数量、单次步数、工具调用次数都翻了一倍以上,再加上 DeepSeek 传闻本周也要发新模型,开源阵营在 Agent 编码赛道上的这波密集更新,正在把"闭源才配跑长程任务"的默认假设一点点松开。
开源地址:https://huggingface.co/moonshotai/kimi-k2.6