2026年4月23日,腾讯正式发布并开源新一代大模型——混元 Hy3 preview。这是混元体系重建后的首个旗舰版本,也是姚顺雨掌舵混元后首次对外亮相的模型成果。
开源地址:https://github.com/Tencent-Hunyuan/Hy3-preview
一句话定位
总参数 295B、激活参数 21B 的 MoE 大模型,支持 256K 超长上下文,推理效率提升 40%,API 最低 1.2 元/百万 tokens——姚顺雨交出的这份答卷,瞄准的是"高性价比旗舰"这张牌。
核心能力表现
复杂推理:接近 GPT-5.4 级别
Hy3 preview 在多个权威推理基准上表现亮眼:
| 基准 | 得分 | 对比 |
|---|---|---|
| FrontierScience-Olympiad | 70.0 | 超过 GLM-5、Kimi-K2.5,接近 GPT-5.4 |
| IMO Answer Bench | 84.3 | 超过 GLM-5、Kimi-K2.5 |
| 清华求真书院数学博士资格考试 | 88.4 | 国内最高,显著高于 GLM-5、Kimi-K2.5 |
| CHSBO 2025 生物竞赛 | 87.8 | 领先多数开源模型,接近 GPT-5.4 |
清华求真书院数学博士资格考试 88.4 分是目前国内模型的最高纪录,这个成绩足以让 Hy3 preview 在数学推理领域站稳第一梯队。
代码与 Agent:最明显的提升方向
代码和 Agent 能力是本次升级幅度最大的板块:
| 基准 | 得分 | 位置 |
|---|---|---|
| Hy-Backend(后端工程任务) | 54.7 | 超过 GLM-5 和 Kimi-K2.5 |
| SWE-Bench Verified | 74.4% | 逼近 GLM-5、Kimi-K2.5 |
| Terminal-Bench 2.0 | 54.4% | 进入第一梯队 |
| BrowseComp | 67.1% | 接近 GLM-5 与 Kimi-K2.5 |
| WideSearch | 70.2% | 超过 GLM-5 |
在 Agent 综合评测中,Hy3 preview 以约 56 分的综合得分显著高于上一代 Hy2(约 35 分),已进入当前主流 Agent 模型的竞争区,与 GLM-5、Kimi-K2.5 所在区间接近。
实测:逻辑推理稳过"陷阱题"
评测中让模型回答了两个经典的"陷阱题":
"我要去洗车,洗车的地方离家就 100 米,我是开车去呢,还是走着去呢?"
"父亲和母亲可以结婚吗?"
Hy3 preview 成功绕过了文字陷阱,准确理解了两个问题的真实意图。对洗车问题,模型还幽默地补充了"代驾取车"的例外情况,展现了不错的常识推理能力。
在代码生成实测中,SVG 绘制 Xbox 360 控制器、3D 精灵球 HTML 交互页面等任务表现中规中矩,存在空间坐标和前端渲染精度上的不足。模型在代码框架构建和基本意图理解上展现潜力,但在复杂交互渲染方面仍有提升空间。
财务分析能力则相对亮眼:将腾讯 2023-2025 三年财报输入模型后,能准确提取核心财务数据、呈现同比趋势、生成收入结构对比图——对于需要快速处理结构化数据的办公场景,这是一个很实用的能力。
技术架构
Hy3 preview 采用快慢思考融合的混合专家(MoE)架构,总参数 295B,激活参数 21B。相比单纯堆参数,这条路更像是在"聪明的效率"和"可接受的推理成本"之间找平衡。
支持最长 256K 上下文,在长文本、复杂 Agent 任务中依然保持成本可控。
推理效率与定价
本次升级的核心卖点之一:推理效率提升 40%,价格进一步下探。
| 上下文范围 | 输入价格 | 命中缓存 | 输出价格 |
|---|---|---|---|
| 0-16K | 1.2 元/百万 tokens | 0.4 元 | 4 元 |
| 16K-256K | 2 元/百万 tokens | — | 8 元 |
腾讯云还推出了 Token 套餐,Lite 版月费 28 元含约 3500 万 tokens,折合单 Token 成本更低。对于需要持续运行的 Agent 应用,这种梯度套餐设计非常友好。
落地情况
Hy3 preview 已率先接入腾讯多条核心产品线:
- 腾讯云
- 元宝
- ima(知识库)
- CodeBuddy
- WorkBuddy
同时支持接入主流开源智能体产品,包括 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。
大模型神仙打架,Hy3 能否杀出重围?
就在 Hy3 preview 发布前后短短几天,国内外大模型赛道密集动作:
- Anthropic 发布 Claude Opus 4.7
- 阿里 发布 Qwen3.6-Max-Preview
- 月之暗面 发布并开源 Kimi K2.6
- 小米 MiMo 大模型家族一次性官宣 4 款新模型
- DeepSeek V4 有望本周内发布
姚顺雨给 Hy3 的定位是"全面实用性"——模型的价值不在榜单,而在复杂场景中的可用性。这个思路在 Hy2 到 Hy3 的进化路径上体现得很清晰:从堆参数到打磨推理、代码、Agent 等真实场景下的能力。
从目前已在腾讯内部多条业务线"跑起来"的实际情况来看,Hy3 preview 正在用实际反馈反向推动模型迭代。这或许是腾讯在这一轮大模型竞争中,重新找到节奏的一个信号。
开源地址:https://github.com/Tencent-Hunyuan/Hy3-preview
相关标签:腾讯混元、姚顺雨、Hy3、MoE大模型、开源模型、大模型评测