资讯 腾讯混元 Hy3 preview 开源:295B 参数、推理提效 40%,姚顺雨首秀交卷

2026-04-23 21:18:45 +0800 CST views 12

2026年4月23日,腾讯正式发布并开源新一代大模型——混元 Hy3 preview。这是混元体系重建后的首个旗舰版本,也是姚顺雨掌舵混元后首次对外亮相的模型成果。

开源地址:https://github.com/Tencent-Hunyuan/Hy3-preview

一句话定位

总参数 295B、激活参数 21B 的 MoE 大模型,支持 256K 超长上下文,推理效率提升 40%,API 最低 1.2 元/百万 tokens——姚顺雨交出的这份答卷,瞄准的是"高性价比旗舰"这张牌。

核心能力表现

复杂推理:接近 GPT-5.4 级别

Hy3 preview 在多个权威推理基准上表现亮眼:

基准得分对比
FrontierScience-Olympiad70.0超过 GLM-5、Kimi-K2.5,接近 GPT-5.4
IMO Answer Bench84.3超过 GLM-5、Kimi-K2.5
清华求真书院数学博士资格考试88.4国内最高,显著高于 GLM-5、Kimi-K2.5
CHSBO 2025 生物竞赛87.8领先多数开源模型,接近 GPT-5.4

清华求真书院数学博士资格考试 88.4 分是目前国内模型的最高纪录,这个成绩足以让 Hy3 preview 在数学推理领域站稳第一梯队。

代码与 Agent:最明显的提升方向

代码和 Agent 能力是本次升级幅度最大的板块:

基准得分位置
Hy-Backend(后端工程任务)54.7超过 GLM-5 和 Kimi-K2.5
SWE-Bench Verified74.4%逼近 GLM-5、Kimi-K2.5
Terminal-Bench 2.054.4%进入第一梯队
BrowseComp67.1%接近 GLM-5 与 Kimi-K2.5
WideSearch70.2%超过 GLM-5

在 Agent 综合评测中,Hy3 preview 以约 56 分的综合得分显著高于上一代 Hy2(约 35 分),已进入当前主流 Agent 模型的竞争区,与 GLM-5、Kimi-K2.5 所在区间接近。

实测:逻辑推理稳过"陷阱题"

评测中让模型回答了两个经典的"陷阱题":

"我要去洗车,洗车的地方离家就 100 米,我是开车去呢,还是走着去呢?"
"父亲和母亲可以结婚吗?"

Hy3 preview 成功绕过了文字陷阱,准确理解了两个问题的真实意图。对洗车问题,模型还幽默地补充了"代驾取车"的例外情况,展现了不错的常识推理能力。

在代码生成实测中,SVG 绘制 Xbox 360 控制器、3D 精灵球 HTML 交互页面等任务表现中规中矩,存在空间坐标和前端渲染精度上的不足。模型在代码框架构建和基本意图理解上展现潜力,但在复杂交互渲染方面仍有提升空间。

财务分析能力则相对亮眼:将腾讯 2023-2025 三年财报输入模型后,能准确提取核心财务数据、呈现同比趋势、生成收入结构对比图——对于需要快速处理结构化数据的办公场景,这是一个很实用的能力。

技术架构

Hy3 preview 采用快慢思考融合的混合专家(MoE)架构,总参数 295B,激活参数 21B。相比单纯堆参数,这条路更像是在"聪明的效率"和"可接受的推理成本"之间找平衡。

支持最长 256K 上下文,在长文本、复杂 Agent 任务中依然保持成本可控。

推理效率与定价

本次升级的核心卖点之一:推理效率提升 40%,价格进一步下探。

上下文范围输入价格命中缓存输出价格
0-16K1.2 元/百万 tokens0.4 元4 元
16K-256K2 元/百万 tokens8 元

腾讯云还推出了 Token 套餐,Lite 版月费 28 元含约 3500 万 tokens,折合单 Token 成本更低。对于需要持续运行的 Agent 应用,这种梯度套餐设计非常友好。

落地情况

Hy3 preview 已率先接入腾讯多条核心产品线:

  • 腾讯云
  • 元宝
  • ima(知识库)
  • CodeBuddy
  • WorkBuddy
  • QQ

同时支持接入主流开源智能体产品,包括 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。

大模型神仙打架,Hy3 能否杀出重围?

就在 Hy3 preview 发布前后短短几天,国内外大模型赛道密集动作:

  • Anthropic 发布 Claude Opus 4.7
  • 阿里 发布 Qwen3.6-Max-Preview
  • 月之暗面 发布并开源 Kimi K2.6
  • 小米 MiMo 大模型家族一次性官宣 4 款新模型
  • DeepSeek V4 有望本周内发布

姚顺雨给 Hy3 的定位是"全面实用性"——模型的价值不在榜单,而在复杂场景中的可用性。这个思路在 Hy2 到 Hy3 的进化路径上体现得很清晰:从堆参数到打磨推理、代码、Agent 等真实场景下的能力。

从目前已在腾讯内部多条业务线"跑起来"的实际情况来看,Hy3 preview 正在用实际反馈反向推动模型迭代。这或许是腾讯在这一轮大模型竞争中,重新找到节奏的一个信号。

开源地址:https://github.com/Tencent-Hunyuan/Hy3-preview


相关标签:腾讯混元、姚顺雨、Hy3、MoE大模型、开源模型、大模型评测

复制全文 生成海报

推荐文章

设置mysql支持emoji表情
2024-11-17 04:59:45 +0800 CST
Rust 并发执行异步操作
2024-11-18 13:32:18 +0800 CST
HTML5的 input:file上传类型控制
2024-11-19 07:29:28 +0800 CST
robots.txt 的写法及用法
2024-11-19 01:44:21 +0800 CST
HTML + CSS 实现微信钱包界面
2024-11-18 14:59:25 +0800 CST
7种Go语言生成唯一ID的实用方法
2024-11-19 05:22:50 +0800 CST
WebSocket在消息推送中的应用代码
2024-11-18 21:46:05 +0800 CST
Vue3 vue-office 插件实现 Word 预览
2024-11-19 02:19:34 +0800 CST
使用Python实现邮件自动化
2024-11-18 20:18:14 +0800 CST
如何在 Vue 3 中使用 Vuex 4?
2024-11-17 04:57:52 +0800 CST
CSS Grid 和 Flexbox 的主要区别
2024-11-18 23:09:50 +0800 CST
12 个精选 MCP 网站推荐
2025-06-10 13:26:28 +0800 CST
程序员茄子在线接单