MiniCPM-V 4.6:参数砍到 1.3B,多模态小钢炮拿下同级第一
标签: MiniCPM-V / 面壁智能 / 多模态 / 端侧AI / 密度定律
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA
核心亮点
面壁智能发布 MiniCPM-V 4.6,参数量仅 1.3B,却在 1B 级别多模态评测中拿下第一。仅用 Qwen3.5-0.8B 2.5% 的 token 量,就超过了对方得分。手机断网即跑,秒级响应。
为什么要做小?
8B 模型跑在服务器上没问题,但到了手机、车机、智能家居这些终端设备上,就有点跑不动了。参数越大,推理越慢,功耗越高,能适配的芯片越少。
打个比方:8B 像大巴车,宽敞但只能走大路;1B 像电动自行车,大街小巷随便钻。
做到 1B 级别,基本上市面所有手机和电脑都能高效运行。面壁智能此前更大的端侧模型,已经在联想、吉利、上汽大众等 B 端客户产品中落地。
小但能打
MiniCPM-V 4.6 在多模态综合评测中超过 Qwen3.5-0.8B 和 Gemma4-E2B-it,在 1B 级别所有模型中拿到最好成绩。
提供 Instruct 和 Thinking 两个版本:
- Instruct:快速响应日常任务
- Thinking:遇到复杂推理时深度思考
效率碾压
在 Artificial Analysis 评测中,MiniCPM-V 4.6 仅用了 Qwen3.5-0.8B 2.5% 的 token 量,就超过了对方得分。
别人用一整本书讲完的事,它一页纸就说清楚了。
这个"智能密度"在同尺寸模型中排到最高,再次验证了面壁智能 2024 年提出并登上 Nature 子刊的「密度定律」。
超快推理
手机端侧实测
在面壁手机 APP 上下载模型后断网体验(MiniCPM-V 4.6 INT4 量化版):
文档识别:上传英文论文截图,约 5 秒完成识别——表格结构、数学公式、正文段落全部正确。表格输出 HTML,公式输出 LaTeX。
菜单问答:拍英文餐厅菜单,问"帮我把饮料翻译成中文"——秒回。追问"最便宜的主菜是哪个"——同样秒回:Cheese Sandwich, $2。
多轮对话、图片理解、中英翻译、价格比较,全在手机端侧完成,不需要联网。
服务端性能
| 指标 | MiniCPM-V 4.6 | Qwen3.5-0.8B | 对比 |
|---|---|---|---|
| vLLM 单卡吞吐量 | 2624 token/s | — | 1.5 倍 |
| 图片处理速度(1344²) | 14.3 张/秒 | — | 1.5 倍 |
| TTFT 高分辨率(3136²) | 75.7ms | 168.6ms | 快 2.2 倍 |
图片越大,MiniCPM-V 4.6 的优势越明显。16 倍视觉 token 压缩让序列更短、KV-Cache 更小,高分辨率下的计算膨胀被压住了。
两个架构创新
1. LLaVA-UHD v4:视觉 token 压缩前移
常规做法:ViT 编码完之后,再接压缩模块减少 token。但 ViT 内部计算量一点没省。
LLaVA-UHD v4 的核心思路:把视觉 token 压缩前移到 ViT 内部的浅层。
关键技术:
- 复用相邻预训练 ViT 层的参数来初始化压缩模块
- 在 token 合并前引入窗口注意力(Window Attention),补偿上下文信息
效果:视觉编码阶段浮点运算量降低 55.8%,性能没掉。
2. 自适应压缩率:4 倍与 16 倍兼得
市面上大部分多模态模型用 4 倍压缩率。面壁从 2024 年就支持 16 倍压缩,但以前 4 倍和 16 倍只能二选一。
MiniCPM-V 4.6 实现兼得:需要高精度走 4 倍,需要极速推理切 16 倍。端侧和云端需求,一个模型覆盖。
开箱即用、天生爆改
微调
1.3B 参数量的直接好处:一张 RTX 4090 就能跑完全量微调。独立开发者、高校团队、初创公司验证一个多模态 idea 的成本大幅降低。
官方原生支持 ms-swift 和 LLaMA-Factory,准备好数据改几行配置就能跑。
部署
全家桶适配:vLLM、SGLang、llama.cpp、Ollama。
- 云端:vLLM 跑高并发
- 端侧:llama.cpp 或 Ollama 跑离线
还有端侧部署指南,手机、平板、开发板都能轻松接入。
密度定律
MiniCPM-V 系列从 2024 年 4 月至今已迭代六个版本:
| 版本 | 参数量 | 定位 |
|---|---|---|
| 初代 | 2.8B | 起步 |
| 3.0 | 8B | 越级超 GPT-4V |
| 后续 | 4B | 性能反升 |
| 4.6 | 1.3B | 系列最小,同级最强 |
两年下来,开源累计下载量近 3000 万次,相关成果登上 Nature 子刊。
越做越小,越做越强。参数越小,能跑的设备越多;能跑的设备越多,AI 能触达的场景就越广。
项目信息
| 属性 | 详情 |
|---|---|
| 模型 | MiniCPM-V 4.6 |
| 参数量 | 1.3B |
| 版本 | Instruct + Thinking |
| 开发方 | 面壁智能 × 清华大学 |
| HuggingFace | https://huggingface.co/openbmb/MiniCPM-V-4.6 |
| GitHub | https://github.com/OpenBMB/MiniCPM-V |
| ModelScope | https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6 |
| Web Demo | https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo |
| App Demo | https://github.com/OpenBMB/MiniCPM-V-Apps |
本文整理自微信公众号「AGI Hunt」,原文链接:https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA