MiniCPM-V 4.6 手机实测:1.3B 参数跑满端侧推理,输入框还没缩回结果就出来了
标签: MiniCPM-V / 面壁智能 / 端侧AI / 手机AI / 多模态
原文: 微信公众号「逛逛GitHub」https://mp.weixin.qq.com/s/sRu7eN9CzjXH2V1nuX-ZXw
核心亮点
面壁智能 MiniCPM-V 4.6 手机实测:输入框还没收起来,结果已经输出完了。1.3B 参数,仅用 Qwen3.5-0.8B 2.5% 的 token 量就超越对方得分,推理版本更是 1/43 的消耗量。LLaVA-UHD v4 架构让视觉编码运算量砍掉 55.8%。
手机实测:快到离谱
在面壁手机 APP 上直接体验 MiniCPM-V 4.6,完全跑在手机端侧(不经过任何云端 API),使用 INT4 量化版本。
实测感受:输入框还没缩下去,结果就输出完了。
5 段演示视频,分别展示不同场景下的响应速度,最长 20 秒,最短 3 秒。
成绩对比
MiniCPM-V 4.6 提供两个版本:
- Instruct:直接回答,快速响应日常任务
- Thinking:深度推理,复杂问题深度思考
综合能力
大部分图文理解任务上,4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是单项强,是综合能力强。
智能密度
| 版本 | MiniCPM-V 4.6 Token 消耗 | Qwen3.5-0.8B Token 消耗 | 倍数差距 |
|---|---|---|---|
| 非推理 | 5.4M | 101M | 1/19 |
| 推理 | — | 233M | 1/43 |
非推理版只用了 Qwen3.5-0.8B 1/19 的 token,推理版更是 1/43。用 2.5% 的 token 量就超过了对方,效率差距非常夸张。
推理效率
| 指标 | MiniCPM-V 4.6 | 对比 |
|---|---|---|
| vLLM token 吞吐量 | 2624 token/s | Qwen3.5-0.8B 的 1.5 倍 |
| 图片处理(1344²) | 14.3 张/秒 | Qwen3.5-0.8B 的 1.4 倍 |
| TTFT 高清大图(3136²) | 75.7ms | Qwen3.5-0.8B 快 2.2 倍 |
最离谱的是延迟曲线——分辨率从低到高,延迟几乎是平的。分辨率翻倍,延迟几乎不涨。
为什么这么快?
LLaVA-UHD v4:视觉编码效率翻倍
传统方案在 ViT 之后做 Token 压缩,只减轻了下游 LLM 的负担,视觉编码器内部计算量一点没少。
LLaVA-UHD v4 的思路:把 Token 压缩前移到 ViT 内部浅层。越早压缩,后面需要处理的 Token 越少,整体计算量越低。
技术难点在于:ViT 浅层已经学到大量视觉表征,直接插入随机初始化的下采样模块会破坏表征。
解决方案:
- 在 Token 合并前引入窗口注意力(Window Attention),增强邻近 Token 上下文交互
- 复用相邻预训练 ViT 层的参数,减小对视觉表征的扰动
结果:视觉编码阶段浮点运算量降低 55.8%,性能不掉点。相比传统 ViT 节约了约一半的图像编码开销。
4 倍/16 倍混合压缩
市面上大部分模型只支持 4 倍压缩。面壁从 2024 年就开始做 16 倍压缩,但以前只能二选一。
MiniCPM-V 4.6 把两者都做进去了:要精度用 4 倍,要速度用 16 倍。一个模型,两种模式。
16 倍压缩不是噱头,已被快手验证:
快手 2025 年推出的 OneRec 推荐大模型,用 MiniCPM-V-8B(16 倍压缩)处理视频字幕、标签、ASR、OCR、封面图等多模态表征,承接了快手短视频推荐主场景 25% 的请求。日活几亿的产品,16 倍压缩扛住了。
门槛降到了最低
微调
1.3B 参数意味着 RTX 4090 就能全量跑通微调流程。独立开发者、高校团队不需要租算力集群就能做垂类定制。
部署
生态全打通:
- 微调:ms-swift、LLaMA-Factory
- 推理:vLLM、SGLang、llama.cpp、Ollama
准备好数据,改几行配置,一键拉起训练。
MiniCPM-V 进化路线
| 版本 | 参数量 | 时间 |
|---|---|---|
| 2.0 | 2.8B | 2024 年 4 月 |
| 2.5 | 8B | 2024 年 5 月 |
| 2.6 | 8B | 2024 年 8 月 |
| 4.0 | 4.1B | 2025 年 8 月 |
| 4.5 | 8B | 2025 年 8 月 |
| 4.6 | 1.3B | 2026 年 5 月 |
不是越做越大,是越做越密。
面壁 2024 年提出的「密度定律」:不是模型越大越好,是智能密度越高越好。这项研究登上了 Nature 子刊。
截至 2026 年 3 月,MiniCPM-V 系列开源累计下载量近 3000 万次。
项目信息
| 属性 | 详情 |
|---|---|
| 模型 | MiniCPM-V 4.6 |
| 参数量 | 1.3B |
| 开发方 | 面壁智能 × 清华大学 |
| HuggingFace | https://huggingface.co/openbmb/MiniCPM-V-4.6 |
| GitHub | https://github.com/OpenBMB/MiniCPM-V |
| ModelScope | https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6 |
| Web Demo | https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo |
| App Demo | https://github.com/OpenBMB/MiniCPM-V-Apps |
| 论文 | https://huggingface.co/papers/2605.08985 |
本文整理自微信公众号「逛逛GitHub」,原文链接:https://mp.weixin.qq.com/s/sRu7eN9CzjXH2V1nuX-ZXw