MiniCPM-V 4.6 手机实测：1.3B 参数跑满端侧推理，输入框还没缩回结果就出来了

标签: MiniCPM-V / 面壁智能 / 端侧AI / 手机AI / 多模态
原文: 微信公众号「逛逛GitHub」https://mp.weixin.qq.com/s/sRu7eN9CzjXH2V1nuX-ZXw

核心亮点

面壁智能 MiniCPM-V 4.6 手机实测：输入框还没收起来，结果已经输出完了。1.3B 参数，仅用 Qwen3.5-0.8B 2.5% 的 token 量就超越对方得分，推理版本更是 1/43 的消耗量。LLaVA-UHD v4 架构让视觉编码运算量砍掉 55.8%。

在面壁手机 APP 上直接体验 MiniCPM-V 4.6，完全跑在手机端侧（不经过任何云端 API），使用 INT4 量化版本。

实测感受：输入框还没缩下去，结果就输出完了。

5 段演示视频，分别展示不同场景下的响应速度，最长 20 秒，最短 3 秒。

MiniCPM-V 4.6 提供两个版本：

大部分图文理解任务上，4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是单项强，是综合能力强。

版本	MiniCPM-V 4.6 Token 消耗	Qwen3.5-0.8B Token 消耗	倍数差距
非推理	5.4M	101M	1/19
推理	—	233M	1/43

非推理版只用了 Qwen3.5-0.8B 1/19 的 token，推理版更是 1/43。用 2.5% 的 token 量就超过了对方，效率差距非常夸张。

最离谱的是延迟曲线——分辨率从低到高，延迟几乎是平的。分辨率翻倍，延迟几乎不涨。

传统方案在 ViT 之后做 Token 压缩，只减轻了下游 LLM 的负担，视觉编码器内部计算量一点没少。

LLaVA-UHD v4 的思路：把 Token 压缩前移到 ViT 内部浅层。越早压缩，后面需要处理的 Token 越少，整体计算量越低。

技术难点在于：ViT 浅层已经学到大量视觉表征，直接插入随机初始化的下采样模块会破坏表征。

解决方案：

结果：视觉编码阶段浮点运算量降低 55.8%，性能不掉点。相比传统 ViT 节约了约一半的图像编码开销。

市面上大部分模型只支持 4 倍压缩。面壁从 2024 年就开始做 16 倍压缩，但以前只能二选一。

MiniCPM-V 4.6 把两者都做进去了：要精度用 4 倍，要速度用 16 倍。一个模型，两种模式。

16 倍压缩不是噱头，已被快手验证：

快手 2025 年推出的 OneRec 推荐大模型，用 MiniCPM-V-8B（16 倍压缩）处理视频字幕、标签、ASR、OCR、封面图等多模态表征，承接了快手短视频推荐主场景 25% 的请求。日活几亿的产品，16 倍压缩扛住了。

1.3B 参数意味着 RTX 4090 就能全量跑通微调流程。独立开发者、高校团队不需要租算力集群就能做垂类定制。

生态全打通：

准备好数据，改几行配置，一键拉起训练。

不是越做越大，是越做越密。

面壁 2024 年提出的「密度定律」：不是模型越大越好，是智能密度越高越好。这项研究登上了 Nature 子刊。

截至 2026 年 3 月，MiniCPM-V 系列开源累计下载量近 3000 万次。

属性	详情
模型	MiniCPM-V 4.6
参数量	1.3B
开发方	面壁智能 × 清华大学
HuggingFace	https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub	https://github.com/OpenBMB/MiniCPM-V
ModelScope	https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demo	https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
App Demo	https://github.com/OpenBMB/MiniCPM-V-Apps
论文	https://huggingface.co/papers/2605.08985