MiniCPM-V 4.6：参数砍到 1.3B，多模态小钢炮拿下同级第一

标签: MiniCPM-V / 面壁智能 / 多模态 / 端侧AI / 密度定律
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA

核心亮点

面壁智能发布 MiniCPM-V 4.6，参数量仅 1.3B，却在 1B 级别多模态评测中拿下第一。仅用 Qwen3.5-0.8B 2.5% 的 token 量，就超过了对方得分。手机断网即跑，秒级响应。

为什么要做小？

8B 模型跑在服务器上没问题，但到了手机、车机、智能家居这些终端设备上，就有点跑不动了。参数越大，推理越慢，功耗越高，能适配的芯片越少。

打个比方：8B 像大巴车，宽敞但只能走大路；1B 像电动自行车，大街小巷随便钻。

做到 1B 级别，基本上市面所有手机和电脑都能高效运行。面壁智能此前更大的端侧模型，已经在联想、吉利、上汽大众等 B 端客户产品中落地。

小但能打

MiniCPM-V 4.6 在多模态综合评测中超过 Qwen3.5-0.8B 和 Gemma4-E2B-it，在 1B 级别所有模型中拿到最好成绩。

提供 Instruct 和 Thinking 两个版本：

Instruct：快速响应日常任务
Thinking：遇到复杂推理时深度思考

效率碾压

在 Artificial Analysis 评测中，MiniCPM-V 4.6 仅用了 Qwen3.5-0.8B 2.5% 的 token 量，就超过了对方得分。

别人用一整本书讲完的事，它一页纸就说清楚了。

这个"智能密度"在同尺寸模型中排到最高，再次验证了面壁智能 2024 年提出并登上 Nature 子刊的「密度定律」。

超快推理

手机端侧实测

在面壁手机 APP 上下载模型后断网体验（MiniCPM-V 4.6 INT4 量化版）：

文档识别：上传英文论文截图，约 5 秒完成识别——表格结构、数学公式、正文段落全部正确。表格输出 HTML，公式输出 LaTeX。

菜单问答：拍英文餐厅菜单，问"帮我把饮料翻译成中文"——秒回。追问"最便宜的主菜是哪个"——同样秒回：Cheese Sandwich, $2。

多轮对话、图片理解、中英翻译、价格比较，全在手机端侧完成，不需要联网。

服务端性能

指标	MiniCPM-V 4.6	Qwen3.5-0.8B	对比
vLLM 单卡吞吐量	2624 token/s	—	1.5 倍
图片处理速度（1344²）	14.3 张/秒	—	1.5 倍
TTFT 高分辨率（3136²）	75.7ms	168.6ms	快 2.2 倍

图片越大，MiniCPM-V 4.6 的优势越明显。16 倍视觉 token 压缩让序列更短、KV-Cache 更小，高分辨率下的计算膨胀被压住了。

两个架构创新

1. LLaVA-UHD v4：视觉 token 压缩前移

常规做法：ViT 编码完之后，再接压缩模块减少 token。但 ViT 内部计算量一点没省。

LLaVA-UHD v4 的核心思路：把视觉 token 压缩前移到 ViT 内部的浅层。

关键技术：

复用相邻预训练 ViT 层的参数来初始化压缩模块
在 token 合并前引入窗口注意力（Window Attention），补偿上下文信息

效果：视觉编码阶段浮点运算量降低 55.8%，性能没掉。

2. 自适应压缩率：4 倍与 16 倍兼得

市面上大部分多模态模型用 4 倍压缩率。面壁从 2024 年就支持 16 倍压缩，但以前 4 倍和 16 倍只能二选一。

MiniCPM-V 4.6 实现兼得：需要高精度走 4 倍，需要极速推理切 16 倍。端侧和云端需求，一个模型覆盖。

开箱即用、天生爆改

微调

1.3B 参数量的直接好处：一张 RTX 4090 就能跑完全量微调。独立开发者、高校团队、初创公司验证一个多模态 idea 的成本大幅降低。

官方原生支持 ms-swift 和 LLaMA-Factory，准备好数据改几行配置就能跑。

部署

全家桶适配：vLLM、SGLang、llama.cpp、Ollama。

云端：vLLM 跑高并发
端侧：llama.cpp 或 Ollama 跑离线

还有端侧部署指南，手机、平板、开发板都能轻松接入。

密度定律

MiniCPM-V 系列从 2024 年 4 月至今已迭代六个版本：

版本	参数量	定位
初代	2.8B	起步
3.0	8B	越级超 GPT-4V
后续	4B	性能反升
4.6	1.3B	系列最小，同级最强

两年下来，开源累计下载量近 3000 万次，相关成果登上 Nature 子刊。

越做越小，越做越强。参数越小，能跑的设备越多；能跑的设备越多，AI 能触达的场景就越广。

项目信息

属性	详情
模型	MiniCPM-V 4.6
参数量	1.3B
版本	Instruct + Thinking
开发方	面壁智能 × 清华大学
HuggingFace	https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub	https://github.com/OpenBMB/MiniCPM-V
ModelScope	https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demo	https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
App Demo	https://github.com/OpenBMB/MiniCPM-V-Apps