Mano-P + Cider:4B模型本地操控Mac,端侧GUI Agent新时代
Mano-P: https://github.com/Mininglamp-AI/Mano-P
Cider: https://github.com/Mininglamp-AI/cider
开发团队: 明略科技(Mininglamp-AI)
发布平台: 程序员茄子(chenxutan.com)
标签: GUI Agent, 端侧AI, Apple Silicon, MLX, 视觉理解, 本地运行
引言
你的 Mac 就是一个 AI Agent。
纯视觉理解桌面上的任何软件界面,像人一样去操作,而且全程跑在你自己电脑上,数据不上云。
Mano-P + Cider,把端侧 AI 从"能跑"推到了"跑得快、跑得好"。
一、项目概览
两个开源项目
| 项目 | 说明 |
|---|---|
| Mano-P | GUI-VLA 模型,纯视觉理解和操作图形界面 |
| Cider | 推理加速框架,给 Apple Silicon MLX 模型加速 |
核心理念
不依赖 CDP 协议,不解析 HTML,直接看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。
二、Mano-P:本地 GUI Agent
什么是 GUI-VLA
GUI-VLA(Graphical User Interface - Vision Language Action Model)
用纯视觉的方式理解和操作图形界面。
| 传统方案 | Mano-P |
|---|---|
| 需要 CDP 协议 | ❌ 不需要 |
| 需要解析 HTML | ❌ 不需要 |
| 需要 DOM 定位 | ❌ 不需要 |
| 直接看屏幕截图 | ✅ 就是这样 |
支持的场景
- 桌面软件 ✅
- 专业工具 ✅
- 浏览器 ✅
- 3D 应用 ✅
- 任何图形界面 ✅
不限于浏览器场景,桌面软件、专业工具、3D 应用都能操控。
三、训练数据
数据规模
| 指标 | 数值 |
|---|---|
| GUI 轨迹数据 | 6 万条 |
| 动作数量 | 300 万+ |
| 覆盖场景 | 主流桌面和 Web 操作 |
数据类型
- 桌面软件操作
- Web 浏览器交互
- 专业工具使用
- 3D 应用操控
四、性能数据
硬件表现
| 指标 | 数值 |
|---|---|
| 模型规模 | 4B 量化 |
| 测试设备 | Apple M4 Pro |
| 预填充速度 | 476 tokens/s |
| 解码速度 | 76 tokens/s |
| 峰值内存 | 4.3GB |
准确性对比
| 方案 | OSWorld 准确率 | 数据处理 |
|---|---|---|
| Claude Computer Use | 72.1% | 云端 |
| Mano-P | 58.2% | 本地 |
结论:Claude 云端准确率更高,但 Mano-P 完全本地运行,数据不出设备。
五、核心优势
1. 完全本地运行
所有截图和任务数据不出设备。
- 不上传到任何云端
- 隐私安全有保障
- 离线也能工作
2. 离线长任务自主规划
复杂业务流程可以完全不联网就完成自主决策和纠错。
3. 与云端大模型相当的准确率
一个 4B 的小模型,在 CUA 任务上实现了和云端大模型相当的准确率。
4. 低资源占用
| 资源 | 占用 |
|---|---|
| 模型大小 | 4B |
| 峰值内存 | 4.3GB |
六、安装配置
快速安装
# 添加 Homebrew 源
brew tap HanningWang/tap
# 安装 Mano-CUA
brew install mano-cua
基本使用
# 运行命令
mano-cua run "打开微信告诉xxx会议延期"
Skill 方式接入
也支持以 Skill 的方式接入现有系统。
七、Cider 推理加速框架
为什么需要 Cider
Apple MLX 原生框架缺失:
- W8A8 量化计算能力
- W4A8 量化计算能力
MLX 目前支持:
- W4A16
- W8A16
但缺少激活量化。
Cider 的解决方案
调用 Apple 底层 Metal 4 API,首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。
八、Cider 性能数据
算子速度提升
| 模式 | 相比 MLX 原生 |
|---|---|
| W8A8 | 1.4x - 1.9x |
具体速度提升取决于 batch size。
预填充加速实测
| 模型 | FP16 原生 | Cider W8A8 | 提升 |
|---|---|---|---|
| Qwen3-8B | 1695 tokens/s | 2531 tokens/s | 1.5x |
| Llama3-8B | 1727 tokens/s | 2520 tokens/s | 1.46x |
视觉语言模型加速
对于 Qwen3-VL-2B:
| 场景 | 加速比例 |
|---|---|
| chunked prefill 端到端预填充 | 57% - 61% |
九、Cider 接入方式
一行代码接入
from cider import convert_model, is_available
# 加载模型
model, proc = load("path/to/model")
# 智能加速
if is_available():
convert_model(model)
# CiderLinear 自动判断:
# seq_len > 1 - W8A8 INT8 TensorOps(加速预填充)
# seq_len == 1 - INT8 MV kernel(原生解码速度)
else:
pass # 在非 Apple Silicon 上回退标准 MLX 推理
智能判断逻辑
| 场景 | 计算方式 | 优化目标 |
|---|---|---|
| seq_len > 1 | W8A8 INT8 TensorOps | 加速预填充 |
| seq_len == 1 | INT8 MV kernel | 保证解码速度 |
不需要手动切换,自动选择最优计算方式。
十、Cider 适用模型
Cider 不只是给 Mano-P 用的。
| 模型家族 | 支持情况 |
|---|---|
| Qwen | ✅ 通用 |
| Llama | ✅ 通用 |
| Mistral | ✅ 通用 |
| 任何 MLX 模型 | ✅ 通用 |
只要你的模型跑在 MLX 上,都能用 Cider 加速。
十一、Mano-P 能干什么
场景1:全自动化应用构建流程
用自然语言描述需求,系统自动完成:
需求描述
↓
需求澄清
↓
架构设计
↓
代码生成
↓
本地部署
↓
多层级测试
├── API 接口测试
├── LLM 页面视觉检测
└── VLA 模型端到端 GUI 测试
↓
自动定位问题
↓
修复代码
↓
重新部署
↓
循环迭代直到全部通过
整个流程不需要人工干预。
场景2:商业视频智能系统
下发指令
↓
自动完成
├── 视频生成
├── 上传
├── 分析
├── 剪辑
└── 二次评测
↓
自动操作网页和剪辑软件
↓
处理文件、修改字幕
↓
生成报告
├── 主观评价
└── 客观指标
核心特点
这些场景的核心特点是一样的:大量截图和界面操作数据,全部在本地处理,不上传到任何云端。
十二、成本分析
GUI 测试 token 消耗
全自动编程流水线里,GUI 测试消耗的云端 token 占比超过 59%。
为什么这么高
- API 测试只能验证接口是否正常
- 软件是否真的可用,得有人打开界面操作一遍才知道
- 这个过程天然依赖多模态理解
- 模型要持续处理截图、定位元素、执行操作、判断结果
- 推理消耗非常大
Mano-P 的价值
把这部分开销直接归零:
- ❌ 不调 API
- ❌ 不传截图
- ❌ 不花一分钱
十三、对比 Claude Computer Use
| 维度 | Claude Computer Use | Mano-P |
|---|---|---|
| OSWorld 准确率 | 72.1% | 58.2% |
| 数据处理 | 云端 | 本地 |
| 隐私安全 | ⚠️ 数据上传 | ✅ 完全本地 |
| 网络要求 | 需要联网 | 离线可用 |
| 成本 | API 费用 | 免费 |
适用场景建议
| 场景 | 推荐方案 |
|---|---|
| 对隐私和安全有要求 | ✅ Mano-P |
| 企业内部系统测试 | ✅ Mano-P |
| 处理敏感数据的自动化流程 | ✅ Mano-P |
| 追求最高准确率 | Claude |
| 不介意数据上传 | Claude |
十四、技术架构
Mano-P 架构
用户自然语言指令
↓
VLA 模型(4B 量化)
↓
视觉理解 → 界面元素定位
↓
动作规划 → 点击/输入/滑动
↓
执行反馈 → 截图 → 结果验证
Cider 加速架构
MLX 模型
↓
检测 seq_len
↓
├── seq_len > 1 → W8A8 INT8 TensorOps(Metal 4)
└── seq_len == 1 → INT8 MV kernel
↓
Apple GPU 硬件加速
十五、后续计划
团队还会继续开源:
mano-p 模型的训练方法,帮助开发者利用自己的数据训练定制化 GUI Agent 模型。
这意味着:
- 你可以用自己的数据训练
- 定制化 GUI Agent
- 针对特定场景优化
十六、团队背景
明略科技(Mininglamp-AI) 正在建设端侧 AI、私有化 AI 的基础设施能力:
| 产品 | 定位 |
|---|---|
| Mano-P | 端侧 GUI Agent |
| Cider | 端侧推理加速 |
从 Agent 到加速框架,端到端打通。
十七、适用人群
| 人群 | 适用度 |
|---|---|
| Mac 用户 | ⭐⭐⭐⭐⭐ 完美 |
| 需要本地 AI 隐私 | ⭐⭐⭐⭐⭐ 完美 |
| 企业内部自动化 | ⭐⭐⭐⭐⭐ 完美 |
| 开发者定制 Agent | ⭐⭐⭐⭐⭐ 完美 |
| Apple Silicon 用户 | ⭐⭐⭐⭐⭐ 完美 |
十八、总结
核心价值
| 价值 | 说明 |
|---|---|
| 本地运行 | 数据不出设备 |
| 4B 小模型 | 476 tokens/s 预填充 |
| Cider 加速 | 1.5x 性能提升 |
| 离线可用 | 长任务自主规划 |
| 低成本 | 不调 API,不花一分钱 |
关键洞察
Mano-P 证明了端侧 GUI Agent 的应用价值,Cider 则解决了端侧 AI 落地最底层的问题:如何让模型在 Mac 上更快、更省内存、更接近真实可用。
本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com