Cua:15.9K Stars!给 AI 一台隔离云桌面,让它真正"会用电脑"
标签: Cua / AI Agent / Computer Use / 云桌面 / 沙盒 / Y Combinator / Claude Code / 跨平台
原文: 综合整理自 GitHub + CSDN + 趋势数据
核心亮点
当 AI 模型具备了"看屏幕、点鼠标、敲键盘"的能力之后,谁来提供一个安全、高效、可复现的操作环境?
- 15.9K GitHub Stars,三周暴涨 2000+,增长势头惊人
- Y Combinator 孵化,MIT 协议开源,被 50,000+ 工程师信赖
- 不是普通 Agent 框架:给 AI 一个隔离云桌面,让它真的去开浏览器、点按钮、跑应用
- 跨平台统一 API:一套代码适配 macOS / Linux / Windows / Android
- cua-driver 黑科技:AI 后台静默操控真实 Mac,不抢光标、不抢焦点
- 完整评测体系:支持 OSWorld、ScreenSpot、Windows Arena 等主流 Benchmark
- cuabot 一行启动:让 Claude Code、Codex 在沙盒中跑起来
一、问题:AI 想操控电脑,障碍重重
过去两年,"Computer Use" 已成为 AI 领域最热的方向之一。
Anthropic 的 Claude 3.5、OpenAI 的 Codex、Google 的 Gemini,各家大模型纷纷宣布具备"操控桌面"的能力。但当开发者真正想把这个能力落地时,却撞上了一堵墙:
❌ 安全风险:把 AI Agent 直接放到真实机器上跑,一旦"幻觉",可能删文件、泄数据、搞崩系统
❌ 环境混乱:AI 点鼠标要抢光标,开应用要劫持焦点,根本没法同时工作
❌ 重复造轮子:每个团队都在自己搭沙盒、写截图接口、对接模型 API,效率极低
❌ 评测困难:Agent 好不好?快不快?准不准?没有统一 Benchmark,无从比较
一句话总结:缺一套专门为 AI Agent 设计的、安全隔离的"电脑基础设施"。
二、Cua 是什么?
Cua(发音 "coo-ah",GitHub: trycua/cua)是一个开源的 Computer-Use Agent 基础设施平台,提供沙盒环境、SDK 工具包和评测基准,让 AI Agent 能够安全、高效地控制完整的桌面系统。
核心架构:三层体系
┌─────────────────────────────────────────────┐
│ 你的 AI Agent(逻辑层) │
│ Claude / GPT / Gemini / Ollama / 自定义 │
└────────────────────┬────────────────────────┘
│ 统一 API
┌────────────────────▼────────────────────────┐
│ Computer SDK(接口层) │
│ 截图 · 点击 · 键盘 · Shell · 文件 I/O │
└────────────────────┬────────────────────────┘
│
┌────────────────────▼────────────────────────┐
│ Sandbox(隔离层) │
│ macOS VM · Linux Docker · Windows · Android │
└─────────────────────────────────────────────┘
三、六大核心组件
3.1 Sandbox(沙盒)—— 隔离环境
提供多种隔离环境,支持云端和本地:
| 运行环境 | Linux 容器 | Linux VM | macOS | Windows | Android | 自定义镜像 |
|---|---|---|---|---|---|---|
| 云端 (cua.ai) | ✅ | ✅ | ✅ | ✅ | ✅ | 🔜 soon |
| 本地 (QEMU) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
- 云沙盒:热启动 < 1 秒,一键创建
- 本地 QEMU:支持 BYOI(.qcow2、.iso 自定义镜像)
- Apple Silicon 近原生性能:macOS VM 达到 97% 原生 CPU 速度
3.2 Computer SDK —— 统一 API
一套统一 API,无论底层是哪种沙盒,用法完全一致:
from cua import Sandbox, Image
async with Sandbox.ephemeral(Image.linux()) as sb: # 或 .macos() .windows() .android()
# 执行 Shell 命令
result = await sb.shell.run("echo hello")
# 截图
screenshot = await sb.screenshot()
# 鼠标点击
await sb.mouse.click(100, 200)
# 键盘输入
await sb.keyboard.type("Hello from Cua!")
# 多点触控手势(移动端)
await sb.mobile.gesture((100, 500), (100, 200))
支持全部操作:截图、鼠标点击、键盘输入、Shell 命令、多点触控手势。
3.3 cua-driver —— 后台静默操控真实 Mac(黑科技)
这是 2026 年 4 月最新推出的杀手级组件。
传统 CGEventPost 方案点击按钮会移动光标、抢走焦点,而 cua-driver 基于 macOS 私有 API(SkyLight 的 SLEventPostToPid)实现了后台 Computer Use:
AI Agent 在后台点按钮、填表单、操作任何 Mac 应用,而你的光标纹丝不动、焦点不变、Spaces 不跳转。
甚至支持 非 AX 表面:Chromium 网页内容、Blender、Figma、DAW(数字音频工作站)、游戏引擎等 Canvas 工具。
# 一键安装
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
3.4 cuabot —— 一行命令启动沙盒 Agent
让任何编程 Agent 获得开箱即用的沙盒桌面环境,支持 H.265 视频、剪贴板共享和音频:
npx cuabot # 安装设置
cuabot claude # Claude Code 在沙盒中运行
cuabot openclaw # OpenClaw 在沙盒中运行
cuabot codex # Codex 在沙盒中运行
cuabot chromium # 在沙盒中打开 Chromium
# 直接操控沙盒
cuabot --screenshot # 截图
cuabot --type "hello" # 输入文字
cuabot --click 100 200 # 点击坐标
3.5 Lume —— macOS 虚拟化
在 Apple Silicon 上创建和管理 macOS/Linux VM,近原生性能:
# 一键安装
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"
# 拉取并启动 macOS Sequoia 虚拟机
lume run macos-sequoia-vanilla:latest
3.6 Cua-Bench —— 评测基准与 RL 环境
支持 OSWorld、ScreenSpot、Windows Arena 等主流 Benchmark,可并行运行数百个 Agent 轨迹:
cd cua-bench
uv tool install -e . && cb image create linux-docker
# 运行 Benchmark(最多 4 个并行 Agent)
cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4
支持导出训练数据,为强化学习提供完整的数据飞轮。
四、快速上手:5 分钟跑通第一个 Agent
安装
# Python SDK(需要 Python 3.11+)
pip install cua
# 或使用 cuabot(推荐快速体验)
npx cuabot
接入 AI 模型
from cua import Agent, Computer
computer = Computer() # 连接到沙盒
agent = Agent(computer=computer, model="claude-sonnet-4-5")
# 让 Agent 自主完成任务
await agent.run("打开 Safari 浏览器,搜索今天的天气预报并截图保存")
支持所有主流模型:Claude、GPT、Gemini、Ollama、LM Studio 等。还可通过 MCP Server 集成到 Claude Desktop、Cursor 等工具中。
五、核心亮点对比
| 特性 | 说明 |
|---|---|
| 🔒 安全隔离 | Agent 在独立 VM/容器内运行,主机文件、数据完全不受影响 |
| ⚡ 近原生性能 | Apple Silicon 上 macOS VM 达到 97% 原生 CPU 速度 |
| 🌐 跨平台统一 API | 同一套代码,适配 macOS / Linux / Windows / Android |
| 🤖 多模型支持 | Claude、GPT、Gemini、Ollama 等,一个 API 全覆盖 |
| 🧪 完整评测体系 | OSWorld、ScreenSpot 等 Benchmark,支持并行评测 |
| 🔌 MCP 集成 | 可直接作为工具接入 Claude Desktop、Cursor 等 |
| 🖥️ 后台操控 | cua-driver 实现不抢光标的静默 macOS 自动化 |
| ☁️ 云 + 本地 | 云沙盒热启动 < 1 秒;本地 Lume 零延迟 |
| 🎬 轨迹录制 | 每次会话自动录制为可回放的操作轨迹 |
六、典型应用场景
🤖 AI 编程助手
让 Claude Code、Codex 在沙盒内编写并运行代码,自动调试,不污染本地环境。
🖥️ 桌面自动化
自动化处理 CAD 软件、Excel、Photoshop、Figma 等图形界面工具,AI 像真人一样操作。
🧪 跨平台 UI 测试
在多个 OS 沙盒中并行运行 UI 测试,快速发现跨平台兼容问题。
📊 数据采集与训练
记录 Agent 轨迹,构建高质量人机交互训练数据集,喂给强化学习模型。
🔍 安全研究
在完全隔离的环境中分析可疑程序或网页,不担心感染主机。
📱 移动端自动化
支持 Android 沙盒,可用多点触控手势操控移动应用。
七、项目生态与资源
| 组件 | 说明 |
|---|---|
| cuabot | 多 Agent 计算机使用沙盒 CLI |
| cua-agent | AI Agent 框架,用于计算机使用任务 |
| cua-sandbox | 创建和控制沙盒的 SDK |
| cua-computer-server | 沙盒内 UI 交互和代码执行驱动 |
| cua-bench | 计算机使用评测和 RL 环境 |
| lume | Apple Silicon 上 macOS/Linux VM 管理 |
| lumier | Lume VM 的 Docker 兼容接口 |
GitHub:https://github.com/trycua/cua
官网:https://cua.ai
Discord:社区支持与讨论
协议:MIT License
写在最后
Cua 填补了 AI 时代一个关键的基础设施空白。
它的价值不在于又发明了一个新的 AI 模型,而在于搭建了一套让所有模型都能安全落地"操控电脑"的工程基础设施——沙盒即服务、统一 API、评测基准、训练数据管道,一应俱全。
三周暴涨 2000+ Stars 的增长曲线说明了一切:开发者们正在等待这样一套工具。
对于开发者来说:
- 想快速体验?→
npx cuabot,一行搞定 - 想深度集成?→ Python SDK,灵活可控
- 想在本地跑高性能 macOS?→ Lume 一键安装
- 想让 Agent 悄悄后台干活?→ cua-driver 黑科技
毕竟,15.9K Stars、Y Combinator 背书、MIT 协议——试试也不亏。
本文综合整理自 GitHub README、CSDN 深度解析文章及趋势数据,项目持续迭代中,建议关注官方 GitHub 和 Discord 社区获取最新动态。