首超人类!Agent S3:OSWorld基准测试72.60%的计算机使用智能体
GitHub: https://github.com/simular-ai/Agent-S
Stars: 11,109
发布平台: 程序员茄子(chenxutan.com)
标签: AI Agent, 计算机使用, OSWorld, SOTA, Agent S3, GUI自动化
引言
Agent S3,一个开源的计算机使用智能体框架,刚刚创造了一个历史性时刻:
首次在 OSWorld 基准测试中超越人类表现,达到 72.60%!
这是一个里程碑式的突破。在此之前,即使是 OpenAI 的 Operator、Anthropic 的 Claude Computer-Use 也未能达到这一水平。
Agent S3 由 Simular AI 团队开发,是一个让 AI 能够像人类一样使用计算机的开源框架。
一、项目简介
Agent S 是一个开源框架,旨在通过 Agent-Computer Interface 实现与计算机的自主交互。
核心使命
构建智能 GUI 智能体,能够:
- 从过去经验中学习
- 自主执行复杂任务
- 像人类一样操作计算机
发展历程
| 版本 | 时间 | 成就 |
|---|---|---|
| Agent S1 | 2024/10 | ICLR 2025 收录 |
| Agent S2 | 2025/03 | COLM 2025 收录,新 SOTA |
| Agent S2.5 | 2025/08 | 更简单、更快、更好 |
| Agent S3 | 2025/10 | 首超人类 72.60% |
荣誉
- 🏆 ICLR 2025 Best Paper Award (Agentic AI for Science Workshop)
- 🏆 首个超越人类 的 OSWorld 表现
- 📄 三篇顶会论文:ICLR 2025、COLM 2025
二、核心成果
OSWorld 基准测试
| 模型/系统 | 分数 |
|---|---|
| 人类基准 | ~72% |
| Agent S3 + bBoN | 72.60% ✨ |
| Agent S3 单独 | 66% |
| GTA1 w/ GPT-5 | 63.4% |
| OpenAI Operator | <60% |
| Claude Computer-Use | <60% |
Agent S3 单独已达 66%,加上 Behavior Best-of-N 策略后飙升至 72.60%,超越人类!
跨平台泛化能力
| 基准测试 | Agent S3 单独 | + 3次 rollout |
|---|---|---|
| OSWorld | 66% | 72.6% |
| WindowsAgentArena | 50.2% | 56.6% |
| AndroidWorld | 68.1% | 71.6% |
强泛化能力:在 Windows 和 Android 平台也表现出色。
三、技术架构
核心组件
Agent S3
├── 主生成模型 (GPT-5 / Claude / Gemini)
├── Grounding 模型 (UI-TARS-1.5-7B)
├── 反思智能体 (Reflection Agent)
└── 本地编码环境 (Local Coding Env)
推荐配置
| 组件 | 推荐模型 |
|---|---|
| 主生成模型 | OpenAI gpt-5-2025-08-07 |
| Grounding 模型 | UI-TARS-1.5-7B |
Grounding 模型
Grounding 模型负责将高层指令转化为具体的 GUI 操作坐标。
| 模型 | 分辨率 |
|---|---|
| UI-TARS-1.5-7B | 1920 × 1080 |
| UI-TARS-72B | 1000 × 1000 |
四、安装与配置
安装
pip install gui-agents
# macOS 还需要安装 tesseract
brew install tesseract
API 配置
# 添加到 .bashrc 或 .zshrc
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>
支持的模型
| 提供商 | 说明 |
|---|---|
| OpenAI | GPT-4o, GPT-5 |
| Anthropic | Claude 3.5/3.7 Sonnet |
| Azure OpenAI | 企业部署 |
| Gemini | Google AI |
| Open Router | 多模型路由 |
| vLLM | 本地推理 |
五、使用方法
CLI 使用
agent_s \
--provider openai \
--model gpt-5-2025-08-07 \
--ground_provider huggingface \
--ground_url http://localhost:8080 \
--ground_model ui-tars-1.5-7b \
--grounding_width 1920 \
--grounding_height 1080
启用本地编码环境
agent_s \
--provider openai \
--model gpt-5-2025-08-07 \
--ground_provider huggingface \
--ground_url http://localhost:8080 \
--ground_model ui-tars-1.5-7b \
--grounding_width 1920 \
--grounding_height 1080 \
--enable_local_env
⚠️ 警告:本地编码环境会执行任意 Python 和 Bash 代码,仅在可信环境使用!
SDK 使用
import pyautogui
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI
# 配置引擎参数
engine_params = {
"engine_type": "openai",
"model": "gpt-5-2025-08-07",
}
engine_params_for_grounding = {
"engine_type": "huggingface",
"model": "ui-tars-1.5-7b",
"base_url": "http://localhost:8080",
"grounding_width": 1920,
"grounding_height": 1080,
}
# 创建 grounding agent
grounding_agent = OSWorldACI(
platform="darwin", # macOS
engine_params_for_generation=engine_params,
engine_params_for_grounding=engine_params_for_grounding,
)
# 创建 Agent S3
agent = AgentS3(
engine_params,
grounding_agent,
platform="darwin",
max_trajectory_length=8,
enable_reflection=True
)
六、核心参数详解
必需参数
| 参数 | 说明 |
|---|---|
--provider | 主生成模型提供商 |
--model | 主生成模型名称 |
--ground_provider | Grounding 模型提供商 |
--ground_url | Grounding 模型 URL |
--ground_model | Grounding 模型名称 |
--grounding_width | Grounding 输出宽度 |
--grounding_height | Grounding 输出高度 |
可选参数
| 参数 | 默认值 | 说明 |
|---|---|---|
--max_trajectory_length | 8 | 最大图像轮次 |
--enable_reflection | True | 启用反思智能体 |
--enable_local_env | False | 启用本地编码环境 |
--model_temperature | - | 模型温度 |
七、本地编码环境
功能
| 能力 | 说明 |
|---|---|
| 数据处理 | 操作 CSV、数据库 |
| 文件操作 | 批量文件处理 |
| 系统自动化 | 配置修改、系统设置 |
| 代码开发 | 编写、编辑、执行代码 |
| 文本处理 | 文档操作、格式化 |
安全考虑
- 执行任意代码,具有用户相同权限
- 仅在可信环境启用
- Bash 脚本有 30 秒超时限制
- 建议沙箱环境运行
八、与其他系统对比
| 维度 | OpenAI Operator | Claude Computer-Use | Agent S3 |
|---|---|---|---|
| 开源 | ❌ | ❌ | ✅ |
| OSWorld 分数 | <60% | <60% | 72.6% |
| 跨平台 | 有限 | 有限 | ✅ Win/Mac/Linux |
| 本地运行 | ❌ | ❌ | ✅ |
| 可定制 | ❌ | ❌ | ✅ |
| 成本 | 高 | 高 | 可控 |
九、平台支持
| 平台 | 支持 |
|---|---|
| macOS | ✅ |
| Windows | ✅ |
| Linux | ✅ |
十、Simular Cloud
不想本地部署?可以使用 Simular Cloud:
云端体验 Agent S,无需本地配置。
十一、论文资源
Agent S3
Agent S2
Agent S1
十二、总结
Agent S3 代表了计算机使用智能体的新里程碑:
核心成就
| 成就 | 说明 |
|---|---|
| 首超人类 | OSWorld 72.60% > 人类 72% |
| 开源免费 | 完全开源,可本地部署 |
| 跨平台 | Mac/Windows/Linux 全支持 |
| 强泛化 | WindowsAgentArena、AndroidWorld 表现优异 |
| 学术认可 | ICLR 2025 Best Paper |
适用场景
- GUI 自动化测试
- 跨应用工作流自动化
- 桌面任务执行
- 数据处理与文件操作
- 系统配置与管理
本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com