案例首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

2026-05-06 07:15:01 +0800 CST views 5

首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

GitHub: https://github.com/simular-ai/Agent-S
Stars: 11,109
发布平台: 程序员茄子（chenxutan.com）
标签: AI Agent, 计算机使用, OSWorld, SOTA, Agent S3, GUI自动化

引言

Agent S3，一个开源的计算机使用智能体框架，刚刚创造了一个历史性时刻：

首次在 OSWorld 基准测试中超越人类表现，达到 72.60%！

这是一个里程碑式的突破。在此之前，即使是 OpenAI 的 Operator、Anthropic 的 Claude Computer-Use 也未能达到这一水平。

Agent S3 由 Simular AI 团队开发，是一个让 AI 能够像人类一样使用计算机的开源框架。

一、项目简介

Agent S 是一个开源框架，旨在通过 Agent-Computer Interface 实现与计算机的自主交互。

核心使命

构建智能 GUI 智能体，能够：

从过去经验中学习
自主执行复杂任务
像人类一样操作计算机

发展历程

版本	时间	成就
Agent S1	2024/10	ICLR 2025 收录
Agent S2	2025/03	COLM 2025 收录，新 SOTA
Agent S2.5	2025/08	更简单、更快、更好
Agent S3	2025/10	首超人类 72.60%

荣誉

🏆 ICLR 2025 Best Paper Award (Agentic AI for Science Workshop)
🏆 首个超越人类 的 OSWorld 表现
📄 三篇顶会论文：ICLR 2025、COLM 2025

二、核心成果

OSWorld 基准测试

模型/系统	分数
人类基准	~72%
Agent S3 + bBoN	72.60% ✨
Agent S3 单独	66%
GTA1 w/ GPT-5	63.4%
OpenAI Operator	<60%
Claude Computer-Use	<60%

Agent S3 单独已达 66%，加上 Behavior Best-of-N 策略后飙升至 72.60%，超越人类！

跨平台泛化能力

基准测试	Agent S3 单独	+ 3次 rollout
OSWorld	66%	72.6%
WindowsAgentArena	50.2%	56.6%
AndroidWorld	68.1%	71.6%

强泛化能力：在 Windows 和 Android 平台也表现出色。

三、技术架构

核心组件

Agent S3
    ├── 主生成模型 (GPT-5 / Claude / Gemini)
    ├── Grounding 模型 (UI-TARS-1.5-7B)
    ├── 反思智能体 (Reflection Agent)
    └── 本地编码环境 (Local Coding Env)

组件	推荐模型
主生成模型	OpenAI gpt-5-2025-08-07
Grounding 模型	UI-TARS-1.5-7B

Grounding 模型

Grounding 模型负责将高层指令转化为具体的 GUI 操作坐标。

模型	分辨率
UI-TARS-1.5-7B	1920 × 1080
UI-TARS-72B	1000 × 1000

四、安装与配置

安装

pip install gui-agents

# macOS 还需要安装 tesseract
brew install tesseract

API 配置

# 添加到 .bashrc 或 .zshrc
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>

支持的模型

提供商	说明
OpenAI	GPT-4o, GPT-5
Anthropic	Claude 3.5/3.7 Sonnet
Azure OpenAI	企业部署
Gemini	Google AI
Open Router	多模型路由
vLLM	本地推理

五、使用方法

CLI 使用

agent_s \
    --provider openai \
    --model gpt-5-2025-08-07 \
    --ground_provider huggingface \
    --ground_url http://localhost:8080 \
    --ground_model ui-tars-1.5-7b \
    --grounding_width 1920 \
    --grounding_height 1080

启用本地编码环境

agent_s \
    --provider openai \
    --model gpt-5-2025-08-07 \
    --ground_provider huggingface \
    --ground_url http://localhost:8080 \
    --ground_model ui-tars-1.5-7b \
    --grounding_width 1920 \
    --grounding_height 1080 \
    --enable_local_env

⚠️ 警告：本地编码环境会执行任意 Python 和 Bash 代码，仅在可信环境使用！

SDK 使用

import pyautogui
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI

# 配置引擎参数
engine_params = {
    "engine_type": "openai",
    "model": "gpt-5-2025-08-07",
}

engine_params_for_grounding = {
    "engine_type": "huggingface",
    "model": "ui-tars-1.5-7b",
    "base_url": "http://localhost:8080",
    "grounding_width": 1920,
    "grounding_height": 1080,
}

# 创建 grounding agent
grounding_agent = OSWorldACI(
    platform="darwin",  # macOS
    engine_params_for_generation=engine_params,
    engine_params_for_grounding=engine_params_for_grounding,
)

# 创建 Agent S3
agent = AgentS3(
    engine_params,
    grounding_agent,
    platform="darwin",
    max_trajectory_length=8,
    enable_reflection=True
)

六、核心参数详解

必需参数

参数	说明
`--provider`	主生成模型提供商
`--model`	主生成模型名称
`--ground_provider`	Grounding 模型提供商
`--ground_url`	Grounding 模型 URL
`--ground_model`	Grounding 模型名称
`--grounding_width`	Grounding 输出宽度
`--grounding_height`	Grounding 输出高度

可选参数

参数	默认值	说明
`--max_trajectory_length`	8	最大图像轮次
`--enable_reflection`	True	启用反思智能体
`--enable_local_env`	False	启用本地编码环境
`--model_temperature`	-	模型温度

七、本地编码环境

功能

能力	说明
数据处理	操作 CSV、数据库
文件操作	批量文件处理
系统自动化	配置修改、系统设置
代码开发	编写、编辑、执行代码
文本处理	文档操作、格式化

安全考虑

执行任意代码，具有用户相同权限
仅在可信环境启用
Bash 脚本有 30 秒超时限制
建议沙箱环境运行

八、与其他系统对比

维度	OpenAI Operator	Claude Computer-Use	Agent S3
开源	❌	❌	✅
OSWorld 分数	<60%	<60%	72.6%
跨平台	有限	有限	✅ Win/Mac/Linux
本地运行	❌	❌	✅
可定制	❌	❌	✅
成本	高	高	可控

九、平台支持

平台	支持
macOS	✅
Windows	✅
Linux	✅

十、Simular Cloud

不想本地部署？可以使用 Simular Cloud：

https://cloud.simular.ai/

云端体验 Agent S，无需本地配置。

十一、论文资源

Agent S3

🌐 S3 Blog
📄 S3 Paper
🎥 S3 Video

Agent S2

Agent S1

十二、总结

Agent S3 代表了计算机使用智能体的新里程碑：

核心成就

成就	说明
首超人类	OSWorld 72.60% > 人类 72%
开源免费	完全开源，可本地部署
跨平台	Mac/Windows/Linux 全支持
强泛化	WindowsAgentArena、AndroidWorld 表现优异
学术认可	ICLR 2025 Best Paper

适用场景

GUI 自动化测试
跨应用工作流自动化
桌面任务执行
数据处理与文件操作
系统配置与管理

本文首发于「程序员茄子」博客，原文链接：https://chenxutan.com

案例首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

引言

一、项目简介

核心使命

发展历程

荣誉

二、核心成果

OSWorld 基准测试

跨平台泛化能力

三、技术架构

核心组件

推荐配置

Grounding 模型

四、安装与配置

安装

API 配置

支持的模型

五、使用方法

CLI 使用

启用本地编码环境

SDK 使用

六、核心参数详解

必需参数

可选参数

七、本地编码环境

功能

安全考虑

八、与其他系统对比

九、平台支持

十、Simular Cloud

十一、论文资源

Agent S3

Agent S2

Agent S1

十二、总结

核心成就

适用场景

推荐文章

案例 首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体

引言

一、项目简介

核心使命

发展历程

荣誉

二、核心成果

OSWorld 基准测试

跨平台泛化能力

三、技术架构

核心组件

推荐配置

Grounding 模型

四、安装与配置

安装

API 配置

支持的模型

五、使用方法

CLI 使用

启用本地编码环境

SDK 使用

六、核心参数详解

必需参数

可选参数

七、本地编码环境

功能

安全考虑

八、与其他系统对比

九、平台支持

十、Simular Cloud

十一、论文资源

Agent S3

Agent S2

Agent S1

十二、总结

核心成就

适用场景

推荐文章

案例首超人类！Agent S3：OSWorld基准测试72.60%的计算机使用智能体