案例 首超人类!Agent S3:OSWorld基准测试72.60%的计算机使用智能体

2026-05-06 07:15:01 +0800 CST views 5

首超人类!Agent S3:OSWorld基准测试72.60%的计算机使用智能体

GitHub: https://github.com/simular-ai/Agent-S
Stars: 11,109
发布平台: 程序员茄子(chenxutan.com)
标签: AI Agent, 计算机使用, OSWorld, SOTA, Agent S3, GUI自动化


引言

Agent S3,一个开源的计算机使用智能体框架,刚刚创造了一个历史性时刻:

首次在 OSWorld 基准测试中超越人类表现,达到 72.60%!

这是一个里程碑式的突破。在此之前,即使是 OpenAI 的 Operator、Anthropic 的 Claude Computer-Use 也未能达到这一水平。

Agent S3 由 Simular AI 团队开发,是一个让 AI 能够像人类一样使用计算机的开源框架。


一、项目简介

Agent S 是一个开源框架,旨在通过 Agent-Computer Interface 实现与计算机的自主交互。

核心使命

构建智能 GUI 智能体,能够:

  • 从过去经验中学习
  • 自主执行复杂任务
  • 像人类一样操作计算机

发展历程

版本时间成就
Agent S12024/10ICLR 2025 收录
Agent S22025/03COLM 2025 收录,新 SOTA
Agent S2.52025/08更简单、更快、更好
Agent S32025/10首超人类 72.60%

荣誉

  • 🏆 ICLR 2025 Best Paper Award (Agentic AI for Science Workshop)
  • 🏆 首个超越人类 的 OSWorld 表现
  • 📄 三篇顶会论文:ICLR 2025、COLM 2025

二、核心成果

OSWorld 基准测试

模型/系统分数
人类基准~72%
Agent S3 + bBoN72.60%
Agent S3 单独66%
GTA1 w/ GPT-563.4%
OpenAI Operator<60%
Claude Computer-Use<60%

Agent S3 单独已达 66%,加上 Behavior Best-of-N 策略后飙升至 72.60%,超越人类!

跨平台泛化能力

基准测试Agent S3 单独+ 3次 rollout
OSWorld66%72.6%
WindowsAgentArena50.2%56.6%
AndroidWorld68.1%71.6%

强泛化能力:在 Windows 和 Android 平台也表现出色。


三、技术架构

核心组件

Agent S3
    ├── 主生成模型 (GPT-5 / Claude / Gemini)
    ├── Grounding 模型 (UI-TARS-1.5-7B)
    ├── 反思智能体 (Reflection Agent)
    └── 本地编码环境 (Local Coding Env)

推荐配置

组件推荐模型
主生成模型OpenAI gpt-5-2025-08-07
Grounding 模型UI-TARS-1.5-7B

Grounding 模型

Grounding 模型负责将高层指令转化为具体的 GUI 操作坐标。

模型分辨率
UI-TARS-1.5-7B1920 × 1080
UI-TARS-72B1000 × 1000

四、安装与配置

安装

pip install gui-agents

# macOS 还需要安装 tesseract
brew install tesseract

API 配置

# 添加到 .bashrc 或 .zshrc
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>

支持的模型

提供商说明
OpenAIGPT-4o, GPT-5
AnthropicClaude 3.5/3.7 Sonnet
Azure OpenAI企业部署
GeminiGoogle AI
Open Router多模型路由
vLLM本地推理

五、使用方法

CLI 使用

agent_s \
    --provider openai \
    --model gpt-5-2025-08-07 \
    --ground_provider huggingface \
    --ground_url http://localhost:8080 \
    --ground_model ui-tars-1.5-7b \
    --grounding_width 1920 \
    --grounding_height 1080

启用本地编码环境

agent_s \
    --provider openai \
    --model gpt-5-2025-08-07 \
    --ground_provider huggingface \
    --ground_url http://localhost:8080 \
    --ground_model ui-tars-1.5-7b \
    --grounding_width 1920 \
    --grounding_height 1080 \
    --enable_local_env

⚠️ 警告:本地编码环境会执行任意 Python 和 Bash 代码,仅在可信环境使用!

SDK 使用

import pyautogui
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI

# 配置引擎参数
engine_params = {
    "engine_type": "openai",
    "model": "gpt-5-2025-08-07",
}

engine_params_for_grounding = {
    "engine_type": "huggingface",
    "model": "ui-tars-1.5-7b",
    "base_url": "http://localhost:8080",
    "grounding_width": 1920,
    "grounding_height": 1080,
}

# 创建 grounding agent
grounding_agent = OSWorldACI(
    platform="darwin",  # macOS
    engine_params_for_generation=engine_params,
    engine_params_for_grounding=engine_params_for_grounding,
)

# 创建 Agent S3
agent = AgentS3(
    engine_params,
    grounding_agent,
    platform="darwin",
    max_trajectory_length=8,
    enable_reflection=True
)

六、核心参数详解

必需参数

参数说明
--provider主生成模型提供商
--model主生成模型名称
--ground_providerGrounding 模型提供商
--ground_urlGrounding 模型 URL
--ground_modelGrounding 模型名称
--grounding_widthGrounding 输出宽度
--grounding_heightGrounding 输出高度

可选参数

参数默认值说明
--max_trajectory_length8最大图像轮次
--enable_reflectionTrue启用反思智能体
--enable_local_envFalse启用本地编码环境
--model_temperature-模型温度

七、本地编码环境

功能

能力说明
数据处理操作 CSV、数据库
文件操作批量文件处理
系统自动化配置修改、系统设置
代码开发编写、编辑、执行代码
文本处理文档操作、格式化

安全考虑

  • 执行任意代码,具有用户相同权限
  • 仅在可信环境启用
  • Bash 脚本有 30 秒超时限制
  • 建议沙箱环境运行

八、与其他系统对比

维度OpenAI OperatorClaude Computer-UseAgent S3
开源
OSWorld 分数<60%<60%72.6%
跨平台有限有限✅ Win/Mac/Linux
本地运行
可定制
成本可控

九、平台支持

平台支持
macOS
Windows
Linux

十、Simular Cloud

不想本地部署?可以使用 Simular Cloud

https://cloud.simular.ai/

云端体验 Agent S,无需本地配置。


十一、论文资源

Agent S3

Agent S2

Agent S1


十二、总结

Agent S3 代表了计算机使用智能体的新里程碑

核心成就

成就说明
首超人类OSWorld 72.60% > 人类 72%
开源免费完全开源,可本地部署
跨平台Mac/Windows/Linux 全支持
强泛化WindowsAgentArena、AndroidWorld 表现优异
学术认可ICLR 2025 Best Paper

适用场景

  • GUI 自动化测试
  • 跨应用工作流自动化
  • 桌面任务执行
  • 数据处理与文件操作
  • 系统配置与管理

本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com

推荐文章

Vue 中如何处理父子组件通信?
2024-11-17 04:35:13 +0800 CST
如何开发易支付插件功能
2024-11-19 08:36:25 +0800 CST
Vue3中如何处理跨域请求?
2024-11-19 08:43:14 +0800 CST
Go 单元测试
2024-11-18 19:21:56 +0800 CST
底部导航栏
2024-11-19 01:12:32 +0800 CST
程序员茄子在线接单