编程 Agent S:首个超越人类水平的开源GUI Agent框架

2026-05-15 18:39:02 +0800 CST views 5

Agent S:首个超越人类水平的开源 GUI Agent 框架

标签: 开源项目 / GUI Agent / 电脑使用 / AI自动化
来源: GitHub https://github.com/simular-ai/Agent-S


核心亮点

Agent S 是 simular-ai 开源的一个自主 GUI Agent 框架,使命是构建能够像人类一样使用电脑的智能 Agent。Agent S3 是首个在 OSWorld 基准测试中超越人类水平的 GUI Agent,达到 72.60% 的惊人成绩!支持 Linux、Mac、Windows 三大平台,一行安装:pip install gui-agents


里程碑突破:Agent S3 超越人类水平

2025年12月15日,Agent S3 成为首个在 OSWorld 基准测试中超越人类水平的 GUI Agent!

模型OSWorld 分数备注
Agent S3 + bBoN72.60%超越人类
人类水平~72%基准线
Agent S3 (单次)66%100步设置
GTA1 w/ GPT-563.4%之前 SOTA

Agent S3 不仅在 OSWorld 上表现出色,还展现了强大的零样本泛化能力:

  • WindowsAgentArena: 50.2% → 56.6% (3次rollout)
  • AndroidWorld: 68.1% → 71.6% (3次rollout)

三代演进

Agent S1 (ICLR 2025)

  • 2024年10月发布论文和代码
  • 开创性的 GUI Agent 框架
  • 获得 ICLR 2025 Best Paper Award 🏆

Agent S2 (COLM 2025)

  • 2025年3月发布,新 SOTA
  • 支持 OSWorld、WindowsAgentArena、AndroidWorld
  • 论文入选 COLM 2025

Agent S3 (2025年12月)

  • 首个超越人类水平的 GUI Agent
  • 更简单、更快、更灵活
  • 69.9% 基础成绩,72.6% 带 bBoN

安装使用

快速安装

pip install gui-agents

Mac 用户还需安装 tesseract:

brew install tesseract

环境配置

# .bashrc (Linux) 或 .zshrc (MacOS)
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>

推荐配置

最佳性能组合

  • 主模型:OpenAI gpt-5-2025-08-07
  • Grounding 模型:UI-TARS-1.5-7B

Grounding 模型分辨率设置

  • UI-TARS-1.5-7B:--grounding_width 1920 --grounding_height 1080
  • UI-TARS-72B:--grounding_width 1000 --grounding_height 1000

使用方式

命令行启动

agent_s \
  --provider openai \
  --model gpt-5-2025-08-07 \
  --ground_provider huggingface \
  --ground_url http://localhost:8080 \
  --ground_model ui-tars-1.5-7b \
  --grounding_width 1920 \
  --grounding_height 1080

启用本地编码环境

agent_s \
  --provider openai \
  --model gpt-5-2025-08-07 \
  --ground_provider huggingface \
  --ground_url http://localhost:8080 \
  --ground_model ui-tars-1.5-7b \
  --grounding_width 1920 \
  --grounding_height 1080 \
  --enable_local_env

⚠️ 安全警告:本地编码环境会在你的机器上执行任意 Python 和 Bash 代码,仅在可信环境中使用!


核心功能

1. GUI 自动化

  • 自动操作电脑界面
  • 点击、输入、滚动、拖拽
  • 跨应用协作

2. 本地编码环境

Agent S3 可以执行 Python 和 Bash 代码,适合:

  • 数据处理(CSV、Excel、数据库)
  • 文件操作(批量处理、内容提取)
  • 系统自动化(配置、脚本)
  • 代码开发(编写、编辑、执行)

3. 反思 Agent

  • Worker Agent + Reflection Agent 双架构
  • 自动反思和纠错

4. 多模型支持

  • OpenAI
  • Anthropic
  • Gemini
  • Open Router
  • vLLM
  • Azure OpenAI

性能基准

OSWorld (100步设置)

模型分数
Agent S3 + bBoN72.60%
人类~72%
Agent S3 (单次)66%
Agent S234.5%

WindowsAgentArena

模型分数
Agent S3 (3次rollout)56.6%
Agent S3 (单次)50.2%

AndroidWorld

模型分数
Agent S3 (3次rollout)71.6%
Agent S3 (单次)68.1%

Python API 使用

import pyautogui
import io
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI
from dotenv import load_dotenv

load_dotenv()

current_platform = "linux"  # 或 "darwin", "windows"

# 主模型配置
engine_params = {
    "engine_type": "openai",
    "model": "gpt-5-2025-08-07",
}

# Grounding 模型配置
engine_params_for_grounding = {
    "engine_type": "huggingface",
    "model": "ui-tars-1.5-7b",
    "base_url": "http://localhost:8080",
    "grounding_width": 1920,
    "grounding_height": 1080,
}

# 创建 Grounding Agent
grounding_agent = OSWorldACI(
    platform=current_platform,
    engine_params_for_generation=engine_params,
    engine_params_for_grounding=engine_params_for_grounding,
    width=1920,
    height=1080
)

# 创建 Agent S3
agent = AgentS3(
    engine_params,
    grounding_agent,
    platform=current_platform,
    max_trajectory_length=8,
    enable_reflection=True
)

# 执行任务
screenshot = pyautogui.screenshot()
buffered = io.BytesIO()
screenshot.save(buffered, format="PNG")
screenshot_bytes = buffered.getvalue()

obs = {"screenshot": screenshot_bytes}
instruction = "Close VS Code"

info, action = agent.predict(instruction=instruction, observation=obs)
exec(action[0])

安全注意事项

  1. 单显示器支持:Agent 设计用于单显示器
  2. 代码执行风险:Agent 运行 Python 代码控制电脑,需谨慎使用
  3. 权限级别:Agent 以用户权限运行
  4. 超时保护:Bash 脚本有30秒超时

项目信息

属性详情
项目名Agent-S (Agent S)
组织simular-ai
GitHubhttps://github.com/simular-ai/Agent-S
PyPIgui-agents
支持平台Linux, Mac, Windows
主模型OpenAI GPT-5
GroundingUI-TARS-1.5-7B
许可证开源

相关论文

  1. Agent S3: "The Unreasonable Effectiveness of Scaling Agents for Computer Use" (arXiv:2510.02250)
  2. Agent S2: "Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents" (COLM 2025)
  3. Agent S: "Agent S: An Open Agentic Framework that Uses Computers Like a Human" (ICLR 2025, Best Paper Award)

适用场景

  • 桌面自动化:自动操作各类桌面应用
  • 数据处理:批量文件处理、数据分析
  • 系统运维:配置管理、系统监控
  • 测试自动化:GUI 自动化测试
  • 办公自动化:Excel、Word、邮件自动化

写在最后

Agent S3 的 72.60% 成绩标志着 GUI Agent 正式进入「超越人类」时代。

这不仅是技术突破,更是 AI 能力边界的又一次拓展。从只能理解文本,到可以看懂屏幕、操作界面,AI 正在一步步接管那些需要人类手动操作的任务。

开源意味着你可以立刻尝试:pip install gui-agents

让 AI 帮你操作电脑,不再是科幻。


内容整理自 GitHub https://github.com/simular-ai/Agent-S

复制全文 生成海报 开源项目 GUI Agent 电脑使用 AI自动化

推荐文章

总结出30个代码前端代码规范
2024-11-19 07:59:43 +0800 CST
Vue3如何执行响应式数据绑定?
2024-11-18 12:31:22 +0800 CST
MySQL用命令行复制表的方法
2024-11-17 05:03:46 +0800 CST
程序员茄子在线接单