编程 Agent S：首个超越人类水平的开源GUI Agent框架

2026-05-15 18:39:02 +0800 CST views 338

Agent S：首个超越人类水平的开源 GUI Agent 框架

标签: 开源项目 / GUI Agent / 电脑使用 / AI自动化
来源: GitHub https://github.com/simular-ai/Agent-S

核心亮点

Agent S 是 simular-ai 开源的一个自主 GUI Agent 框架，使命是构建能够像人类一样使用电脑的智能 Agent。Agent S3 是首个在 OSWorld 基准测试中超越人类水平的 GUI Agent，达到 72.60% 的惊人成绩！支持 Linux、Mac、Windows 三大平台，一行安装：pip install gui-agents

里程碑突破：Agent S3 超越人类水平

2025年12月15日，Agent S3 成为首个在 OSWorld 基准测试中超越人类水平的 GUI Agent！

模型	OSWorld 分数	备注
Agent S3 + bBoN	72.60%	超越人类
人类水平	~72%	基准线
Agent S3 (单次)	66%	100步设置
GTA1 w/ GPT-5	63.4%	之前 SOTA

Agent S3 不仅在 OSWorld 上表现出色，还展现了强大的零样本泛化能力：

WindowsAgentArena: 50.2% → 56.6% (3次rollout)
AndroidWorld: 68.1% → 71.6% (3次rollout)

三代演进

Agent S1 (ICLR 2025)

2024年10月发布论文和代码
开创性的 GUI Agent 框架
获得 ICLR 2025 Best Paper Award 🏆

Agent S2 (COLM 2025)

2025年3月发布，新 SOTA
支持 OSWorld、WindowsAgentArena、AndroidWorld
论文入选 COLM 2025

Agent S3 (2025年12月)

首个超越人类水平的 GUI Agent
更简单、更快、更灵活
69.9% 基础成绩，72.6% 带 bBoN

安装使用

快速安装

pip install gui-agents

Mac 用户还需安装 tesseract：

brew install tesseract

环境配置

# .bashrc (Linux) 或 .zshrc (MacOS)
export OPENAI_API_KEY=<YOUR_API_KEY>
export ANTHROPIC_API_KEY=<YOUR_ANTHROPIC_API_KEY>
export HF_TOKEN=<YOUR_HF_TOKEN>

使用方式

命令行启动

agent_s \
  --provider openai \
  --model gpt-5-2025-08-07 \
  --ground_provider huggingface \
  --ground_url http://localhost:8080 \
  --ground_model ui-tars-1.5-7b \
  --grounding_width 1920 \
  --grounding_height 1080

启用本地编码环境

agent_s \
  --provider openai \
  --model gpt-5-2025-08-07 \
  --ground_provider huggingface \
  --ground_url http://localhost:8080 \
  --ground_model ui-tars-1.5-7b \
  --grounding_width 1920 \
  --grounding_height 1080 \
  --enable_local_env

⚠️ 安全警告：本地编码环境会在你的机器上执行任意 Python 和 Bash 代码，仅在可信环境中使用！

核心功能

1. GUI 自动化

自动操作电脑界面
点击、输入、滚动、拖拽
跨应用协作

2. 本地编码环境

Agent S3 可以执行 Python 和 Bash 代码，适合：

数据处理（CSV、Excel、数据库）
文件操作（批量处理、内容提取）
系统自动化（配置、脚本）
代码开发（编写、编辑、执行）

3. 反思 Agent

Worker Agent + Reflection Agent 双架构
自动反思和纠错

4. 多模型支持

OpenAI
Anthropic
Gemini
Open Router
vLLM
Azure OpenAI

性能基准

OSWorld (100步设置)

模型	分数
Agent S3 + bBoN	72.60%
人类	~72%
Agent S3 (单次)	66%
Agent S2	34.5%

WindowsAgentArena

模型	分数
Agent S3 (3次rollout)	56.6%
Agent S3 (单次)	50.2%

AndroidWorld

模型	分数
Agent S3 (3次rollout)	71.6%
Agent S3 (单次)	68.1%

Python API 使用

import pyautogui
import io
from gui_agents.s3.agents.agent_s import AgentS3
from gui_agents.s3.agents.grounding import OSWorldACI
from dotenv import load_dotenv

load_dotenv()

current_platform = "linux"  # 或 "darwin", "windows"

# 主模型配置
engine_params = {
    "engine_type": "openai",
    "model": "gpt-5-2025-08-07",
}

# Grounding 模型配置
engine_params_for_grounding = {
    "engine_type": "huggingface",
    "model": "ui-tars-1.5-7b",
    "base_url": "http://localhost:8080",
    "grounding_width": 1920,
    "grounding_height": 1080,
}

# 创建 Grounding Agent
grounding_agent = OSWorldACI(
    platform=current_platform,
    engine_params_for_generation=engine_params,
    engine_params_for_grounding=engine_params_for_grounding,
    width=1920,
    height=1080
)

# 创建 Agent S3
agent = AgentS3(
    engine_params,
    grounding_agent,
    platform=current_platform,
    max_trajectory_length=8,
    enable_reflection=True
)

# 执行任务
screenshot = pyautogui.screenshot()
buffered = io.BytesIO()
screenshot.save(buffered, format="PNG")
screenshot_bytes = buffered.getvalue()

obs = {"screenshot": screenshot_bytes}
instruction = "Close VS Code"

info, action = agent.predict(instruction=instruction, observation=obs)
exec(action[0])

安全注意事项

单显示器支持：Agent 设计用于单显示器
代码执行风险：Agent 运行 Python 代码控制电脑，需谨慎使用
权限级别：Agent 以用户权限运行
超时保护：Bash 脚本有30秒超时

项目信息

属性	详情
项目名	Agent-S (Agent S)
组织	simular-ai
GitHub	https://github.com/simular-ai/Agent-S
PyPI	gui-agents
支持平台	Linux, Mac, Windows
主模型	OpenAI GPT-5
Grounding	UI-TARS-1.5-7B
许可证	开源

适用场景

桌面自动化：自动操作各类桌面应用
数据处理：批量文件处理、数据分析
系统运维：配置管理、系统监控
测试自动化：GUI 自动化测试
办公自动化：Excel、Word、邮件自动化

写在最后

Agent S3 的 72.60% 成绩标志着 GUI Agent 正式进入「超越人类」时代。

这不仅是技术突破，更是 AI 能力边界的又一次拓展。从只能理解文本，到可以看懂屏幕、操作界面，AI 正在一步步接管那些需要人类手动操作的任务。

开源意味着你可以立刻尝试：pip install gui-agents

让 AI 帮你操作电脑，不再是科幻。

内容整理自 GitHub https://github.com/simular-ai/Agent-S

复制全文生成海报开源项目 GUI Agent 电脑使用 AI自动化