编程 Google把操作电脑塞进Gemini 3.5 Flash了

2026-06-25 20:56:55 +0800 CST views 6

Google 把"操作电脑"塞进 Gemini 3.5 Flash 了

标签: Gemini 3.5 Flash / Google / AI Agent / 计算机操作 / 自动化测试 / 浏览器自动化 / 多模态
原文: 微信公众号（待确认具体公众号）
作者: （待确认）

一句话定位

Google 正式将"计算机操作"能力原生集成进 Gemini 3.5 Flash——模型现在可以"看"屏幕截图、理解当前界面，并给出下一步操作建议（点击按钮、输入文字、滚动页面、完成表单、检查网页流程）。这不是一个简单的功能更新，而是 AI Agent 从"聊天"走向"真正干活"的关键一步。

这次更新为什么重要？

很多真实任务没有干净的 API 接口，只存在于网页后台、移动端界面、桌面软件和各种管理系统里。

传统自动化方案（Selenium、Playwright、Puppeteer）依赖固定的选择器（CSS selector、XPath），一旦页面结构变了、按钮文案改了、流程多一步，脚本就可能挂掉。很稳定，但也很短命。

Gemini 3.5 Flash 的计算机操作能力走的是另一条路：

让模型直接看界面，然后决定下一步怎么操作。

不依赖固定的选择器，不要求页面结构稳定，而是像人一样"看"界面、理解上下文、做出判断。

核心能力

1. 通过截图理解当前界面状态

Gemini 3.5 Flash 可以接收屏幕截图作为输入，理解当前界面的状态：

识别按钮、输入框、链接等 UI 元素
理解当前页面的功能和上下文
判断当前处于流程的哪一步

2. 返回点击、输入、滚动、键盘等操作

基于对界面的理解，模型会返回下一步应该执行的操作：

点击：点击某个按钮或链接
输入：在输入框中输入文字
滚动：向上或向下滚动页面
键盘操作：按下某个键或组合键

3. 可选择扫描截图里的隐藏对抗指令

安全特性：可以选择扫描截图中的隐藏对抗指令（adversarial instructions），防止 prompt injection 攻击。

4. 不是直接控制你的电脑

重要区别：Gemini 3.5 Flash 本身不直接控制你的电脑。

模型负责：看截图、理解目标、给出下一步动作
客户端环境负责：真正执行动作（点击、输入、截图循环）

比如浏览器场景里，可以用 Playwright 或 Puppeteer 执行它返回的点击、输入和截图循环。

技术架构

截图 → Gemini 3.5 Flash（理解界面、给出动作） → 客户端执行动作 → 截图 → 循环

关键特点：

多模态输入：接收图像（截图）和文本（目标描述）作为输入
结构化输出：返回结构化的动作指令（JSON 格式），方便客户端解析和执行
循环执行：通过"截图 → 理解 → 执行 → 截图"的循环，完成复杂的多步骤任务

使用场景

Google 官方博客和文档提到了以下场景：

1. 自动化测试（最被看好的场景）

传统测试的问题：

依赖固定的选择器，页面结构一变就挂
维护成本高，脆而不稳
无法处理动态内容和复杂交互

Gemini 3.5 Flash 的优势：

像用户一样"看"界面，不依赖固定选择器
能处理动态内容和复杂交互
可以跨浏览器、跨设备执行测试

适合的任务：

检查页面流程、明显错误、可访问性问题
像用户一样走注册、登录、提交表单等流程
在测试环境里填写重复表单
用沙箱账号检查流程是否能走通

不会替代传统测试，但可以补一种新方式。

2. 网站重复数据录入

自动在多个网站之间同步数据，比如：

在多个平台发布同一篇文章
将客户信息录入多个系统
自动填写重复性表单

3. 应用和用户流程测试

端到端测试（E2E testing）
用户流程验证
跨多个网站做研究（比如价格对比）

4. 企业自动化任务

Google 官方博客提到，这项能力可以用于：

持续软件测试（Continuous Testing）
跨专业应用的知识工作（比如从多个系统收集数据、生成报告）

如何使用

方式一：通过 Google AI Studio 或 Gemini API

（具体 API 文档和代码示例待补充——需要访问 Google 官方文档）

方式二：结合 Playwright/Puppeteer 构建自动化流程

// 伪代码示例
async function automateWithGemini(url, goal) {
  const browser = await playwright.chromium.launch();
  const page = await browser.newPage();
  await page.goto(url);
  
  let step = 0;
  const maxSteps = 20;
  
  while (step < maxSteps) {
    // 1. 截图
    const screenshot = await page.screenshot({ type: 'png' });
    
    // 2. 调用 Gemini 3.5 Flash API
    const response = await geminiAPI({
      model: 'gemini-3.5-flash',
      contents: [
        { text: `目标：${goal}\n当前步骤：${step}\n请返回下一步操作` },
        { image: screenshot }
      ]
    });
    
    // 3. 解析返回的动作
    const action = JSON.parse(response.text);
    
    // 4. 执行动作
    if (action.type === 'click') {
      await page.click(action.selector);
    } else if (action.type === 'type') {
      await page.fill(action.selector, action.text);
    } else if (action.type === 'scroll') {
      await page.evaluate(y => window.scrollTo(0, y), action.y);
    } else if (action.type === 'done') {
      break;
    }
    
    // 5. 等待页面稳定
    await page.waitForTimeout(1000);
    step++;
  }
  
  await browser.close();
}

（注意：以上是概念性伪代码，实际 API 调用方式需要参考 Google 官方文档）

与其他 AI 模型的对比

模型	计算机操作能力	特点
Gemini 3.5 Flash	✅ 原生集成	多模态、快速、成本较低
OpenAI Operator	✅ 独立产品	专门设计用于计算机操作
Claude (Anthropic)	✅ 通过 API 支持	需要配合工具调用（function calling）
GPT-4V	⚠️ 可以理解截图，但需要额外编排	不直接提供计算机操作 API

Gemini 3.5 Flash 的优势：

原生集成：不需要额外的编排，直接调用 API 即可
快速且成本低：Flash 系列主打速度和成本效益
多模态能力强：Gemini 天生支持图像理解

安全考虑

1. 对抗指令扫描

可以选择扫描截图中的隐藏对抗指令，防止恶意网页通过视觉方式注入 prompt。

2. 沙箱执行

建议在沙箱环境中执行自动化任务，避免对生产系统造成影响。

3. 人工审核

对于关键操作（比如删除数据、转账），建议加入人工审核环节。

局限性

不是直接控制电脑：需要客户端环境（浏览器、移动端、桌面应用）来执行动作
速度和成本：每次循环都需要调用 API，速度和成本需要权衡
准确性：模型的理解可能不是 100% 准确，特别是在复杂界面上
依赖截图质量：截图的分辨率、清晰度会影响模型的理解

第一批适合尝试的场景

作者建议，第一批适合尝试的不是生产系统，而是这些低风险任务：

检查页面流程、明显错误、可访问性问题
像用户一样走注册、登录、提交表单等流程
在测试环境里填写重复表单
用沙箱账号检查流程是否能走通

官方资源

Google AI Blog: （待补充具体链接）
Gemini API 文档: https://ai.google.dev/docs
GitHub 示例: （待补充）

总结

🤖 原生集成计算机操作能力：Gemini 3.5 Flash 现在可以"看"屏幕、"理解"界面、"操作"电脑
🔄 不依赖固定选择器：像人一样理解界面，而不是依赖脆弱的 CSS selector
🧪 最被看好的是自动化测试：可以补充传统测试，而不是替代
🔒 安全特性：可扫描对抗指令，建议在沙箱中执行
🌐 多场景适用：自动化测试、数据录入、流程验证、跨网站研究
⚡ Flash 系列优势：快速、成本低，适合大规模自动化任务

这次更新的典型意义：AI Agent 从"聊天"走向"真正干活"——不再只是回答问题，而是能直接操作界面、完成任务。