编程 Google把操作电脑塞进Gemini 3.5 Flash了

2026-06-25 20:56:55 +0800 CST views 6

Google 把"操作电脑"塞进 Gemini 3.5 Flash 了

标签: Gemini 3.5 Flash / Google / AI Agent / 计算机操作 / 自动化测试 / 浏览器自动化 / 多模态
原文: 微信公众号(待确认具体公众号)
作者: (待确认)


一句话定位

Google 正式将"计算机操作"能力原生集成进 Gemini 3.5 Flash——模型现在可以"看"屏幕截图、理解当前界面,并给出下一步操作建议(点击按钮、输入文字、滚动页面、完成表单、检查网页流程)。这不是一个简单的功能更新,而是 AI Agent 从"聊天"走向"真正干活"的关键一步。


这次更新为什么重要?

很多真实任务没有干净的 API 接口,只存在于网页后台、移动端界面、桌面软件和各种管理系统里。

传统自动化方案(Selenium、Playwright、Puppeteer)依赖固定的选择器(CSS selector、XPath),一旦页面结构变了、按钮文案改了、流程多一步,脚本就可能挂掉。很稳定,但也很短命

Gemini 3.5 Flash 的计算机操作能力走的是另一条路:

让模型直接看界面,然后决定下一步怎么操作。

不依赖固定的选择器,不要求页面结构稳定,而是像人一样"看"界面、理解上下文、做出判断。


核心能力

1. 通过截图理解当前界面状态

Gemini 3.5 Flash 可以接收屏幕截图作为输入,理解当前界面的状态:

  • 识别按钮、输入框、链接等 UI 元素
  • 理解当前页面的功能和上下文
  • 判断当前处于流程的哪一步

2. 返回点击、输入、滚动、键盘等操作

基于对界面的理解,模型会返回下一步应该执行的操作:

  • 点击:点击某个按钮或链接
  • 输入:在输入框中输入文字
  • 滚动:向上或向下滚动页面
  • 键盘操作:按下某个键或组合键

3. 可选择扫描截图里的隐藏对抗指令

安全特性:可以选择扫描截图中的隐藏对抗指令(adversarial instructions),防止 prompt injection 攻击。

4. 不是直接控制你的电脑

重要区别:Gemini 3.5 Flash 本身不直接控制你的电脑。

  • 模型负责:看截图、理解目标、给出下一步动作
  • 客户端环境负责:真正执行动作(点击、输入、截图循环)

比如浏览器场景里,可以用 Playwright 或 Puppeteer 执行它返回的点击、输入和截图循环。


技术架构

截图 → Gemini 3.5 Flash(理解界面、给出动作) → 客户端执行动作 → 截图 → 循环

关键特点

  • 多模态输入:接收图像(截图)和文本(目标描述)作为输入
  • 结构化输出:返回结构化的动作指令(JSON 格式),方便客户端解析和执行
  • 循环执行:通过"截图 → 理解 → 执行 → 截图"的循环,完成复杂的多步骤任务

使用场景

Google 官方博客和文档提到了以下场景:

1. 自动化测试(最被看好的场景)

传统测试的问题

  • 依赖固定的选择器,页面结构一变就挂
  • 维护成本高,脆而不稳
  • 无法处理动态内容和复杂交互

Gemini 3.5 Flash 的优势

  • 像用户一样"看"界面,不依赖固定选择器
  • 能处理动态内容和复杂交互
  • 可以跨浏览器、跨设备执行测试

适合的任务

  • 检查页面流程、明显错误、可访问性问题
  • 像用户一样走注册、登录、提交表单等流程
  • 在测试环境里填写重复表单
  • 用沙箱账号检查流程是否能走通

不会替代传统测试,但可以补一种新方式

2. 网站重复数据录入

自动在多个网站之间同步数据,比如:

  • 在多个平台发布同一篇文章
  • 将客户信息录入多个系统
  • 自动填写重复性表单

3. 应用和用户流程测试

  • 端到端测试(E2E testing)
  • 用户流程验证
  • 跨多个网站做研究(比如价格对比)

4. 企业自动化任务

Google 官方博客提到,这项能力可以用于:

  • 持续软件测试(Continuous Testing)
  • 跨专业应用的知识工作(比如从多个系统收集数据、生成报告)

如何使用

方式一:通过 Google AI Studio 或 Gemini API

(具体 API 文档和代码示例待补充——需要访问 Google 官方文档)

方式二:结合 Playwright/Puppeteer 构建自动化流程

// 伪代码示例
async function automateWithGemini(url, goal) {
  const browser = await playwright.chromium.launch();
  const page = await browser.newPage();
  await page.goto(url);
  
  let step = 0;
  const maxSteps = 20;
  
  while (step < maxSteps) {
    // 1. 截图
    const screenshot = await page.screenshot({ type: 'png' });
    
    // 2. 调用 Gemini 3.5 Flash API
    const response = await geminiAPI({
      model: 'gemini-3.5-flash',
      contents: [
        { text: `目标:${goal}\n当前步骤:${step}\n请返回下一步操作` },
        { image: screenshot }
      ]
    });
    
    // 3. 解析返回的动作
    const action = JSON.parse(response.text);
    
    // 4. 执行动作
    if (action.type === 'click') {
      await page.click(action.selector);
    } else if (action.type === 'type') {
      await page.fill(action.selector, action.text);
    } else if (action.type === 'scroll') {
      await page.evaluate(y => window.scrollTo(0, y), action.y);
    } else if (action.type === 'done') {
      break;
    }
    
    // 5. 等待页面稳定
    await page.waitForTimeout(1000);
    step++;
  }
  
  await browser.close();
}

(注意:以上是概念性伪代码,实际 API 调用方式需要参考 Google 官方文档)


与其他 AI 模型的对比

模型计算机操作能力特点
Gemini 3.5 Flash✅ 原生集成多模态、快速、成本较低
OpenAI Operator✅ 独立产品专门设计用于计算机操作
Claude (Anthropic)✅ 通过 API 支持需要配合工具调用(function calling)
GPT-4V⚠️ 可以理解截图,但需要额外编排不直接提供计算机操作 API

Gemini 3.5 Flash 的优势

  • 原生集成:不需要额外的编排,直接调用 API 即可
  • 快速且成本低:Flash 系列主打速度和成本效益
  • 多模态能力强:Gemini 天生支持图像理解

安全考虑

1. 对抗指令扫描

可以选择扫描截图中的隐藏对抗指令,防止恶意网页通过视觉方式注入 prompt。

2. 沙箱执行

建议在沙箱环境中执行自动化任务,避免对生产系统造成影响。

3. 人工审核

对于关键操作(比如删除数据、转账),建议加入人工审核环节。


局限性

  1. 不是直接控制电脑:需要客户端环境(浏览器、移动端、桌面应用)来执行动作
  2. 速度和成本:每次循环都需要调用 API,速度和成本需要权衡
  3. 准确性:模型的理解可能不是 100% 准确,特别是在复杂界面上
  4. 依赖截图质量:截图的分辨率、清晰度会影响模型的理解

第一批适合尝试的场景

作者建议,第一批适合尝试的不是生产系统,而是这些低风险任务:

  1. 检查页面流程、明显错误、可访问性问题
  2. 像用户一样走注册、登录、提交表单等流程
  3. 在测试环境里填写重复表单
  4. 用沙箱账号检查流程是否能走通

官方资源


总结

  • 🤖 原生集成计算机操作能力:Gemini 3.5 Flash 现在可以"看"屏幕、"理解"界面、"操作"电脑
  • 🔄 不依赖固定选择器:像人一样理解界面,而不是依赖脆弱的 CSS selector
  • 🧪 最被看好的是自动化测试:可以补充传统测试,而不是替代
  • 🔒 安全特性:可扫描对抗指令,建议在沙箱中执行
  • 🌐 多场景适用:自动化测试、数据录入、流程验证、跨网站研究
  • Flash 系列优势:快速、成本低,适合大规模自动化任务

这次更新的典型意义:AI Agent 从"聊天"走向"真正干活"——不再只是回答问题,而是能直接操作界面、完成任务。


相关链接


Keywords: Gemini 3.5 Flash, Google, AI Agent, 计算机操作, 自动化测试, 浏览器自动化, 多模态, 截图理解, E2E测试

推荐文章

Vue3中如何处理组件间的动画?
2024-11-17 04:54:49 +0800 CST
前端代码规范 - 图片相关
2024-11-19 08:34:48 +0800 CST
三种高效获取图标资源的平台
2024-11-18 18:18:19 +0800 CST
7种Go语言生成唯一ID的实用方法
2024-11-19 05:22:50 +0800 CST
api接口怎么对接
2024-11-19 09:42:47 +0800 CST
SpaceX 600亿美元收购Cursor(节选)
2026-06-22 03:29:52 +0800 CST
在 Nginx 中保存并记录 POST 数据
2024-11-19 06:54:06 +0800 CST
前端如何优化资源加载
2024-11-18 13:35:45 +0800 CST
Vue3中的Slots有哪些变化?
2024-11-18 16:34:49 +0800 CST
Golang 几种使用 Channel 的错误姿势
2024-11-19 01:42:18 +0800 CST
18个实用的 JavaScript 函数
2024-11-17 18:10:35 +0800 CST
程序员茄子在线接单