Google 把"操作电脑"塞进 Gemini 3.5 Flash 了
标签: Gemini 3.5 Flash / Google / AI Agent / 计算机操作 / 自动化测试 / 浏览器自动化 / 多模态
原文: 微信公众号(待确认具体公众号)
作者: (待确认)
一句话定位
Google 正式将"计算机操作"能力原生集成进 Gemini 3.5 Flash——模型现在可以"看"屏幕截图、理解当前界面,并给出下一步操作建议(点击按钮、输入文字、滚动页面、完成表单、检查网页流程)。这不是一个简单的功能更新,而是 AI Agent 从"聊天"走向"真正干活"的关键一步。
这次更新为什么重要?
很多真实任务没有干净的 API 接口,只存在于网页后台、移动端界面、桌面软件和各种管理系统里。
传统自动化方案(Selenium、Playwright、Puppeteer)依赖固定的选择器(CSS selector、XPath),一旦页面结构变了、按钮文案改了、流程多一步,脚本就可能挂掉。很稳定,但也很短命。
Gemini 3.5 Flash 的计算机操作能力走的是另一条路:
让模型直接看界面,然后决定下一步怎么操作。
不依赖固定的选择器,不要求页面结构稳定,而是像人一样"看"界面、理解上下文、做出判断。
核心能力
1. 通过截图理解当前界面状态
Gemini 3.5 Flash 可以接收屏幕截图作为输入,理解当前界面的状态:
- 识别按钮、输入框、链接等 UI 元素
- 理解当前页面的功能和上下文
- 判断当前处于流程的哪一步
2. 返回点击、输入、滚动、键盘等操作
基于对界面的理解,模型会返回下一步应该执行的操作:
- 点击:点击某个按钮或链接
- 输入:在输入框中输入文字
- 滚动:向上或向下滚动页面
- 键盘操作:按下某个键或组合键
3. 可选择扫描截图里的隐藏对抗指令
安全特性:可以选择扫描截图中的隐藏对抗指令(adversarial instructions),防止 prompt injection 攻击。
4. 不是直接控制你的电脑
重要区别:Gemini 3.5 Flash 本身不直接控制你的电脑。
- 模型负责:看截图、理解目标、给出下一步动作
- 客户端环境负责:真正执行动作(点击、输入、截图循环)
比如浏览器场景里,可以用 Playwright 或 Puppeteer 执行它返回的点击、输入和截图循环。
技术架构
截图 → Gemini 3.5 Flash(理解界面、给出动作) → 客户端执行动作 → 截图 → 循环
关键特点:
- 多模态输入:接收图像(截图)和文本(目标描述)作为输入
- 结构化输出:返回结构化的动作指令(JSON 格式),方便客户端解析和执行
- 循环执行:通过"截图 → 理解 → 执行 → 截图"的循环,完成复杂的多步骤任务
使用场景
Google 官方博客和文档提到了以下场景:
1. 自动化测试(最被看好的场景)
传统测试的问题:
- 依赖固定的选择器,页面结构一变就挂
- 维护成本高,脆而不稳
- 无法处理动态内容和复杂交互
Gemini 3.5 Flash 的优势:
- 像用户一样"看"界面,不依赖固定选择器
- 能处理动态内容和复杂交互
- 可以跨浏览器、跨设备执行测试
适合的任务:
- 检查页面流程、明显错误、可访问性问题
- 像用户一样走注册、登录、提交表单等流程
- 在测试环境里填写重复表单
- 用沙箱账号检查流程是否能走通
不会替代传统测试,但可以补一种新方式。
2. 网站重复数据录入
自动在多个网站之间同步数据,比如:
- 在多个平台发布同一篇文章
- 将客户信息录入多个系统
- 自动填写重复性表单
3. 应用和用户流程测试
- 端到端测试(E2E testing)
- 用户流程验证
- 跨多个网站做研究(比如价格对比)
4. 企业自动化任务
Google 官方博客提到,这项能力可以用于:
- 持续软件测试(Continuous Testing)
- 跨专业应用的知识工作(比如从多个系统收集数据、生成报告)
如何使用
方式一:通过 Google AI Studio 或 Gemini API
(具体 API 文档和代码示例待补充——需要访问 Google 官方文档)
方式二:结合 Playwright/Puppeteer 构建自动化流程
// 伪代码示例
async function automateWithGemini(url, goal) {
const browser = await playwright.chromium.launch();
const page = await browser.newPage();
await page.goto(url);
let step = 0;
const maxSteps = 20;
while (step < maxSteps) {
// 1. 截图
const screenshot = await page.screenshot({ type: 'png' });
// 2. 调用 Gemini 3.5 Flash API
const response = await geminiAPI({
model: 'gemini-3.5-flash',
contents: [
{ text: `目标:${goal}\n当前步骤:${step}\n请返回下一步操作` },
{ image: screenshot }
]
});
// 3. 解析返回的动作
const action = JSON.parse(response.text);
// 4. 执行动作
if (action.type === 'click') {
await page.click(action.selector);
} else if (action.type === 'type') {
await page.fill(action.selector, action.text);
} else if (action.type === 'scroll') {
await page.evaluate(y => window.scrollTo(0, y), action.y);
} else if (action.type === 'done') {
break;
}
// 5. 等待页面稳定
await page.waitForTimeout(1000);
step++;
}
await browser.close();
}
(注意:以上是概念性伪代码,实际 API 调用方式需要参考 Google 官方文档)
与其他 AI 模型的对比
| 模型 | 计算机操作能力 | 特点 |
|---|---|---|
| Gemini 3.5 Flash | ✅ 原生集成 | 多模态、快速、成本较低 |
| OpenAI Operator | ✅ 独立产品 | 专门设计用于计算机操作 |
| Claude (Anthropic) | ✅ 通过 API 支持 | 需要配合工具调用(function calling) |
| GPT-4V | ⚠️ 可以理解截图,但需要额外编排 | 不直接提供计算机操作 API |
Gemini 3.5 Flash 的优势:
- 原生集成:不需要额外的编排,直接调用 API 即可
- 快速且成本低:Flash 系列主打速度和成本效益
- 多模态能力强:Gemini 天生支持图像理解
安全考虑
1. 对抗指令扫描
可以选择扫描截图中的隐藏对抗指令,防止恶意网页通过视觉方式注入 prompt。
2. 沙箱执行
建议在沙箱环境中执行自动化任务,避免对生产系统造成影响。
3. 人工审核
对于关键操作(比如删除数据、转账),建议加入人工审核环节。
局限性
- 不是直接控制电脑:需要客户端环境(浏览器、移动端、桌面应用)来执行动作
- 速度和成本:每次循环都需要调用 API,速度和成本需要权衡
- 准确性:模型的理解可能不是 100% 准确,特别是在复杂界面上
- 依赖截图质量:截图的分辨率、清晰度会影响模型的理解
第一批适合尝试的场景
作者建议,第一批适合尝试的不是生产系统,而是这些低风险任务:
- 检查页面流程、明显错误、可访问性问题
- 像用户一样走注册、登录、提交表单等流程
- 在测试环境里填写重复表单
- 用沙箱账号检查流程是否能走通
官方资源
- Google AI Blog: (待补充具体链接)
- Gemini API 文档: https://ai.google.dev/docs
- GitHub 示例: (待补充)
总结
- 🤖 原生集成计算机操作能力:Gemini 3.5 Flash 现在可以"看"屏幕、"理解"界面、"操作"电脑
- 🔄 不依赖固定选择器:像人一样理解界面,而不是依赖脆弱的 CSS selector
- 🧪 最被看好的是自动化测试:可以补充传统测试,而不是替代
- 🔒 安全特性:可扫描对抗指令,建议在沙箱中执行
- 🌐 多场景适用:自动化测试、数据录入、流程验证、跨网站研究
- ⚡ Flash 系列优势:快速、成本低,适合大规模自动化任务
这次更新的典型意义:AI Agent 从"聊天"走向"真正干活"——不再只是回答问题,而是能直接操作界面、完成任务。
相关链接
- Google AI: https://ai.google.dev
- Gemini API: https://ai.google.dev/gemini-api
- (原文链接待补充)
Keywords: Gemini 3.5 Flash, Google, AI Agent, 计算机操作, 自动化测试, 浏览器自动化, 多模态, 截图理解, E2E测试