谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

内容分享3周前发布
0 0 0

机器之心报道

编辑:Panda

谷歌的 Computer Use 模型来了!

今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use

思考到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以协助用户在浏览器中执行点击、滚动和输入等操作。

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

先来看两个官方演示。

提示词:From
https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at
https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

提示词:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

可以看到,不管是收集网络信息与执行动作,还是整理杂乱笔记,Gemini 2.5 Computer Use 都超级准确地完成了任务,同时速度也相当快。

在相关基准上,Gemini 2.5 Computer Use 的性能表现也达到了 SOTA 水平:

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

同时,其速度表现也优于其它几个相比较的模型:

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

目前,开发者已可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 获取这些能力。用户也可以在 Browserbase 托管的演示环境中试用(最多仅支持 5 分钟的流程,且不支持用户中途接管):https://gemini.browserbase.com/

机器之心使用该演示环境做了几次尝试。整体来看,Gemini 2.5 Computer Use 在完成简单任务时准确度较高,但稍微复杂一点的任务就容易失败。

列如在执行「在维基百科上找到 John Wick 页面」这样的简单任务时,该模型的表现超级成功。

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

但只要稍微复杂一点,该模型就失败了,列如「在维基百科上找到 John Wick 页面,并总结其信息,给出中文版。」另外,我们让其「打开诺贝尔奖官方网站,给出今年诺贝尔将宣布的时间表」的任务以及以下任务均未能成功完成。

提示词:浏览 jiqizhixin.com,找到近半年关于 Gemini 的报道,并整理成一份 Markdown 文件,并进行总结。

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

此外,DeepMind 也已经发布了 Gemini 2.5 Computer Use 系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

Gemini 2.5 Computer Use 的工作原理

该模型的核心能力是通过 Gemini API 中新增的 computer_use 工具实现的,开发者使用时需在一个循环流程(loop)中运行。

其输入应包括:

  • 用户请求;
  • 当前环境的截图;
  • 最近执行动作的历史记录。

另外,输入中还可以指定是否从默认支持的 UI 动作中排除特定功能以及添加自定义函数。

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:AI直接操作浏览器

Gemini 2.5 Computer Use 模型工作流程

模型分析这些输入后,会生成响应,一般是一个代表 UI 动作的函数调用(如点击或输入)。在某些操作(如购买行为)中,模型还会请求用户确认。客户端随后会执行这些动作。

动作执行完成后,系统会将最新截图与当前 URL 作为函数响应返回给模型,重新启动循环。

这一迭代过程会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

谷歌表明,当前 Gemini 2.5 Computer Use 模型主要针对网页浏览器优化,但在移动端 UI 控制方面也展现出强劲潜力。不过它暂未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌表明:「负责任地构建智能体是让 AI 造福所有人的唯一途径。能够直接操作电脑的 AI 智能体带来了特有的风险,包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重点关注安全防护。」

在 Gemini 2.5 Computer Use 模型中,谷歌直接在训练阶段融入安全机制,以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

  • 损害系统完整性;
  • 危及安全;
  • 绕过验证码;
  • 控制医疗设备。

谷歌实施的控制手段包括:

  • 逐步安全服务(Per-step Safety Service):在推理阶段,由独立安全服务评估每个模型拟执行的动作。
  • 系统指令(System Instructions):开发者可设定在特定高风险操作前,智能体必须拒绝或请求用户确认。

结语

谷歌 DeepMind 携 Gemini 2.5 Computer Use 高调入场,不仅在多个基准测试上展示了领先的性能,也让 AI 智能体领域的竞争正式进入了白热化阶段。

从 OpenAI 到 Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代,正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...