新闻资讯星知智能体登录

谷歌加入CUA战场：发布Gemini 2.5 Computer Use模型

— 2025/10/10

产品发布背景

谷歌DeepMind正式发布Gemini 2.5 Computer Use模型，标志着谷歌正式加入计算机使用（Computer Use Agent，简称CUA）领域的竞争。这一模型代表了AI从对话助手向实际操作工具的重要转变。

Gemini 2.5 Computer Use模型

核心功能特性

Gemini 2.5 Computer Use模型具备强大的计算机操作能力：

浏览器控制：可直接控制浏览器进行操作
基础操作：执行点击、滚动、输入等基本操作
视觉理解：通过视觉理解界面内容
任务推理：具备强大的任务推理能力

技术架构

模型基于先进的技术架构：

Gemini 2.5基础：基于Gemini 2.5大模型
视觉-动作映射：实现视觉理解到动作执行的映射
多模态处理：整合视觉和操作多模态能力
实时响应：支持实时的操作反馈

性能表现

Gemini 2.5 Computer Use在性能测试中表现优异：

SOTA水平：在基准测试中达到SOTA（State-of-the-Art）水平
速度优势：执行速度优于其他同类模型
准确性高：操作准确性表现出色
稳定性强：具备良好的系统稳定性

与OpenAI CUA的对比

Gemini 2.5 Computer Use与OpenAI的CUA类似，但具有自身特点：

基于Gemini 2.5的强大基础能力
在速度方面具有优势
视觉理解能力突出

应用场景

该模型适用于多种应用场景：

自动化网页操作
数据收集和处理
测试和质量保证
用户任务自动化

谷歌Gemini 2.5 Computer Use模型的发布，标志着AI操作计算机能力进入了新的竞争阶段。通过强大的视觉理解和推理能力，该模型为用户提供了高效的计算机自动化操作工具，推动了AI助手从对话向实际操作的演进。

最新发布

库克重申隐私底线:Apple Intelligence 架构不变，Gemini 仅为“辅助”

库克重申隐私底线:Apple Intelligence 架构不变，Gemini 仅为“辅助”

2026/01/30

马斯克商业帝国大合体?SpaceX、xAI 与特斯拉探讨合并方案

马斯克商业帝国大合体?SpaceX、xAI 与特斯拉探讨合并方案

2026/01/30

建筑业的“智慧进化”:2033年人工智能市场规模将达320亿美元

建筑业的“智慧进化”:2033年人工智能市场规模将达320亿美元

2026/01/30

丢掉键盘：Genspark 发布 Workspace 2.0，开启语音办公新纪元

丢掉键盘：Genspark 发布 Workspace 2.0，开启语音办公新纪元

2026/01/30

谷歌加入CUA战场：发布Gemini 2.5 Computer Use模型