星知

logo
logo
登录

谷歌加入CUA战场:发布Gemini 2.5 Computer Use模型

2025/10/10

产品发布背景

谷歌DeepMind正式发布Gemini 2.5 Computer Use模型,标志着谷歌正式加入计算机使用(Computer Use Agent,简称CUA)领域的竞争。这一模型代表了AI从对话助手向实际操作工具的重要转变。

Gemini 2.5 Computer Use模型

核心功能特性

Gemini 2.5 Computer Use模型具备强大的计算机操作能力:

  • 浏览器控制:可直接控制浏览器进行操作
  • 基础操作:执行点击、滚动、输入等基本操作
  • 视觉理解:通过视觉理解界面内容
  • 任务推理:具备强大的任务推理能力

技术架构

模型基于先进的技术架构:

  • Gemini 2.5基础:基于Gemini 2.5大模型
  • 视觉-动作映射:实现视觉理解到动作执行的映射
  • 多模态处理:整合视觉和操作多模态能力
  • 实时响应:支持实时的操作反馈

性能表现

Gemini 2.5 Computer Use在性能测试中表现优异:

  • SOTA水平:在基准测试中达到SOTA(State-of-the-Art)水平
  • 速度优势:执行速度优于其他同类模型
  • 准确性高:操作准确性表现出色
  • 稳定性强:具备良好的系统稳定性

与OpenAI CUA的对比

Gemini 2.5 Computer Use与OpenAI的CUA类似,但具有自身特点:

  • 基于Gemini 2.5的强大基础能力
  • 在速度方面具有优势
  • 视觉理解能力突出

应用场景

该模型适用于多种应用场景:

  • 自动化网页操作
  • 数据收集和处理
  • 测试和质量保证
  • 用户任务自动化

谷歌Gemini 2.5 Computer Use模型的发布,标志着AI操作计算机能力进入了新的竞争阶段。通过强大的视觉理解和推理能力,该模型为用户提供了高效的计算机自动化操作工具,推动了AI助手从对话向实际操作的演进。

最新发布