仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

— 2025/05/16

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉-语言多模态模型——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。

增强的多模态理解与推理能力

Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比，Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外，新增的视频理解和多模态智能体功能，使其在处理复杂任务时表现更加出色。

字节跳动的技术团队表示，Seed1.5-VL已经能够处理包括图像问答、图表理解、视觉推理、视频理解等多种复杂任务，且响应速度和准确性均有显著提升。模型的视觉理解能力不仅限于识别图像中的物体，还能理解物体之间的空间关系、场景上下文以及隐含的视觉信息。

超高性能与低成本优势

尽管 Seed1.5-VL 的激活参数仅为20B，但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中，Seed1.5-VL 在38个任务上取得了 SOTA（state-of-the-art）表现，尤其是在视频理解、视觉推理和多模态智能体能力方面，均处于行业领先地位。

在推理成本方面，Seed1.5-VL 也表现出色，其推理输入价格为每千 tokens 仅0.003元，输出价格为每千 tokens 仅0.009元，极具性价比。这一低成本优势使得Seed1.5-VL在大规模商业应用场景中极具竞争力，能够满足企业在控制成本的同时提升AI能力的需求。

便捷的 API 接入与实际应用案例

目前，Seed1.5-VL 已经在火山引擎全面开放 API，开发者只需登录后选择 Doubao-1.5-thinking-vision-pro，即可快速调用其能力，构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

为验证 Seed1.5-VL 的实际性能，记者进行了多项测试。通过上传一张货架图片，Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中，Seed1.5-VL 也显示出了其强大的推理能力，能够在短时间内捕捉并推导出其中的规律，完成难度较大的逻辑任务。

火山引擎的产品负责人表示："我们已经看到许多企业客户利用Seed1.5-VL开发出创新应用，如智能仓储系统能够自动识别并记录货物状态，零售业的智能货架分析系统可以实时监控商品陈列和库存状况，医疗影像辅助诊断系统则能帮助医生更准确地解读医学影像。"

技术架构与训练细节

Seed1.5-VL 作为 Seed 系列最新一代多模态模型，经过在超过3T token 的多模态数据上进行预训练，展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成，包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机（MLP）适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。

技术团队介绍，模型采用了混合专家（MoE）架构，虽然总参数量较大，但在实际推理过程中只激活一小部分专家参数，这使得Seed1.5-VL能够在保持高性能的同时大幅降低计算成本。此外，团队还针对多模态场景优化了视觉特征的提取和融合方法，显著提升了模型在复杂视觉场景下的理解能力。

行业影响与未来展望

业内专家认为，Seed1.5-VL的发布标志着中国在多模态大模型领域又迈出了重要一步。与国际顶尖模型相比，Seed1.5-VL不仅在性能上达到了同等水平，在成本效益方面甚至更具优势，这对于推动多模态AI技术的广泛商业应用具有重要意义。

字节跳动表示，未来将继续优化Seed系列模型，重点提升其在长视频理解、多轮多模态对话等方面的能力，并计划拓展更多垂直领域应用，如教育、医疗、工业等。同时，还将进一步降低模型的使用门槛，让更多开发者能够便捷地将多模态AI能力集成到自己的产品中。

随着字节跳动持续在AI领域的投入，Seed1.5-VL的推出不仅展示了其技术实力，也预示着多模态AI应用将在更广泛的商业场景中落地，为各行业的智能化转型带来新的可能性。

星知