星知

logo
logo
登录

美团发布原生多模态 LongCat-Next:视觉语音实现底层统一

美团发布LongCat-Next原生多模态大模型,以DiNA架构实现多模态底层统一,性能领先且已开源
发布时间:2026/04/04 03:54|分类:人工智能
美团发布原生多模态 LongCat-Next:视觉语音实现底层统一
4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next。该模型突破传统“语言基座+插件”的拼凑架构,通过将图像、语音与文本统一转化为同源离散Token,实现原生“看”与“听”物理世界。其核心是DiNA(离散原生自回归)架构,实现全模态统一、理解与生成对称、极致压缩三大特性。性能上,该模型在OmniDocBench、MathVista、C-Eval等测试中超越多款专用模型,展现出强细粒度感知、视觉推理及跨模态协同能力。美团已将LongCat-Next及dNaViT分词器开源,为AI感知真实世界提供重要工具。
人工智能星知