美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

美团发布LongCat-Next原生多模态大模型，以DiNA架构实现多模态底层统一，性能领先且已开源

发布时间：2026/04/04 03:54|分类：人工智能

4月3日，美团技术团队正式发布原生多模态大模型LongCat-Next。该模型突破传统“语言基座+插件”的拼凑架构，通过将图像、语音与文本统一转化为同源离散Token，实现原生“看”与“听”物理世界。其核心是DiNA（离散原生自回归）架构，实现全模态统一、理解与生成对称、极致压缩三大特性。性能上，该模型在OmniDocBench、MathVista、C-Eval等测试中超越多款专用模型，展现出强细粒度感知、视觉推理及跨模态协同能力。美团已将LongCat-Next及dNaViT分词器开源，为AI感知真实世界提供重要工具。

人工智能星知

星知

美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

最近发布

AI"按量计费"吓退企业高管：近三分之一承认不懂经济账，算力账单成了黑箱

OpenAI炮轰AI评测"标杆"： 731 道题近三成有缺陷， 8 个月通过率从23%飙到80%已失灵

腾讯Hy3 编程评测出炉：参数只有对手五分之一，代码能力却与DeepSeek-V4-Pro打平

OpenAI高薪挖投行人才：年薪 139 万加股权，要用AI重塑华尔街