性能提升超两倍:英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型
英伟达开源Nemotron-Labs-TwoTower扩散语言模型,通过“双塔”架构创新在保持98.7%生成质量的同时实现2.42倍吞吐量提升,为大规模文本生成效率优化提供新路径。
发布时间:2026/07/02 03:22|分类:人工智能
英伟达正式开源 Nemotron-Labs-TwoTower 扩散语言模型,旨在通过架构创新打破传统自回归模型的吞吐量瓶颈。该模型采用"双塔"架构:保持冻结的"上下文塔"处理提示词并保留语言理解能力;经过特定训练的"去噪器塔"负责并行生成并优化 token。在2×H100 GPU评测环境下,该模型在默认设置下成功保留了基线模型98.7%的生成质量,而实际生成吞吐量实现了2.42倍的显著提升。该模型支持扩散模式、模拟AR和标准AR三种解码方式,开发者可根据任务需求自由选择。目前该模型已作为开放权重项目发布,遵循NVIDIA Nemotron开放模型许可协议,完全支持商业用途。尽管该模型在代码生成和数学推理任务上相较于原始基线有轻微性能回落,且对GPU显存有一定要求,但其为大模型推理加速提供了一个极具潜力的技术方向。