阿里通义正式发布Qwen3-Next-80B-A3B双模型：混合动力引擎，长文处理稳与快并重

— 2025/09/12

产品发布背景

阿里通义正式发布Qwen3-Next-80B-A3B双模型，这是通义千问系列的重要升级版本。该模型采用创新的双模型架构，包含Instruct版本和Thinking版本，分别擅长指令理解执行和多步推理深度思考。这一发布标志着阿里在大语言模型技术方面取得了重要突破，特别是在长文本处理能力上实现了质的飞跃。

双模型架构设计

Qwen3-Next-80B-A3B采用创新的双模型架构，两个版本各司其职：

Qwen3-Next-80B-A3B-Instruct版本

核心能力：更擅长理解和执行指令
应用场景：日常对话、任务执行、问答服务等
技术特点：响应速度快，理解准确度高
优化方向：针对用户指令进行专门优化
处理能力：能够快速理解并执行各种用户指令
交互体验：提供流畅自然的对话体验

Qwen3-Next-80B-A3B-Thinking版本

核心能力：更擅长多步推理和深度思考
应用场景：复杂问题分析、科学研究、学术写作等
技术特点：推理能力强，思考深度高
优化方向：针对复杂推理任务进行专门优化
分析能力：能够进行深层次的逻辑分析和推理
创新思维：具备创造性思维和问题解决能力

核心技术创新

Qwen3-Next-80B-A3B在技术方面实现了三大核心创新：

1. 混合动力引擎：75%高效 + 25%精准

经过多次实验，阿里团队发现75%和25%的比例在速度和效果之间找到了最佳平衡点：

75%高效处理：使用Gated DeltaNet（线性注意力）处理32K、64K、甚至256K的超长文本时，速度飞快，内存占用线性增长，绝不"越长越卡"
25%精准召回：使用原创Gated Attention（门控注意力）负责精准召回关键信息，确保模型"记得住重点"，不会在长文中迷失
平衡优化：这个比例在速度和效果之间找到了一个比较好的平衡点
长文处理：实现长文处理更稳更快的目标

2. 极致省钱架构：80B总参，推理时只用约3B

为了让大模型在推理时更"轻便"，阿里调整了MoE结构：

专家总数：总共准备了512个专家，覆盖各种知识和技能
动态选择：每次处理请求时，只会动态选择最相关的10个专家 + 1个共享专家来工作
参数效率：虽然模型总参数是80B，但实际参与计算的只有大约3B
算力利用率：算力利用率大约是3.7%，大幅降低计算成本
成本优化：让用户在享受大模型能力的同时，无需为用不到的算力买单

3. 预训练加速机制：一次多猜几个字，长文生成更快

阿里在模型预训练阶段做了重要改动，教模型一次预测多个token，这个技术叫MTP：

天生技能：不是外挂的加速工具，而是模型"天生"就会的技能
长文生成：在生成长文本（比如32K以上）时，显著减少推理步数
性能提升：实测吞吐量比Qwen3-32B提升了10倍+
效率优化：通过预训练阶段的优化，实现推理时的显著加速

长文本处理能力突破

该模型在长文本处理方面实现了重大突破：

处理效率提升

处理速度：长文本处理速度显著提升，支持实时处理
内存优化：优化内存使用，支持更长文本的处理
并行处理：支持多段文本的并行处理，提升整体效率
缓存机制：智能缓存机制提升处理效率
流式处理：支持流式处理，减少等待时间
资源管理：智能资源管理，确保系统稳定性

信息提取精度

关键信息识别：能够准确识别文本中的关键信息
语义理解：深度理解文本的语义和逻辑结构
上下文关联：建立长距离的上下文关联
信息整合：将分散的信息整合为完整理解
多维度分析：从多个维度分析文本内容
准确性保证：通过多重验证确保信息提取的准确性

技术架构优势

Qwen3-Next-80B-A3B在技术架构方面具有显著优势：

参数规模：80B参数规模，平衡了性能和效率
训练数据：基于大规模高质量训练数据
模型结构：采用先进的Transformer架构
优化算法：使用最新的优化算法和训练技术
硬件适配：针对不同硬件平台进行优化
可扩展性：具备良好的可扩展性和适应性

适合场景

Qwen3-Next-80B-A3B特别适合以下应用场景：

长文本处理场景

超长文本处理：要处理很长的输入文本（KV Cache固定，不会爆显存）
学术论文分析：分析长篇学术论文，提取关键信息
法律文档处理：处理复杂的法律文档和合同
技术文档理解：理解大型技术文档和规范
商业报告分析：分析企业年报和商业报告
医疗记录处理：处理复杂的医疗文档和病例

高性能推理场景

速度要求高：对推理速度和稳定性要求高（MTP加速 + 高接受率）
实时应用：需要实时响应的应用场景
大规模部署：需要大规模部署的生产环境
成本敏感：对计算成本敏感的应用

大模型容量需求场景

大容量需求：希望用大模型容量，但不想每次推理都"全功率运行"（80B总参，3B激活）
成本优化：需要大模型能力但希望控制成本的应用
资源受限：在资源受限环境下需要大模型能力的场景
灵活部署：需要灵活部署和扩展的应用

专业能力需求场景

指令响应：需要指令响应能力（Instruct版本）
深度推理：需要深度推理能力（Thinking版本）
复杂问题分析：协助进行科学研究和分析
数学问题解决：解决复杂的数学和逻辑问题
编程任务处理：处理大型编程项目和代码分析
决策支持：为复杂决策提供分析支持

性能表现

Qwen3-Next-80B-A3B在多个维度上实现了显著的性能提升：

处理速度与效率

长文本处理：支持32K、64K、甚至256K的超长文本处理，速度飞快
内存优化：内存占用线性增长，绝不"越长越卡"
吞吐量提升：实测吞吐量比Qwen3-32B提升了10倍+
推理加速：通过MTP技术显著减少推理步数
实时响应：在保证质量的同时实现实时响应

成本效益优化

参数效率：80B总参数，推理时只用约3B，算力利用率3.7%
成本控制：大幅降低计算成本，无需为用不到的算力买单
资源优化：动态选择最相关的专家，避免全功率运行
性价比：在效果和成本之间找到最佳平衡点

技术能力表现

长文本理解：在长文本理解任务中达到SOTA水平
推理能力：在复杂推理任务中表现优异
指令执行：Instruct版本在指令理解和执行方面表现突出
深度思考：Thinking版本在多步推理和深度思考方面表现卓越
多语言支持：支持多种语言的文本处理
稳定性：具备良好的系统稳定性和可靠性

技术创新点

Qwen3-Next-80B-A3B在技术方面实现了多项重大创新：

混合动力引擎技术

Gated DeltaNet：使用线性注意力机制，实现高效的长文本处理
Gated Attention：原创的门控注意力机制，确保精准召回关键信息
比例优化：75%高效 + 25%精准的黄金比例，在速度和效果间找到最佳平衡
线性扩展：内存占用线性增长，支持超长文本处理

极致省钱架构

MoE优化：调整MoE结构，实现参数效率最大化
专家系统：512个专家覆盖各种知识和技能
动态选择：每次只选择最相关的10个专家 + 1个共享专家
算力优化：3.7%的算力利用率，大幅降低计算成本

预训练加速机制

MTP技术：一次预测多个token的预训练加速机制
天生技能：不是外挂工具，而是模型"天生"就会的技能
推理优化：显著减少推理步数，提升生成效率
性能提升：实测吞吐量提升10倍+

双模型协同机制

Instruct版本：专门优化指令理解和执行能力
Thinking版本：专门优化多步推理和深度思考能力
协同工作：两个版本可以根据任务特点协同工作
针对性优化：针对不同应用场景进行专门优化

部署与应用

Qwen3-Next-80B-A3B的部署和应用：

云端部署：支持云端大规模部署
边缘计算：支持边缘设备部署
API接口：提供标准化的API接口
SDK支持：提供多语言SDK支持
定制化服务：支持企业级定制化服务
私有化部署：支持企业私有化部署

市场影响与竞争

该模型的发布对AI大模型市场产生重要影响：

技术标准提升：为长文本处理树立了新的技术标准
应用场景拓展：为AI应用开辟了更多可能性
竞争优势建立：为阿里在AI领域建立了技术优势
生态建设推动：推动AI开发生态的完善
行业影响：对整个AI行业产生深远影响
技术引领：引领大模型技术的发展方向

未来发展方向

阿里对Qwen3-Next-80B-A3B的未来发展制定了明确规划：

能力扩展：持续扩展模型的能力边界
性能优化：不断提升模型的性能和效率
应用深化：深化在垂直领域的应用
生态建设：构建更完善的AI开发生态
技术迭代：持续进行技术迭代和升级
国际化：推动技术在国际市场的应用

技术突破意义

Qwen3-Next-80B-A3B的技术突破具有重要意义：

长文本处理革命：在长文本处理领域实现重大突破
双模型架构创新：为AI模型设计提供了新的思路
混合动力引擎：开创了新的模型优化方法
应用场景拓展：为AI应用开辟了新的可能性
技术标准建立：为行业建立了新的技术标准
未来发展指引：为AI技术发展指明了方向

解决用户痛点

Qwen3-Next-80B-A3B的发布完美解决了用户在使用大模型时面临的痛点：

效果与成本的平衡：不再需要在"效果好但太贵"和"便宜但太卡"之间纠结
长文本处理难题：彻底解决了长文本处理中的"越长越卡"问题
成本控制需求：让用户享受大模型能力的同时，无需为用不到的算力买单
性能与效率兼顾：在保证效果的同时实现速度和稳定性的显著提升

阿里通义Qwen3-Next-80B-A3B双模型的发布，标志着大语言模型技术进入了一个新的发展阶段。通过创新的混合动力引擎、极致省钱架构和预训练加速机制，该模型不仅实现了长文本处理能力的重大突破，还为复杂推理任务提供了强大的技术支撑。这一创新完美解决了用户在使用大模型时面临的"效果好但太贵"或"便宜但太卡"的痛点，为AI应用的发展带来了新的机遇，推动整个AI行业的技术进步。

星知