世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass

腾讯开源WorldCompass框架，解决世界模型复杂指令痛点，推动其进入强化学习精细调优时代

发布时间：2026/03/12 04:14|分类：人工智能

腾讯混元3D团队正式开源业界首个面向世界模型的强化学习后训练框架WorldCompass，作为混元世界模型1.5的官方强化学习扩展模块，旨在解决主流世界模型在复杂组合动作指令下的理解偏差与执行不精准问题。通过强化学习调优，开源SOTA模型WorldPlay在复合动作场景下交互准确率从约20%飙升至55%以上，还显著提升了视觉保真度评分，确保虚拟世界漫游视觉表现一致性。该框架推动世界模型从预训练时代跨入强化学习精细化调优时代，目前相关代码及技术报告已全栈开源，助力全球开发者构建更智能的生成式世界模拟器。核心亮点：1. 精准解决复杂指令执行难题，准确率大幅提升；2. 验证了强化学习在长时序世界模型的调优潜力；3. 全栈开源助力打造沉浸虚拟交互环境；4. 推动技术从数据堆叠转向交互逻辑精细雕琢。

人工智能星知

星知

世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass

最近发布

企业AI转型再添利器：青云科技算力云接入 MiniMax-M3 模型

联想推出百应AI主机300：赋能中小企业的“算力加速器”

Snap发布全新AR智能眼镜SPECS，加速空间计算布局

贾跃亭发布人形机器人和机器狗，FF全面进军消费级机器人市场