星知

logo
logo
登录

世界模型迈入精细调优时代:腾讯开源强化学习后训练框架 WorldCompass

腾讯开源WorldCompass框架,解决世界模型复杂指令痛点,推动其进入强化学习精细调优时代
发布时间:2026/03/12 04:14|分类:人工智能
世界模型迈入精细调优时代:腾讯开源强化学习后训练框架 WorldCompass
腾讯混元3D团队正式开源业界首个面向世界模型的强化学习后训练框架WorldCompass,作为混元世界模型1.5的官方强化学习扩展模块,旨在解决主流世界模型在复杂组合动作指令下的理解偏差与执行不精准问题。通过强化学习调优,开源SOTA模型WorldPlay在复合动作场景下交互准确率从约20%飙升至55%以上,还显著提升了视觉保真度评分,确保虚拟世界漫游视觉表现一致性。该框架推动世界模型从预训练时代跨入强化学习精细化调优时代,目前相关代码及技术报告已全栈开源,助力全球开发者构建更智能的生成式世界模拟器。核心亮点:1. 精准解决复杂指令执行难题,准确率大幅提升;2. 验证了强化学习在长时序世界模型的调优潜力;3. 全栈开源助力打造沉浸虚拟交互环境;4. 推动技术从数据堆叠转向交互逻辑精细雕琢。
人工智能星知