Direct3D-S2发布：千兆级3D生成速度提升近10倍

— 2025/5/30

近日，一款名为Direct3D-S2的全新3D生成框架引发了业界热议。该框架通过创新的空间稀疏注意力（SSA）机制，显著提升了高分辨率3D图像生成的质量与效率，为千兆级3D生成提供了更具可扩展性的解决方案。

空间稀疏注意力：效率与质量的双重提升

Direct3D-S2的核心创新在于其空间稀疏注意力（SSA）机制，专为处理稀疏体视数据设计。该机制通过优化扩散变换器(DiT)的计算方式，显著降低了训练和推理的资源需求。

据悉，SSA机制使前向传播速度提升3.9倍，反向传播速度提升9.6倍，极大缩短了生成高分辨率3D模型的时间。相比传统方法，Direct3D-S2在保持高质量输出的同时，训练成本大幅降低，展现了卓越的效率优势。

Direct3D-S2采用了一种统一的稀疏体视变分自编码器（VAE），在输入、潜在表示和输出阶段保持一致的稀疏体视格式。相较于依赖异构表示的传统3D VAE，这种设计显著提高了训练的稳定性和效率。

得益于此，Direct3D-S2能够在1024³分辨率下进行训练，仅需8块GPU，而传统方法通常需要32块GPU才能完成256³分辨率的训练，标志着千兆级3D生成的实用性迈上新台阶。

Direct3D-S2在公开数据集上的测试表现令人瞩目，其生成质量不仅超越了现有最先进的3D生成方法，还在细节捕捉和几何精度上表现出色。生成的3D形状展现了更高的分辨率和更精细的表面细节，适用于虚拟现实、游戏开发、工业设计等多个领域。

据最新消息，Direct3D-S2的代码和模型权重将在近期公开，具体时间预计在5月底之前。这一开源举措将进一步推动3D生成技术在全球开发者社区中的普及与应用。

Direct3D-S2的发布标志着高分辨率3D生成技术的一次重大进步。其空间稀疏注意力机制和高效的训练框架不仅突破了传统方法的计算瓶颈，还为千兆级3D生成提供了可扩展的解决方案，有望在虚拟现实、增强现实、影视制作等领域引发广泛应用。