- 主流三维表示方法及在3D生成中的局限
- 利用密度约束高斯拟合和最优传输算法构建GaussianCube
- 基于GaussianCube的3D扩散模型
- GaussianCube生成结果展示以及未来展望
在生成建模技术进步的推动下,三维生成建模领域取得了显著的成果。但是现行的两大类3D表示方法主要存在两个问题:(1)基于拟合能力不足的隐式解码器;(2)缺乏清晰定义的空间结构难以与主流的3D扩散技术融合。
针对以上问题,来自中科大、清华和微软亚洲研究院的研究人员提出了一种具有强大拟合能力的显式结构化三维表示GaussianCube,并且可以无缝应用于目前主流的3D扩散模型中。相关论文为《GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling》。
GaussianCube的框架包括两个主要阶段,如下图所示:表示构建和扩散建模。
在表示构建阶段,首先对每个对象应用密度约束的3DGS拟合算法,以对3D资产进行高精度拟合,获得固定数量的自由高斯。然后,利用在高斯点和预定义体素网格中心之间的最优传输算法,将这些高斯点组织到所提出的空间结构化的高斯立方体中,结构化为 GaussianCube。
对于扩散建模,由于GaussianCube 具备在空间上的结构化组织关系、无需复杂的网络或训练设计的优势,标准的3D卷积足以有效地提取和聚合邻近高斯的特征。因此,使用三维扩散模型来建模 GaussianCube的分布,利用标准的U-Net网络进行扩散,并直接将原始的2D操作符(包括卷积、注意力、上采样和下采样)替换为相应的3D操作。
实验结果表明,GaussianCube相较之前的基线算法实现了大幅度的性能提升。不仅能够生成高质量的3D资产,而且还提供了极具吸引力的视觉效果,充分证明了其作为3D生成通用表示的巨大潜力。
7月25日10点,智猩猩邀请到论文一作、中国科学技术大学与微软亚洲研究院联合培养博士张博文参与「智猩猩AI新青年讲座」245讲,主讲《结构化3DGS为高质量3D生成带来新思路》。
