- 1、场景生成面临的问题
- 2、可扩展的3D场景生成模型BlockFusion
- 2.1 场景块的拟合及压缩
- 2.2 条件控制导入
- 2.3 场景块的外插算法
- 3、实验分析与应用
生成高质量的无限大的3D场景在视频游戏、电影制作、增强现实和虚拟现实(VR/AR)等领域至关重要。且用户对高质量3D生成内容的需求日益增长,这使得3D生成成为一个重要的研究课题。然而,现有的方法主要集中在生成具有固定空间范围的3D内容(如有限尺寸的小物体)。
为了实现无限大的3D场景生成,腾讯XR视觉实验室联合东京大学等高校共同提出了基于扩散模型的可扩展3D场景生成框架BlockFusion。相关论文为《BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation》,已收录于SIGGRAPH 2024。
BlockFusion是一种基于三平面扩散的方法来生成可扩展的3D场景:以3D块的形式生成3D场景、通过直观的滑动3D块方式扩展场景。
首先,将完整的3D场景网格随机裁剪成不完整的3D块,并进行逐块拟合,将所有训练块转换为由几何特征的三平面以及用于解码带符号距离值(SDF)的多层感知器(MLP)构成的混合神经场。
同时,为了提高计算效率,使用变分自编码器将原始三平面压缩到潜在三平面空间。在潜在三平面空间中,使用扩散模型生成高质量和多样化的3D场景。
在场景扩展过程中,主要通过在去噪迭代过程中使用重叠三平面的特征样本来实现外推过程。即添加空块与当前场景重叠,并使用外推机制产生与现有场景协调融合的语义和几何过渡。
为了能更好地控制生成过程,BlockFusion引入了一个2D布局条件控制机制,允许用户通过操作2D对象边界框来精确确定场景元素的放置和排列。
BlockFusion在室内和室外场景中均能够生成具有高质量、几何形状多样化、几何一致性和无界的大型3D场景。
7月9日10点,智猩猩邀请到论文一作、东京大学工学系研究科电气系工学专攻在读博士吴桢楠参与「智猩猩AI新青年讲座」243讲,主讲《基于扩散模型和三平面外插法的无限大3D场景生成》。
