绑定手机号
确认绑定
GAN在2D图像生成上大放异彩,但在3D场景上却无能为力。有研究者提出了一种3D感知图像合成模型,可以从多个视图图像中学习3D的场景表示,例如体素、NeRF等。其中,基于NeRF的方法引起人们的关注,也产生了许多科研成果。然而现有的方法存在一个关键的挑战:无法保证视图之间的几何约束,导致无法生成多视图一致的图像。
悉尼科技大学ReLER Lab在读博士张轩梦等人对上述问题进行分析,提出多视角连贯性生成式对抗网络MVCGAN。利用底层的三维几何信息,解决视觉之间几何约束的问题,强制使图像对的光度一致,来明确视图之间的对应关系,鼓励模型推理出正确的3D形状,并优化训练过程,使生成器不仅可以学习到2D图像的流形,还能保证底层3D的正确性。
此外,张轩梦博士等还设计了一种两阶段训练策略,来生成具有精细细节的高分辨率图像。数据表明,在CELEBA-HQ、FFHQ和AFHQv2三个数据集上,MVCGAN在3D感知图像合成上达到了最先进的性能。
7月20日晚6点,「AI新青年讲座」第139讲邀请到悉尼科技大学ReLER Lab在读博士张轩梦参与,主讲《多视图统一的3D感知图像生成网络MVCGAN》。