- 图片分辨率的重要性
- 现有的文生图模型的局限性
- 大图生成的挑战以及相关工作
- 基于级联扩散的大图生成模型Ultrapixel
- 总结分析与未来工作展望
目前许多文生图模型展现出了生成高质量图像的出色能力,丰富了设计、影视等应用领域。同时,由于先进的显示技术和数字艺术等专业领域对视觉效果日益增长的需求,生成兼具美感与超高清分辨率(如4K、6K)的图像显得尤为重要。然而超高分辨率图像生成面临着巨大的挑战,例如语义规划时复杂性增加、细节合成困难以及大量的训练资源需求。
对于以上问题,来自香港科技大学的在读博士任菁菁联合华为诺亚方舟实验室等研究人员共同提出了基于级联扩散模型的超高分辨率图像生成模型Ultrapixel,实现了从1K到6K任意分辨率图像的生成,同时保持了计算效率和图像质量。相关论文为《UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks》。
UltraPixel是一种创新的高分辨率图像生成方法,它利用级联扩散模型、语义引导、隐式神经表示和高效参数共享等技术,以生成不同分辨率的高质量图像。
首先,UltraPixel接收用户输入的文本信息,这些文本信息作为生成图像的指导。根据指导,算法初始化一个低分辨率的图像表示,这个表示将作为后续高分辨率图像生成的起点。
UltraPixel利用级联扩散模型从上述低分辨率图像特征开始,逐步上采样至目标分辨率。每个阶段的上采样都依赖于前一阶段的输出,确保图像在不同分辨率之间的平滑过渡。同时,引入隐式神经表示来实现图像的连续上采样。这种表示方法能够更灵活地处理不同分辨率的图像,并在生成过程中保持图像细节和真实感。
在高分辨率图像生成过程中,UltraPixel将低分辨率图像中的语义信息融入到高分辨率图像中共享大部分参数,确保生成的图像既符合用户输入的文本主题,又具备丰富的细节和清晰的轮廓,这种参数共享机制也极大地提高了训练和推理的效率。
为了在不同分辨率下保持生成图像的质量,UltraPixel引入了尺度感知归一化层。这些归一化层能够自动调整参数以适应不同分辨率的图像,确保生成图像的一致性和稳定性。
最终,算法输出高分辨率、高质量的图像。这些图像在细节、清晰度和真实感方面均达到或超过现有方法的水平。
9月4日10点,智猩猩邀请到论文一作、香港科技大学(广州)在读博士任菁菁参与「智猩猩AI新青年讲座」251讲,主讲《超高分辨率图像生成》。