绑定手机号
确认绑定
三维虚拟人在数字时代扮演了重要的角色,但是创建一个三维虚拟人的过程非常复杂,包括体型生成,具体外观生成,以及动作序列的生成等。该过程涉及到图像处理技术、图像生成技术和深度合成技术等,并且这些技术需要成对的图像数据来进行有监督的训练,这不仅限制了生成的丰富性,而且使生成过程的灵活性降低。
与图像数据相比,自然语言作为友好的控制信号,可以更方便地控制三维虚拟人生成及动作合成。视觉语言模型CLIP是一种使用大规模图像-文本对训练的视觉语言预训练模型。通过对图像的直接监督,CLIP 在零次学习文本驱动的图像生成方面取得了巨大成功。
基于这一特性,南洋理工大学在读博士洪方舟等人提出了一个文本驱动的三维虚拟人创建框架AvatarCLIP。该框架结合大规模预训练模型CLIP,根据文字描述身体形状、外观和动作来生成三维虚拟人,使非专业出身的用户能够自定义三维虚拟人的体型和外观 。此外,利用在运动 VAE 中学习的先验知识,洪博等人还提出了一种零次学习文本引导的动作合成方法,用于三维虚拟人动作合成。
9月19日晚7点,「AI新青年讲座」第159讲邀请到南洋理工大学MMLab实验室在读博士洪方舟参与,主讲《零次学习文字驱动的三维虚拟人生成与动作合成》。