零次学习文字驱动的三维虚拟人生成与动作合成

课程回放

智猩猩AI新青年讲座 2022/09/19 19:00:00

课程讲师

洪方舟南洋理工大学 MMLab实验室在读博士

导师为刘子纬教授，此前在清华大学软件学院获得学士学位，2021年获得谷歌博士奖学金；研究兴趣为三维计算机视觉，尤其是三维表达学习及其与计算机图形学的交叉。

洪方舟

南洋理工大学 MMLab实验室在读博士

课程提纲

基于文本生成方法的背景介绍
文本驱动的三维虚拟人创建框架AvatarCLIP
基于视觉语言预训练模型CLIP的体型及外观生成
零次学习文本引导的动作合成

课程简介

三维虚拟人在数字时代扮演了重要的角色，但是创建一个三维虚拟人的过程非常复杂，包括体型生成，具体外观生成，以及动作序列的生成等。该过程涉及到图像处理技术、图像生成技术和深度合成技术等，并且这些技术需要成对的图像数据来进行有监督的训练，这不仅限制了生成的丰富性，而且使生成过程的灵活性降低。

与图像数据相比，自然语言作为友好的控制信号，可以更方便地控制三维虚拟人生成及动作合成。视觉语言模型CLIP是一种使用大规模图像-文本对训练的视觉语言预训练模型。通过对图像的直接监督，CLIP 在零次学习文本驱动的图像生成方面取得了巨大成功。

基于这一特性，南洋理工大学在读博士洪方舟等人提出了一个文本驱动的三维虚拟人创建框架AvatarCLIP。该框架结合大规模预训练模型CLIP，根据文字描述身体形状、外观和动作来生成三维虚拟人，使非专业出身的用户能够自定义三维虚拟人的体型和外观。此外，利用在运动 VAE 中学习的先验知识，洪博等人还提出了一种零次学习文本引导的动作合成方法，用于三维虚拟人动作合成。

9月19日晚7点，「AI新青年讲座」第159讲邀请到南洋理工大学MMLab实验室在读博士洪方舟参与，主讲《零次学习文字驱动的三维虚拟人生成与动作合成》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...