- 课程回放

师从Philip Chi-Wing Fu教授;主要研究方向包括AIGC、3D生成等;曾在CVPR、TPAMI、ECCV、ICLR、NeurIPS、AAAI等顶级会议和期刊发表论文十余篇;担任CVPR、ICCV、ECCV、ICLR、NeurIPS、TPAMI等顶会和期刊审稿人;曾获2022年微软学者提名。
- 文本到 3D 内容生成的研究及难点
- 快速的文字到形状生成方法 ISS
- 文字引导的 3D 形状风格化
- 利用图像扩散模型提升生成质量和类别范围
基于文本的生成任务是当前的一个研究热点。其中,文本到三维形状生成主要是利用深度学习模型和生成模型,将文本描述映射到三维形状的表示空间,并生成符合文本描述的三维形状或物体模型。现阶段,该任务仍然具有挑战性,原因是缺乏大规模的文本-形状配对数据、这两种模态之间存在实质性的语义差距,以及三维形状的结构复杂性。
来自香港中文大学、香港大学以及湖南大学的研究者们,在 ICLR 2023 上提出了一种新的文本引导 3D 形状生成方法(ISS)。该方法使用图像作为阶梯来连接文本和 3D 形状,无需成对的文本和 3D 数据即可生成 3D 形状。其核心是一种两阶段特征空间对齐策略。首先,将 CLIP 图像特征映射到 SVR 模型的细节丰富的 3D 形状空间,然后通过鼓励渲染图像和输入文本之间的 CLIP 一致性,将 CLIP 文本特征添加到 3D 形状空间。
此外,为了扩展 SVR 模型的生成能力,他们设计了一个文本引导的 3D 形状风格化模块,可以生成新颖的结构和纹理来创造出更有趣的结果。同时,他们利用预训练的文本到图像扩散模型来增强生成多样性、保真度和程式化能力。实验结果表明,ISS 在生成质量和与输入文本的一致性方面优于最先进的方法。
6月6日晚8点,「AI新青年讲座」第212讲邀请到 ISS 一作、香港中文大学在读博士刘政哲参与,主讲《以图为梯:从文字到 3D 形状生成》。

- 生成的3D物可以直接在场景中使用吗?修改难度大吗? 2023-12-07 15:26:41我觉得下一步生成3D形状很多质量已经不错了。那可很有可能就是在下一步的话,就是这个3D场景的一个生成,我觉得也是一个比较有意思的方向,修改难度大,就是说如果放在场景中修改难度大不大,就现在关于场景的话... 阅读全文 〉
- 为什么较大的CFG能获得更大的多样性呢? 2023-12-07 15:26:41这是class fair guidance问题?较大的。可以看公式吧,就是class fair guidance公式的话。相当于是第一项是那个,比如说就是说这样说吧,就是a加上一个G倍的a减B那个这个... 阅读全文 〉
- 如何将3D的相机位置与2D数据对应呢?如果对某个特定的3D结构有多个相机位置,怎么用diffusion生成的2D数据去监督?对应关系怎么建立呢? 2023-12-07 15:26:41相当于是不管是这个ISM的这个ISS里面这个clip consistent loss还是后续ISS++里面这个SDS loss都是需要render这个不同view的图片。然后render出来任意的一个... 阅读全文 〉