绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
0
0
该死,我又心动了,这都能行
分类: AI技术
2022-06-14 10:53:26

大家好!

多模态是近几年的热点,文本到图像的合成算法,更是卷上了天。

谷歌的 Imagen 超越 OpenAI 的 DALL・E 2,成为了新的 SOTA。

Imagen 文本到图像的生成可谓是天马行空,能够生成各种有趣的图片。

比如给 Imagen 算法输入:

一张背着旅行包的柴犬户外骑行照,它戴着墨镜,头顶沙滩帽。

泰迪熊的 400 米蝶泳首秀。

愤怒的小鸟。

Imagen 算法原理如下:

首先,算法会采用 frozen T5-XXL 编码器对接收到的文本进行编码。

输出送给文本转图像的扩散模型,并输入给两个超分辨率扩散模型。

文本转图像的扩散模型输出的图像分辨率是 64 * 64的,然后再经过两次超分,得到最终 1024 * 1024 的图像。

项目仓库 3 月份就建好了,不过直到 6 月,也就是这两天,才正式开源。

项目地址:

https://github.com/lucidrains/imagen-pytorch

对这类算法感兴趣的小伙伴,一定要去试试,效果提升很不错~

在我之前介绍 DALL・E 2 的就有小伙伴脑洞大开留言道:

既然能用文本生成图片,那是不是也能用文本生成视频?

CogVideo 它来了!

咱们先看下 CogVideo 的文本生成视频的效果。

一个视频都是根据一段文本描述生成的。

比如输入文本:

一个男人在海里奔跑

CogVideo 算法会生成一系列的图片,最终生成视频。

CogVideo 算法的流程如下:

第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;

这个算法是文本生成图片的,大家可以在这里体验第一版的 CogView 效果:

https://wudao.aminer.cn/CogView/index.html

我试了一下,齐刘海的狮子,它可能理解不了,哈哈。

第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。

给大家放几组效果,感受一下。

不过这个代码还没有开源,只是建了仓库,可以先 star 标记一下。

https://github.com/thudm/cogvideo