智猩猩

又整新活，AI 杀麻了！

分类： AI技术

2022-04-22 20:55:28

大家好，又是一个整活的周末。

年底了，各种有趣好玩的算法，突然多了起来。

今天跟大家聊聊三个新出的 AI 算法，每一个算法都可以单独写一篇文章。

不过为了大家看得过瘾，一次写全吧。

Latent Diffusion

超分辨率重建算法，再添一员！

之前写过一个在二次元图片上表现很好的 Real-ESRGAN 算法。

这个算法，也是我上期视频里投票最高的，想让我做成视频教程的算法之一。

今天介绍的 Latent Diffusion 算法功能类似，不过主要针对的是真实场景。

我们看下效果：

这个效果，真的很顶了！

当然这个算法不仅仅是超分，还能进行 inpainting。

可以 P 掉我们图片里想要去掉的东西。

这就有一个比较不错的场景，比如情侣拍照，想去掉旁边的路人，就可以使用这个算法。

不过算法的效果是否稳定，就得调研看看了。

刚刚开源 5 天，新鲜热乎。

项目地址：
https://github.com/CompVis/latent-diffusion

GLIDE

今年年初的 DALL-E 想必大家都知道，当时我也写过一期硬核的算法讲解文章。

保姆级教程：硬核图解Transformer

最近，OpenAI 又有了新动作，开源了 35 亿参数的新模型 GLIDE。

我们先看其中一项功能，文字转图片任务：就是根据一段文字描述，生成对应描述的图片。

这回效果很惊艳，举个例子。

a hedgehog using a calculator

刺猬使用计算器，这是多么离谱的输入，但是结果表现很不错。

a corgi wearing a red bowtie and a purple party hat

一只戴着红色蝴蝶结和紫色派对帽的柯基。

更多效果：

除了从文本生成图像，GLIDE 还有图像编辑功能。

根据文字描述，修改图像。

总之，很强！

这个和我上个月发的多模态 NÜWA（女娲）算法功能类似。

女娲算法，杀疯了！

不过 NÜWA 至今还没有开源，我被啪啪打脸了。

OpenAI 的 GLIDE 不存在这个问题，直接开源。

也是新鲜热乎的。

项目地址：
https://github.com/openai/glide-text2im

更良心的是，还给大家配置了 colab。

不用配置环境，能登陆使用 google 的，可以直接运行看效果。

JoJoGAN

JoJo 没错，就是这个。

JoJoGAN 就是将让人脸动漫化。

我还脑补了下，鬼灭要是也都是 JoJo 的画风，是不是得这样。

有点辣眼睛，我们还是看算法效果吧。

输入一副图片，根据动漫的画风，生成对应画风的漫画人脸。

JoJoGAN 其他生成效果展示：

这效果你打几分？

还是新鲜热乎，刚刚开源。

项目地址：
https://github.com/mchong6/JoJoGAN

这个工程也提供了 colab，除了这个，还有 web 试玩地址：

https://huggingface.co/spaces/akhaliq/JoJoGAN