24 3月 2023

AI画手会画手了!Stable Diffusion学会想象,卷趴人类提示工程师

 



  新智元报道  

编辑:Aeneas 好困
【新智元导读】趁我们不注意,AI画手一直在悄悄迭代,最近新推出的Stable Diffusion Reimagine和Midjourney v5功能如此强大,不仅要淘汰人类画师,连提示工程师的饭碗怕是都要丢了。

这次,人类画手是真要失业了。

你敢相信,这张电影剧照一样的图片,居然是AI画的?

Midjourney v5生成的光影和皮肤效果

更邪乎的是,AI画手还会自己动脑子。

最近新出的Stable Diffusion Reimagine,只要你给它一张图,它就会无限开发自己的想象力。你要多少版,它就给你生成多少版。

有了这个AI,无论要求多奇葩,要改多少次,甲方爸爸想要的方案,设计师和画手几分钟就甩给他。

logo放大的同时能不能缩小一点?改!

想要五彩斑斓的黑?改!

就是这么气定神闲,游刃有余。

唯一要担心的就是,千万别让甲方爸爸知道……

AI学会想象,人类连prompt的工作也要丢了?

Stable Diffusion这个AI画图工具,咱们都很熟悉了。

昨天,Stability AI又曝出一个震撼消息:它把Stable Diffusion大大改进了一把。

这次新推出的产品,叫做Stable Diffusion Reimagine。

敢叫Reimagine,听起来就很震撼。

没错,现在你只要上传一张图片,SDR就可以根据这个图片创作无数张新图。

而且它是真的想象,真的创作,并不是照抄原始图片里的面孔或物体,而是根据原始图像的灵感,重新创作新图。

体验地址:https://clipdrop.co/stable-diffusion-reimagine

我们都知道,在以往的AI作图工具中,prompt的质量,往往决定着你能画出图片的上限。

很多人说,会不会prompt,将成为使用AI的庸人和天才的分水岭。同样,提示工程师也把prompt视为自己打开AI大奖的秘密武器。

去年在科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,就拒绝分享出自己在Midjourney所用的提示。据说,他花了80多个小时,在900次迭代中,才完成了这幅画作。

而现在,不需要多复杂的prompt,只需要把一张图片丢给AI,算法就可以创造出我们想要的无穷多变化。

轻点一下鼠标,你的卧室立马大变样。

技术原理

这个全新的Stable Diffusion Reimagine,是基于stability.ai创造的一种新算法。

经典的Stable Diffusion模型,都是被训练成以文本输入为条件。

而Reimagine中,用一个图像编码器取代了原来的文本编码器。不是根据文本输入来生成图像,而是从图像中生成图像。在编码器通过算法后,还加入一些噪音,以产生变化。

这种方法产生了外观相似、但细节和构图不同的图像。

而与图像到图像的算法不同,原始图像首先就被完全编码,这意味着生成器并未使用来自原始图像的任何一个像素。

而且,Clipdrop还能提升图片的分辨率。用户只需上传一张小图,就能获得一张至少有两倍细节水平的图片。

据悉,Stable Diffusion Reimagine的模型很快就会在StabilityAI的GitHub上开源了。

发挥不稳

当然,Reimagine也存在一定的局限性。

最大的缺陷就是,它不会根据原始的prompt创作图像。

另外呢,它的发挥也没有那么稳定,有时很惊艳,有时会比较拉跨。

另外,虽然Stability AI在模型中安装了一个过滤器,阻挡不适当的请求,但它也不是万能的。

另外,AI模型都无法避免的偏见问题,Reimagine也不能避免,Stability AI目前正在收集用户的反馈,希望能减轻偏见。

网友已玩疯

而网友们当然已经迫不及待地玩上了。

左上角(或最左侧)是原始文件,而其他图片都是受原始文件启发后,「重新想象」的创作。

从分享的作品上来看,效果最为突出的确实是设计:

Stable Diffusion Reimagine可以在不改变整体氛围的情况下,重新设计整个场景。

看得出来,Stable Diffusion Reimagine在手绘作品的处理上,表现得非常出色。

这位网友表示,它对「感觉」理解得相当好,自己很喜欢这种自由发挥的效果。

此外,Stable Diffusion Reimagine对二次元角色拿捏得也不错。

在真实场景中,有网友在尝试了自己的自拍之后大赞称:「我打赌你们绝对猜不到哪张照片是真的。」

然而,小编在尝试一些「名场面」时,结果却是下面这样的……

首先输入《九品芝麻官》的「我全都要」:

然后让Stable Diffusion「重新想象」一下:(这结果多少有些杀马特在里面)

换成「威尔·史密斯在奥斯卡现场怒扇克里斯洛克耳光」试试?

啊,这……

或许是我们的打开方式不对,毕竟,Stability AI的主要目的帮助设计师们只用一张照片就能获得类似的备选方案。

那么,我们就用它们给出的案例来做个测试吧。

注意看,下面是官方的演示:

而下面这个是同一张图的「复现」效果……

显然,Reimagine生成的图片看起来远没有那么逼真,而且比例也很奇怪。

在进行了数次尝试之后,我们仍然没有得到一张看起来完全真实的图像。

对此,有网友在尝试之后也表示,Stable Diffusion Reimagin生成图片的质量跟Midjourney的差距还是很大的。

因为Midjourney可以通过社区生成的大量反馈进行优化,而这一点是Stable Diffusion难以比拟的。

AI画手终于会画手了

而另一强大的AI画手——Midjourney,当然也没闲着。

本周三,Midjourney宣布:我们已经升级到第5版了!

比起之前的版本,V5版的图像质量更高、输出更多样化、有更广泛的风格、支持无缝纹理、有更宽的纵横比、有更好的图像提示,以及更宽的动态范围……

Midjourney V5的效果怎么说呢,AI艺术家们给出的评价是——「太逼真,太完美,以至于令人毛骨悚然。」

「仿佛一个近视眼忽然戴上了眼镜——画面忽然间就变成4k的了。」

网友评价:因为每次都太完美,太惊艳,到最后多巴胺都停止分泌了

可以看出,Midjourney自2022年3月首次面世以来,在图像细节上一直在不停进步。去年8月推出了第3版,11月推出了第4版,今年3月就推出了第5版。

输入这样一个prompt「一个肌肉发达的野蛮人在 CRT 电视机旁手持武器、电影、8K、演播室照明」,v3、v4、v5生成的图像依次如下——

Midjourney v3(左)、v4(中)和 v5(右)

但最惊艳的提升,还是对人手的处理。

nice!

众所周知,Midjourney、Stable Diffusion和DALL-E等模型, 都经过了数百万人类艺术家作品的训练。

为了构建LAION-5B数据集,AI研究者指导的机器人爬取了数十亿个网站,包括DeviantArt、ArtStation、Pinterest、Getty Images等的大型图像库,并收集了数百万张照片。

然而即便如此,AI画手依然没学会画手。

即便是人和场景都已经达到真假难辨的程度,只要放大手部,基本就是一秒破功。

网友们纷纷表示,那些从不露手的「美女自拍」,多半就是AI干的了。

这是为什么呢?

Stability AI的解释是,在AI数据集中,人类的手不如面部显著;手在原始图像中往往很小,很少以大的形式出现。

而佛罗里达大学AI和艺术教授Amelia Winger-Bearskin的解释是AI们并不能真正理解「手」是什么,不理解它在解剖学上与人体有什么关系。

而Wieland发现,Midjourney v5在大多数时候,都能画出5个手指的手,而不是7到10个指头的。

而AI会画手之后,网上出现的任何照片,都真假莫辨了。

如果非要说Midjourney V5有什么缺点,大概就是太过逼真和完美,也就让我们丧失了那种多次尝试后找到最佳结果的快感。

(昨天试了多次终于用文心一言画出完美林黛玉的小编表示,非常赞同)

这就是老虎机效应(near-miss)——就差那么一点儿,才是让我们继续玩下去的动力。

参考资料:
https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/
https://stability.ai/blog/stable-diffusion-reimagine







沒有留言: