超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单
免费版一天能画400张
明敏 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
Stable Diffusion最强版本,来了!
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/448b0fe8c22da2c6483bb934eb74f2c3.png)
刚刚,SDXL 1.0正式发布,可免费在线试玩。
效果上,无论是以假乱真的写实大片:
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/43f3dcccadb43ae30ec980e2791d17c4.png)
超现实的熊猫喝啤酒:
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/f392895d9abfa7e51595ce7e296536f5.png)
还是赛博朋克漫画,都非常nice~
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/17a067e5ce72404017a2b392cb5486fe.jpeg)
Stability AI表示,SDXL 1.0能生成更加鲜明准确的色彩,在对比度、光线和阴影方面做了增强,可生成100万像素的图像(1024×1024)。
而且还支持在网页上直接对生成图像进行后期编辑。
(有一股和Midjourney、Firefly打擂台的味儿了)
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/be8307d7a9abf32adbae5ad06893671a.gif)
网友们已经按捺不住上手试玩了~
和基础Stable Diffusion相比,SDXL 1.0生成结果更加准确和逼真。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/fe217b3632e3d6b8d0b1009e444d7803.png)
而且官方表示,提示词也能比之前更简单了。
这是因为SDXL 1.0的基础模型参数量达到了35亿,理解能力更强。
对比基础版Stable Diffusion,参数量只有10亿左右。
由此,SDXL 1.0也成为当前最大规模的开放图像模型之一。官方甚至直接说这就是世界上最好的开放图像模型。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/c7b8023108f095d3d96cce68920232b9.png)
话不多说,我们来上手体验了~
把马斯克印在青花瓷上
SDXL 1.0在操作上很便捷,直接输入prompt即可,还能从下面勾选风格、尺寸参数等。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/bb240e489e856e41a1254a8f827a6f68.png)
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/6a894dcdf73a89deb18bd34c4f9c50a7.png)
一次生成默认是出4张图,如果不满意还可以点下方“加号”让它继续画。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/30e700747f26c644bce856c97096ca6f.png)
官方介绍说,现在让SDXL 1.0生成大作,无需再加入“杰作”这种提示词了。
让它生成一幅日漫风格的图像,画风非常贴合,而且在光影的处理上也更加自然了。
1990s anime low resolution screengrab couple walking away in street at night
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/8ac4bdf1c88260e4dd401781977625e8.png)
或者是一幅风景照?也能以假乱真了。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/b799895b8213051998fda3a476eaf490.png)
甚至是让马斯克站在中式庭院里,抬头斜望着天空……
Elon Musk in an ancient Chinese palace
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/1e0f038737bea7a575f5b1ba2a760294.png)
或者是把苹果收购了?
在「WWDC」上,他举着全新款iPhone向人们展示,身边还围满了记者和粉丝(doge)。
Elon Musk releasing new iPhone at WWDC
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/445cdf914be6427a9709e87bdbc4fbe8.png)
除了这些老马的洋葱新闻之外,绘画风格的作品效果也不错。
左边的是齐白石水墨风格,而右边是一幅漫画。
左:Elon Musk delivering a speech, ink painting, Qi Baishi style
右:Elon Musk comic
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/514d114a41322b3ade8a613b0647a2ab.png)
除了绘画,也可以把老马放进我们的元青花。
Elon musk in the shape of Yuan Dynasty Blue and White Porcelain
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/8a7fcc16e3793432ffb193a3f335222e.png)
上面展示的这些「老马的故事」,用的prompt都比较简单。
但从效果并没有因为提示词简单而拉胯,这也与官方的说法相印证。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/2da91dcb7bcebb4767f6ee595f4805b7.png)
不过我们还是想看看,如果用更加复杂精致的prompt,会是什么样子?
我们找到了Midjourney创作的一张老马在苏联担任汽修工人的珍贵照片,重新喂给MJ,让它生成个prompt。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/899bab8122d62e8b5178beca583b7184.png)
MJ生成了下面这样的prompt,我们就用它来测试SDXL:
Elon Musk(这里MJ生成的是a man) standing in a workroom, in the style of industrial machinery aesthetics, deutscher werkbund, uniformly staged images, soviet, light indigo and dark bronze, new american color photography, detailed facial features
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/eba7ff2b59392fff0976ec85f957b629.png)
风格完全符合我们的预期,细节也还不错。
再来一个复杂prompt的图作为收尾,同样是MJ根据此前的作品生成后喂给SDXL。
elon musk eating food with chopsticks, in the style of peter coulson, cross-processing/processed, pinhole photography, herb trimpe, james tissot, transavanguardia, spot metering
左边是SDXL的作品,右边是MJ的原版,大家可以对比一下。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/a198359a9a111d219b4ca0f67231ed52.png)
提示词同样支持中文,不过似乎会在给出结果中倾向于国风,准确性可能也会受到影响。
比如输入“一只老虎在海边”后,意外给出了一个国风妹子。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/8174e1dfa05fdcf671bd10f35149a4a3.jpeg)
效果大家都已经看到了,那么SDXL生成图片的速度如何呢?
对于免费用户来说,时间主要花费在排队上了,不过也不会等待太久。
在5.5秒的时间内,排队人数从160减少到了99。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/574b064b86f52d710aed69a6f51cf723.gif)
除了生成图像外,SDXL还提供了很多后期编辑功能。
具体来说,包括去除背景、细节处理、画幅扩增等等。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/1b0ca4cbb32fc862e2d5af5e10f4b9ec.png)
这些功能是SDXL所在的Clipdrop平台上已有的,而SDXL可以一键将生成的图片传入对应模块。
这里我们选择背景消除功能展示一下,可以看出边缘的细节几乎没有什么破绽。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/9b4e9ee54efefe70d8b58d43f6c16209.gif)
目前,SDXL的免费使用额度还是比较高的,登录后每个账户每天可生成400张(需要排队)。
月付的价格是9美元每月,年付则相当于7美元(约50元人民币)每月,包含了1500张每天的SDXL额度,且无需排队。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/c4ea3e4817e9dee86bda79bfea2de722.png)
不过不同区域的价格似乎也有所区别,比如阿根廷的年付价格平摊到每月是742比索(约合19.4元人民币或2.7美元)。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/9118d8145de3e782479dea6c9acaaa5a.png)
此外,由于付费版本实际上是Clipdrop平台的Pro订阅,所以也包含了该平台的其他功能。
除了Pro账户,还有API版本可供开发者使用(可以访问Stability AI、Amazon等平台)。
开放图像模型中的“最大杯”
在最新博客中,Stability AI介绍了SDXL 1.0的更多技术细节。
首先,模型在规模和架构上都有了新突破。
它创新性地使用了一个基础模型(base model)+一个细化模型(refiner model)。
二者的参数规模分别为35亿和66亿。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/96c3c6ace5d5baf67ecb0969291a8feb.jpeg)
这也使得SDXL 1.0成为目前规模最大的开放图像模型之一。
Stability AI创始人莫斯塔克(Emad Mostaque)表示,更大规模的参数量能让模型理解更多概念,教会它更深层次的东西。
同时在SDXL 0.9版本还进行了RLHF强化。
这也是为什么现在SDXL 1.0支持短提示词,而且能分清红场(the Red Square)和一个红色的广场(a Red Square)。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/8f22ddf73596b43bec2630acb96a0163.png)
在具体合成过程中,第一步,基础模型产生有噪声的latent,然后由细化模型进行去噪。
其中基础模型也可以作为独立模块使用。
这两种模型结合能生成质量更好的图像,且不需要消耗更多计算资源。
官方介绍SDXL 1.0可以运行在8GB VRAM的消费级GPU上,或者是云端。
除此之外,SDXL 1.0在微调也有了提升,可以生成自定义LoRAs或者checkpoints。
Stability AI团队现在也正在构建新一代可用于特定任务的结构、风格和组合控件,其中T2I/ControlNet专门用于SDXL。
不过目前这些功能还处于beta测试阶段,后续可以关注官方更新。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/69c3ba7a2dbe3be6ddee24cc94eeec92.png)
总结来说,文生图都是一个逐渐迭代的过程,SDXL 1.0的目标就是让这个过程更加简单。
莫斯塔克表示,现在只需要5-10张图片,就能快速微调模型。
从用户反馈中也能看到,相较于Stable Diffusion,SDXL 1.0更能让大家满意。
![超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单](/wp-content/uploads/replace/0bea25e638e6b971add2305733b34a29.jpeg)
实际上,从今年4月以来,Stability AI就发布了SDXL最早的测试版。
6月份开始进行内测,前段时间发布了0.9版本,当时就预告了会在7月发布一个开放版本,即最新的1.0版本。目前相关代码权重已经发布在GitHub上。
而且Stability AI机器学习负责人表示,相较于SDXL 0.9,1.0版本降低了对算力的需求。
感兴趣的童鞋快去试玩吧~
试玩入口:
https://clipdrop.co/stable-diffusion
GitHub:
https://github.com/Stability-AI/generative-models
参考链接:
[1]https://stability.ai/blog/stable-diffusion-sdxl-1-announcement
[2]https://venturebeat.com/ai/stability-ai-levels-up-image-generation-launch-new-stable-diffusion-base-model/
[3]https://techcrunch.com/2023/07/26/stability-ai-releases-its-latest-image-generating-model-stable-diffusion-xl-1-0/
- 几何朗兰兹猜想被解决!历时30年、证明论文达800余页,中国学者陈麟系主要作者2024-07-23
- 开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1,“新趋势已显而易见”2024-07-25
- GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费2024-07-24
- 英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线2024-07-23