让Stable Diffusion秒出图!清华硕士加速神器爆火,已有公司接入
推理阶段只需4步
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
AI图像生成,已经进入了秒速级别,只要4步推理就能完成绘制,最快更是能在1秒之内完成。
现在,清华大学联合HuggingFace的研究人员,推出了全新的绘图模型加速模块。
作者给出的体验版当中,点击生成按钮后,模型只用了几秒钟就绘制出了4张清晰的图像。
这个加速模块叫做LCM-LoRA,发布后不久就斩获了2k+次GitHub星标。
它不仅加速能力强、泛化性能好,适配的模型也很广泛,SD系和LoRA模型都能用它来加速。
团队基于LCM-LoRA自行优化的文生图模型已在HuggingFace上开放体验,图生图模型也推出了CoLab等版本。
AI绘图工具迅速接入
LCM-LoRA开源后不久,就有AI绘图工具厂商Scenario宣布将基于它推出“实时绘图”功能。
Scenario的CEO还在上亲自展示了即将上线的实时绘图功能DEMO。
只见一边在绘制草图,另一边AI就把相应的画作绘制好了,时间上几乎同步。
调整提示词和有关参数,模型响应得也是干脆利落。
这些DEMO发布后,引发了众人的一致赞叹。
那么,LCM-LoRA这个加速模块到底有多强,又是怎样实现的呢?
“跳步”降低内存开销
LCM-LoRA将LoRA引入潜在一致性模型(LCM)的蒸馏过程,显著减少了训练内存开销,从而提高性能。
而LCM是从潜扩散模型(LDM)中蒸馏出来的,“蒸馏”的过程也可以看做是对扩散模型的微调。
它的核心思想是在图像的隐变量空间中学习一致性映射函数,该函数可以直接将扩散过程中的任意点映射到终点,即微分方程的解。
通过这种一致性映射,LCM可以跳过迭代采样过程,直接进行少步甚至一步采样,从而极大地加速了图像的生成。
而隐变量空间操作相比基于像素空间的方法,计算复杂度和内存需求也更低。
结合LoRA后,只需要训练低秩分解矩阵,可训练参数量和内存开销进一步减少,应用范围也从单纯的文生图扩展到了图生图和视频生成。
最直观体现的就是我们看到的秒速出图,而训练时间上,LCM-LoRA优化后的模型在A100上训练只需32个GPU时。
训练时间缩短的背后,也于训练参数量大幅减少密切相关:
- SD-V1.5全量参数为9.8亿,使用LoRA后可训练参数减少到6750万,约减少了93.1%。
- SSD-1B参数从13亿减少到1.05亿,约减少了91.9%。
- SDXL参数从35亿减少到1.97亿,约减少了94.3%。
不仅是训练消耗的降低,推理过程中的步数也大幅减少,一般只需要4步推理就能绘制出质量不错的图像。
有时甚至只要一步就能完成,用时还不到1秒,FID分数(越低越好)在50以下。
不仅加速性能优异,LCM-LoRA的适配性也十分广泛。
LCM-LoRA训练得到的LoRA参数又称为加速向量,可以数据集上微调得到的LoRA参数直接线性组合,不需要额外训练。
这种组合方式使得LCM-LoRA成为一个可直接插接到各种微调模型中的通用图像生成加速模块。
作者简介
LCM和LCM-LoRA论文的两位主要作者是来自清华大学交叉信息研究院的研究生骆思勉(Simian Luo)和谭亦钦(Yiqin Tan)。
清华叉院的黄隆波副教授、李建副教授和赵行助理教授也参与了这两项研究。
在LCM-LoRA的工作中,来自HuggingFace的研究人员亦有贡献。
论文地址:
[1]https://arxiv.org/abs/2310.04378
[2]https://arxiv.org/abs/2311.05556
开源项目页:
https://github.com/luosiallen/latent-consistency-model
文生图在线体验(HuggingFace):
https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
图生图Colab笔记:
https://colab.research.google.com/github/camenduru/latent-consistency-model-colab/blob/main/latent_consistency_model_webui_colab.ipynb
- 英伟达5090被曝32G大显存、核心是5080的两倍!网友:怕不是B200双芯封装技术下放2024-09-30
- DIY计算器装ChatGPT操作系统!终极作弊神器,代码已开源2024-09-24
- 零代码基础也能复刻!大模型化身AI售前助手,百页万字标书秒解读2024-09-24
- o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题2024-09-17