< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

思邈 2026-01-30 21:23:51 来源：量子位

新开源「模型蒸馏」技术

允中发自凹非寺

量子位 | 公众号 QbitAI

AI生成一张图片，你愿意等多久？

在主流扩散模型还在迭代中反复“磨叽”、让用户盯着进度条发呆时，阿里智能引擎团队直接把进度条“拉爆”了——

5秒钟，到手4张2K级高清大图。

针对Qwen最新开源模型，将SOTA压缩水平从80-100步前向计算，骤降至2步（Step），速度提升整整40倍。

这意味着，此前像Qwen-Image这样需要近一分钟才能吐出来的一张图片，现在真的成了“眨眼之间”。

目前，团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台，欢迎开发者下载体验：

HuggingFace：https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
ModelScope：https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

同时，该模型已经集成到呜哩AI平台上（https://www.wuli.art）支持调用。

上述这种近乎“物理外挂”般的蒸馏方案，究竟是怎么做到的？一起来看。

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2]，往往可以被归纳为轨迹蒸馏（Trajectory Distillation）。

具体来看，其本身主要思想是希望蒸馏后模型（student model）能够模仿原模型（teacher model）在多步生成的路径：

Progressive Distillation：student model需要直接对齐teacher model多次迭代后的输出；
Consistency Distillation：student model需要保证在teacher model的去噪轨迹上，输出相同的结果。

但在实践中，这类方法很难在低迭代步数下实现高质量生成。最突出的问题是生成图像模糊，这一现象在近期研究[3]中也得到了验证：

问题根源在于约束方式：轨迹蒸馏直接对student model的生成样本x_{student}做约束，使其在特定距离度量下对齐teacher预测出的高质量输出x_{teacher}，具体可以表达为：

其中$f(\cdot)$是特定的距离函数，x_{teacher}是teacher经过多次去噪以后得到的输出。

可以看出，这一Loss对所有图像patch一视同仁，对于一些特别细节的部分（如文字、人物五官）因占比低而学习不充分，student模型的细节常出现明显扭曲。

从样本空间到概率空间，直接降低缺陷样本生成概率

近期，基于概率空间的蒸馏方案，在较少步数场景（4~8步）获得了巨大的成功，基本解决了上述的细节丢失问题。

其中最有影响力的工作之一是DMD2算法，这里具体的算法方案可以参考原论文[4]。

DMD2将约束从样本空间转换到了概率空间，其Loss设计为：

这是典型的Reverse-KL的蒸馏Loss，其本身有一个显著的特性：

当p_{teacher}(x_0)\to 0，如果p_{student}(x_0) > 0，那就会有Loss \to +\infty。

这意味着：对于student model生成的每一张图片，如果它不符合真实图片分布（p_{teacher}(x_0)\to 0），就会导致Loss爆炸。

因此，DMD2这类算法的本质思想是——不直接告诉student“应该模仿什么”，而是让student自己生成图片，然后让teacher model指导“哪里不对”。

这种Reverse-KL Loss的设计，可以显著提升生成图片的细节性和合理性，已经成为当下扩散步数蒸馏的主要策略。

热启动缓解分布退化

尽管Reverse-KL可以显著降低不合理样本的生成概率，其本身也存在着严重的mode-collapse和分布过于锐化的问题[5]。

具体表现在多样性降低，饱和度增加，形体增加等问题上。这些问题在2步蒸馏的设定下变得尤为突出。

为了缓解分布退化问题，常见做法是给模型一个更合理的初始化[6]。在这里该团队使用PCM[7]蒸馏进行模型热启动。

实验表明，热启动后的模型的形体扭曲问题得到明显改善。

△左图为直接dmd训练，右图为经过PCM热启动后的2步模型，更好的初始化可以降低不合理构图

对抗学习引入真实数据先验

如上所述，DMD2本质上是“学生生成—>教师指导”，蒸馏过程不依赖真实数据，这种做法有优有劣：

优势：极大提升方案普适性（高质量真实数据难获取）；
局限：设定了天然上限——student永远学习teacher的生成分布，无法超越teacher。

同时由于loss设计的问题，DMD2蒸馏在高质量细节纹理（如苔藓、动物毛发等）上生成的效果，往往差强人意，如下图所示。

△左图为Z-Image 50步生成，右图为Z-Image-Turbo 8步生成，在苔藓细节纹理上DMD2不够细腻

为了增强2步student model在细节上的表现能力，阿里智能引擎团队引入了对抗学习（GAN）来进一步提升监督效果。

GAN的Loss可以拆解为：

生成Loss（让生成图骗过判别器）：

判别Loss（区分真假图）：

这里x_0是student生成的图片，x_{real}是训练集中引入的真实数据，D(\cdot)是判别器根据输入样本判断其为真实数据的概率。

简单来说，对抗训练一方面需要判别器尽可能判定student model生成的图片为假，另一方面需要student model尽可能欺骗判别器。

为了提升对抗训练的稳定性和效果，该团队做了如下改进：

真实数据混合策略：按固定比例混合高质量真实数据和teacher生成图，提升泛化度和训练稳定性；
特征提取器引入：使用额外的DINO模型作为feature extractor，提供更鲁棒的特征表示；
Loss权重调整：增加对抗训练在loss中的占比。

经实验验证，增加对抗训练后，student model的画面质感和细节表现发生显著提升：

△增加GAN显著提升画面真实性和细节

从应用效果出发，细节决定成败

极少步数扩散生成一直是一个重要的方向。

然而，单一算法方案受限于其本身的原理设计，往往不尽如人意。

阿里巴巴智能引擎团队正是从落地效果出发，逐个发现并分析蒸馏带来的效果问题（如扭曲、纹理确实），并针对性解决，才能使得最后的2步生成模型，最终达到工业场景可落地的水准。

然而，尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩；但在一些复杂场景下，受限于去噪步数，仍存在可改进空间。团队在后续的release中将会持续发布速度更快、效果更好的生成模型。

接下来，他们将持续推出，并迭代更多扩散加速技术，并开源模型权重。

而以上这些突破的背后，离不开他们长期以来的深厚积淀——

作为阿里AI工程系统的建设者与维护者，团队聚焦于大模型全链路工程能力建设，持续优化研发范式，专注大模型训推性能优化、引擎平台、Agent应用平台等关键组件，致力于为阿里集团各业务提供高效稳定的AI工程基础设施。

智能引擎团队始终坚持开放共享的技术文化，此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。

未来，他们期待与开源社区共同成长，希望将更先进的工程能力转化为触手可及的创作工具。

该团队所有技术后续都会同步在呜哩AI平台上线，无论你是专业设计师、内容创作者，还是AI爱好者，呜哩或许都能让你的创意即刻成像。

点击文末“阅读原文”，可前往呜哩官网体验！

参考文献：
[1] Progressive Distillation for Fast Sampling of Diffusion Models
[2] Consistency Models
[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
[4] Improved Distribution Matching Distillation for Fast Image Synthesis
[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
[6] Transition Matching Distillation for Fast Video Generation
[7] Phased Consistency Models

AIGC 阿里巴巴

思邈

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型2026-06-15
低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超2026-06-15
谷歌I/O最出圈的一幕，发生在抖音？？？2026-06-11
内蒙跑通AI逆袭新解法2026-06-09

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

传统轨迹蒸馏的“细节困境”

从样本空间到概率空间，直接降低缺陷样本生成概率

热启动缓解分布退化

对抗学习引入真实数据先验

从应用效果出发，细节决定成败

相关阅读

U设计周大谈AI时代的设计，不懂点大模型都落伍了

阿里提供中文搜索新选项！AI引擎+达摩院黑科技，你要试试吗？

AIGC，沉浸式学习体验新转机｜量子位·视点 x 幻霄科技

中国AIGC广告营销产业全景报告：五大变革四大影响，生成式AI让只为「一个人」打造广告成为可能

一天搞定50条视频！AI替你打工的流程有人已经跑出来了

今日直播：从草稿到样品图，只需要一步AI｜AI产品测评

热门文章

GPT-5.6首批实测来了！精准狙击Mythos

英特尔锐炫™ Pro B70 GPU亮相MPTS2026，共探大视听时代AI创作新范式

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

3D创作迎来ChatGPT时刻：Meshy发布全球首个3D AI Agent

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付