ControlNet作者新作爆火：P照片换背景不求人，AI打光完美融入

衡宇 2024-05-10 15:47:32 来源：量子位

再也不用在网上求大神帮我换背景了

衡宇发自凹非寺

量子位 | 公众号 QbitAI

ControlNet作者新作，玩儿得人直呼过瘾，刚开源就揽星1.2k。

用于操纵图像照明效果的IC-Light，全称lmposing Consistent Light。

玩法很简单：

上传任意一张图，系统会自动分离人物等主体，选择光源位置，填上提示词，就能毫无破绽的融入新环境了！

赶紧来个王家卫式的打光：

不喜欢？

没关系，换成窗外打进来的自然光，也就分分钟的事。

目前，IC-Light提供两类模型：文本条件重照明模型，还有背景条件模型。

两种模型都需要以前景图像作为输入。

鉴于之前Controlnet太好玩儿，这次IC-Light一出现就颇受关注，还有网友迅速做出了ComfyUI插件。

（疑惑，大家这么拼，都不睡觉的吗？？）

不管是期待值还是用后体验，网友给得都很高：

Nice！迫不及待要上手玩了嘻嘻嘻嘻

。

谁能帮我把这图换个背景？

从远古MCN到贴吧再到现在小红书，各个时代，都不乏“谁能帮我换张背景”这种求助贴。

但热心网友的帮助，往往是这样子的：

就离谱。

不过说实在话，这种需求不仅存在于你我普通人之间，电商做商品海报，也常常有类似的需求。

有了IC-Light，好像一切都变得简单起来。

上传主体原图+选择光源位置+提示词，完事儿。

来看效果——

这样一张佛像原图，加上提示词“佛像、细致的脸部、科幻RGB发光、赛博朋克”，再选择“光从左侧打来”。

就能得到一张崭新的成品：

哪怕是日常场景也是适用的。

最后出的效果肉眼看还是比较自然：

根据网友分享的测评，动漫场景也适用……

背后技术

如前所说，IC-Light现在提供两类模型，两种模型都需要以前景图像作为输入。

一类是文本条件重照明模型。

简单来说就是用户可以通过输入提示词来搞定生成。

比如输入“左侧光线”“月光”等，模型会通过这些提示词和初始潜变量，来生成符合要求和特征的图像。

另一类是背景条件模型。

这种就更简单了，不需要复杂的提示词，模型结合背景提示信息，对前景的物体进行不同风格的光照变化。

而其背后的技术原理，是通过潜在空间的一致性，确保模型输出在不同光源组合下具有一致性，从而可以稳定地合成各种光照效果。

具体如下——

在HDR空间中，所有照明的光线传输都彼此独立，不同光源的外观混合效果与多光源直接作用下的外观在数学上（也就是理想状态下）是一致的。

以上面这张图的灯光阶段为例，来自“外观混合”和“光源混合”的两个图像是一致的，（理想情况下，在HDR空间中数学上等效）。

因此，在训练重新照明模型时，研究人员在潜在空间中使用多层感知机（MLP）让不同光源的组合和传输具有一致性，并用来指导生成效果。

最终产生高度一致的重新光照效果。

由于模型使用了潜在扩散技术，因此可以在潜在空间内实现学习和重光照操作，从而在各种光照条件下产生高度一致的效果。

这些结果非常一致——尽管在训练时，模型没有直接使用法线图数据，但可以将不同的重新光照合并为法线贴图。

看下面这张图，从左到右依次是输入、模型输出、重新照明、分割的阴影图像和合并的法线贴图。

感兴趣的小伙伴可以前往下面地址试玩儿哟～

GitHub直通车：
https://github.com/lllyasviel/IC-Light?tab=readme-ov-file

AI生图

衡宇

ControlNet作者新作爆火：P照片换背景不求人，AI打光完美融入

谁能帮我把这图换个背景？

背后技术

相关阅读

AI在玩一种很新的艺术，700万网友在线围观，ControlNet又立功了

突发！Stable Diffusion核心团队被曝集体离职

谷歌被曝翻车内幕：内部群龙无首，生图机制过分“多元化”

热门文章

树莓派冲刺IPO，估值35亿但年营收19亿，CEO：做一家有趣又赚钱的公司

GPT-4o再秀神操作，“复现”OpenAI总裁讲课，网友当真了

识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源

魅族全新Flyme AIOS：手机、车、家三合一生态，汽车周边上线

英特尔打破40年“祖制”的CPU，AI PC们来验收成果了