一句话让小姐姐为我换了N套衣服，谷歌卷出视频生成新高度

鱼羊 2024-01-25 13:54:01 来源：量子位

用于视频生成的时空扩散模型

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

谷歌一出手，又把AI视频生成卷上了新高度。

一句话生成视频，现在在名为Lumiere的AI操刀下，可以是酱婶的：

△“阳光明媚，帆船在湖中航行”

如此一致性和质量，再次点燃了网友们对AI视频生成的热情：谷歌加入战局，又有好戏可看了。

不止是文生视频，Lumiere把Pika的“一键换装”也复现了出来。

左谷歌右pika，同样是选中区域一句话完成视频编辑，你pick哪一边？

让图片中静止的火焰跃动起来，也同样一选就能完成：

还有图片转视频：

视频风格化：

总之就是主打一个质量又高又全能。

更多细节，我们论文扒起~

用于视频生成的时空扩散模型

Lumiere旨在解决以往视频生成中存在的几个关键问题：

真实性
多样化
运动的连贯性

在此前的方法中，常见的做法是，扩散模型先生成一些稀疏的关键帧，而后通过一系列时间超分辨率（TSR）模型来填补关键帧之间的空白，接着再用空间超分辨率模型获取高清视频结果。

可以想见，在全局连贯性上，这样的做法存在先天的缺陷。

Lumiere的创新点在于，提出了时空U-Net（STU-Net）架构：将视频在空间和时间两个维度同时进行下采样和上采样，在网络的中间层得到视频的压缩时空表示。

具体来说，基于这一架构，模型能够一次性生成视频中的所有帧——这也就提升了生成视频的连贯性。

同时，因为大部分计算发生在压缩后的表示上，STU-Net能有效减少计算量，降低对计算和内存的需求。

另外，为了提升视频的分辨率，研究人员使用多重扩散（MultiDiffusion）技术，通过线性加权空间超分辨率网络来处理重叠时间窗口带来的边界伪影等问题，从而能将生成画面融合为一个整体，得到连贯、高清的视频效果。

时长和分辨率方面，Lumiere能输出1024×1024、16fps下长5秒的视频。

研究人员提到：

5秒已经超过了大多数视频作品中的平均镜头长度。

值得一提的是，得益于时空U-Net架构端到端全帧率视频生成的能力和高效计算，Lumiere灵活可扩展，可以轻松应用到下游任务中，包括文生视频、图生视频、视频风格化、视频编辑修复等等。

△视频修复

实验结果

研究人员将Lumiere与其他文本-视频生成模型进行了实验对比。

首先来看人类用户的判断。

实验设计是这样的：志愿者会同时看到一对视频，一个来自Lumiere，另一个来自其他基线模型。志愿者被要求从中选出视觉质量、动态效果更好，更符合文本提示的视频。

研究人员收集了大约400份反馈，结果显示，在视频质量、文本匹配度方面，Lumiere超越了Pika、Gen2、Imagen Video、SVD等一众顶级视频生成模型。

同时，在UCF101数据集（动作识别数据集）上，与MagicVideo、Make-A-Video、SVD等模型相比，Lumiere取得了具有竞争力的FVD和IS指标。

网友：谷歌，模型呢？

效果很惊艳，网友很兴奋，但桥豆麻袋……

这次，谷歌依然只放出了论文，没有试玩，更没有开源。

这种似曾相识的操作，把人快整麻了：

视频很不错，但是谷歌，你又不打算发布任何代码、权重，也不提供API了，对吗？

还有人想起了Gemini发布时那个造假的小蓝鸭视频……

那么，这波你还会看好谷歌吗？

论文地址：
https://arxiv.org/abs/2401.12945
项目地址：
https://lumiere-video.github.io/#section_video_stylization

— 完 —

AI视频生成谷歌

鱼羊

OpenAI被举报：非法限制员工披露AI安全风险2024-07-14
AI视频创作一条龙！达摩院寻光平台炸场WAIC，突破可控编辑难题2024-07-05
姚班大神陈立杰获UC伯克利教职，2025年秋季入职2024-07-02
英伟达布局AI视频，Sora风头快被抢完了2024-06-29

一句话让小姐姐为我换了N套衣服，谷歌卷出视频生成新高度

用于视频生成的时空扩散模型

实验结果

网友：谷歌，模型呢？

相关阅读

炼个BERT别人花几分钟你花了快1天？谷歌：我这是4810亿参数的巨型BERT

谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑

谷歌版AI绘画搜索框里直接玩！基于Imagen打造，网友：DALL-E替代品来了

效率碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS

后期狂喜！用照片丝滑替换视频主角，动作幅度再大也OK｜Meta&新加坡国立大学

超越Mask-RCNN：这是谷歌大脑的AI，自己写的目标检测模型

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬