杀进全球榜TOP2!国产视频模型黑马刚刚出现了

音画同步一次生成,创作全模态起飞

全球视频大模型榜单,国产模型杀进前2。

就在最近,权威第三方机构Artificial Analysis更新了排行榜——

来自昆仑天工的SkyReels-V4,直接干到了文转视频(含音频)全球榜第2,位列Veo 3.1、Sora 2之前。

历史榜(包括所有模型的那种)也冲到第4位,稳居全球第一梯队:

要知道Artificial Analysis可是目前公认的“AI领域的Gartner”,其所有测试均在内部独立进行,不依赖各家实验室自行报告的数据,所以上述成绩背后的含金量可想而知。

而且更关键的是,这不单单是一次“纯文生视频”的胜利。

当大多数模型还在卷文生视频时,SkyReels-V4已经玩起了组合技:

「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。

文本、图像、视频片段、掩码、音频参考全部可混合输入,主打一个全模态参考、一体化生成

好好好,一个月前才刚开源SkyReels-V3,这次V4直接带着全球TOP2的成绩单登场。

只能说这公司节奏够快,成绩够硬。

全球第2,现场表演一个

不过还是那句老话,光说不练假把式,咱这不得召唤SkyReels-V4给大家表演一个(doge)。

锵锵锵锵上场,先给大家来个自我介绍:

(我是)全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

没记住不要紧,四个技能show这就给观众姥爷献上:

多模态精准控制

先来点有意思的,用图像的主体+视频的动作和音乐生成新视频。

把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗, 并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫,确保动作保持一致。

SkyReels-V4看一眼两张参考图:把狗和猫的毛色、身形全都扒下来,但摒弃了两张图的背景。

再看一眼原视频(来自昆汀电影《低俗小说》片段):噢~俩人在跳舞,女生在左边,男生在右边,他们原来是这么跳的。

然后直接开干,人物主体无缝切换了,狗替女生,猫替男生;但舞台、观众、音乐、动作可都没变。

就连这生成的视频中,狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上,大概在10s左右,这波动作和音乐可是真·卡点了~

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

这个案例的背后,体现的是SkyReels-V4对多模态参考的精准控制。

首先,咱可以看出来,模型支持文本、图像、视频片段等多种输入组合。

而且实际上掩码音频它也能参考,参考完了就能实现:

  • 基于参考图像的风格迁移与主体保留:就拿上面参考的狗和猫图像来说,从毛色、体态到身形大小的细节,都被精准保留并迁移到了视频人物身上;
  • 音频驱动的动作生成:参考视频的背景音乐,模型能让两者的舞步踩准节拍,甚至连动作变化都精准卡点;
  • 多参考融合创作:这个替换案例的整个指令本身就是典型的多模态参考,有多个图像的主体形象、视频的舞蹈动作和音乐节拍,好几种素材都无痛融在了一起。

专业级视频修复

放完组合技之后,再来个更高级的。

SkyReels-V4还支持对已有内容进行专业级修复——

在不破坏整体结构的前提下,替换视频主体、去除水印、抹掉字幕等,几乎都是手拿把掐。

  • 区域智能修复:能精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景;
  • 元素智能移除:能自动识别并去除水印、字幕、Logo,保持背景内容自然连贯;
  • 参考引导修复:可基于参考图像的风格一致性修复,确保编辑前后视觉统一。

就拿去字幕这事儿来说吧,真到了要用的时候那可真是急得人团团转,往往社交媒体全扒一遍也没有真正好用的。

但交给SkyReels-V4,它还真行。

你瞅,原视频是一个10s左右、含大量英文字幕的小片段:

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

但魔法这么一施,字幕这就没!了!整个画面立马变得干干净净。

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

该说不说,SkyReels-V4真是一位后期小能手,它能在保留大部分原视频的情况下,实现局部精准改动。

全维度视频编辑

当然了,既然专业后期的活都能干,那各种日常编辑岂不是轻轻松松。

一次生成不满意,SkyReels-V4也支持随心改、自由改。

插一嘴,虽然都是改,但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。

用一个例子来区分就是,假设原视频为一个女生在草地上走路,“专业级视频修复”追求的是极致的真——消除路人、改衣服颜色等,改完之后,她还是走在那片草地上,整个视频结构不变;

而“全维度视频编辑”追求的是创造的自由——比如让草地瞬间变为赛博朋克都市,甚至让镜头从定点拍摄变为电影级的推拉摇移,整个视频想要表达的意境内容可能都变了。

针对后者当中的局部编辑,先给SkyReels-V4上个开胃小菜,给视频凭空增加素材

一张帽子图+一段女团舞视频,要求模型给c位dancer戴上帽子。

将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。

注意看细节,帽子的颜色和logo需要记住,下面要考。

5s练习室视频也多看几眼:

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

然后,SkyReels-V4交卷了。拿着我的放大镜仔细瞅,没想到还真没挑出毛病。

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

帽子和原图一致,而且也确实按要求戴在了c位女生头上,整个视频几乎就是她戴上帽子重新又跳了一遍。

光增加元素怎么够,再来个反向操作:直接删除视频中的人物或元素

原视频是几个小伙伴一起深夜探险:

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

结果镜头一转,“消失的他们”原地上演,惊悚感扑面而来:

移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子,以及那位身穿深紫色上衣、留着金色长卷发的女子。

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

敲黑板,SkyReels-V4不仅支持上述局部编辑,而且还能一键替换视频风格(全局编辑)、改变运镜(相机运动控制)等等。

高品质音频生成

来来来,还没完,接下来是演技大赏。

先挑三个演员(从左到右依次为扮演者A、B、C):

再给个剧本(简化版):

A眼神中透露着玩味和审视,用从容且略带挑衅的语气说:“这么多年来,这十亿明明在身边却花不了,是不是很可惜?”

B原本正闭目沉思,听到话语后缓缓睁眼看向A;

C突然出现在画面中,他愤怒地弯下腰,发出一声重重地拍击桌面的撞击声;

镜头再次转向B,他神色紧张地抬起手指向前方,语气急促而担忧地低吼道 :“志杰,你说什么呢!”

视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

短剧拍完咱一看,这情绪表现力够专业啊,你就说演技和台词功底夯不夯吧。

除了看演技,咱也往深处扒一扒细节。

首先,能演得这么好,肯定离不开AI优秀的指令遵循能力。

除此之外,最让人意外的就是这音频生成质量了,台词不糊嘴,还充分表现出了玩味和审视的人物情绪,敲击桌子的声音真实到能听出是木质的桌面,仔细听还有环境回音。

这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力,支持情感语音、歌词同步演唱这些高阶玩法。

整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上,确实做到了不输专业音频生成工具的水准。

表演看完了,想必你也对SkyReels-V4的实力有了近距离感受。

我们看下来,SkyReels-V4的核心优势几乎可以用两个词来概括:全面、全能

全面体现在多模态上,包括但不限于图像、音频、文本,它基本都能消化吸收,给出的结果也都符合预期。

全能则体现在这种一体化创作能力上,从灵感激发、脚本设计,到音视频生成、后期剪辑、音效配乐,甚至多语言配音和字幕同步,整个流程几乎都能在同一个平台上完成,全部All in one。

而基于“多模态输入+全功能集成”,无论是搞创意还是回到实际应用,整个应用想象空间一下子就被打开了。

从以往实践来看,今后用SkyReels-V4快速生成产品宣传视频、进军短剧制作、视效大片生成,甚至制作教学课件或多语言科普内容,都变得可行且门槛更低了。

那么问题来了,SkyReels-V4到底怎么做到的?

答案,全都藏在论文里了。

双流架构,一体生成

老实说,虽然当下AI视频生成看起来玩法很多,但要真正做到好用实属不易。

痛点呢绕不开三个:

  • 画面没声音:后期配乐对口型耗时费力还容易翻车;
  • 输入方式单一且编辑不灵活:大多模型只认文字,想塞参考图、丢参考视频?不支持;想给视频改个背景、给人物换件衣服?只能再重来一遍;
  • 画质和速度难兼得:要高清就得等,要流畅就只能忍受马赛克画质。

而SkyReels-V4就是冲着这三刀下去的。

它采用双流MMDiT架构,把音、视频从底层就焊在了一起。

视频和音频两个分支并行跑,共享同一个多模态大语言模型(MLLM)编码器。

画面和声音在模型内部就能完成联合生成,不再依赖后期拼凑的模式。

团队还在每个Transformer模块里都加了双向交叉注意力——

视频看音频调整节奏,音频看视频匹配细节。

再配合RoPE(旋转位置编码)频率缩放,哪怕视频与音频的Token数量级完全不同,也能在微秒级的时间轴上精准对齐。

嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声音就同步到位。

一个月前的上一代V3还要手动提供音频,现在V4的音频分支已经可以直接生成对白、环境音和配乐,并支持音频参考引导。

(这迭代速度真得手动给个大拇指)

输入和编辑也不再是死穴。

它搞了套通道拼接+时序拼接的双维玩法,把文字、图片、视频、遮罩、音频参考全都吃进去。

通道维度上,把带噪视频、条件帧、遮罩叠在一起,不管文生视频、图生视频、视频延长还是局部编辑,本质上都变成“带掩码的修复类”任务。

想改哪,打个遮罩就改哪,不影响别处。

时序维度上,参考图或视频帧直接拼进生成序列前端,模型像翻参考册一样学里面的风格、动作、人物特征。

加上多模态大语言模型的指令跟随能力,你甚至可以说:

“让参考图A里这个女孩,在参考视频B的海边,跳参考视频C的舞,配参考D音频的轻音乐”。

SkyReels-V4是真能听懂,也真能一次生成出来。

画质和速度极限二选一的问题,它也给出了工程解法。

采用先快速出低清全序列,再单独拎几个高清关键帧,然后用专门的超分和插值模型补细节、优化过渡的策略。

训练上走的是“逐级爬坡”的路线,从低分辨率到高分辨率,从单模态到音视频联合,一步步抬高难度。

音频分支单独训练后再和视频分支合练,最后两阶段精修收尾。

每一步踩实了,生成的画面才稳、动作才顺、音视频才真的长在一起。

此外,再配合视频稀疏注意力(VSA)机制,把长序列注意力计算压缩到原来的约1/3。

计算量降下来,效率提上去,最终画面稳在1080p、32帧、15秒的电影级水准。

从文生视频到音视频同步生成,再到多模态输入、全流程编辑,SkyReels-V4这一步,算是把AI视频生成从单点工具推到了全流程的一体化创作

当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃;

跨语言创作、复杂场景的音视频协同要优化;另外还会继续降推理成本,让这套工具落到更多行业、更多场景里。

单看昆仑天工这“月更”速度,估计咱不久后就又能用上了~

昆仑天工真跟多模态死磕到底了

说实话,“多模态”三个字,现在谁都在喊,但真正从底层架构去做原生统一的玩家并不算多。

而在这个赛道中,昆仑天工还是比较“执拗”的一个,从天工系列大模型开始,就坚持自研多模态原生对齐。

统一编码、统一对齐逻辑、统一训练范式……这些听着抽象,但一旦走上这条路,基本就是烧时间、烧算力、烧耐心。

当然了,现在看上去好处也非常直接——

当SkyReels做到V4时,音视频的协同是结构级的,而不是外挂式的。

从产品节奏上看,它的路径并不跳跃,一步一个脚印。

  • 早期从文生图、图生图打底,夯实视觉生成与指令对齐能力;
  • 随后推出SkyReels系列,把能力推向时间维度,做文生视频、图生视频;
  • 再到自研音乐模型Mureka系列,补齐音频生成链路,让声音正式进入多模态主干框架。
  • 上个月的SkyReels-V3阶段强化参考驱动,支持图像、视频、音频多模态条件输入,验证跨模态对齐稳定性;
  • 到了V4,就把音视频同步生成、编辑与inpainting统一进同一架构,音频从外挂能力变成了原生分支。

这一步步看似功能扩张,实则是从token对齐到架构共享、再到训练范式统一的持续收束,逐步逼近原生多模态一体化

△图片由AI生成

另外值得留意的是,昆仑天工不只是闷头做模型,还在用产品矩阵把多模态能力真正落地到创作场景里。

有了自研技术打底之后,他们会快速推出面向垂直场景的产品和平台,再配合昆仑万维在游戏出海这块积累的全球化运营经验,这些AI能力在海外的起量速度相当快。

产品本身是各司其职,但到了其旗下DramaWave和FreeReels这种短剧平台,就变成了多模态能力的综合试验场。

创作者剪片子,视频从SkyReels来,配乐从Mureka调,字幕和脚本靠文本模型生成,更不用说现在还能音画同步生成……一个作品里就能把多模态能力全用上。

用户用完了,数据回来了,模型再迭代,这套正向循环一旦跑起来,比单纯堆参数要扎实得多。

当然,这种打法也不轻松。

重资产自研加上高频迭代,本身就是高风险模式,尤其是当分辨率、时长继续往上卷时,算力成本会再度成为压力点。

昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远,还要看后续表现。

但至少从现阶段来说,在多模态视频生成这条线上,他们已经成了存在感很强的竞争者。

你看昆仑天工目前的更新频率和能力跃升就能发现,他们这股“死磕”的劲头,还在继续……

SkyReels-V4技术报告:
https://arxiv.org/abs/2602.21818

版权所有,未经授权不得以任何形式转载及使用,违者必究。