杀进全球榜TOP2!国产视频模型黑马刚刚出现了
音画同步一次生成,创作全模态起飞
全球视频大模型榜单,国产模型杀进前2。
就在最近,权威第三方机构Artificial Analysis更新了排行榜——
来自昆仑天工的SkyReels-V4,直接干到了文转视频(含音频)全球榜第2,位列Veo 3.1、Sora 2之前。
历史榜(包括所有模型的那种)也冲到第4位,稳居全球第一梯队:
要知道Artificial Analysis可是目前公认的“AI领域的Gartner”,其所有测试均在内部独立进行,不依赖各家实验室自行报告的数据,所以上述成绩背后的含金量可想而知。
而且更关键的是,这不单单是一次“纯文生视频”的胜利。
当大多数模型还在卷文生视频时,SkyReels-V4已经玩起了组合技:
「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。
文本、图像、视频片段、掩码、音频参考全部可混合输入,主打一个全模态参考、一体化生成。
好好好,一个月前才刚开源SkyReels-V3,这次V4直接带着全球TOP2的成绩单登场。
只能说这公司节奏够快,成绩够硬。
全球第2,现场表演一个
不过还是那句老话,光说不练假把式,咱这不得召唤SkyReels-V4给大家表演一个(doge)。
锵锵锵锵上场,先给大家来个自我介绍:
(我是)全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。
没记住不要紧,四个技能show这就给观众姥爷献上:
多模态精准控制
先来点有意思的,用图像的主体+视频的动作和音乐生成新视频。
把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗, 并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫,确保动作保持一致。
SkyReels-V4看一眼两张参考图:把狗和猫的毛色、身形全都扒下来,但摒弃了两张图的背景。
再看一眼原视频(来自昆汀电影《低俗小说》片段):噢~俩人在跳舞,女生在左边,男生在右边,他们原来是这么跳的。
然后直接开干,人物主体无缝切换了,狗替女生,猫替男生;但舞台、观众、音乐、动作可都没变。
就连这生成的视频中,狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上,大概在10s左右,这波动作和音乐可是真·卡点了~
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
这个案例的背后,体现的是SkyReels-V4对多模态参考的精准控制。
首先,咱可以看出来,模型支持文本、图像、视频片段等多种输入组合。
而且实际上掩码和音频它也能参考,参考完了就能实现:
- 基于参考图像的风格迁移与主体保留:就拿上面参考的狗和猫图像来说,从毛色、体态到身形大小的细节,都被精准保留并迁移到了视频人物身上;
- 音频驱动的动作生成:参考视频的背景音乐,模型能让两者的舞步踩准节拍,甚至连动作变化都精准卡点;
- 多参考融合创作:这个替换案例的整个指令本身就是典型的多模态参考,有多个图像的主体形象、视频的舞蹈动作和音乐节拍,好几种素材都无痛融在了一起。
专业级视频修复
放完组合技之后,再来个更高级的。
SkyReels-V4还支持对已有内容进行专业级修复——
在不破坏整体结构的前提下,替换视频主体、去除水印、抹掉字幕等,几乎都是手拿把掐。
- 区域智能修复:能精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景;
- 元素智能移除:能自动识别并去除水印、字幕、Logo,保持背景内容自然连贯;
- 参考引导修复:可基于参考图像的风格一致性修复,确保编辑前后视觉统一。
就拿去字幕这事儿来说吧,真到了要用的时候那可真是急得人团团转,往往社交媒体全扒一遍也没有真正好用的。
但交给SkyReels-V4,它还真行。
你瞅,原视频是一个10s左右、含大量英文字幕的小片段:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
但魔法这么一施,字幕这就没!了!整个画面立马变得干干净净。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
该说不说,SkyReels-V4真是一位后期小能手,它能在保留大部分原视频的情况下,实现局部精准改动。
全维度视频编辑
当然了,既然专业后期的活都能干,那各种日常编辑岂不是轻轻松松。
一次生成不满意,SkyReels-V4也支持随心改、自由改。
插一嘴,虽然都是改,但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。
用一个例子来区分就是,假设原视频为一个女生在草地上走路,“专业级视频修复”追求的是极致的真——消除路人、改衣服颜色等,改完之后,她还是走在那片草地上,整个视频结构不变;
而“全维度视频编辑”追求的是创造的自由——比如让草地瞬间变为赛博朋克都市,甚至让镜头从定点拍摄变为电影级的推拉摇移,整个视频想要表达的意境内容可能都变了。
针对后者当中的局部编辑,先给SkyReels-V4上个开胃小菜,给视频凭空增加素材。
一张帽子图+一段女团舞视频,要求模型给c位dancer戴上帽子。
将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。
注意看细节,帽子的颜色和logo需要记住,下面要考。
5s练习室视频也多看几眼:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
然后,SkyReels-V4交卷了。拿着我的放大镜仔细瞅,没想到还真没挑出毛病。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
帽子和原图一致,而且也确实按要求戴在了c位女生头上,整个视频几乎就是她戴上帽子重新又跳了一遍。
光增加元素怎么够,再来个反向操作:直接删除视频中的人物或元素。
原视频是几个小伙伴一起深夜探险:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
结果镜头一转,“消失的他们”原地上演,惊悚感扑面而来:
移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子,以及那位身穿深紫色上衣、留着金色长卷发的女子。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
敲黑板,SkyReels-V4不仅支持上述局部编辑,而且还能一键替换视频风格(全局编辑)、改变运镜(相机运动控制)等等。
高品质音频生成
来来来,还没完,接下来是演技大赏。
先挑三个演员(从左到右依次为扮演者A、B、C):
再给个剧本(简化版):
A眼神中透露着玩味和审视,用从容且略带挑衅的语气说:“这么多年来,这十亿明明在身边却花不了,是不是很可惜?”
B原本正闭目沉思,听到话语后缓缓睁眼看向A;
C突然出现在画面中,他愤怒地弯下腰,发出一声重重地拍击桌面的撞击声;
镜头再次转向B,他神色紧张地抬起手指向前方,语气急促而担忧地低吼道 :“志杰,你说什么呢!”
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
短剧拍完咱一看,这情绪表现力够专业啊,你就说演技和台词功底夯不夯吧。
除了看演技,咱也往深处扒一扒细节。
首先,能演得这么好,肯定离不开AI优秀的指令遵循能力。
除此之外,最让人意外的就是这音频生成质量了,台词不糊嘴,还充分表现出了玩味和审视的人物情绪,敲击桌子的声音真实到能听出是木质的桌面,仔细听还有环境回音。
这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力,支持情感语音、歌词同步演唱这些高阶玩法。
整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上,确实做到了不输专业音频生成工具的水准。
表演看完了,想必你也对SkyReels-V4的实力有了近距离感受。
我们看下来,SkyReels-V4的核心优势几乎可以用两个词来概括:全面、全能。
全面体现在多模态上,包括但不限于图像、音频、文本,它基本都能消化吸收,给出的结果也都符合预期。
全能则体现在这种一体化创作能力上,从灵感激发、脚本设计,到音视频生成、后期剪辑、音效配乐,甚至多语言配音和字幕同步,整个流程几乎都能在同一个平台上完成,全部All in one。
而基于“多模态输入+全功能集成”,无论是搞创意还是回到实际应用,整个应用想象空间一下子就被打开了。
从以往实践来看,今后用SkyReels-V4快速生成产品宣传视频、进军短剧制作、视效大片生成,甚至制作教学课件或多语言科普内容,都变得可行且门槛更低了。
那么问题来了,SkyReels-V4到底怎么做到的?
答案,全都藏在论文里了。
双流架构,一体生成
老实说,虽然当下AI视频生成看起来玩法很多,但要真正做到好用实属不易。
痛点呢绕不开三个:
- 画面没声音:后期配乐对口型耗时费力还容易翻车;
- 输入方式单一且编辑不灵活:大多模型只认文字,想塞参考图、丢参考视频?不支持;想给视频改个背景、给人物换件衣服?只能再重来一遍;
- 画质和速度难兼得:要高清就得等,要流畅就只能忍受马赛克画质。
而SkyReels-V4就是冲着这三刀下去的。
它采用双流MMDiT架构,把音、视频从底层就焊在了一起。
视频和音频两个分支并行跑,共享同一个多模态大语言模型(MLLM)编码器。
画面和声音在模型内部就能完成联合生成,不再依赖后期拼凑的模式。
团队还在每个Transformer模块里都加了双向交叉注意力——
视频看音频调整节奏,音频看视频匹配细节。
再配合RoPE(旋转位置编码)频率缩放,哪怕视频与音频的Token数量级完全不同,也能在微秒级的时间轴上精准对齐。
嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声音就同步到位。
一个月前的上一代V3还要手动提供音频,现在V4的音频分支已经可以直接生成对白、环境音和配乐,并支持音频参考引导。
(这迭代速度真得手动给个大拇指)
输入和编辑也不再是死穴。
它搞了套通道拼接+时序拼接的双维玩法,把文字、图片、视频、遮罩、音频参考全都吃进去。
通道维度上,把带噪视频、条件帧、遮罩叠在一起,不管文生视频、图生视频、视频延长还是局部编辑,本质上都变成“带掩码的修复类”任务。
想改哪,打个遮罩就改哪,不影响别处。
时序维度上,参考图或视频帧直接拼进生成序列前端,模型像翻参考册一样学里面的风格、动作、人物特征。
加上多模态大语言模型的指令跟随能力,你甚至可以说:
“让参考图A里这个女孩,在参考视频B的海边,跳参考视频C的舞,配参考D音频的轻音乐”。
SkyReels-V4是真能听懂,也真能一次生成出来。
画质和速度极限二选一的问题,它也给出了工程解法。
采用先快速出低清全序列,再单独拎几个高清关键帧,然后用专门的超分和插值模型补细节、优化过渡的策略。
训练上走的是“逐级爬坡”的路线,从低分辨率到高分辨率,从单模态到音视频联合,一步步抬高难度。
音频分支单独训练后再和视频分支合练,最后两阶段精修收尾。
每一步踩实了,生成的画面才稳、动作才顺、音视频才真的长在一起。
此外,再配合视频稀疏注意力(VSA)机制,把长序列注意力计算压缩到原来的约1/3。
计算量降下来,效率提上去,最终画面稳在1080p、32帧、15秒的电影级水准。
从文生视频到音视频同步生成,再到多模态输入、全流程编辑,SkyReels-V4这一步,算是把AI视频生成从单点工具推到了全流程的一体化创作。
当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃;
跨语言创作、复杂场景的音视频协同要优化;另外还会继续降推理成本,让这套工具落到更多行业、更多场景里。
单看昆仑天工这“月更”速度,估计咱不久后就又能用上了~
昆仑天工真跟多模态死磕到底了
说实话,“多模态”三个字,现在谁都在喊,但真正从底层架构去做原生统一的玩家并不算多。
而在这个赛道中,昆仑天工还是比较“执拗”的一个,从天工系列大模型开始,就坚持自研多模态原生对齐。
统一编码、统一对齐逻辑、统一训练范式……这些听着抽象,但一旦走上这条路,基本就是烧时间、烧算力、烧耐心。
当然了,现在看上去好处也非常直接——
当SkyReels做到V4时,音视频的协同是结构级的,而不是外挂式的。
从产品节奏上看,它的路径并不跳跃,一步一个脚印。
- 早期从文生图、图生图打底,夯实视觉生成与指令对齐能力;
- 随后推出SkyReels系列,把能力推向时间维度,做文生视频、图生视频;
- 再到自研音乐模型Mureka系列,补齐音频生成链路,让声音正式进入多模态主干框架。
- 上个月的SkyReels-V3阶段强化参考驱动,支持图像、视频、音频多模态条件输入,验证跨模态对齐稳定性;
- 到了V4,就把音视频同步生成、编辑与inpainting统一进同一架构,音频从外挂能力变成了原生分支。
这一步步看似功能扩张,实则是从token对齐到架构共享、再到训练范式统一的持续收束,逐步逼近原生多模态一体化。
△图片由AI生成
另外值得留意的是,昆仑天工不只是闷头做模型,还在用产品矩阵把多模态能力真正落地到创作场景里。
有了自研技术打底之后,他们会快速推出面向垂直场景的产品和平台,再配合昆仑万维在游戏出海这块积累的全球化运营经验,这些AI能力在海外的起量速度相当快。
产品本身是各司其职,但到了其旗下DramaWave和FreeReels这种短剧平台,就变成了多模态能力的综合试验场。
创作者剪片子,视频从SkyReels来,配乐从Mureka调,字幕和脚本靠文本模型生成,更不用说现在还能音画同步生成……一个作品里就能把多模态能力全用上。
用户用完了,数据回来了,模型再迭代,这套正向循环一旦跑起来,比单纯堆参数要扎实得多。
当然,这种打法也不轻松。
重资产自研加上高频迭代,本身就是高风险模式,尤其是当分辨率、时长继续往上卷时,算力成本会再度成为压力点。
昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远,还要看后续表现。
但至少从现阶段来说,在多模态视频生成这条线上,他们已经成了存在感很强的竞争者。
你看昆仑天工目前的更新频率和能力跃升就能发现,他们这股“死磕”的劲头,还在继续……
SkyReels-V4技术报告:
https://arxiv.org/abs/2602.21818
- 扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了2026-02-26
- 融资34亿!谷歌前TPU员工创业新型芯片,卡帕西也投了2026-02-25
- 春晚之后,AI和机器人为啥都去了一个地方?2026-02-19
- AMD英伟达都投了!李飞飞创业公司官宣10亿新融资2026-02-19



