登顶行业SOTA的多模态视频生成标杆,昆仑天工刚给开源了
图生视频、视频延长、虚拟形象三合一
鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
好家伙,AGI真的「Open」了我的生活。(doge)
想买件海淀风穿搭,模特上身库库种草,结果扒出来是AI。

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
听播客听上头了,结果你猜咋滴,还是AI……

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
不开玩笑,AI视频现在是真的卷,网友们的脑洞也是一个比一个大~
只要不标AI tag、不仔细看,压根分不清是AI还是坚持手搓的老师傅。

不卖关子了,这款引起全网疯玩的AI模型,就是昆仑天工最新发布的SkyReels-V3。
而刚刚,它正式宣布开源。

u1s1,每次昆仑天工的开源都还是很值得期待滴~开源即王者,这次也不例外。
作为一款多模态视频生成模型,SkyReels-V3可谓十八般武艺样样精通:
不仅会文生视频、图生视频,还能把视频延长再延长,从短视频到长视频无缝切换,更有专门的虚拟形象模型,让音频更贴脸。
All in all,用一个词描述,就是——倍儿真实!
拒绝过去AI生成视频的僵硬感、割裂感,SkyReels-V3将AI创作推向“既全面又专精”的新高度。
而且这么强还开源,妥妥的技术福音。
那么话不多说,我们立马实测走起。
AI生成效果真假难辨
先来一波图像转视频试试水,喂给模型这样两张参考图片:


康康这位外国小姐姐能不能成功带货咱最近爆火网络的安徽霉豆腐:
在下雪的室外,这位女士正在热情地切着霉豆腐,并招呼围观的路人前来购买。

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
霉豆腐这下也是走出国门了。
主体特征还原得相当到位,人物手部动作也很流畅自然。再仔细看细节,背景中飘落的雪花以及行人身影都被1:1复刻,画面动态十足,每一帧都经得起推敲,满昏!
除了带货场景,咱再来解锁名场面——萝卜纸巾猫!
在房间里,猫咪面前摆放着萝卜和纸巾,当人类手指指向纸巾时,猫咪随即伸出爪子指向纸巾。
蒸蚌,这是什么聪明的绝世大好猫!昆仑天工快送孩子去高考(doge)
不过这AI也太懂我了,不仅圆满完成和纸巾盒的互动任务,还贴心地附赠了撸猫环节。

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
最近看到LeCun、哈萨比斯还有马斯克关于智能本质的争论,感觉蛮有意思,那不妨让三位来场线下battle吧。
在舞台上,三个人在激烈争吵。
结果是酱紫的:

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
哈萨比斯不语,哈萨比斯只是一味叹气:

5s视频还没看够的话,还可以进行语义连贯的视频延长,这里有两种延长模式可选:
- 单镜头延长:保持镜头平滑连续。
- 镜头切换延长:支持专业转场,包括切入、切出、多角度、正反镜头、切离。
也可灵活选择分辨率(480P或720P)、调节长度(5-30秒)和画幅(1:1、3:4、4:3、16:9、9:16)。
先看一个单镜头延长6s的官方示例:

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
可见整体效果是连贯一致的,画面色彩过渡和谐,也没有明显的卡顿感,说是一镜到底也不为过。
镜头切换延长上,同样来看个官方切离效果。

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
是不是有《西部世界》那味儿了?
从主要场景切换到次要场景,显然模型想象力十足,但又不脱离原有剧情,环境光影、人物形态通通拿捏。
这下再也不用担心影视剧创作时灵感枯竭了,可以直接来抄AI作业(bushi)

另外还有个王炸功能——虚拟形象生成,简单来说就是数字人。
不过,这可不仅仅局限于常见的单人虚拟主播,多人物对话OK,动物塑漫画风OK,绕口令唱歌也OK。
比如先上才艺:

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
不多说了,如听仙乐耳暂明,开巡演我是会买票支持的那种。
再比如经典重现:“衬衫的价格为九磅十五便士”,一些死去的记忆在攻击我……

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
模型轻松驾驭多角色互动的木偶风格,唇形变化也始终与音频同步,次元壁一下子破了。
最后来个分钟级长视频收尾,AI记者全程不卡壳,职业素质一流。

视频链接:https://mp.weixin.qq.com/s/W8-pcKLrzlYn6vJZ8VTakw
全方位体验完这套模型后,我最强烈的感受是,AI终于进化成我看不懂的模样了。
啥都能做,而且样样拔尖,无论是像我这样的普通玩家头脑风暴,还是专业人士用来商业成片,都细节度拉满。
那么是如何做到的呢?
开源的行业领先技术
首先在回答这个问题前,我们可以先试图回想一下最近刷到的AI视频们,它们之间是否有什么共性能够让人一眼识别出是AI生成的。
(321)
谜底揭晓,AI视频普遍“不真”的原因,归根结底有三点:
1、高质量视频数据稀缺:
现有的训练数据大多建立在粗糙的影视画面或监控视频上,缺乏高质量3D维度的真实世界标注数据,而且这些数据集中在高频场景,所以对于一些不熟悉的动作,AI只能瞎猜。
2、时空注意力的算力瓶颈:
受限于计算复杂度,当前主流的视频生成模型难以在长序列中保存记忆,从而导致帧与帧之间缺少连贯性,极易出现空间上的变形和时间上的卡顿。
3、缺乏对底层物理规律的理解:
AI并没有真正理解现实世界的运行规律,只是在概率预测下一帧的画面,一旦场景变得复杂,就极易出现违反物理规律的诡异形变。

为此,SkyReels-V3针对上述问题,结合精细化数据处理和高效训练架构,实现了模型在主体一致性、指令遵循度、视频时长、音频对齐等多方面的技术突破。
首先在模型架构上,采用“一核多支”的方式。
将Multi-modal In Context Learning(多模态上下文学习)预训练框架作为统一的基座模型,再针对三大子任务进行差异化精调。
下面我们一一拆解:
参考图像任务
SkyReels-V3在图生视频上,为维持角色与场景的一致性,主要依靠三个步骤:
(1)数据构建
这一步的核心是为模型提供高质量训练数据,为此团队专门构建了一套完整的数据处理流程。
先是去掉那些偏静态的视频片段,只保留动作幅度大、视觉信息丰富的内容。然后采用跨帧配对(cross-pair)策略,通过从连续视频中跨时间选取参考帧,让模型学会理解长距离的变化逻辑。
再借助图像编辑模型,对主体区域进行精准提取,并同步进行背景补全与语义级重构,从而消除直接拷贝带来的视觉伪影。
最后通过多层质量筛选流程,确保最终图像可用。
(2)多参考条件融合
简单来说,就是通过信息统一编码,将文本和图像输入转换成模型能理解的内容。
其中参考图像最多可支持4张,这就意味着可以同时给模型多个参考对象,比如一张人物图、一张场景图、一张服装图、一张细节图,就能实现精准的细节控制,而无需再费力地写复杂指令。
模型会自动将其缝合在一个视频里,生成结构复杂、主体丰富的视频内容。
(3)混合训练策略
这一步是为了提高模型的泛化能力。
引入图像-视频混合训练机制,能够让模型既拥有图像的高分辨率,又拥有视频的动态逻辑。
再结合多分辨率联合优化,增强模型对不同空间尺寸和宽高比的鲁棒性。以后无论是16:9的电影感还是9:16的短视频感,模型都能原生支持,不会因为拉伸导致画面扭曲。
最终从评测结果看,SkyReels-V3在200对混合测试集上,既保证了视觉质量,又显著提升了对参考图和指令的遵循能力。

视频延长任务
传统的视频延长只是在原有视频结尾增加几秒相似的动作,而SkyReels-V3则在此基础上进阶到了智能语义理解阶段。
不仅仅是补帧,而是在读懂前一个镜头剧情后,根据用户提示词逻辑,主动创造下一个镜头,并且学会使用专业导演的剪辑手法。

这主要归功于两大技术突破:
(1)统一多分段位置编码
在多段不同视角的视频中,借助统一的编码系统,确保物体在不同镜头间的运动是符合逻辑的;分层混合训练让模型学习切镜时机和切镜方法,以实现转场时的镜头平滑切换。
(2)鲁棒时空建模
该步骤让模型在面对快速运动(如赛车)、多主体交互(如多人格斗)、场景剧变(如从光线差的室内转向室外)等极端情况时,依旧能维持物体形状和位置,同时确保视频始终遵循现实世界的物理规律和视觉连贯性。
总的来说,就是赋予SkyReels-V3导演思维,让画面调度更精细,故事内容更具叙事张力。
音频参考任务
SkyReels-V3虚拟形象模型能够基于单张参考图和音频,生成音视频同步的高清视频,不仅支持人物嘴部和音频对齐、多角色交互,还有分钟级长视频生成。

这也是业内首个支持单镜头多人多轮对话的数字人模型,具体技术依赖于:
(1)精准音视频对齐
SkyReels-V3改变了以往“全图对口型”的方式,通过区域路由机制实现了精准控制。用户可以指定画面中的某个特定角色说话,然后将不同角色的音频按顺序排列,就能生成自然的对话过程。
其次,借助专用音视频对齐训练策略、语音单元与面部区域的显式建模,确保嘴型在不同语速、语言、风格下的鲁棒性。
(2)关键帧约束生成
由于直接生成长视频会导致显存爆炸或逻辑崩坏,SkyReels-V3采用了先骨架后填充的策略。
先通过构建等间隔的关键帧,确定下视频的大致动作框架;再以关键帧和实时音频作为约束,分段填充中间帧,实现平滑过渡;最后调节给定参考图的位置编码,即它与关键帧的距离,来灵活控制动作的大小。
这种方式体现在评测指标时,同分辨率场景,SkyReels-V3在画面质量和一致性上均接近主流闭源SOTA模型,具备显著优势。

值得注意的是,以上全部技术均已开源,且三大任务模块之间相互独立,用户可根据自己需求自由组合。
为什么是昆仑天工?
至此,让我们将目光重新放回AI视频生成领域。
不难看出,AI视频生成已经从单纯的技术展示全面转向商业增量的白热化博弈阶段。如果说去年是相关国产模型集体爆发的一年,那么今年则是行业进入深度洗牌的关键时期。
而SkyReels-V3无疑是其中尤为亮眼的一款产品,以优秀的多模态能力、角色一致性和可控精度脱颖而出。
这就引出了一个问题:为什么是昆仑天工先发制人?

纵观昆仑天工的AGI布局,只能说,SkyReels-V3的出现绝非偶然。
从模型层面讲,昆仑天工始终坚持自研技术,围绕MoE架构与多模态技术,逐步迭代形成覆盖通用+垂直场景的模型矩阵。
目前主要包括八大模型:文本、多模态、代码、Agent、视频、世界模型/3D、音乐、音频。

比如说:
- 业界首款中文逻辑推理大模型:Skywork 4.0 o1
- 能实现低延迟拟人语音对话:Skywork 4.0 4o
- 在同等规模下比肩DeepSeek-R1:Skywork-OR1
- 国内首个面向AI短剧创作的视频生成模型:SkyReels-V1
- 全面领跑主流评测,收获Kaggle官方推荐:Skywork R1V2
- ……
足以证明,昆仑天工在技术侧的发力之猛,一方面利用模型架构创新降低推理成本,另一方面通过在垂直领域追求行业顶尖水准,建立起差异化生态优势。
从产品层面讲,依托坚实的大模型技术,昆仑天工兼顾C端普惠与B端定制,打造了天工超级智能体、AI音乐创作平台Mureka、AI社交Linky等代表性应用。
其中,天工超级智能体的定位是AI办公赋能,依靠5个专家智能体(文档、PPT、表格、网页、播客)和1个通用智能体,可以在5分钟内生成30页PPT,大幅度提升工作效率,带来“所见即所得”的高效智能体验。
继5月份发布之后,天工超级智能体在去年下半年更是紧锣密鼓地开展了一系列迭代过程,不断追加各种智能体、升级各项功能,成为了Office Agent里不可忽视的一抹新兴力量。

而AI音乐Mureka、AI社交Linky也都在海外反响热烈。
Mureka自2025年3月起,累计新增全球注册用户近700万,服务超100个国家和地区,昨天刚刚发布的Mureka V8更是一举超越Suno V5,登顶垂类世界第一。
Linky作为全球出海TOP3的社交陪伴平台,在2024年强势达成单月最高收入突破100万美元的成绩,是海外增长最快的中国AI社交应用之一。
依托深厚的技术积累,昆仑天工在近年陆续推出了面向不同消费人群的针对性产品,比如对上班族讲效率,对Z世代讲娱乐,几乎所有人在昆仑天工都能找到最契合自身的AI应用。
而这恰恰是昆仑天工的优势所在,它长期敏锐洞察市场的同时,也得益于开源积累了一批忠实的用户,构建起“技术-用户-社区”的正向可持续循环:只要用户积极反馈,就能持续反哺产品创新。
所以昆仑天工的产品生命周期长、商业效果好、技术变现快。

综合来讲,就是打通了技术到产品的转化链路,强技术驱动好产品,好产品迅速盈利回馈技术研发,然后沿着这条主线逐步外扩,形成由大模型、搜索、游戏、音乐、社交、短剧组成的多元AI业务矩阵。
而事实证明,这条由点及面的扩张路径颇有成效,昆仑天工已经抢先交出了答卷。
GitHub链接: https://github.com/SkyworkAI/SkyReels-V3
API链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar
- 马斯克SpaceX背后的她:现实版钢铁侠小辣椒2026-01-25
- 2026年OpenAI最看好的3个方向2026-01-21
- 首个真正“能用”的LLM游戏Agent诞生!可实时高频决策,思维链还全程可见2026-01-20
- 安克创新与飞书联合发布“安克 AI 录音豆” ,手指可握仅重10克2026-01-19




