< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

腾讯开源视频生成新工具，论文还没发先上代码的那种

西风 2024-04-04 13:05:03 来源：量子位

支持文本图像视频输入

西风发自凹非寺

量子位 | 公众号 QbitAI

先上代码再发论文，腾讯新开源文生视频工具火了。

名为MuseV，主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。

老规矩，先看效果。

静态的金克丝秒秒钟就能动起来朝你抛媚眼：

画中诗圣也“活”了过来：

各种风格都能驾驭，风景图也不在话下：

更有搞笑风《微笑的骑士》：

再上难度，复杂些的弹唱也处理得比较自然：

此外，加入“骨架”控制动作、姿势也可以：

腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。

不少人已趁热码住，GitHub获星500+。

还有网友已经玩上了：

围观网友直呼距离成为视频达人只差一个AI。

嘴唇也能同步

除了直接放出模型代码，目前MuseV还有demo可体验。

demo界面有两种玩法。

一种可以上传一张图然后加上Prompt在这张图的基础上进行视频生成；另一种是上传一个参考视频和一张图，使图片中的内容按照视频中的动作运动起来。

紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。

此外值得一提的是，文本、图像到视频的生成结果的所有帧直接由MuseV生成，没有时序超分辨、空间超分辨等任何后处理。

而输入视频控制姿态的生成模式下，开发团队表示需要参考视频的首帧条件和参考图像的首帧条件对齐，不然会破坏首帧的信息，效果会更差。所以一般生成流程是：

确定参考视频；
用参考视频的首帧走图生图、controlnet流程，可以使用MJ等各种平台；
拿第二步中的生成图、参考视频用MuseV生成视频。

除MuseV，开发团队还表示即将发布一个实时高质量的唇同步模型——MuseTalk，可与MuseV一起搭配使用。

MuseV里面长啥样？

技术方面，据了解MuseV是在去年7月左右基于扩散模型实现的技术进展，受到Sora启发，开发团队决定开源MuseV，之后将转向扩散+Transformer方案。

也就是说，MuseV是基于扩散模型的虚拟人视频生成框架。

模型架构如下图所示：

总的来说，MuseV具有以下特点：

首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成，不会再有误差累计的问题，尤其适用于固定相机位的场景。

并行去噪算法示意图如下：

其次，MuseV提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。

而且支持图像到视频、文本到图像到视频、视频到视频的生成；兼容Stable Diffusion文图生成生态系统，包括base_model、lora、controlnet等。

还支持多参考图像技术，包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

参考链接：
[1]https://github.com/TMElyralab/MuseV
[2]https://twitter.com/Gorden_Sun/status/1774825159939256678

AI视频生成开源

西风

2026中国AIGC最值得关注的企业&产品图鉴来了！谁在造浪，谁在落地？2026-05-20
英伟达给黄仁勋儿女涨薪了！年薪百万美元，“凭能力而不是身份”2026-05-15
浙大校友用AI突破32年拉姆齐数下界2026-05-10
原生Agent杀入画布！一站式搞定专业创作，全程可控、不抽卡2026-05-07

腾讯开源视频生成新工具，论文还没发先上代码的那种

嘴唇也能同步

MuseV里面长啥样？

相关阅读

腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

LibreOffice 6.4.4版本更新发布，重点在修复与优化

阿里开源人机对话模型ESIM，达摩院90后科学家研发，曾创世界纪录

OpenAI突宣开源计划：端侧模型or小模型二选一！奥特曼在线征集投票

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字