首个3D人像视频生成模型来了:仅需1张2D人像，眨眼、口型都能改变 profile-avatar

鱼羊 2023-02-19 12:33:06 来源：量子位

来自新加坡国立大学&字节跳动

zcxu 投稿

量子位 | 公众号 QbitAI

只需1张普通照片，就能合成全角度动态3D视频。

眨个眼、动动嘴，都是小case~

最近AIGC爆火，3D人像模型生成这边也没闲着。

如StyleNerf、StyleSDF、EG3D等方法相继出世。

但到目前为止，这种生成模型都还停留在单帧人像上。

最近，来自新加坡国立大学（NUS）和字节跳动的研究人员，在静态3D模型的基础上，提出了首个3D人像视频生成模型：PV3D（3D model for Portrait Video generation）。

PV3D的训练继承了3D GAN模型的优点，即无需动态的三维数据监督，只需要在足够数量的单视角2D视频数据上进行训练。

该生成框架将人像和动作进行解耦，基于视频的时间戳生成各自的三维表征，让视频可以从任意角度进行渲染。

长视频也能挑战：

3D动态人像生成

PV3D分别从独立的高斯分布中采样随机噪声来表征外表和运动，外表噪声生成视频的主体内容，控制人像的ID以及人脸的各个部分，运动噪声配合视频帧的时间戳控制当前帧的动作。

为了确保生成内容的真实性以及外表和运动的解耦，PV3D训练两个独立的判别器分别判定外表和运动的合理性。

该方法可以生成随机的人像视频以及相应的高质量的动态几何表面，让视频可以从任意角度进行渲染。

同时，该方法可以支持下游的应用任务，比如静态人像驱动，人像视频的重建以及对人像动作的修改，所有的结果均可以保持高的多视角一致性。

主流的3D GAN模型都脱胎于StyleGAN结构。

因此这些模型均会将采样得到的噪声先映射到一个高维度的中间隐式编码(intermidate latent code)，大量现有的研究表明这种结构的隐式空间包含了丰富的语义信息，可以用来控制生成的图像内容。

因此，最直接的拓展方式就是使用预训练的单帧3D GAN模型，通过学习一个额外的在隐式空间进行推理的时序模型对生成的内容进行合理的改变，从而生成3D人像视频。

然而，该方法的缺点是图片生成器和时序推理模型在不同的阶段分别被优化，导致最终的视频很难保持时间上的一致性。

另一种主流的视频生成模型使用稀疏训练的方式，在训练阶段直接随机生成视频中的少量帧，使用少数帧的时间戳编码运动信息，进一步的改变中间隐式编码从而一次性优化完整的生成器。

然而这种做法将全部的时序信息都包含在隐式空间中，导致最终的模型多样性较差、生成质量较低。

与上述方法不同，PV3D在原有GAN模型的基础上在特定尺度的生成模块中插入运动信息的编码层，这些编码层独立地将控制运动的噪声映射为隐式编码，使用modulated convolution操纵外表特征，再将操纵后的特征与原始特征融合，从而提高生成视频的时序一致性和运动多样性。

此外，本工作还研究了以下问题：

如何有效地在视频生成任务中利用渲染的视角先验信息

针对3D视频生成，如何设计合理的外表和运动判别器

PV3D模型基于最新的静态3D GAN模型EG3D进行开发，EG3D采用高效的3D表征Tri-plane实现图像生成。

在训练阶段，PV3D采用稀疏训练的策略，对于一个视频采样两个噪声、两个时间戳以及各自时刻对应的相机视角。

相对应的，模型生成两帧对应的3D表征进行渲染得到粗糙的结果。随后使用超分辨率模块将图片上采样。

PV3D设计了两个独立的判别器监督网络的学习，其中视频判别器会编码两帧的相机视角以及时间间隔去判断生成结果的合理性。

实验部分

评价指标

研究人员使用FVD来评估生成视频的质量。此外，为了评估多视角的一致性以及3D几何结构的质量，研究人员将3D GAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角的重投影误差)拓展到视频任务中。

与基线的对比

研究人员首先采用同期的3D视频生成工作3DVidGen作为基线。此外，研究人员还基于SOTA的单帧3D GAN (EG3D和StyleNerf) 和2D视频生成模型构建了三个基线模型。在3个公开数据集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的实验结果表明，PV3D在生成视频的多样性，3D几何的质量，以及多视角一致性上均超越基线模型。

消融实验

研究人员对PV3D的各部分设计进行了消融实验，例如：运动信息的编码和注入的位置，运动信息的插入方式，相机视角的采样策略，以及视频判别器的设计。

团队介绍

目前，该论文已被ICLR 2023接收。

作者团队由新加坡国立大学Show Lab和字节跳动组成。

论文地址：
https://openreview.net/pdf?id=o3yygm3lnzS
项目主页：
https://showlab.github.io/pv3d/

— 完 —

字节跳动新加坡国立大学

鱼羊

OpenAI被举报：非法限制员工披露AI安全风险2024-07-14
AI视频创作一条龙！达摩院寻光平台炸场WAIC，突破可控编辑难题2024-07-05
姚班大神陈立杰获UC伯克利教职，2025年秋季入职2024-07-02
英伟达布局AI视频，Sora风头快被抢完了2024-06-29

首个3D人像视频生成模型来了:仅需1张2D人像，眨眼、口型都能改变 profile-avatar

3D动态人像生成

实验部分

团队介绍

相关阅读

马斯克要向火星发射数千艘120米火箭，字节计划重返印度市场，台积电将砸1万亿新台币扩大2nm产能布局，今日更多大新闻在此

拜登叫停特朗普对微信和TikTok的禁令

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

《时代》杂志2019全球百大影响力人物：任正非张一鸣贺建奎上榜

字节任命新CFO或将重启上市，华为5倍薪酬再招天才少年，市场监管总局已关注知网涉嫌垄断问题，今日更多大新闻在此

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

首个3D人像视频生成模型来了:仅需1张2D人像，眨眼、口型都能改变 profile-avatar

3D动态人像生成

实验部分

团队介绍

相关阅读

马斯克要向火星发射数千艘120米火箭，字节计划重返印度市场，台积电将砸1万亿新台币扩大2nm产能布局，今日更多大新闻在此

拜登叫停特朗普对微信和TikTok的禁令

帮视障人士“看见”图片 字节跳动最新视觉语言预训练模型入选ICML 2022

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

《时代》杂志2019全球百大影响力人物：任正非张一鸣贺建奎上榜

字节任命新CFO或将重启上市，华为5倍薪酬再招天才少年，市场监管总局已关注知网涉嫌垄断问题，今日更多大新闻在此

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022