原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

这是李雪琴?这是快手?

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球——

穿越到霸道总裁小说的世界,是一种怎样的体验?

最近,一个能满足这种幻(xia)想的快手AI特效火了。

不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。

你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。

硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗?

还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。

看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事?

△新垣结衣

嗯,新垣结衣是二次元走出来的实锤了!

更妙的是,这样一个AI特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能hold得住:

△明道

细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。

打破次元壁的技术

所以快手这一堪称「穿越神器」的AI特效,在技术上是如何实现的呢?

快手工程师介绍,相比于此前的一些特效玩法,「手绘」系列最大的不同,是需要兼顾真实感、美感以及卡通效果三方面的要求。

也就是说,既要最大程度保留用户本人的五官和外形特征,还要具备手绘风格的美学和艺术效果。

这就对整体风格和局部细节的呈现都提出了高要求。

为此,快手特效中心团队研发了一个基于GAN(对抗生成网络)的图像翻译和风格迁移学习训练框架,结合此前CycleGAN、U-GAT-IT等技术的主要优点,并根据实际需求进行了定制化的开发和优化。

CycleGAN

CycleGAN可以说是GAN中的「前辈高人」,由UC伯克利的朱俊彦团队提出,影响了后续一众「换脸」研究。

其最大的突破,是打破了图像风格转换中,需要成对图片训练集的限制。

也就是说,在源域和目标域之间,无需建立训练数据间一对一的映射,就可实现风格迁移。

就像下图中右侧所示。

基于此,去年香港中文大学贾佳亚教授团队,就曾提出过一个加强版的CycleGAN,可以将人脸照片转化成如同手绘图像,甚至还能反向转换,将二次元的卡通图像,转换成现实中可能的样子。

U-GAT-IT

U-GAT-IT,是一种无监督图到图翻译算法,由韩国游戏公司NCSOFT开发。

同样是打破次元壁的神器:

具体而言,U-GAT-IT由两个GAN组成。

一个负责把现实世界的自拍照进二次元,即从源领域到目标域的翻译。

另一个则反过来,能把二次元人物拉回到三次元中,即从目标域到源领域的翻译。

同样,也不需要成对的训练数据。

为了生成更加逼真的图像,U-GAT-IT还以端到端的方式引入了注意力机制和可学习归一化方法。

在这一次快手手绘特效的实现上,训练同样以大量非配对数据为基础,并加上了一部分人工修图得到的配对数据作为引导,通过混合训练的方式,既快速又精准地得到整体上较为接近手绘的风格化效果。

另外,由于手绘数据采集成本较高,所以研究人员还采用了迁移学习的方法进行数据扩增,并根据快手用户日常进行的人像拍摄场景分布规律,进行了适配。

在细节增强方面,快手则通过加入人脸关键点、人像语义分割等AI技术,精确地定位到对应的关键区域,并在整体的基础上重点加强局部区域的细节调整,以全局与局部的混合训练有效的提升了整体效果的呈现。

在此基础之上,针对手绘中特殊的线条和高光图案,研发人员也设计了对应的损失函数进行监督学习。

而针对短视频的形式,快手的手绘特效还要考虑保障实时效果,人怎么动,画面也要跟得上。

这就涉及到手机计算能力与模型计算量的适配、脸部效果跟背景效果和素材的适配、视频效果流畅性等诸多因素。

为此,从算法,到工程、特效、涉及等多个环节,研发人员都进行了大量的尝试,以及细致的优化、打磨。

快手技术实力:不止于AI特效本身

打造这款特效的,是快手的Y-tech技术团队。

快手Y-tech是快手在人工智能等前沿领域的探索者和先行者,以研发前沿科技、提升用户体验、创造用户价值为使命,致力于在计算机视觉、机器学习 、深度学习和计算机图形学等领域开展技术研究和业务落地。

其实,从技术的角度上来说,对于快手的工程师们而言,追求效果上的极致,还不是全部目标……

更重要的一点,是要覆盖高、中、低端各种手机型号,让每一个档次的机型的能力都发挥到最大。

一方面,是因为每一次的产品落地,都关系到4亿用户的实际体验,牵一发而动全身。

另一方面,快手的用户特性决定,用户手中的手机型号分布会很广,不同机型算力和内存资源差异很大。

为了能够让每一位天南地北的老铁都能够无差别地享受AI技术带来的乐趣,在技术的设计方案上,就既要力求让高端机充分发挥计算能力,给用户带来极致体验,同时也要在中低端机上做到逼近高端机的效果。

也就是说,不管算力高低,在最后的用户体验上,都要实现GAN的「秒变」。

这事实上涉及了三方面的指标:准确率、能耗、延迟。毕竟除了特效的实时性,如果一次使用电量就哗哗掉,手机温度蹭蹭涨,那也非常影响用户体验。

而要在跨度如此之大、很大一部分算力并无优势的硬件上,兼顾这三个指标,其中挑战不可谓不大。

以这一次的「手绘」系列为例,工程师们进行了非常细致的方案细分和探索,针对不同的机型,采取差异化的AI模型生成方案。

这实际上给AI算法和工程团队带来了更大的工作量。

但对于快手工程师而言,让每一个档次机型的方案都尽可能达到更好的效果,既是一种「使命感」,也是一种刻在企业文化里的「技术特性」。

近年来,快手已有不少AI产品成功落地、应用,其背后的技术路线,始终是坚持打造自研AI基础引擎、打造普惠AI算法,坚持让用户无差别享受高算力AI技术的Hard模式。

比如自研YCNN深度学习推理引擎,是快手很多AI功能的强大加速器,是将AI模型迁移到不同场景、不同算力硬件的技术基础。

比如定制化压缩模型,使快手能在考量各种边界条件、有限的计算以及内存资源条件下,把模型的计算量降到最小,同时又不影响算法效果。

这在技术上的难度和积累,其实是不言而喻的。

所以,每一次新的爆款,每一次给老铁们带来的新乐趣,其实都是快手技术团队实力的又一次强有力证明。

而在技术可能加剧资源、地区和发展不平等的今天,快手运用自身强大技术,普惠每一个用户的技术民主化路线,也是其「接地气」的核心所在,是快手每一次新技术落地背后易于忽略却又令人感叹的地方。

另外,像今天这样的特效,可能还只是快手专门集结特效中心的开头动作,后续可能还会有更多「接地气」的AI特效玩法……

像是让二次元人物走进现实的动作捕捉这种:

所以如果你也有想到、期待一些新特效新玩法,不如评论区大胆表达起。

说不定就是下一个火爆全网的短视频新玩法呢~

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读