原来最强赘婿在二次元长这样，秒穿次元壁的AI特效又双叒火了

鱼羊 2020-09-24 13:08:04 来源：量子位

这是李雪琴？这是快手？

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

虽然每天早晨甚至无法从50平米的地铺上醒来，但偶尔刷刷知乎，还是会被这类问题吸引住眼球——

穿越到霸道总裁小说的世界，是一种怎样的体验？

最近，一个能满足这种幻（xia）想的快手AI特效火了。

不仅老铁们纷纷穿越，许多明星大V也贡献了自己的「言情小说脸」。

你看这位李雪琴老师，就瞬间女主光环加持，慵懒的眼神里又多了几分灵动的忧郁。

硬糖少女刘些宁，更是引得网友直呼：这不就是霸道总裁小说封面女主本主吗？

还有歪嘴战神本神，到了二次元的世界，还是熟悉的配方，熟悉的味道。

看到这些，我不禁产生了一个大胆的想法，让老婆们也一起穿越，不也就是举起手机就能搞定的事？

△新垣结衣

嗯，新垣结衣是二次元走出来的实锤了！

更妙的是，这样一个AI特效，不仅能实时捕捉每一个表情变化，模仿咆哮帝也能hold得住：

△明道

细节处理也着实奥利给，描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。

打破次元壁的技术

所以快手这一堪称「穿越神器」的AI特效，在技术上是如何实现的呢？

快手工程师介绍，相比于此前的一些特效玩法，「手绘」系列最大的不同，是需要兼顾真实感、美感以及卡通效果三方面的要求。

也就是说，既要最大程度保留用户本人的五官和外形特征，还要具备手绘风格的美学和艺术效果。

这就对整体风格和局部细节的呈现都提出了高要求。

为此，快手特效中心团队研发了一个基于GAN（对抗生成网络）的图像翻译和风格迁移学习训练框架，结合此前CycleGAN、U-GAT-IT等技术的主要优点，并根据实际需求进行了定制化的开发和优化。

CycleGAN

CycleGAN可以说是GAN中的「前辈高人」，由UC伯克利的朱俊彦团队提出，影响了后续一众「换脸」研究。

其最大的突破，是打破了图像风格转换中，需要成对图片训练集的限制。

也就是说，在源域和目标域之间，无需建立训练数据间一对一的映射，就可实现风格迁移。

就像下图中右侧所示。

基于此，去年香港中文大学贾佳亚教授团队，就曾提出过一个加强版的CycleGAN，可以将人脸照片转化成如同手绘图像，甚至还能反向转换，将二次元的卡通图像，转换成现实中可能的样子。

U-GAT-IT

U-GAT-IT，是一种无监督图到图翻译算法，由韩国游戏公司NCSOFT开发。

同样是打破次元壁的神器：

具体而言，U-GAT-IT由两个GAN组成。

一个负责把现实世界的自拍照进二次元，即从源领域到目标域的翻译。

另一个则反过来，能把二次元人物拉回到三次元中，即从目标域到源领域的翻译。

同样，也不需要成对的训练数据。

为了生成更加逼真的图像，U-GAT-IT还以端到端的方式引入了注意力机制和可学习归一化方法。

在这一次快手手绘特效的实现上，训练同样以大量非配对数据为基础，并加上了一部分人工修图得到的配对数据作为引导，通过混合训练的方式，既快速又精准地得到整体上较为接近手绘的风格化效果。

另外，由于手绘数据采集成本较高，所以研究人员还采用了迁移学习的方法进行数据扩增，并根据快手用户日常进行的人像拍摄场景分布规律，进行了适配。

在细节增强方面，快手则通过加入人脸关键点、人像语义分割等AI技术，精确地定位到对应的关键区域，并在整体的基础上重点加强局部区域的细节调整，以全局与局部的混合训练有效的提升了整体效果的呈现。

在此基础之上，针对手绘中特殊的线条和高光图案，研发人员也设计了对应的损失函数进行监督学习。

而针对短视频的形式，快手的手绘特效还要考虑保障实时效果，人怎么动，画面也要跟得上。

这就涉及到手机计算能力与模型计算量的适配、脸部效果跟背景效果和素材的适配、视频效果流畅性等诸多因素。

为此，从算法，到工程、特效、涉及等多个环节，研发人员都进行了大量的尝试，以及细致的优化、打磨。

快手技术实力：不止于AI特效本身

打造这款特效的，是快手的Y-tech技术团队。

快手Y-tech是快手在人工智能等前沿领域的探索者和先行者，以研发前沿科技、提升用户体验、创造用户价值为使命，致力于在计算机视觉、机器学习、深度学习和计算机图形学等领域开展技术研究和业务落地。

其实，从技术的角度上来说，对于快手的工程师们而言，追求效果上的极致，还不是全部目标……

更重要的一点，是要覆盖高、中、低端各种手机型号，让每一个档次的机型的能力都发挥到最大。

一方面，是因为每一次的产品落地，都关系到4亿用户的实际体验，牵一发而动全身。

另一方面，快手的用户特性决定，用户手中的手机型号分布会很广，不同机型算力和内存资源差异很大。

为了能够让每一位天南地北的老铁都能够无差别地享受AI技术带来的乐趣，在技术的设计方案上，就既要力求让高端机充分发挥计算能力，给用户带来极致体验，同时也要在中低端机上做到逼近高端机的效果。

也就是说，不管算力高低，在最后的用户体验上，都要实现GAN的「秒变」。

这事实上涉及了三方面的指标：准确率、能耗、延迟。毕竟除了特效的实时性，如果一次使用电量就哗哗掉，手机温度蹭蹭涨，那也非常影响用户体验。

而要在跨度如此之大、很大一部分算力并无优势的硬件上，兼顾这三个指标，其中挑战不可谓不大。

以这一次的「手绘」系列为例，工程师们进行了非常细致的方案细分和探索，针对不同的机型，采取差异化的AI模型生成方案。

这实际上给AI算法和工程团队带来了更大的工作量。

但对于快手工程师而言，让每一个档次机型的方案都尽可能达到更好的效果，既是一种「使命感」，也是一种刻在企业文化里的「技术特性」。

近年来，快手已有不少AI产品成功落地、应用，其背后的技术路线，始终是坚持打造自研AI基础引擎、打造普惠AI算法，坚持让用户无差别享受高算力AI技术的Hard模式。

比如自研YCNN深度学习推理引擎，是快手很多AI功能的强大加速器，是将AI模型迁移到不同场景、不同算力硬件的技术基础。

比如定制化压缩模型，使快手能在考量各种边界条件、有限的计算以及内存资源条件下，把模型的计算量降到最小，同时又不影响算法效果。

这在技术上的难度和积累，其实是不言而喻的。

所以，每一次新的爆款，每一次给老铁们带来的新乐趣，其实都是快手技术团队实力的又一次强有力证明。

而在技术可能加剧资源、地区和发展不平等的今天，快手运用自身强大技术，普惠每一个用户的技术民主化路线，也是其「接地气」的核心所在，是快手每一次新技术落地背后易于忽略却又令人感叹的地方。

另外，像今天这样的特效，可能还只是快手专门集结特效中心的开头动作，后续可能还会有更多「接地气」的AI特效玩法……

像是让二次元人物走进现实的动作捕捉这种：

所以如果你也有想到、期待一些新特效新玩法，不如评论区大胆表达起。

说不定就是下一个火爆全网的短视频新玩法呢~

— 完 —

AI手绘快手

鱼羊

OpenAI被举报：非法限制员工披露AI安全风险2024-07-14
AI视频创作一条龙！达摩院寻光平台炸场WAIC，突破可控编辑难题2024-07-05
姚班大神陈立杰获UC伯克利教职，2025年秋季入职2024-07-02
英伟达布局AI视频，Sora风头快被抢完了2024-06-29

原来最强赘婿在二次元长这样，秒穿次元壁的AI特效又双叒火了

打破次元壁的技术

快手技术实力：不止于AI特效本身

相关阅读

AI杀入斗地主领域，快手开发DouZero对标AlphaZero，干掉344个AI获第一

快手Y-tech万鹏飞：短视频UGC智能创作中的CV技术和发展趋势

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

国内首家，快手上线千万级QPS QUIC集群

抗击武汉肺炎，减少聚会！华为百度延期办会，春节档电影下线，快手捐资1亿，微信就能查发热门诊

她，快手上市中最隐秘的富豪：一笔赚回百亿美元

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬