快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

快手Y-tech部门AI技术平台负责人万鹏飞受邀发表了题为《短视频UGC智能创作中的计算机视觉技术》的演讲,从产业的角度分享了计算机视觉技术在短视频智能创作方向的应用和发展趋势。

近日,2021全球人工智能技术大会在杭州召开。本次大会汇集来自世界各地的人工智能领域专家,共同为人工智能的未来发展建言献策。在6月5日召开的计算机视觉专题论坛上,快手Y-tech部门AI技术平台负责人万鹏飞受邀发表了题为《短视频UGC智能创作中的计算机视觉技术》的演讲,从产业的角度分享了计算机视觉技术在短视频智能创作方向的应用和发展趋势。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

快手深耕短视频内容创作生态,UGC智能创作降本增效

作为国民短视频社区,快手用户日均使用时长99.3分钟,整体日活达3.792亿。在庞大的用户与流量基础上,快手形成了富有活力的内容创作生态,平台内有300亿+原创视频库存,每月新增创作者1000w+。其中大部分内容是广大普通用户创作的,即UGC(User Generated Content)。据万鹏飞介绍,UGC强调人机协同,内容创作的主体是人,技术辅助人做创作;智能创作则强调技术有一定的自动化能力,可在内容创作中起到“降本增效”的作用。对应到实际产品中,快手系产品的UGC智能创作主要涵盖了三大类功能:人像美化功能、影音特效功能和独立创作工具。

人像美化功能:快手的人像美化功能包括美颜、美型、美体、美妆、滤镜、画质增强等。除经典的基于图形图像处理的技术方案外,快手将基于深度学习的CV技术融入到了人像美化中,大幅提升了用户体验。例如用神经网络来提高人像照片的画质或让照片中的人更年轻,以及通过环境光照估计使美妆效果在实际场景中更加自然等。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

影音特效功能:除了常见的各种人脸AR装饰外,特效功能的含义非常广泛,包括但不限于各种玩法道具、贴纸动效、视频模板和小游戏等。例如万物AR玩法是用摄像头扫描通用物体并触发效果(如让湿纸巾跳舞),活照片玩法可以使一张图按照特定方式动起来(如前阵子很火的“蚂蚁呀嘿”),这些都是特效技术的范围。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

独立创作工具:快手此前已经推出“快影”和“一甜相机”等多款受欢迎的工具产品帮助用户进行视频和图像的专业创作,最近还刚发布了一款主打高清修图的“原片”app。除这些产品外,此次大会上万鹏飞重点介绍了另外两个比较特别的独立创作工具。

第一个是虚拟偶像创建和开播工具—A站面捕助手,用户能以很低的成本创造自己的虚拟形象,并让虚拟形象跟着自己动起来,进行直播互动和内容生产。大大降低了普通人或商家拥有和运营属于自己的虚拟偶像的门槛。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

第二个是快手特效开放平台—必扬特效平台,在这个平台上,人们可以设计和创造自己的特效玩法,发布到快手让更多人体验,并可获得平台激励。通过这个方式,短视频平台、特效创作者、特效消费者形成了一个互利共赢的生态。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

CV技术助力快手短视频智能创作,五大变化传达技术发展趋势

短视频UGC智能创作各种功能的实现大多依托于(但不仅限于)计算机视觉技术,即CV技术。在演讲中,万鹏飞从产业应用的角度,按照人体感知与重建技术、环境感知与重建技术、像素级语义分析、生成式技术和多模态技术这五个技术方向进行了介绍。

人体/环境感知与重建技术:感知和重建是智能创作的重要前提,也是CV领域的重要课题。主要包括点/框检测、物体/场景识别、动作捕捉、VO/SLAM、3D重建等,这些基础CV技术有力保障了快手用户的创作体验。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势
快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

像素级语义分析:这方面用途最广的是分割技术,俗称抠图。除了比较常见的人像分割外,万鹏飞展示了一个快手实时天空分割的案例,不论是窗户的遮挡,还是建筑与天空的连接处,都分割得非常细腻。除各种分割抠图外,有时候也需要对画面中的其他语义信息进行分析,如深度和法线等。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

生成式技术:以生成判别网络(GAN)为代表的生成式技术是近几年非常火热的课题。生成式技术除了可以做各种好玩的特效外(如“童话脸”特效),其应用已深入到智能内容创作的方方面面。例如传统的染发效果是在头发上叠加一层颜色,效果很假。用生成式技术染出来的头发,则更像是现实中实际染上去的效果。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

多模态技术:现实世界中人们感受和表达信息大多是多模态的。一个短视频,不只有画面,还有声音、文本信息等,因此UGC智能创作也应该对多模态信息进行联合建模。在智能创作方面,多模态技术的落地场景有很多,包括为短视频配乐、配文案,图文转视频,以及文字生成画面等。

以上这些技术在实际落地中会面临很多挑战,包括如何保证算法在各种不同的机型上都能发挥最好的算法效果且保证运行流畅。如何保证用户在各种使用场景中能保证算法的鲁棒性等。这些都是CV技术在实际业务落地时必须考虑和解决的问题。

快手Y-tech万鹏飞:短视频UGC智能创作中的CV技术和发展趋势

在演讲的最后,万鹏飞展望了短视频UGC智能创作技术未来发展的五大趋势:“首先是从单模态到多模态,利用多模态信息进行智能创作;第二,生成模型会越来越强大。生成的内容更加逼真,且生成的过程更加稳定可控;第三,内容形态走向虚实融合。虚拟与现实的边界变得模糊,混合现实技术很有前景;第四,从辅助制作到辅助创意,技术需要帮助人们解决内容创作中的创意瓶颈问题;最后,计算模式将走向云边端联合计算,强大的计算能力将为用户解锁更多更智能的创作体验” 。

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。