英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

安妮 2018-04-16 00:00:22 来源：量子位

林鳞编译整理

量子位出品 | 公众号 QbitAI

英伟达最近的一项研究看起来有点神奇。

一张普通的猫咪图像，可以被转换成一只老虎、一头狮子或一只美洲豹。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

还是一张普通的猫咪图，还能被转换成不同品种的狗。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

这种实时转换技术不仅能用于图像，还能用于视频。

这是英伟达最新创造的一项技术。在最近发布的论文Multimodal Unsupervised Image-to-Image Translation中，研究人员提出了一种多模态无监督的图像到图像（image to image）转换框架。

这个框架的神奇之处在于，一张猫的图像可以同时转换成多种动物，能够进行一对多的图像转换，打破了原来一对一转换的限制。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

△ “狗生猫，猫生万物”

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

△ 冬夏场景转换

此外，这个框架还支持用户通过提供示例样式的图像控制转换输出的风格。

这是一项有趣的技术，不仅能够帮助游戏开发者和电影制作者减少工作量和花费，还能让自动驾驶领域更快、更容易地产生多样化的训练数据。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

△ 道路的冬夏转换

论文介绍

在论文Multimodal Unsupervised Image-to-Image Translation中，奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。

研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间，之后再进一步假设，不同领域的图像内容空间相同，但样式空间不同。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

为了将一张图像转换为指定领域的图像，研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样，内容代码编码的信息在转换过程中将被保留，而样式代码代表了与输入图像无关的剩余的变体。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

通过抽取不同风格的代码，这个模型可以输出风格多样且多模态的图像。

实验表明，这个模型在建立多模态输出分布时非常高效，并且和目前最先进的方法相比图像质量更高。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

△ 与现有的样式转换模型的对比

这并不是英伟达在图像转换领域的首次探索，这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

论文介绍

相关资料

相关阅读

英伟达新研究：不用动捕，直接通过视频就能捕获3D人体动作｜ICCV 2021

摄像头藏身路由器洗发水，针孔偷拍又出新花招，免插电断网远程录视频

阿里达摩院提出时序预测新模型精准预测电网负荷

芯翌科技拿下口罩人脸识别世界第一！还将推全球最大公开人脸数据集

谷歌大脑发布神经架构搜索新方法：提速1000倍

旷视完成7.5亿美元D轮融资

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换

论文介绍

相关资料

相关阅读

英伟达新研究：不用动捕，直接通过视频就能捕获3D人体动作｜ICCV 2021

摄像头藏身路由器洗发水，针孔偷拍又出新花招，免插电断网远程录视频

阿里达摩院提出时序预测新模型 精准预测电网负荷

芯翌科技拿下口罩人脸识别世界第一！还将推全球最大公开人脸数据集

谷歌大脑发布神经架构搜索新方法：提速1000倍

旷视完成7.5亿美元D轮融资

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

阿里达摩院提出时序预测新模型精准预测电网负荷