这个多模态视频人物数据集里，藏了赵丽颖、吴亦凡和蔡徐坤丨资源

郭一璞 2018-11-22 11:48:44 来源：量子位

郭一璞发自凹非寺

量子位报道 | 公众号 QbitAI

爱奇艺最近公开了一个数据集，名叫iQIYI-VID。

公开这个数据集的爱奇艺官方给它确认的类别名字叫“多模态视频人物数据集”，翻译成人话，就是有很多人，每个人用不同的“姿势”拍视频，收集起来攒成的数据集。

只不过，这些人相对比较有名，有赵丽颖、吴亦凡和蔡徐坤……

5000个明星艺人

整个数据集非常庞大，包含5000个艺人，近60万条视频，每条视频长1~30秒。

数据集中的每个视频片段都经过人工注释，错误率低于0.2%。

其中收录了一些同一个艺人都的不同造型，比如，有发型别致的吴亦凡

还有发型比较常规的吴亦凡

有穿红衣服的赵丽颖

还有穿蓝白衣服的赵丽颖

以及穿同样衣服的蔡徐坤和……抱歉，脸盲的量子位认出蔡徐坤已经是极限了。

整个数据集中，大部分明星都拥有10~50个视频，有50~100个视频或100~300个视频的也不少，但只有少量头部艺人拥有300个以上的视频。

而根据年龄来看，主力军竟然是30多岁的明星艺人，其次才是40多岁的明星，30岁以下的明星只有不到600个。原来年纪大了也可以出道啊？

最后，大部分视频都是在5秒钟以内，非常简短，节省计算资源。

有什么用

不过，把这些明星艺人的视频搜集到一起，究竟能炼什么丹呢？

主要可以做三件事：

第一，人脸识别

5000个人呢，辨认一下谁是谁。不过人脸识别实在是太普遍了。

第二，说话人识别

基于音频的说话人识别，训练机器听声音，判断是谁在说话。

目前这方面的资料不是很多，这方面最大的免费数据集是VoxCeleb和VoxCeleb2；另外美国国家标准技术研究院（NIST）曾经做过一些工作，但是那些数据集不是免费的。

第三，基于身体特征的人员重新识别

根据身体特征，判断不同镜头中的人是否为同一个人，目前主要还是用单帧的方法，从视频中抽取单帧图像，通过图像切割、骨架点定位、姿态校准进行比较。

综艺节目再利用

至于这些视频是哪儿来的嘛，自然是要感谢爱奇艺作为视频网站的老本行。

这些视频片段是从40万小时的电影、电视剧、综艺、新闻视频中剪出来的，内容源自爱奇艺网站上TOP 50万的热门视频。

将这些热门视频按照分镜头剪开后，不到一秒的视频因为信息不足被丢掉，超过30秒的视频考虑到计算负载过大也被删掉了。

之后，去掉噪声，根据每个人的衣服或人脸特征来归类，匹配到爱奇艺的名人数据库，从而生成针对每个不同人物的视频数据集。

传送门

论文

https://arxiv.org/abs/1811.07548

数据集地址（需要登录下载）

http://challenge.ai.iqiyi.com/detail?raceId=5afc36639689443e8f815f9e

数据集爱奇艺

郭一璞

这个多模态视频人物数据集里，藏了赵丽颖、吴亦凡和蔡徐坤丨资源

5000个明星艺人

有什么用

综艺节目再利用

传送门

相关阅读

MIT博士生、北大校友，利用自监督算法，解决了数据集中这一常见的“难题”

本田公布104小时驾驶行为数据集：时间不长但胜在全面｜附资源

谷歌年度AI技术总结来了！Jeff Dean执笔，附赠27个开源工具和数据大礼包

这个比肩ImageNet的数据集遭MIT紧急下架，原因令人愤怒

给研究思路就能推荐数据集，还能分析语料“毒性”，CMU博士后等人推出NLP数据处理神器

最大识车数据集：6.4万张车型参数完整标注，交通安防二手都能用

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬