中科院发布目标追踪数据集，万条视频，150万个边界框｜快来下载

栗子 2018-12-30 12:45:58 来源：量子位

动栗发自凹非寺

量子位出品 | 公众号 QbitAI

中科院发布了一个目标追踪数据集，叫做Got-10k。很大，很精致。

它包含了超过10,000条视频，主角都是在现实世界里移动的物体，分成560多个类别。

物体的边界框全部是手动标记，总计超过150万个。

除此之外，数据集还是个Benchmark，可以用来衡量模型的性能，也已经有排行榜了。

官方还提供Python工具包，以便小伙伴们用这个Benchmark来测试自己的AI。

那么，来仔细观察一下数据集，吧。

事无巨细

除了规模大，Got-10k还有许多重要的特质。

通用类别 (Generic Classes)

数据集是以WordNet英文词汇数据库作为骨架，搭建起来的。分成5个大类：

动物 (Animal) 、人造物体 (Artifact) 、人物 (Person) 、自然物体 (Natural Object) ，以及Part。

大类之下再细分，一共563个类别。

上面讲的是目标类别，只是数据的其中一个标签。

另一个标签是动作类别，一共分为87种。一部分按照WordNet来划分，还有一部分是数据收集者定义的。

单样本学习 (One-Shot Learning)

为了训练出的模型能有更强的泛化能力，训练集和测试集之间不存在交集。

模型可以用少量的数据去学习分类，这样也能避免测试结果偏向AI熟悉的那些样本类别。

统一训练数据 (Unified Training Data)

所有方法都用相同的训练数据。依靠这样的协议，来保障所有追踪器之间的公平对比。

额外标记 (Extra Labeling)

除了目标类别、动作类别和标记框之外，还有其他标签。

比如，目标可见比 (针对遮挡或者出画的情况) ，负责监督那些难度比较大的任务。

有效评估 (Efficient Evaluation)

测试集包含180段视频，分属于84个目标类别，32个动作类别，用来衡量模型的追踪能力。

万事俱备，只差你了

现在，完整的GOT-10k数据集已经可以下载了。

并且，评估服务器 (Evaluation Server) 准备好为各路模型打分了，排行榜也会实时更新。

温暖的官方为小伙伴们提供了Python工具包，用来运行实验，方便在Benchmark上评估性能。

另外，除了Python工具包，还有MABLAB工具包。

你还不来么？

△ 这样好像可以玩一天

数据集传送门：

http://got-10k.aitestunion.com/downloads

Python工具包：

https://github.com/got-10k/toolkit

MATLAB工具包：

https://github.com/got-10k/toolkit-matlab

数据集论文：

https://arxiv.org/abs/1810.11981

中科院数据集

栗子

SQuAD风云：AI对鲁迅作品的理解超过我了？别激动……2018-01-20
马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16

中科院发布目标追踪数据集，万条视频，150万个边界框｜快来下载

事无巨细

万事俱备，只差你了

相关阅读

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

5年内不得晋升！中科院“木兰”换皮Python涉事人被处分：涉及虚假欺瞒，岗位等级削减一级

谷歌年度AI技术总结来了！Jeff Dean执笔，附赠27个开源工具和数据大礼包

这个CV数据集生成器火了，支持13类复杂CV任务，DeepMind谷歌MIT等打造丨开源

中国将有自己的火星无人机了！中科院耗时两年，已完成样机验收

争建AI算力中心热潮背后：谁在花冤枉钱？

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬