900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释
鱼羊 发自 云凹非寺
量子位 报道 | 公众号 QbitAI
谷歌的900万注释图像数据集Open Images,再次进化。
这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。
所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。
△图源:谷歌博客
在Open Images V6中,有50万图像适用这一模式。
同时,谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。
局部叙事
Open Images的这一次升级,重头戏就在于加入了局部叙事。
在Open Images V6中,新增了507444个局部叙事。
谷歌表示,这部分注释数据里,鼠标轨迹总长度约为6400公里;要念完所有的文本叙述,需要1.5年时间。
在研究、利用视觉和语言之间的联系时,通常会使用图像字幕,即图像及其描述文本之间的配对。
那么问题来了,文本中每个单词都对应到图像的哪一个部分呢?
局部叙事,这时就派上了用场。
这些注释由注释人员完成。注释人员在念出图像描述文本的同时,会将鼠标移动到单词对应的图像区域上。
并且,他们会手动纠正自动语音识别结果,确保语音、文本和鼠标轨迹三者对应正确且同步。
另一个有趣的应用点是,这些图像为探索人们描述图像的方式提供了潜在的研究途径。
因为谷歌并没有指定注释人员要用什么方式去移动鼠标,所以在这些注释中,你可以看到不同的指示对象的方式。
这可能会为新用户界面的设计带来灵感。
新的视觉关系,人类动作和图像级注释
除了局部叙事,Open Images V6还新增了大量新的视觉关系和人类动作注释。
比如在一张狗狗叼飞盘的图像中,除了狗狗和飞盘会被各自标记出来,“捕捉”这个动作也会被标记出来。
而对计算机视觉而言,理解人的行为也是一大研究重点。于是,Open Images V6中现在一共包含250万个人类动作,比如“跳跃”、“微笑”、“躺下”等等。
并且,在添加了2350万个新的经过人工验证的图像级标签后,Open Images V6里的图像级标签达到5990万个,涵盖19957个不同类别。
目前,Open Images V6共包含:
- 600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。
- 19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
- 完整集合包含9,178,275张图像。
关于Open Images
Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。
2019年,谷歌释出Open Images V5,新增了对图像分割掩码的注释。分割对象样本近280万个,覆盖350个类别,成为最大分割掩码数据集。
并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。
谷歌希望,通过Open Images V6,能进一步刺激人们对真实场景的理解。
传送门
Open Images V6下载地址:https://storage.googleapis.com/openimages/web/index.html
谷歌博客:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
— 完 —
- 人大附高中生中NeurIPS,入选高中赛道Spotlight,顶会真卷到中学了2024-09-29
- Llama系列上新多模态!3.2版本开源超闭源,还和Arm联手搞了手机优化版2024-09-26
- AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种2024-09-21
- 新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了2024-09-19