900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释

鱼羊 2020-02-27 13:09:32 来源：量子位

鱼羊发自云凹非寺
量子位报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images，再次进化。

这一次的V6版本，不仅增加1400种视觉关系注释类型，新增2350万个经过人工验证的图像级标签，包含250万个人类动作注释，还更新了新特性局部叙事（localized narratives）。

所谓局部叙事，是一种全新的多模式注释形式，包括所描述对象的同步语音、文本和鼠标轨迹。

△图源：谷歌博客

在Open Images V6中，有50万图像适用这一模式。

同时，谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级，重头戏就在于加入了局部叙事。

在Open Images V6中，新增了507444个局部叙事。

谷歌表示，这部分注释数据里，鼠标轨迹总长度约为6400公里；要念完所有的文本叙述，需要1.5年时间。

在研究、利用视觉和语言之间的联系时，通常会使用图像字幕，即图像及其描述文本之间的配对。

那么问题来了，文本中每个单词都对应到图像的哪一个部分呢？

局部叙事，这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时，会将鼠标移动到单词对应的图像区域上。

并且，他们会手动纠正自动语音识别结果，确保语音、文本和鼠标轨迹三者对应正确且同步。

另一个有趣的应用点是，这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标，所以在这些注释中，你可以看到不同的指示对象的方式。

这可能会为新用户界面的设计带来灵感。

新的视觉关系，人类动作和图像级注释

除了局部叙事，Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中，除了狗狗和飞盘会被各自标记出来，“捕捉”这个动作也会被标记出来。

而对计算机视觉而言，理解人的行为也是一大研究重点。于是，Open Images V6中现在一共包含250万个人类动作，比如“跳跃”、“微笑”、“躺下”等等。

并且，在添加了2350万个新的经过人工验证的图像级标签后，Open Images V6里的图像级标签达到5990万个，涵盖19957个不同类别。

目前，Open Images V6共包含：

600种类别的可框住对象子集。包含1,743,042张训练图像，41,620张图像的验证集和125,436张图像的测试集。
19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
完整集合包含9,178,275张图像。

关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集，包括大约900万张图片，标注了数千个图像类别。

2019年，谷歌释出Open Images V5，新增了对图像分割掩码的注释。分割对象样本近280万个，覆盖350个类别，成为最大分割掩码数据集。

并且从2018年开始，谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望，通过Open Images V6，能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址：https://storage.googleapis.com/openimages/web/index.html

谷歌博客：https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

数据集谷歌

鱼羊

OpenAI被举报：非法限制员工披露AI安全风险2024-07-14
AI视频创作一条龙！达摩院寻光平台炸场WAIC，突破可控编辑难题2024-07-05
姚班大神陈立杰获UC伯克利教职，2025年秋季入职2024-07-02
英伟达布局AI视频，Sora风头快被抢完了2024-06-29

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释

△图源：谷歌博客

局部叙事

新的视觉关系，人类动作和图像级注释

关于Open Images

传送门

相关阅读

GAN之父离职谷歌跳槽苹果，加入库克直管的“特别项目组”

光缆能预警地震？谷歌做到了！140万公里海缆有望成为报警器

谷歌发布颠覆性研究：不训练不调参，AI自动构建超强网络，告别炼丹一大步

Transformer出逃八子最后一人正式创业！坐标日本搞AI“群”模型，本人：在谷歌有被困住的感觉

AI教父Hinton争夺秘史：百度2.88亿天价求才，却因“中国身份”惜败谷歌

谷歌AI生成视频两连发：720p+长镜头，网友：对短视频冲击太大

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬