助力AI创新众智生态,全球首个十亿像素级CV挑战赛GigaVision圆满落幕
赛事升级 聚力创新
允中 发自 凹非寺
量子位 | 公众号 QbitAI
围绕十亿像素级计算机视觉技术的2022 GigaVision 挑战赛,在经历四个月的激烈角逐后,于近日落下帷幕。
2022 GigaVision挑战赛开放百万元奖金池,面向全球高等院校、研究机构、高新企业及个人爱好者征集原创算法。
不同于其它视觉算法挑战赛,GigaVision挑战赛是全球首个针对大场景、多对象及复杂关系问题的智能算法比赛,是新一代人工智能算法的试金石。
依托自研的亿像素光场成像设备,大赛构建了具有宽视场、高分辨率的GigaVision平台,延展出当下若干人工智能技术发展的关键问题。平台目前包括两个“世界首个”级别的子项目:
- PANDA:世界首个十亿像素级以人类为中心的视频数据集,具有大场景、多对象、长时程及复杂关系等特点;
- GigaMVS:世界首个十亿像素级超大规模场景三维重建基准,具有规模大、细节分辨率高、遮挡复杂等特点,可使多视角三维重建与渲染问题发生质变。
值得一提的是,这已是GigaVision挑战赛连续第四年举办,且一直与CVPR、ACM MM、ECCV等顶会有着紧密合作。
那么本届GigaVision挑战赛又带了怎样的惊喜?
赛事升级 聚力创新
在GigaVision挑战赛中,每一张图片、视频的每一帧都是十亿像素级别。比如GigaMOT赛道,参赛者需要评估MOT模型在十亿像素视频中对多个目标跟踪任务的准确性,既要解决单目标跟踪任务的互相遮挡、运动模糊、拥挤场景、尺度变化等难点,又要处理目标轨迹的起始与终止、相似目标间的相互干扰等问题。特别是该赛道所使用的PANDA-Video大场景数据集,其可视范围大、拥挤行人的复杂场景等特点也为传统数据集上的MOT算法带来了新的挑战。
又比如在GigaRendering赛道中,参赛者需要在给定的不同场景经过校准的十亿像素图像中,面对稀疏视角下的高分辨率、宽视场、细节丰富的难点,渲染生成新的RGB视图并尽可能提升其准确性。十亿像素级别的图像渲染任务,对神经辐射场的表达、规模和效率提出了更高的挑战。
此外,偏好原始创新的测评方式亦是GigaVision挑战赛的一大亮点。传统的人工智能挑战赛任务普适性强、办赛周期短,大部分参赛队伍倾向利用成熟的理论框架和工程套路,实现系统集成和参数调优,反复刷榜。完全以分数导向的测评方式,阻碍了技术的原始创新。相比之下,GigaVision挑战赛形成了固定的举办周期,并将方法的前沿性、原创性作为排名的重要依据之一,更能鼓励参赛队伍进行原始创新。
可以看到,GigaVision挑战赛看似仍在比拼视觉智能领域的几大经典研究问题,但面向「十亿像素」级图像视频数据,赛题的前沿性、挑战性、创新性和开拓性大幅提升,与经典问题截然不同。以往将整个图像或视频放进网络中直接处理的传统方法不再奏效,仅仅使用单个模型或几个模型也很难完成这种级别的任务。因此,参赛团队会更加专注于「卷」模型架构的设计,致力于探索模型能力的上限,开展更多理论层面的创新尝试。
经过多轮比拼、线上评测、结果复现和视频答辩,本届大赛获得了多目标检测、多目标跟踪、多目标轨迹预测、3D重建、3D渲染、密集人群三维重建等方面的多个创新性解决方案,这些作品均具有很高的准确性和领先性,为十亿像素计算机视觉的发展带来了启发。
几年来,GigaVision数据平台以赛为媒,已经与CVPR、ICCV、ECCV、ACM MM等国际顶会联合举办了多届Workshops和Challenges。系列赛事的举办水平不断提升,参赛规模不断增长,关注度和影响力越来越高。
以赛为媒 推进发展
对于本届赛事的举办以及参赛选手们的优异表现,组委会专家们表达了积极的肯定和最为真实的感受。
不同赛道上涌现出多个原创算法模型,大赛专家表示对十亿像素计算机视觉的发展带来了深远的启发:“经过严谨的线上评测、结果复现和视频答辩,本届赛事共获得了多个原创算法模型,这些作品均具有很高的原创性和领先性,为十亿像素计算机视觉的发展带来了启发。”
对于3D赛道相关作品,大赛专家给予了高度评价:“3D赛道相关作品结合了数字人、元宇宙热点,具有很高应用潜力,且作品完成度较高,融合了基于人工智能的神经表征、可微渲染优化方法和基于多视图几何的立体匹配等经典方法,在算法设计和工程化实现上都颇具亮点,对大场景高精度三维重建任务具有较大的启发性,展示出了巨大的落地应用潜力。”
随着数字人、元宇宙概念的持续爆发,超高分辨率人体三维重建和新视点合成已经成为计算机视觉和计算机图形学领域的研究热点,未来可针对十亿像素级别的人体三维重建或新视点合成任务开展新的赛道,更好地支撑相关领域的发展,同时进一步扩大GigaVision挑战赛的影响力。
同时,参赛选手的“创新”和“大胆”,也被评价为推动领域发展的关键:在目标检测赛道中,参赛选手全面分析了宽视场高分辨视觉数据中场景大、对象多等新特点所带来的新问题,围绕着场景全局稀疏局部稠密、对象尺度多变形态复杂、数据通量大等挑战,提出了一系列目标检测新算法与新模型,相较现有前沿算法,实现了精度与效率的显著提升。参赛选手们的奇思妙想与大胆创新为目标检测领域提供了有效且有趣的新思路,对推动本领域的发展有重要作用。
未来,GigaVision挑战赛将不断努力,提高评价标准,提供更多的技术评价机会,邀请更多的国内外知名高校、人工智能企业以及专家学者参与评价工作,以增强评价的公正性和权威性。同时,GigaVision挑战赛将不断拓展与其他相关领域的合作,以提高竞赛的国际影响力,为人工智能领域的发展提供更多的技术支持和潜在应用。
新的赛季 更高目标
随着赛事的进行,GigaVision项目会研制更先进的百亿级像素成像设备,新设备采集到的场景将更加复杂,具有更宽的视角和更高的分辨率。据了解,GigaVision团队会基于此设计、构建更复杂的更有挑战的数据集,例如更大的待检测的目标数量、更多的遮挡等特点;并通过对国内外参赛者的成果评估和国际前沿的跟踪研究,长线构思赛道和赛题,设计高水平,有前瞻性的优质系列赛题。
2023年新赛季活动即将拉开序幕,其中部分赛道与第三届国际人工智能会议(CICAI 2023)联合举办,以丰厚奖金征集创新算法方案,欢迎访问官网查看最新信息。挑战升级、奖励升级,欢迎各位AI科技爱好者关注大赛官网参与挑战!
CICAI官网:https://cicai.caai.cn/
同时,为了促进相关领域科研和学术交流,PANDA和GigaMVS数据集持续开放,欢迎CV爱好者通过下方链接下载数据。
数据集下载:https://gigavision.cn/news/news/?nav=DataSet%20Panda&type=nav
联系邮箱:challenge@gigavision.cn
- 无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’242024-11-06
- ControlNet作者新作:AI打光玩得更溜了!细节保留能力远高于SD1.52024-11-06
- ChatGPT搜索搞不定勾股定理新证明,但国产AI可以!2024-11-05
- 陶哲轩推荐:2高中生发现勾股定理新证明,论文已发《美国数学月刊》2024-10-30