在杭州,我们逛了一家“数据博物馆”
已开源上百个行业数据集
鱼羊 博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
你可能打卡过很多博物馆,但我敢说“数据博物馆”,肯定不在此列。
上百个开源数据集是展品,其中不乏来自电商、文娱等互联网领域的真实场景数据,更有来自工业、医疗等领域的产业稀缺数据。
还吸引了中国科学院国家天文台台长常进院士、创新工场首席科学家周明博士、阿里巴巴集团副总裁贾扬清、阿里巴巴青橙奖获得者王权等学者大咖纷纷前往围观。
不仅如此,“博物馆”还组织了一系列数据青年团聚活动,邀请青橙奖获得者、阿里星学长、技术KOL,与青年开发者畅聊《如何选择第一个工作》《AI的未来发展趋势与行业前景》等热门话题。
你或许想不到,这家“博物馆”是由阿里云天池在今年的杭州云栖发起。
没错,就是那个“奖金丰厚”、“直通大厂”、“还能结♂识AI大神”,人称“中国数据类赛事第一品牌”的天池平台。
不过现在,你可不能仅仅把它看作一个刷简历的平台了。
阿里云天池平台开起了“博物馆”,这究竟是怎么一回事?
什么是“数据博物馆”?
答案还得从现场获取。
最吸引眼球的“展品”,当属行业大规模开源数据集。
不仅数量多达上百个,还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务场景的商品数据,也不乏跟产业界、学术界深入合作获得的宝贵科研数据。
更厉害的是,基于这些数据集产出的学术论文,已经有超过700篇。
具体详情,我们不妨选取其中几个“经典款”,一起看个究竟。
比如新零售领域数据集,就有阿里淘系技术开源的家居行业数据集3D-FRONT,包含超过20,000张高清室内场景专业设计渲染图,可用于场景布局预测与生成等研究课题。
该数据集填补了业内大规模高质量3D场景布局标准数据集的空白,也因此获得了中国计算机图形学大会颁发的首个「图形开源数据集奖」。
再比如文娱数据集方面,服务于产业的视频数据集同样不少。
曾应用于“MEDIA AI阿里巴巴文娱算法挑战赛”的Youku-TED数据集,共包含近3,000小时的55,000段视频,标注了含53类事件类别的近30万段视频事件。
作为一个大规模的视频时序事件检测数据集,正是展开智能生产、视频智能剪辑、生产安全监控、视频内容检索等热门应用研究的基础。
更多方面,还有用于检测钢铁、布匹、酒瓶、瓷砖瑕疵的工业领域数据集,涉及遥感、气候、天文等领域的自然科学类数据集,以及医疗、交通、安全、数字城市等领域的数据集,都在开源列表之中。
值得一提的是,天池平台还广泛和外部机构合作,开放多个行业/学术benchmark。
像是由阿里达摩院、天池平台,以及浙江大学联合推出的MUGE榜单,就是一个用于多模态理解和生成评估的基准,这也是国内首个多模态方向的基准数据集。
如此大批量的开源数据集,确实不负“数据博物馆”之名。
那么这些精品数据集又是从何而来?
阿里云开发者业务总监王一婷介绍,一方面,他们会与业务团队共建自有数据集;另一方面,天池主动与工业、学术界合作,产出大量高质量脱敏数据集;此外,平台还支持用户共享数据集,共同推动科研数据集开源生态的建设。
而这正是阿里云天池今年重磅升级之后,启动的大规模数据开源计划。
天池大动作为哪般?
又是来自真实行业大批量数据集的开源,又是建立行业benchmark,阿里云天池到底图什么?
众所周知,对于数据挖掘/机器学习这些学科,高质量数据集可以说是必不可少的生产资料。
但以高校学生为代表的青年AI开发者,很难接触到大量真实有效的数据,因此也就很难快速提升自身技术实践能力。
而与真实业务场景的脱节,带来的问题还不止于此。
比如,学界和业界在研究目标上往往不同。学界可能更加关注一些确定条件下的确定指标,而业界则会从成本和收益的角度去思考问题。
在云栖大会期间举办的天池数据青年团聚上,达摩院算法专家罗浩博士就谈到:
翻译模型准确率指标从70%提升到80%,在学界是足以发表论文的优秀成果,但对于产业界,就算一百句话都只翻错了一两个单词,还是需要人工全部重译,利润提升不大。
针对这些问题,天池开启大规模数据集开源计划,希望通过提供工业界的最真实的业务数据,降低青年开发者接触和使用科研数据的门槛。
再结合行业实际的竞赛,使开发者能真正研究和解决实际的工业场景中所面临的问题。
这样的举措,其实已见实效。阿里云天池大赛负责人王听介绍:
过去7年中,天池已经举办了400多场高规格的数据科学竞赛。其过程中,青年开发者不仅提升了自身的技术实践能力,同时也孵化出了优秀解决方案,甚至已经有直接反哺产业的案例。
也因此,现在,天池平台上逐渐聚集起90万+AI开发者,覆盖98+国家和地区、4300+海内外高校,成为了中国最大的人工智能开发者社区。
基于这样的背景,阿里云天池也就有了进一步扩大生态的空间:聚合起青年开发者,众智众创,为行业解决业务痛点,并为社会培养和输送人才,打造更完整的AI开发者创新生态,弥合从高校到产业的鸿沟。
天池变了,不再仅仅局限于比赛层面,而是从教育资源、计算资源、数据资源等更多的角度出发,面向青年开发者提供分享、互动、成长的社区阵地。
这样的转变,其实也正迎合了AI发展的大势之下,青年人才更低门槛进入到AI行业的需求。
而据天池方面透露,下一步,他们还将积极参与并致力于数据标准制定和行业标准数据集的建设,进一步服务于AI产业的发展。
那么,你又是否看好呢?
天池官网:
https://tianchi.aliyun.com/
— 完 —
- 低成本机器人“皮肤”登上Nature子刊:实现三维力的自解耦,来自法国国家科学研究中心&香港大学2024-11-23
- OpenAI重夺竞技场第一,但这波靠的是4o2024-11-21
- Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了2024-11-19
- 0元起步打造你的AI搜索!实测秘塔知识库新功能,竟能指导我升职加薪了2024-11-11