2021SLT CSRC|标贝科技增发2800小时儿童ASR商业数据服务

标贝科技全程提供支持,近400小时的高质量成人朗读数据和儿童朗读、对话等参赛数据

由西北工业大学、清华大学、厦门大学和标贝科技联合主办、中国计算机学会语音对话与听觉专业组支持的IEEE SLT 2021研讨会旗舰活动-儿童语音识别挑战赛(CSRC)最终排名结果及官方论文于日前重磅发布。CSRC赛事持续近3个月时间,经过激烈竞夺,赛道一前三名由上海交通大学、大连奇辉计算机网络有限公司、网易有道信息技术(北京)有限公司摘得,而赛道二前三名为小米、东芝、同花顺公司获得。荣誉桂冠,实至名归。

据了解,本次竞赛数据由联合主办方之一的标贝科技全程提供支持近400小时的高质量成人朗读数据和儿童朗读、对话等参赛数据,分别取自标贝自有5000 小时成人中文朗读语音数据库、1800小时的少儿语音对话数据库,充分满足竞赛需要,匹配语音识别模型训练。

事实上,赛事数据一直是本届SLT CSRC一大吸睛点,让赛事的关注度与参与度随之提升。而儿童语音数据更是厂商的关注点。缘由该数据在智慧教育、早教产品、智能音箱等众多语音交互场景中有着广泛应用基础。但儿童语言因其声线与吐字等原因,语音和语言特性不同于成人,有着天然的技术辨别难度。并且在训练过程中,如果没有覆盖大量带有标签的儿童语音,儿童的ASR的准确性仍明显低于成年人。因而,高质量儿童ASR数据的重要性不言而喻。

 

从本次赛事报名情况来看,2021 SLT CSRC共吸引了近60家来自全球不同地区的高校、科研机构与厂商报名,覆盖中国大陆和香港、美国、新加坡、爱尔尼亚等地区,其中国内厂商参赛队伍不乏像爱奇艺、小米、网易、华为、马上金融等业内熟知厂商,而国内高校和科研机构汇聚了清华、浙大、上海交大、中科院自动化研究所等。本届CSRC竞赛受到了以上机构和厂商的积极参与,但仍有部分队伍未能如期报名,表示希望有机会再次参赛,应用数据做研究。

另外,本次赛事数据的价值还体现在了本届SLT CSRC论文方面。截至目前,基于标贝科技提供的儿童语音识别数据,已有包括SLT官方、小米、CUHK(香港中文大学)等机构发表学术论文。论文的发布不仅代表着当前业内极高的学术水平,更为从业者提供专业参考指南。

 

本届SLT CSRC竞赛结果和论文已揭晓,但行业对数据的需求却未停止。为更好地推动儿童语音产品研发,标贝科技针对本次未能参赛以及对儿童ASR数据有更多需求的伙伴,特此提供以下2套特定价格的数据产品

1、CSRC数据

成人朗读数据340小时有效时长

儿童朗读数据28小时有效时长

儿童对话数据29小时小时有效时长

2、标贝科技儿童语音识别数据集

儿童中文语音数据库 有效时长1800小时

儿童英文语音数据库 有效时长500小时

儿童中英文语音数据库 有效时长500小时

版权所有,未经授权不得以任何形式转载及使用,违者必究。