NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

MSRA面向高校提供最新的人工智能技术、工具、科研成果,以及数据集。

雷刚 发自 凹非寺

量子位 报道 | 公众号 QbitAI

NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

微软亚洲研究院(MSRA),刚刚送出最新一批AI资源和福利。

在“中国高校人工智能人才国际培养计划”2019国际人工智能专家论坛暨2019微软新一代人工智能开放科研教育平台合作论坛,MSRA面向高校提供最新的人工智能技术、工具、科研成果,以及数据集。

详情如下:

平台:

OpenPAI支撑全国高校的人工智能科研与教学

由微软推出的Open Platform for AI(OpenPAI)人工智能管理和调度平台,是国内首个针对深度学习领域由多方共同开发的开源平台解决方案。

在新一代人工智能开放科研教育平台的合作框架下,OpenPAI已帮助多所高校与科研机构建立了属于自己的人工智能基础支撑平台,其开放、开源、兼容、稳定的特性,模块化的系统架构和丰富的资源为高校常见的异构IT环境以及高校教师在人工智能领域的创新和教学提供了强有力的支撑。

其中,中国科学技术大学的“类脑智能技术及应用国家工程实验室“(NEL-BITA,下文简称“类脑实验室”),就是基于OpenPAI搭建的一个开放、共享的科研教育平台。

并已经在真实的科研、教育场景中进行应用。类脑实验室首先利用OpenPAI整合了其1040块品牌、型号各异的GPU显卡,为上层应用提供底层IaaS(Infrastructure as a Service,基础设施即服务)支撑。

然后类脑实验室在OpenPAI上自主开发了类脑云OS作为PaaS层(Platform as a Service,平台即服务),保障大量人工智能科研、教育应用的开发和运行。

最后,类脑实验室在最上层搭建了bitahub社区,供本校以及兄弟院校的师生发布其研究成果、数据、论文等。

2019年,微软亚洲研究院将继续提升OpenPAI的用户体验、核心深度学习能力支持、调度系统的可扩展性以及系统稳定性,并与合作高校进一步以OpenPAI为基础进行深度学习算法和系统相关的研究,包括自动化机器学习算法、分布式深度学习、自动化网络压缩、自动深度神经网络搜索以及GPU调度算法等。

NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

工具:

集人工智能研究开发实用工具之大成

在新一代人工智能开放科研教育平台上,微软将其在语音、语言、视觉、机器学习、数据挖掘、数据可视化等核心技术范畴内的开源工具进行了整合,如自动化机器学习工具包NNI(Neural Network Intelligence)、轻量级机器学习算法LightGBM、信息图设计工具Infographic Designer和高分辨率网络工具包HRNet(High-Resolution Network)等,与各高校分享,并且集成了各高校在各自领域里的优质开源工具,从而形成能够服务教师与学生的强大的人工智能集成开发环境。

这些人工智能相关的开放开源工具和集成开发环境,让高校师生有效地提升了研究开发效率,不必顾虑技术之间的兼容、转化等问题,降低了人工智能领域技术的学习成本,更加专注于自己的研究领域,更高效地完成人工智能科研和教学工作。

不仅如此,这些工具还让教师和学生们可以轻松地开发、测试和部署人工智能解决方案,灵活运用人工智能领域的核心技术解决金融、医疗、教育等行业中的关键问题,让科研成果产生更大的价值和影响力。

新的一年,微软亚洲研究院将在自动化机器学习工具、深度学习开发工具,以及以此为基础的人工智能教育等方面加大投入。

同时,以PAI for VS Code等工具和OpenPAI为基础,微软亚洲研究院将为高校提供Azure+OpenPAI的部署方案和免费的Azure教学资源,让教师们可以以更快速且低成本的方式部署人工智能实验,让学生们可以在世界一流的平台上练习人工智能实战技能。

NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

数据:

新增业界最全面的语义分析数据集

在新一代人工智能开放科研教育平台的合作框架下,微软开放了自身人工智能领域的数据集供合作高校在科研和教育工作上进行引用,如微软机器阅读理解(MS MARCO)、微软研究院社交媒体对话语料库、18K数学文字题测试集SigmaDolphin等。

高校也通过平台贡献了各自在多个领域的数据集,如中国科学技术大学类脑实验室的海量类脑数据等。

2019年,微软亚洲研究院正式发布自然语言处理(NLP)领域全新的语义分析数据集MSParS (Multi-perspective Semantic ParSing Dataset)。

作为智能音箱、搜索引擎、自动问答和对话系统等人工智能产品中的核心技术,语义分析(Semantic Parsing)面临着因人工标注代价高昂而导致的数据缺乏问题,目前已有的语义分析数据集在数据规模和问题类型覆盖度上非常有限。

为此,微软亚洲研究院提出并构建了 MSParS,该数据集(1.0版本)包含81,826个自然语言问题及其对应的结构化语义表示,覆盖12种不同的问题类型和2,071个知识图谱谓词,是学术界目前最全面的语义分析数据集。未来,微软将与各高校一起开放、共享更多数据,促进产教融合合作生态的建设。

课程与实践分享:

让人工智能人才数量呈指数级增长

培养与时俱进的新时代科技人才是新一代人工智能开放科研教育平台的三大使命之一。

平台采用课程共建和师资培训的形式,为高校教师提供了来自微软和高校专家多年积累的人工智能实践和前沿的技术知识,并通过教师们的教学内容和平台课程进一步与学生们分享理论知识,并培养其实践能力。

过去一年,微软亚洲研究院组织了多场人工智能教育实践研讨会,惠及全国2000余位高校教师。

30多个由微软亚洲研究院与高校合作设计的高质量课程,让超过5万名学生从中受益。

依托新一代人工智能开放科研教育平台,微软亚洲研究院还成立了微软人工智能教育与学习共建社区(下文简称“社区”), 旨在打造聚合高质量资源、全生态教学、开放式学习为一体的人工智能学习、实践、共享平台。

目前,社区已有来自100多所高校的200多名成员加入。

关于新一代人工智能开放科研教育平台

为响应教育部《高等学校人工智能创新行动计划》的号召,大力支持教育部“中国高校人工智能人才国际培养计划”。

2018 年微软亚洲研究院联手中国高校共建新一代人工智能开放科研教育平台(以下简称“智新平台”),面向所有中国高校提供技术平台、工具与应用、数据、课程与实践这四大核心资源和服务。

并围绕它们开展联合科研、课程共建、师资培训、实习实训和国际交流等各项合作。

经一年的持续建设和提升,智新平台不断完善其教育合作体系,发展出了以“基础支撑”、“学习理念”、“实践案例”、“共建社区”、“打造‘金课’”、“协同育人”、“开放科研”七个维度为核心的工作布局。

同时汇集企业与高校优势资源,以期在更广范围打造人工智能教育领域的共赢生态。

传送门

MSParS数据集:

https://github.com/msra-nlc/MSParS

版权所有,未经授权不得以任何形式转载及使用,违者必究。