< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86%问题需要先验知识

赖可 2019-12-19 12:41:04 来源：量子位

赖可发自亚龙湾移动凹非寺
量子位报道 | 公众号 QbitAI

横扫一众基准测试的BERT等NLP模型，好像没那么强了。

因为它们遇到了一个中文数据集。

康奈尔大学留学生发布了第一个自由形式的中文阅读理解多选题数据集，其中86.6%的问题都需要文档外的知识。

在这个数据集上，各个模型的正确率最高也只有68%，比起人类的96%的表现，还是差距明显。

数据集C3

而机器阅读理解最大的挑战就是回答这类问题。而且中文在这方面的表现比英文差很多，一个原因是缺乏专门的数据集。

这份数据集命名为C3（free-form multiple-Choice Chinese machine reading Comprehension dataset）

收集的主要是形式自由的多项选择题，阅读材料来自汉语水平考试和民族汉语考试，包括试卷和练习。

一共有13369篇文章和19577个问题，其中的60%用是训练集，20%是开发集，20%是测试集。

数据集从类型上分为两个部分：

分别是正式书面文本和口语化文本。书面文本比口语化文本更长，但是两者都不能拿来作机器阅读长文章的训练数据集。

数据集统计情况如下表：

需要先验知识的问题共分为十类

研究者分析了回答什么样的问题需要先验知识。如果一个问题能够在文档中进行匹配，回答起来就几乎不需要先验知识，而需要先验知识的问题分为三类：

1、关于语言的知识：需要词汇/语法知识，例如：习语、谚语、否定、反义词、同义词、单词可能的含义和语法转换。

2、关于某个特定领域：需要但不限于一些事实上的知识，这些事实与特定领域的概念，概念定义和属性，概念之间的关系。

3、一般世界：需要有关世界如何运作的一般知识，或者被称为常识。在这个数据集中主要指的是百科全书假定不需要解释读者就知道的知识。

在第三类中，研究者又将问题分为8个子类型：

1、计算：数值计算和分析

2、内涵：关于对某物或某人隐含的感情、情感和语气

3、因果：事件B引发事件A，通常用来回答“为什么”的问题

4、暗示：要点、建议、意见、事实或事件没有在文本中明确表达

5、部分与整体：需要知道A是B的一部分

6、场景：观察到人类行为或活动以及相应的时间/位置信息。还需要了解参与者的个人信息(如职业、教育程度、个性、心理或身体状况)，以及参与者之间的关系。

7、前提：如果A没有发生，那么B不会发生。

8、其它

基于支持回答问题句子的最少数量。研究者将所有问题分为三类：单个，多个，独立

所有问题的分类情况和简写标记如下表：

目前训练结果离人类水平差距大

用已有的方法和神经网络模型，研究者对数据集进行了训练，结果如下：

语言模型的预训练效果比基于规则的方法、基于Bi-LSTM的模型要明显优秀，但是性能最佳的模型只正确率也只有68%，比起人类的96%的表现，还是差距明显。

更好的模型还有待开发。

传送门

https://github.com/nlpdata/c3

NLP 数据集机器阅读理解

赖可

看「菊纹」，知疾病，这个智能马桶，知道你下半身的所有秘密2020-04-12
这拖拉机你能开算我输：美国少女“揭秘”现代拖拉机驾驶室2020-05-05
史上最大“云办公”实验开始，你参加了吗？2020-02-04
英伟达上线游戏云服务平台GeForce Now，每月4.99美元2020-02-05

首个中文多项选择阅读理解数据集：BERT最好成绩只有68%，86%问题需要先验知识

数据集C3

需要先验知识的问题共分为十类

目前训练结果离人类水平差距大

传送门

相关阅读

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

NLP玩得溜，「兵器」得趁手：GLUE排行第一的那种，了解下？

3000+ NLP资源一网打尽，只需用这个分类检索网站 | 免费

要啥给啥的写作AI：新闻评论小说能编，题材风格随便选，真假难辨

把BERT拉下神坛！ACL论文只靠一个“Not”，就把AI阅读理解骤降到盲猜水平

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字