悬赏17万：美国“知乎”的沙雕问题，要靠你家的AI来识别

栗子 2018-11-14 11:38:10 来源：量子位

智栗发自凹非寺

量子位出品 | 公众号 QbitAI

知乎上面，时常会出现一些“睿智”的问题。

比如，一颗陨石如何挑选自己的归宿：

又比如，公交车的职业操守如何：

这么可爱的问题，并非知乎独享。

知乎的大前辈Quora上面，也有一些脑回路别具一格的人类：

我的MacBook Air重量是2.3磅。下载的东西多了之后，它会不会越来越重？

既然，大家都喜欢这样可爱的问题，怎么才从千千万万个问题里面，把它们找出来呢？

重赏之下，必有勇夫。

Quora拿出25,000美元 (约合17万人民币) 作为奖金，举办了一场Kaggle比赛：

有毒问题在哪里？

比赛内容之一，就是让AI识别出建立在虚假前提上的问题，简称虚假问题 (Insincere Questions) 。

所以，怎样算是虚假前提？

还是举起开头的栗子，“陨石坠地前，那陨石坑已经存在”，这是个合格的虚假前提了。

第二，AI要识别的对象还包括，打着提问的旗号，实则在表达观点，这样的问题。

例如，对某一人群表现出歧视、攻击或者侮辱的问题：

第三，若是为给别人带来冲击力 (不为寻求答案) 而使用了性内容，也会成为缉拿对象。净化网络环境，也是保护祖国的花朵。

△ 来自山下智博

以上概括起来，任务就是揪出那些并非真心发问而另有用意的问题。

Quora说，站内已经在用机器学习与人类一同完成这项任务了，不过依然需要大家的帮忙。所以才为选手们提供了不错的回报：

冠军，12,000美元亚军，8,000美元季军，5,000美元

△ 如何在一夜之间学会编程？(急，在线等)

比赛用的数据，就是Quora里面的问题。官方提供的数据集，分为训练集合测试集。训练集里有超过130万个问题，测试集里有5.6万个问题。信息包括：问题ID，问题本身，以及问题是否虚假。

在此之外，选手不可以使用其他数据来训练模型。

比赛成绩，是由模型的F1分数决定的：

这里，问题只有两种分类，一是虚假，二是正常。F1分就是衡量二分类模型准确度的指标，兼顾了精确率 (Precision) 和召回率 (Recall) 。

这场为期3个月的比赛，一周前已经启动。现在，已经有超过750支队伍参与其中，排行榜也一直在变化。

窃以为，解锁不可描述的问题，应该是一项愉悦身心的活动。

那么，想要参加比赛的同学注意一下：

报名截止日期为2019年1月29日。提交截止日期为2019年2月5日。

参赛地址在这里：

https://www.kaggle.com/c/quora-insincere-questions-classification

有问，必有答

最后的最后，母交车到底能不能吸引公交车？

有理有据，令人信服。

Kaggle

栗子

SQuAD风云：AI对鲁迅作品的理解超过我了？别激动……2018-01-20
马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17

悬赏17万：美国“知乎”的沙雕问题，要靠你家的AI来识别

有毒问题在哪里？

有问，必有答

相关阅读

中文自动转SQL，准确率高达92%，这位Kaggle大师刷新世界纪录丨GitHub

Kaggle八项大奖斩获其6：用于筛选和分析文献的paperai

Kaggle大牛小姐姐自述：我是怎么成为竞赛中Top 0.3%的 | 干货

印度裔Kaggle大神自述：我是如何获得所有4个类别的Grandmaster

遇事不决，XGBoost，梯度提升比深度学习更容易赢得Kaggle竞赛

如何在Kaggle比赛上击败98%的对手？你需要一份七步秘笈

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬