< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

梦晨 2024-04-04 13:50:21 来源：量子位

大智若愚了还是大于弱智了？

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

离大谱了，弱智吧登上正经AI论文，还成了最好的中文训练数据？？

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

没错，论文中的Ruozhiba就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

最离谱的是，弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI，这下吧友自己都闹不明白了。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

其他平台围观网友也纷纷蚌埠住。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

作者之一也现身评论区，透露使用弱智吧数据训练AI属于灵机一动，以前只用来测试。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

弱智吧数据究竟如何达成这一成就，具体到论文中看。

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题：

中文数据集很多是从英文翻译过来的，没有很好地契合中文的语言习惯和文化背景
不少数据集是用AI生成的，质量难以保证，容易出现事实性错误
即使是人工标注的数据集，也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点，团队从中文互联网的各种知识源头直接收集数据，比如知乎、豆瓣、百科、小红书等，经过一系列严格的清洗和人工审核，打造成高质量、多样化的中文指令微调数据集COIG-CQIA。

除了探索不同数据源的作用，团队还专门从中抽取出一个精华子集CQIA-Subset。

在众多数据来源中，弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集，经过人工审核后，最终留下了240组指令-回复数据对。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

分别用各种数据集训练零一万物Yi系列开源大模型，在BELLE-Eval测试集上使用GPT-4评分得到结果。

在规模较小的Yi-6B模型上，纯弱智吧版本总分排名第三，还不算太突出。

看来小模型还没能领悟弱智的精髓。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

到了Yi-34B，弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分，但成绩也比较靠前。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

另外，在安全评估上弱智吧版本也能排上第二。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

对于这类现象，研究人员在分析中也给出简单猜测：

可能是弱智吧问题增强了AI的逻辑推理能力，从而使指令遵循任务受益。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

当然弱智吧并不是这项研究的全部，它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

通过对各种中文互联网数据源的探索，这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样，但也存在不少有害信息风险；而百科类数据专业性强，但覆盖面可能不够广。

弱智吧上大分

这项研究一发，网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观，也有网友认真讨论起了弱智吧有如此奇效的原因。

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯，增加了指令多样性，所以提升了模型最终性能：

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

通用数据集多半已经在pretrain阶段见过了，再训一遍只会加重overfitting。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

另一个原因是弱智吧数据文本质量很高，用词准确且简洁。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

千言万语汇成一句话：把弱智吧只当简单的段子合集真的是严重低估了它的价值！

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

雀食，要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。

事实上从ChatGPT诞生之初，弱智吧就深度参与了大模型的发展，可以算是这一波AI浪潮的重要见证者了。

一开始只是网友拿来拷打AI，搞搞节目效果。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

后来大家发现，弱智吧问题中充满陷阱，刚好可以用来分辨AI能力高低。

还记得23年初那会儿，各家大模型第一版还不太能很好应对这类问题，如2023年3月的文心一言：

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

后续版本也渐入佳境了，如2023年8月的文心一言：

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

知道今天，弱智吧问题都是每个新发布大模型都必须要过的一关，被戏称为弱智吧Benchmark。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

△秘塔写作猫

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

△Inspo

再后来，AI公司们自己也开始重视起来，如百度官方就搞过联动直播。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

当初网友为了调戏大模型专门搜集的弱智吧问题测试集，没想到有一天也能摇身一变，成了训练集。

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

思路确实是被打开了～

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一

论文地址：
https://arxiv.org/abs/2403.18058

参考链接：
[1]https://x.com/9hills/status/1775358963724554410
[2]https://zhuanlan.zhihu.com/p/690640864
[3]https://tieba.baidu.com/p/8964992247

版权所有，未经授权不得以任何形式转载及使用，违者必究。

亚太唯一！阿里云跻身Gartner可观测魔力象限“挑战者”象限2026-07-24
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了2026-07-22
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单2026-07-20
这，可能是今年WAIC最惊艳的图片！2026-07-19

相关阅读

陈丹琦团队新作：5%成本拿下SOTA，“羊驼剪毛”大法火了

比从头训练划算得多

梦晨2023-10-12

大模型开源

昆仑万维官宣「天工」大模型4月17日启动邀测

期待4月17日

量子位2023-04-10

大模型昆仑万维

曝GPT-4.5本周空降！1T激活参数，120T训练数据，会吐出阶段性思考成果然后继续思考

人类视觉水平，能画动画SVG会作曲

衡宇2025-02-27

GPT-4.5 OpenAI 大模型

模型越大表现越差还能得百万奖金？纽约大学博士百万重金悬赏“反规模效应”的任务

总奖金25万美元

梦晨2022-07-05

大模型规模效应

大模型被偷家！腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer

图像、点云和音视频都支持

西风2023-12-24

AI CNN 大模型

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

多模型合作，多系统协同

克雷西2024-09-20

360 大模型

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字