ChatGPT下架官方检测工具,承认AI文字无法鉴别
检出率只有26%
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
没有公告,OpenAI悄然关闭了AI文本检测工具,页面直接404了。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/174c8345094420846b4a1402e9aff5df.png)
官方对此没有公开回应,几天后才有人找到一则简短说明,藏在半年前工具发布的博客页面中。
……AI检测器由于准确率较低而不再可用……我们正在研究更有效的文本检测技术,并承诺开发音频和视觉检测技术。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/5ef9aec250507fb88aa3aabf3869c65d.png)
对于CloseAIOpenAI不发公告就杀死一个产品这种行为,很多网友是不满意的。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/8ddf424dd250f6ac1d9057773d2a8af0.png)
但是对关闭AI检测器本身倒是有不少人表示赞同,特别是学生群体。
太多老师相信这玩意有效,大量冤枉学生用AI作弊,已经变成了一场猎巫运动。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/5e0f6d870e6cdb9b872b997dbacc3d9c.png)
准确率和瞎猜差不多
这个官方检测工具,准确率究竟有多低呢?
OpenAI自己给出的数据,只能正确识别26%的AI生成文本,同时冤枉9%的人类编写文本。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/e76e06e15035cb86c96ee16cacb1d5a9.png)
1月份刚发布时就被网友总结为“和瞎猜差不多”。
另外有人做过实验发现,市面上各种检测工具会把圣经、美国宪法等历史文本都被判定可能为AI编写,总不能写下这些内容的历史人物都是时间穿越者吧?
但还是有很多老师试图用各种检测方法来检查学生作业。
最著名的一次,得克萨斯农工大学一位教授差点判定半个班的学生延毕。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/f2f3cd5ffe0ed2e3602be66c86258812.png)
目前最新的趋势是,教师要求学生用在线文档写作业并检查编辑记录,但聪明的学生也能找到规避办法。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/3b8420b061e84e74fe7ddb5e40fbb1d6.png)
最终对于教育领域,有人提出可能大作业/课程论文将成为历史,闭卷考试或口语考试将成为主流。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/40564dbc8cfd377d7bef8f93c1a0ed27.png)
目前的检测方法都能规避
网友指出,OpenAI同时开发生成和检测工具本身就是矛盾的。
如果一边做的好就意味着另一边没做好,同时还有可能存在利益冲突。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/e1723f61a2b523b23d91fe435cd5f7e5.png)
但是第三方开发的检测方法,可靠性也不高。
最早被称为“ChatGPT克星”的是普林斯顿本科生Edward Tian开发的GPTZero,用复杂性和长短句的变化来衡量文章是否由AI生成。
当时GPTZero计划专为教育工作者打造,老师可以把全班学生的作业丢进去检测。
但到了7月份,作者承认已放弃了检测学生作弊这个方向,计划下个版本的GPTZero将不再检测文本是否由AI生成,而是突出最像人写的部分。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/7ec09d4de4246d18be0f30345bd7ae0b.png)
另外一个很受关注的检测方法,是马里兰大学开发的水印法,要求大模型在生成文本的时候就藏下记号,并用统计方法识别。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/2ae065104e4ba43beb3f7ca639ea414d.png)
但是规避的办法也很简单,比如有人开发了简单的同义词替换工具,就能破坏统计特征。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/f2ecc63ceb88697f8ca235ef5f908194.png)
甚至有人开始怀疑,人们到底是为了什么非要区分这个。
就像数字到底是人计算的还是计算机完成的,早就没人在意了。
演讲者的稿是自己写的还是秘书写的,不是也没人在意吗。
![ChatGPT下架官方检测工具,承认AI文字无法鉴别](/wp-content/uploads/replace/3e5dc16ee9a83134dc2f4fc87fec581e.png)
人类行为学研究,正在用AI充当被试
无法区分AI和人类的内容,似乎也不全是坏事。
已经有心理实验用AI代替人类被试加速研究了。
Cell子刊上一篇文章指出,在精心设计的实验场景中,ChatGPT的反应与大约95%的人类参与者的反应呈相关性。
并且机器被试不会疲倦,使科学家能以前所未有的速度收集数据并测试有关人类行为的理论。
![](/wp-content/uploads/replace/4d35c1465e3b1fa4b70e2344f9958fd2.png)
而在最近一篇Science主刊的观点文章上,滑铁卢大学心理学教授Igor Grossman认为:
“人工智能可以改变社会科学研究的游戏规则,谨慎的偏见管理和数据保真度是关键。”
![](/wp-content/uploads/replace/c5e838b175840f259b128ccf130605ae.png)
参考链接:
[1]https://twitter.com/KevinAFischer/status/1683898199981928450
[2]https://www.reddit.com/r/ChatGPT/comments/159j8rc/openai_quietly_kills_its_own_ai_classifier_citing/
[3]https://news.ycombinator.com/item?id=36862850
[4]https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(23)00098-0
[5]https://www.science.org/doi/10.1126/science.adi1778
[6]https://theconversation.com/beyond-the-hype-how-ai-could-change-the-game-for-social-science-research-208086
- Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱2024-07-24
- 陶哲轩在IMO上给AI团队颁奖!他们要做AI数学的ImageNet2024-07-21
- 国内开店卷不动,换上AI出海试试2024-07-17
- OpenAI突发新模型,GPT-3.5退役,大模型成本2年骤降99%2024-07-19