明敏 发自 凹非寺
量子位 | 公众号 QbitAI
啥?
新版GPT-4是在Q*的输出上微调的?
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/d4ac67d73c78dedd8da0ef36b919628b.png)
在竞技场重回榜一的新版GPT-4 Turbo,成功再次踩中大家嗨点。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/14295a01538bddcd0716b680fc8bc92d.png)
它此次的性能提升体现在数学、推理、代码上,而且输出内容废话更少。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/85085d0ac74e66aca129a6add27d432b.png)
最让大家感到兴奋的是其数学/推理能力,现在可以在一些问题上完胜其他大模型。
比如“求y=x^4-5x^2-x+4和y=x^2-3x交点的y坐标之和。”只有最新版GPT-4 Turbo能测出来。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/df3524dfea27d9f554cede1d6a963299.png)
这条推特被公开承认自己参与过Q*的Lukasz Kaiser转发。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/78694c2328d25ae642774a51606a885e.png)
Noam Brown也发推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道,这位OpenAI科学家一直被外界认为正在研究Q*。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/ca7bdcd0328ca297888871441dfe4a78.png)
各方信息汇总后,网友们一拍脑袋反应过来,这其中会不会就引入了Q*啊?
数学方面的提升意味着其中可能包含了一个数学模型,可能是Q*。
(以及他的数学题测试推特被OpenAI的人转发了)
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/be976d6dc43c659288ea445b21605528.png)
好家伙,难道OpenAI在悄悄搞大事?
新GPT-4的“新马脚”?
OpenAI官方公告表示,最新版本的GPT-4 Turbo全方位大提升,现在ChatGPT用户可直接体验。
网友立马冲去实测,有人给出评估结果,特别是数学/推理能力有了重大提升。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/0377cc1b63e85a1ef011b40f09865afa.png)
实际问题测试中,在多个数学推理题上,GPT-4 Turbo都没有翻车,但是如Command-R plus、Clauede-3 Opus等都有失误。
比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层,最后都会停在一层。GPT-4 Turbo理解了这层逻辑,最后给出了正确答案。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/25420dfbbe40a04df51799bc6402da2d.png)
还有在修改二叉树问题上,GPT-4 Turbo不仅回答正确,而且过程清晰完整。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/0bbabd16398ecba3d96e1a506cf46e4a.png)
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/07a1b2e3902d2cc3a3a7e5da81c94c47.png)
同时在“大海捞针”能力上,与之前版本对比,最新GPT-4 Turbo已经是出版GPT-4能力的4.3倍。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/faf107ed7803d99e3c59ec26fdb12e0b.png)
竞技场的结果表明,在代码能力方面,GPT-4 Turbo也更强了。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/78d89e2071e2f271b8b45d2e83af0e77.png)
文本输出方面变得更加简洁。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/f9a668f1149037d2d6a1306e92f60603.png)
生成代码也少了很多废话(下图右侧为新版本)。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/91247d674de9adcecd399e4f1df259e2.gif)
有人补充说,生成速度上也更快了。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/94c856a569d3c9315c39d0ec04c5f34a.jpeg)
神秘Q*:OpenAI的最大秘密?
现在Q*已经成了OpenAI的流量密码了,只要出现这个关键字,网友们都会兴奋不已。
毕竟当初奥特曼宫斗大戏就和它有关联,还有人发出警告,Q*预示着AGI即将出现。
不过官方一直没有公开承认过这个项目的存在,奥特曼拒绝回答,Transformer作者公开承认参与Q*也被OpenAI公关跳起来捂嘴。
从目前各方透露的信息来看,Q*专注于逻辑和数学推理能力,数学能力突出。
Transformer作者之一Lukasz Kaiser承认自己参与了这个项目。
德扑AI之父、前FAIR(Meta)研究科学家Noam Brown也被视为是Q*项目的重要成员(推测来自LeCun)。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/4d6aa6617b59b5e9276f0d0c6f489b96.png)
他加入OpenAI的动作也被外界视为分析Q*的一个线索,“有理由怀疑Q是将LLM和AlphaGo结合起来,并用强化学习进行训练”。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/a84224324c900d6862e9ded9ce03215f.png)
Noam Brown开发出了第一个在打扑克牌上超越人类的AI,后来加入Meta致力于让AI学会玩Diplomacy(外交游戏)。
目前,关于Q*的准确信息还是非常少。
可能奥特曼还在等一个合适的时机来回应外界。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/d8dbce7e06c1682221500f6fc02c3998.gif)
One More Thing
btw,网友们意外捉到总裁Brockman转发的一个视频演示里的提示词是:
创建一个python脚本,使用pytube库从YouTube下载视频。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/b6ebd3714ca42596e6afcebd8ceb5467.png)
看来大家拿GPT-4干的事也都差不多嘛(doge)。
![GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位](/wp-content/uploads/replace/4d79baf46c7372a3374eeb0456466302.png)
参考链接:
[1]https://twitter.com/lukaszkaiser
[2]https://twitter.com/skirano/status/1778122305471705489
[3]https://twitter.com/7oponaut/status/1777971159478194256
[4]https://twitter.com/ai_for_success/status/1778073765748064678
[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors