数学专业,危!菲尔兹奖得主亲测ChatGPT 5.5 Pro,17分钟出论文级成果
陶哲轩:但「消化」属于人类
Jay 闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
如果AI的数学水平继续按目前速度发展,我们(数学研究者)很快会面临一场危机。
数学最高奖菲尔兹奖得主——Timothy Gowers,在最新体验到ChatGPT 5.5 Pro后,替学生们拉响了红色警报。
其对博士生的影响,尤为紧迫。

事情是这样的,这位剑桥大学的数学大牛,最近搞到了尊贵的 5.5 Pro「优速通」权限。
拿到新玩具后,Gowers随手把几道加法数论的公开难题丢给了AI,想瞅瞅怎么个事。
但接下来发生的事,完全超出了他的预料。
不到两个小时,小GPT独立完成了一项他认为「完全够格写进博士论文」的数学成果。
全程,Gowers教授没有提供任何数学层面的指导。
唯一需要他做的事就是:
嗯你这个想法不错,你展开试试?
可以啊,能不能帮我写成LaTeX预印本格式?

这一刻,Gowers 真切地感受到了当代年轻人那种窒息的焦虑——
当AI已经能独立攻克这种水平的难题,正在读博的年轻数学家们,该何去何从?
连他都给不出清晰的答案。

唯一能做的,就是尽可能快地为学生们找到新出路。
在AGI真的来临之前,重新找到数学学习的真正价值,然后迅速转向。
对学生负有责任的数学系,应该紧急为此做好准备。

但先别焦虑,因为另一位菲尔兹奖得主——陶哲轩,有很多想跟大家说的。
毕竟,他可谓是AI和数学交界线的先锋了,前段时间还联合创立了一个AI4S组织,就是想帮助年轻人寻找AI时代新出路。
无独有偶,陶哲轩刚刚也发出了自己的最新感悟:
数学证明的「消化」问题,才是AI时代人类数学家最不可替代的价值所在。
两位当世最顶尖的数学家,面对同一场风暴,给出了不同角度的思考。

不过,相比陶哲轩,Gowers这次的reaction或许更有看头。
毕竟陶哲轩已经是「AI老玩家」了hh,相对来说比较淡定。
Gowers这次是真有点「瘫软」了(bushi),直接怒发了一篇超级长文。
真的很长很长……

以下是整理好的,更方便大家阅读的版本。
Enjoy。
菲尔兹奖得主的ChatGPT 5.5 Pro数学实验
故事的起点,其实是一篇挺有意思的论文。
加法数论大佬Mel Nathanson写了篇论文,里面列了一堆关于整数集合求和性质的公开问题。
这类问题的特点是方向明确,难度适中,数量又多,本来是留给刚入门的博士生练手、冲第一篇顶刊的黄金素材。
结果被Gowers拿来为难ChatGPT 5.5 Pro了。
他丢给AI的问题大概是这样的:
给定一个整数集合A,已知它有k个元素(|A|=k),也知道它的二重求和集(简单说就是集合里所有元素两两相加得到的新集合,记为2A)有多少个元素,那A的直径最小能是多少?
Nathanson自己已经证明了一个指数级的上界(2^k-1),但一直怀疑还能优化。

ChatGPT 5.5 Pro思考了17分钟零5秒。
然后它给出了一个二次上界的构造,而且是理论上最优的。
它的核心思路是用Sidon集(一种求和集大小最大化的特殊集合)和等差数列做组合构造。
咱通俗点说,就像搭积木,AI选了两种特殊积木。
一种叫Sidon集,里面任意两个不同元素的和都不一样,能让求和集规模最大化。
另一种是咱们上学都学过的等差数列,把这两种积木巧妙组合起来,就搭出了满足条件的最小直径集合。
Nathanson原本的证明用了归纳法,本质上也在做类似组合积木的事,但用的是2的幂次这种效率较低的Sidon集。
但就像用大积木搭小房子,难免浪费空间,所以才得到了指数级的大直径。
ChatGPT 5.5 Pro则是直接换了一种已知的更高效Sidon集。
这种集合的直径是二次的(简单说就是k个元素的话,直径大概是k²级别),比指数级(2^k)小了不止一个数量级,相当于用精致的小积木精准搭房,空间利用率直接拉满。

可能有朋友会说,这不就是把已有的数学工具重新拼了一下吗?
还真没错。
但Gowers自己也承认,相当多的人类数学研究,本质上也是在组合已有的知识和证明技巧。
关键在于,Nathanson本人没有想到这一步,而ChatGPT想到了。
Gowers接着又问了一个相关的升级版问题——
把二重求和集换成限制求和集,也就是这个集合里的元素两两相加时,要求两个元素不能是同一个,其他条件不变,还能不能找到最小直径?
这个问题毫无悬念也被解决了。
然后他让ChatGPT把两个结果合并写成一篇学术笔记,47分钟后,一份标准的LaTeX预印本就出来了。

然后事情开始变得更有意思,Gowers又上了难度,问了一般情形下k重求和集的直径问题。
这个问题要难得多,因为对于一般的k,我们甚至不完全知道哪些求和集大小是可以被实现的,连基本的构造框架都缺。
不过好在麻省理工学院(MIT)的学生Isaac Rajagopal已经做了开创性工作,他证明了h重求和集直径的指数级依赖关系。
Gowers想看看GPT 5.5 Pro能不能在Isaac的基础上做改进,没想到,AI直接上演了两连跳操作,还独创了k-解离集合构造。
接下来发生的事,按时间线捋一下:
- 第一轮,ChatGPT思考了16分41秒,基于解离集合的创新思路把上界从指数级改进到了亚指数级。
- 第二轮,Gowers让它写成预印本,花了47分39秒。
- 第三轮,Isaac本人看了,认为论证看起来是对的,而且论证逻辑严谨,k-解离集合的运用很巧妙。
- 第四轮,Gowers贪心了,问ChatGPT能不能进一步推到多项式界。
- 第五轮,ChatGPT思考了13分33秒,提出微调k-解离集合可以做到,但有几个技术细节需要验证。
- 第六轮,Gowers让它自己验证,9分12秒后搞定核心卡点。
- 第七轮,写成预印本,31分40秒。
- 第八轮,Isaac再次审阅,判断结论基本成立。而且他特别指出,不只是逐行正确,在思路层面也是对的,也就是说ChatGPT确实贡献了新的想法。

而整个过程,Gowers的数学输入为零。
他做的全部工作就是当一个项目经理(数学版)——
提出需求,确认方向,要求交付。
数学本身,全是ChatGPT在做。
AI提高了数学博士生入门门槛
这件事如果只是一个酷炫的demo,倒也还好。
但Gowers看到的是两个正在逼近的危机。
首先,一个很现实的问题是,这个AI搞出来的结果该怎么处理?
如果是人类数学家做出来的,这完全够得上发表。
但现在主要工作是AI完成的——
arXiv已经明确拒绝AI生成内容,传统期刊显然也不会接受。
那它该放在哪?
Gowers自己提了一个设想,也许应该建一个专门的AI数学成果仓库,有一定的审核流程。
比如需要人类数学家确认正确性,或者经过形式化证明助手验证,但也不要让审核本身变成巨大的工作量。
坦率的讲,这个问题目前没有答案,所以现在这个成果就挂在Gowers的博客上,靠一个链接存在着。

成果归属问题之外,才是Gowers真正焦虑的地方——
数学培养体系被釜底抽薪。
训练博士生做研究,最经典的路径就是给新手一个难度适中的公开问题入门。
Nathanson论文里的那些问题,原本就是完美的素材。
但现在,ChatGPT 5.5 Pro两个小时就解决了。
这直接把入门门槛抬高了,因为以前你只需要证明一个没人证过的东西,现在你得证明一个AI也证不了的东西。

Gowers倒也没有完全悲观,他给出了两个缓冲空间。
一个是,博士生也可以用AI。
未来科研门槛可以不再是硬刚「AI解不出的题」,而是在人机协作下,做出AI单独做不到的成果。
Gowers自己最近也在大量做这种人机协作的数学研究,他说AI确实能提供有用的贡献,但还没到能独立产生game-changing想法的地步。
另一个是,AI最容易突破的其实是组合数学。
因为组合学本质上是从问题出发的反向推理,而其他数学分支更多是从想法出发的正向探索。
后者需要判断什么观察是有趣的、什么方向值得深入,这种审美判断对AI来说可能更难,目前仍是人类占优。
但他也特意强调以上都只适用于当下的AI,大模型迭代太快,现在的判断可能几个月就过时。
而且还扎心了一波:
如果一个人做数学的目的是把自己的名字永远刻在某个定理或定义上,追求「冠名永生」,那这种时代红利可能很快就会彻底消失,对所有人都一样。
Gowers用一个思想实验点透本质:
假设一个数学家通过和AI长时间对话解决了一个重大问题,数学家起了引导作用,但主要想法和全部技术工作都是AI完成的,我们会认为这是这位数学家的重大成就吗?
Gowers的答案是:不会。
既然如此,那AI时代学数学还有什么意义?
Gowers说,就像优秀的程序员比普通人更擅长Vibe coding,真正做过研究的数学家也会更擅长和AI协作。因为你对问题解决过程本身的理解越深,你用AI的能力就越强。
数学本身是一种高度可迁移的底层思维能力,未来数学研究者或许失去了独享定理冠名的学术荣誉,但沉淀的思维功底,会是AI时代最好的个人底气。

陶哲轩的三层金字塔
其实吧,关于AI对数学研究的冲击,陶哲轩看到的很早很早。
今天,他提出了一个「金字塔」,将数学问题的解决拆分为三个组成部分
- 证明生成:构造出一个完整的证明。
- 证明验证:确认证明是正确的。
- 证明消化:真正理解这个证明在说什么,为什么是对的,它揭示了什么更深的结构。

前两个,AI正在以惊人的速度实现自动化。
但第三个——消化——远远没有被解决。
这将引发一种前所未有的「认知过载」:
证明像不要钱一样被大量生成,甚至机器都能帮你验算完了,但没有人真正消化它们。
陶哲轩称其为「证明消化不良」(proof indigestion)。
对此,或许会有人提议:
那就把第三步也自动化掉嘛,训练AI用更好的数学写作风格来呈现证明,让它更容易被理解。
但陶哲轩的意思是,盲目优化「可读性」指标,可能反而让最终产物变得更差。
他用烹饪作类比。
我们咀嚼食物,是为了帮助消化。烹饪技术可以让食物更嫩,减少咀嚼的需要。
但如果你决定彻底优化消化过程、把「需要咀嚼的量」到最低,那逻辑上的最优解就是——把所有食物丢进搅拌机,通过管子直接灌进胃里。
这在技术上确实解决了消化问题。但没人想这么吃饭,不管身体还是精神都会出大问题的。
吃饭的价值从来不只是摄入营养。
感官体验,还有社交场景,还有咀嚼本身带来的满足感……这些附加产物,才是人类最享受的东西。
优化掉所有摩擦,你得到的不是更好的饮食,而是一根饲料管。
数学也一样。
分清楚什么是数学学习中,「必须」经历的摩擦。
有些证明中的「难度」,是人为制造的。
措辞不清晰、结构混乱……这些「人工难度」,用AI读论文确实可以消除,就像把一块肉腌制一下再上桌。
但还有一种,属于「自然难度」。
它本来就应该是难的。
读者需要「咀嚼」它,才能获得真正的理解,并在这一过程中迸发新的灵感。
这就像陶哲轩之前在播客说的,他会故意在日程表中空出一段时间,用来「不期而遇」。
看到这里,有人可能还会说:让AI解决一切,继续优化评判标准,把「自然难度」也纳入考量不就好了?
但事实上,不是所有问题都能被当做一个「优化问题」——只要无限迭代,到最后得到的结果,就一定是我们想要的。
人类对待食物思路就不是这样。
米其林大厨手工制作的料理,至今仍然比机器加工的食品更受珍视,即使后者安全、好看、易消化、方便、口味也不差。
不是说加工食品没有用处。
只是,没有人会认真地提议,用它来完全取代人类的烹饪艺术。
这叫「烟火气」,是必须人类去赋予的。
不要掉进搅拌机
两位菲尔兹奖得主,面对同一场风暴,看到的是不同的东西。
Gowers看到的是危机。
那些原本为年轻数学家准备的「入门赛道」,正在被AI碾平。培养体系的地基在动摇,学术发表的规则在失效。
新人的路在何方?
对此,陶哲轩其实也没有答案,他给出的,是边界。
AI能生成证明、能验证证明,但「消化」,至少目前,还是独属于人类。
不是AI做不到,而是……
我们不能交出去。
这不是单纯的知识型任务,「消化」这件事,触及到智能本身。
这真是个属于「意义」的时代。
AI正在一步步把我们逼到墙角,一次又一次无止境地追问:
到底什么才是独属于人类的、最珍贵的东西?

在数学领域,这个东西可能是陶哲轩所说的那种有益的「自然难度」。
那些必须靠自己咀嚼、煎熬地探索,才能真正变成你一部分的知识。
或许,其他领域同样如此。
搅拌机可以把一切打碎。
但有些东西,永远需要人亲自去做。
不要沦为黑客帝国里,被插着管子的生物电池。
参考链接:
[1]https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
[2]https://x.com/wtgowers/status/2052830948685676605
[3]https://mathstodon.xyz/@tao/116551624228986501
- 不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件2026-05-09
- 小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪2026-04-29
- 一台中国空间相机,打破索尼富士Adobe的影像垄断2026-04-27
- AI开始接管实验室了!玻尔·跃迁实验室:试剂、设备、数据一个入口搞定,1800+设备即插即用2026-04-18




