< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

陶哲轩:我差点江郎才尽,只因在普林斯顿待了一年

“故事”是科学里永远属于人类的一面

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

陶哲轩在普林斯顿高等研究院待了一年,差点让他江郎才尽了。

在与顶级播客主理人Dwarkesh Patel的最新访谈中,这位菲尔兹奖得主用亲身经历,向同行们抛出了一个反直觉的建议:

朋友们,埋头纯搞学术,对数学家来说真不见得是件好事啊!

起初几周确实非常棒。不用上课,不用开委员会,大块时间任由支配,终于可以专心做研究了。

谁曾想,没过几个月——

咦,怎么灵感好像有点枯竭……

百无聊赖之下,强如陶哲轩都开始沉迷于上网摸鱼

这段经历让他感慨万千:

数学家有时恰恰需要生活里的一些琐事,才能迸发出好想法。

这是场很特别的访谈。陶哲轩罕见地从更个人的视角,谈了他近段时间对数学和科学研究的思考,许多都是之前未曾分享过的观点:

  • 科学不只是创造新理论并加以验证,还要把它讲成故事给别人听。这是强化学习极难做到的。
  • AIGC泛滥的当下,如何判断一项科学进展是否富有意义?或许需要天文学家的帮助。
  • 我非常相信缘分,因此会专门空出部分日程,去做些不寻常的事。
  • 十进制本身没什么特别之处。但你无法脱离历史和未来的语境,纯粹孤立地评价某项科学成就。
  • 也许只有当获取一百万个外星文明的科学发展数据,才能据此衡量什么是正确的范式方向。
  • 写博客是种很好的记录所学的方式,不然许多灵感会很快被忘记,非常可惜。
  • 我们正身处一场认知层面的哥白尼革命,人类不再是唯一的智能形态。

以下附上访谈全文。为保证可读性,量子位在不改变原意的基础上,对内容做了部分调整。

对话原文

开普勒就是个LLM

Dwarkesh: 我想请你重新讲一遍开普勒发现行星运动定律的故事。这会是聊AI与数学的一个很好的切入点。

陶哲轩: 我一直对天文学有着业余爱好,也很喜欢早期天文学家探索宇宙本质的那些故事。开普勒是站在哥白尼的肩膀上,而哥白尼又继承了阿里斯塔克斯的工作。

哥白尼最著名的贡献,是提出了日心说:不是行星和太阳绕地球转,而是太阳位于太阳系中心,其他行星绕太阳运行。

但哥白尼坚信行星的轨道是完美的圆形。他的理论与希腊人、阿拉伯人和印度人数百年来积累的观测数据大致吻合,但也存在细微偏差。

开普勒在学习这些理论时,注意到哥白尼预测的各行星轨道尺寸之间的比例,似乎存在某种几何意义。

他据此提出了一个极其美妙、充满神学色彩的假说:如果你取地球的轨道,把它包在一个正方体里,那个外接球的半径几乎完美匹配火星的轨道。

当时已知六颗行星,轨道之间有五个间隔,而柏拉图正多面体(Platonic Solids)恰好也有五种:正方体、正四面体、正二十面体、正八面体和正十二面体。

于是他提出了一个理论:可以在各行星的天球之间,依次嵌套这五种柏拉图正多面体。

开普勒深信,上帝设计行星的方式,正对应着柏拉图正多面体的数学完美性。他在《宇宙的神秘》(Mysterium Cosmographicum)中详细阐述了这一观点。

但他需要数据来验证这个理论。

当时唯一真正高质量的数据集,来自第谷·布拉赫(Tycho Brahe)。

这位极其富有、行事古怪的丹麦天文学家,说服丹麦政府出资建造了一座造价极为高昂的天文台——实际上是一整座岛屿。

他在那里用肉眼(望远镜尚未发明)对火星、木星等所有行星进行了长达数十年的系统观测,只要天气晴朗,每晚必记。他的观测精度达到了角分的级别,比此前任何观测都高出十倍

这批数据正是开普勒用来验证理论的材料。

开普勒开始与第谷合作,但第谷对数据极为小气,每次只给他一点点。开普勒最终干脆“偷走”了全部数据,还因此与第谷的后人打了场官司。

谁曾想,拿到数据后,却发现他那个美丽的柏拉图立体理论根本行不通。

实测数据与理论预测的偏差达到5%到10%左右(对于火星尤为明显)。他尝试了各种修补方案,移动圆的位置,引入偏心点,仍然无法拟合。

如果是其他人,可能会强行修改数据以迎合理论,或者放弃。但开普勒选择了尊重数据。

他在这个问题上坚持了许多年,进行了令人叹为观止的天才级数据分析。

他发现,只有假设行星轨道实际上是椭圆,而非圆形,才能完美拟合第谷的数据。

就这样,他推导出了行星运动的前两条定律。

又过了十年,在积累了大量数据并进行了更深入的数学分析后,他终于得出了第三定律:行星完成一次公转所需的时间(周期)的平方,与它到太阳的平均距离的立方成正比。

这就是著名的开普勒行星运动三定律

他自己对此毫无物理解释,这完全是实验驱动(数据驱动)的结果。整整一个世纪后,牛顿才利用万有引力定律和微积分,给出了同时解释这三条定律的理论框架。

Dwarkesh: 牛顿给出了三条行星运动定律必然成立的解释,而开普勒发现这些定律的过程,充满了试错。

纵观开普勒的职业生涯,他不过是在不断地尝试各种随机的关系:先试柏拉图立体,失败了;再试圆形轨道加偏心点,失败了;最后试椭圆,成功了。

LLM完全可以做开普勒做的事。

用二十年时间尝试各种随机关系,其中许多根本没有物理意义,只要背后有一个像布拉赫数据集那样可验证的、高精度的数据库。

陶哲轩: 当我们谈论科学史时,思维一直被视为最高贵的部分。

我们倾向于神话那些“灵光乍现”的时刻:开普勒突然看到了椭圆的真理。

但一个科学问题的解决涉及许多步骤:识别问题、找到一个真正有价值的问题来研究、收集数据、制定分析数据的策略、提出假说、验证假说、撰写论文并进行解释。这里有十几个不同的环节。

开普勒经历了无数次循环尝试,其中绝大多数都失败了。我相信有大量想法他甚至从未发表,因为根本无法与数据吻合。

但正如你所说,这必须与同等分量的验证相匹配,否则就只是噪声。

我们赞颂开普勒,但也应该赞颂布拉赫。他那勤勉的数据收集工作,精度比此前任何观测都高出十倍。

那额外的一位有效数字,对开普勒得出正确结论至关重要。如果数据误差更大,椭圆和圆形的区别就会被噪声淹没,开普勒可能永远无法发现真相。

他用欧几里得几何和当时最先进的数学,将模型与数据进行拟合。每个环节都必须到位:数据、理论、假说生成,缺一不可。

我不确定在今天,假说生成还是不是瓶颈所在

过去,科学的两大范式是理论和实验。到了20世纪,数值模拟出现了,可以通过计算机仿真来检验理论。然后,在20世纪末,我们进入了大数据时代。

如今很多新进展实际上是先从分析海量数据集开始的,这与过去科学的运作方式颇为不同。

过去是先做少量观测,或者灵光一现有了某个想法,再去收集数据加以检验;而现在几乎是反过来的:先有海量数据,再从中挖掘规律。

开普勒也许是最早的数据科学家之一,但即便是他,也没有完全从第谷的数据集出发再去分析。他是先有的预设理论(柏拉图立体),被数据证伪后,才被迫转向纯数据驱动的拟合。

Dwarkesh: 有意思。布拉赫的数据相当于一个海量仿真数据库。如果没有这些数据,开普勒不过是在写关于和声学和柏拉图正多面体的书,根本没有任何东西可以用来验证。

陶哲轩: 数据的重要性毋庸置疑。

传统上,你先提出假说,再用数据检验(假设驱动)。但如今有了机器学习、数据分析和统计学,你可以从数据出发,通过统计推导出此前未曾存在的定律(数据驱动)。

开普勒第三定律有点类似回归分析。只不过布拉赫提供的不是成千上万个数据点,开普勒手里只有六个数据点(当时已知的六颗行星)。每颗行星对应一个轨道周期和一个到太阳的距离。

但他相当幸运,恰好这六个数据点给出了正确的结论。

他做了一件我们今天称之为幂律回归的事——把一条曲线拟合到这六个数据点上,得到了立方-平方定律。

后来有一位天文学家叫约翰·波得(Johann Bode),取了同样的数据,受开普勒启发,预测这些距离构成一个偏移等比数列

他也做了曲线拟合,但其中有一个数据点缺失——火星和木星之间有一个巨大的空缺。这个定律预测:那里应该有一颗失踪的行星。

这听起来像是一个怪人的理论,直到赫歇尔发现天王星,其距离完美符合这个规律。

随后在小行星带发现了谷神星,也同样吻合。人们为此兴奋不已,以为波得发现了一条伟大的自然定律。

但后来海王星被发现了,距离完全对不上。

说到底,这不过是一个数字上的巧合。只有六个数据点,结论本就岌岌可危。

“故事”是科学里永远属于人类的一面

Dwarkesh: 听起来你并不认为科学的瓶颈在于为每个领域找到更多类似“行星运动第三定律”那样的宏大定律。

陶哲轩: 没错。AI已经把思想生成的成本压低到几乎为零,就像互联网曾经把通信成本压低到几乎为零一样。

这是一件了不起的事,但它本身并不直接创造“丰盛”。

瓶颈已经转移了。我们进入了一个人们可以为某个科学问题瞬间生成数千种理论的时代。

接下来真正的挑战是:验证、评估与筛选。

这要求我们彻底改变科学的组织结构。

传统上,我们靠的是设门槛。在AI生成内容泛滥之前,虽然也有业余科学家提出各种宇宙理论,但大多数价值极低且数量可控。

因此,我们建立了同行评审和发表体系,用来过滤信息、筛选出高价值的想法加以检验。

但现在,AI可以大规模生成各种可能的解释,其中一些是好的,但大量是糟糕的、甚至是幻觉。人类评审员已经不堪重负。

许多期刊都反映,AI生成的投稿正在汹涌涌入。

AI让我们能生成各种各样的东西,这固然很好,但这意味着科学的其他环节必须跟上:验证、确认,判断哪些想法真正推动了领域进展。

这是我们目前不知道如何大规模完成的事。

对于单篇论文,科学家们可以展开辩论,几年内达成共识。但当每天涌现出一千篇这样的论文,这套机制就彻底失效了。

Dwarkesh: 1940年代,贝尔实验室中新技术不断涌现:脉冲编码调制、信号传输、数字化等等。有大量关于工程约束和技术细节的论文。

然后有一篇论文提出了“比特”这个概念,其影响波及许多不同领域。你需要一套系统来识别它,说:“好,这个要应用到概率论里,要应用到计算机科学里。”

倘若如今AI领域出现了下一个版本的统一性概念。怎么从数百万篇论文中识别出那篇真正构成进步、却又远不如“比特”概念那么显眼的论文?

陶哲轩: 很大程度上靠时间检验。许多伟大的想法在最初提出时并没有得到很好的反响,往往是后来其他科学家意识到可以将其推进、应用到自己的领域,它才被重新发现。

深度学习本身在很长一段时间里只是AI的一个小众分支。完全通过数据训练而非第一性原理推理来获得答案,这个想法曾经极具争议,花了很长时间才开始结出果实。

你提到了比特。历史上其实有过其他计算架构的提案,而不是今天通行的二进制。我记得有三进制、三值逻辑。在另一个平行宇宙里,也许是不同的范式胜出了。

再比如Transformer,它是所有现代大语言模型的基础,也是第一个真正足够复杂、能够捕捉语言的深度学习架构。但事情本不必如此。也许某种其他架构率先做到了这一点,一旦被采用,它就成了标准。

判断一个想法是否会结出果实之所以困难,正是因为这取决于未来,取决于文化和社会。

十进制在数学中极其有用,远优于罗马数字,但十进制本身并没有什么特别之处。它之所以有用,是因为所有人都在用它。

我们将其标准化,围绕它构建了所有的计算机和数字表示系统,现在已经无法脱身。偶尔有人提倡切换到其他进制,但惯性太大了。

你无法脱离历史和未来的语境,纯粹孤立地评价某项科学成就,给它打一个客观的分数。

对于这类判断,也许永远无法像处理那些更局部的问题一样,用强化学习来完成。

Dwarkesh: 在科学史上,每当一个新理论出现,而我们事后回头看会意识到它是正确的,它往往会带出一些推论:要么毫无意义,要么是正确的但在当时看起来极不可信。

阿里斯塔克斯在公元前三世纪提出了日心说。

古雅典人反驳道:这不可能,因为如果地球绕太阳转,我们应该能观察到恒星的相对位置随地球公转而变化。唯一不出现视差的解释是——恒星距离远得令人难以置信。

但有时推论是错的,我们需要进阶到更深层的理解。莱布尼茨曾批评牛顿的引力理论,理由是它暗含了超距作用,而他们不知道其中的机制。

牛顿自己也对惯性质量和引力质量居然是同一个量感到困惑。这些问题后来都由爱因斯坦解决了。但那仍然是进步。

所以,对AI同行评审体系来说,问题就变成了:即便你能证伪一个理论,你怎么判断它相对于之前的理论仍然代表着进步?

陶哲轩: 正确的理论在最初提出时,往往在许多方面比之前的理论更差。

哥白尼的行星理论就不如托勒密的理论精确。地心说那时已经发展了一千年,经过无数次调整和日益复杂的临时修补。

哥白尼的理论虽然简单得多,但精度却远远不足。直到开普勒的出现,日心说才在精度上超过了托勒密。

科学永远是未竟之业。当你只得到部分解答时,它看起来比那些虽然错误、却已被完善到能回答所有问题的理论更糟糕。

正如你所说,牛顿的理论留下了巨大的谜题:质量等效性和超距作用,这些都要等到几个世纪后,通过一种概念上截然不同的进路才得以解决。

进步往往不是靠增加更多理论,而是靠删除你头脑中某些根深蒂固的假设。地心说之所以能坚持那么久,部分原因在于我们一直觉得物体天然倾向于静止。

这是亚里士多德的物理学,所以“地球在运动”这个想法会让人追问:那我们为什么没有摔倒?一旦你有了牛顿运动定律,这一切就说得通了。

意识到地球在运动是一次巨大的飞跃。它不像是在运动。达尔文的进化论也是如此,其核心是物种并非静止不变的,而这并不直观,因为你在有生之年看不到进化的发生。

当然,现在我们实际上可以观测到了,但它在感知上是永久、静止的

我们现在正在经历一场认知上的哥白尼革命: 我们曾经认为人类智能是宇宙的中心,而现在我们看到,存在着各种截然不同的智能形态,各有其不同的优势与局限。

哪些任务需要智能、哪些不需要?必须大幅重新排序。

Dwarkesh: 有一本书叫《发条宇宙》,作者是爱德华·多尔尼克(Edward Dolnick)。他在书中有一个有趣的观察:

《物种起源》在牛顿《原理》之后整整两个世纪才出现。

从概念上看,达尔文的理论似乎更简单。同时代生物学家托马斯·赫胥黎读完《物种起源》后说:“我怎么蠢到没有先想到这个。”

但从没有人这样说过牛顿。

那么问题来了:为什么《物种起源》花了更长的时间?

一个很大的原因正是你说的。自然选择的证据是累积的、回溯性的。

而牛顿可以直接说:“这是我的方程式,给我月球的轨道周期和距离,如果吻合,我们就取得了进展。”

卢克莱修在公元前一世纪就有了物种适应环境的想法,但直到达尔文之前无人提及,因为卢克莱修没有办法做实验。

这是否意味着,那些数据回路紧密、容易验证的领域,进展会更为显著?

陶哲轩: 科学不只是创造新理论并加以验证,还要把它传达给他人。

达尔文是一位了不起的科学传播者。他用英文写作,用自然语言表达,不用方程式,将大量零散的事实综合在一起。

他当然也有缺失的部分:他不知道遗传的机制,没有DNA。但他的写作风格,帮了他很大的忙。

牛顿用拉丁文写作,他甚至发明了全新的数学分支(微积分),只是为了解释自己在做什么。他所处的时代,科学家之间的保密和竞争要激烈得多。

今天学术界仍然竞争激烈,但牛顿那个年代更甚。

他刻意保留了一些最深刻的洞见,不想让竞争对手获得任何优势。从各方面的描述来看,他也是一个相当难相处的人

直到牛顿之后几十年,其他科学家用简洁得多的语言重新解释了他的工作,这些成果才得以广泛传播。

表达的艺术、论证的能力、构建叙事的技巧,也是科学极其重要的组成部分。

数据固然有帮助,但人们需要被说服,否则他们不会推进这个想法,也不会投入时间去学习你的理论并真正探索它。

这也是强化学习极难完成的事。你怎么给“说服力”打分?

科学有其社会属性。尽管我们以其客观性为豪,认为有数据、有实验、有验证,但我们仍然需要讲故事、说服同行。

这是柔软、模糊的部分,是数据与叙事的结合,而且是一种关于“空白”的叙事。

即便是达尔文的理论也有无法解释的部分。但他仍然能够论证:未来人们会发现过渡形态,会找到遗传的机制。

而事实也确实如此。

我不知道如何将这些量化得足够精确,以至于能够开始做强化学习。

也许这将永远是科学中,属于人类的那一面。

论文评估需要天文学家的帮助

Dwarkesh: 在很多领域,演绎推理的潜力可能远比人们意识到的要大得多。只要找到了研究某个问题的正确切入点,你可能会惊讶于自己能从这个世界中学到多少东西。

这是天文学在特定历史时期的特殊产物,还是说,仅凭目前落在地球上的那些数据,我们其实能推断出远比我们已知的多得多的东西?

陶哲轩: 天文学是最早真正拥抱数据分析的科学之一。它的从业者竭尽全力从手头的信息中榨取每一滴可能的价值,因为数据始终是瓶颈所在,而且至今仍然如此。

天文学家在从零散的数据痕迹中提炼各种结论方面堪称世界级水准,简直像福尔摩斯一样。我听说很多量化对冲基金最喜欢招的人就是天文学博士,这些人同样痴迷于从各种随机数据片段中提取信号。

我们其实大大低估了从各种信号中挖掘额外信息的可能性。

我曾读过一项有趣的研究,研究者想测量科学家究竟有多少人真正读了自己引用的论文。怎么测量?

他们利用了一个巧妙的指标:很多引用文献里都有小错误,比如某个数字写错了,或者标点符号稍有出入。研究者追踪一个特定的错误从一篇参考文献被“复制粘贴”到下一篇的频率。

如果两篇论文出现了完全相同的非典型错误,就可以推断后来的作者很可能只是在复制粘贴引用,根本没有去核实原文。

从这个指标出发,他们得以推断出人们究竟在多大程度上真正关注了所引用的内容。

这启发了我们:如何判断一项科学进展是否富有成效、是否有趣?

也许在数据里存在非常有用的指标和痕迹。我们可以分析引用情况,可以看某个概念在会议上被提及的频率,甚至分析论文措辞的微妙变化。

科学社会学(Sociology of Science)这个领域也许还有大量研究工作可以做,也许真的能检测出这些东西。

也许我们真的应该让几位天文学家来攻克这个问题。

数学研究的低垂果实已被摘完

Dwarkesh: 你最近提到,过去几个月里AI程序已经解决了埃尔德什问题集(Erdos Problems Project)中约1100个问题里的50个。

但你也指出,进展似乎出现了停滞,因为“低垂的果实”已经被摘完了。这个判断现在是否还成立?

陶哲轩: 看起来确实如此。借助AI解决了50多个问题,这非常了不起,但还有大约600个有待攻克。目前,人们仍在缓慢地啃其中的一两个硬骨头。

纯AI“一击即中”的解法越来越少了。曾经有过那样一个月,AI能够直接给出完整答案,但那个阶段已经过去了。

AI能提出一些细枝末节的观察,或者发现某个问题其实已经在文献中被解决过(只是未被收录),但至今没有出现任何新的、完全由纯AI驱动的解答。

现在的模式更多是人机协作。有人用AI生成一个可能的证明策略,另一个人再用另一个AI工具来批评它、改写它、为它生成数值数据,或者做文献调查。

想象你身处一片黑暗的山脉,到处是峭壁和高墙。有的墙只有一米高,有的六米,有的十五米,还有些高达百米甚至千米。

你试图攀越尽可能多的墙壁,但周围一片漆黑,你不知道哪堵墙高、哪堵墙矮。于是你点上蜡烛,慢慢绘制地图,逐渐摸清哪些是可以攀登的,哪些墙上有可以先抵达的局部落脚点。

AI工具就像是能跳两米高的弹跳机器,跳得比任何人类都高。有时它们跳错了方向,有时直接撞墙,但有时它们确实能够到达那些人类此前无法触及的最矮的墙头。

我们就这样把它们放进这片山脉,让它们四处跳跃。那段令人兴奋的时期,它们找到并翻越了所有低矮的墙(即那50个问题)。等到模型下一次出现重大突破,人们会再次尝试,也许又能多翻越几道墙。

但这是一种不同的数学方式。通常我们会一步一步地爬山,做标记,识别局部进展。而这些工具要么成功,要么失败。它们在创造局部进展、识别应当优先攻克的中间阶段方面表现很差。

回到我们之前的讨论,我们缺乏一套评估“局部进展”的方法,就像我们评估一个问题被“一击即中”地解决或失败那样简单明确。

Dwarkesh: 悲观的解读是:它们只能翻越一定高度以下的墙,而那个高度还不及人类顶尖专家所能达到的高度。

乐观的解读是:一旦它们达到某个水位线,它们有一种强大的属性,就是能够填满该水位线以下的每一个问题,而这是人类根本无法做到的。

我们没办法复制出一百万个陶哲轩,给每一个分配一百万美元的算力,让它们同时在一百万个不同的问题上做一百年的主观时间研究。

但一旦AI达到陶哲轩的水平(甚至只是中等水平),它们就可以做到这一点。因为即便是同样级别的智能,AI在宽度和并发能力上,也与人类有着本质的差异。

陶哲轩: 我同意。AI擅长广度,人类擅长深度。两者高度互补。

但我们目前做数学和科学的方式是以深度为核心的,因为人类的专长在深度,人类做不到广度。我们必须重新设计做科学的方式,才能充分发挥我们现在拥有的这种广度能力。

我们应该在构建非常宽泛的问题集上投入更多精力,而不是只盯着一两个极其深刻、极其重要的难题。

当然,那些深度问题仍然应该存在,人类也应该继续攻克它们。但现在我们有了另一种做科学的方式:

先让这些能力适中但覆盖面广的AI进行大范围探索,完成所有容易的观察,再识别出其中几个真正困难的“孤岛”,让人类专家集中攻克。

我非常清晰地看到一个互补科学的未来。最终,你希望同时拥有广度和深度,得到两全其美的结果。但我们需要在“广度”这一侧积累经验,它太新了,我们甚至还没有发展出充分利用它的范式。

Dwarkesh: 说到互补性,程序员们已经注意到,有了这些AI工具之后,他们的生产力大幅提升。

我不知道你作为数学家是否有同感,但软件和研究之间似乎有一个重要的区别:

软件的目的是通过你的工作对世界产生某种影响,如果它能帮你更好地理解问题或提炼出一个干净的抽象来体现在代码里,这是达成目标的工具。

而在研究中,我们之所以在乎解决千禧年大奖难题,是因为在解决它们的过程中,我们会发现新的数学对象或新的技术,推进人类对数学的理解。所以证明本身是通往中间工作的工具,过程往往比结果更重要

我不知道你是否认同这个二元对立,以及它是否能解释我们在软件和研究上分别看到的提升程度。

陶哲轩: 在数学中,过程往往比问题本身更重要。问题某种程度上只是衡量进展的代理指标。

即便在软件领域,我认为也存在不同类型的任务。如果你只是做一个与其他一千个网页功能完全相同的网页,其中可能没有什么需要学习的技能。

但代码写完了还需要维护。在升级和与其他系统兼容方面会出现各种问题。

我听程序员们反映,即便AI能做出一个工具的初始原型,让它与其他所有东西咬合、以你期望的方式与真实世界互动,仍然是一个持续进行的过程。如果你没有通过亲手写代码积累下来的技能,将来维护的时候可能会捉襟见肘。

数学也是如此。我们用问题来建立直觉,训练人们对“什么是真的”、“什么是可以期待的”、“什么是可以证明的”、“什么是困难的”形成良好的判断。如果一上来就直接得到答案,这个过程可能反而会被破坏。

我之前区分过理论和实验。在大多数科学领域,理论和实验平分秋色。数学的独特之处在于它几乎完全是理论性的。

我们非常重视构建连贯、清晰的理论来解释为什么某些事情是真或假。但我们几乎没有做过实验性的研究,比如:如果有两种方法解决同一个问题,哪种更有效?

现在我们可以做这件事了。我认为AI类工具将真正革命化数学的实验侧。在那里,你不那么在乎单个问题和解题过程,而是想大规模地收集关于“什么方法有效、什么方法无效”的数据。

就像一家软件公司要推出一千个软件,你不会想要精心手工打造每一个、从每一个中汲取经验,你只是想找到让你能够规模化的工作流程。

在规模化层面做数学,这件事还处于萌芽阶段。但这正是AI真正将要革命化这门学科的地方。

Dwarkesh: 仅凭使用现有技术,究竟能取得多大进展?

如果我去看顶级数学期刊,里面有多少论文是在提出一种新技术,又有多少是在用现有技术处理新问题?那个潜力空间有多大?

如果把每一种已知技术应用到每一个开放问题上,这会带来人类知识的巨大飞跃,还是其实并没有那么令人惊叹?

陶哲轩: 人类数学家的工作中,相当一部分是这样的:拿到一个新问题,第一件事是把过去在类似问题上行之有效的所有标准方法,逐一尝试。有时奏效,有时差一点就成了,需要再加一个新的小变通。

但进入顶级期刊的论文,通常是那些现有方法能解决80%,剩下20%有顽固抵抗,需要发明一种新技术来填补缺口的论文。

现在已经极少有论文完全不依赖过去的文献、所有想法都凭空而来了。过去这种情况更常见,但数学现在已经如此成熟,不先利用文献就是给自己设置巨大障碍。

AI工具在前半段工作上已经做得相当好:对一个问题尝试所有标准技术,而且在应用过程中犯的错误往往还比人类少。

它们仍然会犯错,但我测试过这些工具处理我能解决的小任务,有时它们能发现我犯的错误,有时我也能发现它们的错误,目前大致是平手。

但我还没有看到它们走出下一步。当论证出现漏洞、所有已知方法都行不通的时候,该怎么办?

它们会随机提出一些建议,但我发现去追这些建议、试图让它们成立、最后发现它们根本不成立,浪费的时间比节省的更多。

目前我们认为很难的问题中,有一部分会因为这种方法而倒下,尤其是那些没有得到足够关注的问题。在埃尔德什问题中,AI解决的那50个,几乎都是此前基本没有文献积累的。

埃尔德什提过一两次,也许有人随手试了试,没解出来,也没有写成论文。但事实证明,确实有一个解,只需要把某个鲜为人知的冷门技术与文献中的某个结果结合起来就够了。

如果你只关注那些成功的案例,那些在社交媒体上广泛传播的,会觉得惊艳无比:几十年没有人解决的问题,现在一个接一个地倒下了。

但每当我们做系统性研究,对于任意一个给定的问题,就会发现:AI的成功率大概只有1%到2%。

只不过,它们能大规模解题,然后挑出做对的那一个。

但这样,信号和噪声会高度混杂

收集标准化数据集变得越来越重要。现在已经有人在努力建立一套供AI解题的标准挑战问题集,而不是只依赖AI公司发布自己的胜利、隐藏负面结果。

这也许能让我们对现状有更清晰的认识。

Dwarkesh: 仅仅让模型能够应用某种技术,而没有任何人事先写下这种技术对这个特定问题的适用性,本身就已经代表了AI的巨大进步。

陶哲轩: 这种进步令人惊叹,又令人失望,这是一种非常奇特的感受。但人们适应得也非常快。

我记得二十年前Google搜索刚出来的时候,把其他所有搜索引擎打得落花流水。你搜什么,首页就给出你想要的相关结果。那真是令人叹为观止。

但几年之后,我们就把搜索引擎当成了理所当然。

2026年的AI放到2021年会让人瞠目结舌:人脸识别、自然语音、解大学水平的数学题……但这些我们现在都习以为常了。

AI并不能让论文更深刻

Dwarkesh: 做个预测吧,“你个人因为AI的帮助生产力提升了两倍”,这会发生在哪一年?

陶哲轩: 我做数学的方式正在发生相当大的变化,我从事的工作类型也在转变。现在的论文里包含了多得多的代码和图像,因为生成这些东西变得太容易了。

从某种角度说,我今天写的这类论文,如果要在没有AI辅助的情况下完成,肯定要花五倍的时间。但反过来说,如果没有AI,我根本就不会选择这样写论文。

这些目前仍属于辅助性工作:比如进行更深入的文献检索,或者提供更多的数值计算支持。它们让论文变得更加丰富和立体。

然而,我核心工作的部分——也就是真正解决数学问题中最困难、最本质的那个环节——其实没有太大变化。那部分我仍然依赖纸和笔。

AI帮我处理了很多琐碎的事情。例如格式调整,以前括号大小不对要手动一个一个改,现在可以让AI在后台自动处理好。

这些工具确实大大加速了许多次要任务。它们虽然还没有加速我工作的核心部分,但让我能够在论文中容纳更多的内容和维度。

反过来说,如果我现在要重写一篇2020年的论文,不加那些额外的新功能,只是达到当时同等的水平,说实话并没有节省多少时间。

AI让论文变得更丰富、更宽泛,但不一定更深刻。

Dwarkesh: 你曾提出过一个区分:人工聪明(Artificial Cleverness)和人工智能(Artificial Intelligence)。有什么例子能说明一种智能不仅仅是“聪明”?

陶哲轩: “智能”出了名地难以定义,它是那种你一看就知道、但很难说清楚的东西。

当我和合作者试图解决一个数学问题时,最初我们两个都不知道怎么解。其中一个人有了某个想法,看起来有点希望,于是我们有了一个初步策略。测试后发现不行,随后我们修改它。

这个过程中充满了适应性,有对想法持续不断的改进。最终,我们系统性地梳理了什么行不通、什么可以走,看到了一条路。而这条路是随着我们的讨论不断演化出来的。

AI能在一定程度上模仿这个过程。回到跳跃机器人的比喻:它们可以跳跃、失败,再跳跃、再失败。但它们做不到的是:跳一点点,抓住某个支撑点,停在那里,把别人也拉上来,再从那个位置继续往上跳。

这种在互动中累积建构的过程,目前还不存在。当前的AI更像是在进行大量的试错和简单重复,本质上是蛮力。这种方式可以扩展规模,在某些情境下效果惊人。但从局部进展中累积式地向上建构的能力,仍然缺失。

Dwarkesh: 你是说,如果Gemini 3或Claude 4.5解决了一个问题,并不意味着它自身对数学的理解有所深化?甚至即便它研究了一个问题而没有解决,它自身对数学的理解也没有进步?

陶哲轩: 是的。你开启一个新的会话,它已经忘记了刚才做的一切。没有任何新的技能可以用来处理相关问题。

也许你刚才做的事情会成为下一代训练数据的0.001%,最终会有一点点被吸收进去。但在当前这个会话中,它并没有真正的“学习”或“成长”。

如果AI能直接解决问题,人类还需要明白原理吗?

Dwarkesh: 如果我们持续训练AI,让它们在Lean等形式化系统中解题的能力越来越强,最终会不会出现这样一种令人惊讶的情况:

AI 给出了一个黎曼猜想的证明,但这个证明几乎没给我们带来任何真正的数学洞见?

换句话说,解决像黎曼猜想这样的难题,是否有一个必要条件:

哪怕是由完全在Lean里运行的AI来完成,它在代码中创造的那些构造和定义,也必须能推进我们对数学的理解?

还是说,它完全可以是一堆类似汇编代码的、人类无法理解的“乱码”?

陶哲轩: 我不知道确切答案。事实上,有些问题本质上就是靠纯蛮力解决的。四色定理就是一个著名的例子。直到今天,我们仍未找到这个定理在概念上优雅的证明,也许永远都找不到。

有些问题可能只能被拆分成海量的情形,通过对每种情形进行缺乏洞见的计算机蛮力分析来解决。

然而,我们之所以如此重视黎曼猜想这样的问题,部分原因在于我们相当确信:解决它需要创造一种新型的数学,或者发现两个此前毫不相关的数学领域之间的全新联系。

我们甚至不知道解答的形态会是什么样子,但它绝不像是一个靠穷举情形就能解决的问题。

当然,也存在另一种可能性:猜想本身就是错的。

虽然概率极低,但设想一下:如果有人在临界线之外直接算出了一个零点,并通过庞大的计算机计算验证了这一点,那将是一个非常令人失望的结果。

对于这类问题,完全自主的“一击即中”式解法并不适用。人类与这些工具深度协作的互动模式,将会更有成效。

我能想象这样一类场景:聪明的人类借助极其强大的AI工具解决了问题,但具体的协作方式可能与我们现在设想的截然不同。

例如,也许有一种方法可以生成黎曼ζ函数的一百万个变体,再利用AI辅助进行数据分析,从中发现某种我们此前未知的联系规律,从而将这个问题转化到数学的另一个全新领域。

Dwarkesh: 假设AI真的解出来了,而Lean代码里潜藏着某个全新的构造。如果我们能意识到它的意义,就能在各种不同的情境下加以应用。

但问题是:我们怎么识别它?

如果你提出了像笛卡尔坐标系那样级别的想法,将代数与几何统一起来,但在Lean代码里,它可能看起来根本不起眼,甚至被淹没在琐碎的细节中。

陶哲轩: 这正是将证明形式化到Lean这类系统中的美妙之处:你可以取出其中的任何一个部分,单独地去研究它。

当我阅读一篇解决了困难问题的传统论文时,里面往往有一长串引理和定理。理想情况下,作者会引导读者理解哪些步骤是关键的、哪些是常规的。

但有时,作者并未点明哪些步骤是真正的“灵光一闪”,哪些只是机械操作。

而在形式化证明中,你可以单独审视每一个引理。

有些引理我一眼就能看出相当标准,跟我熟悉的东西很相似,大概没什么特别之处。

但另一个引理,是我以前从未见过的。我能立刻判断出来:有了这个结果,证明主定理就顺畅多了。

你能清晰地判断一个步骤究竟是论证的关键枢纽,还是可有可无的填充物。Lean极大地降低了这种判断的门槛。

未来可能会出现一个专门的数学家群体,他们拿着一个庞大的、由AI生成的Lean证明来做消融实验:尝试去掉其中的某些部分,寻找更优雅的替代方案,或者提取出通用的新引理。

他们可能会让其他 AI 通过强化学习来优化证明的“优雅程度”,也许还有另一些 AI 专门负责评判这个证明是否在概念上变得更好了。

我们写论文的方式将会彻底改变。

直到不久之前,撰写论文一直是数学工作中最耗时、代价最高的部分。只有在论证的所有其他部分都核实无误之后,你才会着手整理文字,因为修改和重构实在太痛苦了。

但现在有了AI,这一切变得容易得多。你不必只拘泥于一个版本的论文。一旦有了一个初始版本,其他人(或AI)就可以据此生成数百个变体,尝试不同的叙述方式和结构。

一个庞大、混乱的Lean证明本身也许很难理解,也没什么直接意义,但其他人可以对它进行重构、拆解和诠释。

我们在埃尔德什问题网站(Erdos Problems Project)上已经看到了这种模式的雏形:

1、AI 生成一个证明,产出数千行验证代码。

2、人们利用其他 AI 工具对这个证明进行总结及自然语言翻译。

3、人类数学家再基于这些总结,写出属于自己的、更具洞察力的证明。

证明产生之后,存在着巨大的“后处理”空间。

一旦你拥有了“证明”这个产物,我们现在有很多工具可以对它进行拆解、分析和重新包装。

这是数学研究中非常新兴的领域,但我对此并不太担心。有些人忧虑:“如果黎曼猜想被一个完全不可理解的证明解决了,那该怎么办?”

我认为,一旦你拥有了证明这个客观产物,我们就有了无数种分析工具去挖掘它。

科学家需要一种新的交流语言

Dwarkesh: 你最近提到,为数学策略建立一种正式或半正式的语言将大有裨益,而不仅仅像Lean那样专注于数学证明本身。这具体意味着什么?

陶哲轩: 数学是幸运的。虽然我们的逻辑和数学规律梳理工作始于两千年前的欧几里得,但直到20世纪初,我们才最终确立了完整的公理体系。

如今,我们已经能够将这些基础自动化,并为其建立了严谨的形式语言。

然而,在评估可信度方面,我们仍面临挑战。当你提出一个猜想,并测试了若干例子都成立时,这能在多大程度上增加你对该猜想为真的信心?

我们有一些数学建模工具(如贝叶斯概率)来处理这个问题,但它们往往需要预设某些基本假设,其中仍包含大量主观判断。

与其说这是一个具体的计划,不如说是一个愿景。

看看Lean这样的形式化框架是如何成功地让演绎证明的自动化和AI训练变得如此便捷,你就会意识到:目前利用 AI 制定策略、提出猜想的瓶颈在于,我们仍必须依赖人类专家的经验和时间的检验来判断某件事是否“可信”。

形式化证明助手之所以至关重要,是因为它们杜绝了“后门”或漏洞——你不能绕过真正的证明就获得认证。要知道,强化学习算法在寻找系统漏洞方面可是极其擅长的。

如果未来能有一种框架,能够模拟科学家之间那种既包含数据论证、又包含叙事交流的半形式化沟通方式,那将是一个巨大的突破。

科学中存在某种难以捉摸的主观性成分,目前我们还不知道如何捕捉它,也就无法以有意义的方式将AI嵌入到这个过程中。

这是一个面向未来的课题。虽然已有研究在尝试创建自动猜想生成器,或许我们可以找到方法对这些系统进行基准测试和模拟,但这仍处于早期阶段。

Dwarkesh: 这种科学家之间尚无法形式化的交流,究竟是什么样子的?你一方面说我们在构建某种叙事或自然语言解释,另一方面又说希望将其形式化,这听起来似乎是个悖论?

陶哲轩: 让我们以高斯为例。他对素数充满兴趣,并构建了最早的数学数据集之一。

他计算了前十万个素数,发现了一个统计规律:随着数值范围扩大(从100到1000,再到一百万),素数变得越来越稀疏,但其密度下降的速度与数值范围的自然对数成反比。

基于此,他提出了我们现在称为素数定理的猜想。当时他无法证明这一点,这完全是数据驱动的发现。

这个猜想在当时是革命性的,因为它或许是数学史上第一个真正基于统计性质的重要猜想。

通常,我们讨论的是精确的模式(例如素数间隔的规律性),但这个猜想并不告诉你某个范围内素数的精确个数,只给出一个随着范围扩大而越来越精确的近似值。它开创了今天我们所知的解析数论领域。

这是此类猜想中的第一个。随后许多类似的猜想得到了证明,逐渐巩固了一种认知:素数并没有确定的模式,它们的表现就像是一个具有特定密度的随机数集合。

素数确实有一些规律,但它们并非真正的随机,而是所谓的“伪随机”。随着时间的推移,将素数想象成由某个神明不断掷骰子生成的随机集合,被证明是一种极富成效的思维方式。

这种视角让我们得以做出各种预测。数论中有一个至今未解的著名猜想——孪生素数猜想,认为存在无穷多对相差为2的素数。

虽然我们目前无法证明它,也有充分的理由解释为何证明如此困难,但基于素数的统计随机模型,我们对它的正确性深信不疑。

逻辑很简单:如果素数是通过抛硬币生成的,那么根据类似“无限猴子定理”的随机性原理,孪生素数必然会一再出现。

久而久之,基于统计和概率,我们形成了一套关于素数行为的极为精确的概念模型。这套模型大体上是启发式的、非严格的,但其预测的精确程度令人惊叹。

每当我们真正能够证明素数的某些性质时,结果总是与我们所称的“素数随机模型”的预测完全吻合。

事实上,我们之所以如此重视黎曼猜想,部分原因在于:如果它是假的,如果我们要推翻它,那将对这个模型造成毁灭性打击。这意味着素数背后存在某种我们此前未知的隐藏规律。

如果真的发生这种情况,我认为我们会非常迅速地放弃所有基于素数的密码学体系。因为如果存在一个未知规律,很可能还有更多,而这些规律可能导致密码学上的致命漏洞。这将是一次巨大的冲击。

我们对黎曼猜想这类命题的信念,是随时间积累起来的:部分来自实验证据,部分来自每当得出理论结果时,它们总是与预测完美契合。

当然,也存在共识有误、大家都遗漏了某个基本要素的可能性。历史上科学确实发生过范式转移。但我们目前缺乏真正的方法来量化这种风险,部分原因在于我们没有足够的关于“数学或科学如何发展”的历史数据

如果我们能接触到一百万个外星文明,每一个都以不同的顺序发展出各自的历史和科学,也许我们才能真正理解如何衡量什么是进步、什么是好的策略,并开始将其形式化,建立一套真正的理论框架。

既然无法接触外星文明,也许我们现在能做的是:创建大量的“迷你宇宙”,让AI 其中解决算术等非常基础的问题,让它们自己摸索出解决策略,并用这些小型实验室来进行测试。

已经有人在研究“完成十位数乘法所需的最小神经网络”是什么样的。仅仅通过在简单问题上演化小型 AI,我们就能学到很多关于智能本质的东西。

科研与生活需要一个平衡点

Dwarkesh: 你不仅需要迅速学习新领域,还要深入其中以至于能在前沿做出贡献。从某种意义上说,你也是世界上最杰出的自学者之一。你是如何学习数学的新子领域的?

陶哲轩: 我们之前讨论过深度与广度的问题,这并非纯粹的人类与AI之间的区别,人类个体之间也存在这种差异。

伯林(Isaiah Berlin)曾将人分为两类:“刺猬”与“狐狸”。刺猬知晓一件大事,将其钻研得极深;而狐狸知晓许多小事,对万事万物略知一二。

我无疑将自己归类为狐狸。我经常与“刺猬”们合作,而在必要时,我也能让自己暂时变成一只“刺猬”。

当我读到某个理论,觉得自己有能力理解,却偏偏不明白它为何成立时,我就一定要搞清楚其中的诀窍。如果别人能做到我认为自己也能做到的事,而我却做不到,这会让我感到非常不适。

我一直有一种强迫性的执念,必须把事情做完。甚至为此我不得不戒掉电子游戏,因为一旦开始玩,我就非要通关不可,必须打通每一关。

我与许多不同领域的学者合作,他们教会了我其他类型的数学,传授给我基本的技巧,并告诉我哪些是已知的,哪些仍是未知的。

此外,我发现将所学写下来极具帮助。我有一个博客,经常记录我的学习过程。

年轻时,我学到某个精妙的技巧,会心想:“好,我会记住这个的。”结果六个月后便忘得一干二净。

那种“理解了却又失去”的挫败感太过强烈。于是我下定决心:凡是学到的有价值的东西,一定要写下来。这也是我开设博客的初衷之一。

Dwarkesh: 你写一篇博客通常需要多长时间?

陶哲轩: 这通常是我在不想做其他工作时(比如撰写审稿报告)会去做的事。写博客让我感到充满创造力且乐趣无穷。

根据主题不同,耗时可能从半小时到几小时不等。因为这是自愿进行的,写作时时间过得飞快,这与那些出于行政职责不得不完成的苦差事截然不同。

Dwarkesh: 如果文明能够基于第一性原理,重新规划如何最优配置“陶哲轩”这一有限资源,最大的差异会是什么?

或者说,如果在“无知之幕”背后决定你的时间分配,与现在相比会有什么不同?

陶哲轩: 在学术界,资历越深,责任就越重,需要参与的委员会也越来越多,这让我偶尔也会抱怨

但事实上,正是这些超出我舒适区的任务,带来了与更多人接触的机会——比如你。

因此,我非常相信缘分的力量。

我会精心安排一天中的某些时段,但也愿意留出一些空白,去尝试一些不那么寻常的事情。这看似可能在浪费时间,但也可能带来意想不到的收获。

前几年,我们大量转向远程会议,一切都被严格日程化了。在学术界,我们依然忙碌,见面的人数也与线下时期相当,但所有互动都必须提前计划。

我们失去的,是那种随手敲开走廊里同事的房门、或在咖啡间偶遇某人的时刻。那些偶发性的互动看似低效,实则至关重要。

回想我读研究生时,去图书馆查阅期刊文章,需要亲自找到那本刊物,坐下来阅读。

在翻阅过程中,旁边那篇原本不在计划内的文章有时也很有意思。你会偶然发现一些有趣的东西,哪怕有时并非如此。

而现在,这种体验基本上消失了。

想找一篇文章,直接在搜索引擎或AI中输入关键词,立刻就能得到目标结果,但我们却错过了那些只有走“低效路线”才可能遇到的意外惊喜。

我曾有一年在普林斯顿高等研究院(IAS)度过,那是一个没有任何干扰的绝佳之地,只需专注于研究。

头几周非常美妙,我将积压已久的论文一篇接一篇地写出来,能够进行整块的深度思考。

但超过几个月后,灵感开始枯竭,生活变得单调无聊,我开始大量上网消磨时间。

事实证明,生活其实需要一定程度的“干扰”。

人和AI一起做数学的范式会持续很久

Dwarkesh: AI 何时能在前沿数学研究上,达到与最优秀人类数学家比肩的水平?

陶哲轩: 从某种意义上说,它们已经在做人类无法完成的前沿数学工作了,但那是一种与我们习惯截然不同的“前沿”。

这就好比计算器在进行人类难以企及的数字运算,你可以称之为“前沿计算”,但这并非我们传统认知中的数学探索。

Dwarkesh: 但我指的是完全取代像您这样的数学家。

陶哲轩: (笑)那我该做什么呢?

Dwarkesh: 您可以去上播客节目。

陶哲轩: 在未来十年内,确实会有大量工作由AI来完成。但我们终将发现,那些其实并不是我们工作中最核心、最重要的部分。

回顾一百年前,许多数家的主要工作就是求解微分方程。当时,物理学家如果需要某个方程组的精确解,就会雇佣数学家费力地进行微积分运算,以此求出流体方程的解,诸如此类。

而19世纪数学家所做的许多繁琐工作,现在只需调用Mathematica、Wolfram Alpha等计算机代数系统,或者借助最新的AI工具,几分钟内就能解决。

在计算机诞生之前,Computer这个词指代的其实是“人”。曾经,人们像高斯那样耗费心力地制作对数表、计算素数,如今这些任务早已外包给了机器。但数学学科并没有因此停滞,我们继续向前迈进。

同样的情况也发生在遗传学领域。过去,对单个生物体进行基因组测序是一个遗传学家整个博士阶段的工作量,需要仔细分离所有染色体;而现在,只需花费一千美元将样本寄给测序仪即可搞定。

然而,遗传学作为一门学科并未消亡,研究者只是转向了不同的尺度——也许是从研究个体转向了研究整个生态系统。

Dwarkesh: 但是,大多数、甚至几乎所有的数学进展,什么时候会主要由AI来完成?

陶哲轩: “人类+AI”的混合模式将在更长时间内主导数学界。这取决于诸多因素,也需要一些超越我们目前成果的突破性进展,因此这其中充满了随机性。

当前的AI在某些任务上表现出色,而在另一些任务上则极为糟糕。虽然我们可以通过叠加更多框架来降低错误率、让它们协同工作,但目前仍缺乏能够真正令人满意地替代所有智识性工作的关键要素。

现阶段,这是一种互补关系,而非替代关系。当前水平的AI将以各种方式加速科学研究,我们希望新发现和新突破能因此来得更快。

当然,也存在一种可能性:如果过度依赖AI破坏了科学探索中的偶然性和直觉,反而可能会抑制某些类型的进步。

Dwarkesh: 对于那些考虑从事数学职业,或刚刚起步的年轻人,尤其是考虑到AI的迅猛进展,您有什么建议?他们应该如何因应AI的进步而重新思考自己的职业规划?

陶哲轩: 我们正生活在一个变革的时代,这也是一个特别难以预测的时代。

几个世纪以来我们视为理所当然的规则,可能已不再适用。不仅是数学,我们做一切事情的方式都将发生巨变。

在很多方面,我宁愿生活在那个更无聊、更平静的时代,那时的一切跟十年前、二十年前差不多。但我认为人们必须接受一个事实:变革是不可避免的。你必须始终保持对新机会的敏感度,去尝试以前不可能做到的事情。

在数学领域,过去你需要经过多年的严苛教育,拿到数学博士学位,才有可能在前沿研究上做出贡献。但现在,在各类AI工具、形式化证明助手(如 Lean)等的辅助下,高中生很可能就能参与数学项目并做出实质性贡献。

因此,你需要具备一种高度适应的心态。未来将有更多的空间供人们纯粹出于好奇心去探索、去“玩耍”。

当然,获取学历资质依然重要,传统教育仍有其价值,用老方法打牢数学和科学基础也是必要的。但同时,你也应该对完全不同的科研范式保持开放。

这是一个令人忐忑的时代,但也同样令人兴奋。

播客链接:https://www.youtube.com/watch?v=Q8Fkpi18QXU

 

版权所有,未经授权不得以任何形式转载及使用,违者必究。