生物学50年难题被DeepMind解决了，蛋白质版“阿法狗”预测结构准确性达92.4

木易 2020-12-01 13:51:30 来源：量子位

蛋白质结构AI进入“ImageNet时代”

郑集杨发自凹非寺

量子位报道 | 公众号 QbitAI

一早醒来，发现搞蛋白质结构研究的朋友都在纷纷自嘲：要失业了。

啊这，怎么回事？原来是结构生物学，迎来了一个「革命性」的突破。

11月30日，DeepMind宣布：AlphaFold 2，这个AI已经成功解决蛋白质折叠的问题。

这一次，AlphaFold的“准确性”均分，直接从原本的60+/100，提升至了92.4/100。

而过去十几年，其他方法只能在40分左右徘徊。

△图源：Deepmind

两年前，上一版本的AlphaFold便已经取得了里程碑的突破，但是，仍然没有完全解决蛋白质折叠问题。而这次AlphaFold 2，则更进一步。

这一巨大的突破，直接引爆了全网，Nature、Science纷纷报道，生物界和AI大牛们也纷纷祝贺。

甚至很少露面的DeepMind创始人哈萨比斯，也亲自出面介绍：

DeepMind背后的终极愿景一直是构建通用人工智能，利用通用人工智能来极大地加速科学发现的步伐，帮助我们更好地了解周围世界。

而哥大生物学助理教授Mohammed AlQuraishi，更是评价道：

蛋白质结构AI进入“ImageNet时代”。

如此重大的突破，究竟带来了什么呢？让我们来快速且全面地了解一下。

CASP中斩获92.4的均分

就在11月30日，第14次CASP评估的评价结果公布了。

CASP始于1994年，是蛋白质结构预测的评估标准和全球社区，评价每两年进行一次。

△图源：Science

从1994年起，随着技术的进步，蛋白质的预测准确性在不断增加，而在今年，迎来了重大突破，预测准确性得分达到了92.4/100。

而这，便是DeepMind的AlphaFold 2系统带来的。

AlphaFold 2在所有目标上测试结果：GDT的平均得分为92.4，较难蛋白质的中位数得分也达到了87.0，这比第二名高出了25分。

GDT（Global Distance Test），是用来衡量预测准确性的主要指标。

简单来说，GDT就是：预测结果对于正确位置，在距离上的一个综合评分。

能斩获92.4的准确性高分，这说明，预测的结果，误差基本不超过一个原子的大小。

这无疑是巨大的突破。

对此，CASP发起人，计算生物学家约翰·莫尔特（John Moult）表示：

从某种意义上说，蛋白质折叠的问题已经解决了。

端到端的训练

如此强大的AlphaFold 2系统，不免让人好奇，它是如何训练出来的呢？

首先，研究人员把折叠的蛋白质认为是一个「空间图」，其中残基是节点，边缘连接着非常接近的残基。

之后，建立了一个基于注意力机制的神经网络系统，端到端进行了训练。

建立的这个系统会试图解释这个图的结构，同时对它正在构建的隐式图进行推理。

在这个推理过程，还会用到生物学中已知的信息进行完善，如：进化中的同源序列，多序列比对（MSA）和氨基酸残基对等。

通过重复这一过程，该系统对蛋白质的潜在物理结构进行了强有力的预测，并能够在几天内确定高度准确的结构。

此外，AlphaFold还使用了内部置信度度量指标来判断蛋白质结构中哪些部分是可靠的。

之后，研究人员在公开的数据上训练了这个系统，这些数据库包括大约170000个蛋白质结构，其中便有许多未知结构的蛋白质序列。

这个训练过程花费了几周的时间，使用了大约128个TPUv3内核（大约相当于100-200个GPU）。

实验证明AlphaFold确实靠谱

不过，所谓技术突破，都总会引来一些质疑。

连组织者都担心：DeepMind可能一直在以某种方式作弊。

因此，德国马克斯·普朗克发育生物学研究所蛋白质进化学系主任安德烈·卢帕斯（Andrei Lupas）提出了一个特殊的挑战：预测一种来自古细菌群中古细菌物种的膜蛋白。

十年来，科学家虽然获取了这个蛋白质的X射线晶体结构，但是一直无法解释它。

而AlphaFold 2，输出了一个三部分构成的蛋白质详细图像，中间有两个长长的螺旋臂。

而该模型，使卢帕斯和他的同事能够理解他们的X射线数据。

这个过程，只用了半小时进行验证，实验结果完全符合AlphaFold的预测结构。

卢帕斯惊呼：「这几乎是完美的。」

他们不可能这么作弊，我不知道他们是怎么做到的。

AlphaFold 2凭事实，告诉大家：这个进展确实真实而且靠谱的。

解决50年的挑战

克里斯蒂安·安芬森在1972年诺贝尔化学奖的获奖感言中，提出了一个著名的假设，即理论上，蛋白质的氨基酸序列应该完全决定其结构。

正是由于这一假设，引发了50年的探索，即能够仅基于1D氨基酸序列通过计算预测蛋白质的3D结构。

然而，一个主要的挑战是，一种蛋白质在进入最终的3D结构之前，理论上可以折叠的方式数量是天文数字。

1969年，Cyrus Levinthal指出，通过蛮力计算来列举一种典型蛋白质的所有可能构型需要比已知宇宙的年龄更长的时间——Levin thal估计了一种典型蛋白质的10^300种可能构象。

要知道，AlphaGo面对的围棋问题复杂度也就是10^171，蛋白质折叠问题比围棋复杂度高出129个数量级！

DeepMind的研究人员对此说道：DeepMind方法将产生深远的影响，其中包括极大地加快新药的开发速度。

马里兰大学的结构生物学家Shady Grove则表示：

这是一个已有50年历史的问题，我从没想过一辈子中能看到这个。

参考链接：
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
https://www.nytimes.com/2020/11/30/technology/deepmind-ai-protein-folding.html
https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures

神经网络结构生物学

木易

生物学50年难题被DeepMind解决了，蛋白质版“阿法狗”预测结构准确性达92.4

△图源：Deepmind

CASP中斩获92.4的均分

△图源：Science

端到端的训练

实验证明AlphaFold确实靠谱

解决50年的挑战

相关阅读

神经网络“炼丹炉”内部构造长啥样？牛津大学博士小姐姐用论文解读

用上傅里叶变换，很快啊，AI几秒钟就能解出偏微分方程

牛顿棺材板快盖不住了：用深度神经网络解决三体问题，提速一亿倍

单个神经元不可靠！这项新研究推翻以往认知，感知的最大限制在于解码过程

神经网络在Keras中不work！博士小哥证明何恺明的初始化方法堪比“CNN还魂丹”

历时八年登上Nature封面：线虫神经网络首次完整破解，揭秘大脑功能如何产生

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬