妙啊！用扩散模型生成蛋白质结构，结果不输天然蛋白质｜来自斯坦福&微软

丰色 2022-10-05 12:10:09 来源：量子位

网友：未来5年用文本提示生成新抗体/新酶也不是梦吧

丰色发自凹非寺

量子位 | 公众号 QbitAI

没想到，图像生成领域的大明星——

扩散模型，这么快就被用来做蛋白质结构生成了！

而且结果在复杂度和结构上都和天然蛋白质有的一拼。

消息一出，不少人都称赞这个组合简直非常妙。

还有人表示：我早就猜到了，生成模型能做的真的不仅是图像和视频。

所以，AlphaFold这是可能有新的挑战者了？

具体是怎么回事？

来看看斯坦福大学和微软的这项最新研究成果到底怎么说。

扩散模型vs蛋白质结构生成

说起研究的初衷，作者表示：

尽管蛋白质结构预测已经取得了非常好的成绩，但要从神经网络中直接生成多结构多样又新颖的蛋白质结构仍然很困难。

他们想到用基于扩散的生成模型来挑战这一任务，并通过镜像蛋白质自然折叠过程来设计蛋白质主链结构。

具体来说，就是将蛋白质主链结构看成一系列连续的角度，这些角度会捕捉组成氨基酸残基的相对方向。

进而通过从随机、未折叠状态到稳定折叠结构的去噪就可以生成新结构。

作者表示，这一设计不仅可以反映蛋白质如何在生物学上扭曲成能量上有利的结构（how proteins biologically twist into energetically favorable conformations），这种表示的固有位移和旋转不变性也可以极大地减轻模型对复杂等变网络的需要。

在实现上，作者仅用一个简单的transformer作为backbone就训练出了一个去噪扩散概率模型。

最终证明它可以无条件地生成高度真实的蛋白质结构，其复杂性和结构模式类似于天然蛋白质的结构模式。

如下图Ramachandran plot（拉氏图，专门用于检测蛋白质构象是否合理）所示，左右分别为测试集和生成的蛋白质主干的（φ，ψ）二面角。

可以看到，三个主要结构元素、以及一些不太常见的角度组合都在他们用扩散模型生成的主干中得到了呈现。

目前，基于以上成果，作者已公开发布了首个用于蛋白质结构扩散的开源代码库和训练模型，详情可戳文末链接。

不过，作为一个初步探索，他们也指明这项成果还存在几个局限性，比如：

1、与通常有几百个残基的天然蛋白质相比，模型生成的结构仍然相对较短（最多128个残基）；

2、由于没有处理多链复合物或配体相互作用，模型无法捕获蛋白质的动态性质，只能生成静态结构；

3、将蛋白质表述为一系列角度的框架设计会造成一些累积误差，最终显著改变生成的整体结构。

最后一个问题则可以对未来工作提供思路，比如试着用几何信息架构中使用的方法来解决相关问题。

最后，除了再次刷新我们对扩散模型的认知，一位毕业于ETH的研究人员看完这项成果后还大胆预测道：

未来5年内，可能渐渐没有人会对全新的蛋白质序列或折叠感到兴奋了。

因为潜在的新酶和治疗性抗体将通过文本提示生成。

对于这项成果，你有什么想说的？

论文地址：
https://arxiv.org/abs/2209.15611

代码：
https://github.com/microsoft/foldingdiff

扩散模型蛋白质结构

丰色

妙啊！用扩散模型生成蛋白质结构，结果不输天然蛋白质｜来自斯坦福&微软

扩散模型vs蛋白质结构生成

相关阅读

全球首个无限时长视频生成！新扩散模型引爆万亿市场，电影级理解，全面开源

突破瓶颈！北航ETH等首次将扩散模型完全量化至1bit，28倍存储节省+52.7倍效率提升

巨大冲击！AlphaFold2再登Nature，从业者都懵了：人类98.5%的蛋白质，全都被预测了一遍

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸CTO都下场体验了

大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友

苹果“套娃”式扩散模型，训练步数减少七成！

热门文章

轻舟智航重回高端局： L2+量产超百万，城市NOA量产下放10万级

腾讯重仓的AI芯片公司要上市了！燧原科技IPO获受理，拟募资60亿

Mobileye势头强劲，2025财年全年营收同比增长15%

把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录

九骏踏浪，海淀这片“创新深海”做了啥？