AI for Science年度激辩:AlphaFold成功难以复制,数据人才生态建设都是挑战|MEET2023

不管是AI还是传统手段,一个好的研究体系是根本

明敏 丰色 整理自 MEET2023量子位 | 公众号 QbitAI

“AI for Science在今年爆火,不是意外。”

“当下面临的最大挑战,是如何管理预期。”

“无论用AI还是传统手段探索科学,都要基于好的研究体系,工具上的变化不会扭转本质问题。”

……

今年,AI for Science的更多可能,正在被挖掘、热议甚至激辩。

爆火到底是不是意外?变革是否已经发生?还面临哪些挑战?在量子位MEET 2023智能未来大会AI for Science圆桌上,这些疑问拨云见日。

深势科技CTO胡成文、百图生科BioMap副总裁&产业基金董事总经理瞿佳润、英矽智能联合首席执行官&首席科学官任峰,就AI for Science当下备受关注的问题,展开分享。

在AI for Science爆火背后,好奇、疑问与困惑随之而来。

三位嘉宾分别来自AI for Science先行者、国内生物计算领域代表、AI药物研发先锋,他们对此有怎样的见解?

从自身站位出发,在AI for Science这一广阔赛道上,他们将分别聚焦于哪些细分领域?背后动因如何?已有哪些成绩?

而对于这一大趋势,行业内外又该做出怎样的准备?

关于MEET 智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

话题要点

  • AI for Science概念从提出起,就意味着一场革命。
  • AI for Science可以解决传统科学范式难以应对的问题,在保持原有科学精度下,降低计算复杂度、提升效率。
  • AI for Science在生物领域会有非常明显的提升效果,但别的领域复制AlphaFold的成功并不容易。
  • 算力、算法和数据三要素仍是AI for Science领域重点,而对于生物行业,最重要的还是数据。
  • 使用AI解决问题只是工具上的改变,并不会扭转本质,我们仍需追求一个好的研究体系。
  • AI for Science面临的最大挑战是管理预期,以及复合型人才、生态共建。

(圆桌环节由量子位智库负责人刘萌媛主持。在不改变原意的基础上,量子位对内容进行了编辑整理。希望能够给你带来更多的启发与思考。)

论坛实录

AI for Science爆火,不是意外

量子位刘萌媛:大家好!很高兴能够在AI for Science环节里和大家聊一聊新兴的技术热词。

首先,我为各位介绍一下今天在线上接入的三位嘉宾。

第一位是深势科技CTO胡成文,胡总在深势科技负责组建业务研发、平台研发两大团队。深势科技致力于运用人工智能和分子模拟算法,结合先进技术手段来求解重要科学问题。

第二位是百图生科BioMap副总裁、产业基金董事总经理瞿佳润,百图生科是中国首家由生物计算引擎驱动的创新药物研发平台。

第三位嘉宾是我们的老朋友,来自头部AI制药创企英矽智能的联合首席执行官、首席科学官任峰博士

由任博带领的药物研发团队,利用AlphaFold与自主研发的人工智能平台联动,在30天内快速发现可潜在治疗肝细胞癌的苗头化合物,这也是业内首批经发表的利用AlphaFold展开药物研发实践的项目之一。

欢迎三位嘉宾线上加入!

刚刚刘铁岩院长的演讲中也提到,AI for Science已经被许多学者认为是第五范式的重要开端。到今天,除了AlphaFold所在的生物医药领域,AI for Science也已在包括材料、物理、数学等领域发挥出越来越重要的作用。

眼下,我们该如何认知、面对并利用好AI for Science这个新的增长点?是时候请三位行业代表专家来聊一聊了。

各位觉得AI for Science在今年迅速火热,是意外吗?

深势科技胡成文:最近AI for Science确实比较火爆,这不是很意外。

2018年开始,鄂维南老师第一次提出AI for Science这个概念,从那时起我们就认为这是一场革命。

深势科技的目标,是希望通过AI for Science用第一性原理的方式,来解决建模过程中的问题,从而为上层的个人应用提供一整套解决方案。

过去4年,我们开发了一系列基于AI for Science新范式下的多尺度建模工具,也分别推出了针对药物研发领域的Hermite平台,以及针对材料科研计算的Bohrium平台。

深势科技团队成员在2020年获得了国际高性能计算领域的最高奖“戈登贝尔奖”。

刚才听了刘铁岩的报告也深有启发,我们很高兴看到2019年开始,美国各大高校科研机构纷纷成立这个方向的实验室。

2021年之后,AI for Science这个概念迅速被一些国际机构公开采用了,如英伟达提出AI for Science是一场正在发生的革命,DeepMind也开通了AI for Science博客。2022年,微软在全球成立了一个重磅机构AI for Science研究院。国内工业界等也在迅速跟进,包括阿里达摩院、字节跳动人工智能实验室以及华为等。

我们也希望有更多同仁能加入进来,一起推动AI for Science从概念到落地,从学界走向工业界,来真正解决行业面临的实际问题,一起推动AI for Science发展。

百图生科瞿佳润:我理解AI for Science它更多是对着AI for Industry产生出来的。

某种意义上,AI在工业界的使用会更早展开。比如无人驾驶、智能化场景使用等,但AI for Science的挑战会更大,因为这其中存在一个AI模型的可解释性及科学数据积累的前置条件在其中

如Biotech、Pharma领域,它属于工业界吗?是。但你说它是Science吗?也是,因为它本身做的是科学层面的理解和解析,而且高度还不确定。现在还做不到给定一个靶点,就能设计出100%成功的药物。某种意义上,我们在这些领域去应用AI,与其说是它应用在工业场景,不如说就是正在做AI for Science这件事。

回应您刚才的问题,AI for Science火热是不是一个意外?

的确,随着此前一些生物数据的爆发到AlphaFold2,以及现在行业也不局限于药物侧而是慢慢渗透到靶点侧。我们会希望利用AI去提高药物研发、靶点研发的成功率。因为本身痛点已经长期存在了,一旦技术条件成熟,它的快速铺开是可以预见的。

英矽智能任峰:我同样认为AI for Science的火热不是意外。

相对而言,我是AI for Science狭义上的门外汉,这两年接触这一领域,其实深势科技给了我很多教育,从深势刚刚开始提出AI for Science时CEO、CTO做的一些报告我都去听,但我们做的是不同层面的东西。

有些公司做的AI for Science是稍微狭义上的,利用AI模型去解决一些Science方面的不足。比如运算量不足,从底层来解决物理上的问题;再比如过去需要长时间计算的东西,通过AI的一些优化可以牺牲一点精度、有时候甚至精度保持原有水平,就可以大幅提高速度,几分钟、几小时内计算出来。这就解决了算力的问题,有时候算力太小,对于一些复杂、维度高的计算,是需要大量算力和时间的。

我讲的AI for Science是更广义的角度,不光解决底层问题,也解决实际应用问题。

其实除了新药研发,物理、化学、数学、生物学等也是Science,我们更广义地通过AI去减少一些生物学上的不确定性,也是AI for Science更广义的解释。

从这一方面来看,AI for Science的火热完全在意料之中。

AI for Science已经引发效率、探索思路上的变革

量子位刘萌媛:的确,AI for Science当下可以划分为狭义和广义两个层面。着眼于更加具象的问题,AI for Science给当下科研和应用带来了怎样的变革?在此之前是怎样的情况?

深势科技胡成文:我们总结科研范式本质上可能只有两种。

经验范式,即开普勒范式。本质上从大量数据中总结规律,然后解决实际问题。如开普勒从几十年的资料中发现了天体的运动规律。

另一种是物理范式,即牛顿范式。它只寻求事物之间的基本规律来解决实际问题。比如牛顿力学、相对论、量子力学等,都隶属于牛顿范式。

这两种范式在传统科学中应用非常广泛,但在实际应用过程中也会面临比较大的挑战

开普勒范式很多时候都比较高效,但由于只看数据、不知道原理,所以有时候是知其然不知其所以然。它往往需要大量数据,比如传统AI行业数据非常多,但是到工业界应用后就会发现,数量还是不够多或者高质量数据不够多,很难分析出背后规律,同时还有一定应用场景的限制,所以它表现的结果往往够快但不够准确

牛顿范式可以深刻揭示事物背后的规律,但当它遇到数据规模比较大的场景,数据呈线性增长,需要的计算量是指数级增长,算到一定规模后可能无法继续。所以它遇到的挑战是算得准但不够快

这就是两个传统范式在科研上会遇到的挑战。AI能解决什么问题?

AI在工业界,尤其是CV、NLP上获得了极大成功。本质上AI是一个高效处理问题的工具,能够把高维函数高效地降为低维函数,从而解决计算问题。

比如图像识别,输入的图片是几千万像素高维的像素密度分布函数,通过AI可以降到几维、几十维分类的问题。

由此给我们一个启示,可以用AI来学习科学原理,在保持科学原理精度的情况下,降低它的计算复杂度,用学到的方法解决实际问题,这就是AI for Science的方法。

通过这些方法,也开发出了一系列计算工具,总结微观层面一系列相互作用力问题,使得原来需要花费大量时间计算、或者长时间计算都无法解决的问题,能够在短时间范围内解决,实现效率上的提升,这就是AI for Science如何解决传统科学范式所不能解决的问题。

百图生科瞿佳润:生物领域很多时候被认为是一种实验科学,它历史上的范式就是在不断尝试、试错,从中筛选到一些东西,再漏斗式地往下走。但是这个过程相对比较长,成功率难以保障。每一轮筛选都有一定概率,如果把整个漏斗叠加起来,成功率会很低。

但如果给它再扣一个帽子的话,我认为有了AI for Science工具之后,会把实验科学转化为系统工程的方式来解决问题。

在一个闭环体系内,每一轮都用AI从一个很大的空间中预测、筛选到少量合适的候选对象,再进入到闭环进行主动学习。这样的好处是可以极大程度缩短单轮次周期

实事求是来说,现在一轮下来AI的成功率能绝对比传统生物办法高很多吗?我觉得还有很长一段路要走。

但如果单轮周期被极大缩短了,效率就会提高。

比如原来从杂交瘤开始做免疫,从免疫、克隆挑选、杂交瘤制备、测序、药物研制,整个流程需要2~4个月。但让AI加入到单轮预测中,不到一周即可实现。后面蛋白表达纯化、测定,大概需要3周,这样就能将整个流程从3、4个月缩短到1个月。

一轮次不一定会缩短很多时间,但如果把轮次叠上去,最终体现在同等时间水平里的成功率会高很多。经过多轮迭代,显著提升效率,同时间接解决了成功率的问题。

第二个点,百图生科不只做单药,还做靶点角度挖掘,而且会很关注从头测序的靶点挖掘。

我们经常开玩笑说,这件事是真正在用产业的方式做科研,因为靶点问题会相对更复杂,如果将药物问题归为工业问题还有迹可循,靶点问题过去都是各大学校、科研院所通过筛选得到的。

所以我们通过AI来把靶点研究问题系统化,它会最终体现在成功率提升上,这也是一个很大的影响。

量子位刘萌媛:我们知道任峰博士团队在国内率先利用AlphaFold发现了CDK20小分子抑制剂,任博在AI for Science领域有长久经验,有没有特别的心得体会可以和我们分享一下?

英矽智能任峰:心得体会有很多。AlphaFold预测蛋白质是一个非常典型的AI for Science,它解决了困扰人类50多年的问题。

而当科学问题解决了之后,该如何应用到实际场景?

这就是我们正在做的事,通过AI的方式解决蛋白质折叠问题,再将AlphaFold预测蛋白质结构应用到药物研发上。根据我们团队发在arXiv上的成果,仅设计合成了13个化合物,就能找到针对全新靶点活性非常好的小分子。

AI for Science从我的角度来讲,我们是一个AI赋能的Biotech,用AI来做创新药物。这其中有很多问题,是一个风险很高的行业,现在普遍需要十几年时间、20亿美金以上的研发投入,才能做一个创新药出来,效率非常低。

通过AI的加持,来解决药物研发领域里的生物、化学以及临床方面的问题,可以大幅缩短研发周期、提高研发效率、降低研发成本。

这为整个生物医药研发提供了颠覆性的解决思路。

传统药物研发依靠人类想象,所有创新都基于人。但有了AI加持后,可以在化学、生物学层面做更多探索,以前人类大脑中触及不到的想象空间,AI通过浏览大量数据、积累更多知识,从而具备更丰富的创新性。

AlphaFold的成功很难复制

量子位刘萌媛:刚刚任博提到了AI for Science在生物领域会有非常明显的提升效果,现在还有哪些领域有可能去复制AlphaFold所带来的这些改变呢?这个问题瞿总有相关的见解吗?

百图生科瞿佳润:复制AlphaFold2蛮难的。之前我们内部也有在讨论说为什么AlphaFold2能够引起这么大的轰动,AI已解决的问题不少,这个问题也在某种意义上出圈了,大家都关注到它。

我觉得可能有几个因素。

蛋白质结构研究,无论是靶点方面还是药物研发,都是非常底层基础的。

蛋白质结构预测,尤其是实现准确预测复合物结构,它将不再仅仅是可视化问题那么简单,其背后涉及诸多能量问题,包括可以去比对给定蛋白可以和哪些蛋白形成关联。

所以其实它也可以泛化到靶点网络的问题,它是支撑很多问题的根本问题。

生物界有像施一公这样的顶尖科学家在这个方向发力,包括CASP比赛也有很多人关注。综合来讲,多方面的原因造成它非常轰动。

其实我们公司在做一个类似的事情,它不一定能引起同样的轰动,但我们觉得会对科学有很大的影响,就是对于组学的预测

它本质上是蛋白这个问题的另一面,因为蛋白已经成为最后的载体了,但是基因层面的问题:从基因组到表观组、转录组、蛋白这一系列的多组学问题,以及一个细胞怎么通过它的组学的组合来表征免疫激活状态,也是一个非常复杂的高维度问题。

本质上如果我们能够把它的映射表征学习好,我们就能精准预测到给定一个外界的扰动这个细胞有没有响应。

那么再进一步,这就变成药物响应的问题了,它可以通过该映射表征去匹配精准的细胞和精准的蛋白之间的调控关系,从而再引入临床数据。

比如说,如果能够知道哪一类病患里的哪类细胞比较占主导地位,又能知道怎么调控这一类的主导细胞发挥很好效果,整个逻辑就串起来了。

这也是我们大力投入的方向,现在有十几个临床队列,有高仿真的体外模拟体系产生大量的数据闭环。

量子位刘萌媛:提问一下深势科技的胡总。深势科技更多是从计算问题的底层出发去看待AI for Science。深势在AI for Science的应用上在其他领域现在已经有怎样的涉足?是否生命医药领域更有天时地利,所以比其他领域更容易推进?

深势科技胡成文:AlphaFold2确实是行业标志性的事件,大家都体会比较深,我们也有一些相关进展的工作。

大家知道国内很多公司做了类似模型,我们也提出了Uni-Fold,这不是为了打榜。

我们的核心逻辑是,预测出来的结果是静态的,但蛋白质其实是动态的,它才会有如此丰富的特征。

拿到静态结果并不能往后解决更多问题,所以我们又开发了一套动态的采样算法,把原来Uni-Fold预测的静态结果作为起点,对蛋白质结构进行动态构象进一步优化结构,基本上可以达到类似于实验室精度的效果

这对于创新药后续的开发是比较好的技术,对靶点发现、分子对接也都是比较好的起点,这一系列的工具已经在我们自己内部的平台上。

AI for Science本质上来说是一套方法论,所有的宏观信息都是由微观决定结构的,本质上都是底层原子、分子性质、结构和相互作用力决定了上层宏观性质,这一套方法同步在其他领域也有相关突破。

比如在材料领域,电池是一个比较典型的场景。我们通过计算来加快电池、电解液新材料的发现和性质预测,和宁德时代、金羽新能也取得了一系列突破。

燃烧也是比较典型的一个例子,我们推出了一个平台叫DeepFlame,能够有效的模拟燃烧反应的过程。

解决的问题是类似于航空发动机过程当中的试验和模拟——以前计算出来极其复杂,通过AI方式能够大大降低计算的复杂度,减少了大量实验的成本。

在科研领域你会发现传统的科研只有两大块:要么做试验、要么搞理论

做试验要有大量的时间,不管是化学、物理试验都一样,包括实际操作、时间成本和经济成本都会比较高。

我们通过AI for Science的方法也提供了一系列平台工具,使得很多的科研人员能够通过计算去模拟很多传统实验。

这个趋势现在开始从学校到工业领域都有所显现,我们能看到北大化学系、生物系等,原来一半人做理论、一半人在做实验。

现在很多实验人员开始去做计算,包括前期筛选模拟的工作尽可能让计算去做,剩下少量的工作进行模拟,所以计算的招生人数和实验人数也是越来越多的。

所以我们能看到AI for Science不仅仅是在生物医药制药行业有广泛应用,在很多基础科学研究方面也有广泛的发展空间。这是我们的理解。

接下来我们需管理好对AI的预期

量子位刘萌媛:我们刚刚一直在讲AI for Science它的发展前景,包括它给我们带来的好处和改变。但它也将会面临挑战,大家目前觉得最大的一个挑战会是什么?以及谈到AI的时候我们经常会说算法、算力和数据,那在AI for Science新的细分领域里面最重要的还是这三要素吗?

英矽智能任峰:其实胡总应该更有资格去谈AI for Science,我们在工业或者技术方面可能做得更多一点。但是我可以发表一些自己粗浅的看法,我个人认为从AI的角度、从方法论的角度来讲,AI不管是for任何的Science或者是应用,目前面临最大的挑战是如何去管理预期

因为以前在AI发展过程中,刚开始所有人都不太相信AI,后来慢慢信的人越来越多,之后大家对它的预期非常高,好像AI无所不能。

预期高的话,对整个行业来讲是一个非常大的挑战。因为任何一个失误或者是失败,就会导致大家对整个行业失去一定的信心,这可能是目前整个AI行业不管是for Science还是for Industry都面临的一个比较大的挑战,即我们如何管理好自己的预期,如何管理好客户对AI技术的预期以及其他行业对AI行业的预期,这是非常重要的。

做Science的话,如果所有事都能成功就不叫Science,Science总要容忍很多失败,而且经常失败的比成功的案例还要多。

所以即便有AI的加持,只是提高了效率、提高一些成功率,但并不能说可以100%成功,把大家对AI for Science的预期管理好,可能是我们以后要工作的一个方向。

百图生科瞿佳润:AI“三要素”依然是存在的,但是如果说映射到生物学问题的话,最重要的还是数据。

算力这个事,现在你有资金就可以用到这些,大家都用云计算了,你也不用自己去搭这些硬件。

然后你说算法这件事情,现在国内很多AI人才,包括交叉学科的人才也都可以有。

当然,怎么去管理不同背景的双方团队能真的互相理解也很有挑战性,但本质上做这个方向的事情就必然要面对这样的挑战。

我觉得数据是更难的问题,尤其是在生物这个行业。

我还是以靶点举例子。AI只是一个工具上的变化,这种工具上的变化并不能扭转一些本质上的问题。

所谓本质上的问题是在靶点也好、药物也好,一直有一个诟病,即体外的这种体系很难映射体内的环境。不少生物领域里基础的研究都有这样的短板。AI学到的也包括这些短板,很难说体外体系不好情况下,能学到体内真实的规律。

我们现在反而面临的一个问题是,在闭环的过程中怎么能把体外的体系优化到尽可能能模拟体内体系的状态,而且它还得是一种满足AI需求的高通量产数据方式,即“高通量低成本”的方式,这个挑战是非常大的,包括药物也一样。

最开始大家说我们用公开的数据,其实我们自己内部做过一个研究,公开专利的数据在内部把所有一样的序列合出来,然后去做亲和力,它的关联是非常差的。在这种情况下,根本就不能作为标准。

所以我想表达的是,我们希望用AI去研究Science,但是我不管用AI研究Science,还是基于生物学传统手段研究Science,都要基于一个好的研究体系,而这个体系现在对我们来说是很具有挑战性的。我相信这对其他的同行来说也是一样具有挑战的点。

深势科技胡成文:刚才两位都讲得比较多,算力、算法、数据这肯定还是很重要的。从我的角度来说,还可以出现一些新的挑战。

第一,人才,尤其是跨学科复合型的人才

因为AI for Science不是说把一批AI公司和一些科学家搞在一起就OK了,本质上需要双方去理解,不同领域的人在一起才能产生化学反应,碰撞出原创性的突破。

这种人才还是需要花大量时间去培养和学习的,也需要借助学术界和工业界的努力,所以人才是第一位的,目前还是比较紧缺。

第二,生态共建问题

互联网传统AI商业上的巨大成功,使得在不管是数据、模型、算力方面都形成一套比较完整的生态链,人才供给比较丰富,包括最近各大公司、各个平台也推出了很多预训练大模型,使得新的应用、新的开发上手会非常容易。

我们最近也推出了AI for Science预训练大模型,叫DPA-1,是全球首个覆盖元素周期表近70种元素的预训练模型,该成果由北京科学智能研究院、深势科技、北京应用物理与计算数学研究所共同研发,DPA-1被誉为自然科学界的GPT,这个模型能够极大降低后续科研人员从头训练的成本,我们也希望跟同行们一起来推动AI for Science整个生态系统的繁荣。

量子位刘萌媛:由于时间问题,今天AI for Science的圆桌环节到此暂告一段落。感谢三位嘉宾为我们带来的精彩分享,也期待后面有同样优秀的创企在AI for Science领域为我们带来新的研究进展以及落地成果。谢谢大家!

版权所有,未经授权不得以任何形式转载及使用,违者必究。