首个ML的生物医药大型数据集,3行代码就能运行丨哈佛MIT斯坦福等出品

自带模型评估、数据拆分、数据处理

萧箫 编辑整理
量子位 报道 | 公众号 QbitAI

AlphaFold2出世、强力抗生素Halicin的预测……

机器学习,已经在生物医药这一大领域贡献了不少成果。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

然而,这一领域,此前甚至还没有大规模的机器学习数据集?

无论是查找、处理数据,还是验证模型效果,之前的研究,都只能在几个小型数据集、或是已经被反复研究的几个任务上进行。

这极大地降低了ML在生物医药领域的应用进展。

为此,一群来自哈佛、MIT、斯坦福等机构的研究人员,开发出了第一个ML领域的生物医药大型数据集TDC,还附带最新的模型评估方法。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

这是个什么样的数据集?

TDC(Therapeutics Data Commons)数据集有三大特点:开源、大型、3行代码搞定。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

这一开源数据集,包含20+有意义的任务,和70多个高质量数据集。

涉及的范围也非常广,包含生物医药的各种研究方向,如靶蛋白发现、药物动力学、安全性和药物生产等。研究目标也不局限于小分子,还包括抗体、疫苗、miRNA等。

使用起来也非常简便,只需要3行代码,就能获得ML-ready数据、使用TDC里面的各种功能。

TDC解决问题的3层架构

生物医药领域涵盖各种任务,每个任务都需要不同的数据结构来进行处理。

为此,TDC提出了一个三层式阶级架构Central Dogma (中心法则)。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

第一层,模型要解决哪类问题?

 

  • 单实例预测(Single-instance prediction): 预测单个实体(比如分子,蛋白)的某些性质。
  • 多实例预测(Multi-instance prediction): 预测多个实体之间的某些性质(比如反应类型)
  • 生成(Generation): 已知一系列的实体,生成新的拥有某些性质的实体(比如优化后的分子)

 

第二层,模型要学习什么样的任务?

从生物医药角度来定义,任务包括设计新的抗体、识别个性化的组合疗法、改善疾病诊断、寻找治疗新疾病的方法。

第三层,模型用什么数据集来训练?

根据任务类型,从TDC已有的数据集中挑选数据,用于训练模型。

根据这三层架构,就能非常轻松地找到需要用的数据集。

例如,想要检索Z类问题中的学习任务Y,Y中需要用到数据集X,只需要三行代码就能找到需要的结果。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

TDC的数据集长啥样

TDC所包含的数据集和任务,大多是没有用机器学习进行过系统研究、但又极具潜力的应用方向。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

例如,ADMET性质预测。其中,ADMET包含一系列药物指标,用于评估某种药物分子在口服后,能否安全有效地到达指定靶点。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

此前,已有部分研究机构进行过ADMET预测,但都基于非公开数据。

TDC从各种小数据库、期刊等公开资料中,收集整理了20多个药厂目前在用的重要指标,并将所有数据进行了开源。准确预测这些指标,可以帮助药企节省大量资源。

又例如,对药物进行精准组合

同种药物,在不同个体间会产生不同影响,尤其是肿瘤方向的药物。如果用机器学习,就能预测药物在各种基因表达下的效果,目前TDC也已经包含了这样的数据集。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

此外,多药物分子组合,往往比单药物分子效果更好(drug synergy),如果能预测出两个药物分子的组合效应,能节省大量新药研发的时间,TDC也已经处理了这样的数据集。

还有生物药(Biologics)方向的任务。

近几年来,机器学习在小分子上已有许多应用,但在大分子生物药上的应用不多。

TDC也包含了6个生物药方面的任务,包括抗体和抗原的亲和力预测、多肽和MHC的亲和力预测、miRNA和靶点的反应预测等。

TDC的数据处理函数

除了核心数据集以外,TDC还能进行简单的数据处理,主要包括以下四点:

 

  • 模型评估:TDC提供了一个评估函数。只需3行代码,就能评估TDC中的任务。
  • 数据分割:TDC提供了一些训练和测试集的分割方法,用于模拟实际生物医药场景,如scaffold split等。
  • 数据处理:TDC提供可视化、标签转化,二值化等工具。
  • 分子生成任务:目的是让产生的新药物分子具有更好的性质。TDC收集了20多个有意义的任务,同样只需要3行代码,就能运行。

 

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

还可以刷新榜单排名

此外,TDC还提供各种类型的榜单(Leaderboard),给机器学习研究者对比模型预测的效果。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

虽然TDC提供的每个数据集都能作为基准,但如果要真正评估一个机器学习模型,就要求其必须在一系列数据集和任务上达到更好的效果。

因此,TDC围绕各种有意义的生物医疗问题,合并了各种子基准、形成基准组合。

所有的衡量标准和训练、测试、分割的方式的设计目的,都是为了模拟实际生物医药的应用场景。

团队简介

TDC的开发和维护团队,由多个高校和机构的研究人员共同组成。

主要的5位开发者,分别是来自哈佛的黄柯鑫、佐治亚理工学院的符天凡、MIT的高文昊、CMU的赵越、斯坦福的Yusuf Roohani。

此外,还有他们的5位导师,也在这次数据集开发中做出了不少贡献。

首个ML生物医药大型数据集,3行代码能运行丨哈佛MIT等出品

目前,TDC数据集还在不断地更新和完善中,作者黄柯鑫表示,还会不断地更新如CRISPR、临床试验等方向的其他数据。

感兴趣的同学,可以戳下方传送门用起来了~

项目传送门:
https://zitniklab.hms.harvard.edu/TDC/

参考链接:
https://zhuanlan.zhihu.com/p/340254116

版权所有,未经授权不得以任何形式转载及使用,违者必究。