< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

首个ML的生物医药大型数据集，3行代码就能运行丨哈佛MIT斯坦福等出品

萧箫 2021-01-02 13:49:00 来源：量子位

自带模型评估、数据拆分、数据处理

萧箫编辑整理
量子位报道 | 公众号 QbitAI

AlphaFold2出世、强力抗生素Halicin的预测……

机器学习，已经在生物医药这一大领域贡献了不少成果。

然而，这一领域，此前甚至还没有大规模的机器学习数据集？

无论是查找、处理数据，还是验证模型效果，之前的研究，都只能在几个小型数据集、或是已经被反复研究的几个任务上进行。

这极大地降低了ML在生物医药领域的应用进展。

为此，一群来自哈佛、MIT、斯坦福等机构的研究人员，开发出了第一个ML领域的生物医药大型数据集TDC，还附带最新的模型评估方法。

这是个什么样的数据集？

TDC（Therapeutics Data Commons）数据集有三大特点：开源、大型、3行代码搞定。

这一开源数据集，包含20+有意义的任务，和70多个高质量数据集。

涉及的范围也非常广，包含生物医药的各种研究方向，如靶蛋白发现、药物动力学、安全性和药物生产等。研究目标也不局限于小分子，还包括抗体、疫苗、miRNA等。

使用起来也非常简便，只需要3行代码，就能获得ML-ready数据、使用TDC里面的各种功能。

TDC解决问题的3层架构

生物医药领域涵盖各种任务，每个任务都需要不同的数据结构来进行处理。

为此，TDC提出了一个三层式阶级架构Central Dogma （中心法则）。

第一层，模型要解决哪类问题？

单实例预测（Single-instance prediction）: 预测单个实体（比如分子，蛋白）的某些性质。
多实例预测（Multi-instance prediction）: 预测多个实体之间的某些性质（比如反应类型）
生成（Generation）: 已知一系列的实体，生成新的拥有某些性质的实体（比如优化后的分子）

第二层，模型要学习什么样的任务？

从生物医药角度来定义，任务包括设计新的抗体、识别个性化的组合疗法、改善疾病诊断、寻找治疗新疾病的方法。

第三层，模型用什么数据集来训练？

根据任务类型，从TDC已有的数据集中挑选数据，用于训练模型。

根据这三层架构，就能非常轻松地找到需要用的数据集。

例如，想要检索Z类问题中的学习任务Y，Y中需要用到数据集X，只需要三行代码就能找到需要的结果。

TDC的数据集长啥样

TDC所包含的数据集和任务，大多是没有用机器学习进行过系统研究、但又极具潜力的应用方向。

例如，ADMET性质预测。其中，ADMET包含一系列药物指标，用于评估某种药物分子在口服后，能否安全有效地到达指定靶点。

此前，已有部分研究机构进行过ADMET预测，但都基于非公开数据。

TDC从各种小数据库、期刊等公开资料中，收集整理了20多个药厂目前在用的重要指标，并将所有数据进行了开源。准确预测这些指标，可以帮助药企节省大量资源。

又例如，对药物进行精准组合。

同种药物，在不同个体间会产生不同影响，尤其是肿瘤方向的药物。如果用机器学习，就能预测药物在各种基因表达下的效果，目前TDC也已经包含了这样的数据集。

此外，多药物分子组合，往往比单药物分子效果更好（drug synergy），如果能预测出两个药物分子的组合效应，能节省大量新药研发的时间，TDC也已经处理了这样的数据集。

还有生物药（Biologics）方向的任务。

近几年来，机器学习在小分子上已有许多应用，但在大分子生物药上的应用不多。

TDC也包含了6个生物药方面的任务，包括抗体和抗原的亲和力预测、多肽和MHC的亲和力预测、miRNA和靶点的反应预测等。

TDC的数据处理函数

除了核心数据集以外，TDC还能进行简单的数据处理，主要包括以下四点：

模型评估：TDC提供了一个评估函数。只需3行代码，就能评估TDC中的任务。
数据分割：TDC提供了一些训练和测试集的分割方法，用于模拟实际生物医药场景，如scaffold split等。
数据处理：TDC提供可视化、标签转化，二值化等工具。
分子生成任务：目的是让产生的新药物分子具有更好的性质。TDC收集了20多个有意义的任务，同样只需要3行代码，就能运行。

还可以刷新榜单排名

此外，TDC还提供各种类型的榜单（Leaderboard），给机器学习研究者对比模型预测的效果。

虽然TDC提供的每个数据集都能作为基准，但如果要真正评估一个机器学习模型，就要求其必须在一系列数据集和任务上达到更好的效果。

因此，TDC围绕各种有意义的生物医疗问题，合并了各种子基准、形成基准组合。

所有的衡量标准和训练、测试、分割的方式的设计目的，都是为了模拟实际生物医药的应用场景。

团队简介

TDC的开发和维护团队，由多个高校和机构的研究人员共同组成。

主要的5位开发者，分别是来自哈佛的黄柯鑫、佐治亚理工学院的符天凡、MIT的高文昊、CMU的赵越、斯坦福的Yusuf Roohani。

此外，还有他们的5位导师，也在这次数据集开发中做出了不少贡献。

目前，TDC数据集还在不断地更新和完善中，作者黄柯鑫表示，还会不断地更新如CRISPR、临床试验等方向的其他数据。

感兴趣的同学，可以戳下方传送门用起来了~

项目传送门：
https://zitniklab.hms.harvard.edu/TDC/

参考链接：
https://zhuanlan.zhihu.com/p/340254116

人工智能数据集机器学习生物医药

萧箫

首个ML的生物医药大型数据集，3行代码就能运行丨哈佛MIT斯坦福等出品

这是个什么样的数据集？

TDC解决问题的3层架构

TDC的数据集长啥样

TDC的数据处理函数

还可以刷新榜单排名

团队简介

相关阅读

你的涂鸦活了，CMU中国本科生让画成真丨有代码有Demo

涂鸦一键变逼真照片，我被自己的绘画技巧惊呆了 | 英伟达&朱俊彦CVPR新研究

抖音大火的AI虚拟人，画的猫为啥这么丑？

悼念！孙剑博士凌晨逝世，AI痛失大牛，旷视痛失技术领路人

研发日烧6400万的百度发出新讯号，李彦宏：自动驾驶订单已是全球第一

手指按住闪光灯，普通手机也能测血氧！华盛顿大学等开源新数据集，监测数值范围大于现有方法

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字