新闻中心
News center
Nat.Mach.intell. | 基于知识图谱和推荐系统的统一药物-靶点相互作用预测框架
来源: | 作者: | 发布时间: 641天前 | 1190 次浏览 | 分享到:

本案例适合

1.人工智能(AI),计算机科学(CS),大数据(DS

2.跨专业学习算法的同学,专业为生物信息工程,生命科学,医学统计学,医学

科研星级

 据:⭐    

 法:⭐    

应用度:⭐    




今天要为大家介绍的是一篇关于统一药物-靶标相互作用预测框架知识图和推荐系统的高分文章,发表在nature machine intelligence上。本文结合知识图(KG)和推荐系统,开发了DTI预测的统一框架KGE_NFM,为各种场景的药物发现提供了新思路!

概述

  药物-靶相互作用预测(DTI)在虚拟筛选、药物再利用和潜在药物副作用识别等多个领域的药物开发中发挥着至关重要的作用。尽管在完善DTI预测方面已经投入了大量的努力,但现有的方法仍然存在DTI数据集的高稀疏性和冷启动问题。本文结合知识图(KG)和推荐系统,开发了DTI预测的统一框架KGE_NFM。文章结果表明,KGE_NFM提供了有价值的见解,将基于KG和推荐系统的技术集成到一个统一的框架中,用于新的DTI发现。

  本研究提出了一个统一的框架,称为KGE_NFM(图1),结合了KGE和推荐系统技术,用于DTI预测,适用于药物发现的各种场景,特别是遇到新蛋白时。

图(1)

  文中结果表明,KGE_NFM是一个功能强大、可扩展性强的DTI预测框架,为新药物靶点的发现提供了新的思路。

方法

基准数据集

  在这项研究中,由不同种类的异构数据组成的四个基准数据集,其由四种类型的节点(即药物、蛋白质、疾病和副作用)和六种类型的边(即药物-目标相互作用、药物-药物相互作用、蛋白质-蛋白质相互作用、药物-疾病关联、蛋白质-疾病关联和药物-副作用关联)组成。


KGE_NFM流程

  KGE_NFM主要由三个部分组成:(1)通过KGE提取异构信息;(2)主成分分析(PCA)自动降维;(3)基于神经因子分解的信息整合和药物/蛋白质协同推荐机器(NFM)。


基线

  将基线分为三类:端到端方法以药物和蛋白质的原始符号为输入,基于特征的方法以药物的分子指纹和蛋白质的描述符为输入,异构数据驱动方法以从异构数据中提取的低维特征为输入。


评估协议

  为尽量减少数据可变性对结果的影响,使用10倍交叉验证来比较文中方法和其他先进的方法的预测性能。在训练过程中,(1)将DTI数据集按照场景(即药物的温启动、冷启动和蛋白质的冷启动)分为每一叠中的训练集和测试集;(2)利用训练集中的支持知识图和DTIs对KGE模型进行训练;(3)利用训练集中从DTIs的KGE模型中提取的嵌入向量和相应的描述符对NFM模型进行训练。


评价指标

  本研究通过受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPR)来评价每种方法的性能。文中使用AUPR作为评价绩效的主要指标,AUROC作为补充。

结果

  为评估本研究的预测性能,将文中的方法与三种DTI预测方法进行了比较,分别是基于特征的方法、端到端方法和异构数据驱动方法。下面的部分为Yamanishi_08和BioKG数据集上进行性能评估,分析不同大小但相似的数据集对KG的影响,然后讨论有助于提高DTI预测性能的可扩展框架的方法。


在三个示例场景中对Yamanishi_08的数据集进行性能评估

  将KGE_NFM与Yamanishi_08数据集上的7个基线方法进行了比较,包括MPNN_CNN、DeepDTI,射频,NFM, DTIGEMS+,如图(2)

图(2)

DTIGEMS+、TriModel和KGE_NFM,在不同的阳性和阴性样本比例(即平衡和不平衡)下实现较高的预测性能。

在三个示例场景中对BioKG数据集的性能评估

将KGE_NFM与BioKG数据集上的6种基线方法进行比较,包括MPNN_CNN、DeepDTI、RF、NFM、DistMult和TriModel(图3)。

图(3)


DTIGEMS+、TriModel和KGE_NFM,在不同的阳性和阴性样本比例(即平衡和不平衡)下实现较高的预测性能。

在三个示例场景中对BioKG数据集的性能评估

  将KGE_NFM与BioKG数据集上的6种基线方法进行比较,包括MPNN_CNN、DeepDTI、RF、NFM、DistMult和TriModel(图3)。

图(3)

  当KG和DTI对的规模较大时,三个示例场景下的基线评估性能表现略有不同,特别是对端到端方法。在这种情况下,使用简单的基于特征的方法就足够了。

框架中每个组件对预测性能的影响

  如图4所示,KGE在DTI预测上的直接应用(即在异构图中构造链路预测问题)与基于特征的NFM方法相比并没有表现出优势。这是因为大量的异构信息产生了噪声。

图(4)

  从图4b、d可以看出,在Yamanishi_08’数据集和BioKG上,AUPR分别提高了21%和14%。这些结果表明,我们的框架能够有效地集成和利用来自生物分子结构和组学数据的信息来预测DTI。


通过与其他分类器的集成有助于预测DTI

本文提出的KGE_NFM是一种利用异构数据进行DTI预测的有效策略。事实上,KG通过将其他算法以适当的方式结合在一起,对许多下游任务具有巨大的潜力。

  为了探索知识图如何影响DTI预测,分析了由DTI数据和所有其他异构数据组成的网络,并利用中间中心性来衡量节点在KG中的中心性(图6a)。中间中心性等于从所有顶点到通过该节点的其他顶点的最短路径数,通常用于标识作为从图的一部分到另一部分的桥梁的节点。其中,节点n的中间中心性C,(n)的计算如下:

  其中s、t为网络中与n不同的节点,ost为s到t的最短路径数,ost(n)为n所在的s到t的最短路径数。

图(6)a

  文中观察到支持KG确实充当了药物和蛋白质之间的桥梁(图6b),在中间中心性分布中,我们发现目标节点的中心度较低,为解决这个问题,去掉了标识符的节点,包括KEGG_GENE、KEGG_Drug和KEGG_PATHWAY,并重新训练的基于所选训练集的KGE_NFM模型。结果表明,所选DTI对的预测性能有所提高,预测概率达到0.95。

  生物医学知识的系统组织对于多组学数据的有效利用至关重要,未来的研究计划在这方面进行更全面的研究。此外,需要注意的是,KGE_NFM对参数的调整很敏感,在训练过程中应该更加谨慎对待。未来,我们将在我们的框架中更加关注KG建设管道,进一步提升对下游任务的预测能力。

总结

  KGE_NFM集成来自不同来源的不同信息,以预测新的DTI。KGE_NFM通过KGE从多组学数据中提取异构信息,然后将这些信息与传统的NFM药物和蛋白表征相结合,从而获得准确、稳健的DTI预测结果。KGE_NFM强大的预测能力已经在两个基准数据集上得到了广泛的验证,并在三种现实的评估设置下与五种最先进的方法进行了比较,特别是在蛋白质冷启动的场景下。

  生物医学知识的系统组织对于多组学数据的有效利用至关重要,未来的研究计划在这方面进行更全面的研究。此外,需要注意的是,KGE_NFM对参数的调整很敏感,在训练过程中应该更加谨慎对待。未来将在框架中更加关注KG建设管道,进一步提升对下游任务的预测能力。