本案例适合
1.人工智能(AI),计算机科学(CS),大数据(DS)
2.跨专业学习算法的同学,专业为生物信息工程,生命科学,医学统计学,医学
科研星级
数 据:⭐ ⭐ ⭐ ⭐
方 法:⭐ ⭐ ⭐ ⭐ ⭐
应用度:⭐ ⭐ ⭐ ⭐ ⭐
今天要为大家介绍的是一篇关于CKG如何增强和丰富蛋白质组学数据的高分SCI文章,发表在nature computational science。
为实现精准医疗,需要将蛋白质组学等组学数据整合到临床决策,但生物医学数据的数量和多样性,以及临床相关知识在多个生物医学数据库和出版物中的传播,给数据整合带来了挑战。文中展示了临床知识图谱(CKG),目前包含近2000万个节点和2.2亿个关系,代表相关实验数据、公共数据库和文献。CKG集成了统计和机器学习算法,可以加速典型蛋白质组学工作流程的分析和解释。文中展示了CKG如何增强和丰富蛋白质组学数据,并帮助指导临床决策。
背景
以证据为基础的精准医学范式已经向更全面的疾病表型分析发展。这需要集成不同的数据,如临床、实验室、成像和多组数据(基因组学、转录组学、蛋白质组学或代谢组学)。最近,我们发现结合临床和分子数据对疾病进行更细粒度的定义,可以更深入地了解个体的疾病表型,并揭示预后和/或治疗的候选标志物。文中引入了一个新的方向,并描述了一个知识图框架,该框架促进了蛋白质组学与其他组学数据的协调,同时集成了相关的生物医学数据库和从科学中提取的文本出版物。它被称为CKG,是一个包含数百万个节点和关系的图数据库。它允许有临床意义的查询和高级统计分析,支持自动数据分析、知识挖掘和可视化。
方法
CKG架构概述
CKG包括几个独立的功能模块:
(1) 格式化和分析蛋白质组学数据;
(2) 构造图形数据库;
(3) 连接并查询该图数据库;
(4) 通过在线报告和Jupyter笔记本(图1a,b)促进数据可视化、存储库和分析。
图(1)a b
这种架构无缝地协调和集成数据以及用户提供的分析。它还促进了数据共享和可视化,以及基于带有生物医学知识注释的详细统计报告的解释,生成临床相关结果。
分析核心
分析核心是一个开放的蛋白质组学分析框架,蛋白质组学数据下游分析的第一步需要综合和通用的统计、机器学习和可视化方法。分析核心中实现的功能以统计和可视化数据表示为中心,涵盖所有主要的计算领域,如表达、交互和翻译后、基于修改的蛋白质组学(图1b)。
构建和填充图形数据库
为实现蛋白质组学数据与其他组学实验和/或文献信息的无缝注释和集成,文中构建了一个自然连接大型异构数据的图数据库。一旦本体、数据库和实验文件被标准化、格式化并导入,graphdb_builder模块就会用一组创建相应节点和关系的Cypher查询将它们加载到图数据库中。文中的数据模型用47种不同的关系类型连接了36个不同的节点标签(图1c)。
图(1)c
CKG包括数百万个节点和关系
CKG数据库正在不断增长,目前使用10个本体从26个生物医学数据库收集注释,并将这些信息组织成近2000万个节点,通过2.2亿个关系连接起来;CKG框架提供了一个基础设施,可以方便地利用图中的现有连接,此外,CKG为网络分析和机器学习算法的应用提供了一个框架。
一个提取可操作知识的框架
CKG的主要目标是将分析模块的强大功能与大量的信息集成到图表数据库,以最好地解释基于ms的蛋白质组学或其他组学实验。报告管理器组件协调创建和更新实验项目,以及自动分析、可视化和知识提取(图2)。
图(2)
项目创建和数据上传步骤生成项目CKG中的节点和唯一标识符,一旦临床和/或蛋白质组学数据准备好并进行处理,它们将通过“数据上传”仪表板应用程序集成到图表中
除了可以在浏览器中查看之外,所有报告、分析结果和可视化结果都可以作为一个压缩文件下载,此外还提供分层数据格式(HDF5),促进了新开发的分析和可视化的持续集成。
应用
自动化CKG分析用于肝病生物标志物发现
为了展示CKG如何加速和扩展对数据的分析和解释,我们在非酒精性脂肪性肝病(NAFLD)的蛋白质组学研究中使用了它的默认管道(图3a)。
图(3)a
对于临床数据,CKG默认分析管道自动汇总队列的临床特征,并突出显示研究组之间有显著差异的变量。CKG自动重现了之前的结果,显示参与免疫系统调节和炎症的蛋白失调;
项目中各种数据类型的存在触发了默认的多组学分析管道。在一项全球临床蛋白质组学相关性分析中,临床肝酶值与HbAlc、空腹血糖水平和几种肝纤维化和肝硬化的候选生物标志物(如PIGR、TGFBI、ANPEP和C7)聚类(图3b)。
图(3)b
CKG还使用WGCNA来获得共同表达的蛋白模块,而不是与临床变量相关的单个蛋白(图3c)。
图(3)c
最后,自动化分析管道将所有临床、蛋白质组学和多组学分析汇总为一张图,其中包含所有调控的蛋白质,以及从知识图中提取的关系,利用中间性中心性来优先排序,并减少呈现的节点数量(图3d)。
图(3)d
CKG使多蛋白质组学数据集成用于癌症生物标志物的发现和验证
为了探索CKG的多重分析能力,文中重新分析了最近的一项研究,该研究确定了肿瘤/睾丸抗原家族45 (CT45)作为卵巢浆液腺癌长期生存的生物标志物,并描述了其作用模式。多维蛋白质组学、磷酸化蛋白质组学和相互作用组学被建模为不同的连接并使用适用于每种数据类型的默认分析独立进行分析。CKG重现CT45在化疗后长期缓解的患者中显著高表达(图4a,b)。
图(4)a、b
CKG还证实,几乎没有关于CT45的细胞作用和功能的知识,但产生了24个CT45的潜在相互作用,其中4个属于PP4复合体(图4c)。
图(4)c
CKG对ct45表达细胞信号应答的默认分析与对照组相比确实揭示了相关DNA损伤通路的激活。
此外,CKG暴露了其他几个未被人工分析的相关激酶和关联,如MAPK活性的位点特异性激活以及CDC7和CDK7底物调控的差异(图4d)。
图(4)d
虽然本例中没有使用CKG,但CKG对基因组和转录组数据以及其他组学数据类型具有类似的功能,以便进一步集成。
使用CKG优先治疗化学顽固性病例
在标准的治疗方案已经用尽之后终末期癌症,分子分析仍可能揭示药物的靶向和药物再利用的机会,CKG目前挖掘了超过35万个蛋白质和已批准或正在研究的靶向它们的药物之间的连接。
在之前提出 LSD1/KDM1A作为可能的药物靶点,为扩展此研究补充了Jupyter笔记本,实现了基于先验知识的可重复利用管道,可用于其他研究(图5)。
图(5)
CKG在共享笔记本中的能力
报告目录包括重现上述NAFLD和尿管癌研究的分析序列,以及对4个额外的数据集的再分析,以说明CKG在不同背景下的功能。CKG分析了我们团队之外的三项研究,从纵向COVID-19- Olink数据集开始,重现比较COVID-19阳性和COVID-19阴性的结果,表明CKG并不仅限于基于ms的蛋白质组数据。
讨论
CKG代表了一个大型网络中的经验知识、实验数据和去识别的临床患者信息。通过图形结构协调蛋白质组学数据和所有这些信息,自然地提供了与所识别的蛋白质的直接联系。其自动化、瞬时和迭代的特性有助于揭示相关的生物背景,以便更好地理解和生成新的假设。此外,图结构提供了一个灵活的数据模型,可以很容易地扩展到新的节点和关系。
CKG的不同组成部分允许各个研究小组分析、整合和建立他们的蛋白质组学和其他组学项目的数据库。报告和笔记本可以很容易地共享,以复制分析,从而有助于可再生科学(图6a)。
图(6)a
除此之外,CKG的开放性和免费可用性允许数据和知识的聚合,称之为社区图(图6b)。这将确保社区从其他地方执行的类似蛋白质组学或组学项目中受益。
图(6)b
不同的团体和机构将有自己的本地版本的CKG,为保护医疗数据的敏感性,但仍然支持跨平台分析,将允许研究人员使用CKG在不直接访问敏感数据的情况下跨机构迭代训练模型(图6c)。
图(6)c
人工智能将在基于ms的蛋白质组学和生物标志物发现中发挥越来越大的作用。可期待将CKG与这些功能集成,并利用新颖的图深度学习功能。
结论
CKG是一个开放、健壮的框架,用于透明、自动化和集成的蛋白质组学和多层次组学数据分析,旨在纳入可重复性科学的所有先决条件。因此,CKG直接解决了个性化医疗和严格的、数据驱动的临床决策过程的一些主要瓶颈。希望生物医学和临床研究界的其他人也能对这个平台做出贡献,并进一步发展这个平台。