新闻中心
News center
Artif Intell Med | 真实世界数据医学知识图谱的构建与应用
来源: | 作者:木木 | 发布时间: 625天前 | 2324 次浏览 | 分享到:

本案例适合

1.人工智能(AI),计算机科学(CS),大数据(DS)

2.跨专业学习算法的同学,专业为生物信息工程,生命科学,医学统计学,医学

科研星级

数 据:⭐ ⭐ ⭐ ⭐

方 法:⭐ ⭐ ⭐ ⭐ ⭐

应用度:⭐ ⭐ ⭐ ⭐

今天为大家分享的是发表在《Artificial Intelligence in Medicine》(医学人工智能)上文章为“Real-world data medical knowledge graph: construction and applications”,本文从大型电子病历中建立了一个构建基于四联体的医疗KG的系统程序,将所得到的KG应用于CDSS、信息检索和神经网络知识转移等实际应用。

1.介绍

医学知识图谱(KG)因其在智能医疗应用中的强大功能而受到学术界和医疗保健行业的关注。本文介绍了一种从电子病例(EMRs)构建医疗KG的系统方法,并通过技术实验和端到端应用示例进行评估。

本文主要有这几个新颖性:1)覆盖医疗人工智能系统中常用的9个实体,而不是以往工作中使用的少数实体类型;2)输入电子病历规模大,覆盖3-a医院的所有部门,比以往工作中的数据少;

3)介绍了从EMR数据构建医疗KG的系统程序,而不是只关注以往工作中的具体步骤。

图1.提出了医疗KG建设的系统程序

2.方法

本文开发了系统的一个程序来从大规模电子病历构建医疗KG。如图1所示,该过程包括8个主要步骤,分别为1)数据准备、2)实体识别、3)实体归一化、4)关系提取、5)属性计算、6)图清理、7)相关实体排序、8)图嵌入。

2.1数据准备

共16217270例,共3767198例患者。这些数据由中国西南医院的数据处理和应用平台(DPAP)收集。医疗数据按就诊级别进行组织。

2.2实体识别

本文研究需要通过NER方法从主诉和当前病史中提取症状,所有其他实体都可以直接从emr的结构化域中提取(如图1)。本文基于BiLSTM-CRF建立了由基于词汇表的双向最大匹配(BMM)、BiLSTM-CRF模型和模式识别器三个组成部分组成的混合模型。

2.3实体规范化

KG定义了9种常用的实体类型。

2.4关系提取

在医学领域,疾病是中心实体,无论是诊断还是治疗,在应用中只需要疾病和其他类型的实体之间的关系。因此,本文定义了9个关系。它们是疾病相关的性别、疾病相关年龄范围、疾病相关症状、疾病相关检查、疾病相关实验室检查、疾病相关实验室、疾病相关医学、疾病相关的手术和疾病相关疾病。

2.5属性计算

本小节介绍了实体和关系的属性计算,这对KG应用程序至关重要。在表1中,分别展示了帕金森病(PD)和肺癌的5个相关症状、概率和特异性的一个例子。可以看到,其中3种,即翻身困难、震颤和运动迟缓,在帕金森病诊断中比失眠和头晕更重要,尽管头晕是最常见的症状。同时,咳痰、带血的痰比呼吸短促、胸痛、呕吐更明显。

表1.帕金森病和肺癌症状的特异性


3.结果

3.1实体识别
本文比较了单个BiLSTM-CRF和所提出的混合模型在症状识别上的性能,混合模型的结果分别提高到0.9689、0.9727和0.9708。

3.2相关实体排名

建立了一个数据集来评估所提出的PSR函数的性能。不同标签率的含义如表2所示。随机选择了10种疾病。分别比较了7种关系中(6)的TF/IDF和(7)中PSR的单概率排序性能。从图3中我们可以看出,所提出的PSR函数在所有关系中都优于基于概率和基于TF/IDF的函数。

表2.不同标签率的含义
图2.通过NDCG@10对排名函数的性能进行比较。

肺癌关系疾病相关症状与疾病相关实验室项目(C34.901)的前10位排名结果见表3。可以看到,PSR可以发现肺癌最重要的症状和肿瘤标志物。

表3.疾病相关医学排名的比较

3.3图嵌入
PrTransH学习到的一个实体的嵌入向量保持了其与不同类型实体的结构关系。因此,如果两种疾病具有相似的相关实体,则它们的嵌入向量是相似的。基于此原理,本文使用训练好的嵌入向量对疾病进行聚类,以验证其有效性。

首先,使用DBSCAN对嵌入空间中发生的前500种疾病进行聚类,然后将嵌入向量投影到二维空间,并对疾病聚类进行可视化。如图4所示。

图3.疾病嵌入载体的集群

3.4已建医用KG

构建的医学知识图包含9种实体类型,共22,508个实体和579,094个四联体(图4)。四联体涵盖了疾病与所有9种实体类型之间的关系。实体数和四联体的数量见表4。

图4.四联体
表4.所构造的KG中的实体数和四联体的数量

为了可视化所构建的KG,在医院内部网中开发了一个web应用程序。图5为肺癌的KG(肺恶性肿瘤)的屏幕截图,中心节点为肺癌的实体,其连接节点为肺癌的相关实体。此外,图中的每条边都对应于KG的一个四联体。实体或四联体的主要属性将显示为提示,而鼠标聚焦于节点或边缘。其他的属性没有显示在提示中,因为它们很难被医生理解。

图5.疾病嵌入载体的集群

5.应用程序

5.1临床决策支持系统
影响患者的年龄、性别、症状、实验室项目结果等因素。以诊断决策支持为例,患疾病的概率,对可能的疾病进行排序。还可以推断出最有可能的诊断方法。在不失一般性的情况下,医疗KG也被用于向医生推荐医嘱(检查、实验室检查和药物)。

5.2信息检索

KG被用来对访问数据中的相关药物和检查记录进行排名。特别地,这些记录是根据与KG的主要诊断相关的排序分数进行排序的,因此医生只需查看前几个记录就可以快速发现关键信息。

5.3基于神经网络的知识传递

本文实验表明通过Bi-LSTM组件进行医学图嵌入,可以提高一般神经网络任务的性能。如图6所示。

图6.将图的嵌入转移到神经网络及其结果

5.4讨论

除了上述演示的应用外,知识图还可以用于许多其他方向,包括临床研究的未知知识探索、建立自我诊断工具和患者健康问题回答系统、病例质量控制等。将现实世界的医学KG和医学文献结合起来,将是一个有趣和具有挑战性的方向。

参考文献:doi.org/10.1016/j.artme