今天为大家分享的是近日发表在《JAMA》(美国医学会)上文章为“Assessment of a Deep Learning Model to Predict Hepatocellular Carcinoma in Patients With Hepatitis C Cirrhosis”,探讨使用直接从电子健康记录中提取的原始纵向数据的深度学习递归神经网络(RNN)模型在预测肝细胞癌(HCC)发生风险方面是否优于常规回归模型。
介绍
慢性丙型肝炎病毒 (HCV) 感染患者发生肝细胞癌 (HCC) 的风险很高。
HCV感染患者的HCC风险随时间波动预测尤其困难。能够充分捕获这些预测因素随时间变化的纵向模型——深度学习模型可能非常适合HCC风险预测。
开发和检查基于RNN的深度学习模型的预测准确性,用于预测退伍军人卫生管理局(VHA)慢性HCV感染患者队列中进展为HCC。此外,文中的目标是将深度学习RNN模型的性能与传统的逻辑回归(LR)模型进行比较。
方法
数据源来源VHA
VHA是美国最大的治疗HCV患者的综合医疗保健系统。
研究人群
在2000年1月1日至2016年1月1日的16年期间确定了48 151名丙型肝炎病毒(HCV)相关肝硬化患者,并且在诊断肝硬化后至少有3年的随访。
肝细胞癌的诊断
HCC的诊断基于ICD-9代码155.0或ICD-10代码C22.0的存在(VHA于2015年10月1日开始使用ICD-10代码),至少记录了两次。
预测变量
使用2种类型的预测变量进行HCC预测,如下所示:
(1)4个基线预测因子,它们不随时间变化,即肝硬化诊断的年龄,性别,种族和HCV基因型;
(2)27个纵向预测因子,这些预测因子可能随时间而变化,并且在随访期间可多次使用,包括肝硬化的发展,持续病毒学反应(SVR)的实现,体重指数(以千克为单位的体重除以米平方的身高计算)和24项实验室血液检查(胆红素,AST,AST-正常上限(ULN)比值, ALT,ALT:ULN比值,α-胎蛋白,α-胎蛋白-ULN比值,碱性磷酸酶,碱性磷酸酶-ULN比值,白蛋白,AST:ALT比值,纤维化-4(FIB-4)评分,30 AST血小板比值(APRI),血尿素氮,肌酐,葡萄糖,国际标准化比值,血红蛋白,白细胞计数,血小板计数,钠,钾,氯化物和总蛋白)
模型构建中使用的案例和控制的基本原理
对于在随访期间发生HCC的患者(n = 10 738)确定了10 738名在随访期间发生肝细胞癌的患者,对每位患者随机抽样1次(时间t),获得了10 738个病例样本,其中HCC在采样访问后3年内被诊断出来(时间t)(图1A)。
对于在随访期间未发生HCC的患者(n = 37 410),文中在诊断肝硬化后随机抽样1次(时间t),获得了42 245个对照样本,其中HCC在采样访问后3年内(时间t)未被诊断出来。
这共从48 151名患者中抽取了52 983份样本。
图1.为预测HCC发展而开发的案例和控制定义和模型的示意图
模型构建和特征提取
开发并比较了3种不同的模型,预测了在时间t后3年内发生HCC的概率(图1B)。
首先,仅使用时间 t 之前每个预测变量的基线横截面(横截面 LR)值来开发 LR 模型,
其次,使用套索方法对横截面LR和纵向LR模型进行了特征选择。
第三,开发了一个RNN模型,填充缺失的条目来推断缺失值。
与需要特定特征提取的传统LR相比,RNN可以处理不同数量的不规则时间间隔,还可以自动学习对预测有用的特征。
统计分析
队列随机分为训练集(90%)和测试集(10%)比较LR型号和RNN型号之间的性能特征。统计学意义设定在P < .05。
根据接收机工作特性曲线(AUROC)下的面积和精确召回曲线(AUPRC)下的面积,评估模型辨别性能特征。
使用Brier评分来比较整体准确性。
结果
用于模型构建的种群特征
在平均(SD)随访11.6(5.0)年期间,48 151例患者中(22.3%)有10 741例发生肝细胞癌(年发病率为3.1%),共收集52 983份样本(男性51 948例[98.0%])。在3年内发生肝细胞癌的患者比未发生肝细胞癌的患者年龄大(平均[SD]年龄,58.2 [6.6]岁vs 56.9 [6.9]年)。
所有样品的模型性能
RNN型号在接收器工作特性曲线(分别为0.759 [0.009])和平均(SD)Brier评分(0.136 [0.003])下的平均(SD)面积优于横截面LR(分别为0.689 [0.009]和0.149 [0.003])和纵向LR(分别为0.682 [0.007]和0.150 [0.003])。(表1和图2A)
图2.3种预测模型的接收器工作特性曲线
表1预测丙型肝炎病毒相关性肝硬化患者3年内肝细胞癌发展的3种不同模型的性能特征比较
使用RNN模型,具有平均(SD)最高51%(1.5%)的HCC风险的样本,其中80%的HCCs发生,或平均(SD)最高的66%(1.2%)的HCC风险,其中90%的HCCs发生,可能是靶向。
在来自达到持续病毒学反应的患者的样本中,RNN模型的性能甚至更好(接收器操作特征曲线下的平均[SD]面积,0.806 [0.025];平均[SD] Brier评分,0.117 [0.007])。
优先考虑患者进行肝细胞癌筛查外展干预
使用RNN模型,HCC诊断中90%或80%的HCCs发生在平均(SD)风险评分最高的具体范围样本中。并可以潜在地定位HCC风险评分最高的前51%的样本,相比之下,使用纵向LR和横断面LR模型,需要筛查以包括80%或90%将被诊断为HCC的患者的比例要大得多(表1)。
模型校准
当根据每个模型预测风险的三分之一将人群分为3个风险类别时,所有3个模型在观察到的和预测的3年风险之间具有极好的一致性(表2)
表2.根据每个模型下1个代表划分为Tertiles的研究人群中预测和观察到的3年HCC风险的比较,拆分
对获得 SVR 的患者和男性的样本进行模型分析
RNN模型的平均(SD)AUROC(0.806 [0.025])、AUPRC(0.519 [0.064])和Brier评分(0.117 [0.007])在获得SVR的子集中均优于整个人群,这些分数继续优于LR型号。
男性患者样本的RNN模型的性能特征与整个人群非常相似,并且继续优于LR模型.
结论
在本研究中,深度学习RNN模型优于传统的LR模型,表明RNN模型可用于识别HCV相关肝硬化患者,这些患者具有发生HCC的高风险,用于基于风险的HCC外展和监测策略。