基于深度学习的实际生存问题应用研究
Application Research on Practical Survival Problems Based on Deep Learning
DOI: 10.12677/SA.2022.114091, PDF, HTML, XML, 下载: 316  浏览: 616 
作者: 张晓彤:北方工业大学,北京
关键词: 生存分析真实数据深度学习DeepHit模型Survival Analysis Real Data Deep Learning DeepHit Model
摘要: 疾病是自古以来一直困扰着所有人类健康甚至是生命的重大难题,生存分析是一种可以模拟患者生存的方法,可以了解感兴趣事件和协变量之间的关系,比如某个癌症病人的死亡时间和他的年龄、性别等协变量的关系。近年来,生存分析的应用越来越广泛,不仅在医院方面,还在电子商务、广告、电信和金融服务等其他行业也获得了很大的发展,通过生存分析方法可以让这些公司更好地了解客户何时购买产品,何时会流失客户,何时会拖欠贷款等。本文使用一种基于深度学习的生存分析模型DeepHit模型处理真实的数据集并与其他模型进行对比,发现DeepHit模型效果良好。
Abstract: Disease is a major problem that has plagued all human health and even life since ancient times. Survival analysis is a method that can simulate the survival of patients, and can understand the relationship between interested events and covariates, such as the relationship between the death time of a cancer patient and his age, gender and other covariates. In recent years, the application of survival analysis has become more and more extensive. It has also achieved great development not only in hospitals, but also in other industries such as e-commerce, advertising, telecommunications and financial services. Through survival analysis, these companies can better understand when customers buy products, when they will lose customers, and when they will default on loans. This paper uses a deep learning based survival analysis model, DeepHit model, to process the real data set and compare it with other models. It is found that DeepHit model has a good effect.
文章引用:张晓彤. 基于深度学习的实际生存问题应用研究[J]. 统计学与应用, 2022, 11(4): 878-884. https://doi.org/10.12677/SA.2022.114091

1. 背景

传统的用于生存分析的方法有Kaplan-Meier算法、Cox比例危险率模型、线性回归模型、位置–刻度回归模型,竞争风险模型等。KM模型利用绘制生存曲线估算生存函数。优点是能够学习非常灵活的生存曲线,但缺点是不纳入患者协变量,在整体层面有用但在个人层面没用。Cox比例危险率模型是一种半参数回归模型,可以纳入患者的协变量但其假设两个人的危险函数之比与时间无关,但由于危险函数时间成分不明确,使得在实际问题中效果较差。竞争风险模型 [1] 适用于多个终点的生存数据,是一种处理多种潜在结局生存数据的分析方法,通过计算每个结局的累积发生率函数(Cumulative Incidences Function, CIF)进行分析。

由于之前许多对于生存分析的方法例如Cox比率危险率模型是通过将生存时间视为随机过程的第一次达到时间来解决协变量与生存时间的关系问题,并假设随机过程的特定格式。本文采取了一种完全不同的生存分析方法DeepHit [2],它不对潜在随机过程进行假设,使用深度神经网络直接学习生存时间的分布。并使用累计发生率函数CIF作为指标函数,与DSM [3] (用于以完全参数化的方式使用删失数据估计事件时间预测问题中的相对风险),DeepSurv [4] (半参数模型假设基础风险恒定)等模型进行对比,发现本文提出的模型的性能较好,耗时也较短。

2. 数据及模型介绍

2.1. 数据来源

SUPPORT数据集(表1)来自一项以预测9105名重症住院患者在180天内的生存率的研究。在9105名患者中,6201 (68.1%)名患者被随访直至死亡,生存时间中位数为58天,平均生存时间478.45天。SUPPORT数据含括了年龄、性别、种族等30个代表患者信息的协变量。

Table 1. SUPPORT data

表1. SUPPORT数据

2.2. 数据预处理

生存类数据主要提供患者的几种信息:首先,生存数据提供观察到的影响患者生存时间的其它影响因素即协变量的具体信息例如年龄、性别等;其次,生存数据提供自收集这些协变量信息所度过的时间;并且生存数据提供发生的具体事件原因例如患者的死亡或者其他事件的标签;最后生存数据是最为真实的数据,通过对生存数据的分析可以帮助人们解决生活中具体遇到的实际问题。

由于一些原因,某些协变量含有缺失值,对于缺失值,我们使用python语言中的Simple Imputer函数的mean方法即使用该列的均值代替缺失值的方法。

将生存时间T视为离散且范围有限,将引发事件的原因视为K个可能的感兴趣的事件,并且由于并不能总是观察到事件的发生如患者失访即发生删失,我们将这种右删失记为 可用0表示,此时可将引发事件的原因K,假设引发最终事件如患者死亡有且只由一个原因导致发生。此时每个患者的信息可以由X表示,x是协变量X的向量,s是事件发生或删失的时间,k是在s时发生的事件或删失。

2.3. 模型介绍

对于未删失样本,我们感兴趣的是概率 P = ( s = s * , k = k * | x = x * ) ,即具有协变量 x * 的患者在时间 s * 经历事件 k * 的概率。比如具有年龄、性别等协变量的一个患者在手术后100天后这个时刻,因癌症死亡的概率。由于真实概率未知,所以利用深度学习来学习 P ^ ,即发生事件的时间和竞争风险的联合概率分布的估计。

DeepHit模型通过训练神经网络学习估计事件和时间的联合分布。生存模型由一个共享网络和K个特定原因的子网络组成,并使用softmax层作为最终的输出层输出模型学习的K个竞争事件的联合分布和每个原因的边缘分布如图1所示。

共享网络由全连接层(Fully Connected Layers, FC)构成。全连接层在卷积神经网络CNN中起着相当于“分类器”的作用,全连接层可将输入的数据特征表示一一映射到样本标记空间的作用。全连接层前向计算时,是一个线性的加权过程,全连接层的输出可以看作是前一层的每一个神经元与权重系数W的乘积加上一个bias所得到。

例如当 X 1 , X 2 , X 3 作为全连接层的输入时, α 1 , α 2 , α 3 作为全连接层的输出,此时就有:

α 1 = W 11 X 1 + W 12 X 2 + W 13 X 3 + b 1 α 2 = W 21 X 1 + W 22 X 2 + W 23 X 3 + b 2 α 3 = W 31 X 1 + W 32 X 2 + W 33 X 3 + b 3

在实际模型进行生存分析时,由于患者可能由于K种风险发生感兴趣的事件,而患者又具有多种的协变量X,所以全连接层可以将患者的特征整合到一起,输出以某一个风险K下的可以表达特征的数值。

Figure 1. Model structure

图1. 模型结构图

首先将患者的协变量x作为输入,带入共享网络层,产生一个具有K个竞争事件的潜在因素的向量,并与向量x共同组成共享子网络的输出 z = ( f s ( x ) , x ) ,z对应于特定原因K的第一次产生事件的时间的概率。

K个特定原因子网络层将 z = ( f s ( x ) , x ) 作为输入,学习协变量共有表示的向量 f s ( x ) 和潜在因素,输出特定原因K的第一次命中的时间的概率,这些输出的汇总是在首次命中事件和时间上的联合概率分布,病因特异性子网并行学习每个病因的首次命中时间的边缘分布。

累积发生函数CIF表示为具有协变量 x * 的患者在时间 t * 或之前发生特定事件 K K * 的概率,在具有竞争风险的生存分析中,找到CIF是关键一步。

F k * ( t * | x * ) = P ( s t * , k = k * | x = x * ) = s * = 0 t * P ( s = s * , k = k * | x = x * )

由于实际的CIF是未知的,所以替代为 F ^ k * ( s * | x * ) = t = 0 s * y k , t

3. 实证分析

主要使用pytorch-lighting运行结果,它相较于pytorch可以更容易地识别和理解代码,简化了模型结构并且实现代码自动化,可以更加简洁的构建深度学习代码。

将处理过的SUPPORT数据集带入模型中进行训练,部分参数如表2所见,使用train_test_split并设置参数为0.2划分测试集和训练集,使用了ReLU激活函数,学习率设置为0.0003等。

Table 2. Model parameter

表2. 模型参数

在模型训练时,在termin终端设置precision为16,batch_size为16,max_epochs为100进行训练,模型训练结果显示随着训练的进行CIF (图2)呈上升趋势,并趋于稳定,在训练中平均CIF为0.923 (0.892~0.953)。

Figure 2. CIF

图2. CIF图

表示模型效果良好。由训练损失(图3)和验证损失(图4)曲线可以看出,随着训练的进行,验证损失和训练损失都呈下降趋势,虽然训练损失在下降至5左右波动,验证损失则下降至50趋向平稳,这表明训练和验证表现良好,且模型准确度也呈上升趋势且超过90%,证明模型表现良好,适用于分析此数据集。

将模型结果与DSM模型进行对比:将数据在DSM模型,在训练中平均CIF为0.832 (0.830~0.834)使用DeepSurv模型进行训练得到结果平均CIF为0.805 (0.801~0.809)与DeepHit模型结果进行对比,发现DeepHit模型CIF评分高于其它模型,证明本文模型效果优于其它模型。

Figure 3. Train loss

图3. 训练损失图

Figure 4. Val loss

图4. 验证损失图

4. 结论

DeepHit是一种基于深度学习的生存分析方法,本位通过使用DeepHit模型处理SUPPORT真实数据集,模型通过使用深度学习方法,利用共享子网络层和特定因子层直接学习了生存时间和生存事件的联合分布,并对其进行估计并推导出CIF的估计值。

通过训练发现模型结果CIF达到0.9以上,证明模型对于数据集来说效果良好,且训练损失下降到5左右波动,验证损失也下降到一定值后趋于平稳,说明模型拟合效果较好。通过将结果与DSM等模型进行对比发现在使用DeepHit训练数据时,模型CIF优于DSM等模型,这说明模型在预测方面有着更好的效果,可以更广泛地应用于生存分析问题中。

参考文献

[1] Fine, J.P. and Gray, R.J. (1999) A Proportional Hazards Model for the Subdistribution of a Competing Risk. Journal of the American Statistical Association, 94, 496-509.
https://doi.org/10.1080/01621459.1999.10474144
[2] Lee, C., Zame, W.R., Yoon, J., et al. (2018) DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risks. Proceedings of the AAAI Conference on Artificial Intelligence, 32.
https://doi.org/10.1609/aaai.v32i1.11842
[3] Nagpal, C., Li, X. and Dubrawski, A. (2021) Deep Survival Machines: Fully Parametric Survival Regression and Representation Learning for Censored Data with Competing Risks. IEEE Journal of Biomedical and Health Informatics, 25, 3163-3175.
https://doi.org/10.1109/JBHI.2021.3052441
[4] Katzman, J.L., Shaham, U., Cloninger, A., et al. (2018) DeepSurv: Personalized Treatment Recommender System Using a Cox Proportional Hazards Deep Neural Network. BMC Medical Research Methodology, 18, Article No. 24.
https://doi.org/10.1186/s12874-018-0482-1