1. 引言
先验医学知识在医疗领域起着重要作用。当一个病人去看医生时,医生首先会检查病人目前的症状,然后会仔细检查病史,如药物、吸烟史、饮酒史、家族史等,这些都是疾病的危险因素。然而,将先验医学知识直接应用于EHR数据是极其困难的。一方面,医学知识具有随意性或异质性。一些疾病可能与年龄有关(持续价值),而另一些则是由吸烟或饮酒等习惯引起(分类价值)。另一方面,几乎所有的医学知识都用规则来表示。因此,将离散的任意医疗规则转化为连续的真实价值是一个发人深省的问题,即使我们能够得到先验医学知识的实值表示,如何将先验医学知识与预测模型合理结合仍然是一个挑战。
本文提出框架PRIME (Prior Medical),使用后验正则化技术成功地将离散的先验医学知识应用到所有最先进的预测模型中。PRIME将先验医学知识建模为后验正则化,并使用对数线性模型学习期望的后验分布,它能够区分不同先验知识对风险预测的重要性。在三个医疗数据集上的实验结果表明,提出的PRIME框架对于风险预测任务是有效的。
2. 相关工作
2005年,美国医疗卫生信息与管理系统协会在年会上提出了电子健康概念为:电子健康档案是深度数字化的、上下文关联的病人终身医疗记录,从时间跨度上覆盖个人从生到死整个生命周期,从内容上强调个人信息 [1]。目前我国EHR技术正处于起始阶段。在过去的10年里,美国医院采用电子健康档案(EHR)系统的数量激增,部分原因是2009年《卫生信息技术促进经济和临床卫生(HITECH)法案》(health Information Technology for Economic and Clinical health, Act of 2009)为医院和医生采用电子健康档案系统提供了300亿美元的激励 [2]。根据2016年美国国家卫生信息技术协调员办公室的报告,近84%的医院至少采用了基本的EHR系统,比2008年增加了9倍 [3]。此外,医生采用基本的和经过认证的电子病历的比例从42%增加了一倍多,达到87%。虽然最初的设计是为了从操作的角度提高医疗效率,但许多研究已经发现临床信息学应用的更多用途。特别是EHR系统中包含的患者数据已经被用于医学概念提取、患者轨迹建模、疾病推断、临床决策支持系统等任务。我国电子健康记录处于发展阶段,已广泛应用于医疗机构中帮助医疗人员处理各种医疗信息 [4]。
用于分析丰富EHR数据的技术大多基于传统的机器学习和统计技术,如logistic回归 [5] 、支持向量机(SVM) [6] 、随机森林 [7]。近年来,深度学习技术通过深层次特征构造和以有效方式捕获数据中的远程依赖性在许多领域都取得了巨大成功。深度学习是机器学习的重要分支,它是在机器学习基础上发展起来的,深度学习中很多新技术在继承机器学习优点、克服其不足的基础上发展起来的,如循环神经网络(recurrent neural network, RNN)及其变体门控循环单元(gated recurrent unit, GRU),相比于传统医学研究所使用的logistic回归模型,对于腹膜透析临床预后预测具有更佳效果,可能有助于医生早期干预,提高医疗质量,具有很强的临床应用价值 [8]。随着深度学习方法的普及和越来越多的患者数据的增加,对于临床信息学任务应用到深度学习EHR数据的出版物数量也有所增加,这会比传统方法产生更好的性能,而且需要进行预处理和特征工程的时间会更少 [9]。
3. 基本概念
3.1. EHR数据描述
EHR数据包括患者按时间排序的访问记录。设
表示所有患者的集合,
是EHR数据中患者的数
量。对每个患者
,有
时间访问顺序
。设
为唯一诊断代码的数量,令
为所有诊断代码的集合。每一个访问
包含诊断代码
。预测模型的输入是第p位患者的EHR记录,定义为
。为简明起见,我们删除上标签(p)。
3.2. 卷积神经网络(CNN)
由于输入
过于稀疏且具有高维性,因此需要学习它的低维和有意义的嵌入。将每个输入
嵌入到访问状态中
中:
(1)
其中,
和
是需要学习的参数,
是隐藏层大小。
对
应用卷积运算,使用具有不同窗口大小的
个滤波器组合。设l表示时间窗口的大小,然后
表示从
到
的l次的连接。一个滤波器
应用于l次访问的窗口来产生一个新的特征
,使用线性整流函数ReLU激活功能:
,其中
是偏置项,以及
。这个过滤器适用于整个描述
中的每个可能的访问窗口,以生成如下的一个特征:
。为了获得最重要的特征,在特征上使用了最大池化技术,即
。使用s个不同窗口大小的m个过滤器,通过将所有提取的特征连接起来,就可以得到第p位患者的最终向量表示,如
。最后,应用一个全连接的softmax层以产生预测概率,如下:
(2)
其中,
和
是可学习的参数,N是目标疾病的数量。在这次实验中,我们专注于二元预测任务,即N = 2。设
为卷积神经网络中所有参数的合集,则预测概率
也可以由后验分布
表示,其中
是真实值。
3.3. 随机梯度下降法
在梯度法中,函数的取值从当前位置沿着梯度方向前进一定距离,然后在新的地方重新求梯度,再沿着新梯度方向前进,如此反复,不断地沿梯度方向前进。像这样,通过不断地沿梯度方向前进,逐渐减小函数值的过程就是梯度法。随机梯度下降法步骤如下:
步骤1:从训练数据中随机选出一部分数据,这部分数据称为mini-batch。目标是减小mini-batch的损失函数的值。
步骤2:为了减小mini-batch的损失函数值,需要求出各个权重参数的梯度,梯度表示损失函数的值减小最多的方向。
步骤3:将权重参数沿梯度方向进行微小更新。
步骤4:重复以上3步骤,直到损失函数收敛。
这个方法通过梯度下降发更新参数,不过因为这里使用的数据是随机选择的min batch数据,所以又称为随机梯度下降法。
4. 基于先验医学知识的风险预测模型
在本节中,我们描述先验医学知识中5种风险因素的数学建模,然后在对数线性模型的基础上建立风险预测模型。
4.1. 先验医学知识
后验正则化 [10] 是通过对潜在变量的后验分布进行结构约束而引入间接监督(即先验医学知识)的方法。后验正则化的目标是使用先验知识来限制模型后验的空间,以引导模型朝向期望的参数分布。设
表示患者p的期望分布。
是后验信息约束的集合,定义为:
(3)
其中
是约束特征的集合,b是约束特征期望的(已知)界限。
由于不同的疾病具有不同的风险因素,在医学领域,医学将风险因素分为五大类:患者特征,潜在疾病,疾病持续时间,遗传学和家族史。
4.1.1. 患者种族和年龄特征
给出患者p的人口统计信息
和相应的标签
,关于种族的特征被定义为如下:
(4)
其中
定义为与预测相关的种族集合。因为
的值为1或0,因此种族向量
或
。为了模拟
对案例和控制的不同重要性,引入约束特征种族的置信度向量
。
对于大多数疾病,随着患者年龄的增长,风险会增加。因此,引用常用的逻辑函数来模拟年龄的影响如下:
(5)
其中
是疾病特异性参数,用于模拟年龄对风险预测的影响。如果疾病对年龄不敏感,则
。
是预定义的标量。在本文,使用年龄组而不是患者的真实年龄,设置
(即,年龄是40到45岁)。年龄特征向量
,
是对应的置信向量。
4.1.2. 潜在疾病约束特征
对于潜在疾病约束特征,首先得到每个风险预测任务的潜在疾病,记为
,然后计算这些潜在疾病在p患者就诊的频率,用
表示。原因是频率越高,风险越高。另外,不同潜在疾病的对于最终疾病预测的影响是不同的。因此,潜在疾病的约束特征设计如下:
(6)
其中,
是代表不同潜在疾病的不同影响的倾斜参数,
是潜在疾病的数量,
是
的总和。潜在疾病的向量是
,它的置信度向量是
。
4.1.3. 潜在疾病持续时间特征
为了获得潜在疾病的持续时间,首先从患者p的就诊记录中找到某一潜在疾病d的起始时间
,然后使用
计算持续时间。最后,疾病的持续时间记为
。基于
,疾病持续时间的约束特征定义如下:
(7)
其中,
类似于
来模拟潜在疾病中的差异,以及
与置信向量
。
4.1.4. 遗传病特征约束
对于遗传病,首先收集了一组与目标疾病相关的遗传疾病
。设
表示患者p访问
中的所有诊断代码。当
和
的交集不为空,约束特征值为1。正式公式如下:
(8)
与种族约束特征相似,
的值为1或0。因此,
或
,
为置信向量。
4.1.5. 家族史特征约束
一些疾病与整个家庭的疾病史有关,例如慢性肾病。我们收集了一系列家族史疾病
,然后提供如下的约束特征函数:
(9)
其中,
或
,置信向量为
。
4.2. 分析预测模型
使用前述五种风险因素的权重组合进行预测,定义
:
(10)
其中,
是根据先验医学知识不同的约束特征类别的可学习置信矩阵,
为参数集。
使用对数线性模型学习先验医学知识编码的期望分布
,定义如下:
(11)
用交叉熵损失作为目标函
, 其中
为真实值
和预测值
之间的交叉熵平均值,
真实值
和期望分布
之间的交叉熵平均值,
为用于平衡模型之间损失的超参数,
用于测量期望分布和预测值之间差异的Kullback-Leibler散度。预测模型如图1所示。
(12)
Figure 1. Risk prediction model framework
图1. 风险预测模型框架
5. 实证研究
前文以卷积神经网络为基本模型,加入先验医学知识约束,构造了风险预测模型。为了验证所提出的风险预测框架的性能,本节以卷积神经网络为基本预测模型,加入先验医学知识约束,实现基本预测模型与提出的预测模型,并进行对比。
5.1. 参数设置
实验设置诊断代码总数
,
,即隐藏层为256,超参数
。对于CNN,设置过滤器窗口的大小为[2, 3, 4, 5],其中滤波器个数为
,使用正则化(系数为0.001的范数)和dropout (退出率为0.5)抑制过拟合。
5.2. 数据集
对于训练模型,实验使用Adadelta,mini-batch大小为50。我们以0.75:0.10:0.15的比例将数据集随机划分为训练、验证和测试集。训练集用于模型拟合的数据样本,验证集是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估,测试集用来评估模最终模型的泛化能力。重复程序10次,并报告最优性能。
5.3. 实验结果
模型在python3.6.5上运行,参数设置如表1所示。
Table 1. Parameter settings for the prediction model in python
表1. 预测模型在python中的参数设置
实验结果如表2所示。mean_cost为训练集损失平均值,validate_cnn_loss、test_cnn_loss为真实值
和预测值
之间的交叉熵平均值,validate_loss、test_loss为加入了先验医学知识损失的目标损失函数,对加入损失一起进行训练,由式(12)可知validate_loss、test_loss均大于未加入先验医学知识的交叉熵损失。由结果可知在第九次迭代时验证集损失validate_loss最小,获得最优结果,训练集损失为0.551314,测试集损失为0.641656,验证集损失为0.533692。Loss1、2两种情况下为验证集与训练集损失之差,由表可知Loss2小于Loss1,则加入先验医学知识的预测模型优于卷积神经网络。
使用已有模型与提出的PRIME模型进行实验对比。输入数据为每次就诊出现的所有诊断代码的频率。使用以下用于分类方法的传统基线模型:
1) logistic回归(LR);2) 支持向量机(SVM);3) 随机森林(RF)。
使用以下用于深度学习的基线模型:
1) GRU神经网络;2) 长短期记忆网络(LSTM);3) RETAIN;4) 卷积神经网络(CNN)。对于GRU,LSTM和RETAIN,潜在表征大小设为256。对于CNN,设置过滤器窗口(l)的大小为2到5,其中过滤器映射为s = 100。
使用以下PRIME模型:
1) 使用LSTM为基本预测模型且加入先验医学知识的
,设置
;
2) 使用CNN作为基本预测模型且加入先验医学知识的
,设置
;
3) 使用LSTM为基本预测模型且不加入先验医学知识的
,设置
;
4) 使用CNN作为基本预测模型且不加入先验医学知识的
,设置
。
与已有模型对比结果如表3所示。在心力衰竭数据集上,传统的LR、RF和SVM方法的整体性能都比基于深度学习的方法差。这说明采用深度学习技术对高维稀疏的EHR数据进行建模对于风险预测任务是有效的。在四个基于深度学习的基线中,GRU和LSTM的表现优于RETAIN和CNN。由于RETAIN采用了注意机制,因此培训RETAIN需要大量的EHR数据。心力衰竭数据集的大小相对较小,因此RETAIN的性能较GRU和LSTM差。CNN的优势在于捕捉当地时间的重要特征。然而,心力衰竭是一种慢性疾病,需要捕捉疾病演化的长期特征。基于RNN的模型可以正确识别心衰数据集上的这些特征,这使得与CNN相比性能更好。对于提出的四种方法,
取得了最好的性能。我们可以看到,和的性能都优于基本的预测模型LSTM。同样,所有这些措施的值
和
高于在CNN中的值。这些观察结果有力地证实了先验医学知识可以帮助预测模型提高性能。
在COPD数据集中,RETAIN的性能优于GRU和LSTM,说明在所有基线中,注意力机制开始发挥作用,CNN的性能最好。即使对拟议中的
和
,所有的测量值都小于CNN。原因在于,与某些疾病不同,COPD有明确的病因,这与吸烟直接相关。CNN具有出色的能力来捕捉这些局部的重要特征,即的诊断代码,有关吸烟在访问。因此,与其他方法相比,它取得了更好的性能。然而,在使用后验正则化整合先验医学知识后,即与CNN相比,
提出的方法有了显著的改进。这再次证实了考虑先前的医学知识对风险预测任务是有效的。
由于肾脏疾病患者的特点非常明确,传统的分类方法RF可以达到与深度学习相似的性能。即使在简单的数据集上,结合先前的医学知识仍然可以提高预测性能。在肾脏疾病数据集上,我们也观察到基本模型LSTM的性能与所提出的
的性能相当。这是因为我们不调整最佳超参数
和
。这两个参数对数据集非常敏感。尽管如此,在肾病数据集上,提议的
优于其他方法。
Table 3. The results compared with the existing models
表3. 与已有模型对比结果
6. 总结
电子健康档案包含大量纵向、时间戳的临床数据,用机器学习算法处理此类数据通常需要将其转换为表格格式。本研究提出了一种基于子序列的时间序列符号化表示方法。该方法允许直接应用任何标准机器学习算法,同时与基于单一表示的方法相比,它在一定程度上能够获取时序信息,因而显著地提高了预测性能。
基金项目
国家自然科学基金项目(61572442);福建省高校创新团队发展计划,福建省研究生导师团队,泉州市高层次人才团队项目(2017ZT012);华侨大学研究生科研创新基金资助项目。