基于机器学习的出血性脑卒中后病况预测研究
A Machine Learning Based Study on the Prediction of Disease Status after Haemorrhagic Stroke
DOI: 10.12677/mos.2024.134437, PDF, HTML, XML, 下载: 13  浏览: 19 
作者: 杨 珂, 檀 健, 秦一天, 蔡 涛:南京邮电大学理学院,江苏 南京
关键词: 脑卒中多模型融合SHAP模型血肿扩张mRS评分Stroke Multi-Model Fusion SHAP Model Haematoma Expansion mRS Score
摘要: 出血性脑卒中是一种具有高死亡率、高致残率的急性脑血管疾病,建立出血性脑卒中后患者的临床病况预测模型对于临床医学界研究具备十分重要的意义。为此本文首先对100位出血性脑卒中患者医学特征数据进行预处理,构建相似距离矩阵填补缺失值,建立了基于Stacking的多模型融合方法预测患者48 h内发生血肿扩张概率;其次,引入SMOTE算法解决患者mRS评分类别分布不均衡问题,分别选用全部特征与提取特征带入以CatBoost作为分类器的SHAP模型,构建出血性脑卒中患者术后90天mRS评分预测模型,综合探究了影响患者90天mRS评分的医学特征因素。实验仿真结果表明,发病后血肿的灰度特征和形状特征对短期内的血肿扩张影响较大,且发病短期内患者右侧大脑前动脉是否出现水肿、水肿和水肿的形状变化体征对预后是否有症状和明显残疾影响程度较高。
Abstract: Haemorrhagic stroke is an acute cerebrovascular disease with high mortality and disability rates, and the establishment of a prediction model for the clinical condition of patients after haemorrhagic stroke is of great significance to the clinical medical research. To this end, this paper firstly preprocesses the medical feature data of 100 haemorrhagic stroke patients, constructs a similar distance matrix to fill in the missing values, and establishes a multi-model fusion method based on Stacking to predict the probability of haematoma expansion occurring in patients within 48 h. Secondly, the SMOTE algorithm is introduced to solve the problem of unbalanced distribution of patients’ mRS scores, and the whole features and the extracted features are selected and brought into a CatBoost as a classifier to predict the clinical condition of patients after a haemorrhagic stroke. CatBoost as the classifier of SHAP model, to construct a prediction model of 90-day postoperative mRS scores of patients with haemorrhagic stroke, and comprehensively explored the medical characteristic factors affecting the 90-day mRS scores of patients. The experimental simulation results showed that the grey scale features and shape features of the haematoma after the onset of the disease had a greater influence on the haematoma expansion in the short term, and whether or not the patient’s right anterior cerebral artery appeared in the short term of the onset of the disease, and whether or not the shape of the haematoma and the shape of the haematoma changed physically had a higher degree of influence on whether or not there was a symptomatic and obvious disability in the prognosis.
文章引用:杨珂, 檀健, 秦一天, 蔡涛. 基于机器学习的出血性脑卒中后病况预测研究[J]. 建模与仿真, 2024, 13(4): 4840-4852. https://doi.org/10.12677/mos.2024.134437

1. 引言

据医学追踪调查结果显示,46%的出血性脑卒中患者会在一年内残疾甚至死亡,30%的患者可能出现血肿早期扩张,而血肿扩张继而会大大增加患者出血性脑卒中的预后不良和死亡风险。此外,血肿联合周围水肿会产生占位效应,引起颅内升压致使患者死亡。因此监测与阻断血肿扩张的产生与发展已经成为目前出血性脑卒中的诊疗靶点。然而目前关于脑卒中发生后患者病情的发展预测较多依赖于主治医师的临床医学经验性判定,基于机器学习的数字化预测患者脑出血后血肿扩张以及术后恢复效果的研究较少,针对出血性脑卒中预后效果的数字化分析仍不够清晰和明确。查阅相关研究,袁伟等引入支持向量机、逻辑回归等四种机器学习方法预测脑出血后血肿扩大几率[1]。杨凯等通过无监督机器学习算法基于166个患者特征评估患者发生血肿扩张可能性,用于辅助临床预测[2]

动态地监测出血性脑卒中后患者的脑损伤变化过程对于改善出血性脑卒中患者的预后效果具有重要意义。研究表明,患者发病后医疗影像血肿体积、位置、形状以及灰度分布变化与患者是否会出现血肿以及术后预后效果存在一定程度的关联。此外,患者个人疾病史也会对脑卒中预后效果产生影响。随着机器学习方法研究的不断深入,部分学者开始逐渐将机器学习方法引入医学治疗领域,叶倩等人利用5种机器学习算法预测影响患者脑出血后生活自理能力[3],付记桐等人基于随机森林构建模型,用于病患脑卒中风险预测[4],朱坤等人基于多种机器学习算法预测老年心脏病患者术后死亡风险[5],Li F等人基于患者血液透析信息结合机器学习算法来预测尿毒症患者发生脑出血风险[6],Nie X等人使用6种机器学习算法预测了院内脑出血患者死亡率[7]。可惜目前此处的研究并不够全面与细致,影响出血性脑卒中患者血肿扩张与预后评分的特征因素的调查研究还需要继续开展。因此,本文结合患者医学CT影像数据信息并引入机器学习算法构建预测智能诊疗模型,力求在诸多特征变量中清晰影响血肿扩张事件与mRS评分值的关键影响特征因素。本文研究内容对于改善脑卒中患者的治疗策略和预后管理具有重要意义,也有助于提高脑卒中患者生存率和生活质量。

2. 数据介绍及预处理

2.1. 数据集描述

本文所使用数据主要包括100位出血性脑卒中患者的125个医学特征信息,具体包括:1) 个人史:年龄、性别;2) 疾病史:高血压病史、卒中病史、糖尿病史、房颤史、冠心病史;3) 发病相关:吸烟史、饮酒史、发病到首次影像检查时间间隔、血压、发病到首次影像检查时间间隔、脑出血前mRS评分,90天mRS评分;4) 治疗方案:脑室引流、止血治疗、降颅压治疗、镇静及镇痛治疗、止吐护胃、营养神经;5) 影像检查结果信息:血肿体积、右侧大脑前动脉血肿比率、右侧大脑中动脉血肿比率、右侧大脑后动脉血肿比率、右侧脑桥血肿比率、右侧小脑血肿比率、左侧大脑前动脉血肿比率、左侧大脑中动脉血肿比率、左侧大脑后动脉血肿比率、左侧脑桥血肿比率、左侧小脑血肿比率、右侧大脑前动脉水肿比率、右侧大脑中动脉水肿比率、右侧大脑后动脉水肿比率、右侧脑桥水肿比率、右侧小脑水肿比率、左侧大脑前动脉水肿比率、左侧大脑中动脉水肿比率、左侧大脑后动脉水肿比率、左侧脑桥水肿比率、左侧小脑水肿比率、血肿形状、血肿灰度特征、水肿形状及水肿灰度特征。

2.2. 数据预处理

为提高数据的纯净度和可用性,便于后续模型构建工作的进行,我们对数据进行了预处理。对于之后的计算和模型建立等工作来说,适当的变量处理是至关重要的,因此本文对患者性别变量采用one-hot编码,将字符串类型的性别特征转换为0~1变量。标准化处理是一项重要的数据准备工作,常用于数据挖掘过程。由于预测模型建立过程中涉及变量间取值差异较大且量纲各异,因此本文采用Min-Max标准化,将有量纲的数据特征转化为无量纲的指标,使数据结果映射到[0, 1]区间。具体公式如下:

x = xmin( x ) max( x )min( x ) (1)

根据各模型的输入要求,判断是否将标准化后的数据作为模型的输入特征。本文在预测过程中仅使用每个患者前三次随访数据,严重缺失的随访数据不计入研究中。经过数据筛查,发现依然有29位患者存在第3次随访数据信息缺失的情况,因此本文进一步采用构建距离矩阵的方法填补患者的随访信息缺失。对于部分患者第3次随访数据信息缺失的现象,本文首先筛选出所有第3次随访信息缺失的患者ID,将其与信息完整的患者进行分割。由于随访数据缺失患者的首次、第1次随访和第2次随访数据均为完整的,因此本文根据最相邻时间间隔的CT影像数据筛选出医学特征最相似患者的随访数据信息对缺失信息进行填补。根据数据缺失患者和数据完整患者的第2次随访数据,综合计算每位患者之间的相似性并构建距离矩阵M

M=[ r 11 r 12 r 1a r 21 r 22 r 2a r b1 r b2 r ba ] (2)

r ba = f=1 m ( x af x bf ) 2 (3)

其中, r ba 表示数据缺失的患者a与数据完整的患者b的综合相似度,采用患者随访2的影像数据特征进行计算; x af x bf 表示数据缺失的患者a和数据完整的患者b的第f个指标值。

根据第2次随访相关特征计算的综合相似度(公式(3))判断数据缺失的患者情况与哪一位数据完整的患者情况最为接近。分别为每位数据缺失的患者选择一位综合相似度最大的数据完整的患者,利用该数据完整的患者第3次随访的相关特征值作为数据缺失患者的数据进行填补,最终得到完整的随访数据集。整理100位患者的首次和随访影像以及90天mRS评分等相关数据,经过缺失值检验,发现数据中依然存在部分缺失值。采用前向填充法,即使用缺失值之前最近的非缺失值进行填充。

3. 模型方法介绍

3.1. 基于Stacking的模型融合方法

集成学习是一种机器学习技术,旨在通过组合多个基学习器的预测结果来改善整体性能。Stacking是集成学习方法之一,其核心思想是将多个基学习器的预测结果作为新的特征输入给一个元学习器,从而进行最终的预测[8]。具体流程见图1。本文将标准化处理后的sub001至sub100患者的相关数据作为原始特征数据,按照80%和20%的比例划分为训练集和测试集。同时为达到精度更高的预测效果,本文使用基于集成的强学习器作为基学习器,设置随机森林、XGboost、CatBoost、LightGBM作为基学习器,进一步增强不同学习器之间的互补性,从而提高整体的预测性能。由于最终的目标是得到患者血肿扩张发生概率,因此选择Logistic回归作为元学习器。

Figure 1. Stacking fusion model training phase

1. Stacking融合模型训练阶段

3.2. XGBoost模型

XGBoost (Extreme Gradient Boosting)是一种基于梯度提升算法的集成学习方法,该算法结合了Bagging和Boosting的思想[9]。该算法基本原理如下:

(1) 损失函数优化:XGBoost通过优化损失函数构建模型。通过使用一阶导数和二阶导数的信息,采用近似法求解损失函数最小值;

(2) 构建弱学习器:使用决策树作为弱学习器,并采用贪心算法构建每个决策树单元,选择最优的分裂点最小化损失函数。同时,XGBoost还引入了正则化项来控制模型的复杂度,防止过拟合;

(3) 集成学习:采用梯度提升算法,通过迭代地添加弱学习器来逐步改进模型的性能。每一轮迭代都会计算残差的负梯度,然后用新的决策树去拟合此负梯度,从而减少残差的误差。最终集成所有弱学习器,得到一个强大的集成模型;

(4) 正则化与剪枝:为了进一步防止过拟合,XGBoost加入了正则化项和剪枝技术。其中,正则化项限制了叶子节点的权重,控制模型的复杂度,而剪枝技术则通过设定阈值合并叶子节点,减少模型的复杂度。

3.3. CatBoost模型

CatBoost是Boosting族算法之一。它是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的梯度提升框架,能够自动处理类别特征的编码和转换,无需进行繁琐的特征预处理。因此采用未经标准化的原始数据特征作为模型输入。此外,CatBoost能够克服梯度偏差(Gradient bias)和预测偏移(Prediction shift)问题,显著提高了算法的准确性和泛化能力。针对二分类预测问题,本文将CatBoost的损失函数设置为二分类交叉熵损失函数,即Logloss损失函数。

3.4. LightGBM模型

LightGBM (Light Gradient Boosting Machine)是由微软团队开发的一种基于梯度提升算法的开源机器学习框架。它以高效性和低内存消耗而著称,能够处理大规模数据集和高维特征。LightGBM的主要思想如下:

(1) 直方图(Histogram)算法:LightGBM使用一种称为直方图的数据结构构建决策树。直方图将特征的取值范围划分为多个离散的区间,并统计每个区间内样本的数量和标签的统计信息。在构建决策树的过程中,选择最佳的分割点。根据分割点的选择,更新相关的统计信息。具体流程如下图2所示。

Figure 2. Histogram algorithm flow

2. Histogram算法流程

(2) Leaf-wise生长策略:每次选择使损失函数下降最大的叶子节点进行分裂。与传统的Level-wise生长策略相比,Leaf-wise策略能够更快地构建出更深的决策树,从而提高模型的表达能力。

(3) 基于梯度的优化:LightGBM通过迭代地拟合残差来逐步改进模型的预测能力。在每一轮迭代中,LightGBM根据损失函数梯度信息来更新模型的参数,从而最小化损失函数。

(4) 特征并行和数据并行:LightGBM支持特征并行和数据并行两种并行方式。其中,特征并行指的是在每个决策树的构建过程中,对不同特征进行并行计算;数据并行指的是在不同决策树的构建过程中,对不同数据进行并行计算。

与随机森林、XGBoost、CatBoost相似,由于模型涉及决策树单元,因此采用未经过标准化的原始数据进行模型分类预测。

4. 患者血肿扩张事件概率预测

4.1. 血肿扩张概率预测结果分析

本文将100位患者的相关数据按照8:2的比例划分训练集和测试集,分别带入RF、XGBoost、CatBoost、LightGBM、Logistic以及Stacking融合模型。在医学诊断中,对于疾病的筛查,需要确保尽可能少地漏诊,因此本文中的分类预测应当更加注重查全率。我们对各模型的分类阈值进行了适当的降低,将阈值设置为0.4,得到如下表1模型评价结果:

Table 1. Assessment of haematoma expansion probability prediction models

1. 血肿扩张概率预测模型评估表

模型类型

名称

Acc

Recall

F1

强学习器

RF

0.7

0.53

0.53

XGBoost

0.6

0.6

0.73

CatBoost

0.6

0.6

0.72

LightGBM

0.65

0.65

0.75

Logistic

0.65

0.65

0.66

Stacking

RF + XGBoost+ CatBoost + LightGBM + Logistic

0.75

0.75

0.74

表1中,我们对比了5种强学习器和Stacking融合模型的评价结果。结果表明,Stacking融合模型的准确率、召回率指标均为0.75,高于5种强学习器。F1分数为0.74,与强学习器中效果最好的LightBGM相比差距较小。Stacking融合模型的准确率相较于强学习器的平均准确率(0.64)提升了17.19%,加权召回率比强学习器的平均加权召回率(0.61)提高了23.76%,平均F1分数提高了9.14%。

4.2. 特征对目标变量的影响分析

基于Stacking融合模型,分别利用作为融合模型基学习器的RF、XGBoost、CatBoost以及LightGBM四个模型计算特征得分,通过排序综合评价各特征对发病后48小时内发生血肿扩张时间的影响程度。其中,CatBoost和LightGBM得到的特征得分和分别为100和226,而RF和XGBoost的特征得分和为1,因此首先将CatBoost和LightGBM的得分和转化为1,再加入综合得分计算,依据得分对特征进行排序。具体公式如下:

Featur e score =R F score +XGBoos t score + CatBoos t score / 100 + LightGB M score / 226 (4)

经过得分排序,得到的前10个对血肿扩张影响最大的特征如图3所示。

Figure 3. Ranking of characteristics influencing the occurrence of oedema expansion events at 48 hours after onset

3. 发病后48小时水肿扩张事件发生影响特征排序

由综合评估结果可知,相较于其他特征,血肿的原始形状延伸率(Original shape Elongation)对发病后48小时发生血肿扩张事件影响最大。而血肿的原始形状主轴长度(Original shape Major Axis Length)、平扫CT原始一阶方差(NCCT original first order Variance)以及舒张压等特征对发病后48小时发生血肿扩张事件的影响较大。说明发病后血肿的灰度特征和形状特征对短期内的血肿扩张影响较大。

5. 患者90天mRS评分预测模型

5.1. 基于首次影像结果及患者个人信息史预测效果分析

根据题意,首先将100位患者的首次影像相关指标、患者个人病史相关指标与90天mRS评分整理成表,对数据进行描述性统计,记录90天mRS评分类别的频数,结果如下表2所示。

Table 2. Frequency of 90-day mRS score categories

2. 90天mRS评分类别频数

90天mRS评分

频数

0

10

1

19

2

20

3

20

4

12

5

15

6

4

根据表2可知,评分为2和3的样本均有20个,评分为1的样本数量为19,而评分为6的样本仅有4个。因此该评分数据存在严重的数据不平衡问题。为了解决数据不平衡问题并提高分类模型的性能,本文引入了SMOTE算法。对于100位患者相关特征数据,按照8:2的比例划分训练集和测试集。考虑到在预测mRS评分过程中特征数量远远大于样本数量,因此采用筛选特征和不筛选特征两种方法进行分类,分别从全局法和局部角度法对mRS的整体分类以及各类别进行特征重要性研究。分析各指标对于评分整体的影响程度以及对各评分类别的影响程度,从而为出血脑卒中临床医学提供相关建议。

对于特征筛选法,采用随机森林对特征重要性进行排序,筛选出前20个最重要的特征。并将筛选后的特征数据训练集带入CatBoost、XGBoost以及LightGBM进行训练,采用网格搜索算法进行超参数寻优,并根据投票法得到综合的分类结果。根据测试集的分类结果采用准确率、召回率以及F1得分三个指标进行预测性能评估。对于不进行特征筛选的数据,直接将全部特征带入各分类器进行训练。同样采用准确率、召回率和F1分数对分类器预测性能进行评估。

根据表3评估结果可知,采用未经筛选的特征数据进行分类预测时,CatBoost分类的准确率、召回率以及F1分数均为最高。采用经过变量筛选的数据特征进行分类预测时,CatBoost、XGBoost的准确率最高,XGBoost的召回率和F1分数均为最高。经过对比可知,采用远大于样本数量的特征来预测mRS类别前,先采用特征提取再进行模型训练的效果优于直接利用全部的特征信息进行分类的效果。

采用ROC曲线进一步评估进行特征筛选对分类器性能的影响。ROC曲线如图4~6

根据图4可知,对于CatBoost分类器,采用两种方法进行分类预测对mRS为6的类别分类效果均较好。对于mRS为2的类别,未经过特征筛选比经筛选的分类效果更好。而对于其他类别,经过特征筛选的分类器效果均优于未筛选的效果。由图5可知,对于XGBoost分类器,未经特征筛选的在mRS为类别1时的分类效果优于经过特征筛选的分类器;经过特征筛选的分类器在mRS类别为0、3、4、5时的分类效果优于未经过特征提取的效果;二者在预测mRS为类别2、6时的效果相当。同样由图6可知,对于LightGBM,未经特征筛选的在mRS类别为5时的分类效果优于经过特征筛选的分类器;经过特征筛选的分类器在其他类别上的分类效果均优于未经过特征提取的效果。

Table 3. Evaluation table of model classification effects

3. 模型分类效果评估表

模型类型

名称

Acc

Recall

F1

全部变量

CatBoost

0.62

0.58

0.60

XGBoost

0.55

0.57

0.59

LightGBM

0.54

0.55

0.58

筛选变量

CatBoost

0.64

0.53

0.55

XGBoost

0.64

0.60

0.63

LightGBM

0.58

0.55

0.57

(a) 未筛选特征 (b) 筛选特征

Figure 4. CatBoost ROC diagram

4. CatBoost ROC图

(a) 未筛选特征 (b) 筛选特征

Figure 5. XGBoost ROC diagram

5. XGBoost ROC图

(a) 未筛选特征 (b) 筛选特征

Figure 6. LightGBM ROC diagram

6. LightGBM ROC图

综上所述,对于利用首次加随访影像结果及其他相关指标预测mRS评分类别时,大部分分类器中经过特征筛选的分类效果显著优于未经过特征筛选后的分类效果,经过特征提取后的分类器大大降低了数据信息冗余,避免了维数灾难等问题。此处研究结果表明在进行关于患者出血性脑卒中预后90天mRS评分预测建模时可使用机器学习方法筛选诸多医疗特征预测信息,在降低模型训练复杂度的同时也能提高预后90天mRS评分预测准确度。

5.2. 基于多次随访影像及患者个人信息史预测效果分析

首先将患者90天mRS和个人史、疾病史、治疗方法及影像特征相关数据进行整理。与上文相同,针对90天mRS评分数据不平衡问题,采用SMOTE算法增加不平衡类别的数据,提高数据整体的平衡性。

为深入探究各指标对于患者预后90天mRS评分的影响,本文分别从全局法和局部角度法对mRS的整体分类以及各类别进行特征重要性研究。分析各指标对于评分整体的影响程度以及对各评分类别的影响程度,从而为出血脑卒中临床医学提供相关建议。

全局法

首先将100位患者的全部特征数据,以8:2的比例划分训练集和测试集,利用训练集对CatBoost进行训练,同时对特征重要性排序,筛选对90天mRS整体评分影响程度最高的前10个特征,从而探究特征对mRS分类的影响。

然后利用将训练好的CatBoost作为分类器的SHAP模型计算测试集中每个特征对90天mRS类别预测的贡献度,即SHAP值,筛选出根据CatBoost特征重要性得到的排名前20的特征,提取这些特征对应mRS每一类的SHAP值,分别绘制20个特征对每一个类别的SHAP值可视化图,分别探究个特征对mRS的每个类别影响程度。

局部法

首先以8:2的比例划分训练集和测试集,利用随机森林筛选出对mRS重要性最强的20个特征,从而探究对mRS分类影响最大的特征。筛选出训练集和测试集的对应特征数据,并将筛选后的训练集带入CatBoost进行训练。

然后利用将训练好的CatBoost作为分类器的SHAP模型计算测试集中每个特征对90天mRS类别预测的贡献度,即SHAP值。分别得到20个特征对mRS的七个类别的SHAP值并绘制可视化图,进一步探究各个特征对mRS的每个类别的影响程度。

5.2.1. 基于全局法的及结果分析

基于全局法,首先得到CatBoost根据特征在进行分类预测时重要性排序的结果,筛选出前10个对mRS评分最重要的特征并绘制可视化图,如图7所示。

Figure 7. Ranking of feature importance

7. 特征重要性排序

(a) mRS = 0 (b) mRS = 1

Figure 8. Visualisation of feature SHAP values

8. 特征SHAP值可视化

可以看出,随访2右侧大脑前动脉是否出现水肿、随访3左侧大脑前动脉是否出现水肿以及右侧大脑中动脉是否出现水肿,对于预测mRS评分类别的重要性较强。SHAP模型可以对mRS的了每个类别绘制可视图,探究各特征对该类别的影响,本节以mRS类别0和类别1为例,进行分析。利用SHAP模型得到的可视化图如上图8所示。SHAP可视化图是各特征对患者90天mRS分类影响的重要程度进行排序的图像,图中颜色越红表示特征本身数值越大,颜色越蓝说明特征本身数值越小。根据图8可知,首次和随访1右侧大脑前动脉是否有水肿分别对mRS分类为0和1的影响较大,因此发病后短期内右侧大脑前动脉是否出现水肿对患者预后是否有症状和明显残疾影响程度较高。

5.2.2. 基于局部法的结果分析

基于局部法,首先通过随机森林筛选出20个对mRS分类重要性最高的特征,并进行排序,结果如下图9所示。

Figure 9. Ranking of feature importance

9. 特征重要性排序

(a) mRS = 0 (b) mRS = 1

Figure 10. Visualisation of feature SHAP values

10. 特征SHAP值可视化

可以看出,随访1右侧大脑前动脉是否出现水肿、随访1的水肿的原始形状平整度等指标,对于预测mRS评分类别的重要性较强。以mRS类别0和类别1为例,利用SHAP模型得到的可视化图如上图10所示。根据图10可知,首次和随访1右侧大脑前动脉是否有水肿、随访3水肿的平扫CT原始第一峰度以及随访3水肿平扫CT原始第一偏度分别对mRS分类为0影响较大;平扫CT原始首次扫描最小值、随访2水肿的平扫CT原始第一偏度对mRS分类为1的影响较大,因此发病后短期内水肿和水肿的形状变化体征对患者是否为轻症有显著影响。

6. 结论

针对出血性脑卒中后患者的病情状况预测模型研究较少的问题,本文依据脑卒中患者医疗信息分别建立了48 h内血肿扩张事件概率预测以及90天mRS评分预测智能诊疗机器学习模型,并明确推断出了对预测目标事件影响较大的医学特征因素。本文创新性的建立了相似距离矩阵拟合医学特征最相近患者,以相似患者的对应医学特征填补缺失患者信息。同时文中针对90天mRS评分预测类别不平衡问题,引入了SMOTE算法最大程度化降低不平衡对于预测效果的影响,综合考虑了基于全部特征以及筛选特征的机器学习模型的预测效果。

本文实验表明,在48 h内患者是否出现血肿扩张事件的预测中,经过筛选预测因子后的模型预测效果普遍优于未处理预测因子模型,且基于stacking的融合模型相较于强学习器的准确率、加权召回率、F1分数分别得到了不同程度的提升,得到了较优的预测效果。实验结果表明,血肿的原始形状延伸率对发病后48小时发生血肿扩张事件影响最大。本文也同样将三种机器学习算法在90天mRS评分中的预测效果进行了实验对比,综合实验结果表明,XGBoost的预测效果一定程度上优于CatBoost和LightGBM,且发病后短期内右侧大脑前动脉是否出现水肿对患者预后是否有症状和明显残疾影响程度较高。后续的医学实验研究中可考虑采用XGBoost算法融合患者医学信息实现对90天mRS评分的较为准确地预测。本文仅采用了100位患者的医疗信息构建预测模型,相信在融入更多的患者医学特征信息后模型的智能诊疗结果会更加准确。综上所述,本文所使用方法具备一定的创新性与实用性,是一类可以广泛应用于医学领域的关于患者脑卒中后病况预测的智能诊疗模型。

参考文献

[1] 袁伟, 侯文仲, 王倩, 等. 基于机器学习预测自发性脑出血血肿扩大研究[J]. 广东药科大学学报, 2022, 38(3): 76-84.
[2] 杨凯, 白映红, 王智, 等. 基于机器学习的脑出血分型评估血肿扩大[J]. 临床神经外科杂志, 2023, 20(2): 141-145+152.
[3] 叶倩, 杨云, 徐文韬, 等. 基于可解释机器学习构建脑卒中患者日常生活自理能力风险预测模型[J]. 南京医科大学学报(自然科学版), 2024, 44(5): 672-680.
[4] 付记桐, 王甜甜, 张金苹, 等. 基于随机森林算法的急性持续性眩晕患者脑卒中风险预测模型构建[J]. 中国急救医学, 2024, 44(5): 415-420.
[5] 朱坤, 林宏远, 龚嘉淼, 等. 基于多种机器学习算法的老年瓣膜性心脏病患者术后院内死亡风险因素分析[J]. 中国循环杂志, 2024, 39(3): 249-255.
[6] Li, F., Chen, A., Li, Z., Gu, L., Pan, Q., Wang, P., et al. (2023) Machine Learning-Based Prediction of Cerebral Hemorrhage in Patients with Hemodialysis: A Multicenter, Retrospective Study. Frontiers in Neurology, 14, 1139096.
https://doi.org/10.3389/fneur.2023.1139096
[7] Nie, X., Cai, Y., Liu, J., Liu, X., Zhao, J., Yang, Z., et al. (2021) Mortality Prediction in Cerebral Hemorrhage Patients Using Machine Learning Algorithms in Intensive Care Units. Frontiers in Neurology, 11, 610531.
https://doi.org/10.3389/fneur.2020.610531
[8] Liu, G., Fomel, S., Jin, L. and Chen, X. (2009) Stacking Seismic Data Using Local Correlation. Geophysics, 74, V43-V48.
https://doi.org/10.1190/1.3085643
[9] Ogunleye, A. and Wang, Q. (2020) Xgboost Model for Chronic Kidney Disease Diagnosis. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 17, 2131-2140.
https://doi.org/10.1109/tcbb.2019.2911071