1. 引言
轻度认知障碍(Mild Cognitive Impairment, MCI)是一种介于正常衰老与痴呆之间的临床状态,《中国痴呆与认知障碍诊治指南(五)》中将轻度认知障碍诊断标准定义为指记忆力或其他认知功能进行性减退,但不影响日常生活能力,未达到痴呆的诊断标准。全球年龄在60至89岁之间的人口中约有20%患有轻度认知障碍,其中每年有15%的MCI患者发展为AD (Brodaty et al., 2016),在中国,60岁以上人口MCI的患病率为7%~25% (Qarni & Salardini, 2019)。MCI高患病率不仅严重影响患者个体生活质量,而且对家庭及社会都造成了不可避免的负担。早期MCI检测和干预可以在一定程度上阻止痴呆的进展,从而减轻个人和医疗保健系统的负担(Sherman et al., 2017)。因此进行有效的早期筛查,提供有效的早期干预,对于防止MCI发展成AD具有关键性意义。
目前对老年轻度认知障碍的早期识别通常采用传统的标准化量表,基于临床评估和神经心理学评估等,参考于整体认知能力、记忆、执行功能、语言等指标(Goldman & Sieg, 2020),传统的MCI识别方式低消耗时,缺乏敏感性和客观性,易受到被试配合度,实验者沟通方法等主观因素的影响,尽管及时发现MCI具有重要意义,但由于其症状的异质性和细微性,且目前国内外用于识别MCI的量表并不统一,不同的量表侧重的认知评估领域以及文化背景等不同,还没有任何一种量表能准确、全面地识别MCI,因此MCI在实践中未被充分认识和诊断。且MCI的发病机制与多种因素相关,这些因素相互作用以复杂的方式导致了MCI (Jongsiriyanyong & Limpawattana, 2018),故传统标准化量表难以满足大规模并快速筛查MCI患者的需求。
综上,仅凭单一因素或少数因素结合无法完成对MCI患者的精确诊断(Wang et al., 2023),即使是传统的多因素方法也无法涵盖所有可能的因素和关系(Casagrande et al., 2022)。而机器学习正好弥补了这种不足,机器学习(Machine Learning, ML)是使用计算机从大量经验数据中学习模式并自动改进,以做出预测或决策。机器学习不仅可以依靠单一指标和多种指标结合对MCI进行识别,更重要的是机器学习可以对多种指标之间的关系进行学习,从更深的层次来理解MCI的发病机制,从而识别MCI。近年来,机器学习凭借其强大的数据处理和分析能力被逐渐引用到痴呆早期筛查中,一些研究者们开始尝试应用机器学习来提高MCI筛查的精度与敏感性。
为此,本研究通过整合机器学习在MCI识别中的最新进展、主要应用范围、未来可能的发展方向,归纳总结机器学习在构建老年人轻度认知障碍评估指标体系中现况及发展前景,为机器学习在早期预防痴呆和认知功能障碍方面提供科学参考。
2. 机器学习领域下MCI 研究的数据及采集
2.1. 机器学习
机器学习算法(Machine Learning,简称ML),是计算机使用算法解析已获取的数据,从中学习,然后对新数据做出决定或预测,其核心是让计算机系统能够自动地从数据中学习,并随着数据的增加而改进其性能,根据模型结构深度可分为传统机器学习和深度学习。机器学习涉及数据准备、训练、评估和优化(Choi et al., 2020)。数据准备阶段需要收集数据并对数据进行预处理。数据的数量和质量在收集数据时应予以保证,预处理数据阶段需对无效数据和异常数据进行移除,并对数据进行特征选择来提高数据质量。在训练过程中,需要选择适当的算法和参数,机器学习通过对训练数据进行学习得出模型,在这个过程中要保证数据的平衡性和随机性。在评估阶段,需要评估机器学习算法的性能和准确性。常用的评估指标包括准确性、精度、召回率和F1分数。对于分类问题,还可以使用混淆矩阵和ROC曲线进行评估。在优化阶段,是通过调整算法和参数来提高算法性能。
目前应用于MCI识别的机器学习算法主要是传统机器学习算法,如随机森林、支持向量机、逻辑回归等。但近年来,随着人工智能和深度学习的发展,多模态数据集的深度学习方法也逐渐被应用到MCI领域的研究中(Chandler et al., 2023)。利用机器学习识别MCI的基本原理为建立MCI预测模型,通过采集MCI风险因素、生物标记物等数据,然后对这些数据进行预处理得到归一化数据集,按一定比例分为训练集和测试集,利用训练集对机器学习算法进行训练,最后用测试集对模型进行性能评估,并在验证评估过程中对模型进行不断优化。
2.2. 基于机器学习的MCI早期识别的数据及采集
机器学习算法核心是根据已获取的数据从中学习从而对新数据进行预测。因此基于机器学习对MCI建立模型进行识别的第一步是获取数据。传统标准化量表为机器学习的模型构建提供了最早、最广泛的数据,这些数据显示了MCI患者明显的一些行为表现,主要包括工作记忆、语音加工、认知功能损害等。如今随着科技不断进步发展,数据收集的方式也变得多样性,除传统量表外,也可以通过网络平台获得公开数据;通过各类传感器采集健康数据。总之,越来越多的研究开始不局限于某种单一模态数据收集,将量表、行为等各类数据进行整合,欲提高早期识别MCI的准确性。
在机器学习过程中,对被收集数据预处理进行特征选择,基于被选择的特征来进行模型训练,得到最终预测模型,因此关于采集数据的特征选择在各项研究中也有所不同。机器学习对MCI的预测识别是基于可以反映MCI倾向的因子及已知的MCI生物标志物来做出判断,包括MCI的高危影响因子、症状表现和生理特征等。目前,有年龄、性别、受教育程度等社会人口学资料,临床收集的躯体症状、心理状态资料,医学仪器采集的脑电信号(Electroencephalography, EEG)、脑部核磁共振成像(Magnetic Resonance Imaging, MRI)、心率变异性、血压率参数等生理信号数据来源。
机器学习在MCI识别中应用越来越广泛,因此可以使用最广泛的数据类型作为MCI标记。在模型训练分类之前,首先对原始数据进行预处理,提取可解释的原始特征,从原始特征中生成最相关、信息量最大的特征(Abd Rahman et al., 2020),形成分类所需的数据集,然后,机器学习算法在处理后的特征上进行训练。MCI标志物,如步态、活动、语言和运动障碍,早在轻微认知症状出现前24个月就会出现(Ayari et al., 2023; Sakurai et al., 2019)。因此,机器学习可以比目前的方法更早地进行MCI检测。目前对于MCI标记还有采用眼动、功能活动评估、严肃游戏、言语评估和多模态标记等,建立一种新的MCI评估方法。机器学习分析数据中的模式,并将每种模式分类到各自的认知组(Jo et al., 2019)。也有多项研究根据多种成像生物标记物和各种组学生物标记物来构建MCI预测模型(Jones et al., 2023),这些生物标志物来自神经影像学、脑脊液(CSF)或血浆。例如,一项meta分析报告称,基于生物标志物的深度学习方法可能会增加MCI诊断的敏感性和特异性(Jain et al., 2021)。一项基于社区样本的研究中,血浆来源的AD生物标志物的机器学习模型在识别痴呆高风险人群方面显示出良好的预测准确性(Chang et al., 2021)。
3. 在机器学习领域下对MCI识别研究进展
3.1. 机器学习在MCI识别研究领域的优势
MCI的症状很复杂,经常可能被误解为与正常衰老过程相关的症状。目前使用的医学手段方法来对认知障碍患者进行大范围识别几乎是不可能的。机器学习提供了一种系统的方法,开发用于MCI诊断的高级、自动和客观分类框架,将辅助临床诊断和自动化识别轻度认知障碍,从而对认知障碍患者和健康人群进行分类识别。近年来对机器学习在痴呆和MCI中的研究越来越多,考虑到了解MCI生物标志物与认知结果的联系途径的重要性,机器学习方法可能在脑衰老背景下在MCI生物标志物方面具有巨大的潜力。许多机器学习技术,特别是深度学习,已被用于识别AD的进展并预测从MCI到AD的转换(Rahim et al., 2023)。
王荣等研究表明(王荣等,2023),从全基因组和候选基因组的角度探究多基因风险评分与机器学习对轻度认知障碍发展为阿尔茨海默病的预后预测性能中,机器学习方法的预测效果要优于多基因风险评分方法。因为AD的遗传结构不仅是简单的线性关系,还包括非线性关系。
贾芷莹等人则基于机器学习建立了识别MCI的电子化认知评估系统且具有良好的信效度(贾芷莹等,2019),研究选择了四种常用的机器学习分类法,包括朴素贝叶斯随机森林、逻辑回归和K-NN,电子化认知评估系统的克伦巴赫系数为0.84,KMO为0.78,Bartlet’s球形检验P < 0.05,共提取13个公因子,累计方差贡献率为75.10%。其中综合最优的决策模型为朴素贝叶斯分类模型,其判断精准度为88.05%,曲线下面积为0.941,这进一步提高了识别轻度认知障碍的效率。
3.2. 基于机器学习的MCI的识别研究进程
MCI作为痴呆的早期临床窗口期(van Dyck et al., 2023),应当建立一种有效的识别方法。
在生物神经方面,有研究构想出一种从脑电信号中提取光谱、功能连接和非线性特征来进行MCI诊断的机器学习框架(Movahed & Rezaeian, 2022),通过收集正常和MCI受试者的16和18个脑电图数据的数据集来验证所提出的系统。包括准确性(AC)、灵敏度(SE)、特异性(SP)、F1分数(F1)和错误发现率(FDR)在内的指标使用10倍交叉验证进行评估。使用线性支持向量机(LSVM)分类器和所有特征集的组合,所提出的框架的最佳性能提供了99.4%的平均AC,SE为98.8%,SP为100%,F1为99.4%,通过此提出的框架,识别MCI个体的准确性和效能性有了较大提高,并且优于以前的方法。在对轻度认知障碍的分类中,基于海马相关白质网络的机器学习对轻度认知障碍进行自动分类中,发现MCI期间的细微变化使得在机器学习中进行分类变得更具挑战性(Jiang et al., 2022)。
除了生物神经方向,在日常行为方面通过分析社区老人的生活习惯数据来筛查MCI的可行性,采用CiteSpace5.5作为辅助工具,结果显示支持向量机、随机森林、人工神经网络这三种模型三个模型,在识别MCI方面准确率较高(郭书含,2020)。CiteSpace关键词图谱显示,基于机器学习鉴别MCI的研究内容聚焦于fMRI和生物标志物。筛选出在MCI识别方面有效的机器学习算法,并证实了利用这些算法通过分析社区老人的生活习惯数据来筛查MCI的可行性。哥伦比亚大学研究人员还使用自然驾驶数据和机器学习技术,开发出用于检测老年驾驶员是否患有轻度认知障碍和轻度老年痴呆症的高精度算法,这一研究结果发表在Geriatrics杂志,研究人员表示“根据自然驾驶数据和年龄、性别、种族/民族和教育水平等基本人口统计特征得出的变量,可以预测轻度认知障碍和轻度老年痴呆症,准确率高达88%”(Di et al., 2021)。
机器学习还应用于临床决策支持系统,通过预定义的决策流程图整合多个临床数据流,以促进更准确和个性化的诊断。机器学习还用于纵向数据,如医疗保健行政索赔、日常活动、室内活动模式、对话、手写和休闲游戏,以筛查潜在的轻度认知障碍患者。基于与正常行为的偏差,机器学习可以识别可能患有轻度认知障碍的人,并迅速将他们转介给进一步的医学评估。最后,监督式机器学习输出主题具有或不具有MCI的概率,而半监督式机器学习输出主题的同质聚类,这需要专家解释每个聚类对其认知状态的重要性。
4. 现存问题及未来展望
4.1. 训练数据集质量
训练数据集的轮廓和大小会影响机器学习的性能(Su et al., 2020)。在此,在特定环境和人口统计资料中训练的机器学习预测模型在应用于其他环境时效果较差。而现阶段国内相关研究中,因项目资金投入或者人力等问题,医疗系统缺乏统一化的医疗信息管理系统等因素的影响导致训练数据集的数量和质量都有一定程度的缺损。大量研究没有报告训练数据集概况和/或使用不平衡的数据集,因此容易受到算法偏差的影响。也有少数能够平衡其训练数据集的研究,但大都使用小MCI样本。而数据集的小样本量会导致过拟合,且机器学习算法越复杂,过拟合程度越严重。因此,训练数据集的质量对于确保基于机器学习的MCI识别至关重要。我国可以在未来提供不同医疗机构的公开数据集,以便进行更好的拟合算法和研究,提高模型的泛化能力,提高研究质量。
4.2. 基于机器学习的MCI识别模型的可解释性
目前基于机器学习建立模型来识别MCI应用越来越广泛,但预测模型在医疗中的实际应用一直忽略模型可解释性的问题,因为复杂模型通常倾向于牺牲可解释性来换取准确性,而现有研究大都追求模型的准确性。模型的可解释性为理解模型的复杂性并解释其决策,弥补学术研究与医疗实践之间有效利用的差距。未来研究可以借助提供可解释性的模型,如可解释助推机(EBM),该算法不仅能够提供其预测的全局解释,识别模型中最重要的相关因素影响因素,而且还通过量化每个特征对每个主题的最终预测的贡献来提供局部解释(Mishra, 2023)。
4.3. 多学科交叉研究
随着时代的发展,各学科交叉融合成为趋势,基于机器学习对轻度认知障碍进行鉴别具有重要的前景和实际意义,无论是对轻度认知障碍进一步发展为AD的预后研究,还是对轻度认知障碍从不同方面进行筛查,都将为有效识别MCI提供重要依据。一个日益增长的研究兴趣领域是将机器学习应用于组学数据,其中包括基因组学、转录组学、蛋白质组学和代谢组学,这些数据可能揭示与MCI相关的生物分子标记物(Tan et al., 2021)。未来的研究应探索更多的技术和机制,并采用多学科专业知识来解决关键的临床问题和风险,以提高机器学习算法的相关性。
综上所述,机器学习已被逐渐应用于MCI早期识别领域中。但在实际应用中尚存在着训练数据集质量低、样本量小、基于机器学习的MCI识别的模型缺乏可解释性、临床实践率低等障碍和不足。因此,未来我国应注重医疗健康信息的统一化存储、加强医疗信息学人才的培养,促进机器学习在MCI识别领域的研究,不断优化MCI识别预测模型,并逐渐应用于临床实践。此外,研究和公共实体应该为更具代表性、可为公开获取MCI数据集做出贡献,以最大限度地提高机器学习模型开发质量。
本文综述了机器学习在MCI方面现阶段的研究进展,对机器学习算法在老年轻度障碍中的数据采集、特征选择、研究优势以及研究进程等方面进行综合评述,并总结现阶段研究存在的局限,增加了研究学者对机器学习在老年轻度认知障碍中的关注,提供了相关领域的研究思路,将机器学习更广泛地运用到老年轻度认知障碍识别中。
基金项目
教育部人文社科基金项目(23C10093001);
河北省自然科学基金项目(C2022406010);
承德医学院大学生创新创业训练计划项目(2023001);
承德医学院研究生创新能力培养资助项目。
NOTES
*通讯作者。