1. 引言
我国是癌症大国,每年新发癌症人数达406.4万 [1] ,其中60%~80%晚期癌症患者都会经历癌痛,癌痛是最常见的,也是最让癌症患者难以忍受的症状之一,极大程度地降低了患者的生活质量和总体的治疗效果。疼痛是一种伴有组织实际或潜在损伤的感觉、情感、认知和社会层面的痛苦体验 [2] 。而且,它还被认为是除血压、心率、脉搏和呼吸之外的第五类生命体征 [3] 。及时有效的疼痛控制是医务人员的职责和义务,更是患者的基本需求。目前临床上的疼痛评估的“金标椎”为:以病人为中心,医生进行评估的自我评估方法 [4] ,包括:面部表情疼痛量表(FPS-R),应用最多(见图1)、数字评分法(NRS)、口头评分法(VRS)及视觉评分法(VAS)。以上评估方法均具有医患双方较强的主观性,缺乏客观性,此外由于癌痛患者众多以及疼痛不是一成不变,因此疼痛评估也常存在不及时、不连续的弊端,进而导致癌痛患者的镇痛效果不满意。
![](//html.hanspub.org/file/188-1576859x7_hanspub.png?20230727091613026)
Figure 1. Pain assessment method: Faces Pain Scale-Revised (FPS-R)
图1.疼痛评估方法:面部表情疼痛量表(FPS-R)
疼痛不仅是一种感官体验,也是一种情感体验 [5] 。面部表情在人类交流中可传递高达55%的信息量 [6] 。Paul Ekman等人在面部动作编码系统(FACS)发现针对成人疼痛表情的面部活动单元有:降低眉毛,抬高脸颊,拉紧眼睑,皱鼻子,抬高上唇,斜唇弯曲,嘴唇的水平拉伸,撇嘴,下巴向下移动,张嘴和闭眼 [7] ,且不同疼痛程度的表情具有相对的一致性 [8] 。即疼痛评估的客观性在于提取出面部疼痛表情的本质特征 [9] ,如刘南燕 [10] 、杨瑞靖 [11] 及张敏 [12] 等人利用检测到的脸部关键点如眼睛、嘴巴等关键区域的动态信息和时空信息,将局部动态特征补充到整体网络中,从而进行疼痛识别及程度判定。由于人疼痛时面部微表情也会出现变化,其是一种短暂且不易被察觉的肌肉运动变化。且几乎不以人的意志为转移 [13] 。
分类网络EfficientNet是一种将深度(depth)、宽度(width)及分辨率(resolution)复合缩放的简单高效方法 [14] ,见图2,具体的计算公式如下:depth:d = αφ、width:w = βφ、resolution:r = γφ、s.t.α∙β2∙γ2 ≈ 2、α ≥ 1,β ≥ 1,γ ≥ 1 (d:网络的深度,w:网络的宽度,r:图片的分辨率,s.t.代表限制条件,α、β、γ分别表示1附近的网络常量,φ表示复合系数)。通过这种方法下,该网络在ImageNet和五种常用的迁移学习数据集上,在参数量与图片处理速度相同的情况下,该网络的分类精度超过现行的其他分类网络 [15] [16] [17] [18] [19] ,见图3。
![](//html.hanspub.org/file/188-1576859x8_hanspub.png?20230727091613026)
Figure 2. Model Scaling. (a) is a baseline network example: (b)~(d) are conventional scaling that only increases one dimension of network width, depth, or resolution (e) is our proposed compound scaling method that uniformly scales all three dimensions with a fixed ratio
图2. 模型缩放:(a)是一个基线网络示例;(b)~(d)是仅增加一个网络维度的常规缩放宽度、深度或分辨率;(e)是我们提出的复合缩放方法,它以固定的比例均匀缩放所有三个维度
![](//html.hanspub.org/file/188-1576859x9_hanspub.png?20230727091613026)
Figure 3. EfficientNet compared to other networks
图3. EfficientNet与其他网络的比较
只有具备了足够规模的面部疼痛表情图像数据才能够进行有效的疼痛表情识别。具体成人面部疼痛表情的公开数据库汇总见表1,其中UNBC-McMaster肩部疼痛表情数据库及Biovid热疼痛数据库是目前应用较为广泛的公开数据库,两者均为刺激下的疼痛表情,具有一定的真实性,两者疼痛程度的划分与癌痛评估划分具有一定差别,且后者疼痛强度分类较为广泛。STOIC数据库疼痛34名表演学院表演的8种表情(高兴,厌恶,恐惧,惊讶,伤心,生气,中立表情,疼痛表情),因此更细化疼痛等级划分及扩大疼痛表情图像的数据量有助于推动疼痛评估、改善训练模型的人机交互效果。
![](Images/Table_Tmp.jpg)
Table 1. The adult public pain database used in the study
表1. 用于研究的成人公开疼痛数据库
基于以上研究背景,本文通过对72位志愿者不同疼痛程度时的表情照片构建面部疼痛表情数据集和分类网络EfficientNet激活函数以及卷积模块的优化,构建并训练面部表情疼痛模型,探究癌痛患者面部表情与疼痛强度的关联性通过面部疼痛表情对疼痛的等级进行量化评估和持续监测,以增强癌痛管理的智能化程度。
2. 研究方法
本研究采用李克特式6分量表作为评分依据,根据此量表将面部表情的疼痛强度分为六个等级,量表包括无痛、微痛、有些痛、很痛、疼痛剧烈、疼痛难忍六个等级,分别对应分数0、2、4、6、8、10。研究基于EfficientNet构建面部表情疼痛强度分类模型。该方法分别描述了数据集建立和神经网络训练的具体方法。即根据疼痛患者面部表情的信息,使用EfficientNet分析疼痛的特征,判断疼痛是否存在以及强度等级。具体流程见图4。
![](//html.hanspub.org/file/188-1576859x10_hanspub.png?20230727091613026)
Figure 4. Procedure of network experiment for evaluating facial expression of cancer pain
图4. 癌痛面部表情评估网络实验流程
2.1. 面部疼痛表情图像数据的采集与预处理
首先,通过图像采集设备获取到72位志愿者的不同疼痛强度对应的表情照片。采集设备使用支架进行固定,设备正对志愿者人脸,距离1.2米。每位志愿者已提前进行了疼痛表情表演的培训,每位志愿者均进行3次6种不同疼痛强度的表情并拍摄照片,每组8张照片,疼痛强度逐步增强。
数据纳入标准:1) 获得志愿者本人同意;2) 患者初始表情相对中性;3) 面部无遮挡;4) 无图像伪影。最终获得1728张原始图片,通过饱和度变化、直方图增强、通道分离等图像扩增方法,将原始图像扩增至2580张,图像序列被数字化成380 × 380像素阵列,图片采用RGB三通道彩色图像,具体分配比例见表2。每张图片中的面部表情疼痛强度均由3位在疼痛评估方面接受过专业训练的副主任医师给出。并采用李克特式6分量表,范围0~10 (从无疼痛到疼痛难以忍受)。
![](Images/Table_Tmp.jpg)
Table 2. Distribution ratio of each pain intensity picture in the data set
表2. 数据集中各个疼痛强度图片分配比例
2.2. EfficientNet网络模型构建与优化
2.2.1. EfficientNet模型
面部疼痛表情检测和分类,采用EfficientNet网络提取面部特征。模型EfficientNet是由卷积层、激活函数、池化层以及全连接层堆叠而成,与其他网络结构相比,其mobile net模块图 [23] (见图5)在减少参数量的同时又能保持较高的检测精度,并在此基础上使用了Swish激活函数及深层网络不可或缺的SE(Squeeze-and-Excitation)注意力机制模块 [17] 。由于其可根据网络层数的差异以及参数量的不同分为EfficientNet-B0~EfficientNet-B7,共8个等级。从B0~B7网络中卷积层逐级增加,参数量相应增多、网络精度提升,同时,运行速度则相应的有所下降。其二者呈负相关(仅限于同一检测网络)。综合考虑本文选择了EfficientNet B4 (分类精度和分类速度的叠加权衡)。
2.2.2. EfficientNet优化
1) 激活函数
激活函数通常都是非线性的,卷积神经网络中的卷积运算实质上是二种线性变换,如果不加入激活函数,那深层卷积神经网络实则是多个线性关系的累加,输出与输入始终保持线性关系。常用的激活函数见图6,由图可知在同一测试中,随着层深的增加,Relu进度迅速下降,其次是swish,而mish [24] 能更好的保持准确性,究其原因是其能更好的传播信息,此外swish和mish的图线趋势最为相似,因此本文在原网络训练训练不佳时,改用激活函数mish。
2) 卷积模块
鉴于inception v4 [25] [26] 相较于mobile net模块具有防止过拟合进和算力小的优势。本文尝试将其替换,inception v4模块的拓扑图见图7。
3. 结果
3.1. 实验结果
在疼痛评估中使用本研究设计的六级强度疼痛表情分类模型对人脸数据进行图像分类,一种疼痛强度对应一个数据类别。模型使用Python语言进行编写、采用PyTorch深度学习框架实现,在实验平台为
![](//html.hanspub.org/file/188-1576859x11_hanspub.png?20230727091613026)
Figure 5. Topology of the mobile net module
图5. mobile net模块的拓扑图
![](//html.hanspub.org/file/188-1576859x12_hanspub.png?20230727091613026)
Figure 6. Commonly used activation functions
图6. 常用的激活函数
![](//html.hanspub.org/file/188-1576859x13_hanspub.png?20230727091613026)
Figure 7. Inception topology of the v4 module
图7. Inception v4模块的拓扑图
![](//html.hanspub.org/file/188-1576859x14_hanspub.png?20230727091613026)
Figure 8. Training loss curves for EfficientNet B4 and EfficientNet B4S networks
图8. EfficientNet B4和EfficientNet B4S网络的训练损失曲线图
Intel Corei 7 2.GHz90I CPU,MIDIA GeForce 1550 GPU的环境下训练。
见图8所示,表示EfficientNet B4和EfficientNet B4S的训练损失值变化曲线图。在相同Epoch时,后者相对于前者无论是训练损失值还是验证损失值都更靠近横轴,表明新的网络模型EfficientNet B4S拥有更好地训练权重。
3.2. 模型性能验证
随机选取志愿者在不同场景下的不同疼痛程度的面部表情照片进行模型性能验证,模型的测试结果见图9所示:测试集的正确率:疼痛程度等级0~1分:96.3%,2~3分:82.1%,4分:94.6%,5~6分:98.7%,7~8分:99.7%,9~10分:96.8%。上述结果证实了模型分类具有较高的准确率及较强的抗干扰性能,与此同时,也说明了该分类模型具有一定的普适性。
![](//html.hanspub.org/file/188-1576859x15_hanspub.png?20230727091613026)
Figure 9. EfficientNet B4S network model test results
图9. EfficientNet B4S网络的模型的测试结果
4. 讨论
本研究结合李克特六分量表和人脸疼痛表情量表(FPS-R),首次建立了含有6种不同疼痛强度的癌痛面部表情数据库,为癌痛分级研究提供了数据基础;优化的EfficientNet B4建立的模型测试集正确率高,较原EfficientNet B4在图像分类上的准确率提高了7%。为后续面部疼痛表情的研究提供了新的思路,在疼痛强度分级方面具有较好的应用前景。但由于癌痛的发生机制、持续时间、性质、强度、发生频率、位置以及伴随症状都是影响疼痛评估的相关因素,因此本研究存在一定的局限性:1) 仅选取面部表情作为疼痛评估的依据,且为志愿者模拟的面部疼痛表情,数据量也不够丰富,因此具有一定的主观性;2) 模型在2~3分的正确率为82.1%,模型的准确率有待提高;3) 模型未在现行有关疼痛表情的公开数据集进行验证性能,缺乏模型普适性的支持。后续研究可采集大量的真实的癌痛患者面部图像或面部视频,并尽量考虑其他影响因素,以及加入皮肤肌点活动、心率及呼吸等客观性的生理指标,利用深度学习多通道的探究面部表情与疼痛强度的相关性,并开发相应的评估系统。总之,基于深度学习的疼痛评估是解决目前临床疼痛评估痛点,实现癌痛管理智能化的有效途径。