基于EfficientNet的癌痛面部表情评估方法的研究
Study on Facial Expression Evaluation of Cancer Pain Based on EfficientNet
DOI: 10.12677/ACM.2023.1371672, PDF, HTML, XML, 下载: 298  浏览: 482 
作者: 陈小娇:西安医学院研究生院,陕西 西安;梁鹏科:中国电子科技集团公司第39研究所,陕西 西安;杨怡萍:陕西省肿瘤医院,陕西省放射治疗临床医学研究中心,陕西 西安
关键词: 癌痛疼痛强度评估面部表情EfficientNetCancer Pain Pain Intensity Assessment Facial Expression EfficientNet
摘要: 目的:搭建了一种基于EfficientNet的癌痛面部表情识别与强度分类的智能评估模型并评价模型准确性。方法:采集72位志愿者在6种不同疼痛强度状态下的面部表情图片,设计深度卷积神经网络并进行训练,使用特征级差异进行面部疼痛表情分类。在原网络基础上进行了以下两点优化:1) 将激活函数swish改为mish。2) 用inception v4代替网络中的mobile net模块。结果:优化后的网络与原网络相比,模型训练损失衰减更快,模型对于测试集的分类准确率有了显著的提升。结论:该方法在疼痛表情识别中准确有效,评分结果具有显著性。
Abstract: Objective: To establish an intelligent evaluation model for cancer pain facial expression recognition and intensity classification based on EfficientNet and evaluate the accuracy of the model. Methods: The facial expressions of 72 volunteers in 6 different pain intensity states were collected, deep con-volutional neural network was designed and trained, and facial pain expressions were classified using feature level difference. On the basis of the original network, the following two optimizations were performed: 1) The activation function swish was changed to mish. 2) Replace the mobile net module in the network with inception v4. Results: Compared with the original network, the training loss of the optimized network decreases faster, and the classification accuracy of the model for the test set is significantly improved. Conclusion: This method is accurate and effective in pain expres-sion recognition, and the score is significant.
文章引用:陈小娇, 梁鹏科, 杨怡萍. 基于EfficientNet的癌痛面部表情评估方法的研究[J]. 临床医学进展, 2023, 13(7): 11934-11942. https://doi.org/10.12677/ACM.2023.1371672

1. 引言

我国是癌症大国,每年新发癌症人数达406.4万 [1] ,其中60%~80%晚期癌症患者都会经历癌痛,癌痛是最常见的,也是最让癌症患者难以忍受的症状之一,极大程度地降低了患者的生活质量和总体的治疗效果。疼痛是一种伴有组织实际或潜在损伤的感觉、情感、认知和社会层面的痛苦体验 [2] 。而且,它还被认为是除血压、心率、脉搏和呼吸之外的第五类生命体征 [3] 。及时有效的疼痛控制是医务人员的职责和义务,更是患者的基本需求。目前临床上的疼痛评估的“金标椎”为:以病人为中心,医生进行评估的自我评估方法 [4] ,包括:面部表情疼痛量表(FPS-R),应用最多(见图1)、数字评分法(NRS)、口头评分法(VRS)及视觉评分法(VAS)。以上评估方法均具有医患双方较强的主观性,缺乏客观性,此外由于癌痛患者众多以及疼痛不是一成不变,因此疼痛评估也常存在不及时、不连续的弊端,进而导致癌痛患者的镇痛效果不满意。

Figure 1. Pain assessment method: Faces Pain Scale-Revised (FPS-R)

图1.疼痛评估方法:面部表情疼痛量表(FPS-R)

疼痛不仅是一种感官体验,也是一种情感体验 [5] 。面部表情在人类交流中可传递高达55%的信息量 [6] 。Paul Ekman等人在面部动作编码系统(FACS)发现针对成人疼痛表情的面部活动单元有:降低眉毛,抬高脸颊,拉紧眼睑,皱鼻子,抬高上唇,斜唇弯曲,嘴唇的水平拉伸,撇嘴,下巴向下移动,张嘴和闭眼 [7] ,且不同疼痛程度的表情具有相对的一致性 [8] 。即疼痛评估的客观性在于提取出面部疼痛表情的本质特征 [9] ,如刘南燕 [10] 、杨瑞靖 [11] 及张敏 [12] 等人利用检测到的脸部关键点如眼睛、嘴巴等关键区域的动态信息和时空信息,将局部动态特征补充到整体网络中,从而进行疼痛识别及程度判定。由于人疼痛时面部微表情也会出现变化,其是一种短暂且不易被察觉的肌肉运动变化。且几乎不以人的意志为转移 [13] 。

分类网络EfficientNet是一种将深度(depth)、宽度(width)及分辨率(resolution)复合缩放的简单高效方法 [14] ,见图2,具体的计算公式如下:depth:d = αφ、width:w = βφ、resolution:r = γφ、s.t.α∙β2∙γ2 ≈ 2、α ≥ 1,β ≥ 1,γ ≥ 1 (d:网络的深度,w:网络的宽度,r:图片的分辨率,s.t.代表限制条件,α、β、γ分别表示1附近的网络常量,φ表示复合系数)。通过这种方法下,该网络在ImageNet和五种常用的迁移学习数据集上,在参数量与图片处理速度相同的情况下,该网络的分类精度超过现行的其他分类网络 [15] [16] [17] [18] [19] ,见图3

Figure 2. Model Scaling. (a) is a baseline network example: (b)~(d) are conventional scaling that only increases one dimension of network width, depth, or resolution (e) is our proposed compound scaling method that uniformly scales all three dimensions with a fixed ratio

图2. 模型缩放:(a)是一个基线网络示例;(b)~(d)是仅增加一个网络维度的常规缩放宽度、深度或分辨率;(e)是我们提出的复合缩放方法,它以固定的比例均匀缩放所有三个维度

Figure 3. EfficientNet compared to other networks

图3. EfficientNet与其他网络的比较

只有具备了足够规模的面部疼痛表情图像数据才能够进行有效的疼痛表情识别。具体成人面部疼痛表情的公开数据库汇总见表1,其中UNBC-McMaster肩部疼痛表情数据库及Biovid热疼痛数据库是目前应用较为广泛的公开数据库,两者均为刺激下的疼痛表情,具有一定的真实性,两者疼痛程度的划分与癌痛评估划分具有一定差别,且后者疼痛强度分类较为广泛。STOIC数据库疼痛34名表演学院表演的8种表情(高兴,厌恶,恐惧,惊讶,伤心,生气,中立表情,疼痛表情),因此更细化疼痛等级划分及扩大疼痛表情图像的数据量有助于推动疼痛评估、改善训练模型的人机交互效果。

Table 1. The adult public pain database used in the study

表1. 用于研究的成人公开疼痛数据库

基于以上研究背景,本文通过对72位志愿者不同疼痛程度时的表情照片构建面部疼痛表情数据集和分类网络EfficientNet激活函数以及卷积模块的优化,构建并训练面部表情疼痛模型,探究癌痛患者面部表情与疼痛强度的关联性通过面部疼痛表情对疼痛的等级进行量化评估和持续监测,以增强癌痛管理的智能化程度。

2. 研究方法

本研究采用李克特式6分量表作为评分依据,根据此量表将面部表情的疼痛强度分为六个等级,量表包括无痛、微痛、有些痛、很痛、疼痛剧烈、疼痛难忍六个等级,分别对应分数0、2、4、6、8、10。研究基于EfficientNet构建面部表情疼痛强度分类模型。该方法分别描述了数据集建立和神经网络训练的具体方法。即根据疼痛患者面部表情的信息,使用EfficientNet分析疼痛的特征,判断疼痛是否存在以及强度等级。具体流程见图4

Figure 4. Procedure of network experiment for evaluating facial expression of cancer pain

图4. 癌痛面部表情评估网络实验流程

2.1. 面部疼痛表情图像数据的采集与预处理

首先,通过图像采集设备获取到72位志愿者的不同疼痛强度对应的表情照片。采集设备使用支架进行固定,设备正对志愿者人脸,距离1.2米。每位志愿者已提前进行了疼痛表情表演的培训,每位志愿者均进行3次6种不同疼痛强度的表情并拍摄照片,每组8张照片,疼痛强度逐步增强。

数据纳入标准:1) 获得志愿者本人同意;2) 患者初始表情相对中性;3) 面部无遮挡;4) 无图像伪影。最终获得1728张原始图片,通过饱和度变化、直方图增强、通道分离等图像扩增方法,将原始图像扩增至2580张,图像序列被数字化成380 × 380像素阵列,图片采用RGB三通道彩色图像,具体分配比例见表2。每张图片中的面部表情疼痛强度均由3位在疼痛评估方面接受过专业训练的副主任医师给出。并采用李克特式6分量表,范围0~10 (从无疼痛到疼痛难以忍受)。

Table 2. Distribution ratio of each pain intensity picture in the data set

表2. 数据集中各个疼痛强度图片分配比例

2.2. EfficientNet网络模型构建与优化

2.2.1. EfficientNet模型

面部疼痛表情检测和分类,采用EfficientNet网络提取面部特征。模型EfficientNet是由卷积层、激活函数、池化层以及全连接层堆叠而成,与其他网络结构相比,其mobile net模块图 [23] (见图5)在减少参数量的同时又能保持较高的检测精度,并在此基础上使用了Swish激活函数及深层网络不可或缺的SE(Squeeze-and-Excitation)注意力机制模块 [17] 。由于其可根据网络层数的差异以及参数量的不同分为EfficientNet-B0~EfficientNet-B7,共8个等级。从B0~B7网络中卷积层逐级增加,参数量相应增多、网络精度提升,同时,运行速度则相应的有所下降。其二者呈负相关(仅限于同一检测网络)。综合考虑本文选择了EfficientNet B4 (分类精度和分类速度的叠加权衡)。

2.2.2. EfficientNet优化

1) 激活函数

激活函数通常都是非线性的,卷积神经网络中的卷积运算实质上是二种线性变换,如果不加入激活函数,那深层卷积神经网络实则是多个线性关系的累加,输出与输入始终保持线性关系。常用的激活函数见图6,由图可知在同一测试中,随着层深的增加,Relu进度迅速下降,其次是swish,而mish [24] 能更好的保持准确性,究其原因是其能更好的传播信息,此外swish和mish的图线趋势最为相似,因此本文在原网络训练训练不佳时,改用激活函数mish。

2) 卷积模块

鉴于inception v4 [25] [26] 相较于mobile net模块具有防止过拟合进和算力小的优势。本文尝试将其替换,inception v4模块的拓扑图见图7

3. 结果

3.1. 实验结果

在疼痛评估中使用本研究设计的六级强度疼痛表情分类模型对人脸数据进行图像分类,一种疼痛强度对应一个数据类别。模型使用Python语言进行编写、采用PyTorch深度学习框架实现,在实验平台为

Figure 5. Topology of the mobile net module

图5. mobile net模块的拓扑图

Figure 6. Commonly used activation functions

图6. 常用的激活函数

Figure 7. Inception topology of the v4 module

图7. Inception v4模块的拓扑图

Figure 8. Training loss curves for EfficientNet B4 and EfficientNet B4S networks

图8. EfficientNet B4和EfficientNet B4S网络的训练损失曲线图

Intel Corei 7 2.GHz90I CPU,MIDIA GeForce 1550 GPU的环境下训练。

图8所示,表示EfficientNet B4和EfficientNet B4S的训练损失值变化曲线图。在相同Epoch时,后者相对于前者无论是训练损失值还是验证损失值都更靠近横轴,表明新的网络模型EfficientNet B4S拥有更好地训练权重。

3.2. 模型性能验证

随机选取志愿者在不同场景下的不同疼痛程度的面部表情照片进行模型性能验证,模型的测试结果见图9所示:测试集的正确率:疼痛程度等级0~1分:96.3%,2~3分:82.1%,4分:94.6%,5~6分:98.7%,7~8分:99.7%,9~10分:96.8%。上述结果证实了模型分类具有较高的准确率及较强的抗干扰性能,与此同时,也说明了该分类模型具有一定的普适性。

Figure 9. EfficientNet B4S network model test results

图9. EfficientNet B4S网络的模型的测试结果

4. 讨论

本研究结合李克特六分量表和人脸疼痛表情量表(FPS-R),首次建立了含有6种不同疼痛强度的癌痛面部表情数据库,为癌痛分级研究提供了数据基础;优化的EfficientNet B4建立的模型测试集正确率高,较原EfficientNet B4在图像分类上的准确率提高了7%。为后续面部疼痛表情的研究提供了新的思路,在疼痛强度分级方面具有较好的应用前景。但由于癌痛的发生机制、持续时间、性质、强度、发生频率、位置以及伴随症状都是影响疼痛评估的相关因素,因此本研究存在一定的局限性:1) 仅选取面部表情作为疼痛评估的依据,且为志愿者模拟的面部疼痛表情,数据量也不够丰富,因此具有一定的主观性;2) 模型在2~3分的正确率为82.1%,模型的准确率有待提高;3) 模型未在现行有关疼痛表情的公开数据集进行验证性能,缺乏模型普适性的支持。后续研究可采集大量的真实的癌痛患者面部图像或面部视频,并尽量考虑其他影响因素,以及加入皮肤肌点活动、心率及呼吸等客观性的生理指标,利用深度学习多通道的探究面部表情与疼痛强度的相关性,并开发相应的评估系统。总之,基于深度学习的疼痛评估是解决目前临床疼痛评估痛点,实现癌痛管理智能化的有效途径。

参考文献

[1] 世界卫生组织国际癌症研究机构(IARC)发布2020年全球最新癌症数据[Z].
[2] Williams, A.C. and Craig, K.D. (2016) Updating the Definition of Pain. Pain, 157, 2420-2423.
https://doi.org/10.1097/j.pain.0000000000000613
[3] Allen, J.O., Zebrack, B., Wittman, D., et al. (2014) Ex-panding the NCCN Guidelines for Distress Management: A Model of Barriers to the Use of Coping Resources. Journal of Community and Supportive Oncology, 12, 271-277.
https://doi.org/10.12788/jcso.0064
[4] 癌症疼痛诊疗规范(2018年版) [J]. 临床肿瘤学杂志, 2018, 23(10): 937-944.
[5] 周娅楠, 李丽, 胡守紫. 癌症化疗病人症状负担与心理痛苦调查研究[J]. 全科护理, 2023, 21(3): 311-315.
[6] Bray, F., Ferlay, J., Soerjomataram, I., et al. (2018) Global Cancer Statistics 2018: GLOBOCAN Esti-mates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians, 68, 394-424.
https://doi.org/10.3322/caac.21492
[7] Ekman, P. and Friesen, W.V. (1978) Facial Action Coding System. Con-sulting Psychologists Press, Palo Alto.
https://doi.org/10.1037/t27734-000
[8] cPrkachin, K.M. and Solomon, P.E. (2008) The Structure, Reliability and Validity of Pain Expression: Evidence from Patients with Shoulder Pain. Pain, 139, 267-274.
https://doi.org/10.1016/j.pain.2008.04.010
[9] Wang, M. and Deng, W.H. (2021) Deep Face Recognition: A Sur-vey. Neuro-Computing, 429, 215-244.
https://doi.org/10.1016/j.neucom.2020.10.081
[10] 刘南艳, 魏鸿飞, 马圣祥. 融合局部动态特征的面部表情识别[J]. 计算机工程与科学, 2023, 45(5): 849-858.
[11] 杨瑞靖. 基于人脸视频图像的非接触式疼痛评估方法研究[D]: [博士学位论文]. 西安: 西北大学, 2021.
https://doi.org/10.27405/d.cnki.gxbdu.2021.002215
[12] 张敏. 基于深度学习的老年人疼痛表情识别[D]: [硕士学位论文]. 南京: 南京理工大学, 2021.
https://doi.org/10.27241/d.cnki.gnjgu.2021.002221
[13] 潘航. 基于局部情绪感知学习的面部微表情识别研究[D]: [博士学位论文]. 北京: 北京科技大学, 2023.
https://doi.org/10.26945/d.cnki.gbjku.2023.000145
[14] Tan, M.X. and Le, Q.V. (2019) EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. ArXiv, abs/1905.11946.
[15] He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recog-nition (CVPR), Las Vegas, 27-30 June 2016, 770-778.
https://doi.org/10.1109/CVPR.2016.90
[16] Xie, S., Girshick, R., Dollar, P., Tu, Z. and He, K. (2017) Aggregated Residual Transformations for Deep Neural Networks. 2017 IEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), Honolulu, 21-26 July 2017, 5987-5995.
https://doi.org/10.1109/CVPR.2017.634
[17] Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141.
https://doi.org/10.1109/CVPR.2018.00745
[18] Zoph, B., Vasudevan, V., Shlens, J. and Le, Q.V. (2018) Learning Transferable Architectures for Scalable Image Recognition. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 8697-8710.
https://doi.org/10.1109/CVPR.2018.00907
[19] Huang, Y., Cheng, Y., Chen, D., Lee, H., Ngiam, J., Le, Q.V. and Chen, Z. (2018) Gpipe: Efficient Training of Giant Neural Networks Using Pipeline Parallelism.
[20] Lucey, P., Cohn, J.F., Prkachin, K.M., et al. (2011) Painful Data: The UNBC-Mc Master Shoulder Pain Expression Archive Database. Proceedings of the 9th International Conference on Automatic Face & Gesture Recognition and Workshops (FG), Santa Barbara, 21-25 March 2011, 57-64.
https://doi.org/10.1109/FG.2011.5771462
[21] Werner, P., Al-Hamadi, A., Niese, R., et al. (2013) Towards Pain Monitoring: Facial Expression, Head Pose, a New Database, an Automatic System and Remaining Challenges. Proceedings of the British Machine Vision Conference (BMVC), Bristol, 9-13 September 2013, 1-13.
[22] Roy, S., Roy, C., Ethier-Majcher, C., et al. (2007) STOIC: A Database of Dynamic and Static Faces Expressing Highly Recognizable Emotions. Journal of Vision, 7, 944.
https://doi.org/10.1167/7.9.944
[23] Li, X., Lin, C., Li, C., et al. (2020) Improving One-Shot Nas By Suppressing the Posterior Fading. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 13-19 June 2020, 13836-13845.
https://doi.org/10.1109/CVPR42600.2020.01385
[24] 吴福彬, 卢浩然, 王统, 等. 基于CBAM YOLOv4-Mish的乳腺X线摄片肿块检测方法[J]. 中南民族大学学报(自然科学版), 2023, 42(2): 245-252.
https://doi.org/10.20056/j.cnki.ZNMDZK.20230215
[25] 马永刚, 曹永杰, 赵益花, 等. 基于深度学习实现成人坐骨耻骨支内侧缘的性别推断[J]. 法医学杂志, 2023, 39(2): 129-136+143.
[26] 孙常浩. 基于深度学习的舌面裂纹提取技术研究[D]: [硕士学位论文]. 北京: 北方工业大学, 2022.
https://doi.org/10.26926/d.cnki.gbfgu.2022.000090