1. 引言
大量研究证明,采用深度学习对肺部X光图像进行检测相比人工肉眼检测具有更高的准确性,并能在更短的时间内完成检测。Shannar Phne [1] ,利用ResNet网络对肺炎图像进行分类鉴别,在平衡数据集上分类准确度达到94%,在不平衡数据集上分类准确度达到86%。Bilda [2] 等提出了一种XrayChestNet_v1模型用于肺炎图像的检测。Been [3] 等论证了VGG16在肺炎分类任务上要优于Xception。Jiaqi Zhang [4] 等论证了EfficientNet在多肺炎分类上要优于ResNet以及VGG模型。Siyang Li [5] 等利用改进的ResNet模型进行肺炎分类,最大分类准确度达到96%,F-Score达到93.4%。Somaiya Khan [6] 等提出了CPNet模型,该模型在肺炎二分类数据集上的准确度达到99.15%,召回率达到98.44%,精确度达到99.06%,F-Score达到99.02%。Tarssya [7] 等将ResNet50、VGG16、InceptionV3进行融合,该融合模型在三分类肺炎数据集上的准确度达到97.52%,特异性达到96.12%。Sanchit [8] 等将CNN与GAN进行融合,在多分类肺炎数据集上的分类准确度达到99%。裴颂文 [9] 等人提出了一种全新的图像降噪的生成对抗网络模型(TriGAN),对医学图像进行降噪处理,同时增强图像特征,TriGAN与DnCNN以及GAN相比,图像峰值信噪比平均提高4.5%,结构相似性平均提高1.5%。周天奕 [10] 等,提出了一种基于模糊逻辑引导的多粒度深度神经网络,该网络对病理图像特征信息的提取具有较高敏感度,该模型在组织病理图像分类上具有较高的准确率。Chakshu [11] 等利用Grad-CAM对VGG16模型进行模型增强,增强后的模型相较于原始VGG16在医学图像分类上的准确度得到了较大的提升。Yangqin [12] 等提出了一种Deep Supervised Domain Adaptation (DSDA)模型用于肺炎图像的检测分类,并取得了良好的结果。
上述方法的实验涉及的肺部X光图像在肺炎分类检测任务中得到了广泛应用。然而,由于肺部X光图像数据集存在较大的类别不平衡性,导致了分类结果与实际情况之间存在一定的偏差。这种不平衡性可能导致模型在预测中更偏向于具有更多样本的类别,而对于较少样本的类别的分类性能相对较低。
2. 方法
本文构建的肺炎图像分类模型如图1所示,由三部分组成,分别为:DenseNet201模块、PPM特征模块、全连接分类层三个部分组成。
![](//html.hanspub.org/file/35-2571425x7_hanspub.png?20240322083100504)
Figure 1. DenseNet121 model network structure integrating PPM
图1. 融合PPM的DenseNet121模型网络结构
DeneNet121模型
DenseNet121属于密集连接卷积神经网络(Dense Convolutional Network)的一种变体。DenseNet121的最显著特点是其密集连接的结构。在传统的卷积神经网络(CNN)中,通过逐层连接,每一层的输出只与前一层的输出相连接。而在DenseNet121中,每一层的输出都与之前所有层的输出直接相连,形成密集的连接。这种密集连接使得信息能够更加充分地传递和共享,有效缓解了梯度消失问题,提高了梯度的传播效率。尽管DenseNet121拥有较深的网络结构,但由于其密集连接的设计,相比传统的深层网络,它需要更少的参数。这带来了两方面的优势:首先,参数共享和信息传递的高效性有助于减小过拟合的风险;其次,更少的参数使得DenseNet121在相同计算资源下更容易训练和优化。DenseNet121主体结构由密集块(Dense Block)和过渡块(Transition Block)交替堆叠而成。密集块由多个卷积层组成,每个卷积层后面都有一个密集连接,将前面所有层的输出作为输入。过渡块则包含卷积层和池化层,用于减小特征图的大小,控制模型的复杂度,并引入新的特征。DenseNet121最后一层为全局平均池化层,将整个特征图转化为一个固定大小的向量。这种全局池化的设计有助于减少模型的参数数量,提高模型的泛化能力,同时在处理不同大小的输入图像时保持不变性(图2)。
![](//html.hanspub.org/file/35-2571425x8_hanspub.png?20240322083100504)
Figure 2. DenseNet121 model structure diagram
图2. DenseNet121模型结构图
3. 实验
3.1. 肺炎数据集及预处理
为了验证本文提出的融合金字塔池化模型的DenseNet121在2分类肺炎领域的有效性和可行性,我们使用了如图3所示的数据集,本文使用了Kaggle公开肺炎数据集。该数据集由10,192张正常肺炎CT图像以及3612张新冠肺炎图像构成,由于实验数据集样本的不平衡性,可能会对模型性能造成一定的影响,因此本文采用迁移学习来对模型进行预训练,随后将肺炎数据集输入到模型中进行训练,以此达到提高模型性能的目的。本文所用数据集如图3所示。
(a) 正常肺部图像(b) 新冠肺炎图像
Figure 3. Pneumonia dataset
图3. 肺炎数据集
为确保实验的科学有效性以及模型的健壮性,本实验预先将两种数据集按8:1:1的比例随机分配到训练集、测试集及验证集中(表1)。
3.2. 模型评价指标
为了多方位多角度的评估本实验模型真实性能,本文采引入了3中不同评估指标,分别为准确性、敏感性和精确度,准确性表示在所有样本分类中正确分类的比例,敏感性表示在所有实际正类别样本中成功预测为正类别的比例,精确度表示在所有被预测为正类别的样本中,真实属于正类别的比列,各评价指标公式如下所示。
Accuracy = (TP + TN)/(TP + FP + TN + FN) (1)
Sensitivity = TP/(TP + FN) (2)
Precision = TP/(TP + FP) (3)
True Positive(TP)表示模型正确预测为正类别的样本数量,True Negative (TN)表示模型正确预测为负类别的样本数量,False Positive (FP)表示模型错误地将负类别样本预测为正类别的数量,而False Negative (FN)则表示模型错误地将正类别样本预测为负类别的数量。
3.3. 实验结果
本文使用ImageNet公开数据集进行模型的预训练,使得模型具有一个较为合理初始参数,大量实验证明即便使用与目标数据集相差较远的数据集进行模型预训练,也要比不进行模型预训练的模型具有更好的性能。本实验中我们使用Swish作为激活函数,Swish激活函数是一种光滑、非单调的激活函数,其特点在于相较于ReLU,它在模型训练中引入了一定的非线性,Swish保留了ReLU的简单性和计算效率,同时引入了更平滑的梯度,有助于缓解梯度消失问题。本实验使用SGD作为优化器,其特点是通过随机选择小批量样本进行梯度计算和参数更新。SGD具有较低的计算成本、能够处理大规模数据集的特点。
Swish(x) = x * Sigmod(x) (3)
其中X代表输入特征,Sigmod为激活函数。
为证明金字池化模块可以提升模型对COVID-19的准确性、敏感性、精确度,本文对单一DenseNet121模型以及融合了金字塔池化模型的DenseNet121模型在二分类肺炎数据集上进行了实验,训练中所有的配置、学习率、训练次数都保持一致。实验结果如表2和表3所示。
从实验结果表2、表3可以明显观察到,引入金字塔池化模块后,模型在准确率、敏感度和精确度等评价指标上均呈现出显著的提升。从图相较于单一的DenseNet121模型,融合了金字塔池化模块的改进模型在准确度、敏感性和精确度上分别提高了1.1%、0.27%和0.89%。这一实验证明了金字塔池化模块的引入对模型性能具有积极的影响,特别是在对COVID-19阳性样本的识别方面,取得了显著的进展。
![](Images/Table_Tmp.jpg)
Table 2. DenseNet121 model results
表2. DenseNet121模型结果
![](Images/Table_Tmp.jpg)
Table 3. Results of DenseNet121 model integrating pyramid pooling module
表3. 融合金字塔池化模块的DenseNet121模型结果
从图4可以看出,基于PPM的DenseNet121分类模型几乎在每一个Epoch上的Accuracy都高于单一DenseNet121模型,且在训练过程中基于PPM的DenseNet121分类模型具有较为平和的收敛曲线,而单一DenseNet121模型在训练初期震荡较为明显。
![](//html.hanspub.org/file/35-2571425x11_hanspub.png?20240322083100504)
Figure 4. Comparison of classification accuracy between fusion model and single DenseNet121 model
图4. 融合模型与单一DenseNet121模型分类准确度对比
从图5可以看出,基于PPM的DenseNet121分类模型在模型分类的敏感度上要明显优于单一DenseNet121模型
![](//html.hanspub.org/file/35-2571425x12_hanspub.png?20240322083100504)
Figure 5. Comparison of classification sensitivity between fusion model and single DenseNet121 model
图5. 融合模型与单一DenseNet121模型分类敏感性对比
从图6可以看出,基于PPM的DenseNet121分类模型与单一DenseNet121模型在分类精确度上差别明显,相较于单一DenseNet121模型,基于PPM的DenseNet121模型精确度的收敛速度更快,且震动更小,体现出了模型性能的稳定性。
![](//html.hanspub.org/file/35-2571425x13_hanspub.png?20240322083100504)
Figure 6. Comparison of classification precision between fusion model and single DenseNet121 model
图6. 融合模型与单一DenseNet121模型分类精确度对比
金字塔池化模块的融合使得模型能够更好地捕获多尺度的特征,提高了对图像内部微小结构和全局信息的感知能力。这对于医学图像中病变的复杂和多样性具有重要意义。因此,通过增加金字塔池化模块,模型更全面地理解了图像特征,进一步优化了对COVID-19阳性样本的准确识别,为临床诊断提供了更可靠的支持。
4. 结束语
为解决新冠肺炎的快速筛查,本文提出了一种创新的图像识别网络模型,采用了融合金字塔池化模块的策略。通过引入金字塔池化模块,该模型能够更充分地提取图像特征,从而提高对新冠肺炎的准确性。实验中,我们对比了单一的DenseNet121模型和融合金字塔池化模块后的模型,结果显示融合模型在新冠肺炎识别方面取得了显著的性能提升。相较于单一DenseNet121模型,融合金字塔池化模块的复合模型在肺炎分类的Accuracy、sensitivity、Precision上分别提升高了1.1%、0.27%和0.89%。这项研究的贡献在于提供了一种有效的方法,通过融合金字塔池化模块来增强图像识别网络,为提高新冠肺炎图像分类的准确性提供了新的思路。