融合注意力机制的残差双通道多尺度的胰腺囊性肿瘤分割模型

期刊菜单

融合注意力机制的残差双通道多尺度的胰腺囊性肿瘤分割模型
Pancreatic Cystic Tumor Segmentation with Fusion Attention Mechanism and Residual Dual-Channel Multi-Scale Approach

DOI: 10.12677/mos.2024.134373, PDF, HTML, XML, 下载: 17 浏览: 33 国家自然科学基金支持
作者: 何聪, 戴俊龙, 武杰^*：上海理工大学健康科学与工程学院，上海；边云^*：海军军医大学第一附属医院放射诊疗科，上海
关键词: 胰腺囊性肿瘤；注意力机制；图像分割；多尺度；双通道；Pancreatic Cystic Tumor； Attention Mechanism； Image Segmentation； Multi-Scale； Dual-Channel

摘要: 本文针对胰腺肿瘤的大小形状差异大、区域边界不清晰等问题，提出了一种融合注意力机制的残差双通道多尺度的胰腺囊性肿瘤分割模型ARDM-Net (Attention Residual Dual Channel and Multi Scale-UNet)。首先，对长海医院提供的数据集进行肿瘤区域的裁剪；其次，在U-Net网络模型上，将基础的3 × 3卷积模块替换为残差双通道多尺度卷积模块，增强网络特征提取的能力；最后在跳跃连接中加入注意力模块，调整学习特征的权重。本文的方法性能表现，Dice相似系数为89.50%，豪斯多夫距离(Hausdorff Distance, HD)为2.80 mm，交并比(Intersection-over-Union, IoU)为82.46%，均优于普通的U-Net网络。该试验结果充分表现了本文方法在胰腺囊性肿瘤分割任务中的显著价值。

Abstract: This paper proposes a fusion Attention Mechanism and Residual Dual-Channel Multi-Scale model (ARDM-Net) for the segmentation of pancreatic cystic tumors, addressing the challenges of significant differences in size and shape, as well as unclear regional boundaries. Initially, tumor regions were cropped from the dataset provided by Changhai Hospital. Subsequently, the basic 3x3 convolution module in the U-Net network model was replaced with a Dual-Channel and multi-scale convolution module to enhance feature extraction capability. Finally, an attention mechanism module was incorporated into the skip connection to adjust the weight of learning features. The proposed method in this paper achieves a performance with the Dice similarity coefficient of 89.50%, Hausdorff Distance (HD) of 2.80 mm, and Intersection-over-Union (IoU) of 82.46%, all of which outperformed the standard U-Net network. These experimental results demonstrate the significant value of our approach in the segmentation of pancreatic cystic tumors.

文章引用：何聪, 戴俊龙, 武杰, 边云. 融合注意力机制的残差双通道多尺度的胰腺囊性肿瘤分割模型[J]. 建模与仿真, 2024, 13(4): 4120-4127. https://doi.org/10.12677/mos.2024.134373

1. 引言

在医学影像分析领域中，肿瘤的位置、大小、形状等特征对精准诊断和治疗方法的规划至关重要。通过对肿瘤的分割，可以精确地确定肿瘤的边界和区域，有助于帮助医生更好的确定肿瘤的类型和性质，提高医生诊断效率。通过多次扫描并比较分割结果，医生还可以追踪肿瘤的生长趋势，判断治疗是否有效，并及时调整治疗方案。传统的手动分割很大程度上受限于勾画医生的主观性和耗时性，对于胰腺囊性肿瘤分割任务尤为如此，因此，需要高效的分割方法来改善这一情况。

近年来，以深度学习为代表的人工智能技术迎来了研究与应用的高潮[1]。尤其是卷积神经网络(Convolu-tional Neural Network, CNN)，它在计算机图像识别领取得了巨大的突破[2] [3]。Olaf等人提出了具有编码器解码器对称结构的U形网络U-Net，该网络作为基准网络为后续的分割模型奠定了基础[4]。Ozan等人为了解决使用多级联级网络来分割形变量大的器官导致计算参数量冗余的问题，提出了一种基于注意力门控的网络Attention U-Net，该模型在学习特征时会抑制不相关的区域，关注重要特征，减少运算资源提高模型参数的学习效率[5]。但该网络仅靠单一尺度的感受野无法应对病灶尺度差异大的问题。Ibtehaz等人提出了MultiRes U-Net，该网络通过多尺度卷积核来提高对形变量大的病灶进行建模能力，并在跳跃连接中加入一些卷积层来弥补高维特征和低纬特征进行融合时产生的语义差异[6]。但跳跃连接中过多的卷积层容易造成计算参数冗余、过拟合等问题。

虽然上述方法在分割方面取得一定的进展，但是针对胰腺囊性肿瘤分割任务仍然面临了一系列复杂的挑战。首先，胰腺囊性肿瘤的大小和形状具有显著的个体差异[7]，因此分割的算法需要具备一定的鲁棒性，以能够应对不同形态的肿瘤。其次，由于胰腺囊性肿瘤在整个腹部序列中的感兴趣区域(Region of Interest, ROI)占比小，这要求算法对胰腺肿瘤具备较强的感知能力，避免误判。另外，胰腺囊性肿瘤与周围组织的灰度值相近，导致边界不清晰，进一步增加了精准分割的难度。这些问题的存在直接影响了现有分割方法的性能，因此文本提出了一种新的网络模型ARDM-Net。其中RDM模块(Residual Dual-Channel and Multi-Scale, RDM)使用轻量级的3 × 3卷积核串行连接，实现不同尺度的感受野，从而获取了多尺度图像信息。这一设计既提高了模型对特征的提取能力，又使得模型轻量化；同时，在跳跃连接中引入注意力门控模块(Attention Gate, AG)，让低维特征与高维特征在融合时聚焦于最相关的特征上。为了验证本文方法的有效性，我们在长海医院提供的胰腺肿瘤数据集中进行了评估，评估结果充分表明了本文方法的优越性。

2. 模型结构

2.1. 总体模型

本文提出的ARDM-Net网络模型结构如图1所示。该结构是基于经典的深度神经网络U-Net，并进行了相关的改进和扩展。ARDM-Net保留了U-Net的5层U形编码器–解码器结构，其中的跳跃连接将来自不同层级具有相同分辨率的多个特征图给聚合起来。

ARDM-Net主要包含两个模块：残差双通道多尺度模块RDM，注意力门控模块AG。RDM模块代替了U-Net中所有的3 × 3卷积核，用于提取图像的多尺度特征，并通过双通道结构将特征信息融合在一起，这样可以有效的帮助网络学习特征。AG模块帮助网络学习有用特征，并抑制不相关的区域，从而提高分割的准确性。该模块在跳跃连接中加入，使网络能够自适应地融合编码器和解码器的特征信息，有效地捕捉目标的细节特征。

Figure 1. ARDM-Net network model structure

图1. ARDM-Net网络模型结构

2.2. RDM模块

在传统的U-Net中，一般是在每个池化层之前和上采样层之后使用两个3 × 3的卷积核来提取图像的特征。然而，对于胰腺囊性肿瘤这类具有不同形态大小的病灶，仅靠这种单一尺度的卷积核无法充分捕捉特征。为此，本研究采用了串行连接多个3 × 3卷积核的方法，以实现不同尺度的特征提取。如图2所示。

通过串行连接多个3 × 3卷积核，可以扩大感受野范围，提取更丰富的特征信息。具体而言，2个3 × 3卷积核的感受野近似于1个5 × 5卷积核的感受野，3个3 × 3卷积核的感受野近似于1个7 × 7卷积核的感受野。相较于直接使用大尺度的卷积核，小尺度卷积核有更少的参数量和计算复杂度，能够更有效地利用计算资源。采用串行连接，网络会更加注重特征的重用和信息的共享[8] [9]。

Figure 2. Serial multi-scale filter

图2. 串行多尺度卷积块

本研究在U-Net的每一层中使用2个多尺度卷积块，组成双通道多尺度卷积块，并将双通道的结果进行相加融合。此外，我们还引入了残差连接，这不仅缓解模型的过拟合风险，还增加了一条提取特征的路径进一步提高了网络提取特征的能力[10] [11]。

综上所述，本文将这种结构称为RDM块。如图3所示：

Figure 3. RDM module structure diagram

图3. RDM模块结构图

2.3. 注意力门控模块

Attention Gate是一种受到人类视觉系统启发的注意力机制。它使得模型能够区分区域，集中关注重要区域，同时抑制不重要区域，这是在计算机视觉和深度学习中广泛使用的一项技术[12]。为了提高模型的性能，本文采用了Attention Gate模块。通过应用这一先进的注意力机制，模型能够更佳准确地捕捉图像中的关键信息，从而为本文的分割任务取得良好的结果。Attention Gate的模型结构如图4所示：

Figure 4. Attention Gate module structure diagram

图4. Attention Gate模块结构图

该模块有2个输入，一个是来自解码器上采样之后的特征，用来作门控信号；另一个是来自编码器中对应位置的特征。首先，将这两个输入分别进行卷积操作和归一化处理，然后逐元素相加。接着，将相加后的特征进行修正线性单元激活。随后，再对激活后的特征进行卷积操作和归一化处理得到中间激活图，使用Sigmoid函数处理得到权重图，将该图与编码器特征进行逐元素相乘得到注意力加权后的特征图。

3. 实验分析

3.1. 实验设置

模型训练使用了以下硬件平台：独立显卡为NVIDIA GeForce GTX4090 (24G显存)，内存256 GB；系统平台为CentOS Linux release 7.9.2009 (Core)；软件平台：Python编程语言的版本为3.8，深度学习框架采用Pytorch。训练超参数设置：采用二元交叉熵损失函数，Adam优化器，训练迭代次数(Epoch)为50，批处理大小(Batch Size)为16，学习率(Learning Rate)为0.0001。

3.2. 数据集

选取自2011~2021年由海军军医大学附属长海医院收治的300例胰腺囊性肿瘤患者的腹部磁共振图像(Magnetic Resonance Imaging, MRI)。其中，胰腺黏液性囊性肿瘤(Mucinous Cystic Tumor, MCN)有93例，共计图像有676张；浆液性囊性肿瘤(Serous CystieTumor, SCN)有207例，共计图像有1085张。考虑到数据集的不平衡性，本文对这2类肿瘤图像各采用600张，其中MCN为68例，SCN为86例。为了确保评估结果的准确性，本文进行8:2的划分比例将数据集划分为训练集和测试集。

所有MR图像都由三名经长海医院委员会认证的腹部放射科医生分析，标记出胰腺囊性肿瘤的部位，标记软件使用ITK完成，由于囊肿的T2信号要强于正常的组织，在T2加权影像上呈高亮状态，因此可以清晰地判别囊肿的位置和大小。

3.3. 评价指标

本文使用3种评价指标来定量评估不同方法的性能，包括Dice相似系数，IoU，HD值。

3.3.1. Dice相似系数(DSC)

Dice相似系数，也称为DSC，是一种衡量预测分割与真实分割之间重叠程度的度量标准。它的取值范围在0到1之间，其中1表示两个分割区域完整重合，0表示两个分割区域完全没有重叠。Dice系数计算公式如下：

$Dice (A, B) = \frac{2 | A \cap B |}{| A | + | B |}$ (1)

3.3.2. 交并比(IoU)

IoU，用于度量预测的分割区域与真实的分割区域之间的重叠情况。计算公式如下：

$IoU = \frac{| A \cap B |}{| A \cup B |}$ (2)

在这个公式中， $| A \cap B |$ 表示预测分割区域与真实分割区域的交集区域面积， $| A \cup B |$ 表示它们的并集区域的面积。

3.3.3. 豪斯多夫距离(Hausdorff Distance, HD)

豪斯多夫距离，简称HD，是一种用于比较两个集合之间的相似性的度量。计算公式如下：

$H (A, B) = \max {h (A, B), h (B, A)}$ (3)

$h (A, B) = \max_{a \in A} {\min_{b \in B} ‖ a - b ‖}$ (4)

$h (B, A) = \max_{b \in A} {\min_{a \in A} ‖ b - a ‖}$ (5)

在这个公式中A表示预测分割区域，B表示真实分割区域， $h (A, B)$ 表示A中所有点到离B最近的点的最远距离， $h (B, A)$ 表示B中所有点到离A最近的点的最远距离。 $H (A, B)$ 表示这2个区域最近点的最远距离，这个值越高，表示预测分割图与真实分割图差异越大。

3.4. 对比实验

在本节中，我们使用了不同的网络模型U-Net、Attention U-Net、MulitRes U-Net与本文方法进行比较。表1展示了4种网络模型在测试集上得到的定量分析结果，其中最佳性能的值用粗体标记。从表1中可以看出，本文方法在DSC和IoU性能指标上均高于其他方法，分别达到了89.50%、82.46%。HD指标均小于其他方法，为2.80 mm。

Table 1. Quantitative results of four kinds of networks on the test set

表1. 4种网络在测试集上的定量结果

网络	DSC	HD	IoU
U-Net	86.33%	2.91 mm	77.60%
AttentionU-Net	87.52%	2.91 mm	79.12%
MultiResU-Net	85.99%	3.13 mm	77.10%
本文方法	89.50%	2.80 mm	82.46%

图5呈现了对胰腺囊性肿瘤进行分割时所采用的不同网络模型的结果的可视化。图5(a)列为胰腺囊性肿瘤图像，图5(b)列为专业医师标注的金标准，图5(c)~(f)列依次是ARDM-Net (本文方法)、Attention U-Net、MultiRes U-Net、U-Net的分割效果图。其中，图5(a)列所选择的三张图像是在测试集中挑选的表现典型的图像。在图像1中，肿瘤边界光滑清晰，这4种方法均能很好的分割出肿瘤区域。而图像2和图像3，肿瘤形状表现各异，与周围组织灰度接近，部分还存在肿瘤突出性结节。可以明显看出，相较于这三种网络模型，本文方法在处理大小形状差异大、区域边界不清晰的胰腺肿瘤分割任务具有一定的优势。这种优势主要是本文方法使用了多尺度双通道卷积模块多维度提取特征，同时引入注意力机制提高了网络对病灶的感知能力，增加了网络的建模能力，从而提高了分割效果。

Figure 5. Examples of segmentation results of the four types of networks on the test set

图5. 4种网络在测试集上的分割结果示例

3.5. 消融实验

为了验证本文使用的AG和RDM模块的有效性，本文进行了4组消融实验：1) 基础U-Net模型；2) 在U-Net基础上加入AG；3) 在U-Net基础上加入RDM模块；4) 在U-Net基础上加入AG和 RDM模块。实验结果如表2所示：

Table 2. Comparative analysis of ablation experiments

表2. 消融实验对比

RDM	AG	DSC	HD	IoU
×	×	86.33%	2.91 mm	77.60%
×	√	87.52%	2.91 mm	79.12%
√	×	88.61%	2.82 mm	80.98%
√	√	89.50%	2.80 mm	82.46%

通过对比表中的第一组和第二组实验数据，可以观察到加入AG模块后，模型的2项指标有着小幅提升，DSC提升了1.19%、IoU提升了1.52%，该结果验证了AG模块的有效性；进一步比较第一组和第三组实验数据，可以发现加入RDM模块，模型的性能显著的提升，DSC提升了2.28%、HD下降了0.09 mm、IoU提升了3.38%，该结果验证了RDM模块的有效性.此外，通过对比第一组和第四组实验数据可知，同时加入AG和RDM模块，它的三项指标都表现最优，DSC提升了3.17%，HD下降了0..11 mm，IoU提升了4.86%。由此可以得出，本文方法对U-Net做出的2点改进对于胰腺囊性肿瘤分割是十分有必要的。

4. 结论

本文提出的ARDM-Net模型融合了AG和RDM模块。通过数据裁切、RDM模块替代、AG模块融入等策略，成功提高了对胰腺囊性肿瘤的分割效果。在与其他模型的对比中，本方法在三项评价指标上表现最优，DSC为89.5%，HD为2.80 mm，IoU为82.46%。该实验结果展现了其在胰腺肿瘤分割任务中的显著优势，为医学影像分割领域带来重要的价值。

基金项目

国家自然科学基金(82171930)。

NOTES

^*通讯作者。

参考文献

[1]	徐佳薇, 武杰, 雷宇, 等. 用于烟雾病检测的Faster RCNN改进算法[J]. 数据采集与处理, 2022, 37(6): 1391-1400.
[2]	Buda, M., Wildman-Tobriner, B., Castor, K., Hoang, J.K. and Mazurowski, M.A. (2020) Deep Learning-Based Segmentation of Nodules in Thyroid Ultrasound: Improving Performance by Utilizing Markers Present in the Images. Ultrasound in Medicine & Biology, 46, 415-421. https://doi.org/10.1016/j.ultrasmedbio.2019.10.003
[3]	Wang, L., Yang, S., Yang, S., Zhao, C., Tian, G., Gao, Y., et al. (2019) Automatic Thyroid Nodule Recognition and Diagnosis in Ultrasound Imaging with the YOLOv2 Neural Network. World Journal of Surgical Oncology, 17, Article No. 12. https://doi.org/10.1186/s12957-019-1558-z
[4]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation.
[5]	Oktay, O., Schlemper, J., Folgoc, L.L., et al. (2018) Attention U-Net: Learning Where to Look for the Pancreas.
[6]	Ibtehaz, N. and Rahman, M.S. (2020) MultiResUNet: Rethinking the U-Net Architecture for Multimodal Biomedical Image Segmentation. Neural Networks, 121, 74-87. https://doi.org/10.1016/j.neunet.2019.08.025
[7]	Yang, X., Chen, Y., Yue, X., Ma, C. and Yang, P. (2021) Local Linear Embedding Based Interpolation Neural Network in Pancreatic Tumor Segmentation. Applied Intelligence, 52, 8746-8756. https://doi.org/10.1007/s10489-021-02847-9
[8]	Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J. and Wojna, Z. (2016) Rethinking the Inception Architecture for Computer Vision. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 2818-2826. https://doi.org/10.1109/cvpr.2016.308
[9]	Huang, G., Liu, Z., Van Der Maaten, L. and Weinberger, K.Q. (2017). Densely Connected Convolutional Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 2261-2269. https://doi.org/10.1109/cvpr.2017.243
[10]	He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778. https://doi.org/10.1109/cvpr.2016.90
[11]	侯向丹, 赵一浩, 刘洪普, 郭鸿湧, 于习欣, 丁梦园. 融合残差注意力机制的UNet视盘分割[J]. 中国图象图形学报, 2020, 25(9): 15.
[12]	Schlemper, J., Oktay, O., Schaap, M., Heinrich, M., Kainz, B., Glocker, B., et al. (2019) Attention Gated Networks: Learning to Leverage Salient Regions in Medical Images. Medical Image Analysis, 53, 197-207. https://doi.org/10.1016/j.media.2019.01.012

为你推荐

友情链接