DouDil-UNet++：基于Dil-UNet++网络的双分支编码器视网膜血管分割网络模型

期刊菜单

DouDil-UNet++：基于Dil-UNet++网络的双分支编码器视网膜血管分割网络模型
DouDil UNet++: A Network Model for Retinal Vessel Segmentation Based on Dil-UNet++ Network with Double Branch Encoder

DOI: 10.12677/jisp.2024.133027, PDF, HTML, XML, 下载: 60 浏览: 68 科研立项经费支持
作者: 米文辉, 佘海州：沈阳航空航天大学电子工程信息学院，辽宁沈阳；李鹤^*：沈阳工学院信息与控制学院，辽宁抚顺
关键词: Dil-UNet++；注意力机制；Transformer；视网膜血管分割；Dil-UNet++； Attention Module； Transformer； Retinal Vessel Segmentation

摘要: 视网膜血管的精确分割对于辅助医生在临床诊断眼科疾病具有重要意义。针对眼底视网膜血管图像中对比度不足、噪声干扰多、血管细节不明显等问题，在Dil-UNet++网络的基础上进行改进提出了DouDil- UNet++网络对视网膜血管进行准确分割。本文提出的DouDil-UNet++网络采用了双分支编码器U形结构，Dil-UNet++作为主分割网络提取视网膜血管图像的空间细节特征信息，Tr-Net作为辅分割网络用于提取视网膜血管图像的全局语义特征信息；在Tr-Net辅分割网络中使用由五层卷积组成的特征序列化模块与使用边缘多头注意力的Transformer特征提取模块来提取图像的全局特征信息；同时使用特征融合模块对主分割网络与辅分割网络提取的特征信息进行聚合。为了验证网络的分割效果，在DRIVE和STARE视网膜血管数据集上进行了分割实验，在DRIVE数据集上该模型的Dice系数、准确度和精确度分别达到87.93%、96.39%和93.52%；在STARE数据集上该模型的Dice系数、准确度和精确度分别达到88.71%、97.79%和87.08%。结果表明本文提出的网络在分割视网膜血管图像任务中有着良好的性能，有一定的使用价值。

Abstract: A network named DouDil-UNet++ is proposed in this paper to address the challenges of low contrast, high noise, and indistinct vascular details in retinal fundus images, aiming to achieve accurate segmentation of retinal vessels, which is crucial for assisting clinicians in the diagnosis of ophthalmic diseases. The DouDil-UNet++ network is an improved version based on the Dil-UNet++ network and incorporates a dual-branch encoder U-shaped structure. The Dil-UNet++ serves as the main segmentation network to extract spatial detailed features from the retinal vascular images, while the Tr-Net functions as the auxiliary segmentation network to capture global semantic features. The Tr-Net employs a feature sequence module consisting of five convolutional layers and a Transformer feature extraction module with edge multi-head attention to capture the global features of the images. Additionally, a feature fusion module is utilized to aggregate the feature information extracted by the main and auxiliary segmentation networks. To assess the segmentation performance, experiments were conducted on the DRIVE and STARE retinal vessel datasets. On the DRIVE dataset, the model achieves a Dice coefficient of 87.93%, an accuracy of 96.39%, and a precision of 93.52%. On the STARE dataset, the model achieves a Dice coefficient of 88.71%, an accuracy of 97.79%, and a precision of 87.08%.The results indicate that the proposed network exhibits good performance in retinal vessel segmentation tasks, demonstrating its utility and effectiveness.

文章引用：米文辉, 佘海州, 李鹤. DouDil-UNet++：基于Dil-UNet++网络的双分支编码器视网膜血管分割网络模型[J]. 图像与信号处理, 2024, 13(3): 311-327. https://doi.org/10.12677/jisp.2024.133027

1. 引言

眼底血管是人体唯一能够在体外直接观察到的血管，眼科医生观察眼底图像中呈现的血管形态可以有效的分析判断糖尿病视网膜病变、青光眼和微动脉瘤等眼部疾病[1]。但是由于眼底血管形态多样，结构极其复杂，使得从图片中提取血管的任务非常具有挑战性。因此，利用自动分割方法辅助医生进行相关疾病的诊断和预测能够提高诊断和就诊效率。

自动分割眼底视网膜血管的技术主要分为传统图像分割方法和基于深度学习的分割方法。在传统图像分割方法中，常见的技术包括基于匹配滤波法和基于模糊聚类的方法等。这些传统方法往往因为容易受到噪声和图像质量的影响，导致分割效果不尽如人意。为了克服这些限制，随着深度学习技术在图像处理领域的快速发展，越来越多的研究者开始探索深度学习在图像分割领域的应用。

2014年，Long等人基于卷积神经网络(CNN)的框架[2]，提出了全卷积网络(FCN) [3]。FCN通过使用卷积层替代传统CNN中的全连接层，有效地保留了图像的细节信息，实现了图像的语义分割。2015年，Ronneberger等人提出的UNet模型[4]，在医学图像分割领域引起了广泛关注。UNet模型的结构主要包括编码器、解码器和跳跃连接，其中跳跃连接有效地缩小了上下文信息之间的差距，显著提升了网络在图像分割任务中的性能。2019年Zhou等人提出了UNet++网络[5]，该网络通过在多层U-Net结构之间引入网状的跳跃连接，解决了随着网络深度增加，分割性能不一定提升的问题[6]。这种结构使得网络能更有效地捕捉目标的特征，从而提高了分割的准确性。2021年，Chen等人将处理语言序列的Transformer技术与UNet结合，提出了TransUNet [7]。该模型在编码阶段采用了直接序列化的下采样图像，并利用Transformer模块来提取特征，通过整合不同尺度的特征信息，取得了优异的分割效果[8]。最新的Dil-UNet++模型在视网膜血管分割任务中也表现出色[9]。该模型在编码器部分引入了空洞卷积模块，这一改进显著增大了特征提取时的感受野。此外，基于UNet++的架构，Dil-UNet++还采用了级联的注意力机制，进一步提高了分割的精度和性能。尽管这些先进的算法已经在提高血管分割的准确性方面取得了显著进展，但仍然存在一些挑战，比如血管断裂、血管末端的遗漏分割以及对空间信息的关注不足等问题，这些都需要未来研究中进一步的探索和解决。

针对视网膜血管图像中血管结构复杂、形状不规则和管径细小等特点，本文提出了双分支编码器分割网络DouDil-UNet++，该网络模型可以用双分支编码器的结构同时分别提取血管图像的空间信息特征和全局语义特征，也能够充分提取融合多尺度的血管特征，避免分割结果中血管图像细节的丢失。本文的主要工作包括：(1) 提出了一个包含Dil-UNet++主分割网络和辅分割网络的双分支编码器结构网络模型，分别用于提取血管图像的空间细节特征信息与全局特征信息，同时提高网络对整体血管结构和血管连接细节部分分割的准确性。(2) 为了更好的提取血管图像的空间特征信息，在Transformer结构的基础上提出了Tr-Net辅分割网络，将特征序列化模块和Transformer特征提取模块串行结合，同时在Transformer模块中使用改进后的边缘多头注意力机制，使网络更好的分割血管的交叉处与边缘细节特征。(3) 使用特征融合模块实现主分割网络与辅分割网络的多尺度特征信息融合，避免血管信息在处理时丢失，从而优化网络的分割性能。本文提出的DouDil-UNet++网络模型结构如图1所示。

Figure 1. The overall framework of the DouDil-UNet++ model

图1. DouDil-UNet++模型整体框架

2. 主要研究内容

2.1. Tr-Net辅分割网络结构

眼底视网膜血管图像的复杂性较高，因此在提取图像中血管细节部分是分割的关键，获取图像全局上下文信息之间的依赖关系对分割血管区域和背景区域也十分重要，但是仅靠卷积神经网络很难提取远距离特征的联系关系[10]。常用于处理语言序列的Transformer结构打破了卷积神经网络在提取图像全局特征信息时的局限性。为了进一步利用卷积神经网络和Transformer结构的优势特点，本文以并行的方式将两者结合，提出了DouDil-UNet++双分支编码器网络结构。Dil-UNet++卷积神经网络提取图像的局部细节特征，提供丰富的位置信息和高级语义信息，提升网络对血管部分的检测和定位能力；Tr-Net为网络提供全局上下文信息，提升网络对血管结构识别的能力。Tr-Net辅分割网络主要由特征序列化模块和Transformer特征提取模块组成，首先使用特征序列化模块将输入的血管图像序列化，然后经过线性投影层将处理好的特征序列输入到Transformer特征提取模块。Tr-Net辅分割网络结构如图2所示。

Figure 2. Structure of the Tr-Net auxiliary partition network

图2. Tr-Net辅分割网络结构

2.2. 特征序列化模块

Transformer的输入是一个特征序列，所以在图像输入Transformer模块前需要将图像特征序列化处理[11]。首先将大小为H*W*C的待分割图像输入到特征序列化模块，此模块由五层大小为3*3的卷积层组成，获得尺寸大小为H_F*W_F的特征图，并将特征图按照设定的大小P将特征图划分为N个2D的图像补丁，其中图像补丁的尺寸为P*P，总数为N = (H_FW_F)/P²，由此，输入图像被转变成了一个长度为N的扁平化2D序列。随后通过线性变换将补丁X^P映射到维度为D的空间上，同时对图像补丁进行位置编码，使其在训练过程中能够学习到特征信息的位置特性，如公式1所示。

$z_{0} = [x_{p}^{1} E; x_{p}^{2} E; \dots; x_{p}^{N} E] + E_{p o s}$ (1)

Figure 3. Structure of feature serialization module

图3. 特征序列化模块结构

在式子中E ϵ R⁽^P²^*^C⁾^*^D表示图像补丁的嵌入投影；E ϵ R^N^*^D表示位置编码。经过以上步骤，特征序列化模块将输入的图像序列化处理并完成语义嵌入。特征序列化模块结构如图3所示。

2.3. Transformer特征提取模块

在图像分割领域，由于医学图像本身结构复杂，数据标注存在困难，所以尽管基于卷积神经网络的模型在医学图像分割领域取得了很好的效果，但卷积操作提取全局信息不足的局限性阻碍了分割网络精度的进一步提升[12]。于是人们开始采用自然语言处理领域中广受欢迎的Transformer结构来克服卷积操作的不足。Transformer结构能够将图像每个像素点与周围的像素点建立联系，提取全局特征信息，还可以对不同尺度的特征进行融合，从而进一步提高分割精度与分割效果。与卷积神经网络结构类似，Transformer也由编码器和解码器构成，每个编码器包括位置编码(Positional Encoding)、多头注意力机制(Multi-Head Attention)、层正则化(Layer Normalization, LN)、前馈神经网络(Feed Forward Network, FFN)和跳跃连接(Skip-Connection)。解码器的结构和编码器大致相同，只在输入层增加了一个掩码多头注意力机制(Masked Multi Head Attention)。Transformer结构如图4所示。

Figure 4. Structure of Transformer

图4. Transformer结构

2.3.1. 边缘多头注意力机制

自注意力机制是Transformer结构的核心，在捕捉长距离依赖方面发挥了重要作用[13]。自注意力机制的公式如式2所示。

$A t t e n t i o n (q, k, v) = S o f t m a x (\frac{q k^{T}}{\sqrt{d_{k}}}) v$ (2)

其中，q、k、v表示输入特征层通过线性映射得到的特征向量；d_k代表向量k的维度。

在多头注意力机制中，我们使用多组q、k、v向量分别组成矩阵Q、K，V，然后并行地对它们进行计算，最后将它们在通道维度进行拼接。通过多头注意力机制，不同的维度能够学习到来自不同子空间的不同特征表示。

为了使注意力机制在特征信息解码输入时更关注血管边缘细节信息，在进行线性操作前对矩阵Q、K、V分别经过大小为2*2的卷积操作和最大池化操作，提取深层的图像细节特征。边缘多头注意力机制的公式如3所示。

$\begin{matrix} Q', K', V' = \max [C o n v (Q, K, V)] \\ M u l t i H e a d (Q', K', V') = C o n c a t (H e a d_{1}, H e a d_{2}, \dots, H e a d_{H}) W^{0} \\ H e a d_{l} = A t t e n t i o n (Q W_{l}^{Q'}, K W_{l}^{K'}, V W_{l}^{V'}) \end{matrix}$ (3)

其中， $i = 1, 2, \dots, H$ ，表示边缘多头注意力中头的个数；W_i^Q^’和W_i^K^’是形式为(d_model, d_k)的矩阵，W_i^V^’是形式为(d_model, d_V)的矩阵。d_k = d_V = d_model/H，H代表边缘多头注意力中头的数量，三者都是用于映射输入的可以学习参数矩阵；而d_model则代表了整个序列的维度；Concat是矩阵拼接操作；Attention是边缘多头注意力机制。边缘多头注意力机制结构如图5所示。

Figure 5. Marginal multi head attention mechanism

图5. 边缘多头注意力机制

2.3.2. 前馈神经网络

前馈神经网络FFN由两个正则化层两个线性层一个ReLU激活函数组成[14]，公式如式4所示。

$F F N = \max (0, X W_{1} + b_{1}) W_{2} + b_{2}$ (4)

其中，X是输入的图像矩阵：XW_i是和X大小尺寸相同的矩阵；b_i是长等于X通道数的一维向量。前馈神经网络结构如图6所示。

Figure 6. Feed forward neural network

图6. 前馈神经网络

2.4. 特征融合模块

经典的U-Net分割网络通常将特征提取编码器与解码器进行同尺度特征融合，在网络对图像特征提取的阶段，随着网络层数的加深特征图像的分辨率会不断下降，因此其包含的语义信息会随着减少，从而导致图像的边缘细节信息丢失[15]。为了解决血管语义信息丢失的问题在Dil-UNet++主分割网络和Tr-Net辅分割网络各自的编码器特征提取操作后，将主分割网络提取的血管图像空间特征信息与辅分割网络提取的血管图像全局特征信息进行特征融合，来实现相互补充特征信息的作用。同时将辅分割网络特征序列化模块处理后的特征信息与主分割网络下采样后的特征信息也进行特征融合，实现特征信息的多尺度融合。

在辅分割网络特征序列化模块和Transformer模块的每一层输出后增加一个特征融合模块，每个特征融合模块由一个3 × 3的卷积层和一个Sigmoid激活函数组成，负责将各层输输出进行融合，得到最终的分割结果。改进的特征融合模块通过对空间特征信息和全局特征信息多个尺度特征的学习融合，实现了对各层级特征充分的利用，极大的避免了特性信息经过编码器处理后的丢失的情况，可以获得更好的分割结果，同时，改进的多尺度融合监督结构并没有引入过多的参数。

特征融合过程公式如式5所示。

$F (X_{l}) = F^{l} (X_{l}) \oplus F^{H} (X_{l + 1})$ (5)

其中，F_L代表空间特征信息，F_H代表全局特征信息，l为特征图的层数，⊕为元素加法。

3. 算法验证与结果分析

3.1. 实验环境配置

本文实验平台的操作系统基于64位Windows，python版本为3.8，编程软件为PyCharm，模型训练和测试基于深度学习框架PyTorch 1.13.0，在实验中，采用Adam优化器对网络参数进行优化[16]，其初始学习率被设定为0.005。为了更新学习率，采取了阶梯式衰减的策略，其中衰减因子设置为0.01，动量参数设定为0.9。此外，权重衰减系数为0.0005，以帮助防止模型过拟合[17]。实验的迭代次数总共设定为100次。损失函数使用了CrossEntropyLoss2d交叉熵损失函数[18]，用于计算模型预测值与实际标签值之间的差异，从而指导模型在训练过程中的参数调整。

3.2. 数据集选择

本文采用DRIVE和STARE这两个眼底视网膜血管图像数据集来验证本文所提出模型的分割性能。具体来说，DRIVE数据集包含40张彩色眼底血管图像[14]，每张图像的分辨率为565 × 584像素。在这40张图像中，有7张图像显示出早期糖尿病视网膜病变的特征，而其他33张则没有这种病变。DRIVE数据集将前20张图像设定为训练集，而后20张图像则用作验证集。每张图像都配有相应的人工分割的血管真值图像和相应的掩膜。而STARE数据集则包含20张彩色眼底血管图像[19]，每张图像的分辨率为700 × 605像素。在这个数据集中，前15张图像被设定为训练集，剩余的5张用作验证集。与DRIVE数据集类似，STARE数据集中的每张图像也都有相应的人工分割的血管真值图像和相应的掩膜。数据集图像如图7、图8所示。

(a) 数据集原图 (b) 数据集标签图 (c) 数据集自带掩膜

Figure 7. DRIVE dataset image

图7. DRIVE数据集图像

(a) 数据集原图 (b) 数据集标签图 (c) 数据集自带掩膜

Figure 8. STARE dataset image

图8. STAREE数据集图像

3.3. 数据集预处理

在DRIVE和STARE数据集中，所包含的血管图像均为RGB模式。这些图像中常常含有如光斑和杂质等多种噪声，这些噪声因素可能会影响图像分割的精度。为了提高分割的准确性，本文在模型训练之前实施了一系列预处理步骤以突出图像中的血管部分。预处理的第一步是将彩色图像转换为灰度图像[14]，这一转换能够提高血管与背景之间的对比度，从而获得对比度较高的灰度图像。接下来，通过自适应直方图均衡化技术来调整图像的对比度[20]，这一步骤不仅能够凸显血管部分，还能有效抑制图像中的无关噪声。最后，采用自适应Gamma矫正技术调整图像的曝光度[21]，解决了图像中存在的光照不均匀问题，进一步增强了血管的视觉特征。这些预处理步骤的效果在文中的图9中有所展示，图中明显可见各阶段处理后图像质量的改善和血管特征的突出。

(a) 原图像 (b) 灰度化图像 (c) 直方图均衡化图像 (d) Gamma矫正图像

Figure 9. Images at various stages of pre-processing

图9. 预处理各阶段图像

3.4. 数据量扩增

(a) 视网膜血管图像样本块

(b) 视网膜血管标签图像样本块

Figure 10. Retinal vessel image after cropping

图10. 裁剪后视网膜血管图像

由于DRIVE和STARE眼底视网膜血管数据集中的图像数量相对较少，这一限制可能导致模型在训练过程中容易发生过拟合现象[22]。为了解决这一问题，本文采取了随机裁剪的方法来增加数据集的样本量。具体操作是从每张血管图像及其对应的标记图像中随机选取大小为48 × 48像素的2000个局部样本块，这些样本块被用于模型的训练过程中。这种方法不仅显著增加了训练数据的数量，而且也有助于增强模型对不同图像特征的泛化能力。通过这种方式，模型能够更好地学习和理解血管图像的多样性和复杂性。随机裁剪得到的血管图像样本块及其相应的标签图像样本块如图10所示，从中可以直观地看到各种不同的血管图像特征和对应的标签。

3.5. 评价指标参数

为了全面评估模型在视网膜眼底血管图像分割任务上的有效性，本文采用生成混淆矩阵的方法[23]，并计算了一系列评估指标。这些指标包括相似系数(Dice) [24]、均并交比(MIOU) [25]、准确率(Accuracy) [26]、精确度(Precision) [27]以及F1 score [28]。这些指标的计算结果将直接反映模型在血管分割方面的性能。相似系数(Dice)主要用于衡量两个样本的相似度，特别是在医学图像分析中，用于评估分割的准确性。均并交比(MIOU)是一种常用的评估图像分割质量的指标，它计算的是预测分割和真实分割之间的交集与并集的比例。准确率(Accuracy)表示所有被正确分类的像素点占总像素点的比例，是最直观的性能评价指标。精确度(Precision)关注于被预测为正类的样本中实际为正类的比例，是评估模型预测准确性的重要指标。F1 score结合了精确度和召回率(recall)的调和平均，是衡量二分类模型精确度的重要指标，尤其在类别不平衡的情况下更为重要。

理论上，这五个评价指标的数值越高，表明血管分割的效果越好。特别是F1 score，它通常用来衡量二分类模型的精确度，F1 score的高值表明模型在分类任务中的表现更佳。这些评价指标的具体数学表达形式如式6所示，通过这些公式可以精确地计算出每个指标的数值，从而对模型的整体性能进行科学的评估。

$\begin{matrix} Dice = \frac{2 TP}{FP + 2 TP + FN} \\ IOU = \frac{TP}{TP + FP + FN} \\ ACC = \frac{TP + TN}{TP + FP + TN + FN} \\ Pre = \frac{TP}{TP + FP} \\ Rec = \frac{TP}{TP + FN} \\ F 1 = 2 * \frac{Pre + Rec}{Pre*Rec} \end{matrix}$ (6)

其中，TP为正确分割的血管像素的数目，TN为被正确分割的背景像素的数目，FP为被错误分割为血管像素的背景像素，FN为被错误分割为背景像素的血管像素[29]。

此外，为了进一步深入评估模型的性能，本文还引入了PR (Precision-Recall)曲线和ROC (Receiver Operating Characteristic)曲线的曲线下面积作为评价指标。PR曲线是通过综合考虑召回率和精确度来评估模型的性能，特别适用于数据集中正负样本分布不均的情况。ROC曲线则通过综合考虑敏感度或真正率和特异性或假正率来评估模型的性能。

PR曲线的横轴是召回率，纵轴是精确度，曲线下的面积越大，说明模型在保持召回率的同时也能保持较高的精确度，表明模型的性能较好。同样，ROC曲线的横轴是假正率，纵轴是真正率，其曲线下的面积也是一个重要的性能指标。线下面积值越大，说明模型在区分正负样本的能力越强，性能越优秀。因此，PR和ROC曲线下的面积越大，不仅表明模型具有更好的分类精度，也表明其具有良好的鲁棒性。通过这两种曲线的综合评估，可以全面了解模型在视网膜眼底血管图像分割任务中的整体表现。

3.6. 实验结果与分析

Figure 11. Example of segmentation results for the DRIVE dataset (original, probabilistic prediction, binary prediction, and labeled graphs in that order)

图11. DRIVE数据集分割结果示例(依次为原图、概率预测图、二值预测图和标签图)

Figure 12. Example of segmentation results for the STARE dataset (original, probabilistic prediction, binary prediction, and labeled graphs in that order)

图12. STARE数据集分割结果示例(依次为原图、概率预测图、二值预测图和标签图)

本文提出的DouDil-UNet++双分支编码器网络分别在DRIVE和STARE视网膜血管数据集上进行了实验，分割结果分别如图11、图12所示。其中，对比DRIVE数据集上的标签与分割结果，标签图像中的血管主干网络结构完整的保存下来，血管末端细节也很好的分割出来，受到噪声干扰较少。从STARE数据集的标签与分割结果图来看，血管的整体结构以及细节都很好的被分割提取处理，尤其是在视神经盘病变区域，网络模型能够排除干扰分清血管部分与背景部分。实验结果体现了本文提出网络模型的抗干扰能力和适应能力，能够有效的完成视网膜血管分割任务。

DRIVE和STARE数据集图像交叉处血管和亮斑处血管的局部放大图如图13所示。从图像结果中可以观察到，本研究所提出的模型在处理视网膜血管图像中的交叉点和亮斑区域时，能够实现非常精确的分割效果。此外，模型在保留细小血管的同时，也确保了血管的平滑度和连通性，这些都明显优于传统的手工分割方法所生成的标签图。

通过对比分析模型处理后的图像与原始手工标记的图像，可以明显看出本文模型在细节处理上的细致与准确。局部放大的视图进一步证明了Dil-UNet++模型在分割视网膜血管细节方面的优越性和稳定性。这种精确的分割有助于更好地识别和分析血管结构，体现了该模型在医学图像分割领域的应用潜力。

(a) 原图 (b) 局部图 (c) 分割结果图 (d) 分割标签图

(a) 原图 (b) 病变区域局部图 (c) 分割结果图 (d) 分割标签图

Figure 13. Enlarged view of local segmentation results of the STARE dataset

图13. STARE数据集局部分割结果放大图

Figure 14. Image of verification process accuracy and F1 value variation

图14. 验证过程准确度与F1值变化图

在DRIVE数据集上验证过程准确度与F1值变化如图14所示，由图可知，随着迭代次数的增加，准确度与F1值也随之增加，在迭代次数趋近于一百时，准确度与F1值变化趋于平稳并达到最高，分别为0.9639和0.8452。

精确度–召回率曲线与ROC曲线以及其各自的线下面积能够直观的体现网络分割的效果，在DRIVE数据集上分割结果的PR曲线和ROC曲线如图15所示。其中，PR曲线线下面积为0.9125，说明模型有较高的召回率和精确度，能够精确的分割出血管细节部分；ROC曲线线下面积为0.9793，说明模型能够清楚识别分清血管部分与背景部分。

Figure 15. PR curve and ROC curve

图15. PR曲线和ROC曲线

在STARE数据集上进行实验验证，分割准确度与F1值随迭代次数变化如图16所示，在迭代次数达到一百次左右时，变化趋于平稳，准确度与F1值分别达到0.9779和0.8853。

Figure 16. Image of verification process accuracy and F1 value variation

图16. 验证过程准确度与F1值变化图

在STARE数据集上实验验证分割结果精确度–召回率曲线与ROC曲线如图17所示。PR曲线线下面积达到0.8679，说明网络在分割STARE视网膜血管数据集图像时能够高效的提取分割血管部分，受到噪声的干扰较小。ROC曲线线下面积达到0.9766，表明了网络能够将血管部分与背景部分精确区分，误分割的概率较小。

为了验证本章提出的模块在视网膜血管图像分割任务中的有效性，在DRIVE和STARE数据集上进行了消融实验，通过逐步增加模块并比较实验结果，评估每个模块对分割性能的贡献，进一步验证了模块的有效性，使用DICE系数、平均交并比MIoU、准确度Accuracy、F1值作为评价指标进行实验对比。Dil-UNet++作为基准网络；C-Dil-UNet++表示加入特征序列化模块的Dil-UNet++的网络；Tr-Dil-UNet++表示为加入由特征序列化模块和Transformer特征提取模块组成辅分割网络的Dil-UNet++的网络；DouDil-UNet++表示加入辅分割网络和特征融合模块的Dil-UNet++网络。消融实验结果如表1、表2所示。

Figure 17. PR curve and ROC curve

图17. PR曲线和ROC曲线

Table 1. Ablation results on the DRIVE dataset (%)

表1. 在DRIVE数据集上消融实验结果(%)

Architecture	DICE	MIoU	Accuracy	F1
Dil-UNet++	87.68	84.03	96.05	82.02
C-Dil-UNet++	87.19	83.88	95.92	83.02
Tr-Dil-UNet++	87.72	85.07	96.13	84.38
DouDil-UNet++	87.93	85.29	96.39	84.52

Table 2. Ablation results on the STARE dataset (%)

表2. 在STARE数据集上消融实验结果(%)

Architecture	DICE	MIoU	Accuracy	F1
Dil-UNet++	87.48	82.25	95.62	86.54
C-Dil-UNet++	88.19	82.64	96.55	87.29
Tr-Dil-UNet++	88.33	83.16	97.14	87.59
DouDil-UNet++	88.71	83.27	97.79	88.53

由表1、表2可知，在DRIVE和STARE数据集中本章所提出的DouDil-UNet++网络模型相较于Dil-UNet++、C-Dil-UNet++和Tr-Dil-UNet++，在DICE、MIoU、Acc和F1评价指标上都有一定程度的提高。在DRIVE数据集中，本文提出的综合所有模块的DouDil-UNet++网络模型相对于Dil-UNet++、C-Dil-UNet++和Tr-Dil-UNet++，在DICE指标上分别提升了0.25%、0.74%、0.21%；在MIoU指标上分别提升了1.26%、1.41%、0.22%；在准确率方面分别提升了0.34%、0.47%、0.26%；在F1-Score上分别提升了2.5%、1.5%、0.14%。而在STARE数据集中，本文提出的DouDil-UNet++网络模型相对于Dil-UNet++、C-Dil-UNet++和Tr-Dil-UNet++，在DICE指标上分别提升了1.23%、0.62%、0.38%；在MIoU指标上分别提升了1.02%、0.63%、0.11%；在准确率方面分别提升了2.17%、1.24%、0.65%；在F1-Score指标上分别提升了1.99%、1.24%、0.94%。在两个数据集上的消融实验的结果显示，本章提出的几个模块在视网膜血管图像分割任务中均能够显著提高分割精度。

为了进一步突出本文提出网络在血管图像分割任务上的优越性，在相同条件环境下使用不同网络对DRIVE数据集与STARE数据集分割处理，与DouDil-UNet++网络在五个常用的分割评价指标上进行横向对比。如表3所示，在分割DRIVE数据集任务中，DouDil-UNet++网络模型的DICE系数、平均交并比MIoU、准确度、精确度、F1值分别达到87.93%、85.29%、96.39%、93.52%、84.57%，与次优网络Dil-UNet++相比，在DICE系数上提升了0.25%，在MIoU上提升了3.02%，在准确度上提升了5.83%，在精确度上提升了2.85%，在F1值上提升了0.8%。实验数据表明了DouDil-UNet++网络能够对背景以及血管区域的分割更加准确，可以保持优秀的精度和稳健性，具有出色的泛化能力。

Table 3. Comparison of validation results of different models in the DRIVE dataset (%)

表3. 不同模型在DRIVE数据集验证结果比较(%)

Architecture	DICE	MIoU	Accuracy	Precision	F1
UNet	83.21	84.00	89.15	89.21	75.29
UNet++	86.09	87.15	94.16	90.32	79.57
TransUNet	82.37	82.50	90.22	89.97	82.88
Dil-UNet++	87.68	85.52	96.05	92.82	83.72
DouDil-UNet++	87.93	85.29	96.39	93.52	84.52

在SRIVE数据集中有病变特征的血管图像占百分之五十，因此会对分割任务造成比较大的影响，但是本文提出的DouDil-UNet++网络能够在噪声的影响下高效完成分割任务。不同网络在STARE数据集上的分割结果如表4所示，DouDil-UNet++网络的DICE系数、平均交并比MIoU、准确度、精确度、F1值分别达到88.71%、83.27%、97.79%、87.08%、88.53%，与次优网络Dil-UNet++相比，在DICE系数上提升了1.23%，在MIoU上提升了1.02%，在准确度上提升了2.17%，在精确度上降低了0.2%，在F1值上提升了1.99%。实验数据表明DouDil-UNet++网络能够尽量避免血管图像中病变特征噪声的影响，具有良好的分割效果和稳定性。

Table 4. Comparison of validation results of different models in the DRIVE dataset (%)

表4. 不同模型在DRIVE数据集验证结果比较(%)

Architecture	DICE	MIoU	Accuracy	Precision	F1
UNet	85.15	81.26	91.58	83.91	82.28
UNet++	85.22	83.59	94.16	85.22	81.33
TransUNet	87.91	82.70	91.26	86.91	85.66
Dil-UNet++	87.48	82.25	95.62	87.28	86.54
DouDil-UNet++	88.71	83.27	97.79	87.08	88.53

4. 结论

在眼底视网膜血管分割任务中，由于血管结构复杂，交叉处与边缘细节模糊，与背景对比度较低等特征，尤其是病变特征的血管图像，血管会更加难以区分，这些都会给网络分割血管造成困难。为了准确高效的分割视网膜血管图像，本文提出了双分支编码器分割网络DouDil-UNet++，首先提出了Tr-Net辅分割网络，与Dil-UNet++网络组成双分支结构，使网络能够同时提取图像中丰富的语义信息和完整的空间信息；其次为了提取血管细节信息，针对性地提出了边缘多头注意力机制，运用在Tr-Net辅分割网络中的Transformer特征提取模块；最后使用特征融合模块将辅分割网络各尺度输出与主网络特征提取模块各尺度输出特征信息进行聚合，进一步丰富上下文语义信息，缓解模型在下采样过程中的信息丢失问题。实验结果表明，DouDil-UNet++网络模型在DRIVE数据集和STARE数据集上都有良好的分割效果，与常用最新的分割网络相比较，在各项分割评价指标上都有一定的提升，证明了本文提出网络的可行性和实用性。

虽然本文提出的方法在眼底视网膜数据集上进行实验验证得到了良好的效果，但是在模型参数量以及数据量扩增上都存在改进的空间。

基金项目

辽宁省教育厅科学研究经费项目(L202004)。

NOTES

^*通讯作者。

参考文献

[1]	Kadry, S., Rajinikanth, V., Damasevicius, R. and Taniar, D. (2021) Retinal Vessel Segmentation with Slime-Mould-Optimization Based Multi-Scale-Matched-Filter. 2021 Seventh International conference on Bio Signals, Images, and Instrumentation (ICBSII), Chennai, 25-27 March 2021, 1-5. https://doi.org/10.1109/icbsii51839.2021.9445135
[2]	Soares, J.V.B., Leandro, J.J.G., Cesar, R.M., Jelinek, H.F. and Cree, M.J. (2006) Retinal Vessel Segmentation Using the 2-D Gabor Wavelet and Supervised Classification. IEEE Transactions on Medical Imaging, 25, 1214-1222. https://doi.org/10.1109/tmi.2006.879967
[3]	Ala‐Kauhaluoma, M., Ijäs, P., Koskinen, S.M., Nuotio, K., Vikatmaa, P., Silvennoinen, H., et al. (2023) Retinal Vessel Diameters and Microvascular Abnormalities in Patients with Carotid Stenosis before and 6 Months after Carotid Endarterectomy: A Prospective Study. Acta Ophthalmologica, 101, 536-545. https://doi.org/10.1111/aos.15633
[4]	Owen, B.J. and Sathyaprakash, B.S. (1999) Matched Filtering of Gravitational Waves from Inspiraling Compact Binaries: Computational Cost and Template Placement. Physical Review D, 60, Article 022002. https://doi.org/10.1103/physrevd.60.022002
[5]	Shelhamer, E., Long, J. and Darrell, T. (2017) Fully Convolutional Networks for Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 640-651. https://doi.org/10.1109/tpami.2016.2572683
[6]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, Munich, 5-9 October 2015, 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
[7]	Zhou, Z., Siddiquee, M.M.R., Tajbakhsh, N. and Liang, J. (2020) Unet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation. IEEE Transactions on Medical Imaging, 39, 1856-1867. https://doi.org/10.1109/tmi.2019.2959609
[8]	Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[9]	米文辉, 李鹤, 佘海州. Dil-UNet++: 基于UNet++的多尺度融合视网膜血管分割网络模型[J]. 计算机科学与应用, 2024, 14(1): 54-67. https://doi.org/10.12677/CSA.2024.141007
[10]	Cervan, R.L., Francisco, J. and Perez, R. (2022) Theoretical Model of Attention Deficit with Hyperactivity Disorder I: Operational Definition. Electronic Journal of Research in Educational Psychology, 8, 1303-1338.
[11]	Tayeh, T., Aburakhia, S., Myers, R. and Shami, A. (2022) An Attention-Based ConvLSTM Autoencoder with Dynamic Thresholding for Unsupervised Anomaly Detection in Multivariate Time Series. Machine Learning and Knowledge Extraction, 4, 350-370. https://doi.org/10.3390/make4020015
[12]	郭峰. 基于改进U型网络的视网膜血管分割方法研究[D]: [硕士学位论文]. 长春: 长春师范大学, 2023.
[13]	Li, C., Tan, Y., Chen, W., Luo, X., Gao, Y., Jia, X., et al. (2020) Attention Unet++: A Nested Attention-Aware U-Net for Liver CT Image Segmentation. 2020 IEEE International Conference on Image Processing (ICIP), Abu Dhabi, 25-28 October 2020, 345-349. https://doi.org/10.1109/icip40778.2020.9190761
[14]	Li, X., and Chen, G. (2021) Improving Topology Consistency of Retinal Vessel Segmentation via a Double U-Net with Asymmetric Convolution. In: Su, R., Zhang, YD. and Liu, H., Eds., Proceedings of 2021 International Conference on Medical Imaging and Computer-Aided Diagnosis (MICAD 2021), Springer, Singapore, 134-144. https://doi.org/10.1007/978-981-16-3880-0_15
[15]	Yang, X., Li, Z., Guo, Y. and Zhou, D. (2022) DCU-Net: A Deformable Convolutional Neural Network Based on Cascade U-Net for Retinal Vessel Segmentation. Multimedia Tools and Applications, 81, 15593-15607. https://doi.org/10.1007/s11042-022-12418-w
[16]	Yan, Z., Yang, X. and Cheng, K. (2019) A Three-Stage Deep Learning Model for Accurate Retinal Vessel Segmentation. IEEE Journal of Biomedical and Health Informatics, 23, 1427-1436. https://doi.org/10.1109/jbhi.2018.2872813
[17]	刘金. 融合注意力机制和多尺度特征的眼底图像分割方法研究[D]: [硕士学位论文]. 桂林: 桂林电子科技大学, 2023.
[18]	Surekcigil Pesch, I., Bestelink, E., de Sagazan, O., Mehonic, A. and Sporea, R.A. (2022) Multimodal Transistors as Relu Activation Functions in Physical Neural Network Classifiers. Scientific Reports, 12, Article No. 670. https://doi.org/10.1038/s41598-021-04614-9
[19]	Heindl, M., Tenbohlen, S., Velásquez, J., et al. (2022) Transformer Modelling Based on Frequency Response Measurements for Winding Failure Detection. Proceedings of the 2010 International Conference on Condition Monitoring and Diagnosis, Tokyo, 6-11 September 2010, 201-204.
[20]	李紫正. 基于U-Net和注意力机制的视网膜眼底图像分割方法研究[D]: [硕士学位论文]. 桂林: 桂林电子科技大学, 2023.
[21]	Sun, X., Li, J., Ma, J., Xu, H., Chen, B., Zhang, Y., et al. (2021) Segmentation of Overlapping Chromosome Images Using U-Net with Improved Dilated Convolutions. Journal of Intelligent & Fuzzy Systems, 40, 5653-5668. https://doi.org/10.3233/jifs-201466
[22]	Wei, X., Junwei, T. and Chi, Z. (2023) DC-CBAM-UNet++ Network for Lung Nodule Image Segmentation. Software Guide, 22, 125-130.
[23]	Vigneron, V., Maaref, H. and Syed, T.Q. (2021) A New Pooling Approach Based on Zeckendorf’s Theorem for Texture Transfer Information. Entropy, 23, 279. https://doi.org/10.3390/e23030279
[24]	苏赋, 方东, 王龙业, 等. 基于双解码路径DD-UNet的脑肿瘤图像分割算法[J]. 光电子∙激光, 2023, 34(3): 328-336.
[25]	Du, H., Zhang, X., Song, G., Bao, F., Zhang, Y., Wu, W., et al. (2023) Retinal Blood Vessel Segmentation by Using the MS-LSDNet Network and Geometric Skeleton Reconnection Method. Computers in Biology and Medicine, 153, Article 106416. https://doi.org/10.1016/j.compbiomed.2022.106416
[26]	Li, B., Wu, F., Liu, S., Tang, J., Li, G., Zhong, M., et al. (2022) CA‐Unet++: An Improved Structure for Medical CT Scanning Based on the Unet++ Architecture. International Journal of Intelligent Systems, 37, 8814-8832. https://doi.org/10.1002/int.22969
[27]	Li, J., Zhang, T., Zhao, Y., et al. (2022) MC-UNet Multi-Module Concatenation Based on U-Shape Network for Retinal Blood Vessels Segmentation. Computational Intelligence and Neuroscience, 2022, Article 9917691. https://doi.org/10.1155/2022/9917691
[28]	Marcellino, Cenggoro, T.W. and Pardamean, B. (2022) UNET++ with Scale Pyramid for Crowd Counting. ICIC Express Letters, 16, 75-82. https://doi.org/10.24507/icicel.16.01.75
[29]	Torbunov, D., Huang, Y., Yu, H., Huang, J., Yoo, S., Lin, M., et al. (2023) UVCGAN: UNet Vision Transformer Cycle-Consistent GAN for Unpaired Image-to-Image Translation. 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 2-7 January 2023, 702-712. https://doi.org/10.1109/wacv56688.2023.00077

友情链接