基于Transformer的增强局部特征的细粒度图像分类模型

期刊菜单

基于Transformer的增强局部特征的细粒度图像分类模型
Fine-Grained Image Classification Model Based on Transformer and Enhanced Local Features

DOI: 10.12677/mos.2024.134426, PDF, HTML, XML, 下载: 17 浏览: 32 国家自然科学基金支持
作者: 李烨, 蔡家麒：上海理工大学，光电信息与计算机工程学院，上海
关键词: 细粒度图像分类；Vision Transformer；局部特征；可变形卷积；自注意力模块；Fine-Grained Image Classification； Vision Transformer； Local Feature； Deformable Convolution； Self-Attention Modules

摘要: ViT (Vision Transformer)已经被广泛地运用于精细级别的视觉分类上，针对其对于局部信息捕获能力不足的问题，提出一种新的基于Transformer的增强局部特征的细粒度图像分类模型。首先提出了注意力嵌入模块，借由可变形卷积和注意力模块在输入模型之前将原图转换为更关注重要信息的特征，之后再将这些特征嵌入到模型中去，从而提升输入的有效局部特征。其次，提出增强自注意力模块用于ViT原始模型中，使得全局依赖和局部依赖关系可以同时被处理，通过自注意力机制和卷积操作的结合，可以更好地处理局部特征。最后，采用交叉熵损失和对比损失结合的方式，对子类别之间微小的差异进行了优化，以尽可能降低不同标签分类token的相似度，提高相同标签分类token的相似度。所提的算法在CUB-200-2011、Stanford Dogs和NABirds三个细粒度图像数据集的识别精确度达到了91.8%、90.1%和90.3%，超越了多种业内领先的细粒度图像分类技术。

Abstract: ViT (Vision Transformer) has been widely applied to fine-grained visual classification. To address its deficiency in capturing local information, a new fine-grained image classification model based on Transformer and enhanced local features is proposed. Initially, an attention embedding module is introduced, utilizing deformable convolution and attention modules to transform the original image into features that focus more on important information before being input into the model, thereby enhancing the effective local features of the input. Secondly, an enhanced self-attention module is proposed for use in the original ViT model, allowing for simultaneous processing of global and local dependencies. The combination of self-attention mechanisms and convolution operations facilitates better handling of local features. Lastly, a combined approach of cross-entropy loss and contrastive loss is employed to optimize the subtle differences between sub-categories, aiming to minimize the similarity of classification tokens with different labels and increase the similarity of those with the same labels. The proposed algorithm achieved recognition accuracies of 91.8%, 90.1%, and 90.3% on the CUB-200-2011, Stanford Dogs, and NABirds fine-grained image datasets respectively, surpassing several leading fine-grained image classification technologies in the industry.

文章引用：李烨, 蔡家麒. 基于Transformer的增强局部特征的细粒度图像分类模型[J]. 建模与仿真, 2024, 13(4): 4702-4714. https://doi.org/10.12677/mos.2024.134426

1. 引言

近年来，细粒度图像分类[1]越来越受到国内外研究人员的重视，成为计算机视觉领域一个研究热点。细粒度图像分类指的是对于同一大类别中的小类别进行分类，如对于鸟类的分类中，区分不同种类的鸟。在实际生活中，精细级别的图像分类经常被视为至关重要的应用技术，比如在环境保护、文化资产的维护和识别、医疗诊断等行业都有所运用。然而，往往由于小类别之间的区别较小，而小类别之内的区别较大，如图1所示，传统的图像分类方法难以对细粒度图像进行准确分类。

Figure 1. Characteristics of fine-grained image classification

图1. 细粒度图像分类特点

当前主流的细粒度图像分类技术包括基于局部检测的分类技术、利用双线性特征[2]-[5]的方法以及采用注意力机制的策略。这些方法旨在提高图像分类的准确性和效率。

首先，基于局部检测的分类方法致力于在图像中识别和利用局部特征。Wei等提出了Mask CNN模型[6]，该模型是基于全卷积网络构建的。不同于传统的卷积神经网络，Mask CNN舍弃了全连接层，转而仅包含卷积层、激活层和池化层。这种设计显著减少了模型参数量和特征维度，使其成为一个具有高效性和端到端特性的模型。对于基于双线性特征的分类方法，Lin等开发了双线性卷积神经网络模型(B-CNN) [7]。B-CNN通过两个独立的特征提取器构建而成，其核心在于对图像中每个位置的特征进行外部乘积的运算，并综合这些信息以提取全面的图像特征。这种方法能够捕捉到图像的细微差别，对于细粒度图像分类来说尤为重要。最后，基于注意力机制的分类方法通过聚焦于图像的关键部分来提高分类性能。例如，Zheng等人提出的多注意力卷积神经网络[8]专注于解决弱监督下零件模型学习的挑战。该方法通过引入多个注意力模块，能够自动识别并集中处理图像中的关键区域，从而在没有强监督信号的情况下也能实现精确的图像分类。

近年来Transformer模型[9]在图像分类领域展现了其独特的优势和潜力。不同于传统的卷积神经网络(CNN)依赖于卷积和池化操作来处理图像数据，Transformer通过其创新的注意力机制能够在图像的不同区域间建立动态的、自适应的联系，有效捕获全局特征关联。这一机制赋予Transformer在理解图像内容方面的能力，超越了局部特征处理的限制，提供了一种更为全面的图像分析途径。然而，尽管Transformer在处理图像时展现出了对全局信息的敏感度，其在捕获图像中长程依赖关系上可能存在局限性。这种局限性在某些特定任务中可能会导致性能不如预期。特别是，在处理尺寸庞大的图像数据时，Transformer可能难以维持其对所有重要信息的捕捉能力，尤其是在不进行任何形式的裁剪或缩放的情况下。这种情况在细粒度图像分类任务中尤为突出。此外，尽管Transformer能够处理任意大小的输入图像，其在识别和利用图像中不同区域间上下文关系方面的效率仍有待提高。这一缺陷可能会影响模型在细粒度特征捕捉上的性能，因为细粒度图像分类要求模型不仅要识别图像中的关键局部信息，还要理解这些局部特征之间的细微差异和相互关系。

为了解决上述困难，本研究构建了一种借助Transformer和局部特征的细粒度分类模型(TransLF)。以ViT [10]作为骨干网络，用可变形卷积[11]以及注意力模块组合代替patch embedding，在图像嵌入之前关注更多有用信息。在此基础上提出增强自注意力模块，以提高模型内部局部自注意力。最后使用混合损失更好地优化模型并提高模型预测精度。在仅使用类型标签的前提下，模型能捕获更多关键信息并实现较为理想的分类性能。主要贡献如下：

a) 提出注意力嵌入模块，该模块结合了可变形卷积以及SENet [12]架构，目的是在模型接收原始图像之前，先对图像进行预处理。通过这种方式，输入的特征图被赋予了增强的局部信息，从而为模型提供了一种更为丰富和有效的信息表示形式。这种预处理步骤优化了模型的输入质量，使得后续的处理流程能够更加集中于图像中关键的、对最终任务有贡献的特征，进而提升模型的性能和效率。

b) 在ViT的基础架构中，提出了增强自注意力模块，旨在同时处理图像的全局依赖和局部依赖关系。该模块采用了鬼头注意力[13]机制，结合传统的卷积操作，旨在提高模型处理大规模数据集时的性能，同时增强对局部特征的捕获能力。

c) 采用了一种复合损失函数来优化模型的训练过程。除了传统的交叉熵损失，还引入了对比损失，其目标是减少不同标签对应分类token之间的相似度，同时增加相同标签分类token之间的相似度。这种复合损失函数的应用，旨在更精细地调整模型在特征空间中的分类边界，通过加强同类别内部的紧密性和不同类别间的区分度，从而提高模型对复杂数据集分类的准确性和鲁棒性。

2. 相关工作

2.1. Visual Transformer概述

Visual Transformer是一种革命性的神经网络架构，它将Transformer模型的概念从自然语言处理(NLP)领域扩展到了计算机视觉领域。这一扩展不仅仅是将Transformer应用于图像数据，而是通过重新思考和调整其结构，使之能够更加有效地处理图像信息，从而在多种视觉任务中实现突破性的性能。

Vit的核心在于利用Transformer的自注意力机制来捕获图像中的全局依赖关系。与传统的卷积神经网络不同，Vit不依赖于预定义的滤波器来处理图像，而是通过计算图像各部分之间的注意力得分，动态地确定图像区域间的相互影响。这种方法使得模型能够自适应地关注图像的重要特征，无论它们在空间上的位置如何。它通常包括一个图像分割模块和一个或多个Transformer层。图像分割模块负责将输入图像划分为一系列小的图像块，这些图像块被视为等效于NLP中的“词”。然后，这些图像块被展平并通过位置编码来补充空间信息，最终形成模型的输入序列。在此基础上，Transformer层通过自注意力机制分析这些图像块之间的关系，提取重要的视觉特征并进行分类或其他视觉任务。Vit已经在多个计算机视觉任务中展现了其优越性，包括但不限于图像分类、目标检测、语义分割和图像生成。它的成功部分归因于其能力在处理大尺寸图像时捕获长距离依赖关系，以及其灵活性在处理不同尺寸和比例的图像时不需要重塑或裁剪。它在处理复杂图像时的性能超越了许多传统CNN模型，特别是在那些需要细粒度识别和全局理解的任务中。然而，它也面临着一些挑战，包括较高的计算复杂性和对大量训练数据的需求。此外，尽管Visual Transformer在理论上能够处理任何大小的输入图像，但实际应用中仍需优化其效率和可扩展性。

2.2. 可变形卷积

可变形卷积(Deformable Convolution)是一种先进的卷积神经网络架构改进，旨在提高网络对于几何变化的适应性。传统的卷积操作通过在输入图像上滑动固定形状的滤波器来提取特征，这种方法在处理图像的几何变形、旋转或尺度变化时可能不够灵活。可变形卷积通过动态调整卷积核的形状来解决这一问题，使得卷积核能够根据图像内容的具体特征自适应地变形，从而更有效地捕捉到复杂的空间变化和不规则的对象形状。

可变形卷积的核心思想是引入额外的偏移量(offsets)到标准卷积操作中，这些偏移量是通过学习得到的，可以对每个卷积核的位置进行微调，使其能够适应图像中的局部变形。这种机制允许卷积核自动调整其采样位置，以更好地对齐和匹配图像中的关键特征，如边缘、角点或特定的纹理模式。

在实现上，可变形卷积在传统卷积操作的基础上增加了两个主要组件：一是用于生成偏移量的卷积层，二是修改后的卷积操作，该操作利用这些偏移量来动态调整卷积核的采样位置。这些偏移量不是预先定义的，而是通过网络的反向传播算法自动学习得到的，这意味着网络能够在训练过程中自我优化，以适应不同的图像特征和几何变形。它已经在多个计算机视觉任务中显示出其优越性。在这些任务中，可变形卷积通过其灵活的卷积操作，能够有效处理图像中的非刚性变形，提高了模型对复杂场景的理解能力。

2.3. Senet

Senet (Squeeze-and-Excitation Network)模块是一种注意力模块，其核心思想是通过对每个通道的基于全局信息自适应的加权，来自动学习每个通道之间的关系。在一个深度学习模型中，假设一个输入图像含有N个通道，则SEnet模块的主要作用就是将这N个通道压缩到一个通道上，在这个过程中，SEnet模块会引入一个bottleneck结构，使得模型具有更少的参数和更好的可解释性。

更具体地说，SEnet模块由两个阶段组成，一个是压缩阶段(squeeze)，另一个是激励阶段(excitation)。在压缩步骤里，SEnet模块利用全局池化技术将每个通道的特征图进行了压缩，并计算出每个通道的重要性。在激励步骤里，通过全连接层来参数化每个通道的重要性，产生一个激励向量。此向量被用来调整每个通道的特征图，并将输入特征图进行缩放，使得模型能够更加关注重要的特征。通过SEnet模块的这种自适应的加权方式，可以学习到每个通道之间的关系，从而使得模型在进行特征提取时，能够更加关注到重要的通道，削弱不重要的通道。实验结果表明，使用SEnet模块并插入到不同的深度学习网络中，可以有效提高模型的性能，同时使训练过程更加稳定和高效。

3. 相关工作

3.1. TransLF模型整体架构

本文提出注意力嵌入模块代替Visual Transformer中的patch embedding以及提出增强自注意力模块用于解决原始Visual Transformer中局部特征捕获能力不足以致无法更好的区分细粒度图像。TransLF的整体架构如图2所示。

Figure 2. The framework of TransLF

图2. TransLF整体架构

首先将原始图像送入注意力嵌入模块，该模块的目的是将图像转换成一种更加适合后续处理的特征表示形式。此转换过程涉及对图像进行切分，从而得到一系列细粒度的特征块。接着，这些特征块被进一步处理，包括加入位置编码，以保留空间信息，随后输入到一个Transformer编码器中进行深度特征提取。在Transformer编码器中，采用增强自注意力模块。与传统的多头自注意力机制相比，增强自注意力模块引入了局部注意力机制，这一机制的引入旨在缩小模型的注意力范围，以便更加有效地处理长距离的数据依赖关系。通过这种方式，模型能够更加精确地聚焦于图像中的局部特征，同时保持对全局上下文的敏感性。为了优化模型的训练过程并提高最终的分类性能，采用了一种结合交叉熵损失和对比损失的复合损失函数。这种复合损失函数的设计旨在同时优化模型对不同类别间区分度的提升以及同类别内部相似度的增强，通过这种方式，模型能够在特征空间中形成更加紧凑且清晰分隔的类别表示。

相较于传统的自注意力机制，本文提出的增强自注意力模块通过更加精细地捕捉图像中的局部信息，显著提升了模型在复杂图像处理任务中的准确性和鲁棒性。这种方法的引入不仅优化了模型的性能，也为深度学习领域中的图像处理和理解任务提供了新的视角和工具。

3.2. 注意力嵌入模块

在Vision Transformer的实现过程中，输入图像首先被细分为统一尺寸的小图像块，典型地为16 × 16或32 × 32像素，这些图像块随后通过线性映射转换为模型可以处理的向量形式，进而被输送到Transformer的编码器中进行深度特征提取。不同于此传统方法，本文通过引入卷积层来直接生成输入向量，从而避免了线性投影操作的需要。这一改进允许我们直接从原始图像中提取特征，有效利用了卷积神经网络在捕捉图像局部特征方面的天然优势。如图3所示，我们设计的注意力嵌入模块巧妙地结合了CNN的局部特征提取能力和ViT的全局信息处理能力。通过这种结合，模型不仅能够从底层视觉信息中抽取丰富的特征，还能够通过ViT结构的全局信息处理能力，保持对整体图像内容的理解。此外，通过加入更多图像尺寸变换的操作，本模块能够从多个尺度捕捉局部特征信息，进一步增强了模型在处理复杂视觉任务时的性能。

Figure 3. Attention embedding module

图3. 注意力嵌入模块

这种方法的引入，不仅让Vision Transformer能够更有效地利用图像的局部信息，同时也为模型提供了更强的归纳偏差(inductive bias)，即模型对于视觉数据的固有假设，这在处理图像尺寸变换和复杂视觉场景时尤为重要。

注意力嵌入模块结构由可变形卷积模块、SEnet模块、一个Batch Normalization层和一个最大池化层Max pooling组成，即：

$x^{'} = Maxpool (BN (SEnet (Dcov (x))))$ (1)

其中x为输入图像，Dconv为可变形卷积，SEnet为注意力模块，BN为Batch Nomalization层，Maxpool为最大池化层， $x^{'}$ 为输出特征图。

本文采用可变形卷积而非传统卷积，基于其对图像形变的高度适应性和改进的特征捕捉能力。传统卷积操作依赖于固定形状的卷积核，这种设计固然提供了平移不变性，但在处理图像中物体的非刚性形变、旋转及尺度变化时，其能力受限。相比之下，可变形卷积通过引入可学习的偏移量，允许卷积核的形状动态地适应输入图像的局部特征，如不同的形状和角度。这种灵活性显著增强了模型对图像形变的鲁棒性，同时也提高了对物体细节特征的捕捉能力，进而提升了模型的整体准确性。

进一步地，可变形卷积通过优化卷积核的尺寸和形状，实现了更大的感受野，这意味着即使是更小的卷积核也能够捕获广泛的上下文信息。这一特性不仅提高了模型捕捉细节特征的能力，也显著减少了计算量，从而提升了模型的运行效率。总体而言，可变形卷积展现了在细节特征捕捉及适应不同形状和角度的物体方面的优异性能，增强了模型的整体鲁棒性。

此外，我们在模型中集成了SE模块，其核心作用是通过自适应地调整特征通道的权重来进一步提升模型的性能。SE模块首先利用全局平均池化操作提取输入特征图的全局上下文信息，随后通过一系列全连接层和激活函数计算得到一个通道特定的权重向量。这个权重向量随后被用于调节原始输入特征图的通道，通过增强重要特征通道的响应而抑制不重要特征通道的影响。这种机制使得模型能够更加聚焦于对最终任务贡献最大的特征，有效降低了噪声或冗余信息通道的干扰。

3.3. 增强自注意力模块

传统的多头自注意力机制在深度学习领域被广泛认可，尤其是在处理序列数据时，因其具有显著的建模能力和灵活性。该机制通过并行地使用多个注意力“头”独立地处理输入序列，从而能够综合考虑多个维度或角度的信息。这一多维处理方式允许模型捕捉和利用输入数据中的各种特征和关系，每个注意力头专注于序列中不同的特征集，从而显著增强了模型的表示能力。这种丰富的表示能力使得模型能够更准确地理解序列内部各元素之间的复杂依赖关系。与传统的循环神经网络相比，多头自注意力机制展现了对长距离依赖关系处理的优越性。在RNN [14]中，信息的传递需要通过序列中的逐个元素，导致长距离依赖关系难以被捕捉和保持。相反，多头自注意力允许模型中的每个位置直接接入整个输入序列的信息，实现全局信息的即时访问，从而不受序列长度限制地有效处理长距离依赖问题。然而，尽管多头自注意力机制提供了显著的优势，它也带来了一些挑战。其中之一是计算复杂度较高，特别是当输入序列长度增加时，所需的计算资源急剧上升，这限制了其在特定应用中的可扩展性。此外，尽管多头自注意力在捕捉全局依赖关系方面表现出色，但它在处理局部特征和细粒度信息时可能不如卷积神经网络或循环神经网络那样有效。这是因为其机制倾向于在全序列范围内平等地分配注意力，有时可能会忽视或未能充分捕捉局部上下文的细节。

为了平衡不足，本文提出增强自注意力模块，如图4所示。

1) 与多头自注意力类似，增强自注意力模块先用一组投影获得Q。

2) 为了压缩内存，2D输入token x $\in$ Rn × dm沿空间维度重塑为3D的输入token (即x' $\in$ Rdm × h × w)，然后馈送到深度卷积运算以将高度和宽度维度减少因数s。

3) 空间减少后的新token映射x' $\in$ Rdm × h/s × w/s被重塑为二维映射，即x'∈Rn' × dm，n' = h/s × w/s，然后将x'送入两组投影，得到key K和value V。

4) 之后，计算query Q、key K和value V上的注意力函数。

$ESA (Q, K, V) = ghost (IN (Softmax (Conv (\frac{Q K^{T}}{\sqrt{d_{k}}})))) V$ (2)

这里，Conv(·)是一个标准的1 × 1卷积运算，它模拟了不同头部之间的相互作用。因此，每个头部的注意力功能可以依赖于所有的key和query。然而，这将削弱ESA在不同位置联合处理来自不同表示子集的信息的能力。为了恢复这种多样性能力，为点积矩阵(在Softmax之后)添加了实例归一化(即IN(·))。

5) 最后，将每个头部的输出值进行拼接和线性投影，形成最终输出。

Figure 4. Enhanced self-attention module

图4. 增强自注意力模块

鬼头(Ghost head)模块通过以下步骤实现：

1) 原始的自注意力机制被复制为多个分支。每个分支都具有相同的结构和参数。

2) 图像特征图被划分为多个局部区域。这样可以将注意力限制在局部区域内，使得网络能够更加关注细节。

3) 将每个分支与相应的局部区域进行连接。这样每个分支就只关注一个局部区域，从而提高了模型对局部信息的感知能力。

4) 将所有分支的输出融合起来，形成最终的特征表示。这种融合方式可以通过简单的加权平均或者级联等方式实现。

通过鬼头模块，模型能够充分利用局部细节信息，并在保留全局上下文的同时，增强对局部信息的感知能力，从而提升了模型在视觉任务中的性能。

3.4. 混合损失函数

传统的交叉熵损失函数虽然在多数情况下能够有效地指导特征学习过程，但当面对具有细微类内差异的子类别时，其监督能力可能不足。特别是在细粒度分类任务中，子类别间的差异往往非常微小，此时仅依赖交叉熵损失可能无法充分捕捉这些细节差异。为了解决这一问题，本文增加了对比损失(Contrastive Loss)，该损失函数旨在最小化不同类别间分类token的相似度，同时最大化同一类别内样本的分类token相似度。通过这种方式，模型被引导以更细致的视角捕捉类别间和类别内的特征差异，进而提升分类准确性。然而，直接应用对比损失可能会引入一个新的问题：模型的损失容易被那些差异性较大的、不同种类间的样本所主导，这种情况下，模型可能过度关注于拉大不同类别间的差异，而忽略了对类内紧密度的优化。为了缓解这一问题，我们引入了一个常数间隔α，作为一种正则化手段。具体来说，只有当样本间的相似度超过α时，这部分的损失才会被计入总的对比损失中。这种设计旨在平衡模型对于类间分离度和类内紧密度的关注，避免模型训练过程中对于极端差异样本的过度适应。一个批次大小为B的对比损失为：

$Lon (Z) = \frac{1}{B^{2}} \sum_{i}^{B} [\sum_{j : y_{i} = y_{j}}^{B} (1 - Sim (z_{i}, z_{j})) + \sum_{j : y_{i} \neq y_{j}}^{B} \max ((Sim (z_{i}, z_{j}) - α), 0)]$ (3)

其中， $z_{i}$ 和 $z_{j}$ 是带有L2正则化的预处理， $Sim (z_{i}, z_{j})$ 是 $z_{i}$ 与 $z_{j}$ 的余弦相似度。

训练模型时，采用的是交叉熵损失Lcross和对比损失Lcon的总和。

4. 应用实验

我们在Ubuntu 20.04系统环境下执行的实验，选择Pytorch作为搭建网络模型的深度学习框架，其中运用的软件环境主要是cuda11.8和python3.8。此外，在硬件配置方面，使用了配备有NVIDIA RTX3080显卡、10GB显存以及搭载Intel Xeon Platinum 8255C的CPU的设备。

4.1. 数据集选取与预处理

为了验证所提方法的效能，选用CUB-200-2011、Stanford Dogs以及NAbirds这三个公开的精细级别的图像数据集进行试验对比。同时，我们也划分出了各个数据集的训练集和测试集，详细划分如表1所示。

Table 1. Dataset information

表1. 数据集信息

Datasets	Category	Train	Test
CUB-200-2011	200	5994	5794
Stanford dogs	120	8144	8041
NAbirds	555	23,929	24,633

为防止因数据太少而导致模型过拟合，选择通过水平反转和垂直反转来增加数据量。

4.2. 评价指标与实验设置

本文选用准确率(Accuracy)作为评价指标，即

$Accuracy = \frac{l_{ac}}{l_{total}}$ (4)

式中，l_ac为正确分类的图像数量，l_total为测试集图像总数量。

为了确保TransLF模型接收充足的数据输入，防止由于参数过多而使训练过程难收敛，选择224 * 224分辨率作为输入图像，在训练期间使用随机裁剪，而在测试时则使用中心裁剪。在训练中，加载在ImageNet上预训练的中间参数，对比损失的超参数α设定为0.4，选择使用随机梯度下降法[15] (SGD)进行优化，动量(momentum)设为0.9，batch size设定为4。由于NAbirds数据库训练集的数据较多，设定该数据集的学习率为0.003，其余两个数据集的学习率设定为0.03。此外，用余弦退火(Cosine Annealing) [16]来调节学习率的降低幅度。

4.3. 对比实验

表2展示了所提方法TranLF在多个数据集上与其他模型的实验对比结果。

Table 2. Comparison of accuracy among different models on three standard datasets

表2. 不同模型在三个标准数据集上的精确性比较

Method	Backbone	CUB-200-2011 (%)	Stanford Dogs (%)	NABirds (%)
ResNet-50 [17]	ResNet-50	84.5	84.4	84.0
MaxEnt [18]	DesenNet-161	86.6	84.2	83.0
Cross-X [19]	ResNet-50	87.7	86.7	86.4
DBTNet [20]	ResNet-101	87.9	88.2	83.6
Ding [21]	Xception	88.1	89.1	88.4
PMG [22]	ResNet-50	89.3	86.0	86.0
API-Net [23]	DesenNet-161	90.0	85.5	88.1
Vit	Vit-B_16	90.3	87.2	89.9
TranLF (our)	Vit-B_16	91.8	90.1	90.3

可以看出，所提方法在性能上远超已有基于CNN和视觉Transformer的方法，展示了极其先进的性能。以CUB-200-2011数据集为例，相较于性能最好的CNN模型API-Net，所提的分类准确率上升了1.8%，而与Transformer模型ViT相比，准确度也有了1.5%的提升。

NABirds数据集是一个比CUB-200-2011更为广大、种类多达555种的鸟类数据集，因此挑战性也更大，但是所提方法依然展示了强大的性能。在Stanford Dogs数据集上，所提方法相较于Transformer基准模型Vit提高了2.9%的精确率。在NABirds数据集上，所提方法高于所有的主流方法，具有明显的性能优势，实现了90.3%的分类准确率，相比较于Ding，高出了1.9%，并且与基准模型Vit相比，提高了0.4%。

这些实验结果表明，本文模型能够有效学习到有利于细粒度图像分类的关键特征，捕获更具多样且更关注局部的特征信息[24]-[26]，从而提高了模型的分类性能和泛化能力。

4.4. 注意力嵌入模块和增强自注意力模块的消融实验

为了证明TransLF模型中各个组成部分的作用，我们进行了消融实验。本文所有消融实验都是在CUB-200-2011数据集下展开。

实验中，均仅用交叉熵损失函数来计算损失，并比较了下面四种不同的Transformer网络架构：

1) 用ViT (baseline)标识原始的Transformer 模型；

2) TransLF (AT)：在原始模型的基础上添加注意力嵌入模块的版本；

3) TransLF (ES)：对原始模型增添增强自注意力模块；

4) TransLF (AT & ES)：在原型上加入注意力嵌入模块和增强自注意力模块。

实验结果如表3所示。

显然，相较于原来的Transformer模型，采用交叉熵损失函数来测算损失后，只依赖注意力嵌入模块、增强自注意力模块以及同时依赖注意力嵌入模块和增强自注意力模块的网络模型的分类准确度分别上升了0.6%、0.2%和1.2%。特别是同时采用注意力嵌入模块和增强自注意力模块的模型，其分类准确率达到了最高。

Table 3. Ablation experiments on attention embedding module and enhanced self-attention module

表3. 注意力嵌入模块和增强自注意力模块的消融实验

No	Method	Composition	Accuracy (%)
1)	ViT (baseline)	BL	89.7
5)	ViT (BL & L_CON)	BL + L_CON	90.1
4)	TransL F(AT & EL)	AT + ES	90.9
6)	TransLF (AT & EL & L_CON)	AT + ES + L_CON	91.8

4.5. 融入多元损失的消融实验分析

首要任务是，利用交叉熵损失的应用，为了进行深度审查对比损失对模型的影响，我们将对比损失分别与1) ViT (baseline)和4) TransLF (AT & ES)结合，构建了5) ViT (BL & L_CON)和6) TransLF (BL & AT & ES & L_CON)。所有这些都是通过联合使用交叉熵损失函数和对比损失函数来计算模型的总损失。实验结果如表4所示。

Table 4. Ablation experiments with the incorporation of multiple losses

表4. 融入多元损失的消融实验

No	Method	Composition	Accuracy (%)
1)	ViT (baseline)	BL	89.7
2)	TransLF (AT)	AT	90.3
3)	TransLF (ES)	ES	89.9
4)	TransLF (AT & ES)	AT + ES	90.9

可以看出，模型5) ViT (BL & L_CON)和模型6) TransLF (AT & ES & L_CON)的精准度相较于未采用对比损失之前各自提升了0.4%和0.8%。这个结果揭示，对比损失能够增强模型在区分不同子类和整合相同子类方面的能力。

4.6. 可视化分析

图5展示了TransLF模型在CUB-200-2011细粒度图像数据集上的处理结果的可视化示例。从这些示例中，我们可以观察到模型的注意力主要聚焦于图像中的前景目标，有效地避免了背景信息引起的特征表示冗余。特别是，模型分配给图像区域的权重分布揭示了其对于显著特征区域的高度敏感性。具体来说，模型分配的最大权重集中在体现关键生物标志的区域，如鸟类的头部、眼睛和翅膀等部位。这一观察结果明确指出，TransLF模型不仅能够识别出图像中的关键视觉特征，而且还能够精准地聚焦于这些特征，展现出对细节的深度捕获和处理能力。

此外，模型对于这些显著特征区域的高度聚焦能力，进一步证明了其在细粒度图像识别任务中的有效性。通过专注于图像中的关键部分，TransLF模型显著提高了对于具有复杂背景和细微类别差异的图像的识别准确率。这种能力对于处理细粒度分类任务来说至关重要，因为这类任务要求模型能够识别并理解图像中微小但决定性的视觉差异。

Figure 5. Heatmaps of the model on the CUB-200-2011 dataset

图5. 模型在CUB-200-2011数据集上的热力图

5. 结语

本文提出了一个新型的细粒度图像分类模型，该模型融合了Transformer的全局信息处理能力和卷积神经网络的局部特征提取优势。核心改进包括一个利用可变形卷积和注意力机制的注意力嵌入模块，该模块能够将输入的原始图像转换成更加关注于有效信息的特征图。此外，增强自注意力模块被嵌入ViT中，以便于模型能够同时处理图像的全局和局部依赖关系。为了增强所提模型的泛化能力，本文还采用了一种混合损失函数。实验结果表明，本文提出的方法在多个精细度级别的数据集上展现出了高于当前主流细粒度图像分类方法的精度，验证了所提出模型结构和方法在处理细粒度图像分类任务中的有效性和先进性。这些成果不仅证明了结合Transformer全局信息处理能力与CNN局部特征提取优势的重要性，也为未来在此方向的研究提供了新的思路，特别是将CNN直接与Transformer模型进行更深层次整合的可能性，预示着在深度学习领域进一步探索融合不同模型优势的重要价值和广阔前景。

基金项目

国家自然科学基金项目(61703277)；上海航海项目基金(17YF1427000)。

参考文献

[1]	Wang, Y. and Wang, Z. (2019) A Survey of Recent Work on Fine-Grained Image Classification Techniques. Journal of Visual Communication and Image Representation, 59, 210-214. https://doi.org/10.1016/j.jvcir.2018.12.049
[2]	Zheng, H., Fu, J., Zha, Z.J., et al. (2019) Learning Deep Bilinear Transformation for Fine-Grained Image Representation. 33rd Annual Confer-ence on Neural Information Processing Systems (NeurIPS 2019), Vancouver, 8-14 December 2019.
[3]	Kong, S. and Fowlkes, C. (2017) Low-Rank Bilinear Pooling for fine-Grained Classification. Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, Honolulu, 21-26 July 2017, 365-374. https://doi.org/10.1109/CVPR.2017.743
[4]	Chen, S., Wang, Z. and Chen, W. (2020) Driver Drowsiness Estimation Based on Factorized Bilinear Feature Fusion and a Long-Short-Term Recurrent Convolutional Network. Information, 12, Article 3. https://doi.org/10.3390/info12010003
[5]	Ni, Z.L., Bian, G.B., Li, Z., et al. (2022) Space Squeeze Reasoning and low-Rank Bilinear Feature Fusion for Surgical Image Segmentation. IEEE Journal of Biomedical and Health Informatics, 26, 3209-3217. https://doi.org/10.1109/JBHI.2022.3154925
[6]	Wei, X.S., Xie, C.W., Wu, J., et al. (2018) Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Bird Species Categorization. Pattern Recognition, 76, 704-714. https://doi.org/10.1016/j.patcog.2017.10.002
[7]	Lin, T.Y., RoyChowdhury, A. and Maji, S. (2015) Bilinear CNN Models for Fine-Grained Visual Recognition. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1449-1457. https://doi.org/10.1109/ICCV.2015.170
[8]	Zheng, H., Fu, J., Mei, T., et al. (2017) Learning Multi-Attention Convolu-tional Neural Network for Fine-Grained Image Recognition. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 5209-5217. https://doi.org/10.1109/ICCV.2017.557
[9]	Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017.
[10]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929.
[11]	Dai, J.F., Qi, H.Z., Xiong, Y.W., et al. (2017) Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 764-773. https://doi.org/10.1109/ICCV.2017.89
[12]	Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141. https://doi.org/10.1109/CVPR.2018.00745
[13]	Zhou, J., Wang, P., Wang, F., et al. (2021) Elsa: Enhanced Local Self-Attention for Vision Transformer. arXiv preprint arXiv:2112.12786.
[14]	Ashraf, M., Abid, F., Din, I.U., et al. (2023) A Hybrid CNN and RNN Variant Model for Music Classification. Applied Sciences, 13, Article 1476. https://doi.org/10.3390/app13031476
[15]	Nassif, R., Kar, S. and Vlaski, S. (2024) Learning Dynamics of Low-Precision Clipped SGD with Momentum. ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seoul, 14-19 April 2024, 6075-6079. https://doi.org/10.1109/ICASSP48485.2024.10447855
[16]	Cazenave, T., Sentuc, J. and Videau, M. (2021) Cosine Annealing, Mixnet and Swish Activation for Computer Go. Springer International Publishing, 53-60. https://doi.org/10.1007/978-3-031-11488-5_5
[17]	He, K., Zhang, X., Ren, S., et al. (2016) Deep Residual Learn-ing for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778. https://doi.org/10.1109/CVPR.2016.90
[18]	Dubey, A., Gupta, O., Raskar, R., et al. (2018) Maximum-Entropy Fine Grained Classification. 32ndConference on Neural Information Processing Systems (NeurIPS 2018), Montreal, 2-8 December 2018.
[19]	Luo, W., Yang, X.T., Mo, X.J., et al. (2019) Cross-x Learning for Fine-Grained Visual Categorization. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 8242-8251.
[20]	Zheng, H., Fu, J., Zha, Z.J., et al. (2019) Learning Deep Bilinear Transformation for Fine-Grained Image Representation. 33rd Annual Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, 8-14 De-cember 2019
[21]	丁文谦, 余鹏飞, 李海燕, 等. 基于 Xception 网络的弱监督细粒度图像分类[J]. 计算机工程与应用, 2022, 58(2): 235-243.
[22]	Du, R., Chang, D., Bhunia, A.K., et al. (2020) Fine-Grained Visual Classification via Progressive Multi-Granularity Training of Jigsaw Patches. In: Vedaldi, A., Bischof, H., Brox, T. and Frahm, J.-M., Eds., European Con-ference on Computer Vision-ECCV 2020, Springer International Publishing, 153-168.
[23]	Zhuang, P., Wang, Y. and Qiao, Y. (2020) Learning Attentive Pairwise Interaction for Fine-Grained Classification. Proceedings of the AAAI Conference on Artificial Intelligence, New York, 7-12 February 2020, 13130-13137.
[24]	Sun, J.M., Shen, Z.H., Wang, Y., et al. (2021) LoFTR: De-tector-Free Local Feature Matching with Transformers. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recogni-tion (CVPR), Nashville, 20-25 June 2021, 8922-8931. https://doi.org/10.1109/CVPR46437.2021.00881
[25]	Leng, C., Zhang, H., Li, B., et al. (2018) Local Feature Descriptor for Image Matching: A Survey. IEEE Access, 7, 6424-6434. https://doi.org/10.1109/ACCESS.2018.2888856
[26]	Kong, F., Li, M., Liu, S., et al. (2022) Residual Local Feature Network for Efficient Super-Resolution. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), New Orleans, 19-20 June 2022, 766-776. https://doi.org/10.1109/CVPRW56347.2022.00092

为你推荐

友情链接