1. 引言
近些年来,火灾在全球各地频发,对人民的生命和财产安全造成巨大的威胁。高效地检测火灾有利于保障人民的生命和财产安全。在自然语言处理领域,Transformer [1] 取得了巨大的成功。在图像处理领域,Swin Transformer [2] 获得了优异的成绩。在视频识别领域,Swin Transformer的变体Video Swin Transformer [3] (VST)有着强大的视频识别能力。VST使用基于多头自注意力的3D窗口(3D Window based Multi-head Self-Attention, 3D W-MSA)使得多头自注意力(Multi-head Self-Attention, MSA)的计算集中在3D窗口中。该操作减少了全局MSA计算带来的高额计算量。VST使用基于多头自注意力的3D转换窗口(3D Shifted Window based MSA, 3D SW-MSA)将窗口之间的信息关联,使得在计算量减少的同时不丢失3D窗口之间的关联信息。这种高效的注意力计算方式使得基于Transformer架构的VST网络能够高效地工作在通用视频识别领域。但是,随着环境、燃烧物化学性质等的变化,火灾中火焰的形状、颜色、运动状态等也会改变。VST缺乏对火焰这种特殊物质的识别能力。
为了解决上述问题,本文提出一个基于通道特征增强的Video Swin Transformer (Video Swin Transformer based on Channel Feature Enhancement, VST-CFE)网络。该网络主要包含VST块和CFE块。在LVFD数据集上开展大量的实验,实验结果表明VST-CFE优于基准方法VST。此外,VST-CFE的F1分数是88.16%,比基准方法VST的F1分数提高了1.75%。本文的主要贡献如下:
1) 为了利用在三维窗口划分时VST块丢失的火焰运动信息,设计了CFE块。通过建立通道信息的语义模型,CFE块增强了网络描述火焰运动的能力。
2) 提出基于Swin Transformer架构的VST-CFE网络来识别含有火灾的视频。在LVFD数据集上的实验证明VST-CFE优于基准方法VST。
2. 相关工作
近些年来,从事火灾检测的研究者在火灾检测领域中探索出一系列火灾检测的方法。这些方法的提出促进了火灾检测领域的快速发展。
大多数深度学习模型必须在性能和检测准确率之间进行平衡,以维持合理的推理时间和参数量。针对该问题,Jadon等人 [4] 提出名为FireNet的“从头开始设计”的轻量级、更好性能的神经网络。Shees等人 [5] 对FireNet进行改进,提出了适用于早期火灾检测的轻量级卷积神经网络。图像或视频中检测火焰对于早期火灾预警系统非常重要。针对该问题,Aliser等人 [6] 提出使用注意力模块的深度网络架构对火焰进行分割检测。森林环境复杂,森林中的烟雾类物体常常干扰烟雾识别。边缘烟雾浓度稀薄,容易导致边缘遗漏。针对这些问题,Li等人 [7] 提出了一种高精度边缘聚焦森林火灾烟雾检测网络。现有的深度学习模型很难平衡准确性和轻量级设计。针对这一问题,Jin等人 [8] 提出一种新的轻量级深度学习算法。早期火灾的火焰很小,传统的火灾探测器无法有效探测到。针对这一问题,受火焰颜色特征的启发,Li等人 [9] 提出了浅引导深度网络来解决现有早期火灾检测模型中的问题。基于视频的火灾探测模型严重依赖标记数据,并且数据标记过程特别昂贵且耗时。针对该问题,Lin等人 [10] 提出了半监督火灾检测模型。由于结构的复杂性,目前基于DETR的火灾探测模型需要大量的内存和较长的推理时间,实用性较差。同时,高质量的火灾检测数据集非常稀缺,严重限制了算法的性能。针对这些问题,Zheng等人 [11] 提出了基于扩散模型的数据集质量增强框架,以提高低质量火灾报警数据集的质量。针对YOLO系列模型的不足,Liu等人 [12] 提出了基于注意力增强幻影模式、混合卷积金字塔和火焰中心检测的YOLO火灾检测算法。目前几乎没有可用于机器学习的,可学习的早期火灾数据集。针对这一问题,Kim等人 [13] 提出了针对某些空间进行优化的早期火灾探测系统。该系统针对每个空间使用基于数字孪生的自动火灾学习数据生成模型。针对传统卷积神经网络在不同森林环境中固有的局限性,El-Madafri等人 [14] 提出新颖的分层域自适应学习框架,旨在增强野火检测能力。该框架创新性地采用了双数据集方法,集成非森林和森林特定数据集来训练善于处理不同野火场景的模型。针对模型在大规模火灾区域和复杂森林环境的背景下的特征表示能力和检测精度的不足,Xu等人 [15] 将ConvNeXtV2 [16] 引入到YOLOv7 [17] 算法中,结合多种注意力模块提高了模型对火灾的检测性能。古建筑中火灾检测需要快速、准确和实时。针对该问题,陈等人 [18] 对FireNet进行改进,提出一个新的模型。该模型利用注意力机制与多尺度特征融合实现了火灾检测能力的提高。
综上所述,在前面所提到的方法中,大部分方法基于图像处理技术来检测火灾,没有使用火焰的时序信息。这容易把外观与火焰相似并且运动特征与火焰不同的物体检测为火焰。针对上述问题,设计CFE块。通过建立通道信息的语义模型,CFE块增强了描述火焰运动的能力,从而提升了VST-CFE网络识别火焰的准确率。
3. VST-CFE模型
为了高效地利用火焰运动特征,提出基于通道特征增强的网络VST-CFE。如图1所示,其主要包含VST块、CFE块、预测块等。
Figure 1. Schematic diagram of VST-CFE
图1. VST-CFE架构示意图
3.1. VST块
VST-CFE网络中所使用的核心模块之一是VST块。在VST-CFE网络中,VST块成对存在。在第一个VST块中,使用层归一化(Layer Normalization, LN)对输入特征进行特征量级统一。处理后的特征经过3D W-MSA模块。在该模块中对输入的3D词元在3D窗口中进行MSA计算。若输入视频的3D词元的个数为
且设置的3D窗口的大小为
,则一个视频由8个非重叠3D窗口组成。将输出的特征通过LN处理后通过多层感知机(Multi Layer Perceptron, MLP)提取出3D窗口中较高级的语义信息。虽然第一个VST块在3D窗口中进行MSA计算降低了MSA在全局计算中所带来的损耗,但是3D窗口的划分丢失了3D窗口之间的关联信息,限制了网络对运动火焰的识别能力。
第二个VST块所采用的3D SW-MSA增加了第一个VST块丢失的3D窗口间的联系信息。第二个VST块的输入特征为第一个VST块的输出特征。第二个VST块的整体结构与第一个VST块相似。为了增加3D窗口之间的关联信息,3D窗口沿着
,
,
的方向转移(2, 2, 2)个3D词元。转移后形成
个不同大小的3D窗口。为了实现在不增加3D窗口数量的情况下实现批量运算,采用文献 [2] 中提到的策略来进行批量运算。实现方法是将较小的3D窗口组合成大小为
的窗口。原来在
,
,
轴上不相邻的3D词元不进行注意力计算,从而形成8个相同大小的3D窗口。该方法实现了在不增加批量个数的情况下批量运算。
MSA一个头的注意力计算如式(1)所示。在实验中设置第一个阶段采用3个注意力头,第二个阶段采用6个注意力头,第三个阶段采用12个注意力头,第四个阶段采用24个注意力头。
(1)
其中,
表示查询,
表示键,
表示值,d表示特征的维度,
表示偏置。两个连续的VST块的计算过程如式(2)所示。
(2)
其中
表示输入的张量,LN表示层归一化,3DW-MSA表示3D W-MSA,3DSW-MSA表示3DSW-MSA,FFN表示前馈神经网络,
表示第二个VST块输出的张量。
3.2. CFE
CFE是VST-CFE网络最重要的模块之一。通过建立通道信息的语义模型,CFE增强了描述火焰运动的能力,从而提升了VST-CFE网络识别火焰的准确率。如图2所示。
设输入到CFE的张量为
,其中
表示帧数,
表示特征图的高,
表示特征图的宽,
表示通道数。CFE提取通道特征的过程包括两个阶段。在CFE的第一阶段,将X通过3D全局平均池化形成
大小的张量,计算过程如下式所示。
(3)
其中,
表示CFE的第一阶段输出的张量。在CFE的第二阶段,将其第一阶段处理后的张量输入到两个全连接层中,其计算过程如式(4)所示。
(4)
其中,
是ReLU激活函数,
是Sigmoid激活函数,
表示第一个全连接层的权重,
表示第二个全连接层的权重。将输出的权重信息
用于增强张量
的通道特征,则定义CFE块的映射函数
如下式所示。
(5)
其中,使用式(4)计算
,
是带广播机制的哈达玛积。
3.3. VST-CFE
VST-CFE的网络架构如图1所示。假设输入VST-CFE网络的张量的大小为
,其中,T表示输入视频的帧数,H表示输入每一帧的高,W表示输入每一帧的宽。在实验中,设置H为224,W为224,T为32。如果直接将火灾视频中的帧像素作为词元,则由于词元数量巨大,导致计算复杂度过高。
为了解决这个问题,VST-CFE网络以大小为2 × 4 × 4 × 3的3D块作为一个3D词元。输入的视频需要经过3D词元划分层。该层主要的作用是将输入的视频划分为多个大小为2 × 4 × 4 × 3的3D词元。输
入的视频会形成
个需要计算的3D词元。每个词元的特征维度为96。线性嵌入层的作用是将特征维度变换到96维。
VST-CFE网络包含4个特征提取阶段。第一阶段、第二阶段、第四阶段分别采用2个VST块,而第三阶段则采用6个VST块。在第一,二,三个阶段后,VST-CFE会执行词元合并操作。这个操作对输出的特征图进行下采样。
VST-CFE网络包含一个特征增强阶段CFE。在该阶段中,通过修复VST块在3D窗口划分时丢失的与运动火焰相关的重要信息,CFE增强VST网络对于运动火焰的识别能力。最后采用预测块来对场景视频进行分类。
3.4. 预测块
输入预测块的张量的形状为
。首先使用3D全局平均池化将输入的张量变化为
。然后,该张量被调整形状为8C。最后,使用全连接层将8C投影到类别数为2,得到预测结果。
4. 实验
4.1. 数据集
为了验证所提出的方法,建立了火灾视频识别数据集LVFD。该数据集包含11,560个视频。这些视频被分为两类,即包含火的视频和不包含火的视频。为了减少由于数据分布产生的偏置,LVFD数据集中的视频被分为3组,分别是组1、组2和组3。这三个组的统计信息如表1所示。每组的训练集和测试集样本数的比例大概是7:3。
Table 1. Statistics of the LVFD dataset
表1. LVFD数据集的统计信息
4.2. 实验规则与设置
为了更好验证本文所提出的VST-CFE网络对视频中运动火焰识别的高效性和鲁棒性,在LVFD数据集上分别进行3组实验。选择准确率和F1分数作为评估指标,其中F1分数是本文的主要评估指标。本文的实验步骤如下所示:
首先,为了找到最好的F1分数,本文在组1上选择训练VST-CFE的超参数。然后,固定训练的超参数,在组2和组3的训练集上训练网络模型。最后,在组1、组2和组3的测试集上,分别计算实验结果。以3个组实验结果的平均值作为最终结果。
为了在实验过程中能更好地对本文的网络模型进行训练和测试,将数据的批量大小设置为8,从视频中采样32帧。采用随机裁剪策略对数据进行增强。在训练中,较小的一侧被调整为256像素,从中随机裁剪224 × 224像素区域。以50%的概率对每个输入帧进行水平翻转。在测试过程中,采用与训练过程类似的采样策略,将采样帧沿短边等间隔裁剪成三个区域。
在训练VST-CFE网络过程中,使用AdamW算法来优化神经网络。设置学习率为0.0005,设置权重衰减为0.02,用于计算梯度及其平方的运行平均值的系数分别固定为0.9和0.999。此外,采用线性预热和余弦退火策略调整学习率,其中学习率从低到恒定线性增加,使用余弦退火策略衰减学习率,直到训练周期数达到100。
4.3. 消融实验
根据上一节的实验规则,执行消融实验,验证CFE块在火灾视频识别领域的作用。图3是VST-CFE与基准方法VST在LVFD数据集的组1上的比较。其中,VST表示没有使用CFE块的基准网络。
从图3中可以观察到,VST-CFE和VST分别在第90和80个训练周期时,训练损失曲线趋于平滑,且F1分数获得最大值。从图3中的曲线可以看出,在LVFD数据集的组1上,VST-CFE获得比VST更高的F1分数。
Figure 3. The comparison of VST-CFE and VST on split 1
图3. 在组1上VST-CFE与VST的比较
按照上一节的实验规则,在组2和组3的训练集上,VST-CFE网络和VST网络被分别训练90和80个周期。然后,在测试集上,分别计算的F1分数和准确率。在LVFD数据集上VST-CFE与VST的比较如表2所示。
Table 2. The comparison of VST-CFE and VST on the LVFD dataset
表2. 在LVFD数据集上VST-CFE与VST的比较
从LVFD数据集3个组的测试结果可以得出以下推论。首先,在3个组上,CFE块都提升了基准网络对火焰视频识别的性能。其次,在使用CFE块之后,虽然在3个组上的F1分数的提升有一些差距,但是都有1%以上的性能提升。尤其是在组3,F1分数的提升是1.95%。
4.4. 与其他方法的比较
根据之前的实验规则,在LVFD数据集上执行实验,与经典视频识别方法VST [3] 和TimeSformer [19] 比较。VST-CFE与其他方法的比较结果如表3所示。
TimeSformer网络和VST网络的F1分数分别是81.14%和86.41%。这说明VST比TimeSformer更适合识别火灾视频。在加入CFE块之后,所提出的VST-CFE网络的F1分数达到88.16%。这证明所提出的CFE块能增强与火焰运动相关的信息,从而提升网络识别火灾视频的性能。
Table 3. The comparison between VST-CFE and other methods
表3. VST-CFE与其他方法的比较
5. 总结
火焰的形状、颜色、运动等特征随着环境、燃烧物的化学性质等影响而不断变化。经典的视频识别方法缺乏描述火焰运动信息的能力。针对这个问题,本文提出VST-CFE网络。该网络主要包含VST块和CFE块。为了充分利用火焰的运动信息,设计CFE块,从而提升了VST-CFE网络识别火焰的准确率。在LVFD数据集上的实验结果表明VST-CFE优于基准方法VST,并且VST-CFE获得最好的实验结果。
基金项目
国家自然科学基金(No. 62362003),江西省自然科学基金(No. 20232BAB202017),江西省研究生创新专项资金项目(YC2022-s945)。
NOTES
*通讯作者。