基于深度学习的无人机目标检测研究综述

doi:10.12677/CSA.2023.135107

期刊菜单

基于深度学习的无人机目标检测研究综述
Survey of UAV Target Detection Based on Deep Learning

DOI: 10.12677/CSA.2023.135107, PDF, HTML, XML, 被引量
作者: 刘宸, 李士心^*, 孟范润, 陈范凯：天津职业技术师范大学电子工程学院，天津
关键词: 无人机；深度学习；目标检测；卷积神经网络；UAV； Deep Learning； Object Detection； Convolution Neural Network

摘要: 无人机具有体积小、灵活性强、航拍视野广等特点，广泛应用于警用巡查、城市交通监管、天气监测、电力巡检、应急救援救灾等行业。近年来，随着计算机视觉领域的蓬勃发展，基于深度学习的目标检测技术逐渐应用于无人机领域，并不断得到改进和加强。本文系统性地阐述了基于深度学习的目标检测技术发展历程和研究现状。针对现阶段无人机航拍影像小目标多、背景复杂、目标尺度变化大的特性，归纳和分析了近期对无人机目标检测的相关研究。最后，展望了基于深度学习的无人机目标检测技术的未来发展趋势。

Abstract: The UAV has the characteristics of small size, strong flexibility, wide range of aerial photography, and is widely used in police patrol, urban traffic supervision, weather monitoring, electric power patrol, emergency rescue and disaster relief and other industries. In recent years, with the vigorous development of the field of computer vision, the target detection technology based on deep learning has been gradually applied to the field of unmanned aerial vehicles, and has been continuously improved and strengthened. This paper first systematically expounds the development history and research status of object detection technology based on deep learning. Aiming at the characteristics of many small targets, complex background and large change of target scale in UAV aerial photography at this stage, the optimization methods of UAV target detection in recent times are summarized and analyzed. Finally, the future development trend of UAV target detection technology based on deep learning is prospected.

文章引用：刘宸, 李士心, 孟范润, 陈范凯. 基于深度学习的无人机目标检测研究综述[J]. 计算机科学与应用, 2023, 13(5): 1092-1099. https://doi.org/10.12677/CSA.2023.135107

1. 引言

随着科技的发展，无人机(UAV)已经摆脱了过去的军事用途，逐渐扩展到民用和商用领域。随着无人机技术的发展，基于深度学习的目标检测技术已成为无人机应用领域的重要研究内容 [1] 。将目标检测技术应用于无人机上，实现在航拍视角下对地面场景的目标检测和识别。然而，在无人机航拍图像中，检测对象多为小目标，受航拍视角影响，目标尺度变化较大；图像背景复杂，目标对象易被遮挡。给无人机的目标检测带来了诸多挑战 [2] 。常规的目标检测算法应用于无人机上难以保证检测精确度，优化无人机的目标检测性能成为了无人机应用领域的重要研究内容 [3] [4] 。本文首先介绍基于深度学习的目标检测研究进展，然后总结现阶段无人机领域目标检测的研究难点，针对小目标检测、背景复杂、多尺度变化三个方面进行改进和优化的各类方法进行了阐述。最后，对未来无人机目标检测的研究方向做出了展望。

2. 基于深度学习的目标检测

伴随着卷积神经网络的兴起，基于深度学习的目标检测算法因其检测性能较高，已逐步取代传统的目标检测算法，目前已成为目标检测应用领域最主流的算法。基于深度学习的目标检测算法主要分为两类：两阶段(Two-Stage)模型和单阶段(One-Stage)模型。

2.1. 基于两阶段方法的目标检测

两阶段(Two-Stage)模型是将检测任务分为选取候选区域和对所选取的候选区域进行分类这两个阶段的一种目标检测算法，最终输出目标检测的结果。因此，基于两阶段方法的目标检测又被称为基于候选区域的方法。

2014年Girshick等 [5] 提出一种将Region Proposal和CNN结合的R-CNN算法，使得检测性能相较于Overfeat大幅提升。He K等 [6] 在卷积神经网络的卷积层和全连接层之间，增加了空间金字塔池化层(SSP)，解决了CNN中对于图片固定输入大小的限制。与R-CNN相比，避免了对图像进行特征提取时的重复运算，检测性能进一步提升。2015年，Girshick R等 [7] 在R-CNN的基础上结合SPP-Net网络的优点，提出了Fast R-CNN。相较于R-CNN明显缩短了训练和测试的时间。在此之后，Ren S等 [8] 提出的Faster R-CNN采用区域投标网络(Region Proposal Network, RPN)，大大提升了算法的检测速度。2017年，He K等 [9] 通过引入感兴趣区域聚集层(RoI Align)解决了特征图谱对应位置偏差的问题，提出了检测效果更为精确的Mask R-CNN (图1)。

Figure 1. Mask R-CNN network framework

图1. Mask R-CNN网络框架

2.2. 基于单阶段方法的目标检测

单阶段目标检测方法仅需通过单个神经网络经过一次运算即可实现检测结果输出，实现检测过程向端到端的转换，检测速度相较于两阶段目标检测方法大幅提升，可以满足实时检测的要求。典型的算法有SSD和YOLO系列。

2.2.1. SSD

2016年，Liu W等 [10] 提出了SSD (Single Shot MultiBox Detector)网络模型，该网络结合了该网络结合了YOLO和Faster R-CNN的优势。与YOLO不同的是，SSD采用了特征金字塔网络结构，可以在多个不同尺度的特征图上同时进行Softmax分类和位置回归；在预选框方面，SSD参考了Faster R-CNN的Anchors机制，提出了Prior box，可以根据特征图大小的不同生成对应的预选框(图2)。

Figure 2. Schematic diagram of SSD algorithm

图2. SSD算法示意图

2.2.2. YOLO系列

YOLO算法于2016年被Redmon J等 [11] 正式提出，由此，基于深度学习的目标检测算法有了单阶段和两阶段两个不同的发展方向。不同于两阶段方法先选取候选区域，再进行回归分类的两步步骤，YOLO算法可以直接对预测框进行回归和分类预测，省去了其中候选区域的提取步骤。利用这种优化后的网络结构，可以将检测速度提升至原来Faster R-CNN的10倍左右。YOLOv1采用了类似GoogleNet的主干网络结构，此种网络结构具有24个卷积层和2个全连接层。由于YOLOv1在整个预测的过程中需要进行多次下采样，会导致得到的特征图分辨率较低，目标定位准确性较差，对于小目标检测性能有待加强(图3)。

Figure 3. Schematic diagram of the YOLOv1 algorithm

图3. YOLOv1算法示意图

YOLOv2 [12] 使用了全新的主干网络Darknet-19，在保证检测精确度的同时提升了检测速度；去掉了全连接层，使其可以进行多尺度图像的训练；通过K-means聚类预测先验框的尺寸，提高了置信度；采用了高分辨率的图像分类器以适应高分辨率输入。

2018年，Redomon J等 [13] 在YOLOv2的基础上改进了算法，又提出了YOLOv3。相比于YOLOv2，YOLOv3选用了Darknet-53残差网络结构作为特征提取器；用logistic替代原来的softmax作为分类器，以适应包含重复标签的复杂数据集；使用了3个不同尺度的特征图预测边界框。由于多尺度预测的优势，YOLOv3在小目标检测上优势更加明显。

2020年YOLOv4被Bochkovskiy A等 [14] 提出，在YOLOv3算法的基础上增加了很多实用的技巧，使得它的速度与精度都得到了极大的提升。同年被提出的YOLOv5算法，不同于之前系列的单独模型，YOLOv5以模型家族的形式被提出，包含YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。较之前的网络相比，YOLOv5第一次使用Pytorch，支持更简单、部署更容易，并且在准确率没有任何损失的情况下，图像的推理时间和检测平均精度得到全面的提升。

2022年，Wang等 [15] 提出了YOLOv7。在5 FPS到160 FPS的范围内，无论是速度或是精度，YOLOv7都超过了之前所有已知的目标检测器。在GPU V100上已知的30 FPS以上的实时目标检测器中，YOLOv7具有最高的准确度56.8%。YOLOv7主干网络中的E-ELAN为高效层聚合网络，可以在不破坏原始梯度路径的前提下，不断提高网络的学习能力，还能通过引导不同特征组的计算块学习更多样化的特征；同时，提出了一种新的基于串联模型的缩放策略，其中块的深度和宽度以相同的因素进行缩放，以保持模型的最佳结构。

YOLOv8是目前最新的YOLO系列算法，由原YOLOv5的作者团队提出。YOLOv8主干网络采用全新的C2f模块替代了原YOLOv5中的C3模块，头部网络中换成了目前主流的解耦头结构(Decoupled-Head)，将分类和检测头分离；YOLOv8抛弃了以往的IOU匹配或者单边比例的分配方式，而是使用了Task-Aligned Assigner正负样本匹配方式，并引入了Distribution Focal Loss (DFL)；训练的数据增强部分引入了YOLOX中的最后10 epoch关闭Mosiac增强的操作，可以有效地提升精度。

3. 无人机目标检测算法

无人机技术发展日趋成熟，越来越多的学者把目光投向无人机航拍图像的目标检测，进一步提升无人机的视觉感知能力。让无人机在抢险救灾、警用侦察、农业发展、交通监测等领域发挥其不可替代的作用。与自然场景下的目标检测不同，无人机航拍图像的目标检测存在诸多难点。

针对于无人机航拍图像的目标检测主要存在以下难点：

1) 视角局限性：无人机在拍摄视角上存在一定的局限性。无人机通常以俯视的视角进行监视拍摄，特征提取角度过于单一；

2) 小目标：无人机航拍图像中小目标的数量远远多于自然场景图像，小目标往往像素比较少，特征单一，在检测的时侯容易出现漏检或者误检的情况；

3) 目标尺度变化大：无人机航拍图像中，目标尺度变化较大，也给目标检测增加了一定的难度；

4) 图像背景复杂：无人机视角下的图像背景较复杂，存在着目标遮挡，光线不足、相似形状物体干扰等因素，增加了目标检测的难度。

3.1. 针对小目标检测性能的优化

无人机的航拍视角存在一定的局限性。无人机通常以俯视视角拍摄地面目标，图像中多为小目标。小目标像素值低，特征单一，可利用信息少，给目标检测任务带来了一定的难度。常规目标检测算法的卷积神经网络中单层特征图表征能力有限，难以应对图像中复杂的小目标，导致检测效果较差。针对无人机航拍图像小目标检测性能差的问题，需要重新设计优化网络结构，提高网络的特征提取能力，增强算法的鲁棒性。

Sommer等 [16] 对于Fast R-CNN和Faster R-CNN应用在无人机航拍图像目标检测的适用性进行了验证；针对小目标检测，优化网络模型，调整区域生成网络(RPN)的锚框和最后一个卷积层的输出分辨率以达到补偿的效果，从而增强网络对于小目标的检测效果。

李利霞等 [17] 在YOLOv5网络模型的基础上，融入多头注意力机制，增强特征提取能力；构建浅层特征融合模块，融合FPN特征金字塔和浅层主干网络的高分辨图像特征信息，提升网络对底层特征信息的关注度；设计多级特征融合模块，根据不同尺度特征层的权重进行信息整合，增强网络对小目标的预测能力。

Liu Y等 [18] 提出了一种基于多分支并行特征金字塔网络(MPFPN)的无人机图像小目标检测方法。该网络在FPN的基础上增加了两个额外的并行分支，可以提高网络提取小目标特征信息的能力；在此基础上，采用SSAM监督空间注意力模块，用来抑制图像的噪声干扰并有效突出目标特征信息；同时，为了增强无人机捕获图像中物体的定位能力，在Faster R-CNN阶段用级联结构替换掉原始的单回归器，实现了边界框的高质量回归。在无人机航拍图像目标检测方面达到了理想的性能。

张上等 [19] 以YOLOv5为原型，设计了一种全新的网络结构LUSS-YOLO。对特征提取网络CSPDarkNet进行重新设计，提高网络内的小感受野权重，然后对改进后的CSPDarkNet进行特征融合；改用EIOU损失函数并使用了VariFocal Loss，在加快模型收敛速度的同时有效提高精确度。经过模型优化后，算法精度提升了6.4%。

3.2. 针对图像背景复杂方面的优化

无人机航拍图像空间视野广，背景复杂，航拍影像通常呈现出遮挡严重、噪声干扰强的特点，导致目标识别困难，易出现误检、漏检的现象。针对无人机目标检测中背景复杂的问题，可以通过改进网络模型和优化损失函数等一系列措施来提高网络对图像的特征提取能力。

Tan等 [20] 在YOLOv4算法的基础上，使用空洞卷积对特征图像进行重采样，以提高特征提取和目标检测的性能；采用超轻量子级子空间注意力机制(ULSAM)，为多尺度特征表示的特征图像的每个子空间导出不同的注意力特征图像；最后，引入非极大值抑制(NMS)，从而最大程度地减少由于遮挡导致的目标漏检的发生。通过实验验证表面，改进后的YOLOv4 Drone相较于原始YOLOv4算法的性能提升了5%。

江德港等 [21] 提出一种基于Efficientnet的无人机车辆目标检测算法，将YOLOv3模型中原有特征提取网络替换为轻量化网络Efficientnet，减少模型参数量使得算法检测速度更快；针对数据集真实框采用K-means算法聚类，提升检测精度；采用CIoU边界框损失函数，加快模型收敛速度的同时提高目标检测准确率。

张瑞倩等 [22] 在现有目标检测算法的基础上，融入多尺度的空洞卷积，扩大特征提取的感受野，从而提高复杂背景下目标检测性能。多尺度空洞卷积网络通过多个空洞卷积获取图像不同尺度的特征，增强网络在进行特征提取时的分析能力。通过在公开数据集VisDrone数据集上验证得出，此方法获得了相较于Faster R-CNN算法更好的精确度和召回率。

罗鸿旭等 [23] 在YOLOv5n算法的基础上进行改进，在主干网络中引入BoT模块，有效地减少了网络参数量并提高检测精度；并把CBAM注意力机制添加到特征融合网络中，以抑制背景信息对检测造成的干扰；将头部网络替换成解耦头部，增强网络的收敛效果。改进后的算法在整体平均精度均值mAP提升了10.25%。

3.3. 针对多尺度目标方面的优化

由于无人机航拍视角的独特性，导致图像中往往目标尺度变化较大，常规目标检测算法难以应对目标较大的尺度变化。通常，需要在网络中融合多尺度特征金字塔以提升网络对于多尺度目标的特征提取能力。

Wang等 [24] 为了应对图像检测中目标尺度变化大的问题，使用初始侧向链接(ILCN)来增强特征金字塔(FPN)的特征提取能力。Yang等 [25] 提出密集特征金字塔网络(DFPN)，在特征金字塔网络中引入密集连接，通过密集连接为所有尺度构建高级语义特征图，以达到增强特征传播和特征重用的目的。Singh等 [26] 提出图像金字塔尺度归一化(Scale Normalization for Image Pyramids, SNIP)，该方法选择性地将不同大小的对象实例的梯度作为图像尺度函数进行反向传播，有效解决了在极端尺度变化下检测性能较差的问题。刘展威 [27] 提出一种改进的无人机目标检测算法VA-YOLO。在YOLOv5s的主干网络中添加CA注意力机制模块，提升检测精确度；在Neck网络和Head输出层部分，添加BiFPN特征融合网络结构，新增小目标检测层，解决了检测小目标时由于尺度不一而导致的语义丢失问题；使用损失函数Varifocal loss与EIoU，改善模型收敛效果，提高检测准确性。

4. 研究展望

目标检测算法已经成为无人机应用层面一项重要的研究内容，受到越来越多学者的关注。无人机领域的目标检测需要在保证检测实时性的同时兼顾检测结果的准确性，虽然现有算法在检测精确度和检测速度上都取得了一定的突破，但仍然有很大的改进空间。考虑到无人机目标检测算法的特点和发展现状，未来可以通过以下几个方面进行改进优化：

1) 多尺度特征融合：优化网络结构，使用更高效的多尺度特征融合网络，在保证检测效果的同时，避免算力浪费，提升算法检测速度。

2) 构建数据集和数据增强：目前，无人机航拍图像的数据集相较于自然图像的数据集规模较小，且场景较单一，难以保证训练过程中高质量的特征提取，会直接影响到最后预测结果的准确性。后续可以通过优化补充数据集的方式，达到数据增强的效果，提高复杂背景下无人机目标检测的泛化能力。

3) 上下文信息：在检测识别的过程中充分利用图像的上下文信息，提取关键特征，利用易检目标来辅助提升难检目标的检测精确度。

5. 结语

本文重点阐述了基于深度学习的无人机目标检测算法的研究现状，对当前无人机领域目标检测的难点及改进方向进行了归纳分析。尽管已有诸多学者基于不同的方向对现有无人机目标检测算法作出了针对性的优化，但现有算法的检测性能还有很大的提升空间。因此，针对多尺度特征融合、数据增强、利用上下文信息等方面的研究是今后无人机目标检测技术研究内容的重点所在。

NOTES

^*通讯作者。

参考文献

[1]	江波, 屈若锟, 李彦冬, 等. 基于深度学习的无人机航拍目标检测研究综述[J]. 航空学报, 2021, 42(4): 131-145.
[2]	包晓敏, 王思琪. 基于深度学习的目标检测算法综述[J]. 传感器与微系统, 2022, 41(4): 5-9. [Google Scholar] [CrossRef]
[3]	贾俊立. 基于深度学习的无人机影像目标检测算法研究[D]: [硕士学位论文]. 大连: 大连理工大学, 2021.[CrossRef]
[4]	杨建秀. 无人机视角下车辆目标检测的算法研究[D]: [博士学位论文]. 西安: 西安电子科技大学, 2021.[CrossRef]
[5]	Girshick, R., Donahue, J., Darrell, T., et al. (2014) Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vi-sion and Pattern Recognition, Columbus, 23-28 June 2014, 580-587. [Google Scholar] [CrossRef]
[6]	He, K., Zhang, X., Ren, S., et al. (2014) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 1904-1916. [Google Scholar] [CrossRef]
[7]	Girshick, R. (2015) Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1440-1448. [Google Scholar] [CrossRef]
[8]	Ren, S., He, K., Girshick, R., et al. (2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis & Machine Intelli-gence, 39, 1137-1149. [Google Scholar] [CrossRef]
[9]	He, K., Gkioxari, G., Dollar, P., et al. (2017) Mask R-CNN. International Conference on Computer Vision. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017. [Google Scholar] [CrossRef]
[10]	Berg, A.C., Fu, C.Y., Szegedy, C., et al. (2015) SSD: Single Shot MultiBox Detector. 14th European Conference, Computer Vision—ECCV 2016, Amsterdam, 11-14 October 2016, 21-37.
[11]	Redmon, J., Divvala, S., Girshick, R., et al. (2016) You Only Look Once: Unified, Real-Time Object Detec-tion. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 779-788. [Google Scholar] [CrossRef]
[12]	Redmon, J. and Farhadi, A. (2017) YOLO9000: Better, Faster, Stronger. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6517-6525. [Google Scholar] [CrossRef]
[13]	Redmon, J. and Farhadi, A. (2018) YOLOv3: An In-cremental Improvement.
[14]	Bochkovskiy, A., Wang, C.Y. and Liao, H. (2020) YOLOv4: Optimal Speed and Accu-racy of Object Detection.
[15]	Wang, C.Y., Bochkovskiy, A. and Liao, H. (2022) YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors.
[16]	Sommer, L.W., Schuchert, T. and Beyerer, J. (2017) Fast Deep Vehicle Detection in Aerial Images. 2017 IEEE Winter Conference on Applications of Computer Vision (WACV), Santa Rosa, 24-31 March 2017, 311-319. [Google Scholar] [CrossRef]
[17]	李利霞, 王鑫, 王军, 张又元. 基于特征融合与注意力机制的无人机图像小目标检测算法[J/OL]. 图学学报: 1-10. http://kns.cnki.net/kcms/detail/10.1034.T.20230223.1435.002.html, 2023-03-07.
[18]	Liu, Y., Yang, F. and Hu, P. (2020) Small-Object Detection in UAV-Captured Images via Multi-Branch Parallel Feature Pyramid Networks. IEEE Access, 8, 145740-145750. [Google Scholar] [CrossRef]
[19]	张上, 张岳, 王恒涛, 等. 轻量化无人机遥感图像小目标检测算法[J/OL]. 无线电工程, 1-9. http://kns.cnki.net/kcms/detail/13.1097.tn.20230414.1639.013.html, 2023-04-19.
[20]	Tan, L., Lv, X.Y., Lian, X.F. and Wang, G. (2021) YOLOv4_Drone: UAV Image Target Detection Based on an Improved YOLOv4 Algorithm. Comput-ers & Electrical Engineering, 93, Article ID: 107261.
[21]	江德港, 江智, 黄子杰, 郭彩玲, 李柏林. 基于Efficientnet的无人机车辆目标检测算法[J/OL]. 计算机工程与应用, 1-11. http://kns.cnki.net/kcms/detail/11.2127.TP.20221027.0859.002.html, 2023-03-07.
[22]	张瑞倩, 邵振峰, Aleksei Portnov, 汪家明. 多尺度空洞卷积的无人机影像目标检测方法[J]. 武汉大学学报(信息科学版), 2020, 45(6): 895-903. [Google Scholar] [CrossRef]
[23]	罗旭鸿, 刘永春, 楚国铭, 等. 基于改进Yolov5无人机图像目标检测算法[J/OL]. 无线电工程, 1-10. http://kns.cnki.net/kcms/detail/13.1097.TN.20230411.1311.006.html, 2023-04-19.
[24]	Wang, J., Ding, J., Guo, H., et al. (2019) Mask OBB: A Semantic Attention-Based Mask Oriented Bounding Box Representation for Multi-Category Object Detection in Aerial Images. Remote Sensing, 11, Article No. 2930. [Google Scholar] [CrossRef]
[25]	Yang, X., Sun, H., Fu, K., et al. (2018) Automatic Ship Detection of Re-mote Sensing Images from Google Earth in Complex Scenes Based on Multi-Scale Rotation Dense Feature Pyramid Networks. Remote Sensing, 10, Article No. 132. [Google Scholar] [CrossRef]
[26]	Singh, B. and Davis, L.S. (2018) An Analysis of Scale Invariance in Object Detection—SNIP. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, 18-23 June 2018, 3578-3587. [Google Scholar] [CrossRef]
[27]	刘展威, 陈慈发, 董方敏. 基于YOLOv5s的航拍小目标检测改进算法研究[J/OL]. 无线电工程, 1-10. http://kns.cnki.net/kcms/detail/13.1097.TN.20230411.1645.026.html, 2023-04-19.

为你推荐

友情链接