基于深度学习的有向目标检测研究进展

期刊菜单

基于深度学习的有向目标检测研究进展
Research Progress of Directed Object Detection Based on Deep Learning

DOI: 10.12677/jisp.2024.133022, PDF, HTML, XML, 下载: 16 浏览: 25 科研立项经费支持
作者: 罗鸿亮, 王武鑫, 叶轩宇, 朱晟翔, 白永强^*：浙江万里学院信息与智能工程学院，浙江宁波
关键词: 有向目标检测；计算机视觉；深度学习；综述；卷积神经网络；Oriented Object Detection； Computer Vision； Deep Learning； Overview； Convolutional Neural Network

摘要: 目标检测是计算机视觉领域的重要任务，旨在从图像或视频中准确地识别和定位出现的目标物体。但是，普通目标检测算法往往难以处理旋转、带有方向信息的物体。针对此问题，诞生了许多专门用于有向目标检测方法，这些方法提供了更好的面向目标的空间表达，在图像处理方面取得了重大进展。有向目标检测的基本原理是将检测目标的旋转方框和倾斜角以及特征先界定再表示。本文综述了有向目标检测现阶段的国内外研究现状，根据有无锚框将当前基于深度学习的有向目标检测方法分为了基于锚框的一阶段方法、基于锚框的二阶段方法和无锚框方法3类方法进行归纳分析，并从优缺点、骨干网络、适用场景和数据集等方面进行了对比。最后，对有向目标检测方法的发展前景和研究方向进行了展望。

Abstract: Object detection is an important task in the field of computer vision, aimed at accurately identifying and locating objects appearing in images or videos. However, conventional object detection algorithms often struggle to handle objects with rotation or directional information. To address this issue, many specialized methods for oriented object detection have been developed, offering better spatial representation tailored to the objects and achieving significant progress in image processing. The basic principle of oriented object detection is to define and represent the rotation bounding box, tilt angle, and features of the detected objects. This paper reviews the current research status of oriented object detection both domestically and internationally, categorizing current deep learning-based oriented object detection methods into three types: one-stage methods based on anchor boxes, two-stage methods based on anchor boxes, and anchor-free methods, based on whether anchor boxes are used or not, and conducts a comparative analysis from aspects of advantages, disadvantages, backbone networks, applicable scenarios, and datasets. Finally, the paper discusses the prospects and research directions of oriented object detection methods.

文章引用：罗鸿亮, 王武鑫, 叶轩宇, 朱晟翔, 白永强. 基于深度学习的有向目标检测研究进展[J]. 图像与信号处理, 2024, 13(3): 258-270. https://doi.org/10.12677/jisp.2024.133022

1. 引言

目标检测的首要任务是在图像中精确定位感兴趣的目标，并确定其类别，同时生成相应的边界框。传统的目标检测方法主要依赖人工设计的特征进行图像处理，但其效果受限且复杂。然而，随着深度学习技术的兴起，基于深度学习的目标检测算法利用卷积神经网络自动提取深层特征，大幅提高了特征表达能力，显著提升了准确率和效率。

有向目标检测是目标检测的进一步发展，与传统方法相比，它不仅关注目标的位置和类别，还特别注重目标的方向信息，以实现更精准和细致的目标定位和识别。在许多实际应用场景中，尤其是对于具有明显方向特征的目标，如车辆、船只或文字等，有向目标检测具有重要意义。

有向目标检测广泛应用于遥感、安防监控、自动驾驶等领域。在遥感图像领域，有向目标检测应用于灾害监测、资源调查、农业产值测算等方面，对社会和经济发展至关重要。在安防监控领域，有向目标检测可以帮助系统更精确地识别和追踪目标，提高监控效率和准确性。此外，在自动驾驶和无人机应用中，有向目标检测对于准确识别车辆、行人和其他交通参与者的方向信息至关重要，以确保安全驾驶和导航。

有向目标检测广泛应用于遥感、安防监控、自动驾驶等领域。首先，如图1(a)~(d)所示，在遥感图像领域，有向目标检测被应用于灾害监测、资源调查、农业产值测算等，对于社会和经济发展具有重要作用。其次，如图1(e)，图1(f)所示，在安防监控领域，有向目标检测可以帮助系统更加精确地识别和追踪目标，提高监控的效率和准确性。此外，在自动驾驶和无人机应用中，有向目标检测对于正确识别车辆、行人和其他交通参与者的方向信息至关重要，以确保安全驾驶和导航。

目前，在目标检测技术不断发展的背景下，一些学者已经对几种基于深度学习的目标检测方法进行了梳理和总结。例如，罗会兰等[1]将目标检测方法分为基于候选区域的算法和基于回归的算法，并综述了每类方法在基础算法上的改进研究。另外，史彩娟等[2]着重研究了显著性目标检测，而刘天颖等[3]则专注于光学遥感图像的目标检测。然而，目前尚未出现对比有向目标检测算法各种方法优缺点以及性能的综述，因此有必要对现有的有向目标检测算法进行综述。本文将对基于深度学习的有向目标检测模型进行总结和分析。

(a) 遥感检测 (b) 蜜蜂检测 (c) 裂缝检测

(d) 硅藻检测 (e) 厨余垃圾检测 (f) 纸箱检测

Figure 1. Examples of other application scenarios for directed target detection

图1. 空间数据集经典例子

2. 有向目标检测

有向目标检测(Oriented Object Detection)是指在图像或视频中检测和定位具有特定方向或倾斜角度的目标物体。与传统的水平或垂直方向目标检测不同，有向目标检测需要考虑目标的旋转或倾斜情况。为了实现有向目标检测，可以采用以下方法和技术：

旋转框检测方法：这种方法通常通过修改传统的目标检测算法，以支持旋转框的检测。旋转框可以更准确地描述倾斜或旋转的目标边界框，从而提高检测性能。基于旋转角度估计的方法：这种方法通常首先估计目标的旋转角度，然后根据该角度对目标边界框进行调整或修正。通过考虑目标的旋转角度，可以更准确地定位目标位置。

基于特征表示的方法：有向目标检测也可以利用特定的特征表示来提高检测性能，例如旋转卷积(Rotational Convolution)等。这些方法通过在特征提取的过程中考虑旋转不变性，提供了更准确的有向目标检测结果。

需要注意的是，有向目标检测是一个相对较新且具有挑战性的任务。目前的研究仍在探索和改进有向目标检测的方法和技术，以提高检测的准确性和鲁棒性。在实际应用中，还需要根据具体场景和需求选择适合的算法，并进行模型训练和调优。

2.1. 基于锚框的二阶段方法

在有向目标检测中，二阶段的锚框通常指的是目标检测中的两个关键步骤：候选框生成和候选框分类与回归。(1) 锚框生成阶段：在二阶段方法中，候选框的生成通常是通过在图像上密集地放置一组锚框来实现的。如图2所示，对于有向目标检测，考虑到目标的形状和姿态，锚框的生成会考虑旋转或倾斜的情况。生成方式可以根据具体算法的设计选择，例如使用预定义的旋转角度或尺度等。(2) 候选框分类与回归阶段：在二阶段方法中，通过对生成的候选框进行分类和回归来得到最终的目标检测结果。对于有向目标检测，分类和回归任务同样需要考虑目标的旋转或倾斜情况。分类任务将候选框分为目标类别或背景类别，而回归任务则调整候选框的位置和姿态

Figure 2. Method presentation based on anchor frame stage 2

图2. 基于锚框二阶段的方法展示

在国内研究中，目前现阶段，Faster R-CNN [4]是最具代表性的二阶段目标检测方法之一。它通过引入区域生成网络RPN [5] (Region Proposal Network)提取候选框，并在后续的分类和回归网络中进行目标检测。Faster R-CNN在国内得到了广泛的研究和应用。Double-Head R-CNN [6]通过在Faster R-CNN中增加第二个分类器网络，同时预测正类和负类的概率，从而提高目标检测的性能。它能够更好地处理困难样本以及解决正负样本不平衡的问题。Mask R-CNN [7]是在Faster R-CNN基础上扩展出的二阶段方法，用于实现目标实例分割任务。它在Faster R-CNN中增加了一个分支网络，用于生成目标掩膜。Mask R-CNN不仅可以实现准确的目标检测，还能对目标进行像素级别的分割。RoI-Transformer [8]方法在Faster R-CNN的基础上提出了一种自适应的RoI (Region of Interest)特征提取机制，用于解决有向目标检测中的旋转问题。该方法通过引入可调控的RoI旋转操作，使得模型能够学习并适应不同方向的目标。

面对不同场景时，针对目标不平衡问题进行改进的二阶段目标检测时，研究人员往往会采用Libra R-CNN [9]这种方法，它通过引入IoU-balanced采样和IoU-aware调整等技术，增强了模型对小目标的检测能力。R-FCN [10]是一种基于全卷积网络的二阶段目标检测方法。它采用了全局池化的方式来消除位置依赖性，并通过位置敏感的RoI Pooling层实现目标分类和边界框回归。R-FCN减少了计算量并保持了较高的准确性。DCN [11] (Deformable Convolutional Networks)是一种引入可变形卷积的改进网络结构。它通过学习特征的采样位置来适应目标的形状变化，并在目标检测中取得了较好的性能。

国外研究方面，跟国内使用方法有所不同，主流的便是RetinaNet [12]以及NAS-FPN (Neural Architecture Search Feature Pyramid Network)，NAS-FPN采用神经网络搜索的方法自动优化特征金字塔网络结构。它能够根据数据集的特点来生成适用于目标检测的特征金字塔。RetinaNet虽然属于一阶段目标检测方法，但其基于Focal Loss的特点使其也可以被归类为二阶段方法。RetinaNet通过引入focal loss [13]来解决目标不平衡问题，很好地平衡了有向目标检测中的分类精度和定位精度。

在面临多尺度的神经网络时，我们需要使用特定的方法比如说PANet [14]和RepPoints [15]，PANet [16] (Path Aggregation Network)是一种旨在实现多尺度特征融合的网络结构。它通过顶向下和底向上的自主特征传递路径，实现了更有效的特征融合和平衡。RepPoints是一种以关键点表示为基础的目标检测方法，通过学习目标的重要关键点位置，实现对目标的检测和定位。在多尺度、遮挡和密集目标的检测任务中，RepPoints表现出色。

各种二阶段有向目标检测方法的优缺点、主干结构、适用场景以及在不同开源数据集上的mAP值比较如表1所示。

Table 1. Comparison of two-stage rotational target detection methods based on the anchor frame

表1. 基于锚框的二阶段旋转目标检测方法比较

算法	优点	缺点	Backbone	适用场景	发表年份	mAP/%/DOTA
Faster R-CNN [4]	高准确性、良好的检测性能、可用于各种目标检测任务	较慢、复杂的网络结构	VGGNet、ResNet	1) 机器人自主导航。	2015	73.2%
Double-Head R-CNN [6]	在Faster R-CNN基础上改善了检测性能，具有更好的准确性	增加了计算复杂性，对硬件要求更高	ResNet	1) 工业图像检测； 2) 自动驾驶。	2017	80.3%
Mask R-CNN [7]	在Faster R-CNN的基础上新增了像素级分割能力，能同时进行目标检测和实例分割	相比于Faster R-CNN更加复杂和耗时	ResNet	1) 医疗影像诊断； 2) 机器人抓取。	2017	81.6%
RoI-Transformer [8]	方向自适应，空间变换网络，不依赖先验角度信息	数据复杂性，数据依赖性，边界框回归准确性	ResNet	1) 遥感目标识别。	2018	46.0%
Libra R-CNN [9]	通过引入平衡损失，解决了目标不平衡的问题，提高了小目标的检测性能	相对较新的算法，仍在研究中，可能存在一些限制	ResNet	1) 场景文字检测。	2019	47.1%
R-FCN [5]	具有较快的检测速度和较高的准确性	在处理尺寸相对较大的目标上性能相对较弱	ResNet	1) 工业检测和质量控制。	2016	80%
DCN [11]	在卷积操作中引入了可变形卷积网络，提高了对物体形变的建模能力	相对较新的算法，计算复杂性较高	ResNet	1) 人脸检测； 2) 行人检测与跟踪。	2019	49.5%
RetinaNet [12]	有效解决了目标不平衡问题，适用于不同尺度目标的检测	相比于其他算法，可能出现定位误差较大的情况	ResNet	1) 智能监控。	2017	78%
PANet [14]	在特征金字塔网络的基础上引入了跨阶段特征融合模块，提升了检测性能	计算复杂度较高	ResNet	1) 病灶检测； 2) 自动驾驶。	2018	80%
RepPoints [13]	有效解决目标检测中的旋转不变性问题，适用于检测任意形状的目标。	相对较新的算法，仍在研究中，可能存在一些限制和不足。	ResNet	1) X光图像检测。	2021	71.0%

2.2. 基于锚框的一阶段方法

一阶段目标检测方法通常会对锚框进行一些改进，以适应旋转目标的检测需求，如图3所示。一阶段具体体现的有向目标检测方法通常包括以下几个方面：(1) 旋转框表示；(2) 旋转框预测；(3) 锚框生成。

一阶段目标检测方法在国内外都得到了广泛应用和研究，YOLO [17] (You Only Look Once)是最具代表性的一阶段目标检测方法。YOLO是一种经典的一阶段目标检测方法，它将目标检测任务看作一个回归问题，通过在图像上划分网格并预测每个网格中的目标边界框和类别概率来实现目标检测。YOLO具有快速的检测速度，但对小目标的检测效果相对较差。YOLOv3和YOLOv4等版本在国内得到了广泛的应用和研究。此外，国内还有一些基于YOLO思想的改进算法。

在面临关键点表示时，有特定的方法善于处理。CornerNet [18]是一种基于关键点表示的一阶段目标检测方法。它通过检测目标的左上角和右下角关键点来实现目标的定位和分类，具有较好的准确性和鲁棒性。CornerNet也是一种基于关键点的一阶段目标检测方法，它通过检测目标中心点来实现目标的定位和分类。CornerNet简单高效，并且在小目标检测任务中表现出色。RepPointsV2 [19]是对RepPoints的改进版本，也是一种基于关键点表示的一阶段目标检测方法。它通过学习目标的重复点位置来实现目标检测和定位，并在密集目标的检测任务中表现出色。

Figure 3. Based on the anchor frame one-stage method display

图3. 基于锚框一阶段方法展示

在处理不同尺度特征图时，SSD [20] (Fully Convolutional One-Stage Object Detection)也是一种常用的一阶段目标检测方法，它通过在不同尺度的特征图上生成一系列锚框，并预测锚框内的目标类别和边界框。SSD在多尺度上进行检测，适应了不同大小的目标。在外国该领域中，大多数研究者会选择使用RetinaNet [12]和EfficientDet [21]，RetinaNet是一种基于单发多框架结构的一阶段目标检测方法。它在处理小目标和大目标时具有较好的性能。EfficientDet是一种基于EfficientNet网络架构的一阶段目标检测方法。它通过在EfficientNet的特征提取网络上添加一系列卷积层和特征金字塔网络来实现目标检测，具有较高的检测精度和较低的计算复杂度。各种一阶段有向目标检测方法的优缺点、主干结构、适用场景以及在不同开源数据集上的mAP值比较如表2所示。

Table 2. Comparison of one-stage rotation target detection methods based on anchor boxes

表2. 基于锚框的一阶段旋转目标检测方法比较

算法

优点

缺点

Backbone

适用场景

发表年份

mAP/%/DOTA

YOLO
[17]

快速、高效，适合实时目标检测；可以直接输出边界框和类别概率

对小目标检测效果较差；定位精度相对较低

Darknet

1) 停车位检测；

2) 鱼眼行人检测。

2016

58.6%

CornerNet
[18]

通过检测目标的角点而不是边界框，能够更准确地定位目标

对遮挡和尺度变化较敏感；相对较慢

Hourglass

1) 医疗影像诊断；

2) 自动驾驶。

2018

43.7%

续表

RepPointsV2 [19]	利用点表示目标，具有旋转不变性，适合检测任意形状的目标	相对较新的算法，仍在研究中，可能存在一些限制	ResNet	1) 遥感影像； 2) 声纳物体检测。	2021	78.6%
SSD [20]	具有较高的检测准确性；能够检测不同尺度的目标	相对于其他算法定位精度较低	VGGNet、ResNet	1) 电网设备检测。	2016	75%
RetinaNet [12]	有效解决了目标不平衡问题，适用于不同尺度目标的检测	相比于其他算法，可能出现定位误差较大的情况	ResNet	1) 麦穗病害检测； 2) 管状焊点检测。	2017	78.2%
EfficientDet [21]	高效、准确性较高；通过组合不同尺度的特征图提高检测性	训练时间较长	ResNet	1) 机器人自主导航。	2020	55.1%

2.3. 基于无锚框方法

无锚框与传统的基于锚框的方法不同，它通过直接进行目标的位置和类别预测，而无需使用锚框作为候选框，如图4所示。

Figure 4. Based on the anchor-less frame method display

图4. 基于无锚框方法展示

无边框目标检测是一种新兴的目标检测方法，旨在实现去除传统目标检测框架中的边框限制。国内目前流行的算法有FoveaBox [22]和ATSS [23]。FoveaBox是另一种基于FCOS [24]的无边框目标检测方法。它在FCOS的基础上引入了多个Fovea区域，并使用不同分辨率的特征图来检测不同大小的目标，从而提高了小目标的检测精度。ATSS (Adaptive Training Sample Selection)是一种无边框目标检测方法，在Anchor-Free的基础上引入了自适应的训练样本选择机制。它通过动态地选取具有高质量特征的样本来改进检测器，提高了准确性和鲁棒性。在国外研究者看来，CenterNet [25]也可以看作是一种无边框目标检测方法，它通过预测目标的中心点来实现检测，而不是传统的边框方式。CenterNet在国外得到了广泛的研究和应用，并在准确性和速度方面取得了不错的成绩。CornerNet [26]是一种基于角点的无边框目标检测方法。它通过预测目标的角点坐标和中心热图来进行目标检测，避免了传统边框方式带来的限制，并在小目标检测方面表现出优势。EfficientDet虽然属于一阶段目标检测方法，但其通过引入BiFPN [25] (Bidirectional Feature Pyramid Network)和更高效的模型结构，取得了与二阶段方法接近甚至超越的性能，在某种程度上也可看作是一种无边框目标检测方法。无边框目标检测方法正处于迅速发展的阶段，全球各地的研究者们不断提出新的算法和改进方法。这些方法旨在解决传统目标检测框架中边界限制的问题，从而为目标检测任务带来更多可能性和准确性。表3展示了各种无锚框有向目标检测方法的优缺点、主干结构、适用场景以及在不同开源数据集上的mAP值比较。

Table 3. Comparison of target detection methods based on anchorage-free frame rotation

表3. 基于无锚框旋转目标检测方法比较

算法	优点	缺点	Backbone	适用场景	发表年份	mAP/%/DOTA
FoveaBox [22]	通过引入Fovea结构，有效解决了目标多尺度检测问题；适用于检测不同尺度的目标	可能在处理小目标时定位精度较低；相对较慢	ResNet	1) 产品缺陷检测； 2) 场景文字检测。	2019	38.0%
ATSS [23]	通过自适应选择正负样本，提高了目标检测的性能；适用于目标分布不均匀的场景	对于小目标的检测效果可能较差	ResNet	1) 道路要素提取； 2) 垃圾检测。	2019	51.0%
CenterNet [24]	简单、高效；通过检测目标的中心点，能够准确地定位目标	对目标形状变化较大或溢出边界的情况可能不太适用；相对较慢	Hourglass	1) 机器人抓取； 2) 裂缝检测。	2019	46.2%
CornerNet [25]	通过检测目标的角点而不是边界框，能够更准确地定位目标	对遮挡和尺度变化较敏感；相对较慢	Hourglass	1) 红外绝缘子检测。	2018	45.0%
EfficientDet [26]	高效、准确性较高；通过组合不同尺度的特征图提高检测性能	相对较新的算法，仍在研究中，可能存在一些限制	EfficientNet	1) 声纳物体检测； 2) 细胞检测。	2019	55.1%

2.4. 不同检测方法分析比较

在目标检测领域，一阶段和二阶段是两种常见的目标检测方法。其中，无边框是这两种方法中的一种变体。一阶段目标检测方法是直接预测目标的位置和类别，通常通过密集的网格或特征点采样来实现目标检测。尽管它具有简单快速的特点，但对于小目标的检测效果可能较差。无边框的一阶段方法采用在特定的位置或特征点上进行分类和定位，而不使用传统的边界框。相比之下，二阶段目标检测方法则分为两个阶段：首先，通过候选框生成器(例如RPN)生成一组候选框，然后再对这些候选框进行分类和定位。通常，二阶段方法具有更好的准确性，尤其是在小目标和复杂场景下。然而，与一阶段方法相比，它更为复杂且计算代价较高。在无边框的一阶段方法中，目标的位置信息通过关键点(例如CenterNet和CornerNet)或其他编码方式来表示，而不是使用传统的边界框。这种方式能够提供更精确的定位信息，并且在处理小目标或密集目标时通常表现较好。

综上所述，一阶段和二阶段的无边框目标检测方法都是直接预测目标位置和类别，而不依赖传统的边界框。一阶段方法具有简单快速的特点，而二阶段方法通常具有更好的准确性。在选择合适的方法时，需要考虑具体的应用场景和需求。

现总结这三种方法的优缺点如表4所示：

Table 4. Rotational target detection dataset contrast

表4. 旋转目标检测数据集对比

方法类别	优点	缺点
二阶段方法	准确性高：二阶段方法通常能够提供较高的检测准确性。通过使用先进的候选框生成算法(如候选框回归或者选择性搜索)来获取较准确的候选框，并在第二阶段进行目标分类和精细定位，从而提高了目标检测的准确性。鲁棒性强：由于二阶段方法采用两个阶段进行检测，可以分别对候选框进行筛选和分类。这样可以使得算法对于部分遮挡、目标形变和复杂背景等情况具有较好的鲁棒性。对小目标检测效果好：二阶段方法通常在小目标检测方面表现较好。通过候选框生成和精细定位的两个阶段，可以更好地捕捉小目标的信息，提高其检测精度。	计算量大：相对于一阶段方法，二阶段方法需要进行两个阶段的计算，其中包括候选框生成和目标分类。因此，二阶段方法通常需要更多的计算资源和时间，对于实时性要求较高的场景可能存在一定的挑战。设计复杂：二阶段方法涉及到两个阶段的网络设计和组合，需要进行候选框生成、特征提取、目标分类和精细定位等一系列操作。这增加了算法的设计和调优难度，对于初学者来说可能较为复杂。对大目标处理较慢：由于二阶段方法需要在候选框生成和目标分类两个阶段都进行运算，对于大目标而言，可能需要更大的感受野和更多的计算量，导致检测速度较慢。
一阶段方法	速度快：相对于二阶段方法，一阶段方法具有更快的检测速度。由于一阶段方法直接通过网络一次性预测目标的类别和位置，避免了候选框生成和多次网络推断的过程，从而提高了检测的实时性能。简单高效：一阶段方法相对于二阶段方法来说，算法设计较为简单，只需要进行单次网络推断即可。这降低了算法的复杂性和实现的门槛，并且在资源受限的设备上更容易部署和应用。对大目标处理效果好：由于一阶段方法通过在不同层次的特征图上进行预测，可以捕捉到不同尺度的目标信息，因此在处理大目标方面通常表现较好。	较低的定位精度：由于一阶段方法直接通过网络预测目标的位置，相对于二阶段方法而言，其定位精度可能会相对较低。因为一阶段方法在预测过程中不使用候选框回归和精细定位的方法，往往对目标的位置定位不够精准。对小目标检测效果差：一阶段方法可能在小目标检测方面表现较差。由于一阶段方法直接基于整个图像预测目标，小目标相对于整个图像来说尺寸较小，很容易受到其他大目标或者背景的干扰而导致漏检或误检。对密集目标检测挑战大：一阶段方法对于密集目标的处理可能存在一定困难。由于一阶段方法只进行一次网络推断，因此无法很好地处理多个重叠的目标，可能会导致部分目标的漏检或者定位不准确。
无锚框方法	简化设计：无锚框方法避免了锚框设置和采样策略的复杂性，减少了算法的设计和调优难度，降低了实现的门槛。减少计算量：相比于使用大量锚框进行目标检测，无锚框方法通常具有更少的候选框或者预测数量，从而减少了计算量和内存消耗，提高了检测速度和效率。处理尺度变化：无锚框方法往往采用多尺度特征处理的方式，可以有效地处理不同尺度的目标，并且对小目标和大目标具有较好的检测能力。空间感知能力：基于关键点的无锚框方法可以提供更精确的位置信息，有助于更准确地定位目标。	目标定位限制：无锚框方法通常以像素级预测为基础，因此在目标定位方面可能存在一定的局限性。相对于锚框方法，无锚框方法的目标边界框定位可能会相对粗糙。目标形变敏感性：无锚框方法对于目标形变比较敏感，对于尺度变化较大、高度变化或者非常规形状的目标，可能会存在一定的检测困难。小目标检测挑战：无锚框方法在小目标检测方面可能相对有限，尤其是相对于基于锚框的方法来说，由于无锚框方法没有显式定义的候选框，可能会导致对小目标进行漏检。弱遮挡目标：对于部分遮挡的目标，无锚框方法可能存在一定的鲁棒性不足，难以准确地检测和定位。

3. 有向目标检测性能评价

3.1. 数据集

随着目标检测技术的不断发展，不断涌现出一些有向目标检测的数据集，如图5所示。下面介绍几种常用的有向目标检测数据集。

DOTA [18]数据集：DOTA (Detection in Aerial Images)数据集是一个用于航空图像中目标检测的数据集。它包含了多个类别的目标，如飞机、车辆等，并提供了目标的方向信息。

NWPUVHR-10 [27]是由西北工业大学发布的航天遥感目标检测数据集，总共包含800张图像，其中包含目标的图像有六百余张，背景图像150张。目标包括飞机、港口、桥梁、舰船、油罐、棒球场、网球场、篮球场、田径场、车辆10种。

HRSC2016 [28] (High Resolution Ship Classification)数据集是一个用于船舶检测的数据集。它包含高分辨率的遥感图像，并提供了船舶目标的方向信息。

MSRA-TD500 [29]是由华中科技大学于2012年提供的文本检测数据集。数据集的图像分别是在办公室、商场和街道等多种场景中通过相机拍摄的图片，图片的文本由不同方向的中文和英文组成。

COCO-Text [30]数据集是在微软提供的目标识别数据集MS COCO的基础上完善成型的。COCO-Text数据集中的图片包含背景复杂自然图片和生活场景图片，但是图片中也可能不包含文本内容。

ICDAR2015 [31]数据集是一个用于文本检测的数据集，其中包含了多种文本方向的图像。它利用了文本方向信息来帮助检测和识别文本目标。

KAIST [32]行人数据集专注于行人检测，并提供了行人的方向标注信息。它包含日间和夜间的图像序列，以及多种天气条件下的行人目标。

Figure 5. The dataset sampling example of Fig

图5. 数据集采样例图

3.2. 评价有向目标检测的性能指标

目标检测性能评价通常包括以下几个指标：

精确率(Precision)：精确率是指被分类为正例的样本中，真正为正例的比例。即正例预测正确的数量与所有被预测为正例的数量之比。精确率高表示模型预测的结果更准确。

召回率(Recall)：召回率是指真正为正例的样本中，被正确预测为正例的比例。即正例被正确预测的数量与所有真实正例的数量之比。召回率高表示模型能够捕捉到更多的正例。

F1分数(F1 Score)：F1分数是精确率和召回率的调和平均值，综合考虑了两个指标。F1分数越高表示模型综合性能越好。

平均精确率均值(mAP)：mAP是用于评估目标检测任务的常见指标。它结合了不同类别的精确率和召回率，并计算它们的平均值。mAP越高表示模型在多个类别上表现出更好的性能。

IoU (Intersection over Union)：IoU是指预测框和真实框之间的交集面积与并集面积之比。在目标检测中，通常将IoU阈值设定为一定的数值(如0.5)，用来判断预测框和真实框是否重叠。高IoU表示模型预测的框与真实框更接近。

定位误差：定位误差指的是预测框与真实框之间的距离或重合程度。一种常用的度量方式是计算预测框与真实框的边界框之间的差异。

这些指标可用于评估和比较目标检测模型的性能。在具体应用中，也可以根据任务的特点和需求，选择适合的评价指标进行性能评估。

需要注意的是，以上的优缺点是相对的，每个方法都有其适用的场景和局限性。因此，在具体应用中选择合适的方法需要综合考虑任务要求、计算资源和性能需求等因素。目标检测领域仍在不断发展中，未来可能会有更加高效和准确的方法出现。

各种开源数据集的应用领域、大小、标注方式、数量、类别以及最佳检测结果对比如表5所示。

Table 5. Directed target detection dataset comparison

表5. 有向目标检测数据集对比

数据集	应用领域	标注方式	数量
DOTA [18]	遥感航空图像	旋转框	包含2806张航空图像
HRSC2016 [28]	遥感舰船	旋转框	1070张照片2976个实列
NWPUVHR-10 [27]	空间物体检测	水平框	650张目标图像150张背景图像共800张
MSRA-TD500 [29]	任意方向文本检测	旋转框	500张自然图像
COCO-Text [30]	单词级	旋转框	包含63,686幅图像，173,589个文本实例
ICDAR2015 [32]	单词级	旋转框	包含1500张实列
KAIST [33]	行人	手绘	504个序列约705,000张照片

4. 前景展望

有向目标检测作为目标检测领域的一项重要研究方向，其核心在于识别和检测具有特定方向或姿态的目标物体。未来，有向目标检测将持续迎来新的发展和进步。以下是对其前景的展望：

1) 算法改进和优化方面，预计会出现更高效和准确的方法。随着基于深度学习和神经网络的不断发展，我们可以期待更强大的模型和算法的应用，例如基于Transformer的架构(例如GPT-4)。同时，还可以进一步研究和改进锚框生成、候选框分类与回归等关键步骤，以提升有向目标检测的性能。

2) 数据集和标注工具的发展方面，随着有向目标检测的需求增加，我们可以预见更多方向多样的数据集涌现，从而推动算法的训练和评估。同时，为了支持有向目标检测算法的发展，会出现更智能化和高效化的标注工具，减轻人工标注的负担。

3) 实时和嵌入式目标检测方面，我们会看到更多基于嵌入式系统和边缘计算的实时目标检测应用。这将促使研究者设计轻量级模型和算法，以实现实时性能要求，并在资源受限的环境中进行高效推理。

4) 融合传感器和多模态信息方面，有向目标检测可以与其他传感器数据融合，如雷达、激光雷达和红外传感器等，以提供更全面和准确的目标检测结果。此外，融合多模态信息，如图像、语音和文本等，也可以进一步增强有向目标检测系统的能力。

5) 领域应用拓展方面，有向目标检测将在更广泛的领域应用中得到推广，如自动驾驶、安防监控、智能交通、机器人等。这将带来更多的挑战和机会，需要研究者在不同场景下以及各种复杂条件下对有向目标进行准确检测和识别。

综上所述，有向目标检测领域具有广阔的前景。通过算法改进、数据集和工具发展、实时嵌入式应用、多模态融合以及拓展领域应用，有向目标检测将持续发展，并在实际应用中发挥越来越重要的作用，为社会带来更安全、智能和高效的解决方案。

5. 结论

本文概述了近年来遥感图像检测和文本图像检测领域的有向目标检测方法，目的在于向学者介绍该领域的最新发展情况。首先对有向目标检测的背景进行了分析，然后对该领域的方法进行了分析和比较，包括基于锚框的二阶段方法、一阶段方法和无边框方法，并对它们进行了综合总结和评价。随后介绍了该领域常用的公开数据集和性能评价指标。

最后，总结了有向目标检测在未来的发展趋势和可能的研究重点。目前虽然取得了一定的成果，但有向目标检测方法的性能仍需进一步提升，特别是在检测精度、速度、复杂背景和小目标等方面。总体而言，研究者们仍应关注通用目标检测领域的最新进展，并对有向目标的特点进行改进。未来有向目标检测模型将持续向实时、高效的方向发展。

基金项目

宁波市重大科技任务攻关项目(项目编号：2022Z076)；国家级大学生创新创业训练计划项目(项目编号：202310876026)。

NOTES

^*通讯作者。

参考文献

[1]	罗会兰, 陈鸿坤. 基于深度学习的目标检测研究综述[J]. 电子学报, 2020, 48(6): 1230-1239.
[2]	史彩娟, 张卫明, 陈厚儒, 等. 基于深度学习的显著性目标检测综述[J]. 计算机科学与探索, 2021, 15(2): 219-232.
[3]	刘天颖, 李文根, 关佶红. 基于深度学习的光学遥感图像目标检测方法综述[J]. 无线电通信技术, 2020, 46(6): 624-634.
[4]	Jiang, H. and Learned-Miller, E. (2017) Face Detection with the Faster R-CNN. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017), Washington DC, 30 May 2017-3 June 2017, 650-657. https://doi.org/10.1109/fg.2017.82
[5]	Elsasser, S., Gali, R.R., Schwickart, M., Larsen, C.N., Leggett, D.S., Müller, B., et al. (2002) Proteasome Subunit Rpn1 Binds Ubiquitin-Like Protein Domains. Nature Cell Biology, 4, 725-730. https://doi.org/10.1038/ncb845
[6]	Cui, F., Ning, M., Shen, J. and Shu, X. (2022) Automatic Recognition and Tracking of Highway Layer-Interface Using Faster R-CNN. Journal of Applied Geophysics, 196, Article ID: 104477. https://doi.org/10.1016/j.jappgeo.2021.104477
[7]	He, K., Gkioxari, G., et al. (2017) Mask R-CNN. IEEE Transactions on Pattern Analysis &Machine Intelligence, 42, 386-397.
[8]	刘敏豪, 王堃, 金睿蛟, 等. 基于改进RoI Transformer的遥感图像多尺度旋转目标检测[J]. 应用光学, 2023, 44(5): 1010-1021. https://doi.org/10.5768/JAO202344.0502001
[9]	陈飞, 蔡钟晟, 王波, 等. 基于Libra-RCNN和椭圆形状特征的图像中目标检测方法及系统[P]. 中国, CN202210112398.2. 2024-04-01.
[10]	Dai, J., Li, Y., He, K., et al. (2016) R-FCN: Object Detection via Region-Based Fully Convolutional Networks. Curran Associates Inc., New York.
[11]	Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., et al. (2017) Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 764-773. https://doi.org/10.1109/iccv.2017.89
[12]	Miquel, J.R., Tolu, S., Scholler, F.E.T. and Galeazzi, R. (2021) RetinaNet Object Detector Based on Analog-to-Spiking Neural Network Conversion. 2021 8th International Conference on Soft Computing & Machine Intelligence (ISCMI), Cario, 26-27 November 2021, 201-205. https://doi.org/10.1109/iscmi53840.2021.9654818
[13]	Demir, A., Massaad, E. and Kiziltan, B. (2023) Topology-Aware Focal Loss for 3D Image Segmentation.
[14]	Jungmeier, M., Wagenleitner, S. and Zollner, D. (2008) PANet Protected Area Networks—A Handbook.
[15]	Li, W., Chen, Y., Hu, K. and Zhu, J. (2022) Oriented RepPoints for Aerial Object Detection. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 1819-1828. https://doi.org/10.1109/cvpr52688.2022.00187
[16]	Zhang, K., Xiong, F., Sun, P., et al. (2019) Double Anchor R-CNN for Human Detection in a Crowd.
[17]	Redmon, J. and Farhadi, A. (2017) YOLO9000: Better, Faster, Stronger. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6517-6525. https://doi.org/10.1109/cvpr.2017.690
[18]	He, A., Chen, G., Zheng, W., Ni, Z., Zhang, Q. and Zhu, Z. (2021) Driver Cell-Phone Use Detection Based on CornerNet-Lite Network. IOP Conference Series: Earth and Environmental Science, 632, Article ID: 042004. https://doi.org/10.1088/1755-1315/632/4/042004
[19]	Chen, Y., Zhang, Z., Cao, Y., et al. (2020) RepPoints V2: Verification Meets Regression for Object Detection.
[20]	Zhang, X., Guo, W., Xing, Y., Wang, W., Yin, H. and Zhang, Y. (2023) AugFCOS: Augmented Fully Convolutional One-Stage Object Detection Network. Pattern Recognition, 134, Article ID: 109098. https://doi.org/10.1016/j.patcog.2022.109098
[21]	Srikanth, A., Srinivasan, A., Indrajit, H. and N., V. (2021) Contactless Object Identification Algorithm for the Visually Impaired Using EfficientDet. 2021 6th International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET), Chennai, 25-27 March 2021, 417-420. https://doi.org/10.1109/wispnet51692.2021.9419427
[22]	Kong, T., Sun, F., Liu, H., Jiang, Y., Li, L. and Shi, J. (2020) FoveaBox: Beyound Anchor-Based Object Detection. IEEE Transactions on Image Processing, 29, 7389-7398. https://doi.org/10.1109/tip.2020.3002345
[23]	Hall, N.L., Dvonch, J.T., Marsik, F.J., et al. (2017) Hall et al. ATSS Supplemental Information ijerph-14-00173-s001.
[24]	Kannadaguli, P. (2020) FCOS Based Human Detection System Using Thermal Imaging for UAV Based Surveillance Applications. 2020 IEEE Bombay Section Signature Conference (IBSSC), Mumbai, 4-6 December 2020, 79-83. https://doi.org/10.1109/ibssc51096.2020.9332157
[25]	Zhang, H., Du, Q., Qi, Q., Zhang, J., Wang, F. and Gao, M. (2022) A Recursive Attention-Enhanced Bidirectional Feature Pyramid Network for Small Object Detection. Multimedia Tools and Applications, 82, 13999-14018. https://doi.org/10.1007/s11042-022-13951-4
[26]	Pinchao, H., Shijian, L., Ge, X.U., et al. (2023) Helmet Wearing Detection Method Based on Improved CenterNet with Enhanced Associations. Computer Engineering and Applications, 59, 250-256.
[27]	Ming, Q., Miao, L., Zhou, Z., Song, J., Dong, Y. and Yang, X. (2023) Task Interleaving and Orientation Estimation for High-Precision Oriented Object Detection in Aerial Images. ISPRS Journal of Photogrammetry and Remote Sensing, 196, 241-255. https://doi.org/10.1016/j.isprsjprs.2023.01.001
[28]	张瑞琰, 姜秀杰, 安军社, 等. 面向光学遥感目标的全局上下文检测模型设计[J]. 中国光学, 2020, 13(6): 1302-1313.
[29]	Tao, Y., Muller, J.-P. and Poole, W. (2016) Automated Localisation of Mars Rovers Using Co-Registered HiRISE-CTX-HRSC Orthorectified Images and Wide Baseline Navcam Orthorectified Mosaics. Icarus: International Journal of Solar System Studies, 280, 139-157.
[30]	Zhang, Z., Zhang, C., Shen, W., Yao, C., Liu, W. and Bai, X. (2016) Multi-Oriented Text Detection with Fully Convolutional Networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 4159-4167. https://doi.org/10.1109/cvpr.2016.451
[31]	Veit, A., Matera, T., Neumann, L., et al. (2016) COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images.
[32]	Karatzas, D., Gomez-Bigorda, L., Nicolaou, A., Ghosh, S., Bagdanov, A., Iwamura, M., et al. (2015) ICDAR 2015 Competition on Robust Reading. 2015 13th International Conference on Document Analysis and Recognition (ICDAR), Tunis, 23-26 August 2015, 1156-1160. https://doi.org/10.1109/icdar.2015.7333942
[33]	杜浩浩. 基于深度卷积神经网络的单阶段目标检测算法的研究[D]: [硕士学位论文]. 郑州: 河南大学, 2020.

友情链接