1. 引言
自然场景中的文本在社会生活中扮演着举足轻重的角色,它们通过书籍、报纸、杂志等载体传递着重要信息。因此,对自然场景文本进行检测已成为当前研究的热点之一。自然场景文本检测方法主要分为传统方法和深度学习方法。
传统算法通常分为基于连通域分析和基于滑动检测窗的方法。基于连通域分析的方法首先将图像进行二值化处理以得到二值图像,然后利用连通域分析来识别图像中的各个连通块。该方法具有较强的抗噪声和遮挡能力,速度快,适用于实时性要求较高的场景。然而,这种方法对于不规则形状的文本处理能力有限,并且在目标密集度较高时容易产生误检和漏检。基于滑动检测窗的方法则将图像按一定比例和步长划分为窗口区域,每个窗口提取特征并进行分类,当分类结果为目标时,该窗口即被视为文本的位置。这种方法适用于各种不规则形状的文本检测,但需要大量的窗口区域特征提取和分类计算,因而耗时较长,不适用于对实时性要求较高的应用场景,并且在小目标检测方面效果较差。
深度学习方法主要分为基于回归和基于分割的检测方法。基于回归的场景文本检测方法利用卷积神经网络提取文本区域的特征,然后通过回归模型对文本区域进行定位和检测。例如,Tian等人 [1] 提出的CTPN网络基于Faster R-CNN [2] ,能够精确定位自然场景中的文本行,并且后处理简单。Liao等人 [3] [4] 提出的Textboxes以及Textboxes++系列模型通过调整候选框和增加多角度预测来更好地检测长文本、倾斜文本等文本实例。与传统方法相比,基于回归的方法具有更高的精度和鲁棒性。然而,这种方法在处理任意形状的文本方面存在较大缺陷,对新的文本场景适应性较差。
相比之下,基于分割的文本检测方法在处理任意形状和极端宽高比的文本实例方面具有优势,因为它不受固定矩形边界的限制。这使得它能够更好地适应不同形状和大小的文本。与基于回归的方法相比,基于分割的算法能更准确地捕捉文本实例的边界,在边界模糊的情况下表现更稳定。
自然场景文本检测技术的研究仍然面临着诸多挑战。传统方法具有一定的实用性和实时性,但存在局限性。深度学习方法虽然具有更高的精度和鲁棒性,但也存在各种缺陷。因此,未来的研究需要进一步探索和改进自然场景文本检测技术,以适应更广泛的应用场景和实际需求。
2. 基于分割的自然场景文本检测
2.1. 基本思想
采用分割技术对自然场景文本进行检测的核心在于利用像素级的分割算法,将图像中的文本区域和背景区域有效地隔离和区分,从而实现精准的文本检测。基于分割的自然场景文本检测方法可分为基于语义分割和基于实例分割两种。基于语义分割的方法能够准确地分离前景和背景,即使目标轮廓复杂,也能通过描边处理检测到的语义信息以获得精确轮廓,进而更高效地提取自然场景中的文本。
然而,在文本行间距较近的情况下,语义分割方法可能会出现文本粘连的问题。实例分割方法在语义分割的基础上进一步对同类物体进行分割和区分,并为它们分配不同的实例标识,实现像素级别的精细化分割,从而在一定程度上避免了文本粘连的问题。因此,对于处理文本行间距相近的情况,实例分割方法可以更好地提高文本分割的精度和准确性。但与基于语义分割的方法相比,实例分割方法在检测效率和保留整体语义信息方面效果较差。针对不同的场景和需求,基于语义分割和基于实例分割的场景文本检测算法各有优劣势。在实际应用中,需要根据具体情况进行选择和权衡,以实现最优的文本检测效果。
2.2. 基于语义分割的方法
语义分割作为一种精细的分割技术,旨在准确地区分目标前景和背景。即使目标轮廓复杂或场景复杂,它也能确保高效的分离效果。在自然场景中,该技术能有效地提取复杂文本,并提升处理效率。
对于任意形状文本的检测,有多篇文献提出了不同方法。Guo、Cui等人 [5] [6] [7] [8] [9] 在任意形状文本检测方面均取得了显著的研究成果。提出了通过高斯概率距离分布保留更多的边界信息,并结合信道特征增强的方法,或者利用概念文本区域网络(CTRNet)来提高解释性和准确性。也可以通过使用IoU相关损失替换平滑损失,优化了检测性能。以及基于UNet [10] 架构,提出逐像素分类框架,尤其适用于处理包含较少文本像素的情况。
然而,这些方法在面对图像文本标注不准确、文本像素包含大量背景像素和误分类像素等分布特征时,性能可能会受到影响。为解决这些问题,Wang等人 [11] 提出了将检测结果转换为更合理的文本分布概率图,并引入后处理算法来重建和筛选文本实例,从而降低误报率。另外,Zhang等人 [12] 结合了FCN和MSER模块,表现出色的水平和垂直多方向文本检测能力。Chen等人 [13] 提出了一种基于注意力机制的语义分割模型,旨在精确标记文本区域的边界,并在弯曲文本数据集上取得了显著成果。然而,该模型无法处理文本中的文本,这是分割型文本检测长期面临的问题。此外,当前文本检测方法还存在字符级注释不足的问题。针对这一问题,Baek等人 [14] 提出了一种创新方法,通过探索字符间的相互关系来提高文本区域的检测精度,在复杂场景下表现优异。
在处理低对比度、背景干扰严重等复杂场景时,Zhao等人 [15] 提出的框架BINet以及新型分割细化与嵌入结构展现出良好的性能。在提升推理速度方面,Liao等人 [16] 和Liu等人 [17] 取得了重要进展。前者通过可微二值化模块优化了后处理过程,提高了文本检测性能;后者则提出了一种高效且准确的任意形状文本检测器(ViT-Bilateral DBNet),成功实现了准确性与实时性之间的平衡。Liao等人 [18] 通过自适应尺度融合模块进一步提升了尺度鲁棒性,优化DBNet的方法,但对小尺度文本的检测仍有提升空间。对此,Liu等人 [19] 提出了增强初始模块的方法,通过抑制背景干扰提高了小尺度文本对象的检测精度,但计算成本相对较高。
2.3. 基于实例分割的方法
实例分割是自然场景文本检测领域中一种备受瞩目的方法,其作为语义分割的延伸,旨在实现像素级别的分类同时准确定位不同的文本实例。由于自然文本行通常密集排布,使用语义分割容易导致文本粘连问题。相比之下,实例分割能够有效避免这一问题,提高分割结果的准确性和清晰度,因此许多研究者将注意力转向了基于实例分割的方法。
Mask R-CNN是由He等人 [20] 提出的一种基于Faster R-CNN框架的扩展方法。通过添加一个并行预测对象掩码的分支,该方法提高了实例分割的准确性和速度。基于该方法后续的研究工作,如Liao、Xie等人 [21] [22] [23] 提出的方法都是在Mask R-CNN的基础上进行改进和优化。
Liao等人 [21] 提出的Mask TextSpotter采用端到端学习过程,在检测任意形状文本方面取得了一定的效果。然而,对于密集的倾斜文本和长文本,该方法的效果并不理想,同时还需要字符集的标注。为了解决这一问题,Liao等人 [22] 在Mask模块中引入了注意力机制模块,降低了对字符级标注的依赖,从而实现对文本行的预测。Xie等人 [23] 则在Mask R-CNN的基础上,通过添加改进后的分割分支并引入新机制,解决了误检问题。这使得该方法能够更好地处理不同形状的文本,提高处理的准确性和稳定性。
此外,Deng等人 [24] 提出了一种名为PixelLink的场景文本检测算法,该算法在减少训练数据的情况下仍能展现出较高的性能。Wang等人 [25] [26] 均采用自上而下的方式对文本进行分割。前者提出了一种名为PSENet的网络,能够精确检测任意形状的文本实例,但运算速度相对较慢。而后者则对前者速度和效率问题进行了优化,且并未降低精度。为进一步解决速度和效率问题,Liu等人 [27] 基于Blend Mask [28] 提出了水平和垂直注意力模块,并将检测头分为数字检测和标题检测两个分支,从而提高了检测的精度和速度。
Wang、Qian等人 [29] [30] 对PAN进行了深入的改进。前者开发了一个高效的端到端任意形状文本定位框架,并通过设计一系列轻量级模块加快了文本定位过程。后者则将PAN优化为掩码引导像素聚合网络(MGPAN),旨在提高文本分割的速度。
Fu等人 [31] 提出了像素亲和力金字塔的文本检测框架,具备检测任意形状文本的强大能力。而Li、Zhang等人 [32] [33] [34] [35] 等也在任意形状文本检测方面有不同的方法。其中可以利用文本实例的连通性和相似性来分割相应的实例多边形,有助于减少文本像素级标注不精确的影响,实现精确的边界生成。也可以采用SAF (Sigmoid Alpha Function) [33] 函数,通过概率映射来准确检测文本实例。但这些方法虽然在检测任意形状文本方面表现出色,但在面对有严重背景干扰和大字符间距的文本时仍存在挑战。
针对这一问题,TextFuseNet [34] 提出了一种在缺乏字符级注释的数据集上训练的框架,相较于其他实例分割方法具有更强的性能和更全面的检测框架。TextField [35] 则是通过学习一个指向最近文本边界的方向场来表示文本,在弯曲文本检测方面表现尤为出色。
在自然场景文本检测领域中,上下文信息的利用是一个重要的研究方向。Liu、Song等人 [36] [37] [38] 在加强上下文信息提取方面提出了各自的方法来增强表征能力或检测准确性。可以选择采用多层特征增强累积模块MFEC [36] 捕捉表征能力累积增强的特征,这种方法很好地处理不规则形状(如弯曲、定向、水平)的场景文本实例。并且增强了上下文信息的利用,可以尽可能保证了多形状文本的检测性能的一致。
在解决相近文本的检测粘连问题方面,Liu、Yang等人 [39] [40] 也给出了相应的解决方案。前者引入了实例分割网络,可以快速生成原型掩码和每实例掩码系数,提高文本定位能力。后者则提出了一种高效文本实例表示方法,将文本实例分解为文本内核和向心移位的组合,保证了较高的检测精度和较快的推理速度。
针对长文本的检测,Sheng、Zhu等人 [41] [42] 也提出了不同的解决方案。TextMountain [41] 利用边框居中信息实现准确的文本定位,而文本轮廓注意文本检测器TCATD [42] 则可以准确定位任意方向和形状的场景文本。这两种方法对弯曲文本也具有很好的检测性能。
综上所述,这些算法模型在上下文信息的利用、不规则形状和弯曲文本的检测以及相近文本的检测粘连问题等方面进行了深入研究,并提出了一系列有效的解决方案。这些方法为未来的研究提供了有益的参考和启示。
3. 常用数据集介绍及算法模型性能对比
3.1. 常用自然场景文本检测数据集
1) ICDAR2003数据集:这个数据集包含509个完全注释的文本图像,分别有258幅图像作为训练集和251幅图像作为测试集。
2) SVT数据集:来自谷歌街景,包含100幅训练集图像和250幅测试集图像,该数据中的图像文本具有很高的可变性,而且通常分辨率较低。
3) MSRA-TD500 数据集:包含500张自然图像,这些图像是使用袖珍相机从室内(办公室和商场)和室外(街道)场景中拍摄的。室内图像主要是标志,门牌和警示牌,而户外图像多为复杂背景下的指南牌和广告牌,文字可能是不同的语言(中文、英文或两者的混合)、字体、大小、颜色和方向。
4) ICDAR2013数据集:包含229幅训练集图像和233幅测试集图像,2013年由国际文档分析和识别会议推出,包含路标、书籍封面和广告牌等场景清晰的自然场景文本图像。
5) ICDAR2015数据集:包含了来自不同场景的1000个图像,数据集中的文本具有不同的语言、字体、大小、方向和形状,涵盖了各种复杂的场景,如街道上的标志、车牌、广告牌等,每个图像都有相应的文本区域标注,以矩形边界框的形式给出,边界框标注包括文本框的左上角和右下角坐标
6) Total-Text数据集:目前规模最大的弯曲文本数据集之一,由1555张图像组成,涵盖超过三种不同的文本方向(水平、多方向和弯曲),可用于解决任意形状文本识别相关问题。其中,训练集包含1255张图像,测试集包含300张图像。
7) RCTW-17数据集:国际文档分析和识别大会在2017年发起了一项专注于中文检测和识别比赛项目(RCTW),RCTW-17为竞赛数据集,它由12,263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文,并且图像尺寸不规则。
8) SCUT-CTW1500数据集:包括1500张图像(训练集1000张,测试集500张),10,751张裁剪过的包含文本的图像,其中3530张图像中包含弧形不规则文本,并且大量图像中的文本是横向或方向各异的。
9) ICDAR2017-MLT (Multilingual Text)数据集:由全场景图像组成,包含来自9种不同语言和6种不同脚本的文本。数据集包括7200幅训练样本图像、1800幅验证样本图像和9000幅自然场景测试图像,是国际上规模最大的场景文本检测数据集之一。
10) LSVT数据集:大规模场景文本数据集,即带有部分标签的大规模街景文本,包含30,000个训练数据和20,000个完整注释的测试图像,以及400,000个训练数据
3.2. 数据集及其算法模型性能对比表格
我们罗列了常用数据集的具体信息以及不同算法模型在同一数据集上的性能表现,并且分析了不同算法模型的优缺点,分别见表1~3:
![](Images/Table_Tmp.jpg)
Table 1. Common datasets for scene text detection
表1. 场景文本检测常用数据集
![](Images/Table_Tmp.jpg)
Table 2. Performance of segmentation based scene text detection method on ICDAR2015 dataset
表2. 基于分割的场景文本检测方法在ICDAR2015数据集上的性能
![](Images/Table_Tmp.jpg)
Table 3. Comparison of advantages and disadvantages of segmentation-based scene text detection methods
表3. 基于分割的场景文本检测方法优缺点对比
4. 展望
本文对基于分割的自然场景文本检测方法进行了介绍。这些算法在各自的领域展现出了独特的优势,但也存在一些缺陷。总体而言,基于分割的自然场景文本检测算法在不同场景下的文本检测准确性和鲁棒性方面取得了显著进展。然而,当前仍面临着泛化能力、多语言泛化、少样本学习以及领域自适应等挑战。本文认为自然场景文本检测技术有望在以下四个方面取得进展:
1) 采用适当的数据增广策略。我们可以对数据集内的同一图像进行多种几何变换,如旋转、缩放、平移和翻转等。通过这些变换,可以模拟不同角度、大小和位置的文本出现情况,而水平或垂直翻转则有助于增加数据集的多样性。此外,添加噪声、调整色彩、遮挡和裁剪等方法也是不错的选择。
2) 提高多语言泛化能力。需要研究如何设计和学习多语言共享的特征表示,以捕捉不同语言之间的共性和差异。可以探索使用自监督、无监督或半监督学习的方法,通过多语言数据和语言相关的任务来学习多语言特征表示。同时,多任务学习也是一个可行的方法,通过同时训练多个相关任务,包括不同语言的文本检测任务,以提高模型对于多语言文本的泛化能力。
3) 构建更完备的标准文本图像数据集。构建更完备的标准文本图像数据集,确保数据集包含多种语言的文本样本,涵盖主要的全球语言,以满足不同语言环境下的需求。考虑收集来自不同场景和领域的文本图像,以更好地模拟实际应用中的多样性场景。
4) 中文(汉语及少数民族语)数据集建立和检测识别方法。就国内而言,需要收集和标注多民族国家各个少数民族语言的数据集,这需要广泛的合作和参与,以确保数据集的多样性和代表性。并且还需要进行多语言模型训练,利用收集到的多民族语言数据集,训练多语言模型。这样的模型可以更好地理解和处理不同语言之间的差异,为我国提供更准确和全面的语言支持。
5. 总结
本文主要介绍了自然场景文本检测方法,首先简要介绍了基于传统和基于回归的自然场景文本检测方法优点及其局限性。然后介绍了基于语义分割和基于实例分割的自然场景文本检测方法,说明了二者的实现原理以及存在的优缺点。接着介绍了自然场景文本检测中常用的数据集,对比了不同模型在同一数据集下的数据,借此分析其优缺点。最后提出了目前自然场景文本检测方法存在的部分问题,并且展望了未来的发展趋势。
基金项目
国家级大学生创新创业训练计划项目(项目编号:S202310876036)。