1. 引言
井下矿工作业是一个高危工作。井下作业矿工精确检测与统计不仅可实现对作业矿工的考勤,而且可避免矿工滞留甚至被困等问题,对保障井下矿工的安全具有重要意义。
提升机罐笼是地面与井下之间重要的运输设备,是矿井工人和施工材料进出矿井的唯一的重要运输工具。传统的矿工人数统计在罐笼出入口进行,采取人工清点的方法,这种方法不仅费时费力,而且容易出错。随着人工智能与计算机图像处理技术的发展,基于图像处理技术的矿工自动检测与统计已经成为了业界新的发展趋势。
矿井作业矿工必须佩戴安全帽。在矿工进出提升机罐笼时,罐笼出入口45˚斜上方安装了摄像头,这时每个矿工的安全帽没有出现任何遮挡,而且由于安全帽颜色鲜艳,特征明显,很适合作为矿工目标检测与统计的对象,如图1所示。
![](//html.hanspub.org/file/21-1542493x8_hanspub.png?20220512092220416)
Figure 1. Target image of cage underground outlet
图1. 罐笼井下出口图像
传统的矿工安全帽检测采用机器学习 [1] 的方法,需要人为地设计特征,例如Haar-like特征 [2]、HOG特征 [3] 等。近年来,随着深度学习的快速发展,传统的机器学习方法渐渐被基于神经网络的深度学习方法所替代 [4]。吴冬梅等提出了基于改进Faster RCNN的安全帽检测算法 [5]。曹燕等提出了一种基于等级SSD的建筑工人安全帽佩戴检测方法 [6]。肖体刚等提出改进YOLOv3的安全帽佩戴检测方法 [7]。但现阶段大多数研究都统一用全连接层进行分类和预测,没有考虑到分类和预测边界框任务之间的区别。最新的研究显示:全连接层适合分类任务,而卷积层更适合预测边界框任务 [8]。
针对安全帽目标检测中没有考虑分类和预测边界框任务之间的区别进而影响分类准确率问题,本文基于Faster RCNN算法框架,对ROIpooling层 [9] 的输出进行了分别处理,分类任务用全连接层进行处理,边界框回归任务用卷积层进行处理,取得了理想的效果。
2. 传统的Faster RCNN
传统的Faster RCNN是一个two-stage (两阶段)网络,网络结构如图2所示。
![](//html.hanspub.org/file/21-1542493x9_hanspub.png?20220512092220416)
Figure 2. Traditional fast RCNN network structure
图2. 传统的Faster RCNN网络结构
原始图像经过直方图均衡化预处理和Resnet网络 [10] 后首先进入RPN (region proposal network,区域建议网络)模块处理产生候选区域,即预先产生系列安全帽目标候选框;RPN [11] 输出经ROIpooling后进入目标检测模块处理,在筛选过后的候选区域中进行目标预测,包括展平(将二维特征图展开成一维向量)、两个全连接、目标分类以及边界框回归等子模块。
3. ResNet网络
图2中的主干网络我们采用ResNet网络。ResNet网络在网络中增加了直连通道,在此之前的网络只是对输入做一个非线性变换,而ResNet网络还考虑前几层的输入。考虑到原始输入的影响,ResNet网络基础功能块Bottleneck如图3所示。
![](//html.hanspub.org/file/21-1542493x10_hanspub.png?20220512092220416)
Figure 3. The realization of the ResNet
图3. ResNet的Bottleneck实现
下一层的神经网络学习上一个网络输出的残差,所以ResNet又叫做残差网络.提出残差学习的思想.传统的卷积网络或者全连接网络在前向传递的时候存在信息丢失,损耗等问题,同时还有梯度消失或者梯度爆炸问题,所以在此之前的网络层数都不大。ResNet的出现使网络层数可以超过百层,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度。Resnet网络结构如图4所示。
![](//html.hanspub.org/file/21-1542493x11_hanspub.png?20220512092220416)
Figure 4. ResNet network architecture
图4. ResNet网络结构
4. 改进Faster RCNN的安全帽检测
传统的Faster RCNN的second stage—目标检测模块在分类和边界框回归上仅使用了全连接层。对于分类和边界框回归这两个任务,仅仅使用全连接层或者卷积层往往得不到理想的效果。全连接层和卷积层在目标分类和定位两个检测任务上是互补。全连接层其分类得分更适合于分类任务,因为它分类得分与建议框和真实框的交并比(IoU) [12] 更相关。同时,卷积层提供了更精确的边界框回归。这是因为全连接层是空间敏感的,对于输入的不同部分有不同的参数,而卷积层对所有部分则共享卷积核。因此,全连接层能够更好地区分一个完整的对象和一个对象的一部分,而卷积层能够更稳健地回归整个对象(边界框回归)。基于以上发现,从而提出了对ROIpooling层输出分开处理的改进,包括一个用于分类的全连接层和一个用于边界框回归的卷积层,以充分利用两个层的优势,新的目标检测模块如图5所示。
改进的网络结构与Faster RCNN的一样是两阶段的检测网络,使用RPN网络获取候选框,有高精度的检测性能,可解决多尺度、小目标问题。改进的网络结构在预测层与原Faster RCNN网络不同,对分类和定位两个任务分别进行处理,所以有更好的检测效果。改进网络整体框架如图6所示,在ROIPooling层后,网络导入两个分支,一个分支采用卷积进行特诊提取并进行边界框回归预测,一个分支采用全连接层进行特征提取并进行分类预测。
5. 矿工出入三线检测算法
图片通过改进Faster RCNN后获取安全帽目标,为实现人员统计,借鉴文献 [13] 的基于计算机视觉的目标计数方法和文献 [14] 的基于检测的方法和判别式跟踪技术,本文设计了三线检测算法,如图7所示。算法设定检测目标顺序越过第一线后再越过第二线(进入矿井)或者越过第三线后再越过第二线(离开矿井)才被计数。越过第二线时如果目标对角线两点的y坐标比上一帧的两点的y坐标值大,则判定目标进入矿井;如果目标对角线两点的y坐标比上一帧两点的y坐标值小,判定目标离开矿井。三线检测算法描述如算法1所示。算法流程图如图8所示。
![](//html.hanspub.org/file/21-1542493x13_hanspub.png?20220512092220416)
Figure 6. Safety helmet detection network based on improved faster RCNN
图6. 改进Faster RCNN的安全帽检测网络
![](//html.hanspub.org/file/21-1542493x14_hanspub.png?20220512092220416)
Figure 7. Three line detection of real image
图7. 三线检测真实图像
![](//html.hanspub.org/file/21-1542493x15_hanspub.png?20220512092220416)
Figure 8. Flow chart of three line detection algorithm
图8. 三线检测算法流程图
算法1:矿工出入三线检测算法
输入:pt1目标左上角坐标,pt2目标右下角坐标 //包括x坐标和y坐标
输出:Num该工段人数
1. function PeopleNum(pt1,pt2)
2. if pt2.y > tFrame[i][1].y Ù pt1.y > tFrame[i][0].y Ù pt2.y >SecondLine Ù pt1.y
3. tMark[i] ← true;
4. tUpOrDown[i] ← true;
5. TotalNum++;
6. Num++;
7. NumDown++;
8. if pt1.y < tFrame[i - 1][0].y Ù pt1.y <= 870 Ù pt2.y < tFrame[i - 1][1].y Ù tMark[i - 1] == false then
//上井的矿工人数统计
9. tMark[i] ← true;
10. tUpOrDown[i] ← false;
11. TotalNum--;
12. Num--;
13. NumuP++;
14. isNew ← false;
15. if isNew && pt1.y <= FirstLine && pt2.y>FirstLine && pt2.y <= ThirdLine then
//过第一线或者第三线进行标记
16. int i = 0;
17. while i < 200
18. if ! fMark[i]&&! tMark [i]
19. fMark[i] = true;
20. break;
21. i++;
22. return Num
23. end function
6. 实验与结果分析
6.1. 评价指标
本文采用的评价指标 [15] 是平均查全率(Average Recall, AR)、平均准确率(Average Precision, AP)和平均精度均值(mean Average Precision, mAP)查全率和平均精度均值越高算法效果越好。查全率和准确率定义如式1所示。
(1)
其中,TP (True Positive)是被判别为正样本的正样本数量,FN (False negative)是被误判为负样本的正样本数量。FP (False Positive)是被误判为正样本的负样本数量。
AP计算如式2所示。
(2)
平均精度均值mAP是由Precision-recall曲线与坐标轴包围区域的面积。c为计算的组数,mAP计算如式3所示。
(3)
6.2. 实验结果与分析
使用井下矿工数据集训练本文提出的改进的Faster RCNN算法。为了证明方法的有效性和合理性,本文对实际中采集的井下行人数据集进行了训练、测试和验证。井下矿工行走数据集均在提升机罐笼进出口提取,矿工均保证佩戴安全帽。井下矿工行走数据集共200张图片,其中训练集数据140张,测试集数据30张,验证集数据30张。训练时初始学习率设置为0.005,在训练10个批次、15个批次和20个批次后分别衰减,在25个批次之后停止训练。图9展示了井下矿工数据集的损失曲线。从损失曲线中可以看出在开始时迅速下降,并随着学习率的降低,损失曲线缓慢且稳步地下降并在第3个批次时,训练损失曲线损失值稳定在0.2左右。该数据说明本文改进的Faster RCNN收敛速度快,且收敛效果好。损失在0.2~0.3之间小幅震荡。最终得到的模型的评价指标mAP曲线如图10所示。
![](//html.hanspub.org/file/21-1542493x19_hanspub.png?20220512092220416)
Figure 9. Loss function and learning rate curve
图9. 损失函数和学习率曲线
为了验证改进算法的可行性和先进性,改进的Faster RCNN算法与传统Faster RCNN算法在井下矿工行走数据集的验证集上进行了对比,结果如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Algorithm comparison results display
表1. 算法对比结果展示
表中IoU表示可判定为同一对象的交并比阈值,area表示目标尺度,maxDets表示每幅图像最大检测次数。AP表示平均准确率,AR表示平均查全率。与传统Faster RCNN目标检测算法相比,改进的Faster RCNN算法对所有安全帽样本不同比例大小的目标平均查准率提高了8.8%,平均查全率提高了5.4%。针对不同尺度安全帽目标的检测结果如下:
对于小尺度目标,改进的算法平均查准率提高9.2%,平均查全率提高8.9%;
对于中尺度目标,改进的算法平均查准率提高6.4%,平均查全率提高9.4%;
对于大尺度目标,改进的算法平均查准率提高1.3%,平均查全率提高7.5%。
更高的平均查准率和平均查全率可以减少矿工检测错漏。选取其中具有代表性的图像,用改进的Faster RCNN算法进行检测,检测结果如图11所示。
由图11可以看出,改进的Faster RCNN算法在实际工程中对井下矿工安全帽的识别效果较好,而且对有遮挡的安全帽也可以准确识别出,配合本文提出的出入三线检测算法后可实现人数统计。
7. 结论
为解决井下矿工人数统计问题,从矿工安全帽检测出发,本文通过改进分类和定位预测网络得到改进的Faster RCNN框架。在真实井下矿工图像数据集上对比实验表明:与传统的Faster RCNN相比,改进的Faster RCNN框架检测算法平均准确率提高了8.8%,平均查全率提高了5.4%,即使在光线很差时出现漏检的情况,通过设计三线检测算法后可确保人数统计正确。下一步计划对算法进行进一步改进,加入人脸识别的分类器,在实现人数统计的同时,完成考勤功能。
基金项目
广东省重点领域研发计划 2021B0101200002、2021B0101200002、2019B01018001。
参考文献
NOTES
*第一作者。