1. 绪论
随着计算机技术、通信技术、图象处理技术的不断发展,视频监控系统已经逐渐成为一种重要的安全防范手段。视频监控作为信息融合系统研究的一个重要课题,由于其在军事和民用领域已经展现出有效与广阔的理论和应用前景,而备受国内外学者和众多实际工程领域专家的高度关注 [1] 。随着安全敏感场合(如酒店、机场、会场等)对智能监控系统的需求,非接触式远距离的身份识别技术近来倍受关注。同时,智能视频监控系统用摄像机获取图像并且用计算机对获取的图像进行处理获取运动目标 [2] [3] 。当有异常情况发生时,发出预警提醒监控人员,同时启动录像功能,对异常现场进行录制保存,这样既节省人力又能够节省大量的存储空间。
传统的视频监控系统往往采用固定式方式,连线复杂,功能相对单一,智能化程度低,难以满足公安、武警部门智能化、集成化需求。据此,在科技兴警与人工智能大背景下,本文提出一种基于人脸识别技术的轻小型智能成像系统,集成有高可靠性和高识别率人脸识别算法软件,能够在复杂光照条件下实现自动人脸识别,依据轻小型化原则设计满足快速部署的软硬件产品,可广泛应用于交通卡口,机场,火车站和重要会场等场所安保监控系统。
2. 系统组成原理与设计
2.1. 组成方案
轻小型智能成像系统主要由高清成像前端单元、POE供电单元和智能终端控制单元及移动终端组成,其系统组成框图如图1所示。
高清成像前端单元通过多样化的安装方式实现图像采集,并将信息通过以太网线传输至后端智能终端控制单元(包括移动终端)。
POE供电单元将高清成像前端单元的供电与视频通讯信号传输融为一体,具有链路简单,装配快捷等优点。
智能终端控制单元能够实现对前端2路高清视频信号的接收和焦距控制,对图像进行智能处理与分析,具备越界报警、人脸识别等多种功能。
移动终端能够通过4G和无线网络等方式实现对前端视频的接收,并同步进行越界报警、人脸识别等。
2.2. 硬件设计
2.2.1. 高清成像前端单元
采用高清成像器,配以电动变倍镜头。成像分辨率最大可到200万像素(1080 P),具有星光级感光灵敏度,具有增强夜视功能,能够在较弱光线下实现清晰成像。成像信噪比大于52 db,采用数字宽动态技术和3D数字降噪,具备全焦段量程变化条件下的实时自动聚焦,保证目标在变焦过程中不丢失。成像器主要性能如表1所示,成像效果如图2所示。
Figure 1. System composition block diagram
图1. 系统组成框图
Table 1. Main performance indicators of the imager
表1. 成像器主要性能指标
为减小系统产品的体积、重量,成像器选用机芯组件配以接口板的设计模式。外观设计中采用轻质铝合金结构进行封装,壳体厚度1 mm。部分结构零部件采用塑料作为加工材料,质量更轻。在设备外壳上,对外保留RJ45网络接口,供电与数据链路并行传输。在安装方式上,保留一个物理螺纹接口,实现与不同转接件的快速安装。
2.2.2. POE供电单元
POE供电单元将高清成像前端单元的供电与视频通讯信号融为一体,具有链路简单,装配快捷等优点,网线长度25 m。
采用黑色网线,网线长度25 m,网线采用8芯结构,以用于POE供电。为方便网线的快速收缩和伸展即在地面布设便利,采用黑色八芯全铜导体网线,实现小型化、轻量化,如图3(a)所示。通过伸缩便携式万兆15 m网线盒,实现超长便携式网线的快速展线和收线,如图3(b)所示。伸缩盒体积为160 mm × 148 mm × 23 mm,通过圆形自动收缩设计,网线能够快速收缩;转盘上设计有凹槽,手指转动即可操作。
(a) 网线 (b) 便携式伸缩盒
Figure 3. Fast expansion cable device
图3. 快速伸缩网线设备
2.2.3. 智能终端控制单元
智能终端控制单元能够实现对前端2路高清视频信号的接收和焦距控制,对图像进行智能处理与分析,具备越界报警、人脸识别等多种功能。包括显控软件和智能视频处理算法。
智能终端控制单元集成于高性能处理计算机,主要运行图像处理软件和显控终端软件。其中图像处理软件主要包括人脸识别、图像复原和视频摘要浓缩等功能,显控终端软件为人机交互界面。
智能终端处理单元集成于高性能处理计算机,选用国产联想P50高配商用笔记本,采用I7高性能处理器,主频2.6 GHz,8 G内存,内置512 G存储容量,为保证足够的录像空间,笔记本外接3T容量的USB3.0接口高速硬盘。为方便设备安装与运输,所有后端设备集成于一个设备箱内。设备箱配有手提把手、栏杆或滑轮,方便设备的运输。后端设备箱内包含人脸识别服务器、电源适配器和高性能计算机等设备。设备箱分两层,下层用于安装各类服务器、适配器和紧固件等,上层放置笔记本电脑,用于人机交互,如图4所示。设备箱仅2个接口,一个220V@50 Hz供电接口,一个是以太网接口,操作方便。
Figure 4. Schematic diagram of the equipment box
图4. 设备箱示意图
显示控制终端软件采用C++语言编写,其主界面主要分为显示区和控制区两个部分。
显示区通过SDK开发包提供的图像输入函数,并调用相机自带的解码包,从而获取高清视频数据,并将该数据进行规定格式的显示与存储,具有实时视频存储、抓图、全屏显示等功能。根据与用户的沟通结果,显示区分为主显示区、辅显示区,主显示区显示当前的2路监控视频和状态信息,辅显示区显示每路视频在用户操作后(如人脸识别报警、视频检索)的感兴趣抓图图片,在人脸识别等产生报警信号是自动抓取当前图片,显示在辅显示区。
控制区设置了多种功能区,包括相机控制、报警区声音控制等。与前端通讯部分采用Pelco协议,通过SDK的功能函数将通讯数据打包通过网络进行传输至前端相机。综合显控单元初步效果如图5所示:
Figure 5. Preliminary effect of comprehensive display and control
图5. 综合显控初步效果
2.3. 软件设计
软件总体流程如图6所示,当程序进入运行时,首先自动查询摄像机IP状态,如果匹配成功,则获取摄像机当前图像并进行稳像处理,反之则继续查询匹配IP。当完成稳像操作后,一方面,将稳像后的图像输出至人机交互界面显示并进行视频存储,一方面进行人脸捕获,当捕获到人脸时进行人脸识别,否则进行人脸匹配。对于人脸识别的结果,进行识别结果匹配,如果匹配为黑名单,软件进行自动报警与截图,并将结果进行显示与存储,否则继续进行人脸匹配,直至程序运行结束。
2.3.1. 人脸识别算法
人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。用成像器或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部特征处理的一系列相关技术,通常也叫做人像识别、面部识别 [4] [5] [6] [7] 。
现有的人脸识别系统在用户配合、采集条件比较理想的情况下可以取得令人满意的结果 [4] [5] [6] 。但是,在用户不配合、采集条件不理想尤其是在运动中采集的情况下,现有系统的识别率将陡然下降。也就是说,人的姿态如果发生较大变化,系统可能就会认证失败。同时,光照、装饰等对机器识别人脸都有影响。
特征脸方法利用主分量分析进行降维和提取特征 [7] 。主分量分析是一种应用十分广泛的数据降维技术,该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基,以达到最佳表征原数据的目的,如图7所示。因为由主分量分析提取的特征向量返回成图像时,看上去仍像人脸,所以这些特征向量被称为“特征脸”。
在人脸识别中,由一组特征脸基图像张成一个特征脸子空间,任何一幅人脸图像(减去平均人脸后)都可投影到该子空间,得到一个权值向量。计算此向量和训练集中每个人的权值向量之间的欧式距离,取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。
Figure 7. Face principal component analysis
图7. 人脸主分量分析
最左边的为平均脸,其他的为对应最大特征值的特征向量。利用CNN基于卷积神经网络的学习方法,利用先验人脸图片训练网络,利用训练后的网络进行实时在线检测,与实时捕获的人脸图像进行匹配,匹配度超过阈值即为同一人脸。
如图8所示,本系统中可根据需要,设置多类目标(A, B, C),如普通,重要,黑名单等,以不同方
Figure 8. This system face recognition and early warning program
图8. 本系统人脸识别预警方案
Figure 9. The face recognition effect of the system
图9. 本系统人脸识别效果图
式(a, b, c)进行报警提示,实时在线捕获特定人脸目标。如图9所示为人脸识别效果图,能够进行在线实时比对。
2.3.2. 稳像消抖算法
通过图像处理算法来消除视频图像的各种抖动,从而提供高质量的清晰画面的设备。本系统采用基于特征点匹配的电子稳像算法 [8] [9] [10] 。具有稳定精度高、实时性高、鲁棒性好等优点。对抖动视频进行水平、垂直和旋转方向上的校正;稳像算法的实现只使用参考帧和当前帧,资源占用量较小。算法在提取特征量时采用Harris算子提取角点的算法。Harris角点提取算法具有精度高、抗噪声能力强、稳定性好等特点。然后对所有的特征点采用SAD准则在参考帧中做全搜索,求取所有特征点的局部运动矢量。SAD准则运算速度快且匹配高,全搜索虽然计算量很大,但对于稳像这种需要大范围运动搜索的算法只能采用全搜索的策略,避免产生大量的误匹配以致稳像失败。可以根据特征点的约束结构来剔除误匹配点和图像中的局部特征点,保留全局特征点。将保留下来的全局特征点的运动参数带入最小二乘方程中,即可估计出最优全局运动矢量。最小二乘法估算出的全局运动参数准确、可靠。本算法采用快速的图像补偿算法,以图像快速旋转算法的为核心来实现的,可以在最短是的时间内去图像进行平移、旋转和缩放处理,同时有很好的实行性,完全满足稳像系统实时性的要求。Kalman是分离系统中噪声最优的滤波器。Kalman滤波器只需要前后两帧的数据,所以基本上不产生延迟,实时性很高。所以很适用于稳像算法,用来实时地分离有意运动矢量和无意运动矢量,达到平滑的稳像效果。
3. 实验与测试
实际应用中,将系统前端布置于楼宇通道或建筑物房间内,对出入人员进行成像监控,每个前端的视频通过网线回传至控制中心,控制中心对视频信号进行多种算法处理,输出报警结果。可采用基于远距离以太网的信息组网技术,单个前端与控制中心间的距离可到500 m以上,控制中心可在室内、车内或其他场所。根据实际使用情况,确定合适的焦距与镜头。例如,根据人脸识别算法对面部的最小成像像素数要求为大于40 × 40,相机分辨率为1920 × 1080,相机靶面尺寸为4.8 mm × 3.6 mm,人面部尺寸一般为0.3 m × 0.3 m,典型作用距离为100 m,设焦距为f,则依据如图10所示的几何光学关系可知:
(1)
则焦距为:
(2)
因此,应将可变焦距覆盖44.4 mm附近的镜头作为首选。实际布置场景和测试结果如图11所示。
4. 总结与展望
本文中所设计的轻小型智能成像系统集成小型高清网络摄像机与智能显控终端,采用POE供电方式,具有安装方式灵活,能够快速部署等特点,其智能图像处理算法时间复杂度低,能够部署在便携式计算机上实时执行,人脸识别延迟时间不超过1 s,准确率高于95%。随着硬件能力的不断提升与软件算法的不算优化,未来智能监控系统将继续向小型化,移动化,多功能集成,智能化等方向发展,可实现将图像处理算法移植固化在前端设备中,极大降低对后端计算机处理能力的要求。
参考文献
NOTES
*通讯作者。