1. 引言
齿轮箱是现代工业发电机组必不可少的机械装置,其应用范围广泛,例如在风力发电机组、核电齿轮箱、起重机等。其内部结构复杂,工作时由于零部件之间的相互作用以及外部环境影响,内部零部件极易发生损坏 [1] 。若设备长期运行在故障状态下运行,轻则系统瘫痪,重则影响生产乃至人身安全,因此对齿轮箱进行早期故障的预防与诊断十分重要。传统的齿轮箱故障诊断方法有直接观察法、无损检测法、振动和噪声检测法、机器性能参数检测法和磨损残余物检测法等 [2] 。P. Caselitz等 [3] 将基于频谱分析方法应用于海上风电机组的状态监测和故障诊断中,其主要利用嵌入式开发技术,同时搭建了整个测试系统。Michael等 [4] 通过监测齿轮箱的振动信号以及风机主轴转速、位移和转矩,通过分析这些信号对风电机组进行故障诊断。徐展等 [5] 通过频域、小波多分辨率分析和时域等方法展示了风电机组传动链的故障诊断过程,并总结出了故障的监测以及故障的诊断方法。基于数据挖掘的智能故障诊断方法通过数理统计、数学分析、专家系统、情报检索、模式识别、人工智能理论、和机器学习的方法 [2] ,可以挖掘出未知的、有效的以及试用的信息,并将这些信息用于设备的故障诊断。戚等 [6] 提出了一种基于水母搜索优化变分模态提取(JS-VME)、深度置信网络(DBN)和监督型马氏距离的均匀流形逼近与投影算法(MS-UMAP)的行星齿轮箱故障诊断方法,解决了行星齿轮箱振动信号存在噪声干扰和特征提取困难的问题。针对多尺度的识别诊断问题,庄等 [7] 提出了一种基于混合精细复合多尺度波动散布熵(HRCMFDE)特征提取、拉普拉斯分数(LS)特征降维优化和蝙蝠算法优化支持向量机(BA-SVM)故障识别的行星齿轮箱故障诊断方法。魏等 [8] 提出一种基于特征融合与深度残差网络(ResNet)的行星齿轮箱故障诊断方法,解决了行星齿轮箱振动信号相互耦合和故障诊断不准确等问题。基于数学建模的诊断方法主要有模糊原理、小波分析、基于线性/非线性判别函数以及贝叶斯判据等方法。此类方法通过研究设备故障机理,由此建立数学模型而进行故障诊断 [2] 。魏云冰等 [5] 提出一种快速算法,实现了小波系数的快速得出。同时,对该方法在实际中的应用进行了研究,可以快速地诊断出齿轮箱出现的故障。金嘉埼等 [9] 采用小波分析对小波理论在风电领域内的应用进行了深入而细致的研究。他通过调用位于Matlab中的小波分析模块来进行小波分析,最后发现小波分析理论可以比较好的应用于风电机组的振动监测中 [10] 。Amirat等 [11] 对风电内部的分化结构构件位置和类别给出了相应的故障评价方法,可以间接地对风电齿轮箱内齿轮和轴承进行故障诊断,该方法不仅新颖,而且可行性较高。本文通过所得出的齿轮箱振动工作曲线进行评价,利用孤立森林、朴素贝叶斯、支持向量机分类算法,建立齿轮箱的故障诊断模型,并且对数据集进行模型求解。最后,通过模型求解的准确率对模型进行评价,比较不同模型的效果,找到最优算法。
2. 基本理论
2.1. 孤立森林算法
孤立森林算法 [12] 认为异常样本数量较少,特征值差异较大,因此将异常样本孤立。因为异常样本更靠近根节点,所以孤立森林通过构建二叉树的方法孤立每一个异常样本。孤立森林将训练集通过不放回采样的方式采集子集,然后切割样本集分到节点中的左孩子和右孩子,当孩子节点中有多条相同的数据或只有一条数据或孤立二叉树已达到设置的最大高度时,停止生成孤立二叉树。
根据用户指定数目的孤立二叉树组成的孤立森林:
(1)
其中,d为样本点,h(d)为样本d在每棵孤立二叉树中的路径长度,m为样本集的样本点总数,E(h(d))为所有路径长度h(d)的平均值,其中,将树的高度额归一化:
(2)
其中,
(3)
其中,
为欧拉常数。
综上所述,绘制模型的构建流程图,如图1所示。
2.2. 支持向量机(SVM)算法
支持向量机算法是旨在规模训练样本的大规模数据中,对二类分类的问题进行求解的监督学习算法。其起到决定性分类作用的决策边界,是对训练样本求解的最大远距超平面。而其位于间隔边界上的正类和负类样本之间的软边距,则对异常数据有着很好的容错性。支持向量机算法还对一些非线性可分或线性不可分问题有着很好的解决办法,大部分非线性可分的问题可以通过SVM算法中核方法的核函数升维为更高维的希尔伯特空间转化为线性可分问题。
首先根据导入数据学习目标:
,
,
选用我们经常使用的SVM核函数——径向基核函数对所得到的矩阵进行升维:
![](//html.hanspub.org/file/10-2610353x14_hanspub.png?20230830094737467)
Figure 1. Model flowchart of the isolated forest algorithm
图1. 孤立森林算法的模型流程图
(4)
其中,
为控制核函数宽度的参数,而对线性不可分的情况,引入惩罚因子C来控制错误的分类。该实验中参数取值为
,
。
2.3. 朴素贝叶斯分类算法
朴素贝叶斯分类算法 [13] 是基于贝叶斯决策理论的分类方法,具有分类准确、速度快,可处理大规模数据等特点,由于第二问的数据集庞大,所以我们选择采用朴素贝叶斯分类算法。朴素贝叶斯分类算法通过统计各类别下各特征量的条件概率来计算出概率密度函数,再根据频率找到缺陷,从而分类 [14] 。
假设其服从正态分布,则其概率密度函数为:
(5)
其中,
表示对应样本数据的特征属性集,d为样本集中的实例,
表示分类集合,P表示各类别下各特征量的条件概率估计,i表示第i类故障类型,j表示第j个特征量,
表示不同分类下的特征量均值,
表示不同分类下特征量的方差。若状态量为离散形式,则:
(6)
根据贝叶斯定理可以得知,
(7)
在各个特征属性相互独立的前提下,简化为:
(8)
综上所述,绘制模型的构建流程图,如图2所示:
![](//html.hanspub.org/file/10-2610353x27_hanspub.png?20230830094737467)
Figure 2. Model flowchart of naive Bayesian algorithm
图2. 朴素贝叶斯算法的模型流程图
3. 实验
3.1. 数据准备
模拟数据统计了各个部位传感器的振动数据,本文通过实验得到的数据,刻画振动幅度时间序列的变化。传感器采样频率为6.4 kHz,下列为部分实验得到的数据。(其中,
中i表示第i个加速度传感器,
),如表1~5所示。
将上述数据标签,假设Label = 0为无故障状态,Label = 1为故障状态1,Label = 2为故障状态2,Label = 3为故障状态3,Label = 4为故障状态4。部分数据如下表6所示。
![](Images/Table_Tmp.jpg)
Table 1. Partial vibration signals collected under normal working conditions of the gearbox
表1. 齿轮箱正常工况下采集到的部分振动信号
![](Images/Table_Tmp.jpg)
Table 2. Partial vibration signals collected under fault state 1
表2. 故障状态1下采集到的部分振动信号
![](Images/Table_Tmp.jpg)
Table 3. Partial vibration signals collected under fault state 2
表3. 故障状态2下采集到的部分振动信号
![](Images/Table_Tmp.jpg)
Table 4. Partial vibration signals collected under fault state 3
表4. 故障状态3下采集到的部分振动信号
![](Images/Table_Tmp.jpg)
Table 5. Partial vibration signals collected under fault state 4
表5. 故障状态4下采集到的部分振动信号
![](Images/Table_Tmp.jpg)
Table 6. Partial data after labels
表6. 标签后的部分数据
3.2. 孤立森林算法
利用MATLAB软件进行编程求解,得到如下结果如表7、图3所示。
![](Images/Table_Tmp.jpg)
Table 7. Results of gearbox fault detection model based on isolated forest algorithm
表7. 基于孤立森林算法的齿轮箱故障检测模型结果
![](//html.hanspub.org/file/10-2610353x30_hanspub.png?20230830094737467)
Figure 3. AUC probability distribution trend of gearbox fault detection model based on isolated forest algorithm
图3. 基于孤立森林算法的齿轮箱故障检测模型的AUC概率分布趋势
3.3. 支持向量机(SVM)算法
利用SPSSPRO软件进行编程求解,得到如下结果,如表8所示。
![](Images/Table_Tmp.jpg)
Table 8. Gearbox fault detection model results based on support vector machine algorithm
表8. 基于支持向量机算法的齿轮箱故障检测模型结果
上表中展示了交叉验证集、训练集和测试集的预测评价指标,通过量化指标来衡量支持向量机的预测效果。其中,通过交叉验证集的评价指标可以不断调整超参数,以得到可靠稳定的模型。
· 准确率:预测正确样本占总样本的比例,准确率越大越好;
· 召回率:实际为正样本的结果中,预测为正样本的比例,召回率越大越好;
· 精确率:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。
F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
3.4. 朴素贝叶斯分类算法
利用SPSSPRO软件进行编程求解,得到如下结果,如表9所示。
![](Images/Table_Tmp.jpg)
Table 9. Results of gearbox fault detection model based on naive Bayesian algorithm
表9. 基于朴素贝叶斯算法的齿轮箱故障检测模型结果
上表中展示了交叉验证集、训练集和测试集的预测评价指标,通过量化指标来衡量朴素贝叶斯的预测效果。其中,通过交叉验证集的评价指标可以不断调整超参数,以得到可靠稳定的模型。
· 准确率:预测正确样本占总样本的比例,准确率越大越好;
· 召回率:实际为正样本的结果中,预测为正样本的比例,召回率越大越好;
· 精确率:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。
F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
4. 结论
根据表7~9的数据,对于齿轮箱的故障检测模型,从准确率、召回率和精确率来看,基于朴素贝叶斯算法的齿轮箱故障检测模型的结果更好,但是从拟合曲线的角度来看,基于支持向量机算法的齿轮箱故障检测模型更胜一筹,并且准确率不低于基于朴素贝叶斯算法的齿轮箱故障检测模型的0.1%,所以支持向量机算法的齿轮箱故障检测模型更适合于齿轮箱的故障检测。
通过利用孤立森林算法,朴素贝叶斯算法,和支持向量机算法三个回归算法进行比较,从而确定选择训练集拟合值最高的支持向量机算法作为故障检测模型,支持向量机算法还对一些非线性可分或线性不可分问题有着很好的解决办法对于该类时间序列的故障检测模型有着更高的拟合度。
通过建立齿轮箱的故障诊断模型,可以避免很多安全隐患,轻则设备损坏,重则影响人身安全,但是故障提前诊断出来后可以尽早发现问题,并且减少解决损坏带来的损失,包括金钱损失、人员损失、机器损失等。基于支持向量机算法的数据训练模型能较好地完成齿轮箱故障的数据分类、诊断。唯一的不足在于支持向量机在原理上主要针对的是两类训练样本的问题,即通常所说的二分类问题。但是在实际的应用过程中,绝大多数的问题还是以多种分类的形式存在的 [15] ,因此随着故障种类的增加,该模型的准确率将可能降低。
参考文献
NOTES
*通讯作者。