1. 引言
极限学习机(Extreme Learning Machine, ELM)是由黄等人在文献 [1] 中提出的一种简单高效的单隐层前馈神经网络算法。ELM随机选取网络的内权和隐层偏置,采用均方误差(Mean Squared Error, MSE)作为损失函数,并通过求解线性方程组得到唯一的解析解,因此克服了传统神经网络的一些不足,已被广泛应用于医学 [2] 、生物学 [3] 、故障诊断 [4] 、图像分类 [5] 、荷电状态估计 [6] 等领域。
由于ELM采用MSE作为损失函数,当样本中存在噪声和离群值时,离群值会放大对参数估计的影响,从而导致模型的敏感性和鲁棒性较差。因此,极限学习机的许多变体都致力于提高对极限学习机鲁棒性的研究。对于残差较大的异常点,通常采用迭代修正的方式来减少异常值的影响 [7] ,以获得鲁棒的极限学习机模型。当数据集中添加了不同程度的高斯噪声时,可以采用自编码器对输入数据进行重构,将隐层输出值关于输入的雅克比矩阵的F范数引入目标函数中,以提取更鲁棒的抽象特征 [8] 。
当然,还能从损失函数的角度出发,对损失函数进行变体以提高极限学习机的鲁棒性能。文献 [9] 提出了一种基于指数Laplace损失函数回归估计鲁棒极限学习机,由于指数Laplace损失函数具有非负、对称、有界等特点,能够有效地提高预测精度。文献 [10] 建立了基于1-范数损失函数和2-范数正则化项的鲁棒ELM模型,可以处理高维数据,且对不平衡的数据集也能产生良好的结果。文献 [11] 提出了四种不同的损失函数(1-范数、Huber、bisquare和Welsch),采用了1-范数和2-范数正则化项防止过拟合,提出了统一的鲁棒正则化ELM。文献 [12] 提出了基于正则化相关熵准则的ELM,采用半二次规划求解所建模型,通过在人工数据集上进行仿真实验,实验结果表明正则化相关熵准则ELM优于传统ELM和正则化ELM。文献 [13] 提出了相关熵融合极限学习机,将核映射与系数加权相结合,用相关熵损失函数替代均方误差损失函数,推导出相关熵循环更新公式,增强了它的鲁棒性。文献 [14] 提出了基于最大相关熵准则的多尺度高斯核极限学习机,用最大相关熵准则代替多尺度核极限学习机中传统的最小均方误差准则构造目标函数,推导出基于最大相关熵准则的多尺度高斯核极限学习机,进而提高其鲁棒性。文献 [15] 提出了一种基于pinball损失函数和L1范数正则化的ELM模型,以实现鲁棒性和稀疏性的提高。
受上述研究的启发,本文在最大相关熵准则损失函数的基础上,采用截断思想,提出了截断最大相关熵损失函数,并将其引入到ELM框架中,建立了能够降低噪声和异常值影响的基于截断最大相关熵准则的鲁棒极限学习机(Truncated Maximum Correntropy Criterion Extreme Learning Machine, TMCCELM),实验结果表明当数据中异常值过多且残差较大时,本文TMCCELM的结果优于对比的几种鲁棒极限学习机算法,具有较好的鲁棒性和较高的预测精度。
2. ELM模型
给定N个训练样本的数据集
,具有L个隐藏节点和激活函数
的数学表达式为:
(1)
其中
是输入层和第i个隐藏层神经元之间的输入权值,
是连接第i个隐藏层神经元与输出层之间的输出权值,
表示
与
的内积,并且输出节点被选择为线性的,ELM网络中隐含层的映射生成的中间矩阵为:
其中
表示输出层和隐层之间的权值矩阵,
表示训练样本期望输出矩
阵,式(1)可以写成如下形式:
的最小范数二乘解
:
其中
表示隐层输出矩阵H的Moore-Penrose广义逆。
3. T-MCC-ELM模型
3.1. 截断最大相关熵准则损失函数
相关熵是一种用来描述两组随机变量相似性的度量,已被广泛应用于信号处理和鲁棒学习领域 [16] 。对于给定任意两个随机变量
,它们的相关熵可以定义为:
,
其中
是满足Mercer理论的核函数
;
表示核函数宽度;E表示数学期望。在实
践中,联合概率密度通常是未知的,并且只有有限数量的数据可用,这导致了相关熵有以下的样本估计:
,
其中
是高斯核函数,对于变量
和变量
,A和B的差值可以表示为
,其中
。上式相关熵的最大值称为最大相关熵(Maximum Correntropy Criterion, MCC),可以表示为 [17] :
.
在MCC下,可以将问题转换为实际值y与预测值f之间的相似性问题,即
.
其对偶问题为:
.
综上所述,在最大相关熵损失函数基础上,提出了截断最大相关熵损失函数:
其中
为预先给定的异常值的最大惩罚,
的上界表明当误差超过某定值时,损失函数
值为常数,能够抑制异常值的影响。
3.2. 基于截断最大相关熵准则损失函数的鲁棒极限学习机
基于截断最大相关熵准则损失函数,本文建立具有抑制异常值影响的鲁棒ELM模型,其对应的优化模型具有如下形式:
(2)
其中第一部分是为了防止过拟合引入的
正则化函数;第二部分是T-MCC函数,C表示正则化参数。为了解决(1)的二次规划问题,这里引入权重矩阵的
,构造如下拉格朗日函数:
(3)
其中
表示每个样本所对应的拉格朗日乘数法中的参数变量,对式(2)中每个参数求偏导数,令偏导数为0,可得:
(4)
其中
(5)
由(4)可得隐含层输出权重
,其最优解
:
其中对角矩阵
。
4. 迭代重加权算法及T-MCC-ELM算法的设计步骤
为了得到
的最优权重,同时兼顾模型的训练速度,本文采用了迭代重加权算法。单个样本的权重可表示为
,即
. (6)
因此,N个样本的权重可表示为:
.
T-MCC-ELM算法设计
输入:训练集
,正则化参数C,隐含层节点L,最大迭代次数
和迭代停止条件
,
,计算隐藏层输出矩阵H,令
和
。
输出:
。
步骤1:根据下式,计算
由表达式(1),可得
;
步骤2:
设置对角矩阵
,其中
为对角元素;
步骤3:令
,计算
;
步骤4:若
,且
,则转步骤5;
步骤5:由式(1)得
,令
,转步骤2。
5. 实验
下面的实验设计旨在验证TMCCELM在不同异常值存在情况下的鲁棒性能和计算效率。本文给出了TMCCELM和ELM、RELM、WRELM、RCCELM算法的实验结果,并通过统计测试比较了这些算法的性能。本实验的数据集分为训练集和测试集,选择sigmoid函数
作为激活函数,TMCCELM的最大迭代次数设置为20,且在Matlab9.10(R2021a)的环境下进行。
人工数据集采用回归问题中广泛使用的sinc函数作为目标函数的近似,定义如下:
对于每个数据点
,用于训练的x以统一的步长在
中选取,用于测试的x是从区间
中选取。为了全面评估异常值的鲁棒性,我们从
中随机选取扰动值添加在y的测试点上,且服从均匀分布,值得注意的是训练数据不包含异常值。为了揭示TMCCELM算法的鲁棒性,在不同水平异常点(包括0%、10%、20%、……、80%)数据集上分别进行了实验,在具有不同异常值水平的噪声环境情况下,对比了几个改进的极限学习机的鲁棒性。
为了更清楚地比较这些算法的性能,下面给出5种算法在异常值10%、30%、50%、80%下的sinc函数的回归图像,实验结果如下:
![](//html.hanspub.org/file/25-2623463x82_hanspub.png?20230727090920873)
Figure 1. Sinc regression image of outlier 10%
图1. 异常值10%的sinc回归图像
从实验结果我们可以看出,ELM、RELM、WRELM在曲线两端出现波动,这是由于异常值的出现引入了额外的噪声,从而干扰了ELM的训练过程,导致在曲线两端拟合时出现波动。RCCELM模型在峰值处有较小的波动,表明最大相关熵损失函数在异常值存在的情况下表现相对于另外四种算法较感,通过观察图像两端发现,TMCCELM算法在异常值10%下的整体拟合效果较好。
当异常值增加至30%时,MCCELM和ELM均出现了较大的波动,ELM在右侧端点处对异常值的敏感程度较为明显。RELM、WRELM在端点处对异常值的敏感度增加,由于TMCCELM通过采用截断思想对模型进行了改进,这种改进使TMCCELM在处理包含异常值的数据时更具有鲁棒性,尤其体现在曲线两端拟合时减少了波动。
![](//html.hanspub.org/file/25-2623463x83_hanspub.png?20230727090920873)
Figure 2. Sinc regression image of outlier 30%
图2. 异常值30%的sinc回归图像
![](//html.hanspub.org/file/25-2623463x84_hanspub.png?20230727090920873)
Figure 3. Sinc regression image of outlier 50%
图3. 异常值50%的sinc回归图像
当异常值增加至50%时,RELM和WRELM由于引入了正则化和加权处理,仍然在端点处出现波动,并且在曲线其他部分并不是完全拟合,ELM在左侧端点处出现较大的波动,表现其在异常值50%的情形下对异常值的干扰更为敏感,TMCCELM在左侧端点处出现轻微波动,在曲线其余部分达到了完美拟合的效果。
![](//html.hanspub.org/file/25-2623463x85_hanspub.png?20230727090920873)
Figure 4. Sinc regression image of outlier 80%
图4. 异常值80%的sinc回归图像
当异常值达到80%时,五种模型出现了不同程度的波动情况,其中MCCELM表现较为明显,ELM、RELM、WRELM、MCCELM曲线部分偏离原始曲线,朝向异常点,而TMCCELM的曲线始终最接近原始曲线,证明TMCCELM对异常值不敏感,从而验证了该模型的可行性以及对待噪声和异常值的鲁棒性能。
以上图1~4分别显示了五种不同的算法在受不同数量的异常值影响下的测试数据的性能。从这些图中,可以得到以下结果:
1) ELM和MCCELM导出的曲线被推向异常值的一侧;
2) 在异常值较大的情况下,MCCELM有偏离sinc曲线的趋势;
3) TMCCELM在这些算法中取得了最佳性能,相对于ELM、RELM、MCC-ELM和WRELM,其对异常值更鲁棒。
为了进一步评估这五种模型的鲁棒性能,接下来给出这五种算法在不同异常值下的训练RMSE和测试RMSE,如表1~4所示:
![](Images/Table_Tmp.jpg)
Table 1. RMSE of different algorithms with 10% outliers
表1. 不同算法在10%异常值下的RMSE
从训练RMSE来看,TMCCELM的表现最佳为0.0006,其次是RCCELM,WRELM通过加权和正则化处理,相对于ELM、RELM表现较好。从测试RMSE来看,TRCCELM和MCCELM相对于另外三个模型表现较好,表明TMCCELM和MCCELM在测试集上能够获得更准确的预测结果。
![](Images/Table_Tmp.jpg)
Table 2. RMSE of different algorithms under 20% outliers
表2. 不同算法在20%异常值下的RMSE
在异常值20%的情况下,TMCCELM和MCCELM在处理异常值时表现较好,它们的测试RMSE远低于另外三种算法。与异常值10%相比,TMCCELM的训练RMSE不变,测试RMSE增加了0.0001。
![](Images/Table_Tmp.jpg)
Table 3. RMSE of different algorithms under 50% outliers
表3. 不同算法在50%异常值下的RMSE
在异常值50%的情形下,TMCCELM算法的测试RMSE较于异常值10%和20%的情形,有略微增加,但相对于另外四种算法仍具有较低的误差,表明在异常值50%的情形下,TMCCELM模型对异常值更具有鲁棒性。
![](Images/Table_Tmp.jpg)
Table 4. RMSE of different algorithms under 80% outliers
表4. 不同算法在80%异常值下的RMSE
当异常值增加至80%的情形下,TMCCELM仍具有较低的RMSE,其值为0.0517,其次是WRELM和RELM,分别为0.0719和0.0721。ELM和MCCELM的训练RMSE和测试RMSE均较高,因此,在较多异常值的情形下,ELM和MCCELM对异常值更为敏感,鲁棒性能较差。
通过比较不同模型在异常值下的拟合效果以及这五种算法在包含噪声和异常值的数据的鲁棒性能,表明了TMCCELM在对待异常值时的鲁棒性能较强,为了更好的验证该模型的优越性,表5给出其在不同异常值下的训练时间。
![](Images/Table_Tmp.jpg)
Table 5. The training time of 5 algorithms with different outliers
表5. 不同异常值下5种算法的训练时间
通过比较不同异常值下的训练效果,由表5可以得出,在异常值10%时,TMCCELM的训练时间为0.0021,在异常值20%时,训练时间增加了0.004,随着异常值的增加,训练时间只产生微量变化,当异常值增加至80%时,训练时间不足一秒,因此,针对截断最大相关熵损失函数,本文给出了一个合理且有效的提升极限学习机鲁棒性的模型。
6. 总结
基于截断最大相关熵准则损失函数的鲁棒极限学习机采用截断最大相关熵作为损失函数,与传统的极限学习机相比,在对损失函数的选择上作出了改进,由于传统ELM采用最小二乘损失函数,对异常值表现较为敏感,而TMCCELM考虑采用截断思想,对最大相关熵损失函数进行了截断,将异常值的影响限制在可接受的范围内,使得模型在面对噪声和异常值时具有更强的鲁棒性和稳定性。
NOTES
*通讯作者。