1. 引言
图像分类问题作为现代计算机视觉领域的基本问题之一,多年来被持续关注。在过去的几十年里,众多研究者已提出了许多算法和方法来解决图像分类的各种具体问题,其中包括经典的机器学习方法和最新的深度学习技术。深度学习方法,如ResNet [1]、SENet [2]等,其分类精度高,但其训练所需数据量较大、参数学习耗时长且输入输出间不具备可解释性,并不适用于一些数据采集难度大、对分类器可解释性要求较高的场合。因此本文暂不考虑深度学习方法,而是将关注点仍旧放在传统机器学习方法的推广与改进上。
传统机器学习方法大多是监督学习,并且数据所对应的标签均是正确的。但在实际应用中并不总能得到正确的标签,由于人工标注错误、噪声扰动或采集数据不完整等各种原因,数据对应的标签往往不完全准确,这使得面向带有错误标签的稳健分类成为一个重要但具有挑战性的问题。标签噪声的存在具有许多潜在的负面影响,如模型分类准确度降低、推断模型的复杂性提升、必要的训练样本数量会增加等。其中,标签噪声会造成有偏估计从而导致模型的分类准确度降低是最为显著的负面影响。为克服这些问题,一些学者进行了不同的尝试。Teng [3] [4] [5]分别在2000年、2001年和2005年提出了3种方法,这些方法在分类时会采用一些受标签噪声影响更小的算法,以达到预期的分类精度。然而,这些方法处理标签噪声只是为了避免过拟合,并没有真正考虑到标签噪声。Brodley和Friedl [6]尝试使用过滤方法来提高训练数据的质量,他们在训练开始之前识别并处理噪声标签,重新标记或直接删除被错误标记的实例。过滤方法成本低且易于实现,但对于某些样本,这种方法可能会删除大量数据,导致模型的训练效果受到影响。于是一些学者针对特定的算法进行改进,使其对标签噪声具有一定稳健性。
在众多可以用来解决图像分类问题的机器学习算法中,考虑到决策树模型面向高维数据时对微小变化较为敏感,支持向量机模型在面对样本重叠和噪声较多的数据表现不佳,因此逻辑回归模型(MLR)因其可解释性以及精确的分类结果成为解决错误标签问题的热门方法。
以二分类逻辑回归模型为例,设
为真实标签,X为解释变量的p维随机向量,则
满足条件标签概率模型
(1)
当样本标签被污染时,设Y为存在错误分类的标签,便存在错标概率
(2)
其中
表示负类数据中错误分类的概率,
表示正类数据中错误分类的概率。而Y的概率不再遵循式(1),而是遵循
(3)
为了解决错误标记的问题,基于式(3)对
进行不同建模开发了一些稳健逻辑回归方法。Copas [7]考虑相等和恒定的错标概率,即
,提出恒定错标逻辑回归模型。Wainer等人[8]和Komori等人[9]则分别在2007年和2016年提出了不对称的错标逻辑回归模型,即假设
,
。Hayashi [10]扩展了Takenouchi和Eguchi [11]提出的η-boost方法,提出了一种用于二元分类的稳健增强模型。上述所有方法的稳健性都来自底层的权重函数,并且假定错标概率具有一定的参数形式。由于最大似然对错标概率很敏感,因此对错标概率建模并不简单。但在实际应用中,我们关心的是真实的分类概率而不是错标概率这一干扰参数,花费过多精力为其建模似乎有些得不偿失。因此Hung等人[12]使用最小γ-散度估计来取代最小Kullback-Leibler (KL)散度估计,提出一种不需要对错误标签概率建模的γ-逻辑回归方法,拟合错误标签的响应,通过降低可疑实例的权重来使模型对带错误标签的数据具有稳健性。
上述方法均基于X是向量类型数据实现的。然而,对图像分类问题来说,大量的图像更多以彩色图像、视频等形式存在,这些图像和视频自然呈现高阶张量形式。若将高阶张量数据处理为向量,则会产生高维向量,因此增加计算复杂度,也会损失高维数据的结构信息[13] [14]。而文献[15] [16]表明,进一步探索张量结构信息,不仅可以使张量模型更具稳健性,还可以用更少的参数更加结构化地表示高维数据,因此,将传统地机器学习分类算法扩展到张量空间便成为了近年来学者们关注的热点。Tao等人[17]提出了一种监督张量学习(STL)方案,将支持向量机扩展为支持张量机(STMs)。基于Tao等人的研究,Kotsia等人[18] [19]将STM中的秩一权重张量更改为CP格式和Tucker格式,进一步推广支持张量机。通过将权重张量建模为CP格式,Tan等人[20]将逻辑回归模型推广到张量。而Zhang等人[21]则利用张量管道秩及其核范数构建了一种面向低秩张量的图像多分类逻辑回归模型。
本文受Hung等人[12]研究成果的启发,基于Zhang等人[21]提出的低秩张量多分类模型,提出一种新的面向错误标签张量数据的稳健图像多分类模型,称为稳健错标多分类模型。该模型的优点和贡献在于:
1) 提出了一种新的面向错误标签的稳健张量多分类方法,既能够避免张量结构信息的损失,同时又能在面对标签污染数据时达到较好的分类结果,具有稳健性;
2) 本文方法不需要对误标概率进行建模,得到的加权估计方程不需要包含任何偏差校正项,可以自动进行偏差校正;
3) 在仿真数据和真实数据上进行大量实验,通过常用的多分类指标评价模型。结果表明在不同多分类情况下,本文模型面向标签被污染数据时的分类精度与非稳健的模型相比取得明显提升。
接下来,本文将在第一节介绍相关工作,第二节提出本文方法,并在第三节进行实验说明,最后在第四节进行总结。
2. 预备知识
为了更好地说明本文方法,本章将对文中使用的符号进行简单说明,回顾重点定义,并介绍相关方法。
2.1. 符号说明
在本文中,我们将张量认为是向量和矩阵推广到高阶的多维数组,用花体大写字母
来表示d阶张量,用
表示张量的每个元素,其中
;对于三阶张量
,分别将其第i个前向切片、侧向切片和正向切片表示为
、
和
,用
表示管道。用大写字母
来表示矩阵;用加粗的小写字母
来表示向量;用小写字母
来表示标量。我们用
,
,
和
来表示
范数、
范数、核范数和F范数。
对于有C种可能标签的训练数据集
,通常使用独热编码来表示标签
。具体来说,我们将
的标签编码为
,若
属于第j类,那么
除了第j个元素为1外其余元素皆为0。我们定义
被污染的标签矩阵,
为真实的标签矩阵,
为根据模型预测的标签矩阵。
2.2. 相关定义
定义1 张量模k乘积。
对于一个张量
与一个矩阵
,二者的模k乘积记作
,其定义如下:
(4)
定义2 张量内积。
对于张量
和
,它们的内积
定义为
(5)
定义3 张量的Frobenius范数。
张量
的Frobenius范数定义为
(6)
定义4 正交张量[22]。
对于三阶张量
,若它满足
,则它为正交张量。
定义5 张量–张量积(T积) [22]。
对于三阶张量,设
,
,我们定义
(7)
(8)
(9)
则二者的T积
大小为
,其定义为
(10)
定义6 张量的奇异值分解(T-SVD) [23]。
设
,那么它可以分解为
(11)
其中
,
是正交的,
为每个正向切片都是对角矩阵的对角张量(图1)。
Figure 1. The t-SVD of third order tensors
图1. 三阶张量的张量奇异值分解
定义7 张量管道秩[24] [25]。
对于张量
,其张量管道秩记为
,定义为
的非零的奇异管道的数量,其中
来源于
的T-SVD,即
,于是有
(12)
根据矩阵奇异值的递减性质和逆快速傅里叶变换,文献[23]表明了
的第一个正向切片
决定张量管道秩,即
(13)
定义8 张量核范数[23]。
设
是
的T-SVD,则张量
的核范数定义为
(14)
其中
,
为单位张量,即第一个正向切片是单位矩阵其他正向切片都是零的张量。
2.3. 相关工作
2.3.1. 最小γ-散度估计
设g为数据生成分布,
为参数
的模型分布,设
为感兴趣的真实参数值,则g和
之间的γ-散度定义为
(15)
其中
。当
时,
,即为KL散度。
用最小γ-散度估计
如下式所示
(16)
当g属于参数类
且参数值为
时,上式在
处取得最优解。这保证了最小
-散度估计的一致性[26]。而在有污染的情况下,
,其中h为污染分布,
为污染比例。通过计算得到
(17)
其中
。忽略不涉及θ的项,最小化上式等价于最小化
(18)
若对某些γ,当θ在
的领域时偏差
小的可以忽略不计,则上式的约等于成立。约等号的右边在
处最小。
Fujisawa等人[27]和Kanamori等人[28]的研究表示,最小化过程受比例c和污染h的影响较小,因此我们可以以可忽略的偏差很好的估计θ。
2.3.2. 基于向量的稳健γ-逻辑回归
当模型实际由(3)生成时,稳健的γ-散度可以用来推断模型(1)。其原因在Hung [12]的研究成果中由如下引理揭示:
引理1 式(3)中污染的Y的分布可以表示为目标分布
和错标诱导分布
的混合分布,
(19)
其中
,且
为给定
时的条件污染比例。
引理1和式(18)表明从污染数据中推断真实概率
的可能性,因为最小γ-散度估计可以忽略
的影响。由此可以得到
(20)
其中
和
的定义与引理1一致,而
(21)
从而得到基于γ-逻辑回归的稳健估计模型,其目标函数为
(22)
其中
,
和
分别表示对X和
的期望。
表示对模型参数
的估计值:
(23)
求偏导且令
得
(24)
其中,权函数
(25)
对不匹配
的实例进行降权,因此上式的稳健性显而易见,且稳健性由γ的值控制。当
时,
,未调整权重,即为非稳健的估计方程。越大的γ意味
着模型越稳健,但模型的效率也将降低。因此需要在实验中选择合适的γ来确定模型的效率和稳健性。
但该模型只适用于向量格式的数据,若直接将张量数据转化为向量将会损失结构信息,降低分类准确性。因此我们考虑面向张量的多分类方法。
2.3.3. 非稳健错标张量多分类模型
Zhang等人[21]提出的非稳健错标张量多分类模型(NRMLTMLR,其中NR表示non-robust),通过对低秩权重张量的秩加以约束的方式充分考虑了张量结构,最大程度避免损失张量结构信息。
给定C类张量训练数据集
,NRMLTMLR的目标函数为
(26)
其中
,
,
为属于第r类的张量所对应的权重张量,
作为对应的张量核范数代表着权重张量的结构信息,
为标签矩阵。
但该方法并未考虑标签受到污染的情况,不具有稳健性。因此受γ-逻辑回归的稳健估计模型的启发,我们基于NRMLTMLR模型提出了一种基于低秩张量的稳健多分类模型,可以在最大限度利用张量结构信息的同时,对带有错误标签的数据具有稳健性。
3. 稳健错标张量多分类模型(RMLTMLR)
受到式(23)和式(25)的启发,我们提出了一种面对带有错误标签数据具有稳健性的张量多分类模型。该模型在多分类逻辑回归模型的基础上进行改进,利用了逻辑回归的优势,使模型在错误标签和张量数据情况下仍然具有优良的性质。
给定C类张量训练数据集
,得到RMLTMLR的目标函数为
(27)
其中
,
,
,
为属于第r类的张量所对应的权重张量。γ是反应稳健性的权重,当
时退化为非稳健的模型。
为标签矩阵。
式(26)的第一项与第二项中同时出现了变量
,为降低求解难度,我们增加约束条件进行解耦,对应目标函数如下
(28)
根据文献[29]的方法,我们采用ADMM算法解决上述优化问题,得到增广拉格朗日函数为
(29)
为了方便表示,我们将张量堆叠成高一维度的张量,记作
,
,
为拉格朗日乘子张量,
和
为惩罚参数。为了便于计算,本文采用了与Yin等人[30]相同的方法,将惩罚参数取相同的初始值,并在迭代的每一步中更新。根据经验,我们选择了
作为参数的初始值。
该优化问题可以拆分为5个子问题,分别更新
、
、
、
和
,下面重点介绍其中2个子问题。
1) 更新
。
的子问题可以写作
(30)
其中
(31)
根据上式求
梯度为
(32)
其中
为给出的训练标签,
为预测标签,
为权重函数,其表达式如下
(33)
和
之间作矩阵乘法,而
和
按照定义1作张量的模
乘法。
代入梯度下降算法,在每次迭代期间通过
最终可以最小化目标函数,其中t为迭代次数,
为步长。
2) 更新![](https://html.hanspub.org/file/1701669-rId359.svg?20240618042242)
可以通过
(34)
来更新
。该子问题可通过文献[28]中提出的张量奇异值收缩算法(TSVT)来解决,其算法流程如算法1所示。
算法1. 张量奇异值收缩算法(TSVT)
输入:
输出:
1) 对
的每个正向切片做快速傅里叶变换,计算 2) 在
的每个正向切片上做矩阵SVT: 3) 对
的每个正向切片做逆快速傅里叶变换,计算; 4) 输出
|
RMLTMLR算法的更新过程则以伪代码形式表示为算法2。
算法2. 稳健错标张量多分类算法(RMLTMLR)
输入:
输出:
1) 初始化: ![](https://html.hanspub.org/file/1701669-rId389.svg?20240618042242)
2) 计算
: 按照式(32)计算
; 按照式(32)计算
; 3) 更新
: |
4) 用算法1更新 ; 5) 更新
![](https://html.hanspub.org/file/1701669-rId405.svg?20240618042242)
6) 输出
|
4. 实验
本章选择彩色图像作为真实数据进行一系列实验以测试模型的分类效果,由此证实本文提出模型对于包含错误标签的张量图像分类具有稳定性,并以不同评价指标来全面评估本文模型的效果。本章使用的数据集为加州理工大学的101类彩色图像识别数据集,该数据集共包含102类9145副彩色图像,取该数据集包含不同数据量的不同子集,分别进行二分类、五分类和七分类的三个实验。
为了方便实验,我们对带标签的张量数据集
做以下处理:对图像数据
,由于数据集中不同图像的格式并不一致,我们统一将图像格式重塑为
,即令
;对标签数据
,按照不同比重选择部分标签进行错误标注。为了更好地对比实验结果,我们对实验数据做如下处理。我们选用的彩色图像识别数据集所带的标签是干净标签,我们将使用干净标签的数据分类的实验称为Naive方法,作为实验的对照组来反映该数据集一般情况下分类的效果;接着我们对标签按照不同比例进行错误标注,二分类实验为例,随机选择部分标签,将其中正类标签标为负类,负类标签标为正类,即完成对该部分标签的错误标注。我们使用NRMLTMLR模型和RMLTMLR模型对进行过标签错误标注的张量图像数据集进行分类,通过比对分类效果来体现本文提出的RMLTMLR模型在错误标注的张量数据分类问题上的优越性。理论上讲RMLTMLR模型的分类效果应该好于NRMLTMLR的分类效果,且不好于Naive方法的分类效果。
我们的实验使用交叉验证方法,在参数选择上采用网格搜索法来选用使模型效果最佳的参数。根据经验选择
的取值范围为
,
的取值范围为
,
则按照张齐航[31]的实验结果选择最优值
。
本章共使用4种常见的多分类评价指标,分别为准确率、MacroF1、MicroF1和Hamming距离。其中,准确率指正类和负类中预测正确的数量占总量的比例,MacroF1和MicroF1是F1-Score的多分类扩展,Hamming距离衡量预测标签与真实标签之间的距离。准确率、MacroF1和MicroF1越大,Hamming距离越小,表示模型的效果越好。
本章所有实验均在搭载酷睿11代处理器64位操作系统的计算机上使用Matlab2023b软件上实现。
4.1. 二分类
本节选用手风琴和船锚2个类别共计86张彩色图像作为二分类数据集,分别按照错误标签(mislabel) 0.10、0.15和0.20的比重进行实验。考虑到每次实验划分的训练集和测试集不同,Naive方法的分类结果会有差别,因此在不同mislabel比重下,三种方法均使用相同的
,区别在于Naive方法使用不带噪声的标签数据
,其余两种方法使用带噪声的标签数据。最终得到二分类实验结果如下表1:
Table 1. Results of two classification experiments
表1. 二分类实验结果
Mislabel |
0.10 |
0.15 |
0.20 |
Method |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
Acc |
0.9231 |
0.8077 |
0.8462 |
0.8846 |
0.7692 |
0.8077 |
0.8846 |
0.6923 |
0.7308 |
macroF1 |
0.9091 |
0.7826 |
0.8182 |
0.8696 |
0.7000 |
0.7619 |
0.8889 |
0.7143 |
0.7586 |
microF1 |
0.9091 |
0.7826 |
0.8182 |
0.8696 |
0.7000 |
0.7619 |
0.8889 |
0.7143 |
0.7586 |
Hamming |
0.0769 |
0.1923 |
0.1538 |
0.1154 |
0.2308 |
0.1923 |
0.1154 |
0.3077 |
0.2692 |
如上表1所示,在不同的错误标签比重下,本文提出方法的评价结果均好于直接使用NRMLTMLR模型分类的结果,在评价结果上更接近Naive方法的分类结果,因此证实了本文方法在二分类实验下对于含错误标签的张量图像的分类稳健性。
4.2. 五分类
为了进一步测试RMLTMLR方法在带噪声的张量图像多分类问题中的表现,本节选用手风琴、飞机、船锚、蚂蚁和木桶5个标签960张彩色图像作为五分类数据集,分别按照错误标签(mislabel) 0.25、0.30和0.35的比重进行实验,得到的实验结果如下表2所示:
Table 2. Results of five classification experiments
表2. 五分类实验结果
Mislabel |
0.25 |
0.30 |
0.35 |
Method |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
Acc |
0.8576 |
0.7986 |
0.8021 |
0.8958 |
0.6667 |
0.8368 |
0.8785 |
0.6319 |
0.8299 |
macroF1 |
0.9872 |
0.9696 |
0.9617 |
0.9910 |
0.8302 |
0.9650 |
0.9874 |
0.8193 |
0.9749 |
microF1 |
0.9872 |
0.9696 |
0.9617 |
0.9910 |
0.8302 |
0.9650 |
0.9874 |
0.8193 |
0.9749 |
Hamming |
0.1424 |
0.2014 |
0.1979 |
0.1042 |
0.3333 |
0.1632 |
0.1215 |
0.3681 |
0.1701 |
如上表2所示,在不同的错误标签比重下,本文提出方法几乎在所有评价指标下的结果好于直接使用NRMLTMLR模型分类的结果。随着错误标签比重增大,可以看到NRMLTMLR的分类准确率逐渐减小,而RMLTMLR的分类准确率维持在一个稳定的状态下且始终高于80%。该结果证实了本文方法在五分类实验下对于含错误标签的张量图像的分类稳健性。
4.3. 七分类
本节中我们选用手风琴、飞机、船锚、蚂蚁、木桶、鱼和河狸7个标签1055张彩色图像作为七分类数据集,分别按照错误标签(mislabel) 0.20、0.25和0.30的比重进行实验,得到的实验结果如下表3所示。
如下表3所示,本文提出方法在七分类的数据集上评价表现依旧好于直接使用NRMLTMLR模型分类,在评价结果上也更接近Naive方法的分类结果。当NRMLTMLR方法在不同的错误标签比重下分类准确率变化过大的情况下,RMLTMLR方法不仅保持了准确率均在72%以上,并且保持了分类结果稳定,进一步证明了本文方法能够做到对带有错误标签的张量图像的稳健分类。
Table 3. Results of seven classification experiments
表3. 七分类实验结果
mislabel |
0.20 |
0.25 |
0.30 |
method |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
Naive |
NRMLTMLR |
RMLTMLR |
acc |
0.8170 |
0.7066 |
0.7666 |
0.7886 |
0.0505 |
0.7224 |
0.8013 |
0.5741 |
0.7350 |
macroF1 |
0.9935 |
0.9033 |
0.9525 |
0.9917 |
0.0066 |
0.9674 |
0.9869 |
0.8189 |
0.9459 |
microF1 |
0.9935 |
0.9033 |
0.9525 |
0.9917 |
0.0066 |
0.9674 |
0.9869 |
0.8189 |
0.9459 |
hamming |
0.1830 |
0.2934 |
0.2334 |
0.2114 |
0.9495 |
0.2776 |
0.1987 |
0.4259 |
0.2650 |
4.4. 耗费时间
为了比对模型的复杂度,我们分别记录了每次实验在MATLAB R2021b上运行所消耗的时间,具体结果如下表4所示:
Table 4. Model time
表4. 模型所耗时间
class |
二分类 |
五分类 |
七分类 |
mislabel |
0.10 |
0.15 |
0.20 |
0.25 |
0.30 |
0.35 |
0.20 |
0.25 |
0.30 |
NRMLTMLR |
8.87 |
8.59 |
11.45 |
89.28 |
94.44 |
94.53 |
106.63 |
112.34 |
108.30 |
RMLTMLR |
27.62 |
37.23 |
51.11 |
420.56 |
434.69 |
449.40 |
409.01 |
465.66 |
417.26 |
通过上表4可以看出,由于增加了权重参数的缘故,模型的复杂度增加,RMLTMLR方法在各项实验中消耗的时间约为NRMLTMLR方法的五倍,该实验结果也符合理论预期。鉴于RMLTMLR模型在面向包含错误标签的张量图像数据集时,表现出的分类效果和分类稳定性远优于NRMLTMLR模型,因此我们认为多出的消耗时间是值得的。
5. 总结
本文面向带有错误标签的张量图像数据,基于多分类逻辑回归模型,提出了一种能够直接处理张量格式数据并对带噪声标签具有稳健性的图像多分类模型。该模型利用γ-散度、张量管道秩及其核范数,通过增加权重函数的方式降低预测标签与训练标签不匹配的实例的权重,从而提升了稳健性,使其在实验中具有优良的表现,为含错误标签的张量图像数据分类提供了新思路。
本文对比了非稳健错标张量多分类模型(NRMLTMLR)和本文方法稳健错标张量多分类模型(RMLTMLR),在加州理工大学的101类彩色图像识别数据集的二分类、五分类和七分类子集上进行实验。在实验过程中取不同的错标比重以对比两个方法在不同错标比重不同类别数据集下的分类情况。结果表明,在二分类数据集上,当错标比重分别为0.10,0.15和0.20时,本文提出的RMLTMLR较NRMLTMLR的分类准确率均提升了3.85个百分点;在五分类数据集上,当错标比重分别为0.25、0.30和0.35时,RMLTMLR较NRMLTMLR的分类准确率则分别提升了0.35、17.01和19.8个百分点;在七分类数据集上,当错标比重为0.20、0.25和0.30时,RMLTMLR较NRMLTMLR的分类准确率分别提升了6.00、67.19和16.09个百分点。因此,本文提出的RMLTMLR方法在含有错误标签的多分类张量数据集上具有较为显著的优势,也在实验方面证明了本文创新性地融合γ-散度方法增加了权重参数以提升模型对标签污染数据集分类的有效性。
考虑到张量管道秩只适用于三阶张量,面对更高阶的张量,后续需要对其余不同张量秩进行研究。另外,除了使用γ-散度方法,还可以参考背景建模的思路对错误标签进行建模,从该角度进一步提升模型的稳健性与适用性,以此优化模型。
基金项目
国家自然科学基金资助项目(12371308)。
NOTES
*第一作者。
#通讯作者。