带有错误标签的张量数据的稳健多分类模型

期刊菜单

带有错误标签的张量数据的稳健多分类模型
Robust Multiclass Models for Mislabeled Tensor Data

DOI: 10.12677/orf.2024.143262, PDF, HTML, XML, 下载: 49 浏览: 93 国家自然科学基金支持
作者: 张家瑞^*, 樊亚莉^#：上海理工大学理学院，上海
关键词: 图像多分类；错误标签；低秩张量；张量管道秩；机器学习；Image Multi-Classification； Mislabel； Low-Rank Tensor； Tensor Tubal Rank； Machine Learning

摘要: 传统机器学习方法大多都是基于正确标签的训练数据进行监督学习，但实际观测到的训练数据标签极可能受到污染，而错误标签的存在会导致传统模型产生有偏估计。现存的关于错误标签的稳健模型往往基于向量数据进行分类，面对存在错误标签的高阶张量数据时只能将其转化为低阶格式，由此产生过拟合问题且破坏张量结构。针对上述问题提出一种稳健的张量多分类模型(RMLTMLR)，基于最小γ-散度估计、张量管道秩及相应的核范数来处理带有错误标签的低秩张量，在利用张量结构特点的同时使模型对污染标签具有稳健性，提高多分类准确率。进行的大量实验表明RMLTMLR模型在不同类别和污染程度的张量数据上有着优良的分类效果，与非稳健的模型相比，分类准确率显著提升。

Abstract: Most of the traditional machine learning methods perform supervised learning based on training data with correct labels. However, the actual observed training data labels are likely to be contaminated, and the existence of wrong labels will lead to biased estimates of the traditional model. The existing robust models for mislabel classification are often based on vector data. When facing high-order tensor data with mislabels, they have to transform it into low-order format, resulting in overfitting problem and damage to the tensor structure. Aiming at the above problems, a robust tensor multi-classification model (RMLTMLR) is proposed, which is based on minimum γ-divergence estimation, tensor tubal rank and the corresponding nuclear norm to deal with low-rank tensors with wrong labels. The model is robust to contaminated labels while taking advantage of the structural characteristics of tensors, and improves the accuracy of multi-classification. A large number of experiments show that the RMLTMLR model has excellent classification effects on tensor data with different categories and pollution levels, and the classification accuracy is significantly improved compared with the non-robust model.

文章引用：张家瑞, 樊亚莉. 带有错误标签的张量数据的稳健多分类模型[J]. 运筹与模糊学, 2024, 14(3): 242-255. https://doi.org/10.12677/orf.2024.143262

1. 引言

图像分类问题作为现代计算机视觉领域的基本问题之一，多年来被持续关注。在过去的几十年里，众多研究者已提出了许多算法和方法来解决图像分类的各种具体问题，其中包括经典的机器学习方法和最新的深度学习技术。深度学习方法，如ResNet [1]、SENet [2]等，其分类精度高，但其训练所需数据量较大、参数学习耗时长且输入输出间不具备可解释性，并不适用于一些数据采集难度大、对分类器可解释性要求较高的场合。因此本文暂不考虑深度学习方法，而是将关注点仍旧放在传统机器学习方法的推广与改进上。

传统机器学习方法大多是监督学习，并且数据所对应的标签均是正确的。但在实际应用中并不总能得到正确的标签，由于人工标注错误、噪声扰动或采集数据不完整等各种原因，数据对应的标签往往不完全准确，这使得面向带有错误标签的稳健分类成为一个重要但具有挑战性的问题。标签噪声的存在具有许多潜在的负面影响，如模型分类准确度降低、推断模型的复杂性提升、必要的训练样本数量会增加等。其中，标签噪声会造成有偏估计从而导致模型的分类准确度降低是最为显著的负面影响。为克服这些问题，一些学者进行了不同的尝试。Teng [3] [4] [5]分别在2000年、2001年和2005年提出了3种方法，这些方法在分类时会采用一些受标签噪声影响更小的算法，以达到预期的分类精度。然而，这些方法处理标签噪声只是为了避免过拟合，并没有真正考虑到标签噪声。Brodley和Friedl [6]尝试使用过滤方法来提高训练数据的质量，他们在训练开始之前识别并处理噪声标签，重新标记或直接删除被错误标记的实例。过滤方法成本低且易于实现，但对于某些样本，这种方法可能会删除大量数据，导致模型的训练效果受到影响。于是一些学者针对特定的算法进行改进，使其对标签噪声具有一定稳健性。

在众多可以用来解决图像分类问题的机器学习算法中，考虑到决策树模型面向高维数据时对微小变化较为敏感，支持向量机模型在面对样本重叠和噪声较多的数据表现不佳，因此逻辑回归模型(MLR)因其可解释性以及精确的分类结果成为解决错误标签问题的热门方法。

以二分类逻辑回归模型为例，设 $Y_{0} = {0, 1}$ 为真实标签，X为解释变量的p维随机向量，则 $P (Y_{0} = 1 | X = x)$ 满足条件标签概率模型

$π (x; ω, b) = \frac{\exp {ω^{T} x + b}}{1 + \exp {ω^{T} x + b}} .$ (1)

当样本标签被污染时，设Y为存在错误分类的标签，便存在错标概率

$η_{0} (x) = P (Y = 1 | Y_{0} = 0, X = x), η_{1} (x) = P (Y = 0 | Y_{0} = 1, X = x) .$ (2)

其中 $η_{0}$ 表示负类数据中错误分类的概率， $η_{1}$ 表示正类数据中错误分类的概率。而Y的概率不再遵循式(1)，而是遵循

$P (Y = 1 | X = x) = η_{0} (x) {1 - π (x; ω, b)} + {1 - η_{1} (x)} π (x; ω, b) .$ (3)

为了解决错误标记的问题，基于式(3)对 $η_{j} (x)$ 进行不同建模开发了一些稳健逻辑回归方法。Copas [7]考虑相等和恒定的错标概率，即 $η_{0} (x) = η_{1} (x) = η$ ，提出恒定错标逻辑回归模型。Wainer等人[8]和Komori等人[9]则分别在2007年和2016年提出了不对称的错标逻辑回归模型，即假设 $η_{0} (x) = η$ ， $η_{1} (x) = 0$ 。Hayashi [10]扩展了Takenouchi和Eguchi [11]提出的η-boost方法，提出了一种用于二元分类的稳健增强模型。上述所有方法的稳健性都来自底层的权重函数，并且假定错标概率具有一定的参数形式。由于最大似然对错标概率很敏感，因此对错标概率建模并不简单。但在实际应用中，我们关心的是真实的分类概率而不是错标概率这一干扰参数，花费过多精力为其建模似乎有些得不偿失。因此Hung等人[12]使用最小γ-散度估计来取代最小Kullback-Leibler (KL)散度估计，提出一种不需要对错误标签概率建模的γ-逻辑回归方法，拟合错误标签的响应，通过降低可疑实例的权重来使模型对带错误标签的数据具有稳健性。

上述方法均基于X是向量类型数据实现的。然而，对图像分类问题来说，大量的图像更多以彩色图像、视频等形式存在，这些图像和视频自然呈现高阶张量形式。若将高阶张量数据处理为向量，则会产生高维向量，因此增加计算复杂度，也会损失高维数据的结构信息[13] [14]。而文献[15] [16]表明，进一步探索张量结构信息，不仅可以使张量模型更具稳健性，还可以用更少的参数更加结构化地表示高维数据，因此，将传统地机器学习分类算法扩展到张量空间便成为了近年来学者们关注的热点。Tao等人[17]提出了一种监督张量学习(STL)方案，将支持向量机扩展为支持张量机(STMs)。基于Tao等人的研究，Kotsia等人[18] [19]将STM中的秩一权重张量更改为CP格式和Tucker格式，进一步推广支持张量机。通过将权重张量建模为CP格式，Tan等人[20]将逻辑回归模型推广到张量。而Zhang等人[21]则利用张量管道秩及其核范数构建了一种面向低秩张量的图像多分类逻辑回归模型。

本文受Hung等人[12]研究成果的启发，基于Zhang等人[21]提出的低秩张量多分类模型，提出一种新的面向错误标签张量数据的稳健图像多分类模型，称为稳健错标多分类模型。该模型的优点和贡献在于：

1) 提出了一种新的面向错误标签的稳健张量多分类方法，既能够避免张量结构信息的损失，同时又能在面对标签污染数据时达到较好的分类结果，具有稳健性；

2) 本文方法不需要对误标概率进行建模，得到的加权估计方程不需要包含任何偏差校正项，可以自动进行偏差校正；

3) 在仿真数据和真实数据上进行大量实验，通过常用的多分类指标评价模型。结果表明在不同多分类情况下，本文模型面向标签被污染数据时的分类精度与非稳健的模型相比取得明显提升。

接下来，本文将在第一节介绍相关工作，第二节提出本文方法，并在第三节进行实验说明，最后在第四节进行总结。

2. 预备知识

为了更好地说明本文方法，本章将对文中使用的符号进行简单说明，回顾重点定义，并介绍相关方法。

2.1. 符号说明

在本文中，我们将张量认为是向量和矩阵推广到高阶的多维数组，用花体大写字母 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ 来表示d阶张量，用 $A (i_{1}, i_{2}, \dots, i_{d})$ 表示张量的每个元素，其中 $1 \leq i_{k} \leq I_{k}, k = 1, \dots, d$ ；对于三阶张量 $ℬ \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ ，分别将其第i个前向切片、侧向切片和正向切片表示为 $ℬ (i, :, :)$ 、 $ℬ (:, i, :)$ 和 $ℬ (:, :, i)$ ，用 $ℬ (i, j, :)$ 表示管道。用大写字母 $A, B, \dots$ 来表示矩阵；用加粗的小写字母 $a, b, \dots$ 来表示向量；用小写字母 $a, b, \dots$ 来表示标量。我们用 ${‖ A ‖}_{0}$ ， ${‖ A ‖}_{1}$ ， ${‖ A ‖}_{*}$ 和 ${‖ A ‖}_{F}$ 来表示 $l_{0}$ 范数、 $l_{1}$ 范数、核范数和F范数。

对于有C种可能标签的训练数据集 ${X_{i} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}} | i = 1, \dots, N}$ ，通常使用独热编码来表示标签 ${y_{i} \in ℝ^{C} | i = 1, \dots, N}$ 。具体来说，我们将 $X_{i}$ 的标签编码为 $y_{i} = {[0, \dots, 1, \dots, 0]}^{T} \in ℝ^{C}$ ，若 $X_{i}$ 属于第j类，那么 $y_{i}$ 除了第j个元素为1外其余元素皆为0。我们定义 $Y = {[y_{1}, y_{2}, \dots, y_{N}]}^{T} \in ℝ^{N \times C}$ 被污染的标签矩阵， $Y_{0}$ 为真实的标签矩阵， $\hat{Y}$ 为根据模型预测的标签矩阵。

2.2. 相关定义

定义1 张量模k乘积。

对于一个张量 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ 与一个矩阵 $M \in ℝ^{m \times I_{k}}$ ，二者的模k乘积记作 $C = A \times_{k} M$ ，其定义如下：

$C (i_{1}, \dots, i_{k - 1}, j, i_{k + 1}, \dots, i_{d}) = A \times_{k} M = \sum_{i_{k} = 1}^{I_{k}} M (j, i_{k}) A (i_{1}, \dots, i_{k - 1}, i_{k}, i_{k + 1}, \dots, i_{d}) .$ (4)

定义2 张量内积。

对于张量 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ 和 $ℬ \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ ，它们的内积 $〈 A, ℬ 〉$ 定义为

$〈 A, ℬ 〉 = \sum_{i_{1} = 1}^{I_{1}} \sum_{i_{2} = 1}^{I_{2}} \dots \sum_{i_{d} = 1}^{I_{d}} A (i_{1}, i_{2}, \dots, i_{d}) ℬ (i_{1}, i_{2}, \dots, i_{d}) .$ (5)

定义3 张量的Frobenius范数。

张量 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ 的Frobenius范数定义为

${‖ A ‖}_{F} = \sqrt{〈 A, A 〉} .$ (6)

定义4 正交张量[22]。

对于三阶张量 $A \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ ，若它满足 $A^{*} * A = A * A^{*} = ℐ$ ，则它为正交张量。

定义5 张量–张量积(T积) [22]。

对于三阶张量，设 $A \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ ， $ℬ \in ℝ^{I_{2} \times m \times I_{3}}$ ，我们定义

$unfold (A) = [\begin{matrix} A (:, :, 1) \\ A (:, :, 2) \\ ⋮ \\ A (:, :, I_{3}) \end{matrix}] = [\begin{matrix} A^{(1)} \\ A^{(2)} \\ ⋮ \\ A^{(I_{3})} \end{matrix}] .$ (7)

$fold (unfold (A)) = A .$ (8)

$bcirc (A) = [\begin{matrix} A^{(1)} & A^{(I_{3})} & \dots & A^{(2)} \\ A^{(2)} & A^{(1)} & \dots & A^{(3)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ A^{(I_{3})} & A^{(I_{3} - 1)} & \dots & A^{(1)} \end{matrix}] .$ (9)

则二者的T积 $A * ℬ$ 大小为 $I_{1} \times m \times I_{3}$ ，其定义为

$A * ℬ = fold (bcirc (A) \cdot unfold (ℬ)) .$ (10)

定义6 张量的奇异值分解(T-SVD) [23]。

设 $A \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ ，那么它可以分解为

$A = U * G * V^{*} .$ (11)

其中 $U \in ℝ^{I_{1} \times I_{1} \times I_{3}}$ ， $V \in ℝ^{I_{2} \times I_{2} \times I_{3}}$ 是正交的， $G \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ 为每个正向切片都是对角矩阵的对角张量(图1)。

Figure 1. The t-SVD of third order tensors

图1. 三阶张量的张量奇异值分解

定义7 张量管道秩[24] [25]。

对于张量 $A \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ ，其张量管道秩记为 $r a n k_{t} (A)$ ，定义为 $G$ 的非零的奇异管道的数量，其中 $G$ 来源于 $A$ 的T-SVD，即 $A = U * G * V^{*}$ ，于是有

$r a n k_{t} (A) = # {i, G (i, i, :) \neq 0} .$ (12)

根据矩阵奇异值的递减性质和逆快速傅里叶变换，文献[23]表明了 $G$ 的第一个正向切片 $G (:, :, 1)$ 决定张量管道秩，即

$r a n k_{t} (A) = # {i, G (i, i, 1) \neq 0} .$ (13)

定义8 张量核范数[23]。

设 $A = U * G * V^{*}$ 是 $A \in ℝ^{I_{1} \times I_{2} \times I_{3}}$ 的T-SVD，则张量 $A$ 的核范数定义为

${‖ A ‖}_{*} : = 〈 G, ℐ 〉 = \sum_{i = 1}^{r} G (i, i, 1) .$ (14)

其中 $r = r a n k_{t} (A)$ ， $ℐ$ 为单位张量，即第一个正向切片是单位矩阵其他正向切片都是零的张量。

2.3. 相关工作

2.3.1. 最小γ-散度估计

设g为数据生成分布， $f_{θ}$ 为参数 $θ$ 的模型分布，设 $θ_{0}$ 为感兴趣的真实参数值，则g和 $f_{θ}$ 之间的γ-散度定义为

$D_{γ} (g, f_{θ}) = \frac{1}{γ (γ + 1)} {{‖ g ‖}_{γ + 1} - {\int (\frac{f_{θ}}{{‖ f_{θ} ‖}_{γ + 1}})}^{γ} g} .$ (15)

其中 ${‖ f_{θ} ‖}_{γ + 1} = {(\int f_{θ}^{γ + 1})}^{\frac{1}{γ + 1}}$ 。当 $γ \to 0$ 时， $\lim_{γ \to 0} D_{γ} (g, f_{θ}) = \int \ln (\frac{g}{f_{θ}}) g$ ，即为KL散度。

用最小γ-散度估计 $θ_{0}$ 如下式所示

$\underset{θ}{\arg \min} D_{γ} (g, f_{θ}) = \underset{θ}{\arg \max} {\int (\frac{f_{θ}}{{‖ f_{θ} ‖}_{γ + 1}})}^{γ} g .$ (16)

当g属于参数类 ${f_{θ} : θ \in Θ}$ 且参数值为 $θ_{0}$ 时，上式在 $θ = θ_{0}$ 处取得最优解。这保证了最小 $γ$ -散度估计的一致性[26]。而在有污染的情况下， $g = c f_{θ_{0}} + (1 - c) h$ ，其中h为污染分布， $1 - c$ 为污染比例。通过计算得到

$D_{γ} (g, f_{θ}) = {c D_{γ} (f_{θ}, f_{θ}) + \frac{B_{γ} (c, h; θ)}{γ (γ + 1)}} + \frac{{‖ c f_{θ_{0}} + (1 - c) h ‖}_{γ + 1} - c {‖ f_{θ_{0}} ‖}_{γ + 1}}{γ (γ + 1)} .$ (17)

其中 $B_{γ} (c, h; θ) = (1 - c) {\int (\frac{f_{θ}}{{‖ f_{θ} ‖}_{γ + 1}})}^{γ} h$ 。忽略不涉及θ的项，最小化上式等价于最小化

$c D_{γ} (f_{θ}, f_{θ}) + \frac{B_{γ} (c, h; θ)}{γ (γ + 1)} \approx c D_{γ} (f_{θ}, f_{θ}) .$ (18)

若对某些γ，当θ在 $θ_{0}$ 的领域时偏差 $B_{γ} (c, h; θ)$ 小的可以忽略不计，则上式的约等于成立。约等号的右边在 $θ = θ_{0}$ 处最小。

Fujisawa等人[27]和Kanamori等人[28]的研究表示，最小化过程受比例c和污染h的影响较小，因此我们可以以可忽略的偏差很好的估计θ。

2.3.2. 基于向量的稳健γ-逻辑回归

当模型实际由(3)生成时，稳健的γ-散度可以用来推断模型(1)。其原因在Hung [12]的研究成果中由如下引理揭示：

引理1 式(3)中污染的Y的分布可以表示为目标分布 $P (Y_{0} = y | X = x)$ 和错标诱导分布 $h (y | x)$ 的混合分布，

$P (Y = y | X = x) = c (x) P (Y_{0} = y | X = x) + {1 - c (x)} h (y | x) .$ (19)

其中 $h (y | x) = {\frac{η_{0} (x)}{η_{0} (x) + η_{1} (x)}}^{y} {\frac{η_{1} (x)}{η_{0} (x) + η_{1} (x)}}^{1 - y}$ ，且 $1 - c (x) = η_{0} (x) + η_{1} (x)$ 为给定 $X = x$ 时的条件污染比例。

引理1和式(18)表明从污染数据中推断真实概率 $P (Y_{0} = y | X)$ 的可能性，因为最小γ-散度估计可以忽略 $h (y | x)$ 的影响。由此可以得到

$g (y | x) = c (x) f (y | x; ω_{0}) + {1 - c (x)} h (y | x) .$ (20)

其中 $c (x)$ 和 $h (y | x)$ 的定义与引理1一致，而

$f (y | x; ω) = {π (x; ω)}^{y} {1 - π (x; ω)}^{1 - y} .$ (21)

从而得到基于γ-逻辑回归的稳健估计模型，其目标函数为

$\underset{ω}{\arg \min} E_{X} [D_{γ} {g (\cdot | X), f_{θ} (\cdot | X; ω)}] = \underset{ω}{\arg \max} E_{X, Y} {{(\frac{f (Y | X; ω)}{{‖ f (\cdot | X; ω) ‖}_{γ + 1}})}^{γ}} .$ (22)

其中 ${‖ f (\cdot | X; ω) ‖}_{γ + 1} = {[{π (X; ω)}^{γ + 1} + {1 - π (X; ω)}^{γ + 1}]}^{\frac{1}{γ + 1}}$ ， $E_{X}$ 和 $E_{X, Y}$ 分别表示对X和 $(X, Y)$ 的期望。 ${\hat{ω}}_{γ}$ 表示对模型参数 $ω_{γ}$ 的估计值：

$ω_{γ} = \arg \min \frac{1}{N} \sum_{i = 0}^{N} {(\frac{f (Y_{i} | X_{i}; ω)}{{‖ f (\cdot | X_{i}; ω) ‖}_{γ + 1}})}^{γ} = \arg \min \frac{1}{N} \sum_{i = 0}^{N} {(\frac{\exp {Y_{i} (γ + 1) ω^{T} X_{i}}}{1 + \exp {(γ + 1) ω^{T} X_{i}}})}^{\frac{γ}{γ + 1}} .$ (23)

求偏导且令 $S_{γ} ({\hat{ω}}_{γ}) = 0$ 得

$S_{γ} (ω) = \frac{1}{N} \sum_{i = 0}^{N} ψ_{γ, i} (ω) {Y_{i} - π (X_{i}; (γ + 1) ω)} X_{i} .$ (24)

其中，权函数

$ψ_{γ, i} (ω) = {(\frac{\exp {Y_{i} (γ + 1) ω^{T} X_{i}}}{1 + \exp {(γ + 1) ω^{T} X_{i}}})}^{\frac{γ}{γ + 1}} .$ (25)

$ψ_{γ, i} (ω)$ 对不匹配 $(Y_{i}, ω^{T} X_{i})$ 的实例进行降权，因此上式的稳健性显而易见，且稳健性由γ的值控制。当 $γ = 0$ 时， $S_{γ} (ω) = \frac{1}{N} \sum_{i = 0}^{N} {Y_{i} - π (x_{i}; (γ + 1) ω)} X_{i}$ ，未调整权重，即为非稳健的估计方程。越大的γ意味

着模型越稳健，但模型的效率也将降低。因此需要在实验中选择合适的γ来确定模型的效率和稳健性。

但该模型只适用于向量格式的数据，若直接将张量数据转化为向量将会损失结构信息，降低分类准确性。因此我们考虑面向张量的多分类方法。

2.3.3. 非稳健错标张量多分类模型

Zhang等人[21]提出的非稳健错标张量多分类模型(NRMLTMLR，其中NR表示non-robust)，通过对低秩权重张量的秩加以约束的方式充分考虑了张量结构，最大程度避免损失张量结构信息。

给定C类张量训练数据集 ${(X_{i}, y_{i}), i = 1, \dots, N}$ ，NRMLTMLR的目标函数为

$\min_{W^{r}, b^{r}} - \frac{1}{N} \sum_{i = 1}^{N} \sum_{r = 1}^{C} Y_{i r} \log (\frac{e^{〈 W^{r}, X_{i} 〉 + b^{r}}}{\sum_{j = 1}^{C} e^{〈 W^{j}, X_{i} 〉 + b^{j}}}) + λ_{1} \sum_{r = 1}^{C} {‖ W^{r} ‖}_{*} .$ (26)

其中 $X_{i} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}, W^{r} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ ， $r = 1, \dots, C$ ， $W^{r}$ 为属于第r类的张量所对应的权重张量， ${‖ W^{r} ‖}_{*}$ 作为对应的张量核范数代表着权重张量的结构信息， $Y_{i r} \in ℝ^{N \times C}$ 为标签矩阵。

但该方法并未考虑标签受到污染的情况，不具有稳健性。因此受γ-逻辑回归的稳健估计模型的启发，我们基于NRMLTMLR模型提出了一种基于低秩张量的稳健多分类模型，可以在最大限度利用张量结构信息的同时，对带有错误标签的数据具有稳健性。

3. 稳健错标张量多分类模型(RMLTMLR)

受到式(23)和式(25)的启发，我们提出了一种面对带有错误标签数据具有稳健性的张量多分类模型。该模型在多分类逻辑回归模型的基础上进行改进，利用了逻辑回归的优势，使模型在错误标签和张量数据情况下仍然具有优良的性质。

给定C类张量训练数据集 ${(X_{i}, y_{i}), i = 1, \dots, N}$ ，得到RMLTMLR的目标函数为

$\min_{W^{r}, b^{r}} - \frac{1}{N} \sum_{i = 1}^{N} \sum_{r = 1}^{C} Y_{i r} \log (\frac{e^{(γ + 1) (〈 W^{r}, X_{i} 〉 + b^{r})}}{\sum_{j = 1}^{C} e^{(γ + 1) (〈 W^{j}, X_{i} 〉 + b^{j})}}) + λ \sum_{r = 1}^{C} {‖ W^{r} ‖}_{*} .$ (27)

其中 $X_{i} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ ， $W^{r} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d}}$ ， $r = 1, \dots, C$ ， $W^{r}$ 为属于第r类的张量所对应的权重张量。γ是反应稳健性的权重，当 $γ = 0$ 时退化为非稳健的模型。 $Y_{i r} \in ℝ^{N \times C}$ 为标签矩阵。

式(26)的第一项与第二项中同时出现了变量 $W^{r}$ ，为降低求解难度，我们增加约束条件进行解耦，对应目标函数如下

(28)

根据文献[29]的方法，我们采用ADMM算法解决上述优化问题，得到增广拉格朗日函数为

(29)

为了方便表示，我们将张量堆叠成高一维度的张量，记作 $W = W_{s t o c k}^{r} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d} \times C}$ ，， $Q = Q_{s t o c k}^{r} \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{d} \times C}$ 为拉格朗日乘子张量， $μ$ 和 $λ$ 为惩罚参数。为了便于计算，本文采用了与Yin等人[30]相同的方法，将惩罚参数取相同的初始值，并在迭代的每一步中更新。根据经验，我们选择了 $10^{- 3}$ 作为参数的初始值。

该优化问题可以拆分为5个子问题，分别更新 $W$ 、 $b$ 、、 $Q$ 和 $μ$ ，下面重点介绍其中2个子问题。

1) 更新 $W$ 。

$W$ 的子问题可以写作

(30)

其中

$J (X, W, b) = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{r = 1}^{C} Y_{i r} \log (\frac{e^{(γ + 1) (〈 W^{r}, X_{i} 〉 + b^{r})}}{\sum_{j = 1}^{C} e^{(γ + 1) (〈 W^{j}, X_{i} 〉 + b^{j})}}) .$ (31)

根据上式求 $W$ 梯度为

(32)

其中 $Y$ 为给出的训练标签， $\hat{Y}$ 为预测标签， $ψ_{γ} (W)$ 为权重函数，其表达式如下

$ψ_{γ} (W) = {(\frac{e^{\hat{Y} (γ + 1) [〈 W^{r}, X 〉 + b^{r}]}}{\sum_{j = 1}^{C} e^{(γ + 1) [〈 W^{j}, X 〉 + b^{j}]}})}^{\frac{γ}{γ + 1}} .$ (33)

$(\hat{Y} - Y)$ 和 $ψ_{γ} (W)$ 之间作矩阵乘法，而 $X$ 和 $(\hat{Y} - Y) \cdot ψ_{γ} (W)$ 按照定义1作张量的模 $d + 1$ 乘法。

代入梯度下降算法，在每次迭代期间通过 $W^{t + 1} = W^{t} - α * \nabla_{W} J_{W}$ 最终可以最小化目标函数，其中t为迭代次数， $α$ 为步长。

2) 更新

可以通过

(34)

来更新。该子问题可通过文献[28]中提出的张量奇异值收缩算法(TSVT)来解决，其算法流程如算法1所示。

算法1. 张量奇异值收缩算法(TSVT)

输入： $X \in ℝ^{I_{1} \times I_{2} \times I_{3}}, τ > 0.$

输出： $\tilde{X} = U * G_{τ} * V^{*} .$

1) 对 $X$ 的每个正向切片做快速傅里叶变换，计算 $\bar{X} = fft (X, [], 3);$

2) 在 $\bar{X}$ 的每个正向切片上做矩阵SVT：

$\begin{array}{l} for i = 1, \dots, [(I_{3} + 1) / 2] \\ \begin{matrix} [U, G, V] \end{matrix} = S V D ({\bar{Y}}^{i}); \\ \begin{matrix} {\bar{Z}}^{(i)} = U \cdot {(G - τ)}_{+} \cdot V^{*} . \end{matrix} \\ end . \end{array}$

$\begin{array}{l} for i = [(I_{3} + 1) / 2] + 1, \dots, I_{3} \\ \begin{matrix} {\bar{Z}}^{（ i ）} = conj ({\bar{Z}}^{I_{3} - i - 3}) \end{matrix}; \\ end . \end{array}$

3) 对 $\bar{Z}$ 的每个正向切片做逆快速傅里叶变换，计算 $\tilde{X} = ifft (\bar{Z}, [], 3)$ ；

4) 输出 $\tilde{X} = U * G_{τ} * V^{*} .$

RMLTMLR算法的更新过程则以伪代码形式表示为算法2。

算法2. 稳健错标张量多分类算法(RMLTMLR)

输入： ${(X, y_{i}), i = 1, \dots, N}, λ, α, γ .$

输出： $W, b .$

1) 初始化：

2) 计算 $ψ_{γ}, \hat{Y}$ ：

按照式(32)计算 $ψ_{γ}$ ；

按照式(32)计算 $\hat{Y}$ ；

3) 更新 $W, b$ ：

$\begin{array}{l} for i = 1, \dots, 25 \\ \begin{matrix} W = W - α * \nabla_{W} ℱ_{W} \end{matrix}; \\ \begin{matrix} b = b - α * \nabla_{b} ℱ_{b}; \end{matrix} \\ end . \end{array}$

4) 用算法1更新；

5) 更新 $Q, μ :$

6) 输出 $W, b .$

4. 实验

本章选择彩色图像作为真实数据进行一系列实验以测试模型的分类效果，由此证实本文提出模型对于包含错误标签的张量图像分类具有稳定性，并以不同评价指标来全面评估本文模型的效果。本章使用的数据集为加州理工大学的101类彩色图像识别数据集，该数据集共包含102类9145副彩色图像，取该数据集包含不同数据量的不同子集，分别进行二分类、五分类和七分类的三个实验。

为了方便实验，我们对带标签的张量数据集 ${(X_{i}, y_{i}), i = 1, \dots, N}$ 做以下处理：对图像数据 $X_{i}$ ，由于数据集中不同图像的格式并不一致，我们统一将图像格式重塑为 $32 \times 32 \times 3$ ，即令 $X_{i} \in ℝ^{32 \times 32 \times 3}$ ；对标签数据 $y_{i}$ ，按照不同比重选择部分标签进行错误标注。为了更好地对比实验结果，我们对实验数据做如下处理。我们选用的彩色图像识别数据集所带的标签是干净标签，我们将使用干净标签的数据分类的实验称为Naive方法，作为实验的对照组来反映该数据集一般情况下分类的效果；接着我们对标签按照不同比例进行错误标注，二分类实验为例，随机选择部分标签，将其中正类标签标为负类，负类标签标为正类，即完成对该部分标签的错误标注。我们使用NRMLTMLR模型和RMLTMLR模型对进行过标签错误标注的张量图像数据集进行分类，通过比对分类效果来体现本文提出的RMLTMLR模型在错误标注的张量数据分类问题上的优越性。理论上讲RMLTMLR模型的分类效果应该好于NRMLTMLR的分类效果，且不好于Naive方法的分类效果。

我们的实验使用交叉验证方法，在参数选择上采用网格搜索法来选用使模型效果最佳的参数。根据经验选择 $λ$ 的取值范围为 $[1 e - 5, 1 e 3]$ ， $α$ 的取值范围为 $[0.1, 1.5]$ ， $γ$ 则按照张齐航[31]的实验结果选择最优值 $γ = 1$ 。

本章共使用4种常见的多分类评价指标，分别为准确率、MacroF1、MicroF1和Hamming距离。其中，准确率指正类和负类中预测正确的数量占总量的比例，MacroF1和MicroF1是F1-Score的多分类扩展，Hamming距离衡量预测标签与真实标签之间的距离。准确率、MacroF1和MicroF1越大，Hamming距离越小，表示模型的效果越好。

本章所有实验均在搭载酷睿11代处理器64位操作系统的计算机上使用Matlab2023b软件上实现。

4.1. 二分类

本节选用手风琴和船锚2个类别共计86张彩色图像作为二分类数据集，分别按照错误标签(mislabel) 0.10、0.15和0.20的比重进行实验。考虑到每次实验划分的训练集和测试集不同，Naive方法的分类结果会有差别，因此在不同mislabel比重下，三种方法均使用相同的 $X_{i}$ ，区别在于Naive方法使用不带噪声的标签数据 $y_{i}$ ，其余两种方法使用带噪声的标签数据。最终得到二分类实验结果如下表1：

Table 1. Results of two classification experiments

表1. 二分类实验结果

Mislabel	0.10			0.15			0.20
Method	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR
Acc	0.9231	0.8077	0.8462	0.8846	0.7692	0.8077	0.8846	0.6923	0.7308
macroF1	0.9091	0.7826	0.8182	0.8696	0.7000	0.7619	0.8889	0.7143	0.7586
microF1	0.9091	0.7826	0.8182	0.8696	0.7000	0.7619	0.8889	0.7143	0.7586
Hamming	0.0769	0.1923	0.1538	0.1154	0.2308	0.1923	0.1154	0.3077	0.2692

如上表1所示，在不同的错误标签比重下，本文提出方法的评价结果均好于直接使用NRMLTMLR模型分类的结果，在评价结果上更接近Naive方法的分类结果，因此证实了本文方法在二分类实验下对于含错误标签的张量图像的分类稳健性。

4.2. 五分类

为了进一步测试RMLTMLR方法在带噪声的张量图像多分类问题中的表现，本节选用手风琴、飞机、船锚、蚂蚁和木桶5个标签960张彩色图像作为五分类数据集，分别按照错误标签(mislabel) 0.25、0.30和0.35的比重进行实验，得到的实验结果如下表2所示：

Table 2. Results of five classification experiments

表2. 五分类实验结果

Mislabel	0.25			0.30			0.35
Method	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR
Acc	0.8576	0.7986	0.8021	0.8958	0.6667	0.8368	0.8785	0.6319	0.8299
macroF1	0.9872	0.9696	0.9617	0.9910	0.8302	0.9650	0.9874	0.8193	0.9749
microF1	0.9872	0.9696	0.9617	0.9910	0.8302	0.9650	0.9874	0.8193	0.9749
Hamming	0.1424	0.2014	0.1979	0.1042	0.3333	0.1632	0.1215	0.3681	0.1701

如上表2所示，在不同的错误标签比重下，本文提出方法几乎在所有评价指标下的结果好于直接使用NRMLTMLR模型分类的结果。随着错误标签比重增大，可以看到NRMLTMLR的分类准确率逐渐减小，而RMLTMLR的分类准确率维持在一个稳定的状态下且始终高于80%。该结果证实了本文方法在五分类实验下对于含错误标签的张量图像的分类稳健性。

4.3. 七分类

本节中我们选用手风琴、飞机、船锚、蚂蚁、木桶、鱼和河狸7个标签1055张彩色图像作为七分类数据集，分别按照错误标签(mislabel) 0.20、0.25和0.30的比重进行实验，得到的实验结果如下表3所示。

如下表3所示，本文提出方法在七分类的数据集上评价表现依旧好于直接使用NRMLTMLR模型分类，在评价结果上也更接近Naive方法的分类结果。当NRMLTMLR方法在不同的错误标签比重下分类准确率变化过大的情况下，RMLTMLR方法不仅保持了准确率均在72%以上，并且保持了分类结果稳定，进一步证明了本文方法能够做到对带有错误标签的张量图像的稳健分类。

Table 3. Results of seven classification experiments

表3. 七分类实验结果

mislabel	0.20			0.25			0.30
method	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR	Naive	NRMLTMLR	RMLTMLR
acc	0.8170	0.7066	0.7666	0.7886	0.0505	0.7224	0.8013	0.5741	0.7350
macroF1	0.9935	0.9033	0.9525	0.9917	0.0066	0.9674	0.9869	0.8189	0.9459
microF1	0.9935	0.9033	0.9525	0.9917	0.0066	0.9674	0.9869	0.8189	0.9459
hamming	0.1830	0.2934	0.2334	0.2114	0.9495	0.2776	0.1987	0.4259	0.2650

4.4. 耗费时间

为了比对模型的复杂度，我们分别记录了每次实验在MATLAB R2021b上运行所消耗的时间，具体结果如下表4所示：

Table 4. Model time

表4. 模型所耗时间

class	二分类			五分类			七分类
mislabel	0.10	0.15	0.20	0.25	0.30	0.35	0.20	0.25	0.30
NRMLTMLR	8.87	8.59	11.45	89.28	94.44	94.53	106.63	112.34	108.30
RMLTMLR	27.62	37.23	51.11	420.56	434.69	449.40	409.01	465.66	417.26

通过上表4可以看出，由于增加了权重参数的缘故，模型的复杂度增加，RMLTMLR方法在各项实验中消耗的时间约为NRMLTMLR方法的五倍，该实验结果也符合理论预期。鉴于RMLTMLR模型在面向包含错误标签的张量图像数据集时，表现出的分类效果和分类稳定性远优于NRMLTMLR模型，因此我们认为多出的消耗时间是值得的。

5. 总结

本文面向带有错误标签的张量图像数据，基于多分类逻辑回归模型，提出了一种能够直接处理张量格式数据并对带噪声标签具有稳健性的图像多分类模型。该模型利用γ-散度、张量管道秩及其核范数，通过增加权重函数的方式降低预测标签与训练标签不匹配的实例的权重，从而提升了稳健性，使其在实验中具有优良的表现，为含错误标签的张量图像数据分类提供了新思路。

本文对比了非稳健错标张量多分类模型(NRMLTMLR)和本文方法稳健错标张量多分类模型(RMLTMLR)，在加州理工大学的101类彩色图像识别数据集的二分类、五分类和七分类子集上进行实验。在实验过程中取不同的错标比重以对比两个方法在不同错标比重不同类别数据集下的分类情况。结果表明，在二分类数据集上，当错标比重分别为0.10，0.15和0.20时，本文提出的RMLTMLR较NRMLTMLR的分类准确率均提升了3.85个百分点；在五分类数据集上，当错标比重分别为0.25、0.30和0.35时，RMLTMLR较NRMLTMLR的分类准确率则分别提升了0.35、17.01和19.8个百分点；在七分类数据集上，当错标比重为0.20、0.25和0.30时，RMLTMLR较NRMLTMLR的分类准确率分别提升了6.00、67.19和16.09个百分点。因此，本文提出的RMLTMLR方法在含有错误标签的多分类张量数据集上具有较为显著的优势，也在实验方面证明了本文创新性地融合γ-散度方法增加了权重参数以提升模型对标签污染数据集分类的有效性。

考虑到张量管道秩只适用于三阶张量，面对更高阶的张量，后续需要对其余不同张量秩进行研究。另外，除了使用γ-散度方法，还可以参考背景建模的思路对错误标签进行建模，从该角度进一步提升模型的稳健性与适用性，以此优化模型。

基金项目

国家自然科学基金资助项目(12371308)。

NOTES

^*第一作者。

^#通讯作者。

参考文献

[1]	He, K., Zhang, X., Ren, S. and Sun, J. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778. https://doi.org/10.1109/cvpr.2016.90
[2]	Hu, J., Shen, L. and Sun, G. (2018). Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141. https://doi.org/10.1109/cvpr.2018.00745
[3]	Teng, C.M. (2000) Evaluating Noise Correction. In: Mizoguchi, R. and Slaney, J., Eds., PRICAI 2000 Topics in Artificial Intelligence, Springer, Berlin, 188-198. https://doi.org/10.1007/3-540-44533-1_22
[4]	Teng, C.M. (2001) A Comparison of Noise Handling Techniques. Proceedings of the Fourteenth International Florida Artificial Intelligence Research Society Conference, Key West, 21-23 May 2001, 269-273.
[5]	Teng, C.M. (2005) Dealing with Data Corruption in Remote Sensing. In: Famili, A.F., Kok, J.N., Peña, J.M., Siebes, A. and Feelders, A., Eds., Advances in Intelligent Data Analysis VI, Springer, Berlin, 452-463. https://doi.org/10.1007/11552253_41
[6]	Brodley, C.E. and Friedl, M.A. (19996) Identifying and Eliminating Mislabeled Training Instances. Proceedings of the Thirteenth National Conference on Artificial Intelligence, Portland, 4-8 August 1996, 799-805.
[7]	Copas, J.B. (1988) Binary Regression Models for Contaminated Data. Journal of the Royal Statistical Society Series B: Statistical Methodology, 50, 225-253. https://doi.org/10.1111/j.2517-6161.1988.tb01723.x
[8]	Wainer, H., Bradlow, E.T. and Wang, X. (2007). Testlet Response Theory and Its Applications. Cambridge University Press, Cambridge. https://doi.org/10.1017/cbo9780511618765
[9]	Komori, O., Eguchi, S., Ikeda, S., Okamura, H., Ichinokawa, M. and Nakayama, S. (2015) An Asymmetric Logistic Regression Model for Ecological Data. Methods in Ecology and Evolution, 7, 249-260. https://doi.org/10.1111/2041-210x.12473
[10]	Hayashi, K. (2011) A Boosting Method with Asymmetric Mislabeling Probabilities Which Depend on Covariates. Computational Statistics, 27, 203-218. https://doi.org/10.1007/s00180-011-0250-8
[11]	Takenouchi, T. and Eguchi, S. (2004) Robustifying Adaboost by Adding the Naive Error Rate. Neural Computation, 16, 767-787. https://doi.org/10.1162/089976604322860695
[12]	Hung, H., Jou, Z. and Huang, S. (2017) Robust Mislabel Logistic Regression without Modeling Mislabel Probabilities. Biometrics, 74, 145-154. https://doi.org/10.1111/biom.12726
[13]	Song, K., Nie, F., Han, J. and Li, X. (2017) Parameter Free Large Margin Nearest Neighbor for Distance Metric Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 31, 2555-2561. https://doi.org/10.1609/aaai.v31i1.10861
[14]	Cai, D., He, X., Hu, Y., Han, J. and Huang, T. (2007). Learning a Spatially Smooth Subspace for Face Recognition. 2007 IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, 17-22 June 2007, 1-7. https://doi.org/10.1109/cvpr.2007.383054
[15]	Liu, J., Zhu, C., Long, Z., Huang, H. and Liu, Y. (2021) Low-Rank Tensor Ring Learning for Multi-linear Regression. Pattern Recognition, 113, Article ID: 107753. https://doi.org/10.1016/j.patcog.2020.107753
[16]	Koniusz, P., Wang, L. and Cherian, A. (2022) Tensor Representations for Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 648-665. https://doi.org/10.1109/tpami.2021.3107160
[17]	Tao, D., Li, X.L., Hu, W.M., et al. (2005) Supervised Tensor Learning. Fifth IEEE International Conference on Data Mining (ICDM’05), Houston, 27-30 November 2005, 8.
[18]	Kotsia, I., Guo, W. and Patras, I. (2012) Higher Rank Support Tensor Machines for Visual Recognition. Pattern Recognition, 45, 4192-4203. https://doi.org/10.1016/j.patcog.2012.04.033
[19]	Irene, K. and Ioannis, P. (2011) Support Tucker Machines. Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, Colorado Springs, 20-25 June 2011, 633-640.
[20]	Tan, X., Zhang, Y., Tang, S.L., et al. (2012) Logistic Tensor Regression for Classification. Proceedings of the Third Sino-Foreign-Interchange Conference on Intelligent Science and Intelligent Data Engineering, Nanjing, 15-17 October 2012, 589-597.
[21]	张家瑞, 胡毓榆, 唐开煜, 樊亚莉. 基于张量低管道秩的图像多分类模型[J]. 建模与仿真, 2024, 13(3): 3980-3997.
[22]	Kilmer, M.E. and Martin, C.D. (2011) Factorization Strategies for Third-Order Tensors. Linear Algebra and Its Applications, 435, 641-658. https://doi.org/10.1016/j.laa.2010.09.020
[23]	Lu, C., Feng, J., Chen, Y., Liu, W., Lin, Z. and Yan, S. (2020) Tensor Robust Principal Component Analysis with a New Tensor Nuclear Norm. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, 925-938. https://doi.org/10.1109/tpami.2019.2891760
[24]	Kilmer, M.E., Braman, K., Hao, N. and Hoover, R.C. (2013) Third-Order Tensors as Operators on Matrices: A Theoretical and Computational Framework with Applications in Imaging. SIAM Journal on Matrix Analysis and Applications, 34, 148-172. https://doi.org/10.1137/110837711
[25]	Zhang, Z., Ely, G., Aeron, S., Hao, N. and Kilmer, M. (2014). Novel Methods for Multilinear Data Completion and De-Noising Based on Tensor-SVD. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 3842-3849. https://doi.org/10.1109/cvpr.2014.485
[26]	Jones, M.C. (2001) A Comparison of Related Density-based Minimum Divergence Estimators. Biometrika, 88, 865-873. https://doi.org/10.1093/biomet/88.3.865
[27]	Fujisawa, H. and Eguchi, S. (2008) Robust Parameter Estimation with a Small Bias against Heavy Contamination. Journal of Multivariate Analysis, 99, 2053-2081. https://doi.org/10.1016/j.jmva.2008.02.004
[28]	Kanamori, T. and Fujisawa, H. (2015) Robust Estimation Under Heavy Contamination Using Unnormalized Models. Biometrika, 102, 559-572. https://doi.org/10.1093/biomet/asv014
[29]	Hu, Y., Fan, Y., Song, Y. and Li, M. (2023) A General Robust Low-Rank Multinomial Logistic Regression for Corrupted Matrix Data Classification. Applied Intelligence, 53, 18564-18580. https://doi.org/10.1007/s10489-022-04424-0
[30]	Yin, M., Zeng, D., Gao, J., Wu, Z. and Xie, S. (2018) Robust Multinomial Logistic Regression Based on RPCA. IEEE Journal of Selected Topics in Signal Processing, 12, 1144-1154. https://doi.org/10.1109/jstsp.2018.2872460
[31]	张齐航. 信用评分中拒绝推断问题的研究[D]: [硕士学位论文]. 厦门: 厦门大学, 2021. https://doi.org/10.27424/d.cnki.gxmdu.2021.002140

为你推荐

友情链接