基于投影策略的改进在线非线性分类算法

doi:10.12677/AAM.2023.129399

期刊菜单

基于投影策略的改进在线非线性分类算法
Improved Online Nonlinear Classification Algorithm Based on Projection Strategy

DOI: 10.12677/AAM.2023.129399, PDF, HTML, XML, 科研立项经费支持
作者: 孟依, 宋爱民^*：大连交通大学理学院，辽宁大连
关键词: 在线学习；并行投影；核方法；稀疏；Online Learning； Parallel Projection； Kernel Method； Sparse

摘要: 在线学习自提出以来已经发展出许多算法及其改进，根据模型是线性还是非线性，将在线学习算法分为两大类：在线线性学习算法和基于核的在线学习算法。核方法是指利用特征映射，将样本映射到高维再生核希尔伯特空间，从而将线性不可分问题转化成线性可分问题。并行投影算法是用自适应投影次梯度方法(APSM)推导的，其优点是收敛速度快，但该算法的稀疏方式是当模型的规模达到一定容量时，可能将最远端某些重要的数据点删除，从而导致算法性能严重退化；以及存在偏移量使得分类效果变差。为了改进以上问题，本文是在并行投影算法的基础上提出了一种新的算法，其稀疏方式是利用最新的数据向字典中的数据做投影，从而在保证误分类率低时，本文算法的字典规模较小。仿真数据和真实数据的实验结果表明，与其他七种经典在线分类算法相比，本文算法在字典规模较小时，误分类率最低。

Abstract: Online learning has developed many algorithms and their improvements since it was proposed. According to whether the model is linear or nonlinear, online learning algorithms are divided into two categories: online linear learning algorithms and kernel-based online learning algorithms. The kernel method is to map the sample to a high-dimensional regenerated kernel Hilbert space by us-ing feature mapping, so that the linear indivisible problem can be transformed into a linear separa-ble problem. The parallel projection algorithm is derived by the adaptive projection subgradient method (APSM), which has the advantage of fast convergence, but the sparse way of the algorithm is that when the scale of the model reaches a certain capacity, some important data points at the far-thest end may be deleted, resulting in serious degradation of the algorithm performance. And the existence of offset makes the classification effect worse. In order to improve the above problems, this paper proposes a new algorithm based on the parallel projection algorithm. Its sparse method is to use the latest data to project the data in the dictionary, so that the dictionary size of the algo-rithm in this paper is small when the classification error rate is low. The experimental results of simulation data and real data show that compared with other online algorithms, the proposed algo-rithm has the lowest classification error rate when the dictionary size is small.

文章引用：孟依, 宋爱民. 基于投影策略的改进在线非线性分类算法[J]. 应用数学进展, 2023, 12(9): 4066-4075. https://doi.org/10.12677/AAM.2023.129399

1. 引言

机器学习算法分为批处理算法和在线学习算法，批处理算法可以一次性批量输入给学习算法，并在小规模数据上取得了巨大成功，但当数据规模较大时，批处理算法的计算复杂度高，并且不适合动态变化的环境。与批处理算法相比，在线学习算法适用于大规模数据和动态环境，并且能够降低学习算法的空间复杂度和时间复杂度。在大数据时代，数据高速增长的特点为机器学习带来了更加严峻的挑战，而在线学习算法可以有效地解决该问题，因此引起了人们的广泛关注。

设计良好的在线学习算法只需较少的计算，就能达到与批处理算法相同的效果。在线学习算法可以分为在线线性学习算法和基于核的在线学习算法，当样本线性可分时，在线线性学习算法可以有效分类，而在基于核的在线学习算法中，由于样本线性不可分，常需要利用特征映射，将样本映射到高维再生核希尔伯特空间，从而将线性不可分问题转化成线性可分问题，来降低分类任务的难度。在过去几年中，开发了很多基于核的在线学习算法，并在很多问题上也展现了很好的性能。

1958年，Rosenblatt首次提出了感知机(Perceptron)算法，并证明了对于线性可分问题，该算法总是收敛的 [1] 。文献 [2] 基于核的感知机算法，其主要思想是通过特征映射将非线性分类问题转化成特征空间的线性问题，并在特征空间应用感知机算法求解。2004年，J.Kivinen等人提出了核最小均方算法 [3] 。Engel等人提出了核递归最小二乘算法，由Mercer核诱导的高维特征空间中执行线性回归，因此可以用于递归地构造非线性最小二乘问题的最小均方误差解，并且首次将核方法扩展到自适应滤波 [4] 。2004年，Isao Yamada和Nobuhiko Ogura首次提出自适应投影次梯度方法，该算法是把分类问题转化为一个凸优化问题 [5] 。2008年，Konstantinos Slavakis等人引入了自适应投影次梯度法，利用基于投影的自适应滤波工具，导出一种新的用于再生核希尔伯特空间(RKHS)分类的在线算法 [6] 。

本文是在文献 [6] 中并行投影算法的基础上进行改进，而并行投影算法具有收敛速度快的优点，但是也存在缺点。第一，由于并行投影算法存在偏移量，会导致分类效果差；第二，并行投影算法的稀疏方式是当样本容量小于预设的预算时，数据点将会进入字典；当样本容量大于预设的预算时，将最远端的数据点删除，而该数据点可能是最重要的数据点，从而导致算法性能严重退化。

基于核的在线学习算法面临的问题是随着训练次数的增加，导致模型的规模随之增大，需要的计算量和存储空间也越来越多，为了改善以上缺点，需要对模型进行稀疏处理。在算法中加入稀疏处理，能够有效地改变字典规模的大小。因此，本文提出了新的算法：基于投影策略的改进在线非线性分类算法，本文的算法在误分类率(misclassification rate)和字典规模方面都具有一定的优势。

为了更清楚地表述，本文用 $Z$ ， $Z_{\geq 0}$ ， $Z_{> 0}$ ， $ℝ$ 表示所有整数，非负整数，正整数和实数。此外，对于任意整数 $j_{1} \leq j_{2}$ ，定义 $\bar{j_{1}, j_{2}} : = {j_{1}, j_{1} + 1, \dots, j_{2}}$ 。

2. 问题描述

考虑一个在线二元分类问题，假设 ${(x_{t})}_{t \in Z_{\geq 0}} \in X$ 为输入向量序列，其中 $X \in ℝ^{m}$ 为输入向量集合。用给

出的数据对 $(x_{t}, y_{t})$ ，训练一个非线性分类器 $f : ℝ^{d} \to ℝ$ ，其中t表示第t轮，d是维数， $y_{t} \in {+ 1, - 1}$ 是真实的类别标签。

对于在线分类问题，可以通过最小化软边际损失函数 $l (\cdot) : H \to ℝ$ 来训练分类器 $f \in H$ ：

$l ((x_{t}, y_{t}); f) = \max (0, ρ - y_{t} f (x_{t}))$ ,

其中 $ρ$ 为边缘参数。

在线非线性的分类算法在特征空间 $H$ 中形成分类器(点)的形式为

$f : = \sum_{t = 0}^{\infty} α_{t} k (x_{t}, \cdot) \in H$ .

基于核的在线学习算法的目的是学习关于核的预测模型 $f (x)$ ，用于如下分类新数据点 $x \in ℝ^{d}$ ：

$f (x) = \sum_{t = 1}^{T} α_{t} k (x_{t}, x)$ ,

其中T为处理数据点的数量， $α_{t}$ 表示第t个数据点的系数， $k (\cdot, \cdot)$ 表示核函数。

本文的目的是在并行投影算法的基础上进行更新，下面小节将给出本文算法。

3. 本文算法

在本文中，主要讨论了基于投影策略的改进在线非线性分类算法。第一部分介绍了基于并行投影的在线分类算法的推导，第二部分介绍了算法的稀疏。

3.1. 基于并行投影的在线分类算法的推导

本节主要利用文献 [6] 中并行投影算法的推导，下面将简单的介绍一下并行投影算法的推导过程。

$\forall t \in Z_{> 0}$ ，每个点的索引集 $J_{t} \subset \bar{0, t}$ ，对于 $j \in J_{t}$ 有闭半空间

给定分类器 $u_{t} \in H$ ，任意函数 $u \in H$ ，定义函数列为

$Θ_{t} (u) = {\begin{cases} \sum_{j \in J_{t}} \frac{w_{j} d (u_{t}, \prod_{j, t}^{+})}{L_{t}} d (u, \prod_{j, t}^{+}), L_{t} \neq 0 \\ 0, L_{t} = 0 \end{cases}$ ,

其中 $L_{t} : = \sum_{j \in J_{t}} w_{j} d (u_{t}, \prod_{j, t}^{+})$ ，权重 $w_{j} \geq 0$ ， $\forall j \in J_{t}$ 且 $\sum_{j \in J_{t}} w_{j} = 1$ 。

根据距离公式 $d (f, c) = ‖ f - P_{c} (f) ‖$ ，其中点 $f \in H$ ，闭凸集 $c \subset H$ ， $P_{c} (f)$ 表示f向c投影，可知

$d (u, \prod_{j, t}^{+}) = ‖ u - P_{\prod_{j, t}^{+}} (u) ‖$ .

把 $u_{t}$ 代入 $Θ_{t} (u)$ 中，可得

$Θ_{t} (u_{t}) = \frac{1}{L_{t}} \sum_{j \in J_{t}} w_{j} d^{2} (u_{t}, \prod_{j, t}^{+})$ .

该函数 ${d (\cdot, \prod_{j, t}^{+})}_{j \in J_{t}}$ 是闭凸集的度量距离函数，是连续的和次可微的。

对 $d (u, \prod_{j, t}^{+})$ 求次梯度，可知

$\partial d (u, \prod_{j, t}^{+}) = {\frac{u - P_{\prod_{j, t}^{+}} (u)}{d (u, \prod_{j, t}^{+})}} = \frac{u - P_{\prod_{j, t}^{+}} (u)}{‖ u - P_{\prod_{j, t}^{+}} (u) ‖}$ .

对 $Θ_{t} (u_{t})$ 求导知

${Θ^{'}}_{t} (u_{t}) = \frac{1}{L_{t}} \sum_{j \in J_{t}} w_{j} d (u_{t}, \prod_{j, t}^{+}) \frac{u_{t} - P_{\prod_{j, t}^{+}} (u_{t})}{‖ u_{t} - P_{\prod_{j, t}^{+}} (u_{t}) ‖}$ .

因为 $d (u_{t}, \prod_{j, t}^{+}) = ‖ u_{t} - P_{\prod_{j, t}^{+}} (u_{t}) ‖$ ，所以有

${Θ^{'}}_{t} (u_{t}) = \frac{1}{L_{t}} \sum_{j \in J_{t}} w_{j} (u_{t} - P_{\prod_{j, t}^{+}} (u_{t}))$ , (1)

由APSM算法的迭代公式可知

$u_{t + 1} = u_{t} - λ_{t} \frac{Θ_{t} (u_{t})}{{‖ {Θ^{'}}_{t} (u_{t}) ‖}^{2}} {Θ^{'}}_{t} (u_{t})$ .

将(1)式代入APSM算法的迭代公式中，可知

$u_{t + 1} = u_{t} - λ_{t} \frac{\sum_{j \in J_{t}} w_{j} d^{2} (u_{t}, \prod_{j, t}^{+})}{{‖ \sum_{j \in J_{t}} w_{j} (u_{t} - P_{\prod_{j, t}^{+}} (u_{t})) ‖}^{2}} \sum_{j \in J_{t}} w_{j} (u_{t} - P_{\prod_{j, t}^{+}} (u_{t}))$ .

令

$μ_{t} = λ_{t} \frac{\sum_{j \in J_{t}} w_{j} d^{2} (u_{t}, \prod_{j, t}^{+})}{{‖ \sum_{j \in J_{t}} w_{j} (u_{t} - P_{\prod_{j, t}^{+}} (u_{t})) ‖}^{2}}$ ,

故

$u_{t + 1} = u_{t} - μ_{t} \sum_{j \in J_{t}} w_{j} (u_{t} - P_{\prod_{j, t}^{+}} (u_{t}))$ . (2)

令

$β_{j} = w_{j} \cdot y_{j} {(ρ - y_{j} f_{t} (x_{j}))}^{+}$ .

则算法过程中(2)式可以等价地写为

$f_{t + 1} = f_{t} + μ_{t} \sum_{j \in J_{t}} β_{j} k (x_{j}, \cdot)$ . (3)

3.2. 算法的稀疏

随着训练次数的增加，会导致利用(3)式更新的算法中的字典规模越来越大，因此人们引入了各种在线稀疏方法，例如滑动窗技术 [6] 、贪婪法 [7] 、随机法 [8] 、量化法 [9] 等等。在本节中，当最新的数据可以利用字典中的元素近似表示时，最新的数据将不进入字典，此时需要用最新的数据向字典中的数据做投影，利用求矩阵的逆的方法进行更新；否则，最新的数据将进入字典。

设 ${(x_{t})}_{t \in z_{\geq 0}} \in X$ 为输入向量序列，其中 $X \in ℝ^{m}$ 为输入向量集合， $y_{t} \in {+ 1, - 1}$ 为标签。在 $t - 1$ 时刻，字典为 $D_{t - 1} = {{\tilde{x}}_{j}}_{j = 1}^{m_{t - 1}}$ 。当获得最新数据 $x_{t}$ 时，本文算法需要判断是否满足近似线性相关(ALD)条件

$δ_{t} = \min_{a} {‖ \sum_{j = 1}^{m_{t - 1}} a_{j} Φ ({\tilde{x}}_{j}) - Φ (x_{t}) ‖}^{2} \leq η$ ,

即将最新数据 $Φ (x_{t})$ 向字典 $D_{t - 1}$ 做投影，其中投影系数为

$a_{t} = {\tilde{K}}_{t - 1}^{- 1} {\tilde{k}}_{t - 1} (x_{t})$ . (4)

若最新数据 $x_{t}$ 满足ALD条件，即投影误差 $‖ δ_{t} ‖$ 小于给定的阈值 $η$ ，因此可以利用字典中已有的元素近似表示，所以最新的数据将不进入字典；若最新数据 $x_{t}$ 不满足ALD条件，即投影误差 $‖ δ_{t} ‖$ 大于给定的阈值 $η$ ，因此最新数据不能利用字典中的元素近似表示，会导致很大的误差，所以最新数据进入字典。

无论数据是否进入字典，都需要将数据向字典做投影，从而得到每个投影系数，将所有展开的投影系数组成系数矩阵，本节的系数矩阵是由最新的q个数据向字典做投影，可以得到最新q个数据展开的投影系数，然后将其组成系数矩阵，用 $A_{t}$ 表示

$A_{t} = [\begin{matrix} a_{t - q + 1}^{T} \\ a_{t - q + 2}^{T} \\ ⋮ \\ a_{t}^{T} \end{matrix}]$ .

在下一次迭代时，因为不再考虑 $k (x_{t - q + 1}, \cdot)$ ，所以不再考虑 $k (x_{t - q + 1}, \cdot)$ 在字典 $D_{t - 1}$ 上的投影，因此引入矩阵

${\bar{A}}_{t - 1} = [\begin{matrix} a_{t - q + 2}^{T} \\ ⋮ \\ a_{t - 1}^{T} \end{matrix}]$ .

故(3)式中 $\sum_{j \in J_{t}} β_{j} k (x_{j}, \cdot)$ 可写成如下形式

$\sum_{j \in J_{t}} β_{j} k (x_{j}, \cdot) \approx (β_{t - q + 1}, β_{t - q + 2}, \dots, β_{t}) A_{t} (\begin{matrix} k (x_{t - q + 1}, \cdot) \\ k (x_{t - q + 2}, \cdot) \\ ⋮ \\ k (x_{t}, \cdot) \end{matrix})$ .

下面将分情况讨论最新数据是否进入字典，投影系数、字典和字典维数分别是如何更新的。

当 $‖ δ_{t} ‖ > η$ 时，数据 $k (x_{t}, \cdot)$ 不能利用字典中的元素所表示，会导致很大的误差，因此数据 $k (x_{t}, \cdot)$ 要向自己做投影，可以得到其投影系数为 $a_{t} = (0, 0, \dots, 1)$ ，所以矩阵 $A_{t}$ 的更新为 $A_{t} = [\begin{matrix} {\bar{A}}_{t - 1} & 0 \\ 0 & 1 \end{matrix}]$ ，系数更新为 ${ϒ^{'}}_{t} = [\begin{matrix} ϒ_{t - 1} & 0 \end{matrix}]$ ， $ϒ_{t} = {ϒ^{'}}_{t} + β_{t} A_{t}$ 。此时，最新数据将进入字典，字典的更新为 $D_{t} = D_{t - 1} \cup {x_{t}}$ ，字典维数更新为 $m_{t} = m_{t - 1} + 1$ 。

当 $‖ δ_{t} ‖ \leq η$ 时，数据 $k (x_{t}, \cdot)$ 可以利用已有字典中的元素表示，因此数据 $k (x_{t}, \cdot)$ 要向字典 $D_{t - 1}$ 做投影，得到其投影系数为 $a_{t} = {\tilde{K}}_{t - 1}^{- 1} {\tilde{k}}_{t - 1} (x_{t})$ ，所以矩阵 $A_{t}$ 的更新为 $A_{t} = [\begin{matrix} {\bar{A}}_{t - 1} \\ a_{t}^{T} \end{matrix}]$ ，系数更新为 ${ϒ^{'}}_{t} = ϒ_{t - 1}$ ， $ϒ_{t} = {ϒ^{'}}_{t} + β_{t} A_{t}$ 。此时，最新数据不会进入字典，字典不变，字典更新为 $D_{t} = D_{t - 1}$ ，字典维数更新为 $m_{t} = m_{t - 1}$ 。

综上，引入稀疏化环节后，本文的更新公式为

$f_{t} (\cdot) = \sum_{j = 1}^{m_{t}} ϒ_{t} (j) k (x_{j}, \cdot)$ .

至此，本文得到了新算法，新算法的伪代码如下。

4. 实验结果

在本节中，新算法与其他不同算法分别在仿真数据和真实数据下进行性能比较，并将算法参数的设置以表格的形式展示，各个算法的误分类率和字典维数以图的形式展示。由于误分类率可以作为衡量不同算法性能的重要指标，在下面的仿真数据实验中，利用测试集上的误分类率来衡量不同算法的性能，其定义式如下：

$误分类率 = \frac{\sum_{i} I (y_{i} \neq {\hat{y}}_{i})}{n}$ ,

上式中n表示测试数据集的长度， $y_{i}$ 表示i时刻的期望输出， ${\hat{y}}_{i}$ 表示i时刻对测试数据的实际输出。

4.1. 仿真数据比较

本文使用的仿真数据与文献 [6] 相同，其中输入数据对 $(x_{t}, y_{t})$ ， $x_{t} \in ℝ^{4}$ ， $y_{t} \in {+ 1, - 1}$ 。为了算法比较的公平性，本文算法与APSM算法 [6] ，SPA算法 [10] ，Perceptron算法 [2] ，OLRU算法 [11] ，OLRD算法 [11] ，Projectron算法 [12] ，Projectron++算法 [12] 等算法进行性能对比，对比的算法都具有良好的鲁棒性，具体的参数选择在下面表1中说明。

Table 1. Parameter setting of each algorithm

表1. 各个算法的参数设置

根据上述参数的设置，本文算法与各个算法进行比较，下图展示各个算法的误分类率及字典维数D。

图1显示，本文提出的算法比其他算法相比，在字典规模较小时，本文提出的算法的误分类率最低。

4.2. 真实数据比较

真实数据集是来自LIBSVM数据存储库的二分类数据集，其中LIBSVM是一个支持向量机的库，它由台湾大学(Taiwan University)的林智仁(Chih-Jen Lin) 教授和他的团队所开发的。该库提供了一种简单且高效的方式，用于解决回归(regression)、分类(classification)和分布估计(distribution estimation)等问题。

下面在真实数据a3a以及a7a的各个算法进行性能比较，其中两组数据的参数相同，都用了以下表2参数的设置。为了算法比较的公平性，选择对比的算法都具有良好的鲁棒性，具体的参数选择在下面表2中说明。

Figure 1. The performance of the proposed algorithm is compared with other algorithms under simulation data

图1. 本文算法和其他算法在仿真数据下的性能比较

Table 2. Parameter setting of each algorithm

表2. 各个算法的参数设置

根据上述参数的设置，将各个算法与本文提出的算法分别在a3a以及a7a数据中，进行了比较，下图给出各个算法的误分类率以及字典维数D。

图2运用的数据是a3a，测试数据为20,000个，训练数据为3000个，核长均为1。在a3a数据中，本文提出的算法与其他算法相比，新算法在字典规模较小时，误分类率最低。

图3运用的数据是a7a，测试数据为16,000个，训练数据为10,000个，核长均为1。在a7a数据中，这八种算法是在期望的参数下进行的对比，本文提出的算法与其他算法相比，新算法在字典规模较小时，误分类率最低。

Figure 2. Performance comparison of the proposed algorithm and other algorithms under a3a data

图2. 本文算法和其他算法在a3a数据下的性能比较

Figure 3. Performance comparison of the proposed algorithm and other algorithms under a7a data

图3. 本文算法和其他算法在a7a数据下的性能比较

5. 总结

基于核的在线学习算法面临的问题是随着训练次数的增加，导致模型的规模随之增大，需要的计算量和存储空间也越来越多，为了改善以上缺点，需要对模型进行稀疏处理。本文是在并行投影算法的基础上提出了一种新的算法为基于投影策略的改进在线非线性分类算法，其稀疏方式是最新的数据要向字典中的数据做投影。字典维数是否增加，和投影误差有关。当投影误差大于阈值时，新数据进入字典，字典维数增加；反之，小于阈值时，新数据不进入字典，新的系数可以用字典中原有的系数和基底近似表示，字典维数不变。仿真数据和真实数据的实验结果表明，与其他七种经典的在线分类算法相比，本文算法在字典规模较小时，误分类率最低。

基金项目

辽宁省自然科学基金(项目编号2019-ZD-0106，2019-ZD-0087)。

NOTES

^*通讯作者。

参考文献

[1]	Rosenblatt, F. (1958) The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Psychological Review, 65, 386-408. [Google Scholar] [CrossRef] [PubMed]
[2]	Freund, Y. and Schapire, R.E. (1999) Large Margin Classification Using the Perceptron Algorithm. Machine Learning, 37, 209-217. [Google Scholar] [CrossRef]
[3]	Kivinen, J., Smola, A.J. and Williamson, R.C. (2004) Online Learning with Kernels. IEEE Transactions on Signal Processing: A Publication of the IEEE Signal Processing Society, 52, 2165-2176. [Google Scholar] [CrossRef]
[4]	Engel, Y., Mannor, S. and Meir, R. (2004) The Kernel Recursive Least-Squares Algorithm. IEEE Transactions on Signal Processing, 52, 2275-2285. [Google Scholar] [CrossRef]
[5]	Yamada, I. and Ogura, N. (2004) Adaptive Projected Subgradient Method for Asymptotic Minimization of Sequence of Nonnegative Convex Functions. Numerical Functional Analysis and Optimization, 25, 593-617. [Google Scholar] [CrossRef]
[6]	Slavakis, K., Theodoridis, S. and Yamada, I. (2008) Online Ker-nel-Based Classification Using Adaptive Projection Algorithms. IEEE Transactions on Signal Processing, 56, 2781-2796. [Google Scholar] [CrossRef]
[7]	Cawley, G.C. and Talbot, N.L.C. (2002) Reduced Rank Kernel Ridge Regression. Neural Processing Letters, 16, 239-302. [Google Scholar] [CrossRef]
[8]	Gilbarg, D. and Trudinger, N.S. (1983) Elliptic Partial Differential Equations of Second Order. Springer, Berlin, Heidelberg, 1-517.
[9]	Chen, B.D., Zhao, S.L., Zhu, P.P. and Príncipe, J.C. (2012) Quantized Kernel Least Mean Square Algorithm. IEEE Transactions on Neural Networks and Learning Sys-tems, 23, 22-32. [Google Scholar] [CrossRef]
[10]	Lu, J., Sahoo, D., Zhao, P.L. and Hoi, S.C.H. (2018) Sparse Passive-Aggressive Learning for Bounded Online Kernel Methods. ACM Transactions on Intelligent Sys-tems and Technology, 9, 1-27. [Google Scholar] [CrossRef]
[11]	He, W.W. and Kwok, J.T. (2014) Simple Randomized Algorithms for Online Learning with Kernels. Neural Networks, 60, 17-24. [Google Scholar] [CrossRef] [PubMed]
[12]	Orabona, F., Keshet, J. and Caputo, B. (2009) Bounded Ker-nel-Based Online Learning. Journal of Machine Learning Research, 10, 2643-2666.

为你推荐

友情链接