基于独立但不同分布样本的系数正则化回归算法的研究
Analysis of Coefficient Regularized Regression with Non-Identically and Independently Sampling
摘要: 本文分析了基于独立但不同分布样本的系数正则化回归学习算法。全文的框架不同于以往的经典核学习方法,核函数不再要求满足半正定性;对于样本输出,令其满足弱化的矩假设条件。文章使用积分算子的方法得到了满意的与容量无关的误差界,最后通过选取合适的正则化参数得到较为满意的学习率。
Abstract: This paper considers the error analysis of coefficient regularization with non-identically and independently sampling. The framework under investigation is different from classical kernel learning. The kernel function no longer satisfies the positive semidefiniteness; we carry out the error analysis with output sample values satisfying a generalized moment hypothesis. Satisfactory capacity independently error bounds are derived by the techniques of integral operator for this learning algorithm, finally, a satisfactory learning rate is obtained by selecting appropriate regularization parameters.
文章引用:常欣欣, 王鑫. 基于独立但不同分布样本的系数正则化回归算法的研究[J]. 应用数学进展, 2021, 10(10): 3254-3260. https://doi.org/10.12677/AAM.2021.1010341

1. 引言

统计学习理论中的最小二乘回归问题陈述如下:

设X为一个紧子集, Y = R ρ Z : X × Y 上未知的概率测度, z = { ( x i , y i ) } i = 1 m Z m 为服从 ρ 的一组独立同分布的取样。在回归学习中定义关于函数 f : X Y 的期望风险泛函,

ε ( f ) = E ( f ( x ) y ) 2 = Z ( f ( x ) y ) 2 d ρ

回归函数定义为

f ρ ( x ) = E ( y | x ) = Y y d ρ ( y | x ) , x X

ρ ( y | x ) ρ X = x 时的条件分布,回归函数刻画了输出值y与输入值x之间的依赖关系。实际上,由于 ρ 是未知的,所以 f ρ 无法直接求得,于是我们的目标是利用样本z产生关于 f ρ 的一个最佳逼近。

在这篇文章里,我们学习 l 2 系数正则化算法:

f Z , λ = f α Z 其中 α Z = arg min α R T { 1 T t = 1 T ( f α ( x t ) y t ) 2 + λ T t = 1 T α t 2 } , λ > 0 (1.1)

有关该算法的研究可以参看文献 [1] [2]。

2. 相关定义

在本章中,考虑基于Z上的概率分布 ρ t ,对任意的 t 1 ρ t 在x处的条件分布为 ρ ( | x ) 。第t个样本 z t = ( x t , y t ) 的选取依赖于 ρ t 。我们选取样本序列 z t = ( x t , y t ) 来自于强平稳过程。令 ρ X ρ X t 分别为 ρ ρ t 在X上的边缘测度。接下来的假设和文献 [3] 中一样,边缘分布 ρ X t 收敛到Holder空间 C s ( X ) 的对偶空间 ( C s ( X ) ) 中的 ρ X

Holder空间 C s ( X ) ( 0 s 1 ) 包含X上所有的连续函数,并且具有以下的有界范数:

f C s ( x ) = f + | f | C s ( x )

其中

| f | C s ( x ) : = sup x y X | f ( x ) f ( y ) | ( d ( x , y ) ) s .

接下来给出的定义是对序列 ρ X t 的处理。

定义2.1令 0 s 1 ,则序列 ρ X t 以指数形式收敛到 ( C s ( X ) ) 中的 ρ X ,如果存在 C 1 > 0 0 < α < 1 使下列式子成立:

ρ X ( t ) ρ X ( C s ( X ) ) C 1 α t , t N (2.1)

根据对偶空间 ( C s ( X ) ) 的定义,上式也可以表示为:

| X f ( x ) d ρ X ( i ) X f ( x ) d ρ X | C 1 α i f C s ( x ) , f C s ( X ) , i N .

根据积分算子的定义,有

L K , ρ X f ( x ) = X K ( x , u ) f ( u ) d ρ X ( u ) , L K , ρ X t f ( x ) = X K ( x , u ) f ( u ) d ρ X ( t ) ( u ) ,

为了进行误差分析,假设核函数 K ˜ 满足序数 s ( 0 s 1 ) 的核条件:

定义2.2若对一些常数 k s > 0 ,且 K ˜ C s ( X × X ) ,满足对所有的 u , v X ,有

K ˜ u K ˜ v K ˜ k s ( d ( u , v ) ) s . (2.2)

称Mercer核 K ˜ 满足序数 s ( 0 s 1 ) 的核条件。

满足序数 s ( 0 s 1 ) 的核条件称称Mercer核 K ˜ 使得对任意的 f H K ˜ ,且 u , v X ,有

| f ( u ) f ( v ) | = | f , K ˜ u K ˜ v K ˜ | f K ˜ K ˜ u K ˜ v K ˜ k s f K ˜ ( d ( u , v ) ) s

所以, f C s ( X ) 并且 f C s ( x ) ( k + k s ) f K ˜

对于样本Z,假设其满足弱化的矩假设条件:存在两个常数 M ˜ > 0 ,及 p 2 ,使得

Z | y | p M ˜ 2 (2.3)

文献 [4],文献 [5],文献 [6] 中对样本输出的要求均是满足弱化的矩假设条件。

本文的目标是估计 f Z , λ f ρ 之间的误差,用RKHS H K ˜ 逼近 f ρ ,定义:

f λ , ρ X = arg min f Η K ˜ { Z ( f ( x ) f ρ ( x ) ) 2 d ρ ( x , y ) + λ f K ˜ 2 } . (2.4)

但由于样本Z是不同分布的,引入

f λ , ρ ¯ X ( m ) = ( λ I + L K ˜ , ρ ¯ X ( m ) ) 1 L K ˜ , ρ ¯ X ( m ) f ρ (2.5)

其中 ρ ¯ X ( m ) = 1 m i = 1 m ρ X ( i )

然后整体的误差就可以分解成三部分:

f Z , λ f ρ ρ = f Z , λ f λ , ρ ¯ X ( m ) ρ + f λ , ρ ¯ X ( m ) f λ , ρ X ρ + f λ , ρ X f ρ ρ

不等式右侧的三部分分别称为样本误差、测量误差和正则化误差。

对于算法的学习,最重要的步骤就是进行误差分析。接下来,首先会给出本文最重要的一个定理,然后对其进行证明。下面将分几步对误差进行分析。第一,对于样本误差,主要的困难是样本是不同分布且输出是无界的,本文通过引入一个中间积分算子的方法来解决.第二,本文用一个新的方法得到了较小的测量误差,从而使算法整体的误差界变小。

3. 主要定理及其证明

3.1. 主要定理

下面给出本文的主要结论:

定理3.1假设弱化的矩有界假设条件(2.3)成立; ρ X t 满足条件(2.1),并且 K ˜ 满足条件(2.2); L K ˜ , ρ X r f ρ L ρ X 2 ,对于 1 / 2 < r 3 / 2 ,令 λ = T θ ( 0 < θ < 1 / 3 ) ,则有

E f Z , λ f ρ ρ C k T min { 1 / 2 ( 3 / 2 ) θ , ( r 1 / 2 ) θ } ,

这里的 C k k , s , α 有关,和T无关的常数。其具体的表达式会在3.2部分给出。

该定理的证明会在下面的误差分析中给出。

3.2. 误差分析

首先,分析正则误差 f λ , ρ X f ρ ρ

关于正则误差的分析,已经在很多关于学习理论的文献中分析过,本文将省略它的证明过程并直接给出结果。

命题3.1假设 L K ˜ , ρ X r f ρ L ρ X 2 ,并且对 r > 0 ,下列正则误差的界成立:

f λ , ρ X f ρ ρ C q λ q

其中, C q = ( 1 + k 2 r 2 ) L K ˜ , ρ X r f ρ ρ , q = min { r , 1 } ,并且,当 1 / 2 < r 3 / 2 ,有

f λ , ρ X f ρ K ˜ C r λ r 1 / 2 ,

这里, C r = L K ˜ , ρ X r f ρ ρ

接下来分析 f λ , ρ ¯ X ( I ) f λ , ρ X K ˜ ,它是由不同的测量引起的,所以我们称其为侧量误差,可以参看文献 [7]。在给出结果之前,我们需要以下2个引理。

引理3.1对任意的 f , g C s ( X ) ,有

f g C s ( X ) f C s ( X ) × g + f × | g | C s ( X )

引理3.2假设 K ˜ 满足核条件(2.2),则有

L K ˜ , ρ ¯ X ( I ) L K ˜ , ρ X k ( k + 2 k s ) ρ ¯ X ( I ) ρ X ( C s ( X ) )

证明:对任意的 h C s ( X ) ,则有

( L K ˜ , ρ ¯ X ( I ) L K ˜ , ρ X ) h K ˜ 2 = X h ( x ) { X h ( t ) K ˜ ( x , t ) d ( ρ ¯ X ( I ) ρ X ) ( t ) } × d ( ρ ¯ X ( I ) ρ X ) ( x ) h ( u ) X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) ( C s ( X ) ) × ρ ¯ X ( T ) ρ X ( C s ( X ) ) { h C s ( X ) × X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) + h × | X h ( v ) K ˜ ( u , v ) × d ( ρ ¯ X ( T ) ρ X ) | C s ( X ) } × ρ ¯ X ( T ) ρ X ( C s ( X ) ) (3.1)

I = X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) ,

I I = | X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) | C s ( X )

现在我们需要分别估计I和II。对于I,很容易有

I = max x X | X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) | max x X h ( ) K ˜ ( u , ) C s ( X ) × ρ ¯ X ( T ) ρ X ( C s ( X ) ) max x X [ h C s ( X ) × k 2 + h × | K ˜ ( u , ) | C s ( X ) ] × ρ ¯ X ( T ) ρ X ( C s ( X ) ) [ k 2 h C s ( X ) + k k s h ] × ρ ¯ X ( T ) ρ X ( C s ( X ) ) (3.2)

要分析II,考虑

| X h ( v ) [ K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) ] d ( ρ ¯ X ( T ) ρ X ) | h ( v ) [ K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) ] C s ( X ) × ρ ¯ X ( T ) ρ X ( C s ( X ) ) [ h C s ( X ) × K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) + h | K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) | C s ( X ) ] × ρ ¯ X ( T ) ρ X ( C s ( X ) ) (3.3)

因为

| [ K ˜ ( u 2 , v 2 ) K ˜ ( u 1 , v 1 ) ] [ K ˜ ( u 2 , v 1 ) K ˜ ( u 1 , v 1 ) ] | k s 2 d s ( u 1 , u 2 ) d s ( v 1 , v 2 )

则有

| K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) | C s ( X ) k s 2 d s ( u 1 , u 2 ) ,

| K ˜ ( u 2 , v ) K ˜ ( u 1 , v ) | k k s d s ( u 1 , u 2 ) (3.4)

I I = | X h ( v ) K ˜ ( u , v ) d ( ρ ¯ X ( T ) ρ X ) | C s ( X ) ( k k s h C s ( X ) + k s 2 h ) ρ ¯ X ( T ) ρ X ( C s ( X ) ) (3.5)

( L K ˜ , ρ ¯ X ( T ) L K ˜ , ρ X ) h K ˜ 2 { h C s ( X ) [ k 2 h C s ( X ) + k k s h ] + h [ k k s h C s ( X ) + k s 2 h ] } × ρ ¯ X ( T ) ρ X ( C s ( X ) ) 2 = ( k h C s ( X ) + k s h 2 ) ρ ¯ X ( T ) ρ X ( C s ( X ) ) 2

当条件(2.2)满足时,在文献 [8] 中已经证明, H K ˜ 包含在 C s ( X ) 中,并且有下列式子成立

h C s ( X ) ( k + k s ) h K ˜ , h H K ˜

然后有

( L K ˜ , ρ ¯ X ( T ) L K ˜ , ρ X ) h K ˜ k ( k + 2 k s ) h K ˜ ρ ¯ X ( T ) ρ X ( C s ( X ) )

证明结束。

命题3.2假设 L K ˜ , ρ X r f ρ L ρ X 2 ( 1 / 2 < r < 2 / 3 ) K ˜ 满足核条件(2.2),则测量误差满足

f λ , ρ ¯ X ( T ) f λ , ρ X K ˜ C 2 λ r 3 / 2 T (3.6)

其中 C k = k ( k + 2 k s ) , C 2 = C 1 C k C r α / ( 1 α )

证明:

f λ , ρ ¯ X ( T ) f λ , ρ X K ˜ = ( λ I + L K ˜ , ρ ¯ X ( T ) ) 1 { ( L K ˜ , ρ ¯ X ( T ) L K ˜ , ρ X ) f ρ + ( L K ˜ , ρ X L K ˜ , ρ ¯ X ( T ) ) f λ , ρ X } K ˜ = ( λ I + L K ˜ , ρ ¯ X ( T ) ) 1 ( L K ˜ , ρ ¯ X ( T ) L K ˜ , ρ X ) ( f ρ f λ , ρ X ) K ˜ 1 λ ( L K ˜ , ρ ¯ X ( T ) L K ˜ , ρ X ) ( f ρ f λ , ρ X ) K ˜

应用引理3.2,令 h = f ρ f λ , ρ X ,得

f λ , ρ ¯ X ( T ) f λ , ρ X K ˜ 1 λ k ( k + 2 k s ) ρ ¯ X ( T ) ρ X ( C s ( X ) ) f λ , ρ X f ρ K ˜

根据 ρ ¯ X ( T ) 的定义和(2.1)式,有

ρ ¯ X ( T ) ρ X ( C s ( X ) ) = 1 T t = 1 T ρ X ( t ) ρ X ( C s ( X ) ) C 1 α T ( 1 α )

最后联立命题,即得结论。

接下来分析样本误差,这里不再给予具体证明,详细证明过程可参考文献 [9]。

命题3.3 f Z , λ 由(1.1)给出;假设输出满足矩有界假设条件(2.3);并且边缘分布序列 ρ X ( t ) N ,且满足条件(2.1),则

E f Z , λ f λ , ρ ¯ X ( T ) ρ C k λ 3 / 2 T 1 / 2

其中 C k = 2 6 M k 2 + 2 10 M k 3 + C 3 / ( 1 α ) , C 3 = α C 1 k M ( k + 2 | k | C s ( X × Y ) ) × ( k + 1 )

最后,证明定理3.1。

证明:由命题3.3,有

E f Z , λ f λ , ρ ¯ X ( T ) ρ C k λ 3 / 2 T 1 / 2

1 / 2 < r < 3 / 2 ,由命题3.2,有

f λ , ρ ¯ X ( T ) f λ , ρ X K ˜ C 2 λ r 3 / 2 T

并且由命题3.1,有

f λ , ρ X f ρ K ˜ C r λ r 1 / 2 ,

因为

f ρ f k f K ˜ , f H K ˜

联立三个误差界,并令 λ = T θ ( 0 < θ < 1 / 3 ) ,即可证明定理3.1,其中 C k = ( C 2 + C r ) k + C k

参考文献

[1] 郭芹, 孙红卫. 基于弱相关抽样的系数正则化的一致性分析[J]. 济南大学学报(自然科学版), 2010, 24(1): 99-103.
[2] Sun, H.W. and Wu, Q. (2011) Least Square Regression with Indefinite Kernels and Coefficient Regularization. Applied and Computational Harmonic Analysis, 30, 96-109.
https://doi.org/10.1016/j.acha.2010.04.001
[3] Nie, W.L. and Wang, C. (2016) Error Analysis of ERM Algorithm with Unbounded and Non-Identical Sampling. Journal of Applied Mathematics and Physics, 4, 156-168.
https://doi.org/10.4236/jamp.2016.41019
[4] Chu, X.R. and Sun, H.W. (2013) Regularized Least Square Regression with Unbounded and Dependent Sampling. Abstract and Applied Analysis, 2013, 900-914.
[5] Chu, X.R. and Sun, H.W. (2012) Coefficient Regularization with Unbounded Sampling. Journal of Computational Information Systems, 8, 1613-1621.
[6] Gao, Q. and Ye, P.X. (2016) Coefficient-Based Regularized Regression with Dependent and Unbounded Sampling. International Journal of Wavelets, Multiresolution and Information Processing, 14, No. 5.
https://doi.org/10.1142/S0219691316500399
[7] Vapnik, V. (1979) Estimation of Dependent Based on Empirical Data. Nauka, Moscow.
[8] Sun, H.W. and Guo, Q. (2011) Coefficient Regularized Regression with Non-IID Sampling. International Journal of Computer Mathematics, 88, 3113-3125.
https://doi.org/10.1080/00207160.2011.587511
[9] Cai, J. (2013) Coefficient-Based Regression with Non-Identical Unbounded Sampling. Abstract and Applied Analysis, 2013, Article ID: 134727.
https://doi.org/10.1155/2013/134727