数据驱动的分布式鲁棒随机二次规划的收敛性分析
Convergence Analysis of Data-Driven Distributionally Robust Stochastic Quadratic Programming
DOI: 10.12677/AAM.2022.111028, PDF, HTML, XML, 下载: 430  浏览: 713  国家自然科学基金支持
作者: 张东东*, 韩有攀*, 田孟昊:西安工程大学理学院,陕西 西安
关键词: 随机二次规划分布式鲁棒优化Wasserstein度量Helly-Bray定理Stochastic Quadratic Programming Distributionally Robust Optimization Wasserstein Metric Helly-Bray Theorem
摘要: 本文研究数据驱动的Wasserstein模糊集下分布式鲁棒随机二次规划的收敛性问题。首先,我们建立了目标函数的逐点Lipschitz性质。接着,当样本量趋于无穷大时,利用大数定律,Helly-Bray定理给出了分布式目标函数收敛于目标函数的期望值。最后,我们建立了分布式鲁棒随机二次规划收敛于通常的随机二次规划问题。
Abstract: In this paper, we study the convergence problem of distributionally robust stochastic quadratic programming under the data-driven Wasserstein ambiguity sets. First, we establish the point-by-point Lipschitz property of the objective function. Then, when the sample size tends to infinity, using the law of large numbers, the Helly-Bray theorem derives the expectation of the distributionally objective function converges to the objective function. Finally, we establish that the distributionally robust stochastic quadratic programming converges to the general stochastic quadratic programming problem.
文章引用:张东东, 韩有攀, 田孟昊. 数据驱动的分布式鲁棒随机二次规划的收敛性分析[J]. 应用数学进展, 2022, 11(1): 224-230. https://doi.org/10.12677/AAM.2022.111028

1. 引言

最优解与最优值的收敛性是随机规划问题的重要性质之一,因而关于随机规划的收敛性分析得到了广泛关注和深入研究。2000年骆建文等 [1] 对随机规划的逼近解的收敛性做了探讨,证明了当随机序列依分布收敛时,随机规划问题的任何最优解序列将收敛到原问题的最优解,这为如何设计逼近算法来求解随机规划问题提供了理论基础。2012年霍永亮、刘三阳 [2] 指出关于随机规划逼近问题最优解集的上半收敛性结果依赖于概率度量(如Kolmogorov度量、Wasserstein度量、Fortet-Mourier度量)的收敛性 [3] [4] [5]。

虽然随机规划的定量稳定性研究取得硕果,却受限于复杂多变的实际问题。尤其是面对随机变量的概率分布模糊不清时非常棘手。为了更好地刻画实际问题,Ben-Tal [6] 和Ghaoui [7] 在鲁棒优化方向做出了奠基工作。然而随机规划与鲁棒随机优化虽能较好地刻画随机问题,但是前者需要知道随机变量的概率分布信息,后者虽可求解问题,但得到的解过于保守 [8]。分布式鲁棒随机优化则介于二者之间,它是从随机优化到鲁棒优化的桥梁,它不需要精确知道优化问题中的随机变量的概率分布,而且还易于求解。即使在相应的随机模型是#P-难的情况下,分布式鲁棒优化问题也是可求解的。分布式鲁棒随机优化方法的核心是模糊集的构造。现在熟知的构造模糊集的方法有如下三种:① 基于矩信息构造模糊集;② 基于概率度量(如Prohorov metric、K-L divergence、Wasserstein metric等);③ 第三种构造模糊集为拟合优度检验的置信域。

关于Wasserstein度量下的收敛性的研究工作较为热门。2013年Nicolas Fournier [9] 等人给出了关于经验度量的Wasserstein距离的收敛速率,这为后续的分布式鲁棒随机优化的收敛性分析奠定了基础。2014年Zhao Chaoyue在其博士论文 [10] 中给出了Wasserstein度量下样本量N与其构造的模糊集半径关系的系统性描述。Peyman Mohajerin Esfahani和Daniel Kuhn [11] 在已有工作的基础之上,得到了有限样本保证(有限样本情况下给出分布式鲁棒随机优化问题的置信界),渐近一致性及分布的收敛性。

本文基于上述工作,考虑当样本数据量趋于无穷时,Wasserstein度量下的分布式鲁棒随机二次规划的收敛性问题。

2. 模型介绍

2.1. 模型与符号

考虑如下模型:

min x X sup P D Ξ f ( x , ξ ) P d ξ (1)

其中,x为决策变量, x X X R n 为约束集。损失函数 f : R n × R m R 为随机二次函数,其形式如下:

f ( x , ξ ) = 1 2 x T Q ( ξ ) x + L T ( ξ ) x + h ( ξ ) ,

Q ( ξ ) L ( ξ ) h ( ξ ) 分别为关于 ξ 的仿射函数。其中 Q ( ξ ) = i = 1 m A i ξ i + A 0 i = 1 , 2 , , m 为实对称矩阵且 A 0 为实半正定矩阵; L ( ξ ) = B ξ + B 0 B R n × m 为实矩阵, B 0 R n × 1 为常数向量; h ( ξ ) = C T ξ + c C R m × 1 为常数向量,c为常数。 ξ R m 为随机向量,服从分布P,D为包含P的模糊集, Ξ 是P的支撑集。

2.2. 数据驱动的分布式鲁棒随机二次规划模型

在诸多实际运用中,分布P是未知的,因此无法直接求解问题(1)。然而可以通过独立的历史样本数据观测到分布P的部分实现。若使用 Ξ ^ N : = { ξ ^ } i N Ξ 表示包含样本的数据集,则可通过该数据集在某些概率距离下(如K-L散度、Prokhorov度量、Wasserstein度量等)构造的模糊集 D ^ N ,使该集以较高的置信度包含真实概率分布P。由于Wasserstein度量具有良好的性质 [9] [10] [11],故本文利用Wasserstein距离来构造模糊集。

对于任意 p [ 1 , ) ,p-型Wasserstein度量 W p : M ( Ξ ) × M ( Ξ ) R + 定义为:对所有的分布 Q 1 , Q 2 M ( Ξ )

W p ( Q 1 , Q 2 ) = ( inf Π Ξ 2 ξ 1 ξ 2 p Π ( d ξ 1 , d ξ 2 ) ) 1 p ,

其中, M ( Ξ ) 表示支撑集 Ξ 上的概率度量, Q 1 是随机变量 ξ 1 的概率分布, Q 2 是随机变量 ξ 2 的概率分布, Π Q 1 Q 2 的联合概率分布, 表示 R m 中的任意范数。

p = 1 时,随机变量间的单位运输成本表示为 ξ 1 ξ 2 1 ,相应地

W 1 ( Q 1 , Q 2 ) = inf Π Ξ 2 ξ 1 ξ 2 1 Π ( d ξ 1 , d ξ 2 ) 。此度量也是著名的Kantorovich度量。

根据Wasserstein 度量的良好收敛性质,本文采用1-型Wasserstein度量来构造模糊集,即

D ^ N : = { P M ( Ξ ) : W 1 ( P , P ^ N ) ε } ,

其中, P ^ N 表示样本量为N的i.i.d.历史数据的经验分布。

故而,数据驱动的分布式鲁棒随机二次规划模型为:

min x X sup P D ^ N Ξ [ 1 2 x T Q ( ξ ) x + L T ( ξ ) x + h ( ξ ) ] P d ξ . (2)

3. 收敛性分析

为了得到数据驱动的分布式鲁棒随机二次规划的收敛性分析,我们先给出如下的结论。

引理1 [11] 当 Ξ 为紧集时,存在一个常数 a > 1 N 1 m 2 ε > 0 有如下结论成立:

A : = E P [ exp ( ξ a ) ] = Ξ exp ( ξ a ) P ( d ξ ) < ,

P N { W 1 ( P , P ^ N ) ε } { c 1 exp ( c 2 N ε max { m , 2 } ) ε 1 , c 1 exp ( c 2 N ε a ) ε > 1 ,

其中, c 1 c 2 是依赖于a,A,m的正数。

根据上述集中不等式,在给定置信水平 β 下,样本量N与Kantorovich度量构造的模糊集的Wasserstein球的半径 ε 有如下关系:

ε N ( β ) : = { ( log ( c 1 β 1 ) c 2 N ) 1 max { m , 2 } N log ( c 1 β 1 ) c 2 , ( log ( c 1 β 1 ) c 2 N ) 1 a N < log ( c 1 β 1 ) c 2 .

引理2 (Helly-Bray定理)若随机函数 g : R m R 为有界连续函数,则 ξ n 依分布收敛于 ξ 当且仅当 E [ g ( ξ n ) ] E [ g ( ξ ) ]

为了建立分布式鲁棒随机二次规划问题的收敛性结果,首先考虑随机二次函数 f ( x , ξ ) 的分析性质。

定理1 对于任意给定的 x X ,任取 Ξ 中的随机向量 ξ η ξ η ,则有 | f ( x , ξ ) f ( x , η ) | ξ η K ( x )

证明 首先,对于 ξ , η Ξ ξ η

f ( x , ξ ) f ( x , η ) = 1 2 x T Q ( ξ ) x + L T ( ξ ) x + h ( ξ ) [ 1 2 x T Q ( η ) x + L T ( η ) x + h ( η ) ] .

Q ( ξ ) = i = 1 m A i ξ i + A 0 L ( ξ ) = B ξ + B 0 h ( ξ ) = C T ξ + c 代入得:

f ( x , ξ ) f ( x , η ) = 1 2 x T ( i = 1 m A i ξ i + A 0 ) x 1 2 x T ( i = 1 m A i η i + A 0 ) x + ( B ξ + B 0 ) x ( B η + B 0 ) x + C T ξ C T η = 1 2 x , ( i = 1 m A i ξ i + A 0 ) x 1 2 x , ( i = 1 m A i η i + A 0 ) x + B ξ , x B η , x + C T ( ξ η ) = 1 2 x , ( i = 1 m A i ( ξ i η i ) ) x + B ( ξ η ) , x + C T ( ξ η ) = 1 2 ( x T A 1 x , , x T A m x ) , ( ξ η ) + ξ η , B T x + C T ( ξ η )

H = [ x T A 1 x , , x T A m x ] ,H为m维向量。则

f ( x , ξ ) f ( x , η ) = ( 1 2 H + B T x + C T ) ( ξ η ) .

所以,

| f ( x , ξ ) f ( x , η ) | ξ η = | ( 1 2 H + B T x + C T ) ( ξ η ) | ξ η 1 2 H + B T x + C T = K ( x ) .

定理2 对于每个给定的置信水平 β 和决策 x X 。在 Ξ 为紧集的条件下,随着样本量 N 时,有模糊集半径 ε 0 lim N sup Q D ^ N E Q [ f ( x , ξ ) ] = E P [ f ( x , ξ ) ] 成立。

证明 首先利用引理1的结论,很容易得到当 N 时, ε 0

根据( [11], Theorem 4.2)证明过程中有如下结论:

sup Q D ^ N E Q [ f ( x , ξ ) ] = inf λ 0 λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] (3)

由于随着 N ,在大数定律下经验分布 P ^ N 弱收敛于分布P。又 f ( x , ξ ) 关于随机变量 ξ 连续,则 f ( x , ξ ) Ξ 上有界,利用引理2,我们有如下关系:

lim N sup Q D ^ N E Q [ f ( x , ξ ) ] lim N E P ^ N [ f ( x , ξ ) ] = E P [ f ( x , ξ ) ] .

根据(3)式,接下来只需证明 lim N inf λ 0 λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] E P [ f ( x , ξ ) ] 成立即可。

由于

lim N inf λ 0 { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } inf λ 0 lim sup N { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] }

因此只需证明(4)成立即可:

inf λ 0 lim sup N { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } E P [ f ( x , ξ ) ] . (4)

根据定理1知,存在一个常数 L > 0 ,使得对于任意的 x X ,有

| f ( x , ξ ) | < L ξ Ξ . (5)

由于 Ξ 为紧集,若令B为 Ξ 的直径,则有

0 ξ z B ξ , z Ξ . (6)

对于任意 λ 0 ,利用(5)和(6)可得:

L λ B sup ξ Ξ [ f ( x , ξ ) λ ξ z ] L , z Ξ .

因此可进一步得到(7):

lim sup N { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } = lim sup N { λ ε + E P ^ N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } = lim N λ ε + E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] = E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] (7)

现已将分布式鲁棒优化问题在样本量趋于无穷的情况下等价转化为鲁棒优化问题。接下来只需证明给定任意的 x X ,(8)式成立即可。

inf λ 0 E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] E P [ f ( x , z ) ] . (8)

由于 inf λ 0 E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] lim sup λ + E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] 。因此需进一步证明下式成立即可:

lim sup λ + E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] E P [ f ( x , z ) ] . (9)

接下来,问题(9)中的最优解是 ξ ( z ) = z 。假设 ξ ( z ) = z ^ z ,根据定理1则有:

[ f ( x , z ) λ z z ] [ f ( x , z ^ ) λ z z ^ ] = f ( x , z ) f ( x , z ^ ) + λ z z ^ > ( λ K ( x ) ) z z ^ > 0

ξ ( z ) = z ^ z 矛盾,因此可得:

lim sup λ + E P sup ξ Ξ [ f ( x , ξ ) λ ξ z ] = lim sup λ + E P [ f ( x , z ) ] = E P [ f ( x , z ) ] .

综上已经证得:

lim N inf λ 0 { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } E P [ f ( x , ξ ) ]

lim N inf λ 0 { λ ε + 1 N i = 1 N sup ξ Ξ [ f ( x , ξ ) λ ξ ξ ^ i ] } E P [ f ( x , ξ ) ] .

故定理2得证。

由于定理2的结论对于任意给定的 x X 都成立。同时, K ( x ) 是关于x的二次向量值函数的范数。而当X为紧集时,该向量中每一个分量都是有限的。因而,存在某个常数 K > 0 ,使得 K ( x ) K ,从而有下面的定理。

定理3 对于每个给定的置信水平 β 及任意决策 x X 。在X与 Ξ 为紧集的条件下,我们有

lim N min x X sup Q D ^ N E Q [ f ( x , ξ ) ] = min x X E P [ f ( x , ξ ) ] 成立,即分布式鲁棒随机二次规划收敛于通常的随机二次规划。

4. 结论

当模糊集由概率分布的Kantorovich度量构成时,本文对数据驱动的分布式鲁棒二次规划的收敛性问题进行了研究。在建立了目标函数关于随机变量是逐点Lipschitz连续性的基础上,当样本量N趋于无穷时,我们得到了最坏情况下的随机二次规划问题逐点收敛于通常的随机二次规划问题。进而,在决策变量集合为紧集时,我们获得分布式鲁棒随机二次规划问题收敛于通常的随机二次规划问题。这些结果不仅丰富了分布式鲁棒优化的理论,还为进一步设计求解算法奠定了理论基础。

基金项目

本研究受国家自然科学基金11501434资助。

参考文献

NOTES

*共同第一作者。

参考文献

[1] 骆建文, 鲁世杰. 随机规划逼近解的收敛性[J]. 浙江大学学报(理学版), 2000, 27(5): 493-497.
[2] 霍永亮, 刘三阳. 随机规划逼近问题最优解集的下半收敛性[J]. 数学进展, 2012, 41(6): 747-754.
[3] Römisch, W. and Schultz, R. (1991) Stability Analysis for Stochastic Programs. Annals of Operations Research, 30, 241-266.
https://doi.org/10.1007/BF02204819
[4] Klatte, D. (1994) On Quantitative Stability for Non-Isolated Minima. Control and Cybernetics, 23, 183-200.
[5] Schultz, R. (2000) Some Aspects of Stability in Stochastic Programming. Annals of Operations Research, 100, 55-84.
https://doi.org/10.1023/A:1019258932012
[6] Ben-Tal, A. and Nemirovski, A. (1998) Robust Convex Optimization. Mathematics of Operations Research, 23, 769-805.
https://doi.org/10.1287/moor.23.4.769
[7] ElGhaoui, L. and Lebret, H. (1997) Robust Solutions to Least-Squares Problems with Uncertain Data. SIAM Journal on Matrix Analysis and Applications, 18, 1035-1064.
https://doi.org/10.1137/S0895479896298130
[8] Zhao, C.Y. and Guan, Y.P. (2018) Data-Driven Risk-Averse Stochastic Optimization with Wasserstein Metric. Operations Research Letters, 46, 262-267.
https://doi.org/10.1137/S0895479896298130
[9] Fournier, N. and Guillin, A. (2015) On the Rate of Convergence in Wasserstein Distance of the Empirical Measure. Probability Theory and Related Fields, 162, 707-738.
https://doi.org/10.1137/S0895479896298130
[10] Zhao, C.Y. (2014) Data-Driven Risk-Averse Stochastic Program and Renewable Energy Integration. University of Florida, Gainesville, FL.
[11] Esfahani, P.M. and Kuhn, D. (2018) Data-Driven Distributionally Robust Optimization Using the Wasserstein Metric: Performance Guarantees and Tractable Reformulations. Mathematical Programming, 171, 115-166.
https://doi.org/10.1007/s10107-017-1172-1