1. 引言
最优性是我们生活生产中所追求的目标之一。研究控制系统时,若系统是线性的,二次指标表示成状态变量
和输入控制变量
的二次函数,则把求得系统所对应的二次指标达到最优的控制问题,称为最优控制问题 [1] 。线性二次最优控制问题最早实在1958年由Bellman,Glicksberg,Gross等人研究的 [2] 。在此基础之上,R.E. Kalman针对二次最优控制建立了状态反馈 [3] ,并且将Riccati方程引入控制理论中,建立了最优线性反馈调节器 [4] [5] [6] [7] 。参考文献 [8] - [15] 中针对线性系统的系数问题作出假设,并且研究了任何的线性系统的稳定解可以用广义Riccati方程的可解性来表示 [16] [17] [18] 。在文献 [19] 中,为了保证二次线性控制问题是适定的和反馈稳定控制的存在性,要定义一些稳定性概念。
本文与参考文献 [20] 不同之处在于,本文考虑了具体非齐次马尔可夫切换的无限时域离散时间时变Markov跳变系统的线性二次最优控制,介绍了与KKT定理相关的最优线性反馈的存在性,且证明了广义Riccati方程的可解性与二次最优问题的适定性与可达性是等价的。要保证线性二次最优问题是适定的,则对应的广义Riccati方程是可解的,并且存在最优控制。在文章的第二节介绍了一些相关的定义和后续文章中所需要的一些引理;第三节对所研究的模型进行详细的描述,对模型中所出现的符号进行说明。
2. 预备知识
为了能够方便在后续文章中对一些相关性定理引理的应用,先对文章中将要用到的定理引理进行简单的介绍:
数学规划:
其中:
定义1 (正则点):对于数学规划中的可行点
,令
,如果梯度向量
和
都是线性独立的,则
成为约束正则点。
定义2 (正则性条件):令
,如果梯度向量
和
都是线性独立的,则称之为正则性条件。
定义3 (KKT定理):设正则点
是数学规划的局部最优解,且目标函数
以及约束函数
,
,在点
处是连续可微的,则存在
及
叫做KKT乘数,使得下列等式成立:
其中拉格朗日函数为:
引理1 [12] :给定矩阵
,矩阵
叫做Q的广义逆矩阵,则:
引理2 [12] :给定对称矩阵Q,则:
引理3 (舒尔补引理) [13] :设具有适当维数的矩阵
,则下面的条件是等价的:
(I)
(II)
(III)
引理4 [14] :给定矩阵
,当且仅当
,当且仅当
时,矩阵方程
有一个解X,另外,X满足
,其中Y是一个适当维数的矩阵。
3. 系统描述
本节主要考虑以下随机离散时间系统:
(2-1)
其中
,
和
是具有适当维数的向量,
是系统的输出状态,
是系统的输入控制,
是给定的系统的初始状态,
是定义在完备概率空间
上的一维独立随机变量。
是噪声,
。令
,其中
是常数。
系统(2-1)所对应的二次指标为:
(2-2)
其中,
与M均为对称矩阵。值函数定义为:
(2-3)
假设1:为方便后续研究,现作出以下假设:
1) 上述矩阵都是有界的矩阵值序列。
2) 对于任意的
,
是一个非退化的随机矩阵,对于任意的
满足:
(2-4)
假设2:
是定义在完备概率空间
上的一维独立随机变量,与初值条件
是相互独立的,且具有以下性质:
(2-5)
其中:
(2-6)
假设3:对于任意的
,
-代数
与
-代数
是相互独立的,其中,
,
。
定义 4:无限随机线性二次问题(2-1)、(2-2)、(2-3)是适定的,若对于任意的
,
。
定义 5:无限随机线性二次问题(2-1)、(2-2)、(2-3)是可达的,若对于任意的
,存在一个序列
为系统的最优控制,使得
。
注记 1:若无限随机线性二次问题(2-1)、(2-2)、(2-3)的一个线性反馈控制是最优的,则必存在一个最优线性反馈控制具有以下形式:
其中,
是一个矩阵值函数。
4. 主要成果
在研究中发现,系统(2-1)、(2-2)、(2-3)的最优控制问题可以通过广义Riccati差分方程的解来表示。
4.1. 随机线性系统与Riccati方程
定理1:如果系统(2-1)、(2-2)、(2-3)的最优控制问题是可达的,
,而且正则点
是系统(2-1)、(2-2)、(2-3)的局部最优解,则下列广义Riccati方程(GDRE)有解
:
(2-7)
(2-8)
(2-9)
(2-10)
此外,
(2-11)
(2-12)
证明:对于任意的
,令
,其中
,则线
性二次控制问题(2-1)、(2-2)、(2-3)可以转化成下面的最优化问题:
(2-13)
s.t.下式均成立:
(2-14)
即:
其中,
为待定控制项。
(2-15)
根据KKT定理,设拉格朗日函数为:
(2-16)
对
中的
进行求导,且根据KKT定理得:
通过计算可得:若
,则有
即:
(2-17)
其中,
。
又由于
与
相互独立,则有:
(2-18)
同理,对
求导可得:
(2-19)
取:
(2-20)
(2-21)
综合上述(2-20)、(2-21)则第(2-18)、(2-19)式可写做:
(2-22)
(2-23)
根据引理4可得:若
有解
,当且仅当
,则此时方程的解
表示如下:
(2-24)
将
带入(2-22)式得以下广义Riccati方程:
(2-25)
即为(2-7)式。
(2-26)
即为(2-9)式。
(2-27)
即为(2-10)式。
且得到:
(2-28)
由于
,故有:
(2-29)
即为(2-11)式。
假设
是一个对称矩阵,若
不是对称矩阵,则取:
显然,
也是一个对称矩阵。
(2-30)
将第(2-30)式变形得到:
(2-31)
将第(2-31)式与第(2-2)式相加,得:
(2-32)
此时,必须证明
。假设
有负的特征值
,令
是
所对应得唯一的特征向量,并且有:
对任意的
,设控制列:
相应的目标函数为:
(2-33)
当
时,
,这与线性二次控制问题(2-1)、(2-2)、(2-3)矛盾,故
是成立的。
根据
可知:
(2-34)
故定理1证明完毕。
4.2. Riccati方程的相关性质研究
定理2:如果系统(2-1)、(2-2)、(2-3)的最优控制问题是可达的,
,而且正则点
是系统(2-1)、(2-2)、(2-3)的局部最优解,则下列广义Riccati方程(GDRE)有解
:
(2-35)
(2-36)
(2-37)
此外,
(2-38)
证明:根据定理 可得,系统(2-1)、(2-2)、(2-3)所对应得广义 方程为式(2-23),其中
,且有:
(2-39)
即:
,由于
,故存在
,使得:
(2-40)
故:
(2-41)
根据定理1同样可得:
(2-42)
将(2-41)代入(2-42)式,且
可得:
(2-43)
即定理2证明完毕。
5. 数值举例
考虑系统(2-1)、(2-2)、(2-3)的特殊形式,当
时,对应的系数为:
根据定理1可直接计算得:
6. 结论
本文将离散时间无限时域时变非齐次Markov跳变系统的线性二次最优控制问题转化为广义Riccati方程的可解性。在后续的研究中具有重大的意义,通过广义Riccati方程的可解性可以更好的研究对应系统的稳定性,更是引导未来用算子理论与随机分析的方法来对离散时间无限时域时变非齐次Markov跳变系统的均方稳定性与可探测性等问题进行研究。
基金项目
重庆理工大学研究生教育高质量发展行动计划资助成果,项目编号:gzlcx20223308,项目类型:校级联合资助项目;重庆理工大学研究生教育高质量发展行动计划资助成果,项目编号:gzlcx20223304,项目类型:校级联合资助项目。
NOTES
*通讯作者。