具有能量约束的线性二次高斯系统的最优控制与能量调度

doi:10.12677/pm.2024.144146

期刊菜单

具有能量约束的线性二次高斯系统的最优控制与能量调度
Optimal Control and Energy Scheduling for Linear-Quadratic-Gaussian System with Energy Harvesting Constraints

DOI: 10.12677/pm.2024.144146, PDF, HTML, XML,
作者: 杨修远：上海理工大学理学院，上海
关键词: LQG最优控制；最优能量传输；马尔可夫–决策过程；LQG Optimal Control； Optimal Energy Transmission； Markov-Decision-Process

摘要: 本文考虑了一种带有能量收集约束的能量传输反馈线性二次高斯(LQG)系统的最优控制器合成。该系统面临着选择传输能量给控制器以及每个能量操作成本和能量收集约束的选择。目标是共同选择传输能量和控制器，以在控制性能和成本之间保持最佳平衡。在一定的假设下，这个问题可以分解为两个优化问题：一个用于最优控制器合成，另一个用于最优传输能量选择。最优控制器合成子问题由Riccati方程描述，而最优传输能量选择策略则通过解决某个马尔可夫决策过程(MDP)来找到。最后，我们通过仿真验证了上述方法的有效性。

Abstract: In this paper, we consider the optimal controller synthesis of an energy-transmission-feedback Linear-Quadratic Gaussian (LQG) system with energy harvesting constraints. The system is presented with the choice of transmission energy to the controller along with the cost of operating each energy and energy harvesting constraints. The objective is to jointly select the transmission energy and the controller that would maintain an optimal balance between the control performance and the cost. Under certain assumptions, this problem can be solved in two optimization problems: one for optimal controller synthesis and the other for optimal transmission energy selection. The optimal controller synthesis subproblem is characterized by Riccati equations and the optimal transmission energy selection policy is found by solving a certain Markov-Decision-Process (MDP). In the end, we verify the effectiveness of the above method through a simulation.

文章引用：杨修远. 具有能量约束的线性二次高斯系统的最优控制与能量调度[J]. 理论数学, 2024, 14(4): 375-383. https://doi.org/10.12677/pm.2024.144146

1. 引言

由于网络、通信技术、计算和控制的迅速发展，这些领域在各种系统中将网络与实际世界紧密结合起来。对这些系统的控制需要在共享通信网络上交换不受压抑且可靠的信号。从 [1] [2] [3] 可以看出，在一些资源约束下，提高系统性能和可靠性将带来挑战。

LQG系统一直具有广泛的应用，在经典的线性二次高斯(LQG)系统中，噪声是不可避免，一般而言，噪声被假设服从高斯分布。正如 [4] 所示，在无限时域的LQG系统中，作者展示了控制成本和通信数据速率之间的权衡。关于在通信约束下控制LQG系统的问题已经在多个研究中进行了探讨，如 [5] [6] 。例如， [6] 表明最优控制器并不表现出分离原则；但在 [5] 中，作者提供了控制器表现出分离原则的必要条件，但是控制器和能量选择器的最优结构尚未得到充分研究，因而，系统控制策略和能量传输功率选择策略的共同设计一直是研究的热点。。

与此同时，能量收集这一研究领域也引起了学者的广泛兴趣 [7] [8] 。Li等人 [9] 的工作探讨了使用能量收集传感器进行远程状态估计的传感器传输能量控制，采用连续时间方法和扰动分析。在此基础上，彭等人 [10] 表明了存在最优的确定性和稳态功率传输分配策略。在实践中，由于实际电路的限制，同时进行能量收集和数据包传输可能无法实现 [11] 。能量收集和信息传输的方法通常分为两个主要的常见类别：一种是功率分割，即使用接收到的部分能量进行能量收集，其余部分用于信息处理；另一种是时间切换方案，接收器在传输信息和获取能量之间切换时间 [12] 。

基于 [5] 中提出的分离原则，作者在 [13] 中提出了一个新的框架，不再设计能量选择器，而是是否可以从给定的能量选择器集合中找到最优的传输能量水平。在本文中，我们遵循这一框架，分别设计控制器和能量选择器。最后，我们考虑了一个场景，即控制系统可以从给定的能量选择器中选择最优的能量水平来传输其测量结果。

本文的贡献是：1) 通过考虑能量成本和能量收集约束，研究了具有一组能量传输水平的LQG最优控制问题；2) 利用后向归纳法研究出最优控制器结构，将控制器合成问题与能量选择问题分离；3) 将最优功率选择问题表示为约束MDP，并证明了存在最优确定性功率传输选择策略。

2. 问题定式化

让我们考虑一个定常的LQG系统：

$X_{t + 1} = A X_{t} + B U_{t} + W_{t}$ (1)

$X_{t} \in ℝ^{n}$ 是系统状态， $U_{t} \in ℝ^{m}$ 是控制信息，A和B是相容维数的常数矩阵。 ${W_{t}}_{t \in ℕ_{0}}$ 是一个具有零均值高斯分布的独立同分布噪声序列 $W_{t} ~ N (0, W)$ 。初始状态 $X_{0}$ 是一个符合 $N (μ_{0}, Σ)$ 的高斯随机变量分布。

Figure 1. Control system flow chart

图1. 控制系统流程图

如图1所示，我们将传输能量分为M个级别，并从M个能量级别中选择传输能量 $p_{t}$ 。第i个传输能量级别提供的传输能量用 $Q^{i} (i \in {1, 2, \dots, M})$ 表示，并且让 $λ (Q^{i}) = λ_{i} \in ℝ_{+}$ 表示与之相关的成本。在一个无线数据包丢失通信信道上，系统进行状态估计并将估计值发送到控制器。假设无线信道是一个加性白噪声高斯信道(AWGN)，其比特错误率(BER)与传输能量 $p_{t}$ 的关系由 [10] 所描述：

$BER = 2 Φ (\sqrt{(β p_{t}) / (S_{0} K)})$

其中 $Φ (x) ≜ \frac{1}{\sqrt{2 π}} \int_{x}^{\infty} \exp (- t^{2} / 2) d t$ ， $β > 0$ 是一个常数， $S_{0}$ 为噪声功率的频谱密度，K为无线信道带宽。

在本文中，我们考虑一个能量受限、所需传输信息量通常较小的场景。为方便起见，我们假设每个数据包只包含一个比特(例如用于奇偶校验)。在传输过程中，如果数据包丢失，则接收端将无法正确验证奇偶校验，即数据包丢失等于比特错误率(BER)。数据检查方法可以检测数据包错误，这些方法在 [9] 中有描述。我们可以利用一个二元随机过程 $γ (t)$ 来描述传输过程：如果控制器接收到的信号无误，则 $γ (t) = 1$ ，否则 $γ (t) = 0$ (此情况可视为丢失)。传输信号的丢失概率由 $γ_{t}$ 表示，定义为 $γ_{t} ≜ Pr [γ (t) = 0] = 2 Φ (\sqrt{β \frac{p_{t}}{S_{0} K}})$ ，其中控制器可用的测量值表示为：

$Y_{t} = γ (t) X_{t} + (1 - γ (t)) (A X_{t - 1} + B U_{t - 1}) .$ (2)

对于环境无线射频信号，无线信息发射器和能量接收器分别具有两种明显不同的功率灵敏度。此外，系统需要在传输信息和收集能量之间进行时间切换。因此，在商业可用的电路中，时间切换方案优于功率分割方案，因此我们采用时间切换方案。

将从起始到步骤t结束的收集到的能量表示为 $σ_{t}$ 。假定能量收集过程 $σ_{t}$ 是一个离散时间稳态一阶齐次马尔可夫过程。将电池的最大能量存储容量表示为 $C \geq p_{t}$ 。选择器不能同时收集能量和传输数据，我们有

$b_{t} = {\begin{array}{l} \min {b_{t} + σ_{t}, C}, & p_{t} = 0, \\ b_{t} - p_{t}, & 0 < p_{t} \leq b_{t} . \end{array}$

用于传输能量选择器的新决策变量 $π_{t}^{i}$ 表示如下：如果在时间t使用第i个传输能量，则 $π_{t}^{i} = 1$ ，否则 $π_{t}^{i} = 0$ 。因此，向量 $π_{t} ≜ [π_{t}^{1}, π_{t}^{2}, \dots, π_{t}^{M}] \in {0, 1}^{M}$ ，描述了在时间t的传输能量切换方案的决策。因为传输能量选择器在每个时间步只选择一个传输能量，所以我们有 $\sum_{i = 1}^{M} π_{t}^{i} = 1$ 对于所有 $t \in ℕ_{0}$ 。

将集合定义为 $X_{t} ≜ {X_{0}, X_{1}, \dots, X_{t}}$ ， $Y_{t} ≜ {Y_{0}, Y_{1}, \dots, Y_{t}}$ ， $U_{t} ≜ {U_{0}, U_{1}, \dots, U_{t}}$ 和 $Π_{t} ≜ {π_{0}, π_{1}, \dots, π_{t}}$ ，分别表示状态历史、测量历史、控制历史和传输选择历史。

控制器在时间t可以接收到的信息是 $F_{t}^{c} = {Y_{t}, U_{t - 1}, Π_{t}} = F_{t - 1}^{c} \cup {Y_{t}, U_{t - 1}, π_{t}}$ ，其中 $F_{0}^{c} = {Y_{0}, π_{0}}$ 。根据先前的定义，可以发现接纳控制策略可以视为一个映射： $F_{t}^{c} \to ℝ^{m}$ 。我们用 $ξ_{t}^{u}$ 来表示这样的策略。另一方面，在时间t可用于能量传输选择器的信息是 $F_{t}^{e} = {X_{t}, Y_{t - 1}, U_{t - 1}, Π_{t - 1}} = F_{t - 1}^{e} \cup {X_{t}, Y_{t} - 1, U_{t} - 1, π_{t}}$ ，其中 $F_{0}^{e} = {X_{0}}$ 。用于选择发送器的接纳策略也可以视为一个映射： $F_{t}^{e} \to {0, 1}^{M}$ 。我们用 $ξ_{t}^{π}$ 来表示这样的策略。因此，在一个时间步内的决策过程如下：

$\cdot \cdot \cdot \to F_{t}^{e} \overset{ξ_{t}^{π}}{\to} π_{t} \to Y_{t} \to F_{t}^{c} \overset{ξ_{t}^{u}}{\to} U_{t} \to X_{t + 1} \to F_{t + 1}^{e} \to \cdot \cdot \cdot .$

由控制器和能量传输选择器共同最小化的成本函数是一个有限时间段的二次准则，给出为如下：

$J (ξ^{U}, ξ^{Π}) = E [\sum_{t = 0}^{T - 1} (X_{t}^{⊤} Q_{1} X_{t} + U_{t}^{⊤} R U_{t} + π_{t}^{⊤} \land) + X_{T}^{⊤} Q_{2} X_{T} | U_{t} = ξ_{t}^{u} (F_{t}^{c}), π_{t} = ξ_{t}^{π} (F_{t}^{e})]$ (3)

其中， $\land = {[λ_{1}, λ_{2}, \dots, λ_{M}]}^{⊤}$ ， $R ≻ 0$ ， $Q_{1} ≽ 0$ ， $Q_{2} ≽ 0$ ， $ξ^{Π}$ 表示整个序列 ${ξ_{0}^{π}, ξ_{1}^{π}, \dots, ξ_{T - 1}^{π}}$ ，类似地， $ξ^{U}$ 也类似定义。

3. 最优控制和能量选择

3.1. 基于分离原理的最优控制

为了解决前一节提出的问题，我们需要找到最小化可接受策略中成本函数(3)的最优映射 $ξ^{U^{*}}$ 和 $ξ^{Π^{*}}$ ：

$(ξ^{U^{*}}, ξ^{Π^{*}}) = \underset{ξ^{U}, ξ^{Π}}{\arg \min} J (ξ^{U}, ξ^{Π}) .$ (4)

与 [6] [14] 中的基于传输反馈的控制方法不同，我们将在时间t传输 $W_{t - 1}$ 而不是 $X_{t}$ 。容易发现 $W_{t - 1}$ 可以很容易地从 $X_{t}$ 、 $X_{t - 1}$ 和 $U_{t - 1}$ 的值计算得出。

现在让我们定义 ${\hat{X}}_{t} = E [X_{t} | F_{t - 1}^{c}]$ ，称为 $X_{t}$ 的预测； ${\tilde{X}}_{t} = E [X_{t} | F_{t}^{c}]$ ，称为 $X_{t}$ 的更新。因此，我们记 ${\hat{ω}}_{t} (π_{t + 1}) = E [W_{t} | F_{t + 1}^{c}]$ 。

利用(1)，并且 $U_{t}$ 是 $F_{t}^{c}$ 可测的，所以可以得到

${\hat{X}}_{t + 1} = A {\tilde{X}}_{t} + B U_{t}$ (5)

${\tilde{X}}_{t} = E [X_{t} | F_{t}^{c}] = E [A X_{t - 1} + B U_{t - 1} + W_{t - 1} | F_{t}^{c}] = A {\tilde{X}}_{t - 1} + B U_{t - 1} + {\hat{ω}}_{t - 1} (π_{t}) = {\hat{X}}_{t} + {\hat{ω}}_{t - 1} (π_{t}) .$ (6)

让我们定义误差 $Δ_{t} = X_{t} - {\tilde{X}}_{t}$ ，则有

$Δ_{t + 1} = A Δ_{t} + W_{t} - {\hat{ω}}_{t} = \cdot \cdot \cdot = A^{t + 1} Δ_{0} + \sum_{k = 0}^{t} A^{t - k} (W_{k} - {\hat{ω}}_{k})$ (7)

其中 $Δ_{0} = W_{- 1} - {\hat{ω}}_{- 1} (π_{0})$ 。状态估计误差 $Δ_{t}$ 通过变量 ${{\hat{ω}}_{- 1}, \dots, {\hat{ω}}_{t - 1}}$ 依赖于序列 ${π_{0}, \dots, π_{t}}$ 。它不依赖于控制策略 $ξ^{U}$ 。

然而，在传输过程中发生数据包丢失时，控制器无法接收到 ${\hat{ω}}_{t}$ ，我们有以下函数：

${\tilde{X}}_{t} = {\begin{array}{l} g ({\tilde{X}}_{t - 1}), & γ (t) = 0 \\ {\tilde{X}}_{t}, & γ (t) = 1 \end{array}$

其中 $g (X) ≜ A X + B U$ 。显然， ${\tilde{X}}_{t}$ 的值包含在一个可数无限集合中： ${{\tilde{X}}_{t}, g ({\tilde{X}}_{t - 1}), g^{2} ({\tilde{X}}_{t - 2}), \dots}$ 。我们可以采用随机变量 $τ_{t}$ 来表示从上次成功传输到时间t的持续时间，即

$τ_{t} = t - \max {t^{*} : γ (t^{*}) = 1, 0 \leq t^{*} \leq t},$ (8)

我们有 ${\tilde{X}}_{t} = g^{τ_{t}} ({\tilde{X}}_{t - τ_{t}})$ 。

上述分析暗示了控制器和发送器选择之间的分离结构。接下来，我们将正式展示出这个问题的分离原理的出现。与成本函数(3)相关联，让我们定义值函数：

$V_{k} (F_{k}^{c}, F_{k}^{e}) = \min_{ξ_{t}^{u}, ξ_{t}^{π}} E [\sum_{t = k}^{T - 1} (X_{t}^{⊤} Q_{1} X_{t} + U_{t}^{⊤} R U_{t} + π_{t}^{⊤} \land) + X_{T}^{⊤} Q_{2} X_{T} | U_{t} = ξ_{t}^{u}, π_{t} = ξ_{t}^{π}, t = k, \dots, T - 1] .$ (9)

通过使用动态规划原理，表达式(9)可以重写为：

$V_{k} (F_{k}^{c}, F_{k}^{e}) = \min_{ξ_{k}^{u}, ξ_{k}^{π}} E [\sum_{t = k}^{T - 1} (X_{k}^{⊤} Q_{1} X_{k} + U_{k}^{⊤} R U_{k} + π_{k}^{⊤} \land) + V_{k + 1} (F_{k + 1}^{c}, F_{k + 1}^{e}) | U_{k} = ξ_{k}^{u}, π_{k} = ξ_{k}^{π}] .$ (10)

如果 $ξ_{k}^{u^{*}}$ 和 $ξ_{k}^{π^{*}}$ 最小化(10)的右侧，那么可得 $U_{k}^{*} = ξ_{k}^{u^{*}} (F_{k}^{c})$ 、 $π_{k}^{*} = ξ_{k}^{π^{*}} (F_{k}^{e})$ 。从(9)中，我们也得到：

$\min_{ξ^{U}, ξ^{Π}} J (ξ^{U}, ξ^{Π}) = E [V_{0} (F_{0}^{c}, F_{0}^{e})]$ (11)

在(11)中的期望是针对随机变量 $F_{0}^{c}$ 和 $F_{0}^{e}$ 进行的。为了保持后续分析中符号的简洁性，我们将 $V_{k} (F_{k}^{c}, F_{k}^{e})$ 写为：

$V_{k} (F_{k}^{c}, F_{k}^{e}) = \min_{ξ_{k}^{u}, ξ_{k}^{π}} E_{F_{k}} [(X_{k}^{⊤} Q_{1} g^{τ_{k}} X_{k} + U_{k}^{⊤} R U_{k} + π_{k}^{⊤} \land) + V_{k + 1} (F_{k + 1}^{c}, F_{k + 1}^{e})]$

在这种情况下， $E_{F_{k}} [\cdot]$ 表示给定组合信息集 $F_{k} = {F_{k}^{c}, F_{k}^{e}}$ 的条件期望。请注意，信息集 $F_{k}^{e}$ 包含状态 $X_{k}$ 的实现 $x_{k}$ 。以下定理表征了所有 $k = 0, 1, \dots, T - 1$ 的最优策略 $ξ_{k}^{u^{*}}$ 。

定理1：在时间k给控制器的信息为 $F_{k}^{c}$ 的条件下，能最小化(10)右侧的最优控制策略为 $ξ_{k}^{u^{*}} : F_{k}^{c} \to ℝ^{m}$ ，其具有以下结构：

$U_{k}^{*} = ξ_{k}^{u^{*}} (F_{k}^{c}) = - G_{k} g^{τ_{k}} (E [X_{k - τ_{k}} | F_{k}^{c}]) .$ (12)

更具体的表达形式如下：

$U_{k}^{*} = - [{(I - A)}^{- 1} (I - A^{τ_{k}}) B + G_{k}^{- 1}] A^{τ_{k}} E [X_{k} | F_{k}^{c}]$ (13)

对于所有的 $k = 0, 1, \dots, T - 1$ ，

$\begin{array}{l} G_{k} = {(R + B^{⊤} P_{k + 1} B)}^{- 1} B^{⊤} P_{k + 1} A, \\ P_{k} = Q_{1} + A^{⊤} P_{k + 1} A - G_{k}^{⊤} (R + B^{⊤} P_{k + 1} B) G_{k + 1}, \\ P_{T} = Q_{2} . \end{array}$ (14)

证明：为了简洁起见，我们将使用 $g^{τ_{k}}$ 来代替 $g^{τ_{k}} (x_{k - τ_{k}})$ ，并且使用 $g_{Δ}^{τ_{k}}$ 来代替 $g^{τ_{k}} (Δ_{k - τ_{k}})$ 。该定理的证明基于动态规划原理。思路是验证与最优控制问题相关的值函数是

$V_{k} (F_{k}^{c}, F_{k}^{e}) = g^{τ_{k}}^{⊤} P_{k} g^{τ_{k}} + C_{k} + o_{k}$ (15)

其中， $x_{k}$ 是状态 $X_{k}$ 的实现， $P_{k}$ 如(14)所示，对于所有的 $k = 0, 1, \dots, T - 1$ ，

$C_{k} = \min_{{ξ_{t}^{π}}_{t = k}^{T - 1}} E_{F_{k}^{e}} [\sum_{t = k}^{T - 1} g_{Δ}^{τ_{t}}^{⊤} H_{t} g_{Δ}^{τ_{t}} + π_{t}^{⊤} \land] .$ (16)

矩阵 $H_{k} \in ℝ^{n \times m}$ 和标量 $o_{k}$ 由以下给出：

$\begin{array}{l} H_{k} = G_{k}^{⊤} (R + B^{⊤} P_{k + 1} B) G_{k}, \\ o_{k} = o_{k + 1} + t r (P_{k + 1} W), \\ o_{T} = 0. \end{array}$ (17)

可以验证， $V_{T - 1} (F_{T - 1}^{c}, F_{T - 1}^{e})$ 确实具有形式(15)。为了验证(15)在时间k也成立，我们使用反向归纳，并假设(15)对某个时间 $k + 1$ 成立。为此我们得到：

$V_{k} (F_{k}^{c}, F_{k}^{e}) = \min_{ξ_{k}^{u}, ξ_{k}^{π}} E_{F_{k}} [(g^{τ_{k}}^{⊤} Q_{1} g^{τ_{k}} + U_{k}^{⊤} R U_{k} + π_{k}^{⊤} \land) + g^{τ_{k + 1}}^{⊤} P_{k + 1} g^{τ_{k + 1}} + C_{k + 1} + o_{k + 1}] .$

利用方程(1)和(14)，我们可以得到：

$V_{k} (F_{k}^{c}, F_{k}^{e}) = \min_{ξ_{k}^{u}, ξ_{k}^{π}} E_{F_{k}} [{‖ U_{k} + G_{k} g^{τ_{k}} ‖}_{(R + B^{⊤} P_{k + 1} B)}^{2} + g^{τ_{k}}^{⊤} P_{k} g^{τ_{k}} + π_{k}^{⊤} \land) + t r (P_{k + 1} W) + C_{k + 1} + o_{k + 1}] .$ (18)

最小化(18)的最优控制 $U_{k}^{*}$ 是：

$U_{k}^{*} = ξ_{k}^{u^{*}} (F_{k}^{c}) = - G_{k} g^{τ_{k}} (E [X_{k - τ_{k}} | F_{k}^{c}]) .$ (19)

在(18)中代入来自(19)的最优控制后，我们可以得到：

$\begin{array}{l} V_{k} (F_{k}^{c}, F_{k}^{e}) \\ = \min_{ξ_{k}^{π}} E_{F_{k}^{e}} [g_{Δ}^{τ_{k}}^{⊤} (G_{k}^{⊤} (R + B^{⊤} P_{k + 1} B) G_{k}) g_{Δ}^{τ_{k}} + π_{k}^{⊤} \land + C_{k + 1}] + g^{τ_{k}}^{⊤} P_{k} g^{τ_{k}} + t r (P_{k + 1} W) + o_{k + 1} \\ = \min_{ξ_{k}^{π}} E_{F_{k}^{e}} [g_{Δ}^{τ_{k}}^{⊤} H_{k} g_{Δ}^{τ_{k}} + π_{k}^{⊤} \land + C_{k + 1}] + g^{τ_{k}}^{⊤} P_{k} g^{τ_{k}} + o_{k} \\ = g^{τ_{k}}^{⊤} P_{k} g^{τ_{k}} + C_{k} + o_{k} . \end{array}$

因此，值函数确实具有形式(15)，而时间 $k = 0, 1, \dots, T - 1$ 处的最优控制由(19)给出。

[注] 1：分离控制问题的最优反馈控制器由 [5] 中的定理1给出，它表明如果策略满足 [5] 中方程(4)的结构，则存在一个分离原理。在本文中，方程(14)与 [5] 中方程(4)的结构完全相同，这表明我们提出的最优控制策略满足分离原理。

最优控制在 ${\tilde{X}}_{k}$ 中是线性的，最优增益是 $- G_{k}$ ，可以在不知道 $ξ^{Π^{*}}$ 的情况下离线计算。与 [13] 不同，本文考虑了延迟： $τ_{t} = t - \max {t^{*} : γ (t^{*}) = 1, 0 \leq t^{*} \leq t}$ 。在延迟存在的情况下，控制器可用的信息将受到影响，因为某些测量到达将被延迟，从而状态估计将受到影响。定理1考虑了延迟，并为这种情况提供了最优控制器结构： $U_{k}^{*} = - [{(I - A)}^{- 1} (I - A^{τ_{k}}) B + G_{k}^{- 1}] A^{τ_{k}} E [X_{k} | F_{k}^{c}]$ 。

3.2. 最佳能量选择和MDP

上述解决过程让人联想到马尔可夫决策过程(MDP)。接下来，我们将构建一个新的状态空间 $S$ 和一个新的动作空间 $A$ ，以创建一个标准的MDP问题。在每个时间t，MDP的状态被表示为 $s_{t} = (τ_{t - 1}, b_{t})$ ，其取值范围是状态集合 $S = ℤ_{+} \times [0, C]$ 。将 $A = {0, p_{t} (1), \dots, p_{t} (M)}$ 表示为传输能量动作集，将 $A (s)$ 表示为状态 $s \in S$ 的可接受动作集。

定义 $Z_{t} ≜ X_{t} X_{t}^{⊤}$ ，如果发生数据包丢失，则 ${\tilde{Z}}_{t} = \tilde{X_{t}} {\tilde{X_{t}}}^{⊤}$ 、 $Z_{t} = A {\tilde{Z}}_{t} A^{⊤} + W$ 。因此，一个阶段的奖励是：

$r (s_{t}, p_{t}) = Tr [f^{τ_{t - 1}} (Z_{t - 1 - τ_{t - 1}})]$ (20)

其中 $f (Z_{t}) ≜ A Z_{t} A^{⊤} + W$ ，而(20)与传输能量动作 $p_{t}$ 无关。对于当前状态 $s_{t}$ ，选择器在时间t选择动作 $p_{t} = p_{s_{t}} (i) \leq b_{t}$ ，并获得奖励 $r (s_{t}, p_{t})$ ，然后进入时间 $t + 1$ 。根据(2)，如果时间t的状态之一是 $τ_{t - 1}$ ，那么时间 $t + 1$ 的状态 $τ_{t}$ 的值只能在两个值之间选择：以概率 $1 - γ_{t}$ 选择0；以概率 $γ_{t}$ 选择 $τ_{t - 1} + 1$ 。因此，MDP的状态转移概率可以写成：

$t (s_{t + 1} | s_{t}, p_{t}) = t (τ_{t} | s_{t}, p_{t}) \times t (b_{t + 1} | s_{t}, p_{t}),$ (21)

其中 $t (τ_{t} | s_{t}, p_{t})$ 和 $t (b_{t + 1} | s_{t}, p_{t})$ 的定义与 [10] 中相同。

利用马尔可夫决策，前面的成本函数可以重写为：

$J (U, Π) = J (s, ξ^{π}) = E [\sum_{t = 0}^{T} r (s_{t}, p_{t})]$ (22)

其最优值为 $J (s, ξ^{π^{*}}) = \inf_{ξ^{π} \in Π} J (s, ξ^{π})$ 。

寻找最优策略 $ξ^{Π^{*}}$ 的问题可以通过一个MDP来解决。将使用策略 $ξ^{π} \in Π$ 的每个状态在状态空间 $S$ 中的期望成本表示为一个函数 $V_{ξ^{π}} : S \to ℝ$ 。因此，最优值可以通过贝尔曼方程( [15] , Sec. 8.4.1)解决，如下所示：

$J (s, ξ^{π^{*}}) + V_{ξ^{π}} (s, ξ^{π}) = \min_{p_{t} \in A} {r (s, p_{t}) + \sum_{s^{'} \in S} t (s^{'} | s, p_{t}) V_{π} (s^{'})} .$ (23)

因此，最优选择策略 $ξ^{π^{*}}$ 可以通过以下方式获得：

$ξ^{π^{*}} = \arg \min_{p_{t} \in A (s)} {r (s, p_{t}) + \sum_{s^{'} \in S} t (s^{'} | s, p_{t}) J_{π} (s^{'})},$

接下来，我们将证明这个策略的存在。

定理2：存在最优确定性稳态策略 $ξ^{π^{*}} \in Π$ ，满足：

$J (s, ξ^{π^{*}}) \leq J (s, ξ^{π}), \forall s \in S, \forall ξ^{π} \in Π,$ (24)

通过解决最优贝尔曼方程(23)，我们可以获得最优策略 $ξ^{π^{*}}$ 。

证明：让我们考虑相同的策略 $ξ^{π}$ ，让 $υ$ 是一个正常数，使得 $Z \leq υ I$ 和 $W \leq υ I$ 。定义一个函数 $φ (X) = A X A^{⊤} + υ I$ 。因此， $f^{τ_{t}} (Z_{t - τ_{t}}) \leq φ^{τ_{t}} (υ I) \leq υ \sum_{i = 0}^{τ_{t}} A^{i} {(A^{⊤})}^{i}$ ，由此得到 $Tr (f^{τ_{t}} (Z_{t - τ_{t}})) \leq υ \sum_{i = 0}^{τ_{t}} {(ρ (A))}^{2 i}$ ，其中 $ρ$ 表示矩阵的谱半径。此外，让我们定义：

$M (s) = M (τ_{t - 1}, b_{t}) = η \sum_{i = 0}^{τ_{t - 1}} {(ρ (A))}^{2 i},$

其中 $η = υ / (1 - γ_{\max} ρ^{2} (A)) > 0$ ，并且 $γ_{\max} = \max_{k \in ℤ} {γ_{t}}$ 。存在非负整数 $N_{1}$ 和 $N_{2}$ ，使得 $ρ {(A)}^{2 (N_{1} + 1)} \geq 1 / (γ_{\max} - γ_{N_{1}})$ 且 $N_{2} \geq p_{t}$ 。

对于 $τ_{t - 1} > N_{1}, b_{t} > N_{2}$ ，动作是 $0 < p_{t} \leq b_{t}$ ，那么可得：

$\begin{array}{l} \sum_{j \in S} t (j | s, π (s)) M (j) - M (s) + r (s, π (s)) \\ \leq η + (γ_{t} η ρ^{2} (A) - η) \sum_{i = 0}^{τ_{t - 1}} {(ρ (A))}^{2 i} + υ \sum_{i = 0}^{τ_{t - 1}} {(ρ (A))}^{2 i} \\ = η + (γ_{t} η ρ^{2} (A) - η + υ) \sum_{i = 0}^{τ_{t - 1}} {(ρ (A))}^{2 i} . \end{array}$

由于 $η = υ / (1 - γ_{\max} ρ^{2} (A))$ ，我们有 $γ_{t} η ρ^{2} (A) - η + υ \leq 0$ 。从 $ρ {(A)}^{2 (N_{1} + 1)} \geq 1 / (γ_{\max} - γ_{N_{1}})$ ，可得 $η + (γ_{N_{1}} η ρ^{2} (A) - η + υ) {(ρ (A))}^{2 N_{1}} \leq 0$ 。因此，根据 [16] 中的Assumptions和Theorem，上述定理成立。

4. 总结

在这项工作中，我们考虑了一个经典的基于能量传输成本的LQG问题，在该模型中需要选择一个最优的能量传输选择器，以最小化传输和控制性能的综合成本。通过求解与LQG问题相关的经典黎卡蒂方程，我们计算了最优控制增益，并证明了最优控制器具有分离原理。通过建立一个马尔科夫决策过程，我们也证明了通过求解一个贝尔曼方程可以得到最优选择器。在今后的研究中，我们将考虑从能量选择器到无线的数据包丢失现象，这在实际问题中也具有重要意义。

参考文献

[1]	Cao, X.H., Zhou, X.W., Liu, L. and Cheng, Y. (2015) Energy-Efficient Spectrum Sensing for Cognitive Radio Enabled Remote State Estimation over Wireless Channels. IEEE Transactions on Wireless Communications, 14, 2058-2071. [Google Scholar] [CrossRef]
[2]	Peng, L.H., Cao, X.H., Sun, C.Y., Cheng, Y. and Jin, S. (2018) Energy Efficient Jamming Attack Schedule against Remote State Estimation in Wireless Cyber-Physical Systems. Neurocomputing, 272, 571-583. [Google Scholar] [CrossRef]
[3]	Luo, W.C., Lu, P.L., Du, C.K. and Liu, H.K. (2022) Cooperative Output Tracking Control of Heterogeneous Multi-Agent Systems with Random Communication Constraints: An Observer-Based Predictive Control Approach. IEEE Transactions on Circuits and Systems II: Express Briefs, 69, 1139-1143. [Google Scholar] [CrossRef]
[4]	Kostina, V. and Hassibi, B. (2019) Rate-Cost Tradeoffs in Control. IEEE Transactions on Automatic Control, 64, 4525-4540. [Google Scholar] [CrossRef]
[5]	Borkar, V.S. and Mitter, S.K. (1997) LQG Control with Communication Constraints. In: Communications, Computation, Control, and Signal Processing (pp. 365-373), Springer, Berlin. [Google Scholar] [CrossRef]
[6]	Liu, K., Skelton, R.E. and Grigoriadis, K. (1992) Optimal Controllers for Finite Wordlength Implementation. IEEE Transactions on Automatic Control, 37, 1294-1304. [Google Scholar] [CrossRef]
[7]	Weddell, A.S., Merreett, G.V., Kazmierski, T.J. and AI-Hashimi, B.M. (2011) Accurate Supercapacitor Modeling for Energy Harvesting Wireless Sensor Nodes. IEEE Transactions on Circuits and Systems II: Express Briefs, 58, 911-915. [Google Scholar] [CrossRef]
[8]	Kang, T., Kim, S., Hyong, C., Kang, S. and Park, K. (2015) An Energy Combiner for a Multi-Input Energy-Harvesting System. IEEE Transactions on Circuits and Systems II: Express Briefs s, 62, 911-915. [Google Scholar] [CrossRef]
[9]	Li, Y.Z., Zhang, F., Quevedo, D.E., Lau, V., Dey, S. and Shi, L. (2017) Power Control of an Energy Harvesting Sensor for Remote State Estimation IEEE Transactions on Automatic Control, 62, 277-290. [Google Scholar] [CrossRef]
[10]	Peng, L.H., Cao, X.H. and Sun, C.Y. (2021) Optimal Transmit Power Allocation for an Energy-Harvesting Sensor in Wireless Cyber-Physical Systems. IEEE Transactions on Cybernetics, 51, 779-788. [Google Scholar] [CrossRef]
[11]	Zhang, R. and Ho, C.K. (2013) MIMO Broadcasting for Simultaneous Wireless Information and Power Transfer. IEEE Transactions on Wireless Communications, 12, 1989-2001. [Google Scholar] [CrossRef]
[12]	Song, X., Xu, S.Y., Xie, Z.G. and Han, X.W. (2019) Joint Optimal Power Allocation and Relay Selection Scheme in Energy Harvesting Two-Way Relaying Network. Future Internet, 11, 47. [Google Scholar] [CrossRef]
[13]	Maity, D. and Tsiotras, P. (2022) Optimal Controller Synthesis and Dynamic Quantizer Switching for Linear-Quadratic-Gaussian Systems. IEEE Transactions on Automatic Control, 67, 382-389. [Google Scholar] [CrossRef]
[14]	Williamson, E. and Kadiman, K. (1989) Optimal Finite Wordlength Linear Quadratic Regulation. IEEE Transactions on Automatic Control, 34, 1218-1228. [Google Scholar] [CrossRef]
[15]	Puterman, M.L. (2005) Markov Decision Processes: Discrete Stochastic Dynamic Programming. Wiley, New York.
[16]	Sennott, L.I. (1989) Average Cost Optimal Stationary Policies in Infinite State Markov Decision Processes with Unbounded Costs. Operations Research, 37, 626-633. [Google Scholar] [CrossRef]

为你推荐

友情链接