基于ARQ反馈的无人机通信中继自主选择研究

doi:10.12677/HJWC.2020.106010

期刊菜单

基于ARQ反馈的无人机通信中继自主选择研究
Research on Autonomous Relay Selection in Unmanned Aerial Vehicle Communication Based on ARQ Feedback

DOI: 10.12677/HJWC.2020.106010, PDF, HTML, XML, 国家自然科学基金支持
作者: 文非凡：中国人民解放军75842部队，广东韶关；国防科技大学信息通信学院，湖北武汉；王文新, 徐坤, 魏镇韩：国防科技大学信息通信学院，湖北武汉；梁涛：中国人民解放军31121部队，上海
关键词: 无人机；中继选择；ARQ反馈；多臂老虎机；UAV； Relay Selection； ARQ Feedback； Multi-Armed Bandit

摘要: 无人机通信是实现无人机功能的关键环节，且往往以中继通信方式存在。中继选择是提升中继通信效能的一种重要方法。本文研究无人机中继通信在无信息情况下通过自主学习进行中继选择的问题，提出基于自动重传请求(ARQ)反馈的1 bit成功与否信息构建效用函数(即信息成功传输概率)，并利用多臂老虎机(MAB)中的汤普森采样算法进行中继选择。实验表明，基于ARQ反馈的1 bit信息进行选择，无论信道差异大小，都能以较大的概率最终收敛到最优中继，并且信道差异大时，收敛速度更快更稳定，收敛到最优中继的概率更大。

Abstract: UAV communication is the key link to realize the function of UAV, and it often exists in the way of relay communication. Relay selection is an important method to improve the efficiency of relay communication. This paper studies the problem of relay selection for UAV relay communication through autonomous learning in the absence of information, and proposes a utility function (that is, the probability of successful information transmission) based on the 1-bit success information feedback from the automatic repeat request (ARQ). And use the Thompson sampling algorithm in the multi-armed slot machine (MAB) for relay selection. Experiments show that the selection based on the 1-bit information of ARQ feedback can converge to the optimal relay with greater probability regardless of the channel difference, and when the channel difference is large, the convergence speed is faster and more stable, and the probability of convergence to the optimal relay is greater.

文章引用：文非凡, 王文新, 梁涛, 徐坤, 魏镇韩. 基于ARQ反馈的无人机通信中继自主选择研究[J]. 无线通信, 2020, 10(6): 71-78. https://doi.org/10.12677/HJWC.2020.106010

1. 引言

随着低成本小型化无人机技术的不断发展，得益于其机动灵活和按需即时部署等优点，无人机将在军民领域发挥越来越重要的作用 [1] [2]。建立和维持无人机间的无线通信链路是实现无人机应用的关键环节。无人机通信往往以中继通信的方式存在 [3]，而中继选择是实现无人机中继通信效能提升的关键技术 [4]。

由于无人机大规模等特点导致其决策交互信息过多等问题 [5]，与传统无线中继通信相比，无人机通信往往难以获得中继选择决策所需要的信息。本文研究无人机中继通信在无信息条件下，通过自主学习获取中继选择所需信息，从而进行中继选择。

在传统基于自主学习进行中继选择的研究中，存在多种多样的效能函数设计方法进行中继选择，实现不同的性能函数优化 [6] - [14]。这些方法在各自的应用场景和模型中都能完成最优中继选择。然而，现有研究中效用函数采用的具体性能指标各异，如容量、误码性能、延时、用户满意度等，且效用函数多是连续值。不同研究采用不同的效用函数形式，难以形成统一机制和在不同通信系统中相互兼容。本文提出利用自动重传请求(Automatic Repeat reQuest, ARQ)的1bit成功与否反馈信息设计效用函数(即信息成功传输概率)进行中继选择，以期实现统一的效用函数设计和在不同系统中的兼容。

ARQ是通信系统链路层的基本功能、基础协议，广泛存在于移动通信、无线局域网和短波通信等无线通信领域 [15]。ARQ通过重传保证通信质量，利用1比特信息(0和1)指示传输成功与否，具有协议基础广泛和反馈信息少等优点。通过ARQ信息，可间接获得系统的信道质量、误码和容量等信息。本文提出通过ARQ获得信息传输成功概率，并将其作为效用函数，利用多臂老虎机(Multi-Armed Bandit, MAB) [16] 进行中继选择。在给定无人机中继通信两跳信道条件下，基于ARQ反馈设计效用函数进行中继选择的实验表明：无论是在信道差异大还是信道差异小，使用汤普森采样算法均有较大的概率能够选择到最优中继；信道差异大时，选择到最优中继的收敛速度更快，收敛更稳定且收敛到最优中继的概率更大。

2. 基于自主学习的无人机中继选择模型

2.1. 无人机中继通信模型

无人机通常以集群的方式执行通信任务。在充当中继时，发送方先在无人机集群中选择一个无人机作为中继发送信息，无人机接收到信息后将信息放大并转发至接收方。本文研究的是收发双方及收发双方和中继无人机均处于相对固定位置且信道质量不发生变化的情况下的中继选择。图1为无人机群进行中继通信选择的模型。

Figure 1. Model of relay selection for UAV communication

图1. 无人机通信中继选择模型

2.2. 基于ARQ反馈信息进行中继选择方法

在上图所示通信过程中，发射方向无人机发送信息，无人机接收发送方信息并作为中继转发至接收方。接收方如译码成功，它反馈一个成功指示信息(本文中设定反馈为1)，表示此次信息发送成功，反馈信息通过无人机中继传输后到达发送方。发送方收到反馈信息1后，将继续发送新的信息。如果接收方译码失败，它发送消极的反馈(本文中设定反馈为0)，则表示接收信息发生错误，发送方将重传发送的信息。

在上述过程中不同的无人机作为中继传输信息会产生不同的传输效果。因此，发送方可以根据收到的反馈信息确定哪个无人机具有最好的通信效果。上述模型中，假设反馈信息(1或0)可以通过专用控制信道无差错传输，且不同无人机之间反馈的信息互相不干扰。本文基于ARQ的反馈信息，设计无人机中继通信效用函数，来反映无人机作为中继时转发信息的成功概率，并采取MAB中的汤普森采样算法进行中继选择。这种算法是在无外界信息情况下，通过自主学习获得中继选择所需信息，然后进行中继选择，即通过自主学习获得不同无人机转发信息成功概率，并以此作为效用函数进行中继选择。一些事先并不知道成功概率的问题，通过做若干次试验以及统计成功的次数，可以很直观地计算出成功概率，但是由于成功概率是未知的，计算出来的概率只能是成功概率的最优估计。因此，不能确定概率的具体数值，但是它也是一个随机变量，符合beta分布。这样其先验分布是Beta分布，且每个选择的收益的分布是Bernoulli分布，在这种情况下的后验分布仍然是Beta分布。

汤普森采样算法要先记录每个选择成功和失败的次数 $α$ 和 $β$ ，生成每个选择的beta分布，用每个选择现有的beta分布产生一个随机数，比较选择所有臂产生的随机数中最大的那个选择。假定进行1000次中继选择，选择的过程如图2。

Figure 2. Relay selection flow chart using Thompson sampling algorithm

图2. 汤普森采样算法中继选择流程图

2.3. 最优中继选择理论分析

考虑自由空间的传播损耗，当天线具有单位增益时，其路径损耗为： $P L (db) = - 10 \lg [\frac{λ^{2}}{{(4 π)}^{2} d^{2}}]$ ，则可得到自由空间传播损耗因子为： $α = \frac{λ}{4 π d}$ 。令发送端与无人机中继间的自由空间传播损耗为 $α_{1}$ ，无人机中继与接收端间的自由空间传播损耗为 $α_{2}$ 。首先由发射端发送信号给无人机中继，则可得到无人机中继接收的信号为：

$y_{W} = α_{1} \sqrt{P_{F}} h_{1} x_{F} + n_{1}$ (1)

其中 $P_{F}$ 表示发射端信号发射功率， $h_{1}$ 表示发射端与中继无人机之间的信道系数， $X_{F}$ 表示发射端发射的信号， $n_{1}$ 表示中继无人机接收到的噪音信号。

然后由无人机中继将接收到的信号放大并转发给接收节点，接收端接收到的信号为：

$y_{J} = α_{2} h_{2} B y_{W} + n_{2} = α_{2} h_{2} B α_{1} \sqrt{P_{F}} h_{1} x_{F} + α_{2} h_{2} B n_{1} + n_{2}$ (2)

其中B是中继的放大因子， $B = \sqrt{\frac{P_{W}}{α_{1}^{2} P_{F} {| h_{1} |}^{2} + N_{1}}}$ ， $h_{2}$ 表示中继无人机和接收端之间的信道系数， $n_{2}$ 表示接收端接收到的噪音信号， $N_{1}$ 表示中继无人机接收到噪音功率， $P_{W}$ 表示中继无人机的发送功率。

计算接收节点接收的信号功率为：

$S_{J} = α_{2}^{2} {| h_{2} |}^{2} B^{2} α_{1}^{2} P_{F} {| h_{1} |}^{2} ，$

接收节点接收的信号的噪声功率为：

$N_{J} = α_{2}^{2} {| h_{2} |}^{2} B^{2} N_{1} + N_{2} ，$

其中 $N_{2}$ 表示接收节点接收到的噪音功率。

接收节点接收信号的信噪比为：

$S N R = \frac{S_{J}}{N_{J}} = \frac{α_{2}^{2} {| h_{2} |}^{2} B^{2} α_{1}^{2} P_{F} {| h_{1} |}^{2}}{α_{2}^{2} {| h_{2} |}^{2} B^{2} N_{1} + N_{2}}$ (3)

理论上的中继选择的成功概率 $P_{c}$ ：

$P_{c} = P (S N R \geq S N R_{m}) = p (\frac{α_{2}^{2} {| h_{2} |}^{2} B^{2} α_{1}^{2} P_{F} {| h_{1} |}^{2}}{α_{2}^{2} {| h_{2} |}^{2} B^{2} N_{1} + N_{2}} \geq S N R_{m})$ (4)

$P_{c} = P (α_{2}^{2} {| h_{2} |}^{2} B^{2} α_{1}^{2} P_{F} {| h_{1} |}^{2} \geq S N R_{m} α_{2}^{2} {| h_{2} |}^{2} B^{2} N_{1} + S N R_{m} N_{2}) ，$

$P_{c} = P (α_{2}^{2} {| h_{2} |}^{2} P_{W} (α_{1}^{2} P_{F} {| h_{1} |}^{2} - S N R_{m} N_{1}) \geq S N R_{m} N_{2} (α_{1}^{2} P_{F} h_{1}^{2} + N_{1}))$

由于 $| h_{1} |$ 和 $| h_{2} |$ 符合瑞利分布，所以 $| h_{1} |$ 和 $| h_{2} |$ 的概率密度函数分别为：

$f_{1} (| h_{1} |) = \frac{| h_{1} |}{σ_{1}^{2}} e^{- \frac{{| h_{1} |}^{2}}{2 σ_{1}^{2}}}$ ； $f_{2} (| h_{2} |) = \frac{| h_{2} |}{σ_{2}^{2}} e^{- \frac{{| h_{2} |}^{2}}{2 σ_{2}^{2}}}$ 。又 $| h_{1} |$ 和 $| h_{2} |$ 相互独立，则可得 $| h_{1} |$ 和 $| h_{2} |$ 的联合概率密度函数为：

$f (| h_{1} |, | h_{2} |) = f_{1} (| h_{1} |) f_{2} (| h_{2} |) = \frac{| h_{1} | | h_{2} |}{σ_{1}^{2} σ_{2}^{2}} e^{- \frac{{| h_{1} |}^{2}}{2 σ_{1}^{2}} - \frac{{| h_{2} |}^{2}}{2 σ_{2}^{2}}}$ (5)

要求成功概率 $P_{c}$ ，可将上式化为一个关于 $| h_{1} |$ 和 $| h_{2} |$ 的双重积分。分两步积分，当 $0 < | h_{1} | \leq \sqrt{\frac{S N R_{m} N_{1}}{α_{1}^{2} P_{F}}}$ 时和 $| h_{1} | > \sqrt{\frac{S N R_{m} N_{1}}{α_{1}^{2} P_{F}}}$ 时，得：

$P_{c} = 1 - \int_{0}^{Q_{1}} (\int_{0}^{+ \infty} f (| h_{1} |, | h_{2} |) d (| h_{2} |)) d (| h_{1} |) - \int_{Q_{1}}^{+ \infty} (\int_{0}^{Q_{2}} f (| h_{1} |, | h_{2} |) d (| h_{2} |)) d (| h_{1} |)$ (6)

其中： $Q_{1} = \sqrt{\frac{S N R_{m} N_{1}}{α_{1}^{2} P_{F}}}$ ， $Q_{2} = \sqrt{\frac{S N R_{m} N_{2} (α_{1}^{2} P_{F} h_{1}^{2} + N_{1})}{P_{W} α_{2}^{2} (α_{1}^{2} P_{F} {| h_{1} |}^{2} - S N R_{m} N_{1})}}$ 。

3. 仿真

为了验证本文算法的性能，使用MATLAB平台，结合两跳链路的中继选择模型分析分别在信道差异大和信道差异小的情况下汤普森采样算法进行中继选择的情况。

仿真的通信场景如图1所示。仿真参数设置如下：无人机中继的个数 $n B = 20$ ，本模型随机设定每个无人机与发送方及接收方的 $| h_{1} |$ 和 $| h_{2} |$ 的瑞利分布的参数， $| h_{1} |$ 和 $| h_{2} |$ 的值将由对应的分布随机产生，具体的瑞利分布参数将按信道差异大和信道差异小两种情况随机产生。设定每个无人机和发送节点及接收节点间的距离 $d_{1}$ 和 $d_{2}$ 的值为4000 m。设定发送端的发送功率 $P_{F} = 10 W$ ，发射波的波长 $λ$ = 1米，无人机的发送功率 $P_{W} = 10 W$ ，无人机中继和接收端接收的噪声功率分别为 $N_{1} = N_{2} = 2 e^{- 11} W$ ，门限信噪比 $S N R_{m} = 30 dB$ 。设定选择的次数 $n P = 1000$ 次。无人机与接收方及发信方的距离均设置为4000 m，两种类型信道设置分别如下。

信道差异大的情况：使 $| h_{1} |$ 和 $| h_{2} |$ 瑞利分布的参数σ₁和σ₂均匀分布在0.3到1的区间内；具体如表1。

信道差异小的情况：使 $| h_{1} |$ 和 $| h_{2} |$ 瑞利分布的参数σ₁和σ₂均匀分布在0.9到1的区间内。具体如表2。

Table 1. Setting of Rayleigh distribution parameters σ1 and σ2 for channel with large channel differences

表1. 信道差异大时信道的瑞利分布的参数σ₁和σ₂的设置

Table 2. Setting of Rayleigh distribution parameters σ1 and σ2 for channel with small channel differences

表2. 信道差异小时信道的瑞利分布的参数σ₁和σ₂的设置

Figure 3. The comparison of success probability between selecting by Thompson sampling algorithm and optimal relay in theory, when channel difference is large

图3. 信道差异大时汤普森采样算法选择成功概率与理论最优中继成功概率比较

Figure 4. The comparison of success probability between selecting by Thompson sampling algorithm and optimal relay in theory, when channel difference is small

图4. 信道差异小时汤普森采样算法选择成功概率与理论最优中继成功概率比较

如图3为在信道差异大的情况下总的成功概率随着选择的变化情况，图4为在信道差异小的情况下的总的成功概率随着选择的变化情况。

从仿真结果可以看出，在信道差异大和信道差异小两种情况下最终都收敛于最优的中继，但明显在信道差异大时收敛速度较快且比较稳定。为了使结果更加可靠，随机设定信道参数并进行1000次实验，每次实验选择1000次直到收敛到最优中继为止，统计1000次实验中收敛到最优中继的次数，并生成柱形图图5。

Figure 5. The probability of convergence to optimal relay in 1000 experiments when channel difference is large and small

图5. 1000次实验中信道差异大和信道差异小两种情况下收敛到最优中继的概率

当信道差异大时，可看到收敛到最优中继的概率达到了95%，当信道差异小时收敛到最优中继的概率也达到了50%。可见汤普森采样算法能够较准确的选择出最优的中继。

4. 结论

本文提出利用ARQ反馈的1bit成功与否信息构建效用函数(即信息传输成功概率)，基于MAB方法进行自主学习获取无人机中继通信中的信息，进行中继选择。所提的基于ARQ反馈进行中继选择方法能以大概率选出最优中继。同时，基于ARQ反馈进行效用函数设计可不改变现有通信协议，容易与现有系统兼容。

基金项目

本文研究受到国家自然科学基金项目(项目编号：61801492)和国防科技大学校内科研计划项目(合同编号：ZK18-03-20)资助。为第一作者文非凡在国防科技大学信息通信学院学习期间，在导师徐坤指导下所完成的本科毕业设计课题。

参考文献

[1]	Bekmezci, Sahingoz, O.K. and Temel, S. (2013) Flying Ad-Hoc Networks (FANETS): A Survey. AdHoc Networks, 11, 1254-1270. [Google Scholar] [CrossRef]
[2]	Zafar, W. and Khan, B.M. (2016) Flying Ad-Hoc Networks: Technological and Social Applications. IEEE Technology and Society Magazine, 35, 67-74. [Google Scholar] [CrossRef]
[3]	Zeng, Y., Zhang, R. and Lim, T.J. (2016) Wireless Communications with Unmanned Aerial Vehicles: Opportunities and Challenges. IEEE Communications Magazine, 54, 36-42. [Google Scholar] [CrossRef]
[4]	徐坤. 无线中继通信中的重传技术及其性能研究[D]: [硕士学位论文]. 南京: 中国人民解放军理工大学, 2013.
[5]	袁全盛, 胡永江, 王长龙. 无人机中继通信的关键技术与发展趋势[J]. 飞航导弹, 2015(10): 26-29.
[6]	Saghezchi, F.B., et al. (2011) A Novel Relay Selection Game in Cooperative Wireless Networks Based on Combinatorial Optimization. Proceedings of IEEE 73rd Vehicular Technology Conference, Budapest, 15-18 May 2011, 1-6. [Google Scholar] [CrossRef]
[7]	Saghezchi, F.B., et al. (2014) Coalitional Relay Selection Game to Extend Battery Lifetime of Multi-Standard Mobile Terminals. Proceedings of IEEE International Conference on Communications (ICC), Sydney, 10-14 June 2014, 508-513. [Google Scholar] [CrossRef]
[8]	Wei, Z., et al. (2014) Relay Selection and Discrete Power Control for Cognitive Relay Networks via Potential Game. IEEE Transactions on Signal Processing, 62, 5411-5424. [Google Scholar] [CrossRef]
[9]	Wang, B., Han, Z. and Liu, K.J.R. (2009) Distributed Relay Selection and Power Control for Multiuser Cooperative Communication Networks Using Stackelberg Game. IEEE Transactions on Mobile Computing, 8, 975-990. [Google Scholar] [CrossRef]
[10]	Sergi, S. and Vietta, G.M. (2010) A Game Theoretical Approach to Distributed Relay Selection in Randomized Cooperation. IEEE Transactions on Wireless Communications, 9, 2611-2621. [Google Scholar] [CrossRef]
[11]	Semasinghe, P., Hossain, E. and Zhu, K. (2014) An Evolutionary Game for Distributed Resource Allocation in Self-Organizing Small Cells. IEEE Transactions on Mobile Computing, 14, 274-287. [Google Scholar] [CrossRef]
[12]	Cai, J., et al. (2008) Semi-Distributed User Relaying Algorithm for Amplify-and-Forward Wireless Relay Networks. IEEE Transactions on Wireless Communications, 7, 1348-1357. [Google Scholar] [CrossRef]
[13]	Chen, Z., Lin, T. and Wu, C. (2016) Decentralized Learning-Based Relay Assignment for Cooperative Communications. IEEE Transactions on Vehicular Technology, 65, 813-826. [Google Scholar] [CrossRef]
[14]	Saha, A., Ghosh, A. and Hamouda, W. (2014) Learning-Based Relay Selection for Cooperative Networks. Proceedings of IEEE Global Communications Conference (GLOBECOM), Austin, 8-12 December 2014, 386-391. [Google Scholar] [CrossRef]
[15]	Lin, S. and Costello, D.J. (2004) Error Control Coding. 2nd Edition, Pearson Prentice Hall, Upper Saddle River.
[16]	王雪松, 朱美强, 程玉虎. 强化学习原理及其运用[M]. 北京: 科学出版社, 2014.

友情链接