桂林电子科技大学仇洪冰团队提出一种基于深度强化学习的可信无人机地理路由协议DTGR
扫描二维码
随时随地手机看文章
基于深度强化学习的无人机可信地理位置路由协议>>
专家意见:该文提出了一种基于深度强化学习的可信无人机地理路由协议DTGR,为无人机自组网提供了高效可靠的网络通信方案。
具体而言,使用新的信任度度量和更新方式,减少通信过程中的检测开销。然后结合下一跳的状态特征构建MDP模型,并根据信任度设计了奖励函数,最后训练深度神经网络学习最优路由决策。DTGR能够在包含异常节点的场景中降低端到端时延、提升包递交率,优化网络性能。
总体而言,论文结构合理,格式规范,阐述清楚,工作具有创新性。
研究背景与动机
随着无人机硬件和通信技术的飞速发展,无人机变得更灵活、健壮和低成本。无人机的应用也变越来越广泛。多无人机通过自组网的方式协同通信可以高效的处理复杂的任务并且具有更高的可扩展性。
路由协议作为无人机通信网络的重要一环,存在高移动性、网络拓扑变化频繁、异常节点的挑战,从而造成的丢包和时延的增加,严重的影响了路由的性能。
传统的和启发式的无人机路由协议无法更好适应复杂的飞行环境和多变的通信任务,因此基于深度强化学习的无人机路由协议成为目前热门的路由研究方向。然而目前基于深度强化学习的无人机路由协议主要致力于根据不同的优化指标学习下一跳,从而来提升网络性能,却没有考虑异常节点对网络性能造成的潜在影响。
为了在非完全可信的网络中感知异常节点,其中有一些主流研究方案采用节点信任度衡量节点的异常程度,然而这些方法在通信过程中检测,引入了额外的检测开销,并且需要在决策前更新节点的信任度,降低了网络性能。
为了解决上述的问题,本文提出了一种基于深度强化学习的无人机可信地理位置路由协议(DTGR)。每个节点通过可信第三方提供、更新节点的信任度,降低了评估开销。结合目标节点的地理位置、邻居拓扑信息作为状态特征,将路由选择过程建模成马尔可夫决策过程,然后使用DRL算法进行更智能决策,从而提升网络性能。
系统模型和提出路由协议
1.信任度模型
在存在异常节点的无人机网络中,可以用节点信任度来反映了节点的服务能力,它是一个标量。它用来评估邻居在通信过程中出现积极或者消极行为的概率,引入可信第三方提供节点的信任度,使用理论与真实的时延偏差d和丢包率h作为信任度的评估因子,因此节点的信任度T定义为
2.该文提出的路由协议
该文提出的基于深度强化学习的可信地理路由协议(DTGR),其主要架构如图1所示
图1 DTGR协议架构
首先无人机网络中每个节点会通过信标周期的广播信标,并维护自己的邻居表。
邻居表包含节点的邻居的编号、信任度、地理位置和两跳邻居拓扑信息。
两跳邻居拓扑信息的目的是让当前转发节点能够评估两跳邻居到终点的可达性,预测下一跳为空洞区域或孤立节点的概率。
同时在数据包转发过程中,记录以下额外信息:源节点,上一跳和终点的编号和位置。并且维护一个已访问的节点集。从而避免环路。
然后借助上述构建的邻居表和数据包记录的额外信息,将路由选择过程(即源节点将数据包通过若干跳传输转发到目的节点的过程)建模为马尔可夫决策过程(MDP),其中MDP包含四元组<S,A,P,R>,其描述如下:
(1) 状态空间S:当节点c需要转发数据包时,它邻居的信息决定了的最优决策,因此节点c的状态空间sc包含c的所有邻居节点的信任度、每个邻居距离终点的距离、上一跳与c以及c与每个邻居的向量余弦近似度、c的两跳邻居离终点最近的距离和两跳邻居的数量。
(2) 动作空间A: 当节点c接收到数据包时,c的通信范围内所有邻居组成了动作空间,其中可选c的一个邻居进行转发,
(3) 转移概率P: 由真实环境决定,在本文中P是随机且未知的。
(4) 奖励函数R: 为了让节点能够感知下一跳的异常程度从而辅助决策,在奖励函数中引入信任度。当节点c选择邻居节点i作为动作时,其奖励值为
最后根据上述构建马尔科夫决策四元组,将状态空间输入到深度Q网络(DQN),然后输出路由决策。其中DQN利用深度神经网络逼近Q值,Q值表示了当前节点选择下一跳节点获得累积奖励期望,然后根据Q值来选择最优的下一跳。在DQN的训练阶段,选择下一跳的策略为
其中,ε为神经网络的权重参数,在选择下一跳的时候以1-ε的概率选择神经网络输出的最大Q值对应的动作,为了避免陷入局部最优,以ε的概率随机的选择下一跳。
在测试阶段,根据已经训练好的网络直接选择下一跳最大的Q值作为下一跳。
仿真结果
图2显示了总节点数为100、异常节点数比例为0.15时不同路由协议学习曲线(GPSR无法训练,故平均端到端时延随训练回合恒定),从图中可以看出所提的协议DTGR在训练了一至两回合后即趋向收敛且时延最低。
图2 不同协议的训练曲线
图3展现了异常节点比例对协议性能的影响。从图3(a)(b)可以看出当异常节点比例升高时,所有协议的时延都在上升、包递交率都在下降。
因为当总节点数量固定时,异常节点数量越多则传输链路包含异常节点的概率增大、转发成功的概率减小、传输时延提升。
另一方面,所提的协议DTGR相比于其他协议拥有最低的时延、最高的包递交率。其原因是DTGR能够感知节点的信任度,利用神经网络评估每个节点潜在的路由能力,进而选择网络性能最优的下一跳。
实验结果说明了所提的协议DTGR在异常节点的密度发生改变时,相较其他协议能进行更优的路由决策,保障网络性能。
图3 异常节点比例对协议性能的影响((a) 不同异常节点比例对应的平均端到端时延; (b) 不同异常节点比例对应的包递交率)
图4展示总节点数量对协议性能的影响,从图4(a)(b)可以看出当节点数量在60及以上时,所提的协议DTGR拥有最优的平均端到端时延和包递交率。这是因为我们的协议能够避免选择信任度较低的节点进行下一跳的转发。
在图4(b)中总节点数量为40时DTGR包递交率略低于GPSR和QNGPSR,这是因为DTGR不具备周边转发模式。
周边转发模式会在节点无可选下一跳时,尝试重传数据包给已转发过的节点,在节点数量稀疏、可达链路很少时此模式能显著增加包递交率。
但重复选择之前的异常节点会引入额外的时延增加通信开销,故DTGR放弃使用周边转发模式。
此外,从图4(a)可以看出DTGR和QNGPSR协议在节点数量为60和80时,平均端到端时延大幅低于GPSR,这是因为通信过程中存在大量空洞区域, DTGR和QNGPSR评估两跳节点的位置优势,减少进入空洞区域的概率,最终降低时延。
图4 总节点数量对协议性能的影响((a) 总节点数量不同时对应的平均端到端时延 (b) 总节点数量不同时对应的包递交率)
总结
所提的协议DTGR能够在高移动性且存在异常节点的网络中根据节点特征选择最优下一跳。DTGR优化了网络的端到端时延和包递交率。此外DTGR能够适应异常节点数量和网络节点密度的改变,自适应做出有效且高效的路由决策,鲁棒性好。DTGR为可信场景下的无人机自组网提供了高效可靠的网络路由方案。
作者介绍
仇洪冰,男,教授,研究方向为移动通信,超宽带无线通信,宽带通信网络,通信信号处理。
张雅楠,女,博士生,研究方向为无人机智能化与网络化,天地一体化网络技术。
作 者 | 张雅楠
美 编 | 刘祎洋、刘艳玲
校 对 | 融媒体工作室
审 核 | 陈 倩