一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备与流程

2021-10-30 02:53:00 来源:中国专利 TAG:波束 分配 通信 方法 资源

技术特征:
1.基于深度强化学习的跳波束资源分配方法,其特征在于,包括以下步骤:基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:函数:函数:函数:函数:其中,p1对应于实时业务,是此种情况下t
j
时刻小区c
n
的卫星缓冲区中数据包数量,是此种情况下t
j
时刻小区c
n
的时隙长度;p2对应于非实时数据业务,是此种情况下t
j
时刻小区c
n
的卫星缓冲区中数据包数量,是此种情况下t
j
时刻小区c
n
的到达率,是t
j
时刻卫星跳波束于小区c
n
的覆盖情况;t=[t,t t
th
]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过t
th
的数据包将被丢弃,p
b
是卫星波束最大功率,是波束发射功率,p
tot
是卫星总功率;将卫星缓存器中数据最大有效时间长度为t
th
划分为等长的m段,对应m个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延l
n
为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数在t时刻前m个时隙到达小区n的非实时数据包个数将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态s,将卫星波束作为智能体agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度q网络进行跳波束资源分配。2.根据权利要求1所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述跳波束卫星通信系统模型如下:跳波束卫星通信系统的跳波束卫星通信场景:卫星提供k个波束共覆盖n个小区c={c
n
|n=1,2,

,n},c
n
即图1中的cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为mbit,服从到达率为的泊松分布,其中是t
j
时刻小区c
n
的到达率;星上存在缓冲区,缓冲区中的数据包为其中
表示t
j
时刻小区c
n
缓冲的数据包数量;对跳波束卫星通信系统每个时隙的波束调度过程进行建模:t
j
时刻卫星缓冲区中数据包数量其中是前一时刻缓冲区暂存数据包数量,是t
j
‑1时刻卫星跳波束覆盖情况,是t
j
‑1时刻新的数据包对应的服从到达率。3.根据权利要求1或2所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述的环境状态s中的t
j
时刻状态矩阵其中和分别为t
j
时刻的wt和dt,dt=[d
1,t
,d
2,t
];];];4.根据权利要求3所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度q网进行跳波束资源分配是的动作集合为其中a
n
=1表示小区n有波束照亮,a
n
=0表示小区n无波束照亮。5.根据权利要求4所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度q网络中的q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。6.根据权利要求5所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度q网络的奖励设置方式如下:对agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,即其中

代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,即r
2t
=x
t
*c
t
。7.根据权利要求6所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度q网络中进行动作选择的过程中引入贪婪算法ε

greedy进行动作选择,即以概率ε通过随机的方式选择动作,以概率1

ε通过输出最大q值方式选择动作。8.基于深度强化学习的跳波束资源分配系统,其特征在于,所述系统用于执行权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。

技术总结
基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备,属于通信技术领域。为了解决现有的跳波束卫星通信系统在资源分配时存在针对服务场景不断变化时缺乏连续性导致不同业务量的时延性能较差的问题,本发明将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立优化函数;将卫星缓存器中数据最大有效时间长度为T


技术研发人员:杨明川 窦映喆 焦利彬 薛冠昌 谢冰玉
受保护的技术使用者:中国电子科技集团公司第五十四研究所
技术研发日:2021.07.30
技术公布日:2021/10/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜