一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多智能体强化学习的分布式动态频谱接入方法与流程

2022-02-20 04:52:22 来源:中国专利 TAG:
基于多智能体强化学习的分布式动态频谱接入方法与流程

本发明涉及无线通信网络技术领域,尤其是一种基于多智能体强化学习的分布式动态频谱接入方法及系统。

背景技术

在认知无线网络中,认知用户采用overlay的方式机会接入授权用户的频谱空洞进行数据传输。分布式的多用户动态频谱接入面临两大挑战:一是避免认知用户对主用户的干扰,也就是当主用户占用授权频谱进行数据传输时,认知用户不能接入对应的频谱;二是避免认知用户之间的接入冲突,也就是避免两个以上认知用户接入同一个频谱空洞,导致数据传输不成功。由于单个认知节点感知能力有限,只能观测到部分信道状态信息。同时,由于隐藏节点、遮蔽物等因素的影响,导致认知用户的感知信息不完全,不准确。



技术实现要素:

本发明提供一种基于多智能体强化学习的分布式动态频谱接入方法及系统,用于克服现有技术中认知用户机会接入授权用户的频谱空洞进行数据传输时会对主用户产生干扰,同时认知用户之间会产生接入冲突导致通信系统吞吐量低等缺陷。

为实现上述目的,本发明提出一种基于多智能体强化学习的分布式动态频谱接入方法,包括以下步骤:

将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;

根据认知用户自身的窄带感知能力,获取局部频谱占用信息;

根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;

实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。

为实现上述目的,本发明还提出一种基于多智能体强化学习的分布式动态频谱接入系统,包括:

算法构建模块,用于将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;

频谱感知模块,用于根据认知用户自身的窄带感知能力,获取局部频谱占用信息;

频谱接入模块,用于根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;

实时监测模块,用于实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。

为实现上述目的,本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

为实现上述目的,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。

与现有技术相比,本发明的有益效果有:

本发明提供的基于多智能体强化学习的分布式动态频谱接入方法将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架,该多智能体强化学习框架包括离线训练模块和在线执行模块,在线执行模块利用学习到的接入策略进行认知用户的频谱接入,而离线训练模块则根据认知用户的频谱接入结果对在线执行模块进行动态的更新。本发明提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法,在避免对授权用户的干扰时,减少认知用户之间的接入冲突,从而最大化认知用户的接入成功率,提高频谱的利用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于多智能体强化学习的分布式动态频谱接入方法示意图;

图2为本发明中集中式训练、分布式执行的多智能体强化学习框架示意图;

图3为本发明实施例中时隙划分示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

无特殊说明,所使用的药品/试剂均为市售。

本发明提出一种基于多智能体强化学习的分布式动态频谱接入方法,如图1所示,包括以下步骤:

101:将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架(如图2所示);该多智能体强化学习框架包括离线训练模块和在线执行模块。

102:根据认知用户自身的窄带感知能力,获取局部频谱占用信息;

103:根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;

104:实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。

本发明将认知无线网络的多用户分布式动态频谱接入问题建模成多智能体马尔科夫博弈过程,根据多智能体马尔科夫合作博弈模型,构建集中式训练、分布式执行的多智能体强化学习框架,该多智能体强化学习框架包括离线训练模块和在线执行模块,在线执行模块利用学习到的接入策略进行认知用户的频谱接入,而离线训练模块则根据实时监测结果对在线执行模块进行动态的更新。本发明提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法,在避免对授权用户的干扰时,减少认知用户之间的接入冲突,从而最大化认知用户的接入成功率,提高频谱的利用效率。

在其中一个实施例中,对于步骤101,离线训练模块包括集中训练器,该集中训练器通过网络边缘计算服务器(如小基站、无线接入点或无人机辅助边缘计算服务器等)进行构建。

该在线执行模块包括策略网络,该策略网络加载在认知用户端。

多智能体强化学习框架为集中式训练、分布式执行的多智能体强化学习框架。

在下一个实施例中,对于步骤101,离线训练模块通过公共信道收集认知用户与无线环境的交互信息,利用收集到的交互信息给每个认知用户训练一个相互协作的策略网络,并将训练好的策略网络参数通过公共信道发送给对应的认知用户以更新对应认知用户端策略网络的参数。

在另一个实施例中,对于步骤104,实时监测认知用户的接入成功率,包括:

401:根据认知用户的频谱接入情况,利用多智能体强化学习框架输出当次频谱接入的奖励值;

402:根据所述奖励值实时监测认知用户的接入成功率。

在下个实施例中,对于步骤401,根据认知用户的频谱接入情况,利用多智能体强化学习框架输出当次频谱接入的奖励值,包括:

4011:将所有认知用户的接入成功次数相加作为每个认知用户的效用函数;

4012:根据所述效用函数在多智能体强化学习框架内建立奖励函数;

4013:根据认知用户的频谱接入情况,利用所述奖励函数输出当次频谱接入的奖励值。

根据认知用户有限的感知能力,获取无线信道的局部状态信息,从而构成强化学习的观测空间。

根据认知用户感知能力选取感知信道,并选择可用信道进行接入,从而构成强化学习的动作空间。

本实施例中,将可用频谱划分为K条等带宽的正交子信道,子信道带宽小于信道相干带宽;

每条子信道按照相同的起止时间划分时隙,如图3所示,时隙长短小于信道相干时间;

K条正交子信道被对应的K个授权用户随机占用,K条正交子信道的空闲/占用状态构成认知无线网络的状态空间,状态空间大小为:2K

将认知用户建模成智能体,根据认知用户感知到的信道状态,协作接入可用的频谱空洞进行数据传输。

认知用户的感知能力有限,只能从K条子信道中选取M条子信道进行感知,故单个认知用户的观测空间大小为:所有认知用户的联合观测空间为:

根据所选取的M条子信道的感知结果,选取1条处于空闲状态的信道进行接入;认知用户的动作空间大小为:所有认知用户的联合动作空间为:

在某个实施例中,奖励函数为:

式中,表示t时刻所有认知用户的效用函数;表示t时刻认知用户n的接入成功次数;on表示t时刻认知用户n的观测;an表示t时刻认知用户n的接入动作;N表示认知用户的总数。

在下一个实施例中,策略网络为深度循环神经网络结构。

在本实施例中,在训练阶段,部署在边缘服务器上的集中训练器利用各认知用户的感知-接入经验离线训练频谱协作接入策略;执行时,认知用户节点只依赖局部频谱感知信息通过策略网络自主决策进行频谱接入。将可用的信道按照相同的起止时间划分为等间隔的时隙,将多用户的频谱合作接入问题建模为一个完全合作博弈问题,利用集中式训练、分布式执行的多智能体强化学习来求解分布式部分可观测马尔科夫博弈问题达到均衡点的最优策略。

本发明还提出一种基于多智能体强化学习的分布式动态频谱接入系统,包括:

算法构建模块,用于将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;

频谱感知模块,用于根据认知用户自身的窄带感知能力,获取局部频谱占用信息;

频谱接入模块,用于根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;

实时监测模块,用于实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。

本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献