一种用于认知无线电的多智能体协作频谱感知与接入方法与流程

2022-02-20 00:20:16 来源：中国专利 TAG：

1.本发明属于物联网通信技术领域，具体涉及一种用于认知无线电的多智能体协作频谱感知与接入方法。

背景技术：

2.随着无线通信技术的发展和无线多媒体应用的增加，无线频谱成为越来越紧张的资源，研究表明，现有的频谱管理与分配策略是造成频谱资源紧缺的主要原因之一。认知无线电的出现，为缓解频谱资源不足、实现频谱动态管理及提高频谱利用率开创了崭新的局面。
3.认知无线电，广义来说是指无线电终端具备足够的智能和认知能力，通过对周围无线环境的历史和当前状况进行检测、分析、学习、推理和规划，利用相应的结果，选择合适的频段进行传输。
4.认知无线电由两种用户组成，一种是主要用户(primary users):随时占用任意频带传输信息；另一种是次要用户(secondary users):感知频谱“空洞”，在主要用户不占用该频段时，使用该频段进行传输。认知无线电网络通过识别和探索授权主用户的频谱空洞，可以大大提高临时和空间频谱利用率。然而，由于主信道的占用是动态变化的，快速和准确的频谱感知是至关重要的。
5.多智能体系统是一种全新的分布式计算技术。在多智能体系统中，每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略，从而获得该环境下最优策略的过程就多智能体强化学习。在单智能体强化学习中，智能体所在的环境是稳定不变的，但是在多智能体强化学习中，环境是复杂的、动态的。
6.在多智能体系统中，至少存在两个以上的智能体，智能体之间存在一定的关系，如合作关系、竞争关系或者同时存在合作与竞争关系。本发明实例中智能体之间既相互合作，共享感知结果，又相互竞争，即竞争频谱资源，存在接入碰撞问题。在多智能体系统中，每个智能体获得的回报不仅与自身动作有关，还与其他智能体的动作有关系，即智能体之间相互影响。
7.一般情况下，当一个智能体，即次要用户su有呼入需求时，它会按顺序扫描所有信道，直至检测到一个空闲信道或者失败，这种信道感知和接入方法会造成一定的传输延迟和频谱利用率低等问题。由于衰落和阴影效应等的影响，每个 su在一个时隙只能检测一个信道，当通信网络中信道数目多于su数目时，此种检测方式效率较低，同时极大地降低频谱利用率。

技术实现要素：

8.本发明的目的是提供一种用于认知无线电的多智能体协作频谱感知与接入方法，以解决su如何快速找到空闲信道的同时避免与其他用户碰撞的问题。
9.本发明采用以下技术方案：一种用于认知无线电的多智能体协作频谱感知与接入
方法，基于一认知无线电网络，所述认知无线电网络中有m个主要用户 pu、n个次要用户su，n
fb
个正交信道，pu的发射功率固定为p，信道噪声为加性高斯白噪声；
10.所述感知与接入方法包括：
11.步骤s101：获取所述n个su中每一个sun在当前时间帧开始时的环境参数，其中所述n＝1，2，
…
，n，所述环境参数包括所述每一个sun的观测sn；
12.步骤s102：将所述每一个sun在当前时间帧开始时的所述环境参数输入确定性策略深度梯度maddpg模型；
13.步骤s103：获取所述maddpg模型输出的每一个sun在当前时间帧的感知策略，其中所述感知策略是选择某一个信道检测是否空闲；
14.步骤s104：将sun的感知结果及其合作伙伴的感知结果融合成全局状态 s(t)，再把全局状态s(t)与全局动作a(t)、奖励r(t)和下一时刻状态s(t 1)送到确定性策略深度梯度maddpg模型的经验重放缓冲区；
15.将所述全局状态s(t)作为下一时刻的观测，如此循环往复，直到训练步数结束。
16.进一步的，步骤s103还包括：每一时间帧开始时，所有su同时按照自己的观测选择自身策略，即选择某一信道检测该信道是否空闲，每个su有且仅有一次机会，直至所有的su找到一个空闲信道或者失败，则一个时间帧结束。
17.进一步的，步骤s104中，将sun的感知结果及其合作伙伴的感知结果融合成全局状态s(t)的方法为：
18.步骤s1041：当前sun根据历史时刻其他su执行动作后的所获得奖励计算可信度，若某个su曾担任过当前sun的合作伙伴，则会过的更高的可信度；
19.步骤s1042：根据可信度计算相应权重；
20.步骤s1043：计算其余su被选作合作伙伴的次数；
21.步骤s1044：综合上述其余su的权重和次数，对其余su进行排序，选择最优的一个或者几个作为当前sun的合作伙伴；
22.步骤s1045：合作伙伴之间共享检测结果，融合检测结果成为全局状态。
23.进一步的，选择合作伙伴的具体方法为：
24.定义可靠性变量：
[0025][0026]
根据公式(1)计算步骤s1041中的可靠性，n代表su，k代表合作伙伴， t'表示初始时刻，ts表示终止时刻，t表示当前时刻，ρ
n,k
(t)表示在当前时刻下sun选择suk作为其合作伙伴的可靠性，由初始时刻到当前时刻累计折扣奖励计算，其中γ为衰减率，rn为sun获得的奖励，gn为合作伙伴集合，i(
·
)为指示函数，若k∈gn∪n,则i(
·
)＝1，否则i(
·
)＝0；
[0027][0028]
根据公式(2)计算步骤s1042中的权重，ω
n,k
(t)表示当前时刻下sun选择 suk作为其合作伙伴融合检测结果时suk所占的权重，其中ρ
n,k
(t)表示当前时刻的伙伴可靠性，gn为合作伙伴集合，该权重是当前suk的可信度与gn中所有 su的可信度之和的比值，其余的su序
号用k'表示；
[0029][0030]
根据公式(3)计算步骤s1043中的合作次数，累计开始时刻到当前时刻t的合作次数，gn为合作伙伴集合，i(
·
)为指示函数，若k∈gn,则i(
·
)＝1，否则i(
·
)＝0；
[0031][0032]
根据公式(4)对其余su进行排序，选择值最大的一个或者几个作为合作伙伴，ω
n,k
为伙伴权重，η
n,k
是合作次数，ε为固定常数。
[0033]
进一步的，步骤s104中，su采用能量检测的方法，判断信道是否空闲，来获得相应检测结果。
[0034]
本发明采用的第二种技术方案是，一种用于认知无线电的多智能体协作频谱感知与接入方法，用由状态、动作和奖励组成的元组(s，a，r)对所述maddpg 模型进行训练，其中所述状态s包括所述每一个sun融合其合作伙伴的感知结果，所述动作a包括所述每一个sun在所述当前时间帧的感知策略，所述奖励r是根据所述每一个sun所采取的动作获得的奖励。
[0035]
进一步的，包括：
[0036]
获取模块，可以用于获取所述n个su中每一个sun在当前时间帧开始时的环境参数，其中所述n＝1，2，
…
，n，所述环境参数包括所述每一个sun的自身观测sn；
[0037]
ddpg模块，可以用于将所述每一个sun的在当前时间帧开始时的所述环境参数输入确定性策略深度梯度maddpg模型，以及获取所述maddpg模型输出的所述每一个sun在所述当前时间帧的感知策略，其中所述感知策略包括选择哪一个信道检测；
[0038]
控制模块，可以用于控制所述每一个sun在所述当前时间帧根据所述频谱感知策略，所述频谱感知策略是选择某一个信道检测。
[0039]
进一步的，包括：
[0040]
存储器，用于存储程序代码、无线设备的环境参数以及感知策略，所述环境参数包括所述智能体在认知无线电网络crn中的位置信息，观测、呼入次数；
[0041]
确定性策略深度梯度maddpg模型，用于根据所述环境参数确定所述感知策略；
[0042]
处理器，用于调用所述程序代码和所述maddpg模型，以执行如权利要求 1至6中任一项所述的一种用于认知无线电的多智能体协作频谱感知与接入方法
[0043]
本发明的有益效果是：多智能体系统相比于单智能体系统来说，智能体之间的相互影响不可忽略，在本发明实施例中，每个su作为一个智能体，在每个时隙根据自身观测选择动作，即感知一个信道。因此su之间的碰撞，即选择同一个信道进行感知，不可忽略。此外，su并不知道pu占用信道的喜好，故它需要在不断试错的过程中学习如何避免与pu的碰撞。
附图说明
[0044]
图1为本发明中crn网络的系统架构示意图；
[0045]
图2为根据本发明实施例的信道转移概率示意图；
[0046]
图3为本发明一种用于认知无线电的多智能体协作频谱感知与接入方法的流程示意图；
[0047]
图4为本发明中伙伴选择算法的流程示意图；
[0048]
图5为本发明一种用于认知无线电的多智能体协作频谱感知与接入装置的结构示意图；
[0049]
图6为本发明一种用于认知无线电的多智能体协作频谱感知与接入装置的另一结构示意图；
[0050]
图7为本发明实施例中的伙伴数目对比图；
[0051]
图8为本发明实施例中的算法对比图。
[0052]
其中，201.获取模块，202.ddpg模块，203.控制模块，301.存储器，302. 确定性策略深度梯度maddpg模型，303.处理器。
具体实施方式
[0053]
下面结合附图和具体实施方式对本发明进行详细说明。
[0054]
本发明提供了一种用于认知无线电的多智能体协作频谱感知与接入方法，该方法基于一认知无线电网络，认知无线电网络中有m个主要用户pu、n个次要用户su，n
fb
个正交信道，pu的发射功率固定为p，信道噪声为加性高斯白噪声。如图1所示，crn网络的系统包括主要用户(primary users,pus)和多个次要用户su1，su2，
…
以及sun，其中n为不小于2的整数。该系统中有n
fb
个正交信道，pus可以随时占用信道，sus可以在不干扰主用户的前提下随机使用信道传输。每个su都有相同的通信距离，在通信距离范围内的称为该su的邻居，彼此可以相互通信。此外，pus的发射功率固定，信道噪声为加性高斯白噪声。
[0055]
图2所示为信道转移概率示意图，信道状态可由两状态的马尔可夫链建模，每个信道有两种状态：“0”表示信道被pu占用；“1”表示信道空闲；转移概率p
10
表示信道由空闲转为被占用的概率。主用户占用信道的模式固定。假设信道遵循准静态块衰落，即信道状态在每个时隙保持不变。事实上，次要用户并不知道信道的状态和主用户占用信道的模式，它需要根据信念向量选择当前时刻最有可能空闲的信道去检测，并从其检测结果和接入结果中学习主用户的占用模式。
[0056]
o(t)＝[o1(t),o2(t)......o
fb
(t)]表示时隙t时刻的信道状态向量，of(t)＝1表示该时刻信道空闲，of(t)＝0表示该时刻信道被pu占用。su不知道每个时刻的o(t)值，每个su维护自己的信念向量sn(t)＝[b
n,1
,b
n,2
,......b
n,fb
]，每个分量b
n,f
是取值在[0,1] 之间的连续变量，值越大代表当前su认为该信道越有可能空闲，每个分量的值随着su及其合作伙伴的感知和接入结果更新。
[0057]
基于当前状态sn(t)，当前su执行动作an(t)，并获得相应的奖励rn(t)，并基于感知结果更新信念向量b
n,f
。更新信念向量的流程表如下：
[0058][0059][0060]
对于每一个信道，若当前su选择该信道去检测，若该信道状态为空闲，则该分量被赋值为1；反之，该分量被赋值为0。其它信道的状态分量则根据其值大小而改变，若其值大于0.5，则被更新为max{0.5,αb
n,f
}；若其值小于0.5，则被更新为min{0.5,1-α(1-b
n,f
)}；其中，α为固定常数。
[0061]
由于一个su一次只能检测一个信道，当信道数目过多时，这样的检测方式显然效率过低，因此融合其合作伙伴的检测结果可以获得更多的信道状态信息。由于每个su位置不同和信道的时变性，su感知单元的感知能力是动态变化的，不为其他su所知。每个su更倾向于选择检测能力强的su作为自己的合作伙伴，因此，我们定义了一个变量，记为可靠性:
[0062][0063]
如果该suk曾经做过当前su的合作伙伴并且帮助其获得较高的奖励则会被优先选作合作伙伴。i(
·
)为指示函数，若k∈gn∪n,则i(
·
)＝1，否则i(
·
)＝0。在选择合作伙伴之前，要计算其余所有su的可靠性。
[0064]
在融合合作伙伴的接入结果更新信道信念向量时，不同合作伙伴所占权重是不同的，根据历史奖励的可靠性，设置不同的合作伙伴权重ωn是合理的。
[0065][0066]
根据可靠性大小计算相应权重，如公式(2)所示。此外，信道信念向量的更新如下：
[0067][0068]
式中，求和下标的范围是当前su本身及其伙伴集，ω
n,k
表示每个伙伴的相应权重，表示其伙伴的检测结果。
[0069]
此外，为保证每个su都有机会被选为合作伙伴，我们还会计算每个su到当前时刻为止被选为合作伙伴的次数η
n,k
：
[0070][0071]
当前时刻t,该su若被选为合作伙伴，则i(
·
)取值为1；否则为0。
[0072]
每个su选择合作伙伴的标准如下，在其邻居中对所有的su进行排序，选择值最大的一个或者几个作为合作伙伴：
[0073][0074]
其中，sortmax
ncoop
()是一个函数，返回当前su的合作伙伴序号，且以降序排列。该函数的自变量是权重ω
n,k
以及作为合作伙伴次数η
n,k
有关。显而易见，历史可靠性高或者合作次数较少的用户都有可能被选为新的合作伙伴。ε是一个衰减系数。
[0075]
具体的，可以采用下表所示的算法流程表详细的描述基于maddpg的协作频谱感知。
[0076]
[0077][0078]
如图3所示，本发明提供的一种用于认知无线电的多智能体协作频谱感知与接入方法包括：
[0079]
步骤s101：获取所述n个su中每一个sun在当前时间帧开始时的环境参数，其中所述n＝1，2，
…
，n，所述环境参数包括所述每一个sun的观测sn；
[0080]
此观测为局部观测，是每个智能体在该时刻认为各个信道可能空闲的概率，智能体就是根据自身观测，做出策略，选择某一个信道进行感知。
[0081]
步骤s102：将所述每一个sun在当前时间帧开始时的所述环境参数输入确定性策略深度梯度maddpg模型；
[0082]
在一些实施例中，该方法还包括：用由状态、动作和奖励组成的元组(s， a，r，s’)对所述maddpg模型进行训练。
[0083]
其中，状态s是全局状态，是当前su把它自身结果与其合作伙伴的感知结果融合而成的全局状态，s’是下一状态，动作a是联合动作，即把su与其合作伙伴的动作拼接在一起而形成的全局动作，奖励是自身奖励，根据接入结果，若成功接入，则会获得一个正奖励，反之，负奖励。
[0084]
步骤s103：获取所述maddpg模型输出的每一个sun在当前时间帧的感知策略，其中所述感知策略是选择某一个信道检测是否空闲；
[0085]
步骤s104：将sun的感知结果及其合作伙伴的感知结果融合成全局状态s(t)，再把全局状态s(t)与全局动作a(t)、奖励r(t)和下一时刻状态s(t 1)送到确定性策略深度梯度maddpg模型的经验重放缓冲区；将所述全局状态s(t)作为下一时刻的观测，如此循环往复，直到训练步数结束。
[0086]
在一些实施例中，步骤s103还包括：每一时间帧开始时，所有su同时按照自己的观测选择自身策略，即选择某一信道检测该信道是否空闲，每个su有且仅有一次机会，直至所有的su找到一个空闲信道或者失败，则一个时间帧结束。
[0087]
在一些实施例中，如图4所示，步骤s104具体为：
[0088]
步骤s1041：当前sun根据历史时刻其他su执行动作后的所获得奖励计算可信度，若某个su曾担任过当前sun的合作伙伴，则会过的更高的可信度；
[0089]
步骤s1042：根据可信度计算相应权重；
[0090]
步骤s1043：计算其余su被选作合作伙伴的次数；
[0091]
步骤s1044：综合上述其余su的权重和次数，对其余su进行排序，选择最优的一个或者几个作为当前sun的合作伙伴；
[0092]
步骤s1045：合作伙伴之间共享检测结果，融合检测结果成为全局状态。
[0093]
在一些实施例中，选择合作伙伴的具体方法为：
[0094]
定义可靠性变量：
[0095][0096]
根据公式(1)计算步骤s1041中的可靠性，n代表su，k代表合作伙伴， t'表示初始时刻，ts表示终止时刻，t表示当前时刻，ρ
n,k
(t)表示在当前时刻下sun选择suk作为其合作伙伴的可靠性，由初始时刻到当前时刻累计折扣奖励计算，其中γ为衰减率，rn为sun获得的奖励，gn为合作伙伴集合，i(
·
)为指示函数，若k∈gn∪n,则i(
·
)＝1，否则i(
·
)＝0；
[0097][0098]
根据公式(2)计算步骤s1042中的权重，ω
n,k
(t)表示当前时刻下sun选择 suk作为其合作伙伴融合检测结果时suk所占的权重，其中ρ
n,k
(t)表示当前时刻的伙伴可靠性，gn为合作伙伴集合，该权重是当前suk的可信度与gn中所有 su的可信度之和的比值，其余的su序号用k'表示；
[0099][0100]
根据公式(3)计算步骤s1043中的合作次数，累计开始时刻到当前时刻t的合作次数，gn为合作伙伴集合，i(
·
)为指示函数，若k∈gn,则i(
·
)＝1，否则i(
·
)＝0；
[0101][0102]
根据公式(4)对其余su进行排序，选择值最大的一个或者几个作为合作伙伴，ω
n,k
为伙伴权重，η
n,k
是合作次数，ε为固定常数。
[0103]
在一些实施例中，步骤s104中，su采用能量检测的方法，判断信道是否空闲，来获得相应检测结果。能量检测是一种简单的检测方法，su需要检测当前信道上pu的能量值，并与对应阈值比较，从而判断该时刻信道是否被pu占用。
[0104]
在一些实施例中，用由状态、动作和奖励组成的元组(s，a，r)对所述 maddpg模型进行训练，其中所述状态s包括所述每一个sun融合其合作伙伴的感知结果，所述动作a包括所述每一个sun在所述当前时间帧的感知策略，所述奖励r是根据所述每一个sun所采取的动作获得的奖励。
[0105]
本发明还提供了一种用于认知无线电的多智能体协作频谱感知与接入装置，如图5所示，该频谱感知装置可以200包括：获取模块201、maddpg模块202 和控制模块203，其中：
[0106]
获取模块201，可以用于获取所述n个su中每一个sun在当前时间帧开始时的环境参数，其中所述n＝1，2，
…
，n，所述环境参数包括所述每一个sun的自身观测sn；
[0107]
ddpg模块202，可以用于将所述每一个sun的在当前时间帧开始时的所述环境参数输入确定性策略深度梯度maddpg模型，以及获取所述maddpg模型输出的所述每一个sun在所述当前时间帧的感知策略，其中所述感知策略包括选择哪一个信道检测；以及
[0108]
控制模块203，可以用于控制所述每一个sun在所述当前时间帧根据所述频谱感知策略，所述频谱感知策略是选择某一个信道检测；
[0109]
该频谱感知装置用于实现前述方法实施例，其实现原理和技术效果类似，此处不再赘述。
[0110]
本发明还提供了另一种用于认知无线电的多智能体协作频谱感知与接入装置，如图6所示，该频谱感知装置300可以包括：存储器301、maddpg模型 302、以及处理器303，其可以通过总线(如图6中粗实线所示)互连。
[0111]
所述存储器301，可以用于存储程序指令、su的环境参数以及频谱感知策略，所述环境参数包括所述环境参数包括所述每一个sun的自身观测sn。需要说明的是，该存储器301还可以存储其他用于执行任务的其他数据或信息，本发明对此不作限制。
[0112]
所述maddpg模型302，可以用于根据所述环境参数确定所述频谱感知策略。该maddpg模型的实现可以参考前文相关描述，此处不在赘述。
[0113]
所述处理器303，可以用于调用所述程序代码和所述maddpg模型，以执行如本发明实施例所述的任务方法。
[0114]
本发明实施例中的任务卸载装置，用于实现前述方法实施例，其实现原理和技术效果类似，此处不再赘述。
[0115]
图6仅示出了可用于实现本文所公开的任务卸载装置300的结构示意图。该任务卸载装置300可以利用所有示出的部件或仅仅部件子集，对于不同的情形，结构可能会发生变化。此外，该任务卸载装置可包含组件的多个实例，例如多个处理器、存储器、发射器、接收器、网络接口等。该任务卸载装置还可以包括配备有诸如鼠标、触摸屏、小键盘、键盘、打印机、显示器等一个或多个输入/输出设备的处理单元。处理单元可以包括连接到总线的中央处理器(cpu)、图形处理器(gpu)、存储器、大容量存储设备、视频适配器、i/o接口、网络接口。
[0116]
总线可以是任何类型的多个总线结构的一个或多个，包括存储器总线或存储器控制器、外围总线、视频总线等。cpu可以包括任何类型的电子数据处理器。存储器可以包括任何类型的系统存储器，比如静态随机存取存储器(sram)、动态随机存取存储器(dram)、同步dram(sdram)、只读存储器(rom)、及其组合等。在一些实施例中，存储器可包括用于在启动时使用的rom，以及执行程序时使用的用于程序和数据存储的dram。
[0117]
大容量存储设备可以包括用于存储数据、程序和其它信息以及使这些数据、程序和其它信息通过总线可访问的任何类型的存储设备。大容量存储设备可以包括，例如，固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器或类似物中的一种或多种。
[0118]
视频适配器和i/o接口提供使外部输入和输出设备与处理单元耦合的接口。如图所示，输入和输出设备的示例包括与视频适配器耦合的显示器以及与i/o接口耦合的鼠标/键盘/打印机。其它设备可以与处理单元耦合，并且可以使用到额外或更少的接口卡。例如，可以使用诸如通用串行总线(usb)(未示出)等串行接口来为打印机提供接口。
[0119]
处理单元还包括一个或多个网络接口，其可包括有线链路，例如以太网电缆等，和/或无线链路以访问节点或不同网络。网络接口允许处理单元通过网络与远程单元进行通信。例如，网络接口可以通过一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信，其中发射器和接收器可以是集成在一起的。在一实施例中，处理单元与
局域网或广域网耦合以便进行数据处理并与远程设备进行通信，比如其它处理单元、互联网、远程存储设备等。
[0120]
实施例
[0121]
下面对上述方法实施例的具体实现过程进行说明：首先，在一个时隙开始时，所有su同时根据自身决策采取动作，每个su有且仅有一次机会，结果共有三种情况：检测到空闲信道并且成功接入、没有检测到空闲信道即与pu发生碰撞、与其他su碰撞。
[0122]
su根据自身决策选取动作后，根据结果更新自身的观测以及获得对应的奖励，根据奖励计算对应的指标，比如权重、可信度等，同时统计当前su的伙伴集中每个su被选作合作伙伴的次数，综合几项指标，选择合作伙伴。
[0123]
在确定合作伙伴后，su融合自身及其合作伙伴的感知结果形成全局观测、所有su的动作拼接在一起形成全局动作，和奖励以及下一个状态形成一个元组送入经验重放缓冲区训练网络。在一次又一次的迭代中不断学习，训练。
[0124]
本发明实施例中的状态、动作以及奖励如下：
[0125]
状态：每个su所维护的自身状态是一个1*n
fb
的向量，每个分量的取值是(0,1) 之间的连续变量，取值越大，代表该时刻此su认为该信道越有可能空闲。
[0126]
动作：动作是离散的，每个时刻选择一个信道进行检测。
[0127]
奖励：根据接入结果的不同，奖励不同：若成功接入，则获得一个正奖励；若未成功接入，则获得一个负奖励。
[0128]
maddpg拥有四个网络：
[0129]
actor当前网络：负责策略网络参数μ的迭代更新，根据当前状态s选择当前动作a与环境交互生成下一个状态s
′
和奖励r；在本发明实施例中体现为：当前智能体su根据自身观测选择感知策略，即选择哪一信道进行感知，根据感知结果获得对应的奖励。
[0130]
actor目标网络：负责从经验回放缓存区采样的下一状态s
′
选择下一动作a
′
。该网络的网络参数μ
′
定期从actor当前网络复制μ更新；经验回放缓存区中会储存智能体过往的经历。
[0131]
critic当前网络：负责价值网络参数θ的迭代更新，计算当前q值即： yi＝r γq
′
(s
′
，a
′
，θ
′
)；
[0132]
critic目标网络：负责计算目标q值中的q
′
(s
′
，a
′
，θ
′
)部分。该网络的网络参数θ
′
定期从critic当前网络复制θ更新。
[0133]
maddpg采取了每次只更新一点点的“软”更新方式，即：
[0134]
μ
′
k 1
＝τμ
′k (1-τ)μ
′kꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)，
[0135]
θ
′
k 1
＝τθk (1-τ)θ
′kꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)，
[0136]
其中τ为更新系数，这种更新方式可以大大提高学习的稳定性。
[0137]
actor当前网络采用确定性策略来产生确定性动作，损失梯度为：
[0138][0139]
critic当前网络的损失函数采用均方误差：
[0140]
j(θ)＝e[(y
k-q(s,a|θ))2]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)，
[0141]
本发明实例采用maddpg的方法对信道状态进行学习，每一个智能体都有一个
actor和一个critic。其中actor根据策略网络πn将局部观察状态sn映射为一个适当的动作an，critic根据其价值网络qn来评估该策略的好坏。无论是actor还是 critic都有一个在线网络和一个目标网络，以确保学习的稳定性和克服过于乐观。
[0142]
actor网络用自身的局部观测以及动作来训练，而critic网络则需要用到全局观测和全局动作。
[0143]
在训练过程中，qn根据其他智能体的动作和状态输出策略πn的策略梯度。在执行过程中，训练良好的πn可以根据自身状态独立选择最优动作，而不用考虑其他智能体，从而导致更少的同步和通信开销。
[0144]
maddpg进一步增加了噪声n，以在训练过程中探索更好的策略。另一个基本的技术是经验回放缓冲区(experience replay buffer,rb)。每个智能体都配备一个 rb来存储(s(t),a(t),r(t),s(t 1))，它将随机提取以更新权重。此外,经验回放可以有效地避免连续更新的高度相关动作。
[0145]
maddpg会将ddpg方法继承到多智能体域中。它不仅消除了q-learning 和策略梯度的非平稳特征，而且还保留了ddpg的巨大优势，它可以以连续而不是离散的方式搜索动作空间。
[0146]
综上看出，本发明实施例的实施情况为认知无线电网络中有3个su,2个pu，7个信道。信道状态根据转移概率而变化，su需要在pu不占用信道资源时机会地选择信道传输。下面是对该实施例的结果分析：
[0147]
由于该crn网络中有3个su，故每个su可选的合作伙伴数量最大为2。图7表示了随合作伙伴数目变化的接入成功率的变化情况。图中曲线由上到下依次为2-partner、1-partner和0-partner。
[0148]
随着训练步长和合作伙伴数目的增加，接入成功概率得到明显的改善。随着 maddpg的运行，成功概率由最开始的低于50％收敛到约90％，证明了该算法的有效性。同时，与没有合作伙伴和1个合作伙伴相比，2个合作伙伴的成功概率分别提高了至少5％和3％，证明了协作算法的有效性。随着su数目的增加，合作伙伴算法的重要性将更加显著。
[0149]
为了表明基于maddpg的协作感知算法的优势，我们进一步将一次成功概率与传统的随机访问方法以及drl方法进行了比较，比如dqn、q-learning，结果如图8所示。图8中的曲线从上到下依次为maddpg 2-partner、maddpg 1-partner、dqn mlp2 2-partner、dqn mlp2 1-partner、dqn mlp1 2-partner、 dqn mlp1 1-partner、q-learning和random access。dqn使用多层感知机(mlp) 代替q表将状态映射到动作中。dqn-mlp1有一层神经网络，包含300个神经元，dqn-mp2有两个隐藏层，每个含有300个神经元。每个算法分别由1个合作伙伴和两个合作伙伴执行两次。与成功概率最低的随机访问相比，协作感知算法中的信道信念融合对maddpg和dqn都是有效的。在2个合作伙伴的帮助下，maddpg、dqn-mlp2和dqn-mlp1的成功概率分别提高了近1％、2％和 5％。有2个合作伙伴的maddpg表现最佳。
[0150]
然而，q-learning在这个场景中表现不佳(实际上在只有两个sus时工作得很好)。由于缺乏其他su的观测结果，每个个体的状态转变都是时变的和不可靠的，这使得环境不平稳。随着代理数量的增加，q表的快速增长使得训练难以遍历所有可能的环境状态，并且用户无法直接使用过去的经验回复。因此，q-learning 并不适用于大规模的模型。
[0151]
本发明实施例中，没有控制中心统一调度信道资源，因此每个智能体要按照自身
决策采取动作，在减少通信开销的同时不可避免发生碰撞。由于maddpg 集中式训练分布式执行的特点，更适用于多智能体环境，相比于dqn、q-learning 等传统的强化学习方法，在一次接入成功率方面有更大的优越性和有效性。
[0152]
其次，在本发明实施例中，加入协作频谱感知，随着合作伙伴数目的增多，碰撞概率和接入成功率性能都有明显提升。
[0153]
由于检测精度受到阴影和多径衰落的影响，单个用户单元无法同时检测多个信道，为了使每个用户单元能够全局感知信道，本发明提出了一种伙伴选择和信道状态融合算法来提高感知效率和精度。提高一次找到空闲信道的准确率，减少通信延迟和感知开销。本发明的一种用于认知无线电的多智能体协作频谱感知与接入方法在多智能体系统中表现更优，即当次要用户数目变多时，传统的机器学习方法，比如q-learning、dqn学习性能会有所下降，而由于maddpg集中训练和分布式执行的特点，训练好的su一次找到空闲信道的概率可以达到90％，有效降低与pu以及其他su的碰撞概率，同时降低通信延迟和感知开销。
[0154]
本发明实施例提供一种认知无线电网络中基于多智能体强化学习的协作频谱感知方法，通过将每一个智能体在当前时间帧开始时的环境参数输入确定性策略深度梯度maddpg模型，所述环境参数包括每一个智能体的在当前时间帧开始时的观测，以获取所述maddpg模型输出的所述每一个智能体在当前时间帧的感知策略，其中所述感知策略即为选择哪一个信道去检测当前时刻该信道是否空闲，能够接入该信道完成传输任务，每一个智能体在每一个时间帧按照确定的策略进行感知和接入。此外，在原本maddpg算法的基础上加入协作频谱感知，使得多个用户可以共享频谱感知结果，有效提高了频谱感知的效率，当用户数目较多时，能够迅速搜索频谱空洞，感知空闲信道且在成功接入的同时避免用户间的碰撞，在降低了任务时延和通信开销的同时提高感知效率和精度。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种BMC之间数据同步传输的方法、装置、设备及可读介质与流程

一种用于认知无线电的多智能体协作频谱感知与接入方法与流程

相关文献

最热文献