一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能超表面辅助OFDM系统1比特相移配置方法

2022-11-16 16:09:09 来源:中国专利 TAG:

一种智能超表面辅助ofdm系统1比特相移配置方法
技术领域
1.本发明涉及一种智能超表面辅助ofdm系统1比特相移配置方法,属于一种可重构智能表面增强的单天线ofdm下行系统自适应传输技术领域。


背景技术:

2.近年来兴起的智能超表面是一项极具应用前景的技术,为经济高效地实现高频谱效率和覆盖范围提供了一种可能。智能超表面是一种由大量无源反射元件组成的超表面,可以实时动态调整反射信号的幅度和/或相位,从而实现智能的无线电传播环境重配置。同时,智能超表面不需要任何有源射频(rf,radio frequency)链来发送或接收信号,仅依赖于无源信号的反射,因此与传统的有源收发器/继电器相比,大大降低了硬件成本和能耗。除此以外,智能超表面可在毫米波信号被障碍物阻塞时提供反射径,维持设备间的正常通信,综上可见,智能超表面可以实现通信服务质量提升同时减少部署开销。
3.然而,实际部署的智能超表面反射单元数量一般是从几千个到几万个变化且智能超表面处存在恒模约束,因而如何在智能超表面辅助的无线通信系统中通过联合设计提高通信性能是一个多任务问题。传统设计方法有逐次凸逼近和半正定松弛算法等,这些传统算法均是针对智能超表面连续相移的假设条件下展开的,这对于通常具有大量反射单元的智能超表面是难以实现的,因为制造具有无限级高分辨率移相器的反射单元成本很高。若将这些传统数值算法应用于宽带系统,则设计复杂度进一步提高,这主要归因于宽带系统中各子载波信道不一致,单个子载波信道的最优设计对于其他子载波将不再是最优,这就需要具有低时间成本和高性能的联合设计算法来进一步解决这些问题。
4.现有针对离散智能超表面反射系数向量设计的低复杂度算法的研究主要是基于智能超表面反射系数向量码本的设计或使用深度学习方法,智能超表面反射系数向量码本的设计对智能超表面反射单元分辨率有较高的要求,深度学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感,实际应用困难。


技术实现要素:

5.技术问题:有鉴于此,本发明的目的在于提供一种智能超表面辅助ofdm系统1比特相移配置方法,用以解决背景技术中提及的技术问题。本发明为基站配置单根天线,部署多个单天线用户并放置智能超表面提升通信服务质量,利用深度强化学习算法根据信道状态信息对智能超表面反射系数向量进行设计以最大化系统频谱效率;深度强化学习算法设计反射系数向量能够有效抑制干扰,降低所需时间成本且对信道衰落变化具有很好的鲁棒性。
6.技术方案:为了达到上述目的,本发明的一种智能超表面辅助ofdm系统1比特相移配置方法包括以下步骤:
7.步骤s1、基站配置单根天线,且服务k个单天线用户,所述智能超表面为均匀平面阵,该均匀平面阵包括m=a
×
b个反射单元,其中,垂直方向a行反射单元,水平方向每行b个
反射单元;智能超表面的反射系数向量表示为其中为的第b个元素,其相位θb表示智能超表面第b列的相移,b=1,...,b;将所有可能的智能超表面反射系数向量存放到码本中,即中的每一个码字对应一种可能的反射系数向量因此码本中共有2b个码字;系统整体带宽被划分为n个子载波,表示为集合第k个用户占用子载波的集合表示为sk满足并且并且
8.构建智能体x的经验池及深度强化学习神经网络,包括:评价q网络u,根据来自环境的状态评价每个动作的收益;目标q网络其参数复制自评价q网络u,每个时隙软更新一次;经验池d用于存储智能体x学习过程中产生的样本;将智能超表面视为智能体x;将整个通信环境作为智能体x的外部环境;将码本作为动作空间,其中的每个码字为可选的动作;初始化评价q网络u的参数目标q网络的参数最大步长t和候选码字的个数l,令t=1;
9.步骤s2、在t时刻,计算基站经智能超表面至第k个用户在第n个子载波上的频域信道矩阵其中k=1,2,...,k,n∈sk,为dft矩阵fn的第n列,上标(
·
)h表示共轭转置,表示零填充的基站经智能超表面至第k个用户时域信道矩阵,的第b列为零填充的基站经智能超表面第b列反射单元至第k个用户的时域信道向量,l3=l1 l
2-1为中非零元素个数,*表示卷积,表示长度为n-l3的全0向量,上标(
·
)
t
表示转置,为基站到智能超表面第b列反射单元的具有l1个抽头的时域信道向量,的第i个元素为基站到智能超表面第b列反射单元的时域信道第i个抽头系数,i=0,1,...,l
1-1,为智能超表面第b列反射单元到第k个用户的具有l2个抽头的时域信道向量,的的第个元素为智能超表面第b列反射单元到第k个用户的时域信道第个抽头系数,计算基站至第k个用户的直射路径在第n个子载波上的频域信道系数其中k=1,2,...,k,n∈sk,为基站到第k个用户具有l0个抽头的直接路径经零填充后的时域信道向量,其第m个元素为基站到第k个用户的直接路径时域信道第m个抽头系数,m=0,

,l
0-1,表示长度为n-l0的全0向量;令t时刻所述智能体x的环境状态表达式为:
[0010][0011]
步骤s3、若t=1,则进入步骤s4;否则,进入步骤s5;
[0012]
步骤s4、根据ε-贪婪策略,获取(0,1)之间的随机数x,如果x小于某一预设门限值
ε,智能体x就从码本中随机选择一个码字作为动作a
t
,否则,将状态s
t
输入智能体x的评价q网络u,输出为码本中每个动作码字的q值,从中选择q值最大的动作将动作a
t
作为当前t时刻的智能超表面反射系数向量并利用下式计算系统频谱效率作为t时刻的奖励r
t

[0013][0014]
其中,n
cp
≥max(l0,l3)为ofdm调制的循环前缀长度;pn表示基站平均分配给每个子载波的功率,pn=p
t
/n,n=0,1,...,n-1,p
t
为基站的总发送功率;γ是实际编码调制方式对系统容量的影响因子,σ2为噪声功率;令t=t 1,并进入步骤s2;
[0015]
步骤s5、将得到的四元组(s
t-1
,a
t-1
,r
t-1
,s
t
)作为一个经验样本存入经验池中,若经验池已存满,则用该经验样本覆盖经验池中最早的一个经验样本;
[0016]
步骤s6、智能体x从经验池中以批尺寸nb进行随机采样来计算评价q网络的目标值;然后对评价q网络进行梯度下降更新,并对目标q网络进行软更新,如果t-1》t,则停止迭代,否则转到步骤s4;
[0017]
步骤s7、训练完成后,智能体从环境中获得当前时刻t的信道并根据步骤s2中的方法将其转化为状态s
t
,将状态s
t
输入智能体x的评价q网络u,从其输出中选出q值最大的l个动作作为候选动作{a
(1)
,a
(2)
,...,a
(l)
},最后计算出这l个候选动作的系统频谱效率。
[0018]
所述评价q网络u和目标q网络均包括四个全连接层:输入层、两个隐藏层和输出层,其中,两个隐藏层之后分别包括一个relu激活层。
[0019]
所述步骤s1中的评价q网络u和目标q网络的网络参数包括全连接层的权重和偏置。
[0020]
所述计算这l个候选动作的系统频谱效率利用下式得出,
[0021][0022]
选择{r
(1)
,r
(2)
,...,r
(l)
}中最大值对应的候选码字作为最终的智能超表面反射系数向量;
[0023]
所述步骤s6中,随机采样与网络更新方法按如下步骤进行:
[0024]
a1)判断t,如果t≥nb 1,从经验池d中随机采样nb个样本d=[d1,d2,...,dn],其中每个样本为经验池中存储的第ki个时刻的样本四元组;否则不采样,转到步骤s2继续产生并存储样本;
[0025]
a2)将d中所有样本的状态输入评价q网络,得到对应动作的价值函数估计值a2)将d中所有样本的状态输入评价q网络,得到对应动作的价值函数估计值按照bellman方程计算得到价值函数目标值其中γ为奖励函数的折扣因子,为目标q网络的价值函数估计值;
[0026]
a3)计算d中nb个样本均方误差作为评价q网络的损失函数:
[0027][0028]
其中为评价q网络的参数;
[0029]
a4)每个时隙对目标q网络的参数进行软更新:
[0030][0031]
公式中,τ<<1为软更新参数,通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
[0032]
有益效果:本发明的一种智能超表面辅助ofdm系统1比特相移设计方法具有以下优点:
[0033]
1、本发明对信道快衰落具有很好的鲁棒性,适用于各种典型的无线通信环境;
[0034]
2、本发明中的智能超表面反射系数向量设计方法收敛速度快、易于实现,其计算效率与传统的计算方法相比提高了数倍;
[0035]
3、本发明能以较低的时间成本获得较高的系统频谱效率。
附图说明
[0036]
图1为采用深度强化学习智能体优化智能超表面相位矩阵的网络框架图。
具体实施方式
[0037]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
考虑一个智能超表面辅助的ofdm系统中,基于频谱效率最大化准则,设计智能超表面反射系数向量:更具体的说,包括如下的步骤:
[0039]
步骤s1、基站配置单根天线,且服务k=2个单天线用户,所述智能超表面为均匀平面阵,该均匀平面阵包括m=a
×
b=100个反射单元,其中,垂直方向a=10行反射单元,水平方向每行b=10个反射单元;智能超表面的反射系数向量表示为其中为的第b个元素,其相位θb表示智能超表面第b列的相移,b=1,...,10;将所有可能的智能超表面反射系数向量存放到码本中,即中的每一个码字对应一种可能的反射系数向量因此码本中共有2b=1024个码字;系统整体带宽被划分为n=64个子载波,表示为集合第k个用户占用子载波的集合表示为sk满足每个用户分配32个子载波,并且s1={0,1,...,31},s2={32,33,...,63}。
[0040]
构建智能体x的经验池及深度强化学习神经网络,包括:评价q网络u,根据来自环境的状态评价每个动作的收益;目标q网络其参数复制自评价q网络u,每个时隙软更新一次;经验池d用于存储智能体x学习过程中产生的样本;将智能超表面视为智能体x;将整
个siso-ofdm通信环境作为智能体x的外部环境;将码本作为动作空间,其中的每个码字为可选的动作;初始化评价q网络u的参数目标q网络的参数最大步长t=200000和候选码字的个数l=4,四个全连接层的神经元个数分别为1408,2048,2048,1024,令t=1。
[0041]
步骤s2、在t时刻,基站到各用户直接路径时域信道具有l0=16个抽头,基站到智能超表面各反射单元时域信道具有l1=4个抽头,智能超表面各反射单元到各用户时域信道具有l2=13个抽头,则l3=l1 l
2-1=16,计算基站经智能超表面至第k个用户在第n个子载波上的频域信道矩阵其中k=1,2,n∈sk,为dft矩阵fn的第n列,上标(
·
)h表示共轭转置,表示零填充的基站经智能超表面至第k个用户时域信道矩阵,的第b列为零填充的基站经智能超表面第b列反射单元至第k个用户的时域信道向量,中非零元素个数为l3=l1 l
2-1=16,*表示卷积,表示长度为n-l3=48的全0向量,上标(
·
)
t
表示转置,为基站到智能超表面第b列反射单元的具有l1=4个抽头的时域信道向量,的第i个元素为基站到智能超表面第b列反射单元的时域信道第i个抽头系数,i=0,1,...,3,为智能超表面第b列反射单元到第k个用户的具有l2=13个抽头的时域信道向量,的的第个元素为智能超表面第b列反射单元到第k个用户的时域信道第个抽头系数,计算基站至第k个用户的直射路径在第n个子载波上的频域信道系数其中k=1,2,n∈sk,为基站到第k个用户具有l0=16个抽头的直接路径经零填充后的时域信道向量,其第m个元素为基站到第k个用户的直接路径时域信道第m个抽头系数,m=0,1,

,15,表示长度为n-l0=48的全0向量;令t时刻所述智能体x的环境状态表达式为:
[0042][0043]
步骤s3、若t=1,则进入步骤s4;否则,进入步骤s5。
[0044]
步骤s4、根据ε-贪婪策略,获取(0,1)之间的随机数x,如果x小于最小预设门限ε=0.95,ε每100个训练时隙下降1%直到0.1,智能体x就从码本中随机选择一个码字作为动作a
t
,否则,将状态s
t
输入智能体x的评价q网络u,输出为码本中每个动作码字的q值,从中选择q值最大的动作将动作a
t
作为当前t时刻的智能超表面反射系数向量并利用下式计算系统频谱效率作为t时刻的奖励r
t

[0045]
[0046]
其中,n
cp
=16为ofdm调制的循环前缀长度;pn表示基站平均分配给每个子载波的功率,pn=p
t
/n,n=0,1,...,n-1,p
t
=5dbm为基站的总发送功率;γ=8.8db是实际编码调制方式对系统容量的影响因子,σ2=-75dbm为噪声功率;令t=t 1,并进入步骤s2。
[0047]
步骤s5、将得到的四元组(s
t-1
,a
t-1
,r
t-1
,s
t
)作为一个经验样本存入经验池中,若经验池已存满,则用该经验样本覆盖经验池中最早的一个经验样本。
[0048]
步骤s6、智能体x从经验池中以批尺寸nb=32进行随机采样来计算评价q网络的目标值;然后对评价q网络进行梯度下降更新,并对目标q网络进行软更新,如果t-1》t,则停止迭代,否则转到步骤s4。
[0049]
步骤s7、训练完成后,智能体从环境中获得当前时刻t的信道并根据步骤s2中的方法将其转化为状态s
t
,将状态s
t
输入智能体x的评价q网络u,从其输出中选出q值最大的l个动作作为候选动作{a
(1)
,a
(2)
,...,a
(l)
},最后利用下式计算这l个候选动作的系统频谱效率:
[0050][0051]
选择{r
(1)
,r
(2)
,...,r
(l)
}中最大值对应的候选码字作为最终的智能超表面反射系数向量。
[0052]
所述步骤s6中,随机采样与网络更新方法按如下步骤进行:
[0053]
a1)判断t,如果t≥nb 1,从经验池d中随机采样nb个样本d=[d1,d2,...,dn],其中每个样本为经验池中存储的第ki个时刻的样本四元组;否则不采样,转到步骤s2继续产生并存储样本;
[0054]
a2)将d中所有样本的状态输入评价q网络,得到对应动作的价值函数估计值a2)将d中所有样本的状态输入评价q网络,得到对应动作的价值函数估计值按照bellman方程计算得到价值函数目标值其中γ为奖励函数的折扣因子,为目标q网络的价值函数估计值;
[0055]
a3)计算d中nb个样本均方误差作为评价q网络的损失函数:
[0056][0057]
其中为评价q网络的参数;
[0058]
a4)每个时隙对目标q网络的参数进行软更新:
[0059][0060]
公式中,τ=0.005为软更新参数。通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
[0061]
综上,本发明在运行时间复杂度和系统性能上均优于传统的数值迭代设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的智能超表面反射系数向量,特别是对于快速时变信道有很强的鲁棒性,可以实现高效的系统频谱效率。
[0062]
本发明未详述之处,均为本领域技术人员的公知技术。
[0063]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献