一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的复杂阵列天线智能设计方法与流程

2022-03-22 22:23:39 来源:中国专利 TAG:


1.本发明涉及深度学习领域,尤其涉及一种基于深度强化学习的复杂阵列天线智能设计方法。


背景技术:

2.在现有技术中天线是一种能接收或者能发射电磁波的装置,其广泛存在于无线通信、探测、导航等系统中,与人类生活紧密相关。天线性能的好坏关乎整个电子系统的性能优劣。单一单振子天线的性能在某些方面具有局限性,在一些重要的场合中,其性能不能满足该场合中系统所需要的某些特殊性能指标要求,如高增益、低副瓣、方向图可控等。为了获得较高的天线增益,方向性,驻波比等参数,可以利用组阵的形式来实现所需要的天线性能。
3.对于复杂阵列天线设计,不仅单个振子需要单独优化设计,而且其阵列单元在辐射表面排列灵活,同时还面临着功率分配网络的分布问题,天线的辐射场面临着计算量大,计算结果不容易收敛等问题。阵列天线的优化问题也往往由于其表面的独特而变得复杂化,其优化目标函数往往是多优化参数、非线性、多极值的,这些特点使得优化难度提高,因此对优化算法的性能也提出了更高的要求。
4.阵列天线的优化面临着参数数量过多的问题,往往需要成百上千次的调节各个参数计算才能获得所需要的阵列天线性能。利用设计的目标函数来评估当前参数对应的天线性能相对优劣,手动调节极其困难。高效的智能优化算法可以很好的解决电磁场求解计算量大,以及参数调节复杂等问题。


技术实现要素:

5.为了解决上述问题,本发明提供了一种自动化且快速的基于深度强化学习的复杂阵列天线智能设计方法,
6.为了到达上述目的,本发明设计的基于深度强化学习的复杂阵列天线智能设计方法,天线设计步骤为:
7.步骤一:根据所需要的天线辐射频率,天线辐射方向图,以及所处空间环境的要求,确定天线几何尺寸范围,初始化天线模型设计,建立初始天线辐射金属贴片结构,辐射金属贴片为固定尺寸的矩形;
8.步骤二:设定相应求解空间,求解维度,变量约束条件,寻优目标,寻优目标个数,归一化目标因子,状态空间,收敛条件;
9.步骤三:根据所设计初始天线模型,将天线结构进行离散化建模,利用程序进行相应位置的结构序列生成,利用程序代码控制天线相应位置的结构存在与否,通过随机结构位置的生成形成随机结构的天线形状,对天线电流分布以及天线电磁波辐射进行计算求解,得到天线电磁场分布,利用电磁场计算程序或软件进行电磁场辐射场仿真;
10.步骤四:利用markov decision process(mdp)进行深度算法学习,根据得到的天
线电磁场分布和辐射方向图,形成相应数据库,确定归一化的期望目标,采用bellman optimality方式进行学习过程,采用随机梯度策略实现目标自动逼近,确定回退策略,每一个序列的优化中,若优化结果不收敛,则回退进行继续优化,直至收敛为止,停止学习;或者优化至最优结果位置,停止学习;
11.步骤五:确定结果收敛情况,计算结果采用最大迭代次数法和目标实现法,进行收敛判定,判定结果收敛情况是否实现目标逼近或者满足最大迭代次数;如果是则接着执行步骤六,如果否则重复步骤三、四;
12.步骤六:计算天线参数结果并输出,基于优化参数结果进行参数化建模,确定计算结果并导出3d模型;
13.步骤七:结束学习。
14.进一步的方案是,步骤二中,所述求解维度对应被优化天线的几何尺寸及物理属性参数,所述求解空间对应天线的物理参数变化范围,所述变量约束条件对应优化过程中的天线参数对应关系以及结构参数要求,所述寻优目标对应天线设计的各种辐射性能参数优化目标要求,所述寻优目标个数对应天线设计的辐射性能参数优化目标的个数,所述归一化目标因子表示经过权重处理的多寻优目标归一化期望值,所述状态空间对应相应迭代深度强化学习过程中针对所要优化目标的结果,即所优化出的天线参数情况,所述收敛条件对应深度学习算法学习过程中,所计算的目标函数达到期望的条件。所述天线的物理参数变化范围,包括:天线辐射源个数、辐射单元尺寸、辐射单元间距、和整体尺寸,天线介电常数,损耗角正切,频率,整体尺寸取决于所述矩形辐射金属贴片的个数、尺寸和间距,通过改变矩形辐射金属贴片的位置、尺寸,实现天线上不同形式的电流分布,从而优化天线电磁波辐射的性能参数。
15.进一步的方案是,步骤三中,天线的辐射源由所述固定尺寸的矩形辐射金属贴片构成,每一个辐射源的电磁场等效为其中为场强分布,q为等效电电荷电量,为空间中观察点距离一个辐射源的矢量位置,k为相应空间的状态参量,一系列等效的辐射源辐射组合成为随机结构的不规律辐射单元,计算后得到天线电磁场分布。
16.步骤四中所需要的辐射方向图由理论公式得出,
[0017][0018]
其中z表示辐射方向,l为辐射源的长度,θ表示观察点到阵列天线中心点的直线和过天线中心点的法向直线的夹角,in(z

)和φn(z

)分别表示辐射源沿着天线的幅度和相位分布。
[0019]
步骤四中,采用所述markov decision process进行深度强化学习具体如下:
[0020]
p(s
t 1
,r
t 1
|s0,a0,r1....s
t
,a
t
)=p(s
t 1
,r
t 1
|s
t
,a
t
);
[0021]
即在状态s
t
时,采取动作a
t
后的状态s
t 1
和收益r
t 1
只与当前动作和状态有关,与历史状态无关。
[0022]
步骤四中,采用加权方式,确定归一化的期望目标,每一种辐射性能参数目标都被赋值为一定权重的期望目标值进行优化,对于n个目标,优化整体目标g,
[0023]
g==w1g1 w2g2 .... w
igi
.... w
ngn
[0024]
式子中wi为每种目标的权重系数。
[0025]
步骤四中,采用所述bellman optimality等式执行mdp强化学习过程,
[0026]
v(s)=e[r
t 1
γmaxv(s
t 1
)|s
t
=s];
[0027]
q(s,a)=e[r
t 1
γmaxq(s
t 1
,a

)|s
t
=s,a
t
=a];
[0028]
式子中γ为长期收益的折扣因子,e表示相应空间和状态下的期望值, a为相应状态下采取的动作。
[0029]
步骤四中,对于任一状态空间sn,采用所述随机策略梯度方式 stochastic gradient descent method进行多目标逼近计算,
[0030][0031]
δ表示梯度的变化量的一个值,表示梯度算符,表示导数算符,α表示迭代步数相关因子,p表示一个给定的概率函数,也就是说,在相应的状态空间s,输出动作服从一个概率分布;对于每次优化的天线场分布结果,逐渐调整结果梯度,朝最优值逼近。
[0032]
步骤四中,所述回退策略采用如下公式进行收益奖励和惩罚,即奖惩策略:
[0033][0034]
式子中v为响应步骤优化得到的结果,为从第i个结果到第n个结果的平均值,max(v)为第i个结果到第n个结果的最大值, min(v)为第i个结果到第n个结果的最小值,vc(xi)为回退策略中,该步骤的优化数值,v
c 1
(xi)为采用回退策略后下一步骤中,考虑奖惩策略后得到的值。
[0035]
回退策略中,根据bellman optimality等式,采用公式
[0036]v′
(s)=v(s)[v
c 1
(xi)
·r(n)
]
[0037]q′
(s,a)=q(s,a)[v
c 1
(xi)
·r(n)
]
[0038]
进行长期收益和期望求解,其中符号
·
为矩阵内积,v

(s)和q

(s,a)为s 状态下,得出采取回退策略和奖惩策略后新的辐射性能参数优化目标的综合期望和收益值。
[0039]
本发明所得到的基于深度强化学习的复杂阵列天线智能设计方法,通过把希望设计的天线将要达到的辐射性能参数目标的设计过程,转换成为一个被优化函数的目标极值寻优过程。利用优化策略,调整被优化函数中多个变量的方法,来实现天线多种物理参数的调整;从而实现被优化函数的最优值,即天线的期望辐射性能。利用该方法,在面对复杂电磁环境和复杂天线设计场景时,可以减小天线设计人员对电磁理论知识和经验的依赖,可以极大的提升复杂阵列天线设计效率和减少天线设计时间。
附图说明
[0040]
图1所需要设计天线的材料分布侧视图。
[0041]
图2被优化天线初始模型设置,其中暗色矩形金属贴片为金属辐射金 属贴片的位
置分布,以及尺寸。
[0042]
图3为深度学习策略markov decision process中采取的时间差分回 归方法示意图。
[0043]
图4为随机梯度策略优化二维空间图形展示。
[0044]
图5随机梯度策略优化三维空间图形展示。
[0045]
图6进行时间差分回退计算示意图。
[0046]
图7采用本算法的天线优化策略流程图。
[0047]
图8实施例基于深度强化学习算法对二维schaffer function优化所 得到的收敛情况图。
[0048]
图9实施例天线方向图。图10实施例天线回波损耗。
具体实施方式
[0049]
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
[0050]
实施例1。
[0051]
本实施例描述的基于深度强化学习的复杂阵列天线智能设计方法,首先进行天线基础模型设计。根据所需要的天线辐射频率,方向图,以及所处空间环境的要求,确定天线几何尺寸范围,进行模型设计规划。
[0052]
如图1所示,以本实施例中的pcb微带天线为例,进行介质板加工,镀膜覆铜。本实施例中的天线主干结构分为三层,最下层为一层厚度为 0.035mm的覆铜层;中间层是厚度为2mm的介质板,其介电常数为2.65;最上方进行0.035mm厚的覆铜镀膜,其金属覆膜方法根据所设计的形状进行调整。
[0053]
如图1为该天线侧视图,其最下方为铜膜为金属底板,用于反射电磁波,阻挡电磁波向后方辐射,从而减小天线后瓣。中间层为介质层,其作用为承载电磁波辐射的媒质;通过控制媒质的介电常数,从而调节电磁波在媒质中的传播和电磁场分布,从而调节天线的电磁波辐射;最上方为金属覆铜辐射金属贴片,通过控制金属贴片的大小,位置,间距,实现天线本身的电流分布控制来实现天线电磁波的控制,从而实现所需要的天线辐射方向图,增益,旁瓣抑制等天线指标要求。
[0054]
确定天线辐射方向,和在辐射空间中的摆放位置,进行初始化三维数值建模,其模型设计和实物等尺寸。如图1所示,该图为天线的分层结构示图示。第一层为天线上方分布不规则金属贴片1,该金属贴片1采用金属镀膜方式进行覆铜;第二层为金属贴片1的下方支撑天线结构设计的特氟龙介质板2,同时用于电磁波在板间传输;第三层为用于传导电流的微带功分结构层3,采用金属镀膜方式实现,第四层为支撑金属镀膜层的特氟龙介质板4,用于电磁波在板间的传输,第五层是天线下方的金属底板 5,微带功分结构层3的下部连接有用于电磁波馈电的同轴线内导体6,导体6的外部为用于电磁波馈电传输的外围介质7,导体6和外围介质7 共同决定了馈电口的工作频率。
[0055]
制作好矩形支撑天线结构设计的特氟龙介质板2和支撑金属镀膜层的特氟龙介质板4,将不规则金属贴片1放置于支撑天线结构设计的特氟龙介质板2之上,在支撑天线结构
设计的特氟龙介质板2的下方金属覆铜镀膜并进行刻蚀,形成微带公分结构馈电电路。同时,微带功分结构层3 和金属底板5之间设置支撑金属镀膜层的特氟龙介质板4,支撑天线结构设计的特氟龙介质板2和微带功分结构层3共同形成双层微带金属结构辐射天线。
[0056]
图2阴影部分为初始天线模型金属微带金属贴片分布。l1为介质基板长度,l2是介质基板宽度,虚线8为图示中省略掉的金属贴片,a是具体到每一位置的金属贴片。
[0057]
d1和d2分别为所优化的矩形金属覆铜金属贴片的几何尺寸,本实施例中,所有位置点的矩形金属贴片采用相同几何尺寸,即实施例中,即采用尺寸为d1×
d2的矩形金属贴片进行优化,实现天线电磁波的辐射。
[0058]
矩形金属贴片的位置中心点采用不等间隔的方法,进行优化。以第i行,第j列的金属贴片为例,其间隔为p
ij
d1;而对于第m行,第n列的金属贴片,其间隔为s
mm
d2。计算中,通过调整p
ij
d1和s
mn
d2,实现辐射金属贴片中心位置的调整。
[0059]
金属贴片边缘测,横向的间距为p
ij
,纵向的间距为s
mn
。p
ij
和s
m,n
的值随着i,j,m,n的变化而改变。实优化过程中,优化i,j,m,n序号对应的间距,实现深度学习。
[0060]
实施例中,所有金属贴片位于总大小为l1×
l2的矩形平面上。对每一个金属贴片c
ij
(表示第i行,第j列个金属贴片),进行进一步的分割,分割成为m
×
n个小单元。通过控制每一个小单元生成或者消失,实现不同的平面辐射结构。
[0061]
图3为图2中的a表示的一个金属贴片;由介质基板上方金属贴片提取出的优化后的金属贴片;其线条形状,以及尺寸,均为通过利用算法优化得出。具体的,每一个金属贴片的形状,大小均不同。
[0062]
确定所要优化的天线参数变量,即参数变化范围。包括:天线辐射源个数、辐射单元尺寸、辐射单元间距、和整体尺寸,天线介电常数,损耗角正切,频率。该一系列参数对应于深度强化学习算法中所要优化的变量。
[0063]
对于该天线,其整体尺寸取决于辐射金属贴片的个数,和尺寸和间距;天线共有辐射金属贴片尺寸l,辐射金属贴片个数n,天线辐射源间距d;以及天线介电常数实部ε

,损耗角正切ε

两个限定变量(根据可以获得的材料,采用媒质的介电常数和损耗角正切只在给定的数值内选择)。
[0064]
确定材料属性,本实施例的边界空间设置为空气,并设定为开放辐射空间边界条件,利用时域有限差分数值方法(finite-difference timedomain method,fdtd)进行天线电流分布求解,以及天线电磁波辐射求解。而具体的实施过程中,不局限于本实施例中的时域有限差分方法,可以采用任意电磁场数值计算方法。
[0065]
天线电流分布由图1中的各个层共同决定。本实施例中,通过对同轴线导体6和外围介质7进行馈电,实现电磁波的输入;电磁波在天线上的两层特氟龙介质中传播。同时,感应电流产生于金属贴片1和微带功分结构层3,并实现电磁波的空间辐射。深度学习算法强化学习过程中,通过改变图1中的不规则金属贴片1的位置,尺寸大小,实现天线上不同形式的电流分布,从而优化天线电磁波辐射的性能参数。
[0066]
如前述,天线在辐射金属贴片尺寸l,辐射金属贴片个数n,天线辐射源间距d,天线采用介质的介电常数ε,四个优化维度中,进行寻优和目标优化。本实施例中对应的具体参数为辐射金属贴片间的距离参数p
ij
, s
ij
;天线辐射金属贴片的尺寸参数di,dj;以及每个金属贴片上被分割成为小金属贴片的个数m
×
n,以及媒质的介电常数ε=ε

ε


[0067]
根据所计算的天线电流分布以及辐射方向图,形成相应数据库。利用深度学习算法调整每次所要优化的参数,进行数据库更新和迭代。调整参数包括天线辐射单元尺寸,辐射单元间距,辐射单元形状,天线几何参数尺寸。
[0068]
天线的归一化综合目标函数值,采用梯度策略进行目标优化逼近。如图4所示,二维情形下,对归一化综合目标参数优化结果进行投影,得到函数值在平面上的路径曲线。如图5所示,展示了归一化综合目标函数值在三维情形下的路径曲线。
[0069]
如图6所示,采用本实施例中的深度学习方法,其优化结果可能并非为最优解(本实施例中对应的为最小值),也有可能为次优解。遇到该过程,采取回退策略,进行继续学习,或者沿巡该路径继续优化,直至达到设定收敛条件为止。根据数据库记录,对于每一路径,优化不收敛的数据,进行回退;若连续多次回退重新优化不收敛,则从数据库中移除该深度学习策略路径。
[0070]
采用深度学习算法优化过程中,对于每组预测结果达不到预设期望的归一化天线目标期望,进行时间差分回退计算,如图4所示,重新进行优化结果预测。为保证具有较好性能,但是没有达到目标的优化结果能够得到更好的延续;以及加速性能差的结果淘汰速率,回退策略采用如下公式进行收益奖励和惩罚:
[0071][0072]
式子中v为响应步骤优化得到的结果,为从第i个结果到第n个结果的平均值,max(v)为第i个结果到第n个结果的最大值, min(v)为第i个结果到第n个结果的最小值,vc(xi)为回退策略中,该步骤的优化数值,v
c 1
(xi)为采用回退策略后下一步骤中,考虑惩罚因子后得到的值。
[0073]
结合bellman optimality等式执行mdp强化学习过程,采用公式
[0074]v′
(s)=v(s)[v
c 1
(xi)
·r(n)
]
[0075]q′
(s,a)=q(s,a)[v
c 1
(xi)
·r(n)
]
[0076]
进行长期收益和期望求解。其中符号
·
为矩阵内积。v

(s)和q

(s,a)为s 状态下,采取回退策略和奖惩策略后新的综合期望和收益值。
[0077]
依据步骤四的方法,该算法的学习参数设置为天线方向图r,增益ga,带宽w,回波损耗s
11
;归一化函数权重系数设置为w1=0.4,w1=0.1, w3=0.2,w4=0.3;即:
[0078]
g=w1ga w2r w3w w4s
11
[0079] =0.4ga 0.1r 0.2w 0.3s
11
[0080]
如图7展示了本实施例中,采用深度学习算法调用电磁场数值计算的流程图。对于每一个序列的优化中,若优化结果不收敛,则回退进行继续优化,直至收敛为止,停止学习;或者优化至最优结果位置,停止学习。
[0081]
深度学习过程中,首先设置寻优空间,得到空间内的相应数据集合的电磁场分布数据库;实施例中的寻优空间即对应于参数的优化范围。实施例中参数p
ij
和s
ij
寻优空间设定为[15mm-20mm],di和dj设定为 [8mm-10mm],m
×
n设定为[5
×
5-10
×
10],ε=ε

ε

设定为[2.65||4.4]。这里符号||为或运算符。
[0082]
通过mdp(markov decision process)设置进行深度算法学习;制定归一化期望目
标,制定动态折扣因子进行计算,折扣因子权重采用惩罚机制策略。优化过程中,采用目标梯度逼近方法,进行目标最优值的计算。
[0083]
梯度计算中,本实施例采用归一化计算结果g作为优化目标,天线方向图r,增益ga,带宽w,回波损耗s
11
作为优化变量;梯度策略优化的实现,采用如下公式实现
[0084][0085]
这里max为取最大值函数,对于每次优化的归一化天线性能,逐渐调整优化结果,确保寻找到最大梯度值,以最快速度朝最优值逼近,直至到达如000050]中描述的计算结果。
[0086]
本实施例中,计算结果采用最大迭代次数法和目标实现法,进行收敛判定;当计算代数为大于等于500代,及每个深度学习路径数据库记录大于等于500,则进行时间差分回退计算;当学习结果达到目标要求,则进行数据库记录。
[0087]
为证明本实施例深度学习算法的学习能力,采用二维schaffer function 基准函数对该算法进行测试。该函数为典型的多目标,多优化参数基准函数。算法对该函数寻优速度和精度的表现,可以体现算法的性能。如图8 所示,其展示了本实施例基于该深度强化学习算法对二维schaffer function 优化所得到的收敛情况,以及采用传统遗传算法得到的收敛情况对比。相对于传统遗传算法,实施例中的深度学习算法只需要9
×
104代,即可以实现收敛程度<10-13
数量级,从而证明了该算法性能的优越性。
[0088]
基于实施例中的深度学习算法,进行天线优化,并提取数据库中得到的最优结果。将本实施例中描述的优化结果,进行反向数值建模,并利用本实施例中采用的时域有限差分方法计算,得到天线的最终辐射效果。图 9展示了本实施例中计算的天线辐射方向图,该天线的辐射达到高增益的天线优化目标;图10展示了基于本实施例计算得到的回波损耗(s
11
)。其结果证明通过本实施例方法得到的天线,性能符合最终的设计目的。
[0089]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献