一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统

2022-12-20 01:51:12 来源:中国专利 TAG:


1.本发明涉及工业物联网的技术领域,更具体地,涉及一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统。


背景技术:

2.工业是物联网应用的重要领域,随着科学技术的不断发展,工业物联网已然成为智能制造和工业4.0的代名词。各类先进智能技术不断地融入到工业生产的各个环节,如人工智能(ai)、机器学习、增强/虚拟现实(ar/vr)、数字孪生/线程、云/边缘计算等智能技术。工业物联网智能设备需要与其他智能设备进行联邦学习来提高自身模型性能,但考虑到数据的隐私性,用户不愿意提供个人数据。但智能设备未经用户同意擅自收集数据并上传至服务器,用户是不易感知到的。因此目前,数据在互联网中形成“数据孤岛”现象,各方数据不能直接共享或者交换。联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模。在中央服务器或服务提供商的协调下,每个参与方通过特定的中间运算结果的传输和聚合,来达到机器学习模型训练的目的,参与方之间不进行原始数据的交换或传输,保证了本地隐私数据的安全。联邦学习可以结合多个参与方的经验来优化一个共同模型,从数据的样本量上分析,该模型必然比任意一个参与方自行训练的模型性能更好。但与此同时,数据参考价值也极大地影响了模型的性能;联邦学习除了考虑本地样本的新鲜度外,还需要考虑用户通讯环境对模型上传时延的影响。差劲的通讯环境会导致用户掉队,用户掉队后无法上传其模型,随着时间的推移,该模型也失去其价值,过时的数据参与到模型训练只会导致模型性能变得更差,无法发挥数据量的优势。正确考虑模型的新鲜度能极大地提供最终模型的性能和利用价值,消除了联邦学习潜在的反向优化风险,充分发挥了联邦学习的优势。通信技术的快速发展使得工业物联网智能设备间的交互延迟变得极低,一系列时延敏感的技术在物联网中的应用成为了可能。数字孪生技术可在数字世界中构建出与物理实体高度相似的数字孪生体;该数字孪生体能模拟物理实体在现实世界中的动作和运动变化规律。数字孪生体与物理实体实时交互,实时更新状态和环境,具有高度的保真性,同时数字孪生体上的仿真和动作模拟推测也可以作用于物理实体。
3.现有技术提供了一种基于边缘数字孪生关联的联邦学习方法及系统,包括参与联邦学习的用户分别生成数字孪生体;使用多对一匹配算法将数字孪生体与边缘服务器配对;服务器构建任务并发布至边缘服务器,数字孪生体利用与其配对的边缘服务器的资源进行联邦学习,并将其局部迭代训练得到的模型传输至边缘服务器;边缘服务器将与其配对的数字孪生体训练得到的模型进行聚合得到局部模型,并将局部模型上传至服务器;服务器将其接收的局部模型进行聚合得到全局模型,检验全局模型精度是否达到预设的阈值,若否,则将当前的全局模型下发至边缘服务器进行训练;若是,则完成当前联邦学习。该方法虽然一定程度上解决了联邦学习模型训练时延迟高的缺陷,但是没有考虑训练数据参考价值,存在很高的反向优化风险,导致模型性能变得更差。


技术实现要素:

4.本发明为克服上述现有技术对联邦学习模型训练时延迟高、易反向优化的缺陷,提供一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统,能够减少联邦学习的时延,提高联邦学习的学习效率,杜绝了出现反向优化的情况,提高了联邦学习模型的性能。
5.为解决上述技术问题,本发明的技术方案如下:
6.本发明提供了一种基于数字孪生辅助的联邦学习新鲜度优化方法,包括:
7.s1:构建工业物联网联邦学习模型,所述模型包括一个中心服务器和若干个智能设备,并生成每个智能设备对应的数字孪生体,保存在中心服务器;
8.s2:根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度;
9.s3:以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;
10.s4:将所述优化问题转化为马尔科夫决策过程,定义工业物联网联邦学习模型的状态空间、动作空间和回报函数;
11.s5:基于近端策略优化算法建立深度强化学习网络,利用状态空间、动作空间和回报函数对深度强化学习网络进行训练,获得训练好的深度强化学习网络;
12.s6:利用训练好的深度强化学习网络进行资源调度,获得最优调度策略,即每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率;
13.s7:将每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率应用到对应的智能设备。
14.本发明首先构建工业物联网联邦学习模型,包括一个中心服务器和若干个智能设备,每个智能设备生成对应的数字孪生体,保存在中心服务器中;根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度,并以三者之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;通过引入本地数据新鲜度和模型参数新鲜度,合理调整分配带宽,最大程度提高本地模型的新鲜度,降低智能设备的掉队概率,进而有效降低联邦学习的时延,最终提高全局模型的性能;为现实空间的智能设备在虚拟空间生成对应的数字孪生体,两者运转方式完全同步,通过建立深度强化学习网络并进行优化,在数字孪生体上得出最优调度策略,再作用在现实空间中对应的智能设备上,既提高了学习效率,又能减少智能设备的实体资源损耗;近端策略优化算法可以适应并消除网络优化过程中数字孪生体虚实映射的噪声干扰,保证了优化方向和优化结果的正确性。同时保证了每个智能设备的隐私安全,增强数据的实用性和安全性,降低了智能设备参与联邦学习的时间延迟和能量消耗,实现了实时低功耗高质量服务。
15.优选地,所述步骤s1中,构建的工业物联网联邦学习模型具体为:
16.工业物联网联邦学习模型包括一个中心服务器和k个智能设备,每个智能设备对应生成数字孪生体,共生成k个数字孪生体保存在中心服务器中;中心服务器向数字孪生体发送联邦学习请求,数字孪生体接收到联邦学习请求后开始进行联邦学习,收集数据并计算,训练本地模型,将训练好的本地模型更新到中心服务器;中心服务器将接收的各本地模
型聚合为全局模型;
17.设定中心服务器最大带宽为bm,分配给第k个数字孪生体的带宽为bk,第k个数字孪生体数据收集频率为第k个数字孪生体数据计算频率为k=1,2,

,k。
18.影响一轮联邦学习的时延和能耗的因素主要有两个,一是智能设备从收到联邦学习请求到向中心服务器发送本地模型的时延,二是智能设备从开始上传到完成上传的时延。在联邦学习中,智能设备的训练需要大量的数据样本,陈旧的数据对智能设备的训练没有太大的效果甚至会降低智能设备的最终性能,本发明出了考虑本地数据新鲜度外,还考虑率了通讯环境对本地模型上传时延的影响:差劲的通讯环境会导致智能设备掉队的情况,掉队后无法上传本地模型,随着时间的推移,该本地模型也失去其价值,即模型参数新鲜度;在联邦学习过程中,智能设备通过无线通信实现全局模型下载和本地模型的上传,而中心服务器除了全局模型的维护更新外,还需要为各智能设备分配合适的带宽并指引其调整自身数据收集频率与计算频率;中心服务器的计算资源相对于智能设备要强大很多,将智能设备的数字孪生体都保存在中心服务器中,利用虚拟空间内执行决策不需要消耗物理实体计算和通讯资源的特点,让调度策略在虚拟空间内执行,既节省了智能设备执行调度策略过程中的计算时间和能耗,也省去了通讯过程中可能存在的掉队问题带来的漫长时延。
19.优选地,所述步骤s2中,根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗的具体方法为:
20.第k个数字孪生体的每个cpu周期的浮点运算次数为ck,收集一组数据所需的浮点运算次数为则每收集一组数据的耗时为:
[0021][0022]
式中,表示第k个数字孪生体每收集一组数据的耗时;
[0023]
第k个数字孪生体完成一次联邦学习到接收下一次联邦学习请求的时间间隔为则数据收集过程的能耗为:
[0024][0025]
式中,表示第k个数字孪生体数据收集过程的能耗,pk表示第k个数字孪生体单位时间能耗;
[0026]
第k个数字孪生体完成一组收集数据的计算并更新所需的浮点运算次数为则进行一轮数据计算的本地时延为:
[0027][0028]
式中,表示第k个数字孪生体进行一轮数据计算的本地时延;
[0029]
第k个数字孪生体将训练好的本地模型上传至中心服务器的上传时间为:
[0030][0031]
式中,d表示训练好的本地模型的数据量,τk表示第k个数字孪生体到中心服务器的信噪比;
[0032]
则所有智能设备的数字孪生体进行一轮联邦学习的能耗为:
[0033][0034]
式中,e表示所有智能设备的数字孪生体进行一轮联邦学习的能耗。
[0035]
优选地,所述步骤s2中,根据工业物联网联邦学习模型,计算本地数据新鲜度的具体方法为:
[0036]
设定智能设备的数字孪生体训练本地模需要收集n组数据,数字孪生体接收到联邦学习请求后开始训练本地模型的时刻记为traintime;
[0037]
当数字孪生体接收到联邦学习请求时正处于空闲状态,数据新鲜度为:
[0038][0039]
式中,表示处于空闲状态的第k个数字孪生体第n组数据的数据新鲜度,表示第k个数字孪生体第n组数据的保存时刻;
[0040]
当数字孪生体接收到联邦学习请求时正在收集第i组数据,则数据由第i组数据和上一轮n-i组数据组成,数据新鲜度为:
[0041][0042]
式中,i《n。
[0043]
优选地,所述步骤s2中,根据工业物联网联邦学习模型,计算模型参数新鲜度的具体方法为:
[0044]
设定中心服务器等待时间阈值t
astrict
,当且仅当时,第k个数字孪生体上传的训练好的本地模型被中心服务器接收,否则视为该数字孪生体掉队;k个数字孪生体均在t
astrict
内完成训练好的本地模型参数的上传,完成上传时刻的模型参数新鲜度为:
[0045][0046]
式中,表示第m个训练好的本地模型完成上传时刻的模型参数新鲜度,表示第m个训练好的本地模型上传至中心服务器的上传时间;
[0047]
中心服务器保存第m个训练好的本地模型的模型参数的时刻记为t
sc
(t),中心服务器开始全局模型聚合的时刻记为aggregatetime,则聚合时刻的模型参数新鲜度为:
[0048][0049]
式中,表示第m个训练好的本地模型聚合时刻的模型参数新鲜度。
[0050]
优选地,所述步骤s3中,以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题,具体为:
[0051]
根据本地数据新鲜度和模型参数新鲜度计算总新鲜度a:
[0052][0053]
则联合带宽分配、数据收集频率和数据计算频率的优化问题表示为:
[0054][0055][0056][0057][0058][0059]
c5:λ μ=1
[0060]
式中,m
agg
表示参与联邦学习的数字孪生体数量,m
upd
表示在t
astrict
内成功上传其本地模型的数字孪生体数量,表示第k个数字孪生体的最大可用计算频率,λ表示新鲜度权重,μ表示能耗权重。
[0061]
优选地,所述步骤s4中,定义的工业物联网联邦学习模型的状态空间、动作空间和回报函数具体为:
[0062]
在工业物联网联邦学习模型中,中心服务器从环境中观测获得数字孪生体当前状态s
t
组成状态空间,当前状态s
t
对应当前动作a
t
,智能设备的数字孪生体执行动作空间中的当前动作a
t
,与中心服务器进行交互,返还当前回报r
t
和新状态s
t 1

[0063]
在状态空间中,当前状态表达式为s
t
={每个智能设备的数字孪生体接收到联邦学习请求时正在执行的仍需收集的数据量,每个智能设备的数字孪生体在最新两轮次联邦学习请求间隙收集的数据量,两轮次联邦学习请求的时间间隔,每轮次联邦学习中智能设备的数字孪生体的掉队数量};
[0064]
在动作空间中,当前动作表达式
[0065]
当前回报r
t
等于执行当前动作a
t
后到下一轮联邦学习请求下发之间,所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和,即r
t
=λa μe。
[0066]
优选地,所述步骤s5中,建立的深度强化学习网络包括经验缓冲区、actor网络、
critic网络和oldactor网络;
[0067]
在每个时刻,actor网络的输入为当前状态s
t
,生成并输出当前动作a
t
=μ
θ
(s
t
);critic网络根据当前状态s
t
评估当前动作a
t
的价值数字孪生体执行当前动作a
t
后,生成新状态s
t 1
和当前回报r
t
,将[s
t
,a
t
,r
t
,s
t 1
]储存在经验缓冲区中;oldactor网络的网络参数间隔更新,每间隔若干轮次联邦学习,将actor网络的网络参数θ复制作为oldactor网络的网络参数θ
*
,oldactor网络输出为,oldactor网络输出为用于比较当前动作a
t
的变化幅度;
[0068]
actor网络更新网络参数θ的损失函数为:
[0069][0070]
式中,表示oldactor网络输出的当前动作,adv
t
(s
t
,a
t
)表示优势函数,表示将的上下界限制为[1-∈,1 ∈],∈表示上下界限限制值,∈∈(0,1);
[0071]
critic网络更新网络参数θc的损失函数为:
[0072]
l(θc)=mse(v
t
,r
t
)
[0073]
式中,mse(v
t
,r
t
)表示均方差函数;
[0074]
利用策略梯度方法对actor网络和critic网络进行迭代训练,损失函数值收敛时,得到最优网络参数θ、θc和θ
*
,获得训练好的深度强化学习网络。
[0075]
优选地,所述步骤s6的具体方法为:
[0076]
中心服务器观测当前所有智能设备的数字孪生体的当前状态,输入训练好的深度强化学习网络中,生成当前动作;将当前动作中的作为最优调度策略,当前动作中包括的bk作为每个智能设备的数字孪生体的最优数据收集频率、最优数据计算频率和分配的最优带宽。
[0077]
本发明还提供了一种基于数字孪生辅助的联邦学习新鲜度优化系统,基于上述的基于数字孪生辅助的联邦学习新鲜度优化方法,所述系统包括:
[0078]
模型构建模块,用于构建工业物联网联邦学习模型,所述模型包括一个中心服务器和若干个智能设备,并生成每个智能设备对应的数字孪生体,保存在中心服务器中;
[0079]
计算模块,用于根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度;
[0080]
优化问题建立模块,用于以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;
[0081]
优化问题转化模块,用于将所述优化问题转化为马尔科夫决策过程,定义工业物联网联邦学习模型的状态空间、动作空间和回报函数;
[0082]
网络构建训练模块,用于基于近端策略优化算法建立深度强化学习网络,利用状态空间、动作空间和回报函数对深度强化学习网络进行训练,获得训练好的深度强化学习网络;
[0083]
资源调度模块,利用训练好的深度强化学习网络进行资源调度,获得最优调度策略,即每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率;
[0084]
调度应用模块,用于将每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率应用到对应的智能设备。
[0085]
与现有技术相比,本发明技术方案的有益效果是:
[0086]
本发明首先构建工业物联网联邦学习模型,包括一个中心服务器和若干个智能设备,每个智能设备生成对应的数字孪生体,保存在中心服务器中;根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度,并以三者之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;通过引入本地数据新鲜度和模型参数新鲜度,合理调整分配带宽,最大程度提高本地模型的新鲜度,降低智能设备的掉队概率,进而有效降低联邦学习的时延,最终提高全局模型的性能;为现实空间的智能设备在虚拟空间生成对应的数字孪生体,两者运转方式完全同步,通过建立深度强化学习网络并进行优化,在数字孪生体上得出最优调度策略,再作用在现实空间中对应的智能设备上,既提高了学习效率,又能减少智能设备的实体资源损耗;近端策略优化算法可以适应并消除网络优化过程中数字孪生体虚实映射的噪声干扰,保证了优化方向和优化结果的正确性。同时保证了每个智能设备的隐私安全,增强数据的实用性和安全性,降低了智能设备参与联邦学习的时间延迟和能量消耗,实现了实时低功耗高质量服务。
附图说明
[0087]
图1为实施例1所述的一种基于数字孪生辅助的联邦学习新鲜度优化方法的流程图。
[0088]
图2为实施例1所述的工业物联网联邦学习模型的示意图。
[0089]
图3为实施例2所述的深度强化学习网络的示意图。
[0090]
图4为实施例3所述的一种基于数字孪生辅助的联邦学习新鲜度优化系统的结构示意图。
具体实施方式
[0091]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0092]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0093]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0094]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0095]
实施例1
[0096]
本实施例提供了一种基于数字孪生辅助的联邦学习新鲜度优化方法,如图1所示,包括:
[0097]
s1:构建工业物联网联邦学习模型,所述模型包括一个中心服务器和若干个智能
设备,并生成每个智能设备对应的数字孪生体,保存在中心服务器中;
[0098]
s2:根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度;
[0099]
s3:以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;
[0100]
s4:将所述优化问题转化为马尔科夫决策过程,定义工业物联网联邦学习模型的状态空间、动作空间和回报函数;
[0101]
s5:基于近端策略优化算法建立深度强化学习网络,利用状态空间、动作空间和回报函数对深度强化学习网络进行训练,获得训练好的深度强化学习网络;
[0102]
s6:利用训练好的深度强化学习网络进行资源调度,获得最优调度策略,即每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率;
[0103]
s7:将每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率应用到对应的智能设备。
[0104]
在具体实施过程中,本实施例首先构建工业物联网联邦学习模型,如图2所示,包括一个中心服务器和若干个智能设备,每个智能设备生成对应的数字孪生体,保存在中心服务器中;根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度,并以三者之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;通过引入本地数据新鲜度和模型参数新鲜度,合理调整分配带宽,最大程度提高本地模型的新鲜度,降低智能设备的掉队概率,进而有效降低联邦学习的时延,最终提高全局模型的性能;为现实空间的智能设备在虚拟空间生成对应的数字孪生体,两者运转方式完全同步,通过建立深度强化学习网络并进行优化,在数字孪生体上得出最优调度策略,再作用在现实空间中对应的智能设备上,既提高了学习效率,又能减少智能设备的实体资源损耗;近端策略优化算法可以适应并消除网络优化过程中数字孪生体虚实映射的噪声干扰,保证了优化方向和优化结果的正确性。同时保证了每个智能设备的隐私安全,增强数据的实用性和安全性,降低了智能设备参与联邦学习的时间延迟和能量消耗,实现了实时低功耗高质量服务。
[0105]
实施例2
[0106]
本实施例提供了一种基于数字孪生辅助的联邦学习新鲜度优化方法,包括:
[0107]
s1:构建工业物联网联邦学习模型,所述模型包括一个中心服务器和若干个智能设备,并生成每个智能设备对应的数字孪生体,保存在中心服务器中;具体的:
[0108]
工业物联网联邦学习模型包括一个中心服务器和k个智能设备,每个智能设备对应生成数字孪生体,共生成k个数字孪生体保存在中心服务器中;中心服务器向数字孪生体发送联邦学习请求,数字孪生体接收到联邦学习请求后开始进行联邦学习,收集数据并计算,训练本地模型,将训练好的本地模型更新到中心服务器;中心服务器将接收的各本地模型聚合为全局模型;
[0109]
设定中心服务器最大带宽为bm,分配给第k个数字孪生体的带宽为bk,第k个数字孪生体数据收集频率为第k个数字孪生体数据计算频率为k=1,2,

,k。
[0110]
s2:根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联
邦学习的能耗、本地数据新鲜度和模型参数新鲜度;具体的:
[0111]
第k个数字孪生体的每个cpu周期的浮点运算次数为ck,收集一组数据所需的浮点运算次数为则每收集一组数据的耗时为:
[0112][0113]
式中,表示第k个数字孪生体每收集一组数据的耗时;
[0114]
第k个数字孪生体完成一次联邦学习到接收下一次联邦学习请求的时间间隔为则数据收集过程的能耗为:
[0115][0116]
式中,表示第k个数字孪生体数据收集过程的能耗,pk表示第k个数字孪生体单位时间能耗;
[0117]
第k个数字孪生体完成一组收集数据的计算并更新所需的浮点运算次数为则进行一轮数据计算的本地时延为:
[0118][0119]
式中,表示第k个数字孪生体进行一轮数据计算的本地时延;
[0120]
第k个数字孪生体将训练好的本地模型上传至中心服务器的上传时间为:
[0121][0122]
式中,d表示训练好的本地模型的数据量,τk表示第k个数字孪生体到中心服务器的信噪比;
[0123]
则所有智能设备的数字孪生体进行一轮联邦学习的能耗为:
[0124][0125]
式中,e表示所有智能设备的数字孪生体进行一轮联邦学习的能耗;
[0126]
设定智能设备的数字孪生体训练本地模需要收集n组数据,数字孪生体接收到联邦学习请求后开始训练本地模型的时刻记为traintime;
[0127]
当数字孪生体接收到联邦学习请求时正处于空闲状态,数据新鲜度为:
[0128][0129]
式中,表示处于空闲状态的第k个数字孪生体第n组数据的数据新鲜度,表示第k个数字孪生体第n组数据的保存时刻;
[0130]
当数字孪生体接收到联邦学习请求时正在收集第i组数据,则数据由第i组数据和
上一轮n-i组数据组成,数据新鲜度为:
[0131][0132]
式中,i《n;
[0133]
设定中心服务器等待时间阈值t
astrict
,当且仅当时,第k个数字孪生体上传的训练好的本地模型被中心服务器接收,否则视为该数字孪生体掉队;k个数字孪生体均在t
astrict
内完成训练好的本地模型参数的上传,完成上传时刻的模型参数新鲜度为:
[0134][0135]
式中,表示第m个训练好的本地模型完成上传时刻的模型参数新鲜度,表示第m个训练好的本地模型上传至中心服务器的上传时间;
[0136]
中心服务器保存第m个训练好的本地模型的模型参数的时刻记为t
sc
(t),中心服务器开始全局模型聚合的时刻记为aggregatetime,则聚合时刻的模型参数新鲜度为:
[0137][0138]
式中,表示第m个训练好的本地模型聚合时刻的模型参数新鲜度;
[0139]
s3:以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;具体的:
[0140]
根据本地数据新鲜度和模型参数新鲜度计算总新鲜度a:
[0141][0142]
则联合带宽分配、数据收集频率和数据计算频率的优化问题表示为:
[0143][0144][0145][0146][0147][0148]
c5:λ μ=1
[0149]
式中,m
agg
表示参与联邦学习的数字孪生体数量,m
upd
表示在t
astrict
内成功上传其
本地模型的数字孪生体数量,表示第k个数字孪生体的最大可用计算频率,λ表示新鲜度权重,μ表示能耗权重。
[0150]
s4:将所述优化问题转化为马尔科夫决策过程,定义工业物联网联邦学习模型的状态空间、动作空间和回报函数;
[0151]
在工业物联网联邦学习模型中,中心服务器从环境中观测获得数字孪生体当前状态s
t
组成状态空间,当前状态s
t
对应当前动作a
t
,智能设备的数字孪生体执行动作空间中的当前动作a
t
,与中心服务器进行交互,返还当前回报r
t
和新状态s
t 1

[0152]
在状态空间中,当前状态表达式为s
t
={每个智能设备的数字孪生体接收到联邦学习请求时正在执行的仍需收集的数据量,每个智能设备的数字孪生体在最新两轮次联邦学习请求间隙收集的数据量,两轮次联邦学习请求的时间间隔,每轮次联邦学习中智能设备的数字孪生体的掉队数量};
[0153]
在动作空间中,当前动作表达式
[0154]
当前回报r
t
等于执行当前动作a
t
后到下一轮联邦学习请求下发之间,所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和,即r
t
=λa μe。
[0155]
s5:基于近端策略优化算法建立深度强化学习网络,利用状态空间、动作空间和回报函数对深度强化学习网络进行训练,获得训练好的深度强化学习网络;
[0156]
如图3所示,建立的深度强化学习网络包括经验缓冲区、actor网络、critic网络和oldactor网络;
[0157]
在每个时刻,actor网络的输入为当前状态s
t
,生成并输出当前动作a
t
=μ
θ
(s
t
);critic网络根据当前状态s
t
评估当前动作a
t
的价值数字孪生体执行当前动作a
t
后,生成新状态s
t 1
和当前回报r
t
,将[s
t
,a
t
,r
t
,s
t 1
]储存在经验缓冲区中;oldactor网络的网络参数间隔更新,每间隔若干轮次联邦学习,将actor网络的网络参数θ复制作为oldactor网络的网络参数θ
*
,oldactor网络输出为,oldactor网络输出为用于比较当前动作a
t
的变化幅度;
[0158]
actor网络更新网络参数θ的损失函数为:
[0159][0160]
式中,表示oldactor网络输出的当前动作,adv
t
(s
t
,a
t
)表示优势函数,表示将的上下界限制为[1-∈,1 ∈],∈表示上下界限限制值,∈∈(0,1);
[0161]
critic网络更新网络参数θc的损失函数为:
[0162]
l(θc)=mse(v
t
,r
t
)
[0163]
式中,mse(v
t
,r
t
)表示均方差函数;
[0164]
利用策略梯度方法对actor网络和critic网络进行迭代训练,损失函数值收敛时,得到最优网络参数θ、θc和θ
*
,获得训练好的深度强化学习网络。
[0165]
s6:利用训练好的深度强化学习网络进行资源调度,获得最优调度策略,即每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率;具体的:
[0166]
中心服务器观测当前所有智能设备的数字孪生体的当前状态,输入训练好的深度强化学习网络中,生成当前动作;将当前动作中的作为最优调度策略,当前动作中包括的bk作为每个智能设备的数字孪生体的最优数据收集频率、最优数据计算频率和分配的最优带宽。
[0167]
s7:将每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率应用到对应的智能设备。
[0168]
在具体实施过程中,先由有共同优化服务、相互促进需求的企业组成企业群体,这些企业有共同的优化目标,如最大化故障预测准确率。由这些企业达成共识选取中心服务器(如第三方服务供应商、政府机构或群体领导者)来提供全局模型聚合及广播服务。为保证全局模型的性能、安全性,中心服务器会不定期地发起联邦学习任务,在个别企业有特别需求时亦会由中心服务器发起fl任务。以商业酿酒厂为例,混合物中馏出液温度的升高和酒精转换率的降低可能是冷却水流的减少或者二次蒸馏盘堵塞所导致的,甚至可能是因为蒸汽阀出现了相关故障。第k个企业所管理的智能设备在两个相邻的fl任务空隙内以频率收集数据,如冷却水流的减少量对应的馏出液温度的升高量和酒精转换率的降低量,二次蒸馏盘堵塞故障的出现概率和出现这种故障时蒸馏器的运行时长、环境温湿度等状态信息,蒸汽阀出现故障前各个组件传感器数据以及附带故障,操作员对设备进行清洁维护时设备上各个组件的传感器数据等。设备出现故障是具有不确定性的,可能会出现数据收集期间未出现故障的情况,这种情况下,则以当前设备各个组件传感器数据为样本,分类为无故障。这样企业的数据样本可能是稀疏的,联邦学习的需求更加明显。企业收集的这些数据以本发明提出的方法保存到缓存池,在接收到联邦学习任务时,第k个企业中负责进行数据处理的设备调整计算频率为并在此基础上利用缓存池的数据训练生成本地模型。中心服务器为第k个企业分配的带宽为bk,第k个企业将在这样的通信条件下上传其本地模型。中心服务器按照本设计提出的方法聚合并广播全局模型,此时,中心服务器所部属的ppo代理也会根据当前状态空间s
t
作出决策a
t
并应用到的各个企业中。
[0169]
实施例3
[0170]
本实施例提供了一种基于数字孪生辅助的联邦学习新鲜度优化系统,基于实施例1或2所述的基于数字孪生辅助的联邦学习新鲜度优化方法,如图4所示,所述系统包括:
[0171]
模型构建模块,用于构建工业物联网联邦学习模型,所述模型包括一个中心服务器和若干个智能设备,并生成每个智能设备对应的数字孪生体,保存在中心服务器中;
[0172]
计算模块,用于根据工业物联网联邦学习模型,计算所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度;
[0173]
优化问题建立模块,用于以所有智能设备的数字孪生体进行一轮联邦学习的能耗、本地数据新鲜度和模型参数新鲜度之和最小化为目标,建立联合带宽分配、数据收集频率和数据计算频率的优化问题;
[0174]
优化问题转化模块,用于将所述优化问题转化为马尔科夫决策过程,定义工业物联网联邦学习模型的状态空间、动作空间和回报函数;
[0175]
网络构建训练模块,用于基于近端策略优化算法建立深度强化学习网络,利用状态空间、动作空间和回报函数对深度强化学习网络进行训练,获得训练好的深度强化学习网络;
[0176]
资源调度模块,利用训练好的深度强化学习网络进行资源调度,获得最优调度策略,即每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率;
[0177]
调度应用模块,用于将每个智能设备的数字孪生体分配的最优带宽、最优数据收集频率和最优数据计算频率应用到对应的智能设备。
[0178]
相同或相似的标号对应相同或相似的部件;
[0179]
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0180]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献