一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种高能效的基于数字孪生的联邦学习框架的制作方法

2021-10-24 09:19:00 来源:中国专利 TAG:联邦 学习 联网 能效 框架


1.本发明涉及工业物联网的联邦学习技术,具体涉及一种高能效的基于数字孪生的联邦学习框架。


背景技术:

2.工业物联网的出现极大地赋能了现代社会的生产生活,推动了包括农业、制造业等行业的快速发展,特别是在基于人工智能的工业4.0中。与此同时,接入物联网设备也随之爆发式增长。在工业4.0中,工业物联网设备需要支持即时的智能服务,这对即时获取和分析动态状态信息提出了迫切需求。
3.数字孪生作为一种将工业物联网设备即时映射到数字空间的技术,可以实时捕获工业物联网设备的动态状态信息。此外,借助先进的传感器技术,6g中的数字孪生可以实现虚拟对象和物理实体之间极其可靠和近乎即时的连接。具体来说,通过软件定义和传感器更新,可以在数字空间中创建从物理世界映射的虚拟对象,虚拟对象通过实时传感器数据进行演进。工业物联网设备的实时演进的虚拟对象由于需要足够的计算资源通常维护在服务器中。同时,对于物联网设备来说,数字孪生在协助工业物联网设备构建智能模型时,不仅需要依赖自身的数据,还需要依赖其他分布式工业物联网设备和服务器的数据。然而,出于商业竞争和隐私保护的目的,不同运营商的不同服务器在交换他们自身捕获的工业物联网设备传感器数据的意愿低迷,这就带来了“数据孤岛”的问题,给工业4.0中的智能服务带来了很大的挑战。
4.联邦学习在模型建立过程中交换梯度或模型参数来替代原始数据,可以避免“数据孤岛”问题。它允许分布式列车的不同设备或服务器协同构建智能模型。在上述的工业物联网系统中,这些工业物联网设备和服务器可以通过联邦学习来训练提供智能服务的神经网络模型。
5.尽管数字孪生和联邦学习都被认为是重新设计工业物联网系统的关键技术,但将它们集成到工业物联网系统中仍然存在很多挑战。一方面,联邦学习中的大量梯度或模型参数需要传输和处理,这是非常消耗能量的。同时,在通过实时传感器数据不断演化数字空间中维护工业物联网设备的虚拟对象也非常耗能。考虑到大量的工业物联网设备,为联邦学习的所有工业物联网设备部署数字孪生是不切实际的。另一方面,直接减少通信、计算和能源资源可能会降低收敛速度和训练模型的质量,并抵消数字孪生的即时获取状态信息的积极增益。
6.因此,考虑到动态复杂的网络环境,应小心的将工业物联网设备的训练方法选择和资源分配进行联合优化,以提高联邦学习的能量效率和收敛速度。


技术实现要素:

7.本发明为解决现有工业物联网系统中利用数字孪生和联邦学习技术存在能量消耗及降低模型收敛速度和训练模型的质量等问题,提供一种高能效的基于数字孪生的联邦
学习框架。
8.一种高能效的基于数字孪生的联邦学习框架,包括m个小型基站,n个工业物联网设备和一个宏基站;在联邦学习的每次迭代过程中,每个工业物联网设备用于根据部署在宏基站中的策略选择不同的训练方式进行训练,即本地训练或者利用数字孪生技术在小型基站的服务器上进行训练;
9.所述小型基站用于将工业物联网设备上传的模型和利用数字孪生技术训练的模型按比例融合得到基站的当地模型;所述小型基站将当地模型传递到宏基站的参数融合器上进行最终的参数融合,获得本次迭代后的全局模型;
10.所述融合方式定义为:
[0011][0012]
式中,g为融合的参数模型数目,d
i
为训练模型w
i
的数据大小;
[0013]
所述宏基站用于实现信道分配及控制工业物联网设备选择本地训练并选择某个小型基站传输训练后的模型参数或选择某个小型基站的服务器连接到数字空间的虚拟对象,并使用小型基站的附属服务器来训练模型;
[0014]
所述宏基站将全局模型广播至所有的工业物联网设备,直至全局模型达到预设的准确率或者模型收敛。
[0015]
本发明的有益效果:所提框架根据基于数字孪生的iiot系统中的状态信息在联邦学习的每轮迭代中动态的选择物联网设备的训练方式及信道的分配方式,有效的降低了基于数字孪生的联邦学习的能量消耗,并为每轮迭代添加时间阈值,避免了联邦学习可能存在的长时间消耗,有效提升了基于数字孪生的联邦学习的能量效率。
附图说明
[0016]
图1为工业物联网系统模型示意图。
具体实施方式
[0017]
结合图1说明本实施方式,本实施方式基于数字孪生的工业物联网提出了一种高能效的联邦学习框架。在该框架中,工业物联网设备可以动态选择在本地训练或在数字孪生的协助下连接到小型基站相应服务器中虚拟对象,利用小型基站的计算资源来训练模型。通过量化了基于数字孪生的工业物联网联邦学习的能耗和时间消耗,并得到了联合工业物联网设备训练方法和资源分配的优化问题。考虑到该问题使用传统方法难以解决,本实施方式中采用基于深度强化学习(drl)的算法来获得最佳策略。
[0018]
如图1所示,图1为支持数字孪生的工业物联网系统模型。设定有m个小型基站,表示为b1b
m
...b
m
,n个物联网设备,表示为d1d
n
...d
n
,以及一个宏基站,记为b
mbs
。在联邦学习的每次迭代过程中,所有工业物联网设备都需要根据一定的策略选择模型训练方法,即本地训练或者利用数字孪生协助训练。具体而言,基于每次迭代中系统的整体状态信息,需要探索出每个工业物联网设备的训练方法和信道分配的策略以实现高能效的联邦学习。策略可以部署在宏基站中,根据具体的策略,宏基站可以实现信道分配及控制工业物联网设备选
择本地训练并选择某个小型基站传输训练后的模型参数或选择某个小型基站的服务器连接到数字空间的虚拟对象,并使用小型基站的附属服务器来训练模型。
[0019]
将设备i的数字孪生表示为其中为设备i的模型,d
i
为设备i的实时数据。将物联网设备d
n
的选择记为s
n
,则s
n
的值构成的集合为o=

m,

(m1)...

1,1,2...m。例如,s
n
(t)=

m表示设备d
n
进行当地训练,后将参数模型传递给基站b
m
。s
n
(t)=m表示工业物联网设备d
n
选择小型基站b
m
的服务器来创建连接虚拟对象,各个基站将利用数字空间的数据训练得到的模型与接收到的设备传递的模型进行融合后,将融合后参数模型传递给宏基站。使和φ
n,m
(t)分别表示工业物联网设备d
n
是否连接到小型基站b
m
的虚拟对象和本地训练后是否选择b
m
作为上传模型参数的通信链路。表示为:
[0020][0021]
则且
[0022]
以及:
[0023][0024]
设定每个工业物联网设备在每次迭代中最多有一个由数字孪生产生的虚拟对象,并且如果没有虚拟对象,工业物联网设备只能连接一个小型基站上传模型参数。此外,系统状态信息包括在不同迭代过程中动态变化的工业物联网设备收集数据的规模大小、工业物联网设备或小型基站的计算资源以及信道状态信息,但对于每个特定迭代过程都是固定的。此外,考虑到数字孪生的实时性,我们假设用于维护工业物联网设备的虚拟对象的传感器数据和模型仅在服务器中的训练模型期间映射传输到服务器,而维护虚拟对象的能耗包括实时传感器数据的采集和传输以及虚拟对象在软件中的演化等。
[0025]
本实施方式中,采用联邦学习模型,基于数字孪生技术,采取同步的联邦学习方式来训练一个需要的全局的机器学习模型。根据系统的状态信息,在一次迭代过程中,物联网设备选择不同的训练方式进行训练。即当地训练或者利用数字孪生在小型基站的服务器上进行训练。接着基站将物联网设备上传的模型和利用数字孪生技术训练的模型按比例融合得到基站的当地模型。最后基站将模型传递到宏基站的参数融合器上进行最终的参数融合,得到这次迭代后的全局模型。将融合方式定义为:
[0026][0027]
g表示融合的参数模型数目,表示训练模型w
i
的数据大小。
[0028]
本实施方式中,利用通信模型表示信息的变化。具体为:在工业物联网中,信道的状态信息是动态变化的,我们利用有限状态的马尔可夫信道模型来表示信道的变化,用接收信噪比snr来代表信道状态γ。接收信噪比被分为i 1个不同的幅度,构成的集合表示为h0,h1,h2...h
i
。其中,h0与h
i
分别表示为最小信噪比和最大的信噪比,而这通常是很容易测量的。有限状态的马尔科夫链状态集合为并且γ(t)=h
i
表示在第t次的
迭代过程中,信道状态信息即接收信噪比为h
i
位于h
i
‑1与h
i
之间。
[0029]
在联邦学习中,单次的迭代相对于整个迭代过程来说是微不足道的,因此我们假设在某个特定的迭代过程中,信道的状态信息是不发生变化的。在马尔可夫模型中,某个状态会根据马尔可夫转移矩阵进行转移进入下一状态。假设某次迭代过程某两个通信设备之间的信道状态为γ(t)=h
a
,从该状态转移到h
b
的概率为表示为转移矩阵可以表示为
[0030]
由于信道资源的限制,在本实施方式中,需要考虑信道的分配进行高效的通信,从而加速联邦学习的收敛并且减小能量消耗。设定共有k个信道被物联网设备与小型基站分配,子信道的带宽为w0。则:
[0031][0032]
式中,和分别表示基站b
m
与物联网设备d
n
分得的信道数目。物联网设备到基站的数据传递速度表示为:
[0033][0034]
表示物联网设备d
n
与基站b
m
的信道状态。
[0035]
基站到宏基站的数据传输速率表示为:
[0036][0037]
本实施方式中,采用与通信模型类似的计算模型计算资源;具体为:系统中的基站与物联网设备的计算资源是动态变化的。同样,采用有限状态的马尔可夫模型,将计算能力分为j 1个分散的值f0,f1,f2...f
j
,有限马尔可夫的所有状态集合表示为表示某个设备或者基站的计算能力从f
a
到f
b
的转移概率为转移矩阵表示为
[0038]
本实施方式中,通过量化基于数字孪生的工业物联网联邦学习的时间消耗和能量消耗,获得联合工业物联网设备的训练方式选择和信道分配联合优化问题,并采用深度强化学习算法获得最优策略,具体由以下过程实现:
[0039]
所述时间消耗包括传输时延和计算时延;
[0040]
所述传输时延:传输时间包括三个部分,包括本地训练的工业物联网设备到相应的小型基站、小型基站到宏基站、宏基站到工业物联网设备的传输时间。在所提框架中,工业物联设备在本地训练或利用数字孪生技术的协助在服务器上训练。对于本地训练,工业物联网设备需要将训练好的模型传输到小型基站。因此,从工业物联网设备d
n
到小型基站b
m
的传输时间可以定义为:
[0041][0042]
式中,表示物联网设备d
n
的模型参数的大小。由于在联邦学习中,每个物联网设备的训练的模型参数是相等的,因此将其记为|w|。值得注意的是,这里我们计算的物联
网设备的传输时延包括任何一个基站的传输时延,但在后面总时延的计算中,将利用φ
n,m
(t)指定物联网设备连接的基站对其进行约束。
[0043]
在小型基站端,若存在物联网设备建立的数字孪生映射,则基站会利用数字空间中的实时数据来训练模型,接着将训练好的模型参数与物联网设备传递的模型参数进行按数据大小的比例融合。最后,将融合好的模型传递给宏基站,小型基站b
m
到宏基站的传输时延为:
[0044][0045]
在宏基站收到各个基站传递的模型参数后,进行融合得到一次迭代的全局模型,接着将模型参数传递给各个物联网设备完成一次迭代。宏基站到物联网设备d
n
的传输时延为:
[0046][0047]
所述计算时延为:无论物联网设备进行当地训练还是利用数字孪生技术在计算资源相对多的基站的服务器上进行训练,这里都存在计算时延。将训练单位数据的所需要的cpu周期数目定义为γ1,将融合单位模型参数所需要的cpu周期数目定义为γ2。
[0048]
物联网设备d
n
的计算时延为:
[0049][0050]
式中,表示第t次迭代过程中,物联网设备d
n
收集到的数据。表示物联网设备d
n
是否选择基于dt的训练方式;可以看到,只有当即物联网设备选择当地训练时,其计算时延才不等于0。
[0051]
基站的计算时延包括基站训练可能存在的物联网设备映射的数字空间中数据时延和融合模型参数的融合时延。其中小型基站b
m
的训练时延为:
[0052][0053]
以及小型基站b
m
的融合时延被定义为:
[0054][0055]
宏基站附属的参数服务器需要将基站传来的模型参数进行融合,融合时延为:
[0056][0057]
[0058]
z表示宏基站收到的参数模型的数目。采用同步的联邦学习方式。于是,总时延表示为:
[0059][0060][0061]
本实施方式中,所述能量消耗可分为传输能耗和计算能耗,计算能耗包括维护数字空间虚拟对象的能耗。
[0062]
所述传输能耗具体为:连接到虚拟对象的工业物联网设备可以在小型基站所属的服务器上进行训练,由于数字孪生的实时性特征,在下一个计算能量消耗中考虑与虚拟对象相关的能耗,而选择在本地训练的工业物联网设备必须传输模型参数。物联网设备d
n
传输能量消耗可以表示为:
[0063][0064]
为物联网设备d
n
的传输功率。
[0065]
小型基站b
m
的传输能耗为:
[0066][0067]
为小型基站b
m
的传输功率。
[0068]
本实施方式中,所述计算能耗具体为:
[0069]
将设备训练功率定义为α1,则设备的计算能耗为:
[0070][0071]
小型基站的计算能耗分为三部分,包括小型基站上数字空间中使用虚拟对象的训练模型的能耗、小型基站维护虚拟对象的能耗、小型基站融合模型参数的能耗,分别表示为:
[0072][0073][0074][0075]
其中α2,β与θ分别代表小型基站的训练功率、在数字空间中维护工业物联网设备单个虚拟对象的功耗以及融合功耗。小型基站b
m
的计算能耗表示为:
[0076][0077]
除了物联网设备和基站的计算功率外,宏基站的融合模型参数的能耗为:
[0078][0079]
于是,工业物联网设备d
n
,小型基站b
m
以及宏基站的总能耗分别为:
[0080][0081][0082][0083]
在一次迭代过程中,总的能量消耗为:
[0084][0085]
根据时延和能耗的量化公式,得到优化问题:
[0086][0087]
s.t.0≤t
total
(t)≤t
limit
[0088]
acc
preset
≤acc
z
[0089][0090]
其中s
t
和w
t
分别表示第t次迭代中工业物联网设备的训练方法选择和信道分配,z表示模型达到预设精度所需的迭代次数,acc
preset
为预设的模型所需要的精度,acc
z
为第z次迭代后的模型精度,t
limit
表示保证系统综合性能的训练时间阈值。
[0091]
本实施方式中,工业物联网设备采集的数据大小、通信设备之间的信道状态信息、工业物联网设备和小型基站的计算资源等状态信息在的不同迭代中动态变化。在给定训练时间阈值t
limit
的情况下,需要仔细考虑工业物联网设备的训练方法选择和资源分配,以实现高能效的联邦学习。对于具有约束条件的联合优化问题,传统方法处理难度极大。因此,将联合优化问题表述为马尔可夫决策过程,其中状态空间、动作空间和奖励函数(回报函数)定义如下:
[0092]
将所述状态空间定义为很显然s(t)包括信道状态信息,物联网设备与包括宏基站在内的基站的计算能力,以及物联网设备收集数据的大小,除此之外,还包括联邦学习模型的正确率。因此o(t)可以表达为:
[0093][0094][0095][0096][0097]
将所述动作空间定义为它包括物联网设备的训练方式的选择以及信道的分配。表示为:
[0098]
a(t)={s(t),w(t)}
[0099][0100][0101]
s(t)表示物联网设备选择的向量,w(t)表示信道分配的向量。
[0102]
所述回报函数定义如下:
[0103][0104]
式中,ε
e
与ε
t
是用于调节能量消耗和时间延迟在回报函数权重的常数,用来避免单一优化。比如若时间延迟相对于能量消耗非常大时,如果不存在调节参数,系统将优化中心放在时间延迟上,反之则忽略了时间限制造成联邦学习综合性能的降低。而阶跃函数u(x)的加入可以和ε
t
的配合巧妙的可以过滤到时间限制大于t
limit
的动作。u(x)为阶跃函数,定义为:
[0105][0106]
本实施方式中,深度强化学习将深度神经网络和强化学习结合形成了一个非常有效的工具来解决高纬度状态或者动作空间的马尔可夫决策问题。状态空间和动作空间是离散的,一般的dqn(深度q值网络)就可以解决。但是为了改善强化学习的性能,本实施方式采用了double

dqn和dueling

dqn。在dqn中,dnn(深度神经网络)可以根据状态输入得到各个动作的值,称作状态

动作值q。在dnn的训练中,目标神经网络和经验回放会被采用来加速dnn的收敛。在一次学习过程中,通过时间差分法更新dnn的参数:
[0107]
q(s,a;θ)

q(s,a;θ) λ[q
target

q(s,a;θ)]
[0108][0109]
λ为学习率,τ为奖励衰减参数,θ

为另一个目标神经网络的参数。目标神经网络的参数经过指定回合数目,由dnn的参数进行更新。dqn的损失函数定义为:
[0110]
l(θ)=e[(q
target

q(s,a;θ))2]
[0111]
double

dqn利用估计神经网络对下一状态s'下q值最大的动作进行估计,并在迭代中,利用选择出的动作计算q
target
,表达式如下:
[0112][0113]
double

dqn可以避免q值过估计的问题,dueling

dqn可以通过将q分离为状态值v(s)和动作值a(s,a)加速模型的收敛,表达式如下:
[0114]
q(s,a;θ)=v(s;θ) a(s,a;θ)
[0115]
在给出转移概率后,最优的策略将可以线下学习。主要过程如下,评估网络的参数被初始化,接着用被初始化的参数来更新相同结构的目标神经网络。评估网络根据状态信息采用贪心策略ε

greedy选择出动作,基于数字孪生的工业物联网系统采取动作后反馈奖励。状态、动作以及奖励将会存储在经验回放记忆中用于训练dqn以及更新目标神经网络。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜