一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

智能制造调度方法、系统、装置及存储介质

2022-12-20 01:38:57 来源:中国专利 TAG:


1.本发明涉及智能制造技术领域,尤其涉及一种智能制造调度方法、系统、装置及存储介质。


背景技术:

2.随着新一代信息通信技术快速发展,传统制造业正向智能制造转变。智能制造系统的核心是为了满足社会需求,智能制造系统由社会子系统、信息子系统以及物理子系统组成,其中,信息子系统主要通过算法进行动作调度,物理系统是动作执行主体以生产符合社会需求的产品。基于信息物理社会框架的智能制造系统正是新一代制造业,而如何实现资源的分配,正亟需解决。
3.制造业传统调度方式是在一段时间内,为完成一组工作,满足一定的约束条件,利用优化算法相应地分配一套资源,但随着信息物理社会框架的智能制造系统的发展,传统的离线优化算法不能满足动态调控的需求。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种智能制造调度方法、系统、装置及存储介质,能够对生产动作进行实时调控,以适应生产状态的变化。
5.一方面,本发明实施例提供了一种智能制造调度方法,包括以下步骤:
6.通过与生产环境进行交互获得历史经验数据并存储到经验池中,其中,所述历史经验数据包括生产状态和生产动作;
7.基于深度确定性梯度策略算法,采样经验池中的样本训练马尔可夫模型以得到最高奖励值对应的生产动作;
8.基于拒识机制修正所述生产动作;
9.根据所述生产动作对生产环境中的生产对象进行调度;
10.其中,所述马尔可夫模型的训练过程为:
11.采样所述经验池中的样本训练q网络以最小化损失函数;
12.根据所述损失函数更新评价网络;
13.根据所述评价网络评估出的q值更新策略网络,得到最高奖励值对应的生产动作。
14.根据本发明一些实施例,所述拒识机制表示为:
[0015][0016]
其中,δa
*
表示修正后的生产动作,δa表示采用所述深度确定性梯度策略算法得到生产动作,a
non
表示采用传统算法得到的生产动作,r
ddpg
表示修正前的所述生产动作对应的最高奖励值,t表示拒识阈值。
[0017]
根据本发明一些实施例,所述智能制造调度方法还包括以下步骤:
[0018]
将所述历史经验数据输入注意力网络以对所述历史经验数据的多个元素进行信息聚合和归一化处理后存储于所述经验池中,其中,所述生产状态包括生产计划、生产信息和设备状态信息,所述生产动作包括加工工序。
[0019]
根据本发明一些实施例,所述马尔可夫决策模型表示为:
[0020]
m=(s,a,p,r);
[0021]
其中,a表示生产动作,s表示生产状态,p表示在生产状态s下采取生产动作a后的状态转移矩阵,r表示在生产状态s下采取生产动作a后转移到下一生产状态s

获得的奖励值。
[0022]
根据本发明一些实施例,通过软更新方式更新所述评价网络和所述策略网络,所述软更新方式表示为:
[0023][0024]
其中,μ为参数;θ
μ
为更新前的评价网络的参数,θq为策略网络中的q网络的参数,τ表示软更新系数,θ
μ

为更新后的评价网络的参数,θq′
为更新后的q网络的参数。
[0025]
根据本发明一些实施例,所述损失函数表示为:
[0026][0027]
其中,a表示生产动作,s表示生产状态,m表示采样的样本数量,i表示采样的样本索引,yi表示目标函数。
[0028]
根据本发明一些实施例,所述根据所述评价网络评估出的q值更新策略网络,得到最高奖励值对应的生产动作包括以下步骤:
[0029]
根据所述评价网络评估出的q值确定策略梯度;
[0030]
根据所述策略梯度更新所述策略网络的参数;
[0031]
判断所述策略网络是否满足终止条件,当满足终止条件,则根据所述策略网络输出最高奖励值对应的生产动作,反之,则继续更新所述策略网络。
[0032]
另一方面,本发明实施例还提供一种智能制造调度系统,包括:
[0033]
社会子系统,用于通过与生产环境进行交互获得历史经验数据并存储到经验池中,其中,所述历史经验数据包括生产状态和生产动作;
[0034]
信息子系统,用于基于深度确定性梯度策略算法,采样经验池中的样本训练马尔可夫模型以得到最高奖励值对应的生产动作,基于拒识机制修正所述生产动作;
[0035]
物理子系统,用于根据所述生产动作对生产环境中的生产对象进行调度;
[0036]
其中,所述马尔可夫模型的训练过程为:
[0037]
采样所述经验池中的样本训练q网络得到损失函数;
[0038]
通过最小化所述损失函数更新评价网络;
[0039]
根据所述评价网络评估出的q值更新策略网络,得到最高奖励值对应的生产动作。
[0040]
另一方面,本发明实施例还提供一种智能制造调度装置,包括:
[0041]
至少一个处理器;
[0042]
至少一个存储器,用于存储至少一个程序;
[0043]
当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如前面所述的智能制造调度方法。
[0044]
另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如前面所述的智能制造调度方法。
[0045]
本发明上述的技术方案至少具有如下优点或有益效果之一:通过不断与生产环境进行交互获得包括生产状态和生产动作的历史经验数据并存储到经验池中,使得调度策略全局最优。通过深度确定性策略梯度算法训练马尔可夫模型输出最高奖励值得动作,拒识机制调节动作值,对生产进行有效调控,提高智能制造系统生产的稳定性,再将生产环境中下一时刻的生产状态反馈至训练过程以更新评价网络和策略网络,可感知数据之间的相关性以及实现实时动态调控。
附图说明
[0046]
图1是本发明实施例提供的智能制造调度方法流程图;
[0047]
图2是本发明实施例提供的马尔可夫模型的训练过程流程图;
[0048]
图3是本发明实施例提供的智能制造调度系统示意图;
[0049]
图4是本发明实施例提供的智能制造调度装置示意图。
具体实施方式
[0050]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或者类似的标号表示相同或者类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0051]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、左、右等指示的方位或者位置关系为基于附图所示的方位或者位置关系,仅是为了便于描述本发明和简化描述,而不是指示或者暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0052]
本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或者暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0053]
本发明实施例提供了一种智能制造调度方法,参照图1,本发明实施例的智能制造调度方法包括但不限于步骤s110、步骤s120、步骤s130和步骤s140。
[0054]
步骤s110,通过与生产环境进行交互获得历史经验数据并存储到经验池中,其中,历史经验数据包括生产状态和生产动作;
[0055]
步骤s120,基于深度确定性梯度策略算法,采样经验池中的样本训练马尔可夫模型以得到最高奖励值对应的生产动作;
[0056]
步骤s130,基于拒识机制修正生产动作;
[0057]
步骤s140,根据生产动作对生产环境中的生产对象进行调度。
[0058]
在一些实施例中,本发明实施例的智能制造调度方法应用于智能制造调度系统中,参照图3,智能制造系统包括社会子系统、信息子系统和物理子系统,社会子系统用于与
生产环境实时交互获取历史经验数据,并将历史经验存储于经验池中以供信息子系统进行网络参数更新,历史经验数据包括但不限于生产计划、生产信息、设备状态信息、加工工序、加工时长和加工程序等。信息子系统用于将生产计划、生产信息和设备状态信息等作为生产状态,将加工工序、加工时长和加工程序作为生产动作,通过深度策略梯度算法训练马尔可夫模型以得到下一时刻最高奖励值对应的生产动作,基于拒识机制修正生产动作。物理子系统用于执行生产动作,将生产动作中生产指令传递至生产环境对应的传感器等生产对象中实现具体加工作业,并将生产环境中的生产对象的下一时刻的设备状态等生产状态反馈至社会子系统以更新经验池中。此外,社会子系统还用于接收来自物理子系统的生产状态和生产动作,判断生产是否按照计划进行,若遇到用户更改订单等突发事件,则重新制定生产计划,并通过信息子系统调整生产动作。
[0059]
可以理解的是,物理子系统在调度过程中,应生产动作的顺序执行工序,且执行工序的生产对象应限定。
[0060]
在本实施例中,参照图2,信息子系统中马尔可夫模型的训练过程包括但不限于步骤s210、步骤s220和步骤s230:
[0061]
步骤s210,采样经验池中的样本训练q网络以最小化损失函数;
[0062]
步骤s220,根据所述损失函数更新评价网络;
[0063]
步骤s230,根据评价网络评估出的q值更新策略网络,得到最高奖励值对应的生产动作。
[0064]
具体地,智能制造系统调度问题可定义为马尔可夫决策过程,因此构建马尔可夫模型。马尔可夫模型可描述为一个四元组,如公式(1):
[0065]
m=(s,a,p,r);
ꢀꢀ
(1)
[0066]
其中,a表示生产动作,s表示生产状态,p表示在生产状态s下采取生产动作a后的状态转移矩阵,r表示在生产状态s下采取生产动作a后转移到下一生产状态s

获得的奖励值。智能制造系统中的生产状态可由生产计划、生产信息和设备状态信息组成即(s
t
,sd,sc);下一时刻的生产动作为智能制造系统的资源调度,即加工工序{j1,j2,

,jk};奖励值反映智能生产对象在当前状态下所获得生产动作对应的最大化加工质量以及最小化加工时间与加工成本,即通过目标函数表示奖励最大化,目标函数如公式(2):
[0067]
z={mine,maxq};
ꢀꢀ
(2)
[0068]
为提高信息子系统的训练效率,采用深度确定性梯度策略算法对上述马尔可夫模型进行训练。即对深度确定性策略梯度算法中的q网络直接拟合得到q值损失函数,采集经验池的样本训练q网络以最小化损失函数,通过最小化损失函数的方式更新critic网络(即评价网络),根据critic网络评估出的q值更新策略梯度,进而根据策略梯度更新actor网络(即策略网络),从而输出最高奖励值所对应的生产动作。actor网络与critic网络均通过软更新方式进行参数更新,以提高算法的稳定性,软更新方式如公式(3):
[0069][0070]
其中,μ为参数;θ
μ
为更新前的critic网络的参数,如历史生产状态,历史生产动作;θq为actor网络中的q网络的参数,如输出最高奖励值所对应的动作值;τ表示软更新系
数;θ
μ

为更新后的评价网络的参数,θq′
为更新后的q网络的参数。
[0071]
将actor网络的q值与critic网络评估出的q值进行比较,以最小化损失函数,损失函数如公式(4)所示:
[0072][0073]
其中,a表示生产动作,s表示生产状态,m表示采样的样本数量,i表示采样的样本索引,yi表示目标函数。
[0074]
对于在线actor网络的参数更新,根据critic网络评估出的q值确定策略梯度,从而根据策略梯度更新actor网络,以输出最高奖励值所对应的动作值,策略梯度如公式(5)所示:
[0075][0076]
其中,表示策略梯度。
[0077]
根据本发明一些具体实施例,拒识机制表示如公式(6)所示:
[0078][0079]
其中,δa
*
表示修正后的生产动作,δa表示采用所述深度确定性梯度策略算法得到生产动作,a
non
表示采用传统算法得到的生产动作,r
ddpg
表示修正前的生产动作对应的最高奖励值,t表示拒识阈值。传统算法可以是pid算法、离线强化学习算法等。
[0080]
在本实施例中,为提高深度确定性策略梯度算法输出策略的稳定性和可靠性,引进拒识机制对输出策略进行判断,以动态调整输出动作值。在拒识机制中,根据社会需求设置拒识阀值,当深度确定性梯度策略算法输出最高奖励值大于拒识阀值,表明该最高奖励值对应的生产动作符合社会需求,可直接执行该生产动作。当深度确定性梯度策略算法输出最高奖励值小于或等于拒识阀值,表明该最高奖励值对应的生产动作不符合社会需求,则执行传统算法输出的生产动作,或基于深度确定性梯度策略算法重新训练模型以输出最高奖励值所对应的动作指令。
[0081]
根据本发明一些具体实施例,智能制造调度方法还包括但不限于步骤s310:
[0082]
步骤s310,将历史经验数据输入注意力网络以对历史经验数据的多个元素进行信息聚合和归一化处理后存储于经验池中,其中,生产状态包括生产计划、生产信息和设备状态信息,生产动作包括加工工序。
[0083]
在一些实施例中,信息子系统接收社会子系统下达的生产计划、生产信息、设备状态信息和加工工序进行聚合处理,具体包括:
[0084]
采用注意力网络对历史经验数据x中的元素xi,即生产计划、生产信息、设备状态信息和加工工序等进行聚合并设置各元素节点的权重,历史经验数据表达式如公式(7),注意力网络表达式如公式(8)所示:
[0085]
x={x1,x2,...,xi},xi∈rf;
ꢀꢀ
(7)
[0086]
[0087]
其中,x和x
′i分别表示注意力网络的输入历史经验数据集和输出的历史经验数据集,经过注意力网络后x
′i融合其他信息的特征;f表示社会系统下达的生产计划、生产信息、设备状态信息和加工工序;α
ij
表示注意力系数,w表示权重,xi表示节点i的历史经验;σ表示激活函数softmax函数。
[0088]
根据本发明一些具体实施例,步骤s120包括但不限于步骤s410、步骤s420和步骤s430:
[0089]
步骤s410,根据评价网络评估出的q值确定策略梯度;
[0090]
步骤s420,根据策略梯度更新策略网络的参数;
[0091]
步骤s430,判断策略网络是否满足终止条件,当满足终止条件,则根据策略网络输出最高奖励值对应的生产动作,反之,则继续更新策略网络。
[0092]
本发明实施例为保证智能制造系统调度策略全局最优,社会子系统通过与环境交互获取历史经验数据,并采用注意力网络对历史经验数据进行聚合及归一化处理,并存储到经验池中;信息子系统通过深度确定性策略梯度算法输出最高奖励值得动作,拒识机制实时调节生产动作,对生产进行有效调控,以实现制造业智能化生产;物理子系统通过信息技术将生产动作传递至传感器等工具实现具体加工作业。
[0093]
本发明实施例通过物理子系统、信息子系统和社会子系统三位一体的人机协同合作,一方面可通过社会子系统获取历史经验,以具有社会属性,提高制造业自我探索能力和智慧水平;另一方面信息子系统通过深度确定性策略梯度算法生成调控命令下达至物理系统,可感知数据之间的相关性,引进拒识机制,对生产进行实时调控,提高智能制造系统生产的稳定性。
[0094]
本发明实施例还提供一种智能制造调度系统,参照图3,本发明实施例的智能制造调度系统包括:
[0095]
社会子系统,用于通过与生产环境进行交互获得历史经验数据并存储到经验池中,其中,历史经验数据包括生产状态和生产动作;
[0096]
信息子系统,用于基于深度确定性梯度策略算法,采样经验池中的样本训练马尔可夫模型以得到最高奖励值对应的生产动作,基于拒识机制修正生产动作;
[0097]
物理子系统,用于根据生产动作对生产环境中的生产对象进行调度;
[0098]
其中,马尔可夫模型的训练过程为:
[0099]
采样经验池中的样本训练q网络得到损失函数;
[0100]
通过最小化损失函数更新评价网络;
[0101]
根据评价网络评估出的q值更新策略网络,得到最高奖励值对应的生产动作。
[0102]
可以理解的是,上述智能制造调度方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述智能制造调度方法实施例相同,并且达到的有益效果与上述智能制造调度方法实施例所达到的有益效果也相同。
[0103]
参照图4,图4是本发明一个实施例提供的智能制造调度装置的示意图。本发明实施例的智能制造调度装置包括一个或多个控制处理器和存储器,图4中以一个控制处理器及一个存储器为例。
[0104]
控制处理器和存储器可以通过总线或者其他方式连接,图4中以通过总线连接为例。
[0105]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该智能制造调度装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0106]
本领域技术人员可以理解,图4中示出的装置结构并不构成对智能制造调度装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0107]
实现上述实施例中应用于智能制造调度装置的智能制造调度方法所需的非暂态软件程序以及指令存储在存储器中,当被控制处理器执行时,执行上述实施例中应用于智能制造调度装置的智能制造调度方法。
[0108]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的智能制造调度方法。
[0109]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0110]
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献