一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于通信设备制造过程的学习型智能调度方法、系统

2022-08-10 18:24:38 来源:中国专利 TAG:


1.本发明涉及一种用于通信设备制造过程的学习型智能调度方法,属于通信行业生产过程智能优化调度技术领域。


背景技术:

2.现今通信技术的飞速发展给人们的生活带来了翻天覆地的变化,通信设备的使用已遍及人们生活的各个领域并产生着深刻影响。
3.通信设备的每个部分由不同的电子配件组成,电子配件的制造过程需要一定的人力物力,可通过合理分配配件的加工顺序尽可能缩短制造的时间和人工成本。通信设备制造过程的调度问题属于是np难问题,该问题的求解难度随生产的规格数呈指数型增长。因此对于此类问题的研究和求解无论是理论层面还是应用层面都有重要意义。
4.通信设备的制造过程通常是根据订单的要求进行批量生产,即在某段时间内机器只加工一种规格的产品。由于通信设备生产通常受到产品规格和型号的影响,使得产品在各阶段的加工时间不同,但所有产品的工艺流程相同。因此,将不同规格的产品进行编号加工时,不同的加工序列将对该通信设备生产订单的完工时间造成较大影响,这将直接影响企业的生产周期和生产成本。对于目前一般的通信设备制造企业,往往根据订单中产品的排序或者根据工厂调度员的生产经验进行调度生产,这种调度方法虽然也能减小最大完工时间,但仍具有很大的提升空间。特别对于产品规格较多的订单,根据生产经验进行调度难度很大,不能更好的优化最大完工时间。因此,好的调度方案将直接影响企业的生产进度,进而降低企业的生产成本,提高企业的经济效益。


技术实现要素:

5.针对通信设备制造过程的调度问题,本发明提供了一种用于通信设备制造过程的学习型智能调度方法、系统。
6.本发明的技术方案是:一种用于通信设备制造过程的学习型智能调度方法,包括:
7.建立工厂内的通信设备制造过程调度模型,并以最小化最大完工时间为优化目标进行求解;
8.设计基于深度强化学习的优化调度方法,获得通信设备配件的加工顺序。
9.所述通信设备制造过程的优化调度模型如下所示:
10.c(π1,m1)=p(π1,m1)
ꢀꢀꢀ
(1)
11.s(π1,mi)=c(π1,m
i-1
),i=2,3,...,m
ꢀꢀꢀ
(2)
12.c(π1,mi)=c(π1,m
i-1
) p(π1,mi),i=2,3,...,m
ꢀꢀꢀ
(3)
13.c(πj,m1)=c(π
j-1
,m1) p(πj,m1),j=2,3,...,m
ꢀꢀꢀ
(4)
14.[0015][0016][0017]
式中,通信设备配件数为n、共有m台机器,开始时刻所有等候加工的配件j={j1,j2,

,jn}放入等候区bf内,机器序列为m={m1,m2,...,mm};通信设备制造过程的优化调度模型的解序列为π={π1,π2,

,πn},πj表示解序列第j个位置的通信设备配件,表示配件jj在机器mi上的操作并规定该操作开始后将不允许中断;每一个操作都有相应的标准加工时间p(jj,mi),每个加工操作的完工时间为c(jj,mi),c(π1,m1)表示配件π1在机器m1上的完工时间,p(π1,m1)表示配件π1在机器m1上的加工时间,s(π1,mi)表示配件π1在机器mi上的开始加工时间,c(π1,mi)表示配件π1在机器mi上的完工时间,c(πj,m1)表示配件πj在机器m1上的完工时间,s(πj,mi)表示配件πj在机器mi上的开始加工时间,c(πj,mi)表示配件πj在机器mi上的完工时间,调度的目标为在通信设备配件排序的集合π中找到一个π
*
,使得最大完工时间c
max
(π)最小;其中,c
max
(π)表示通信设备加工过程的最大完工时间。
[0018]
所述基于深度强化学习的优化调度方法,包括:
[0019]
step1、提取通信设备生产车间在t时刻的状态s
t
;其中,t时刻表示通信设备生产车间的.状态转移时刻;
[0020]
step2、根据s
t
,以ε的概率随机选择动作或以1-ε的概率输入到调度器中选择最优动作,由选择的动作a
t
确定下一个被加工的配件;
[0021]
step3、计算执行动作a
t
获得的奖励r
t

[0022]
step4、生产车间进入新状态s
t 1

[0023]
step5、若调度器为收敛,将标签{s
t
,a
t
,r
t
,s
t 1
}输入到调度器中对调度器进行训练,否则直接进入step 6;
[0024]
step6、判断是否终止:当bf内所有配件被分配完即结束,否则重复step1-step5。
[0025]
所述step1中,状态设定如下:
[0026][0027][0028][0029]
stj=(prop1,prop2,...,prop
m-1
)
ꢀꢀꢀ
(11)
[0030]
式中:表示配件πj在机器m
i 1
和机器mi上的完工时间间隔,ij为配件πj在各相邻机器上的完工时间间隔,propi表示配件πj的每个时间间隔占该配件整个加工时间的比例,stj为配件πj的比例向量,则t时刻的生产车间状态s
t
=stj。
[0031]
所述step2中,动作设定如下:
[0032]
动作a(1):最短加工时间配件优先
[0033]
[0034]
动作a(2):最长加工时间配件优先
[0035][0036]
动作a(3):最大机器利用率配件优先
[0037]
a(3)=arg maxj(uj),j∈bf
ꢀꢀꢀ
(14)
[0038][0039]
wt
ij
=max(0,c(π
j-1
,mi)-c(πj,m
i-1
)),i=2,3,...,m,j∈bf
ꢀꢀꢀ
(16)
[0040]
动作a(4):最小加工时间离散度配件优先
[0041]
a(4)=arg minj(vj),j∈bf
ꢀꢀꢀ
(17)
[0042][0043][0044]
式中,uj表示选定配件πj时各机器的利用率,wt
ij
表示操作的等候时间,vj表示配件πj的加工时间离散度,表示配件πj在各机器上的平均加工时间。
[0045]
所述step3中,奖励设定如下:
[0046][0047][0048]
式中,δi(t)为机器i繁忙/空闲状态的示性函数,智能体执行动作a
t
后环境转移到下一个状态获得的奖励为r
t

[0049]
所述调度器具有两个相同神经网络结构的q网络,即主q网络和目标q网络,其具体训练步骤如下:
[0050]
step5.1、随机初始化主q网络的网络权重θ,目标q网络的网络权重θ'=θ,迭代次数loop=1,临时变量h=0;
[0051]
step5.2、根据当前状态s
t
执行动作a
t
,获得奖励r
t
并且调度环境转移到下一个状态s
t 1
,得到标签re={s
t
,a
t
,r
t
,s
t 1
}并将其存入记忆池内;
[0052]
step5.3、从记忆池中选取batch个数据,输入到主q网络并输出计算每个动作的价值q(s
t
,a
t
;θ),根据计算目标q网络的动作价值q(s
t
,a
t
;θ'),并由l(θ)=(q(s
t
,a
t
;θ')-q(s
t
,a
t
;θ))2计算损失函数,将l(θ)反馈给主q网络更新权重;其中,q(s
t 1
;θ')表示目标q网络输出的状态s
t 1
的最大动作价值;
[0053]
step5.4、h=h 1,若h=c,使θ'=θ,h=0;否则,重复step5.2-step5.3;其中,c表示传参步数;
[0054]
step5.5、如果s
t
为终止状态,则loop=loop 1,直至loop达到最大迭代次数;否则,重复step5.2-step5.4。
[0055]
根据本发明实施例的另一方面,提供了一种用于通信设备制造过程的学习型智能调度系统,包括:
[0056]
建立模块,用于建立工厂内的通信设备制造过程调度模型,并以最小化最大完工时间c
max
(π)为优化目标进行求解;
[0057]
获得模块,用于设计基于深度强化学习的优化调度方法,获得通信设备配件的加工顺序。
[0058]
根据本发明实施例的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的用于通信设备制造过程的学习型智能调度方法。
[0059]
根据本发明实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的用于通信设备制造过程的学习型智能调度方法。
[0060]
本发明的有益效果是:本发明可对相同机器数的生产车间环境下不同规模配件进行调度,在短时间内提供通信设备加工过程调度问题的优良解,具有较强泛化性,有一定自适应性,从而可降低工厂的生产成本,提高工厂的生产效率,增强企业的竞争力,能有效解决通信设备制造加工过程由于加工排序不当导致的工厂成本浪费,经济效益不高的问题。
[0061]
具体而言,本发明使用深度强化学习算法对通讯设备制造过程的配件加工顺序进行调度,首先使用马尔科夫决策过程对通讯设备制造过程进行描述,从而提取通讯设备制造过程的状态,该设计直接提取各机器的相对完工时间比例作为状态,相比于现有其他发明更关注调度过程的各个细节,如机器个数、工件个数、各工件剩余加工时间等,本发明中的设计既能详细描述调度过程的具体情况,又有较高区分度和较低维度。其次,本发明针对不同状态设计四个动作,各动作复杂度低,且能根据配件特点进行高效筛选,从而确定合适配件。此外,本发明采用深度强化学习中的双q网络作为调度器,既能克服传统强化学习方法的维度爆炸问题,又能解决深度学习需要大量难以获得的优质标签困难,并且避免了单q网络容易产生过高估计的情况。本发明中的调度器可通过离线训练,进行在线决策,即经过训练后的双q网络,在不同调度环境下,可进行实时决策,输出最有动作从而确定下一个被加工的配件。
附图说明
[0062]
图1为本发明的强化学习算法流程图;
[0063]
图2为本发明的整体设计流程图;
[0064]
图3为本发明的调度器训练流程图。
具体实施方式
[0065]
下面结合附图和实施例,对发明做进一步的说明,但本发明的内容并不限于所述范围。
[0066]
实施例1:如图1-3所示,一种用于通信设备制造过程的学习型智能调度方法,包括:
[0067]
建立工厂内的通信设备制造过程调度模型,并以最小化最大完工时间c
max
(π)为优化目标进行求解;
[0068]
设计基于深度强化学习的优化调度方法,获得通信设备配件的加工顺序。
[0069]
进一步地,可以设置所述通信设备制造过程的优化调度模型如下所示:
[0070]
c(π1,m1)=p(π1,m1)
ꢀꢀꢀ
(1)
[0071]
s(π1,mi)=c(π1,m
i-1
),i=2,3,...,m
ꢀꢀꢀ
(2)
[0072]
c(π1,mi)=c(π1,m
i-1
) p(π1,mi),i=2,3,...,m
ꢀꢀꢀ
(3)
[0073]
c(πj,m1)=c(π
j-1
,m1) p(πj,m1),j=2,3,...,m
ꢀꢀꢀ
(4)
[0074][0075][0076][0077]
式中,通信设备配件数为n、共有m台机器,开始时刻所有等候加工的配件j={j1,j2,

,jn}放入等候区bf内,机器序列为m={m1,m2,

,mm};通信设备制造过程的优化调度模型的解序列为π={π1,π2,

,πn},πj表示解序列第j个位置的通信设备配件,表示配件jj在机器mi上的操作并规定该操作开始后将不允许中断;每一个操作都有相应的标准加工时间p(jj,mi),每个加工操作的完工时间为c(jj,mi),c(π1,m1)表示配件π1在机器m1上的完工时间,p(π1,m1)表示配件π1在机器m1上的加工时间,s(π1,mi)表示配件π1在机器mi上的开始加工时间,c(π1,mi)表示配件π1在机器mi上的完工时间,c(πj,m1)表示配件πj在机器m1上的完工时间,s(πj,mi)表示配件πj在机器mi上的开始加工时间,c(πj,mi)表示配件πj在机器mi上的完工时间,调度的目标为在通信设备配件排序的集合中找到一个π
*
,使得最大完工时间c
max
(π)最小;其中,c
max
(π)表示通信设备加工过程的最大完工时间。
[0078]
通信设备制造过程计算每个配件的开始加工时间、完工时间及完成所有配件的最大完工时间,将通信设备制造的调度过程转化为由强化学习求解的序贯决策问题,从而得到各强化学习要素,依据各强化学习要素使用基于自适应深度强化学习算法的优化调度方法对配件加工顺序进行调度。
[0079]
进一步地,可以设置所述基于深度强化学习的优化调度方法,包括:
[0080]
step1、提取通信设备生产车间在t时刻的状态s
t

[0081]
再进一步地,可以设置所述状态设定如下:
[0082][0083][0084][0085]
stj=(prop1,prop2,...,prop
m-1
)
ꢀꢀꢀ
(11)
[0086]
式中:表示配件πj在机器m
i 1
和机器mi上的完工时间间隔,ij为配件πj在各相邻机器上的完工时间间隔,propi表示配件πj的每个时间间隔占该配件整个加工时间的比例,stj为配件πj的比例向量,则t时刻的生产车间状态s
t
=stj;其中,t时刻表示通信设备生产
车间的状态转移时刻,即配件πj在第1台机器m1上的完工时间。
[0087]
由于其他发明更关注调度过程的各个局部状态,如机器个数、配件个数、各工件剩余加工时间(m维),各机器的负载(m维)等,那么一个时刻的状态是上述各局部状态的组合,其纬度将会很大,并且每当有一个配件完成一个操作时,均会触发状态转移,比如m2完成j3的工序而其他机器并未完成当前工序,那么状态转移后的新状态与上一状态差别并不大,而本发明中的状态设计直接提取各机器的相对完工时间比例,每确定一个配件,就会有一个新状态,通过降低状态转移的触发条件和状态的维度,提高状态区分度。
[0088]
step2、根据s
t
,以ε的概率随机选择动作或以1-ε的概率输入到调度器中选择最优动作,由选择的动作a
t
确定下一个被加工的配件;其中,最优动作为调度器收敛后的主q网络输出的动作;
[0089]
再进一步地,可以设置所述动作设定如下:
[0090]
动作1:最短加工时间配件优先
[0091][0092]
动作2:最长加工时间配件优先
[0093][0094]
动作3:最大机器利用率配件优先
[0095]
a(3)=arg maxj(uj),j∈bf(14)
[0096][0097]
wt
ij
=max(0,c(π
j-1
,mi)-c(πj,m
i-1
)),i=2,3,...,m,j∈bf
ꢀꢀꢀ
(16)
[0098]
动作4:最小加工时间离散度配件优先
[0099]
a(4)=arg minj(vj),j∈bf
ꢀꢀꢀ
(17)
[0100][0101][0102]
式中,uj表示选定配件πj时各机器的利用率,wt
ij
表示操作的等候时间,vj表示配件πj的加工时间离散度,表示配件πj在各机器上的平均加工时间;表示配件πj在机器mi上的操作。
[0103]
step3、计算执行动作a
t
获得的奖励r
t

[0104]
再进一步地,可以设置所述奖励设定如下:
[0105][0106][0107]
式中,δi(t)为机器i繁忙/空闲状态的示性函数,智能体执行动作a
t
后环境转移到下一个状态获得的奖励为r
t

[0108]
step4、生产车间进入新状态s
t 1

[0109]
step5、若调度器为收敛,将标签{s
t
,a
t
,r
t
,s
t 1
}输入到调度器中对调度器进行训练,否则直接进入step 6;
[0110]
step6、判断是否终止:当bf内所有配件被分配完即结束,否则重复step1-step5。
[0111]
再进一步地,可以设置所述调度器具有两个相同神经网络结构的q网络,即主q网络和目标q网络,其具体训练步骤如下:
[0112]
step5.1、随机初始化主q网络的网络权重θ,目标q网络的网络权重θ'=θ,迭代次数loop=1,临时变量h=0;
[0113]
step5.2、根据当前状态s
t
执行动作a
t
,获得奖励r
t
并且调度环境转移到下一个状态s
t 1
,得到标签re={s
t
,a
t
,r
t
,s
t 1
}并将其存入记忆池内;
[0114]
step5.3、从记忆池中选取batch个数据,输入到主q网络并输出计算每个动作的价值q(s
t
,a
t
;θ),根据计算目标q网络的动作价值q(s
t
,a
t
;θ'),并由l(θ)=(q(s
t
,a
t
;θ')-q(s
t
,a
t
;θ))2计算损失函数,将l(θ)反馈给主q网络更新权重;其中,q(s
t 1
;θ')表示目标q网络输出的状态s
t 1
的最大动作价值;
[0115]
step5.4、h=h 1,若h=c,使θ'=θ,h=0;否则,重复step5.2-step5.3;其中,c表示传参步数;
[0116]
step5.5、如果s
t
为终止状态,则loop=loop 1,直至loop达到最大迭代次数;否则,重复step5.2-step5.4。终止状态表示该次迭代下的配件全部分配完毕。
[0117]
再进一步地,本发明给出如下:
[0118]
本技术所提自适应深度强化学习算法(adrl)算法经过训练后,可对相同机器数的生产车间环境下不同规模配件进行调度,表1给出了标准测试集下深度强化学习算法(adrl)与求解相关流水线生产问题的三种典型调度规则和两种经典强化学习算法进行比较,即先到先加工(fcfs)、最短加工时间优先(spt)、最长加工时间优先(lpt)和q-learning与sarsa,机器规模分别为5和10,配件数规模分别选取10、20、30、40和50个的通信设备制造问题进行测试的结果,表1给出了各方法在不同问题规模下所求得的目标函数值。
[0119]
表1 不同问题规模下所求得的目标函数值
[0120]
[0121]
如表1所示,从各方法计算所得目标函数值分析可知,本发明的优化调度方法的性能优于其他五种对比算法,这验证了该方法的有效性,即表明当遇到不同规模通信设备制造调度问题时,自适应深度强化学习算法能够快速有效地找出最佳生产调度方案。
[0122]
实施例2:一种用于通信设备制造过程的学习型智能调度系统,包括:
[0123]
建立模块,用于建立工厂内的通信设备制造过程调度模型,并以最小化最大完工时间c
max
(π)为优化目标进行求解;
[0124]
获得模块,用于设计基于深度强化学习的优化调度方法,获得通信设备配件的加工顺序。
[0125]
实施例3:一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的用于通信设备制造过程的学习型智能调度方法。
[0126]
实施例4:一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的用于通信设备制造过程的学习型智能调度方法。
[0127]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0128]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0129]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献