一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于封闭间隙反馈与强化学习的零件智能排样方法及系统

2022-11-16 15:22:23 来源:中国专利 TAG:


1.本发明属于工业切割制造相关技术领域,更具体地,涉及一种基于封闭间隙反馈与强化学习的零件智能排样方法及系统。


背景技术:

2.排样问题广泛分布于钢板切割、玻璃切割、家具木料切割、服饰布料切割等制造业中,这类问题出现于切割制造过程中的设计环节,通常要求将一组零件合理地布置在一张板材上,零件之间的紧密靠接设计能有效地减小板材上的空余间隙,降低切割加工之后的废料余料,提高制造业中的板材类原材料的利用率。排样问题是一类经典的组合优化问题。因零件与零件之间的靠接、零件与板材之间的靠接、零件的形状、板材的形状、零件的角度要求等等环节会随着具体工业需求的变化而变化,排样问题包含大量的分支子问题,例如,根据零件的形状,可以将排样问题分类为规则形状零件排样问题与非规则形状零件的排样问题,根据板材的长度限制,可以将排样问题分类为矩形板材排样问题与带排样问题。
3.零件排列过程中,不同的零件排放到选定位置将引起不同的封闭间隙面积,而封闭间隙面积作为一种重要的反馈信息,可指导零件的选择,充分利用该反馈信息将有助于优化零件布局。若某零件放置于该位置产生的封闭间隙越小,则选择该零件对于降低板材废料面积越有利,又因为排样问题含有组合优化问题的特性,即单个零件排列产生的封闭间隙面积最小无法保证全部零件排列产生的封闭间隙面积之和最小,因此,应当以每个零件产生的封闭间隙面积的大小为依据,赋予每个零件一定程度的被选中概率,并根据概率选择零件。
4.求解排样问题的典型方法为设计特定的定位规则完成零件的定位,并配合顺序搜索算法获取最优零件布局。专利cn105488562a公开了一种基于多因子粒子群的不规则零件排样优化方法,利用下沉左右分散算法确定零件的位置,结合粒子群算法搜索零件的最优顺序。专利cn110909947a公开了一种基于灰狼算法的矩形零件排样优化方法,利用基于适应度评估的最低水平线算法确定零件的位置,结合灰狼算法搜索零件的最优顺序。文献《钣金件剩余矩形排样遗传优化方法研究》中采用零件左下定位方式,结合遗传算法搜索零件的最优顺序。这些方法均未利用零件放置过程产生的封闭间隙面积作为反馈来选择零件顺序,而仅仅采用算法生成的零件顺序。文献《a skyline heuristic for the 2d rectangular packing and strip packing problems》中提供了一种零件封闭间隙的计算方法,但只选择封闭间隙面积最小的零件作为待排零件,未设置其他零件被选中作为待排零件的概率,由于排样问题的组合优化特性,这种设置方式不利于优排样布局的获取。
5.目前,机器学习技术的发展给组合优化问题引入了一种新的求解方向,而强化学习属于机器学习中的一类方法,尤其适用于解决序贯决策问题。专利cn112488315a公开了一种基于深度强化学习和遗传算法的分批调度优化方法,用于生产制造领域的工件分批调度问题,专利cn111191934a公开了一种基于强化学习的多目标云工作流调度方法,用于云环境下的多目标优化问题。然而,根据目前的文献报道,强化学习很少被应用于排样问题的
求解。


技术实现要素:

6.针对现有技术的以上缺陷或改进需求,本发明提供了一种基于封闭间隙反馈与强化学习的零件智能排样方法及系统,其针对排样问题中的一类分支子问题,即二维矩形零件的带排样问题,且所述方法能够有效地利用每个零件布置过程中产生的封闭间隙作为反馈信息,指导零件的选择过程,同时结合机器学习的强化学习技术,搜索排样问题中的零件优质布局。
7.为实现上述目的,按照本发明的一个方面,提供了一种基于封闭间隙反馈与强化学习的零件智能排样方法,该方法包括以下步骤:
8.(1)确认零件排样问题的给定条件、排样问题的解法及最优解的定义、强化学习中的马尔科夫决策过程的定义、q值表的初始化;其中,零件排样问题的给定条件包括板材的尺寸、排样零件的数量及尺寸;
9.(2)开启强化学习新的一个回合,强化学习的总回合数量为m,将已排列零件的占用长度l’置零,设置θs为指数系数递减因子,θs∈(0,1);
10.(3)将每个未排零件采用左下定位策略虚拟放置于位置pos,令未排零件数量为n’,计算每个零件分别采用0
°
与90
°
两种角度放置于位置pos时形成的封闭间隙面积,所有零件的封闭间隙构成集合g{g1,g2,g3,
…g2n’};同时,在q值表中搜索未排零件所对应的动作的最大q值;
11.(4)根据封闭间隙集合g,计算针对未排零件的概率集合ps{p
s1
,p
s2
,p
s3
,

p
s2n’},ps表示以封闭间隙面积为主导因素而形成的零件被选择的概率,设置零件被选中的概率为封闭间隙面积的倒数并将其归一化;在概率集合ps中,p
st
的计算公式为:
[0012][0013]
式中,t为g中元素的标号;g
t
为标号为t的零件对应的封闭间隙面积;n’为未排零件的数量;
[0014]
同时,根据强化学习中的ε-greedy策略,计算未排零件的概率集合p
ε
{p
ε1
,p
ε2
,p
ε3
,

,p
ε2n’},p
ε
表示以强化学习得到的过往经验为主导因素而形成的零件被选择的概率;
[0015]
(5)计算概率集合pa{p
a1
,p
a2
,p
a3
,

,p
a2n’},pa由概率集合ps和概率集合p
ε
计算得到,其中,p
at
的计算公式为:
[0016][0017]
其中,p
at
为pa中标号为t的元素;θ为概率p
εt
项的指数系数,θ∈(0,1);
[0018]
接着根据pa在未排零件中选出零件parti以及对应角度oi,则parti为待排零件,且parti将以角度oi执行排样;同时,将θ乘以指数系数递减因子θs,以降低下一回合中的θ值,促进q值表的收敛,更新公式为:
[0019]
θ=θ*θs;
[0020]
(6)将零件parti以角度oi排到位置pos,若零件parti的右侧边界的x值x
ir
》l’,则更新占用长度l’=x
ir

[0021]
(7)执行动作ai,使当前状态由s
i-1
转变为si;
[0022]
(8)判断是否所有零件都已经排列,若所有零件都已排列,则进入最终状态sn,取rn=c/l’,其中c为给定常数,更新q(s
n-1
,an),更新公式为:
[0023]
q(s
n-1
,an)=q(s
n-1
,an) α[r
n-q(s
n-1
,an)]
[0024]
否则,进入状态si,i≠n,取ri=0,更新q(s
i-1
,ai)后转至步骤(3),更新q(s
i-1
,ai)所采用的更新公式为:
[0025]
q(s
i-1
,ai)=q(s
i-1
,ai) α[ri γmaxq(si,a
i 1
)-q(s
i-1
,ai)]
[0026]
式中,α为学习速率,α∈(0,1),表示q值更新的速度,γ为折扣因子,γ∈(0,1),表示未来奖励转化到当前步骤的比例;
[0027]
(9)当前回合中n个零件已全部排列,若l’《l’opt
,说明当前回合搜索到的解优于最优解,则更新最短占用长度为当前回合的占用长度,l’opt
=l’,更新最优解为当前回合的解,s
opt
=s,当前回合结束;
[0028]
(10)判断是否达到给定的回合数m,若达到,矩形零件排样结束;否则,转至步骤(2),开启强化学习的新的一个回合。
[0029]
进一步地,所述零件排样问题的解法为搜索零件顺序与零件的方位,即在排样问题的给定条件下,存在一组零件顺序与零件所采用的方位,当每个零件以该方位和该顺序依次排列到板材上时,能够得到最优的零件布局,即实际零件占用长度l’最短的布局;排样问题的每一个解s就是一组零件顺序和零件方位,初始化最短占用长度l’opt
为w*n,最优解s
opt
为任意零件顺序和方位。
[0030]
进一步地,所述马尔科夫决策过程包含状态、动作和奖励三部分的定义,且整体马尔科夫决策过程共有n个阶段,每个阶段对应一个零件及其方位的选择;初始状态为包含n个0的数组,即s0=(0,0,0,

,0),在阶段i时,采取动作ai,状态将由s
i-1
转化为si,且得到奖励ri,马尔科夫决策过程为s0,a1,s1,r1,a2,s2,r2…
,an,sn,rn,定义其他状态为将数组中对应阶段的0替换为所选动作得到的状态,即si=(a1,a2,a3,

,ai,0,0,

,0),而动作由阶段i中选出的零件序号parti以及方位值oi构成,即ai=(parti,oi)。
[0031]
进一步地,左下定位策略的含义为搜索所有的能容纳该零件的位置,在这些位置中,选取最靠左最靠下的位置,即x坐标值最小且y坐标值最小的位置,作为位置pos。
[0032]
进一步地,所述零件形成的封闭间隙包含四种类型,分别将其命名为g
c1
、g
c2
、g
c3
、g
c4
,分别为:
[0033]
第1种类型,零件左侧盖住的间隙,当零件放置于位置pos时,零件的尺寸可能过大,导致零件在y方向的长度大于位于pos的已排零件的边界,零件超出位于pos的已排零件的边界的长度将引起用于其余未排零件的空间的减小,令这部分减小的空间为间隙g
c1

[0034]
第2种类型,零件下侧包围的间隙,当零件放置于位置pos时,存在零件在x方向伸出pos过长的情况,且伸出的部分与pos周围的已排零件的边界在y方向的距离过小,将无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c2

[0035]
第3种类型,零件上侧包围的间隙,当零件放置于位置pos时,存在零件的尺寸小于
pos在y方向可容纳尺寸的情况,且零件放置于pos之后,pos在y方向的剩余尺寸将无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c3

[0036]
第4种类型,除去pos以外的、未直接受到零件排列影响的可放置位置形成的间隙,当零件放置于位置pos时,除去pos以外的某些可放置位置虽然在y方向可容纳尺寸不变,但这些可放置位置将有可能无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c4

[0037]
零件的封闭间隙g为:
[0038]
g=g
c1
g
c2
g
c3
g
c4

[0039]
进一步地,在概率集合p
ε
中,若t对应着在当前状态下q值表中可选动作的最大q值,则p
εt
的计算公式如下:
[0040][0041]
否则,则p
εt
的计算公式如下:
[0042][0043]
进一步地,pa包含的元素个数与概率集合ps和概率集合p
ε
相同,元素个数为2*n’,表示同时结合零件封闭间隙面积的反馈信息和强化学习所学到的过往经验而形成的零件被选择的概率。
[0044]
按照本发明的另一个方面,提供了一种基于封闭间隙反馈与强化学习的零件智能排样系统,该系统包括计算机可读存储介质及处理器,所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上所述的基于封闭间隙反馈与强化学习的零件智能排样方法。
[0045]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的基于封闭间隙反馈与强化学习的零件智能排样方法及系统主要具有以下有益效果:
[0046]
1.将矩形零件放置过程中产生的封闭面积作为反馈,赋予所有未排零件以概率被选择作为待排零件,因此在每次选择零件时,每个零件都有一定的概率被选中,避免陷入局部最优。
[0047]
2.利用强化学习优化零件的排放顺序与零件的方位,强化学习可以依据概率选择零件的顺序与方位,亦可记录已知解的探索,因此能够平衡对于未知解的探索与对于已知解的利用,探索过程更加全面。
[0048]
3.同时结合封闭面积形成的概率与强化学习策略中的概率,依据此概率选择零件,并逐步弱化封闭面积形成的概率,有利于强化学习的q值表的收敛,更有效地搜索到优质解。
附图说明
[0049]
图1是本发明提供的一种基于封闭间隙反馈与强化学习的零件智能排样方法的流程示意图;
[0050]
图2是带排样问题的示意图;
[0051]
图3是强化学习马尔可夫过程的示意图;
[0052]
图4中的(a)、(b)、(c)、(d)分别是四种封闭间隙的示意图。
具体实施方式
[0053]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0054]
请参阅图1及图2,本发明提供的一种基于封闭间隙反馈与强化学习的零件智能排样方法主要包括以下步骤:
[0055]
步骤一,确认零件排样问题的给定条件、排样问题的解法及最优解的定义、强化学习中的马尔科夫决策过程的定义、q值表的初始化;其中,零件排样问题的给定条件包括板材的尺寸、排样零件的数量及尺寸。
[0056]
具体地,零件排样问题的给定条件包括板材宽度w和长度l、排样零件数量n、每个零件的长度和宽度值。其中w为给定的数值,l为无限长,板材放置于坐标系原点位置,l沿着坐标系的x轴方向,w沿着坐标系的y轴方向。因此,零件的布局在y方向的占用长度必须小于w,而在x方向可以任意延展。
[0057]
所述零件排样问题的解法为搜索零件顺序与零件的方位,即在排样问题的给定条件下,存在一组零件顺序与零件所采用的方位,当每个零件以该方位和该顺序依次排列到板材上时,能够得到最优的零件布局,即实际零件占用长度l’最短的布局。排样问题的每一个解s就是一组零件顺序和零件方位。初始化最短占用长度l’opt
为w*n,最优解s
opt
为任意零件顺序和方位。
[0058]
所有零件的顺序包含n!种情况,而每种零件又可采取0
°
与90
°
两种方位,因此,全体解的数量为n!*2n,而在此n!*2n个解中,存在一组零件顺序与零件的方位,当每个零件以该方位和该顺序依次排列到板材上时,能够得到最优的零件布局,即实际零件占用长度l’最短的布局。初始化最短占用长度l’opt
为w*n,最优解s
opt
为任意零件顺序和方位。
[0059]
因每个零件可采用0
°
与90
°
放置,因此,q值表中的每个状态对应的可选动作的数量最大为2*n,而随着零件逐渐被选择,剩余零件数量逐渐减少,可选动作的数量将逐渐递减。例如,在第1阶段,可选动作的数量为2*n,在第2阶段,可选动作的数量为2*(n-1),以此类推,在第n阶段,可选动作的数量仅为2。
[0060]
所述马尔科夫决策过程包含状态、动作和奖励三部分的定义,且整体马尔科夫决策过程共有n个阶段,每个阶段对应一个零件及其方位的选择。定义初始状态为包含n个0的数组,即s0=(0,0,0,

,0),在阶段i时,采取动作ai,状态将由s
i-1
转化为si,且得到奖励ri,因此,马尔科夫决策过程为s0,a1,s1,r1,a2,s2,r2…
,an,sn,rn。定义其他状态为将数组中对应阶段的0替换为所选动作得到的状态,即si=(a1,a2,a3,

,ai,0,0,

,0),而动作由阶段i中选出的零件序号parti以及方位值oi构成,即ai=(parti,oi)。
[0061]
如图3所示,定义其他状态为将数组中对应阶段的0替换为所选动作得到的状态,例如,在第1阶段,执行动作a1,状态转化为s1=(a1,0,0,

,0),在第2阶段,执行动作a2,状态转化为s2=(a1,a2,0,

,0),以此类推,直到第n阶段,执行动作an,状态转化为sn=(a1,a2,a3,

,an)。
[0062]
在马尔科夫决策过程中,由于每个零件都需要排列到板材上且仅排列一次,因此,动作值中包含的所选出的零件序号parti不可重复,part1≠part2≠part3≠

≠partn。
[0063]
步骤二,开启强化学习新的一个回合,强化学习的总回合数量为m,将已排列零件的占用长度l’置零,设置θs为指数系数递减因子,θs∈(0,1)。
[0064]
步骤三,将每个未排零件采用左下定位策略虚拟放置于位置pos,令未排零件数量为n’,计算每个零件分别采用0
°
与90
°
两种角度放置于位置pos时形成的封闭间隙面积,所有零件的封闭间隙构成集合g{g1,g2,g3,
…g2n’};同时,在q值表中搜索未排零件所对应的动作的最大q值。
[0065]
所述左下定位策略的含义为搜索所有的能容纳该零件的位置,在这些位置中,选取最靠左最靠下的位置,即x坐标值最小且y坐标值最小的位置,作为位置pos。将每个未排零件采用左下定位策略虚拟放置于位置pos,令未排零件数量为n’,由于零件可能无法完全匹配pos的空间形状,零件的放置将形成封闭间隙g,计算每个零件分别采用0
°
与90
°
两种角度放置于位置pos时形成的封闭间隙面积,所有零件的封闭间隙构成集合g{g1,g2,g3,
…g2n’}。同时,在q值表中搜索未排零件所对应的动作的最大q值。
[0066]
所述零件形成的封闭间隙包含四种类型,分别将其命名为g
c1
、g
c2
、g
c3
、g
c4
,分别列举如下:
[0067]
第1种类型,零件左侧盖住的间隙,当零件放置于位置pos时,零件的尺寸可能过大,导致零件在y方向的长度大于位于pos的已排零件的边界,零件超出位于pos的已排零件的边界的长度将引起用于其余未排零件的空间的减小,令这部分减小的空间为间隙g
c1
,如图4中的(a)所示。
[0068]
第2种类型,零件下侧包围的间隙,当零件放置于位置pos时,存在零件在x方向伸出pos过长的情况,且伸出的部分与pos周围的已排零件的边界在y方向的距离过小,将无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c2
,如图4中的(b)所示。
[0069]
第3种类型,零件上侧包围的间隙,当零件放置于位置pos时,存在零件的尺寸小于pos在y方向可容纳尺寸的情况,且零件放置于pos之后,pos在y方向的剩余尺寸将无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c3
,如图4中的(c)所示。
[0070]
第4种类型,除去pos以外的、未直接受到零件排列影响的可放置位置形成的间隙,当零件放置于位置pos时,除去pos以外的某些可放置位置虽然在y方向可容纳尺寸不变,但这些可放置位置将有可能无法容纳任意的其余未排零件,令此时形成的间隙为间隙g
c4
,如图4中的(d)所示。
[0071]
当每个零件放置到位置pos时,由于位置pos周围空间的具体情况存在多种可能性,所形成的封闭间隙可能不仅只包含上述某一种封闭间隙类型,而包含上述全部的四种封闭间隙类型,因此,需要计算上述四种情况所对应的封闭间隙面积之和作为该零件形成的封闭间隙面积,零件的封闭间隙g为:
[0072]
g=g
c1
g
c2
g
c3
g
c4

[0073]
步骤四,根据封闭间隙集合g,计算针对未排零件的概率集合ps{p
s1
,p
s2
,p
s3
,

p
s2n’},ps表示以封闭间隙面积为主导因素而形成的零件被选择的概率,设置零件被选中的概率为封闭间隙面积的倒数并将其归一化;在概率集合ps中,p
st
的计算公式如下:
[0074][0075]
式中,t为g中元素的标号;g
t
为标号为t的零件对应的封闭间隙面积;n’为未排零件的数量;
[0076]
同时,根据强化学习中的ε-greedy策略,计算针对未排零件的概率集合p
ε
{p
ε1
,p
ε2
,p
ε3
,

,p
ε2n’},p
ε
表示以强化学习得到的过往经验为主导因素而形成的零件被选择的概率。
[0077]
具体地,由于零件放置引起的封闭间隙将导致板材上废料面积的出现,不利于优质解的形成,因此,应设置产生封闭间隙面积较大的零件以较小的概率被选中,在此设置零件被选中的概率为封闭间隙面积的倒数并将其归一化。
[0078]
在概率集合p
ε
中,若t对应着在当前状态下q值表中可选动作的最大q值,则p
εt
的计算公式如下:
[0079][0080]
否则,则p
εt
的计算公式如下:
[0081][0082]
步骤五,计算概率集合pa{p
a1
,p
a2
,p
a3
,

,p
a2n’},pa由概率集合ps和概率集合p
ε
计算得到,其中,p
at
的计算公式如下:
[0083][0084]
其中,p
at
为pa中标号为t的元素;θ为概率p
εt
项的指数系数,θ∈(0,1);
[0085]
接着根据pa在未排零件中选出零件parti以及对应角度oi,则parti为待排零件,且parti将以角度oi执行排样。同时,将θ乘以指数系数递减因子θs,以降低下一回合中的θ值,促进q值表的收敛,更新公式为:
[0086]
θ=θ*θs。
[0087]
本实施方式中,pa包含的元素个数与概率集合ps和概率集合p
ε
相同,元素个数为2*n’,表示同时结合零件封闭间隙面积的反馈信息和强化学习所学到的过往经验而形成的零件被选择的概率。
[0088]
步骤六,将零件parti以角度oi排到位置pos,若零件parti的右侧边界的x值x
ir
》l’,则更新占用长度l’=x
ir

[0089]
步骤七,执行动作ai,当前状态由s
i-1
转变为si。
[0090]
步骤八,判断是否所有零件都已经排列,若所有零件都已排列,则进入最终状态sn,取rn=c/l’,其中c为给定常数,更新q(s
n-1
,an),更新公式为:
[0091]
q(s
n-1
,an)=q(s
n-1
,an) α[r
n-q(s
n-1
,an)]
[0092]
否则,进入状态si,i≠n,取ri=0,更新q(s
i-1
,ai)后转至步骤三,更新q(s
i-1
,ai)所采用的更新公式为:
[0093]
q(s
i-1
,ai)=q(s
i-1
,ai) α[ri γmaxq(si,a
i 1
)-q(s
i-1
,ai)]
[0094]
式中,α为学习速率,α∈(0,1),表示q值更新的速度,γ为折扣因子,γ∈(0,1),表示未来奖励转化到当前步骤的比例。
[0095]
若某回合中所有零件都已排完时,得到的占用长度l’越短,则该回合对应的解越优,应赋予更大的奖励值,因此,取rn=c/l’。
[0096]
步骤九,当前回合中n个零件已全部排列,若l’《l’opt
,说明当前回合搜索到的解优于最优解,则更新最短占用长度为当前回合的占用长度,l’opt
=l’,更新最优解为当前回合的解,s
opt
=s,当前回合结束。
[0097]
步骤十,判断是否达到给定的回合数m,若达到,矩形零件排样结束;否则,转至步骤二,开启强化学习的新的一个回合。
[0098]
本实施方式针对二维矩形零件的带排样问题,同时结合零件放置过程中产生的封闭间隙反馈信息与机器学习中的强化学习技术,提供了一种搜索零件优质布局的方法,搜索过程全面,执行性能良好。
[0099]
本发明还提供了一种基于封闭间隙反馈与强化学习的零件智能排样系统,该系统包括计算机可读存储介质及处理器,所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上所述的基于封闭间隙反馈与强化学习的零件智能排样方法。
[0100]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献