一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于柔性制造系统及设备的自学习制造调度方法与流程

2022-05-06 09:16:27 来源:中国专利 TAG:

scheduling(用于柔性制造调度的优化和反应控制的动态体系结构)。computers in industry(工业计算机)65:706-720。
13.另一方法是其中有中央实体控制智能体的要求的多智能体系统,因此智能体必须与该实体通信,这描述为:
14.frankovi
ν
c,b.和budinsk'a,i.2000。"advantages and disadvantages of heuristic and multi agents approaches to the solution of scheduling problem(启发式和多智能体方法解决调度问题的优缺点)"。proceedings of the conference ifac control systems design(ifac控制系统设计会议记录)。bratislava,slovak rep.:ifac proceedingvolumes 60,issue 13or(斯洛伐克共和国布拉迪斯拉发:ifac记录第60卷第13期或)
15.leit~ao,p.和rodrigues,n.2011。"multi-agent system for on-demand production integrating production and quality control(集成生产和质量控制的按需生产多智能体系统)"。holomas 2011,lnai 6867:84-93。
16.强化学习是一种使用奖励和惩罚的系统来训练算法的动态编程的类型。一般来说,强化学习算法或智能体通过与其环境交互来学习。智能体通过正确执行来接收奖励,并且因不正确执行而受到惩罚。智能体在没有来自人类干预的状况下通过最大化其奖励并且最小化其惩罚来学习。
17.在多智能体强化学习(rl)的领域中也有针对分布式作业车间调度问题的研究,其中,一个智能体控制一个制造模块并且决定是否能够派遣作业。
18.在gabel t.,multi-agent reinforcement learning approaches for distributed job-shop scheduling problems(分布式作业车间调度问题的多智能体强化学习方法),dissertation(论文),june(六月)2009中描述了实例。
19.缺点是需要中央实体来制定全局决策,并且每个智能体只能获得fms状态的简化视图,这能导致长的训练阶段。


技术实现要素:

20.本发明的目的旨在针对上述所讨论的问题提供解决方案,以用于fms的产品规划和调度。
21.该问题通过根据权利要求1所述的特征的方法和通过根据权利要求8所述的特征的系统来解决。
22.在从属权利要求中描述了本发明的其他有利实施方式。
23.解决方案的描述仅是执行的实例,并且并不意味着对本发明的限制。
24.所提出的方法用于针对用于至少生产产品的柔性制造系统进行自学习制造调度,其中,制造系统由通过输送实体互连的加工实体组成,其中,制造调度将由强化学习系统在柔性制造系统的模型上学习,其中,该模型至少表示柔性制造系统的行为和决策制定,其中,该模型作为佩特里网(petri net)来实现。
25.加工实体和输送实体的顺序能够互换,并且因此整个布置非常灵活。
26.佩特里网,也称为位置/转换(pt)网,用于描述分布式系统的数学建模语言。它是一类离散事件动态系统。佩特里网是有向二分图,其中,节点表示转换(即可能发生的事件,
通过条形表示)和位置(即条件,由圈表示)。有向弧描述了哪些位置是关于哪些转换的前置条件和/或后置条件(由箭头表示)。
27.已经有研究使用佩特里网对材料流进行建模,并且使用佩特里网模型和启发式搜索来调度fms中的作业,例如:“method for flexible manufacturing systems based on timed colored petri nets and anytime heuristic search(基于定时有色佩特里网和随时启发式搜索的柔性制造系统方法)”,ieee transactions on system,man,and cybernetics(系统、人与控制论的ieee交易):systems(系统)45(5):831-846
·
may(五月)2015。
28.本发明提出了用于在线调度的自学习系统,其中,rl智能体针对佩特里网进行训练,直至它们从针对fms内的多个状况限定的一组动作中学习到最佳决策为止。佩特里网表示fms的系统行为和决策制定点。佩特里网的状态表示fms中的状况,因为它涉及模块和位置的拓扑以及产品的种类。
29.该自学习系统的最初想法是使用佩特里网作为工厂架构、其状态和其行为的表示,以用于训练rl智能体。佩特里网的当前状态进而工厂被用作rl智能体的输入。同时,佩特里网被用作fms(环境)的模拟,因为它在rl智能体选择每个动作之后会进行更新。
30.当应用经训练的系统时,能够在生产过程期间近乎实时地制定决策,并且智能体通过fms控制产品,包括将操作派遣至使用不同优化目标的各种产品的制造模块。本发明尤其适用于具有路由和派遣灵活性的制造系统。
31.该佩特里网能够由用户手动创建,但是也能够通过使用例如如图3中描绘的背后具有逻辑的gui来自动创建,它能够在佩特里网中翻译架构的示意性描述。
32.对于每个模块或机器,生成一个位置。对于每个决策制定点,也生成一个位置。对于两个点之间的每个传送带连接,生成连接相应位置的转换。通过遵循这些规则,佩特里网的拓扑将自动看起来与用户创建的工厂拓扑非常类似。
33.mes的规划和调度部分能够被本发明的在线调度和分配系统取代。
附图说明
34.在下文中,本发明将通过附图在优选实施方式中进行说明。
35.图1示出了在虚拟层(佩特里网)中rl智能体的训练构思以及在物理层(实际fms)中经训练的模型的应用,
36.图2上部示出了将fms的状态和行为表示为佩特里网,有色佩特里网用于表示fms中的多个产品,
37.图2下部示出了该矩阵包含佩特里网的系统行为,
38.图3示出了gui的可能的草案以用于示意性地设计fms。
具体实施方式
39.图1示出了来自训练系统300的整个系统的概览,其中,实际工厂500表示为佩特里网102。
40.因为rl技术,我们能够使用sarsa、dqn等。
41.一个rl智能体模型针对佩特里网102进行训练,以稍后精确控制一种产品。因此,
针对各种产品训练有各种智能体,其能够是同一智能体的一些实例,每种产品一个。由于工厂的状态包括模块的队列长度和其他产品的位置信息,因此产品不需要彼此之间进行通信。
42.图1示出了训练的构思。rl智能体在虚拟环境(佩特里网)中训练,并且学习如何在示出的不同状况下做出反应。在从一组有限的动作中选择动作之后,从随机选择开始,更新环境,并且rl智能体观察新的状态和奖励作为对其动作的评估。rl智能体的目标是通过找到最佳控制策略来最大化长期折扣奖励。
43.在训练期间,如果神经网络与rl智能体一起使用,rl智能体多次看到多个状况(非常高的状态空间)并且能够推广到看不到的状况。在针对佩特里网训练智能体之后,在运行时将智能体应用于在线调度之前,将其在实际的fms中进行微调。
44.在采取动作302之后,观察模拟中的结果303,并且给出反馈(奖励301)。
45.由于工厂的状态包括模块的队列长度和其他产品的位置信息,因此产品不需要彼此之间进行通信。
46.在从一组有限的动作中选择动作之后,通过随机选择开始,更新环境,并且rl智能体观察新的状态和奖励,作为对其动作的评估。rl智能体的目标是通过找到最佳控制策略来最大化长期折扣奖励。在训练期间,如果神经网络与rl智能体一起使用,rl智能体多次看到多个状况(非常高的状态空间)并且能够推广到看不到的状况。在针对佩特里网训练智能体之后,在运行时将智能体应用于在线调度之前,在实际的fms中对其进行微调。
47.利用工厂的示意图101以及利用内容含义的固定知识,能够自动生成佩特里网102,如其在所有附图中示意性描绘的。
48.在下文中,解释佩特里网101的结构。
49.将圆圈命名为位置m1、
……
、m6,并且将箭头1、2、
……
、24命名为佩特里网环境中的转换。图2中的佩特里网的内六边形表示传送带部分(位置7-12),并且外部位置表示能够连接制造模块的位置(数字1-6)。转换3、11、15、19、23让产品停留在相同位置。其余数字1、
……
、24是转换,能够触发转换以将产品(令牌)从一个位置移动至另一位置。当在第一操作之后第二操作能够在相同模块中执行时,这些转换是有用的。佩特里网的状态由位置的乘积a、b、c、d、e(令牌)限定。为了考虑fms中的多个不同产品,能够使用具有有色令牌的有色佩特里网作为不同产品。除了颜色,还能够使用产品id。
50.描述工厂架构(位置)及其系统行为(转换)的佩特里网也能够表示在一个单个矩阵中,如下图2所示。
51.该矩阵描述了通过激活转换来将令牌从一个位置移动到另一位置。行是位置并且列是转换。例如第二列和第一行中的 1描述了一个令牌通过激活转换2移动至位置1。通过使用如图2中的矩阵,能够通过将转换向量和矩阵c的点积与前一状态相加来轻松地计算佩特里网的以下状态。转换向量是一个热编码向量,它描述了受控智能体待触发的转换。
52.fms的佩特里网表示非常适合rl智能体的训练环境。例如,通过称为q-学习(q-learning)的算法针对佩特里网训练rl智能体,直至策略/q值(针对事件的长期折扣奖励)收敛。佩特里网的状态是用于表示fms中的状况的一个组成,包括受控产品和其他产品的产品位置及其特征。这种状态能够用单个向量表示,并且用作rl智能体的输入向量之一。该向量限定了佩特里网中每个位置的状态,包括位于该位置的产品类型。
53.即如果产品类型a位于容量为三的位置一上,则第一向量的录入如下所示[a,0,0]。
[0054]
如果产品类型b和c在容量为三的位置二上,则第一向量和第二向量的录入如下所示[[a,0,0][b,c,0]]。
[0055]
rl智能体的动作空间由佩特里网的所有转换限定。因此,rl智能体的任务根据状态触发转换。
[0056][0057]
然后在单行代码中非常快速地计算下一状态,并且将下一状态传播回奖励函数和智能体。在触发无效转换时,智能体将首先通过获得负奖励来学习工厂行为,并且然后将能够触发合适的转换,即由不同智能体控制的所有产品都以有效的方式生产。智能体在运行时的动作与受控产品在需要制定决策的每个点上应该走的方向相关联。由于多个智能体通过其优化目标控制不同的产品,同时考虑附加的全局优化目标,该系统能够用作在线/反应式调度系统。
[0058]
奖励函数(奖励函数不是本发明的一部分,本段仅用于理解奖励函数如何参与训练rl智能体)重视智能体选择的动作、模块的派遣,以及智能体如何遵守给定的约束。因此,奖励函数必须包含这些特定于过程的约束、局部优化目标和全局优化目标。这些目标能够包括完工时间、加工时间、材料成本、生产成本、能源需求和质量。
[0059]
自动生成奖励函数,因为它是待考虑的优化目标的数学公式。
[0060]
工厂操作员的任务是在例如gui中设定特定于过程的约束和优化目标。还能够根据工厂操作员的期望考虑组合和加权优化目标。在运行时,能够将接收到的奖励与预期奖励进行比较,以进一步分析或决定再次训练模型或对其进行微调。
[0061]
由于模块能够被各种制造过程所取代,因此该构思能够转移到任何工厂内的物流应用中。本发明有利于在线调度,但是也能够应用于离线调度或以组合的方式使用。
[0062]
如果在一些状况下存在系统不知道的状况(即当有新的制造模块时),系统能够探索这种状况下的动作并且在线学习如何执行动作。因此,系统在线学习未知状况下的最佳动作,尽管它可能会在一开始就选择次优决策。可替选地,在训练设置中能够再次利用适应的工厂拓扑例如通过使用gui对系统进行训练。
[0063]
在图3的实例gui 110中,右侧是fms的表示。有用于模块化和静态生产模块的框m1、
……
、m6和表示传送带部分的小框c、c1、
……
、c6。模块化框m1、
……
、m6中的数字表示特定制造模块的加工功能f1、f5,例如钻孔、成型、打印。能够想象,制造过程中的一项任务能够由不同的制造站m1、
……
、m6执行,即使它们实现不同的加工功能,也能够互换。
[0064]
决策制定点d1、
……
、d6被放置在期望的位置处。在gui的背后,实施了固定且通用的规则,例如在决策制定点处需要做出决策(

稍后:智能体调用)并且产品能够在传送带上从一个决策制定点移动至下一个决策制定点或者在制定决策之后停留在模块中。能够在
典型的gui的第三 框113中设定工厂中产品的最大数量、作业列表中的最大操作数量和与所有可能操作一样的作业顺序约束117以及模块的属性(包括最大容量或队列长度)。也能够设定动作,但是在默认状况下,佩特里网102的每个转换都是动作。
[0065]
例如通过在gui中设定值的方式能够限定优化目标的重要性114,例如
[0066]5×
生产时间,2
×
质量,1
×
能源效率
[0067]
并且然后该信息将直接转换为奖励函数116的数学描述,在该实例中:
[0068]
0.625生产时间 0.25
×
质量 0.125
×
时间能量
[0069]
本发明提供了具有能够非常快速地对看不见的状况作出在线反应的调度系统。自学在线调度引起较少的工程工作量,因为它不是基于规则或工程的。使用所提出的解决方案,通过与佩特里网交互找到最佳在线调度,而无需工程工作量,例如限定启发式。
[0070]
与已知的工厂模拟工具相比,“模拟”时间非常快,因为对于计算下一状态仅需要一个方程。模拟工具与智能体之间不需要通信(“模拟”集成在智能体的环境中,因此也没有响应时间)。
[0071]
对于训练不需要模拟工具。
[0072]
不需要标记数据便可找到最佳决策,因为它是针对佩特里网进行训练的。用于fms的佩特里网能够自动生成。
[0073]
各种产品能够在一个fms中以不同的优化目标和附加的全局优化目标进行优化制造。
[0074]
由于rl,对于工程师无需过度考虑每种奇异状况来为系统规则建模。
[0075]
应用系统的决策制定在线发生并且近乎实时。
[0076]
例如对于新的拓扑,能够进行在线训练,也能够离线重新训练智能体。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献