复杂结构件加工路径优化方法、装置、终端及存储介质与流程

2022-07-16 14:47:59 来源：中国专利 TAG：

1.本发明涉及数控加工领域，尤其涉及的是一种复杂结构件加工路径优化方法、装置、终端及存储介质。

背景技术：

2.在加工生产领域利用数控机床对工件进行加工时，需要将工件按照预定的图样加工成不同的成品工件。优化数控机床的加工路径实现加工效率的大幅提高。其次对应具有批量化加工生产需求或者零件加工路径十分复杂的加工任务而言，还能显著减少加工误差、提高工件质量，让企业能够获得可观的经济利润。现有技术中存在基于机器学习模型的加工路径优化方法，然而这种方法需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务。
3.因此，现有技术还有待改进和发展。

技术实现要素：

4.本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种复杂结构件加工路径优化方法、装置、终端及存储介质，旨在解决现有技术中的基于机器学习模型的加工路径优化方法，需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务的问题。
5.本发明解决问题所采用的技术方案如下：
6.第一方面，本发明实施例提供一种复杂结构件加工路径优化方法，其中，所述方法包括：
7.获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀具的运动轨迹；
8.根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参数包括坐标矢量和走刀方向矢量；
9.根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定；
10.将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值；
11.根据所述奖励值更新所述智能体对应的网络参数；
12.将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次
得到的所述更新刀位点序列作为目标刀位点序列；
13.根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。
14.在一种实施方式中，所述获取目标工件对应的初始加工路径，包括：
15.获取目标工件对应的结构特征和工艺特征；
16.获取数控机床的历史加工信息，根据所述结构特征和所述工艺特征从所述历史加工信息中确定若干候选历史加工路径；
17.根据若干所述候选历史加工路径分别对应的加工路径，确定所述初始加工路径。
18.在一种实施方式中，所述根据若干所述候选历史加工路径分别对应的加工路径，确定所述初始加工路径，包括：
19.根据若干所述候选历史加工路径，确定历史刀位点集合，其中，所述历史刀位点集合中包括若干所述候选历史加工路径中的所有刀位点；
20.对所述历史刀位点集合中的所有刀位点进行数据拟合，得到拟合曲线；
21.根据所述拟合曲线，确定所述初始加工路径。
22.在一种实施方式中，所述将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值，包括：
23.将所述刀位点序列输入所述智能体，获取所述智能体基于所述刀位点序列输出的调整动作数据；
24.根据所述调整动作数据对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到所述更新刀位点序列；
25.根据所述更新刀位点序列，确定所述目标工件对应的更新加工路径；
26.通过仿真环境模型基于所述更新加工路径模拟加工过程，模拟完毕后获取所述刀具对应的实际加工路径和所述目标工件对应的质量评级，其中，所述仿真环境模型预先基于数控机床对应的机床误差设定有误差增加模块；
27.根据所述更新加工路径、所述实际加工路径和所述质量评级，确定所述奖励值。
28.在一种实施方式中，所述智能体包括调整策略函数，所述将所述刀位点序列输入所述智能体，获取所述智能体基于所述刀位点序列输出的调整动作数据，包括：
29.所述将所述刀位点序列输入所述调整策略函数，其中，所述调整策略函数中包括调整幅度参数，所述调整幅度参数的值与所述刀位点序列对应的序列复杂度成反比关系，所述序列复杂度与所述刀位点序列对应的第一波动值和第二波动值的合成正比关系，所述第一波动值基于所述刀位点序列对应的所述第一分值的波动幅度确定，所述第二波动值基于所述刀位点序列对应的所述第二分值的波动幅度确定；
30.通过所述调整策略函数基于所述刀位点序列，输出所述调整动作数据。
31.在一种实施方式中，所述根据所述更新加工路径、所述实际加工路径和所述质量评级，确定所述奖励值，包括：
32.根据所述更新加工路径和所述实际加工路径，确定路径偏差值；
33.根据所述路径偏差值和所述质量评级，确定所述奖励值。
34.在一种实施方式中，所述根据所述更新加工路径和所述实际加工路径，确定路径偏差值，包括：
35.根据若干所述刀位点在所述更新加工路径和所述实际加工路径中分别对应的坐标数据的差值，确定若干所述刀位点分别对应的节点偏差值；
36.根据若干所述刀位点在所述实际加工路径中分别对应的坐标数据和若干坐标约束区间，确定若干所述刀位点分别对应的约束得分值，其中，若干所述坐标约束区间分别对应的不同的坐标轴；
37.根据若干所述刀位点分别对应的所述节点偏差值和所述约束得分值，确定所述路径偏差值。
38.第二方面，本发明实施例还提供一种复杂结构件加工路径优化装置，其中，所述装置包括：
39.预处理模块，用于获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀具的运动轨迹；
40.根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参数包括坐标矢量和走刀方向矢量；
41.根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定；
42.强化学习模块，用于将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值；
43.根据所述奖励值更新所述智能体对应的网络参数；
44.将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次得到的所述更新刀位点序列作为目标刀位点序列；
45.根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。
46.第三方面，本发明实施例还提供一种种终端，其中，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行如上述任一所述的复杂结构件加工路径优化方法的指令；所述处理器用于执行所述程序。
47.第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的复杂结构件加工路径优化方法的步骤。
48.本发明的有益效果：本发明实施例通过强化学习的方法，无需预先采集大量的训练数据，可以快速实现加工路径的优化。解决了现有技术中的基于机器学习模型的加工路径优化方法，需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务的问题。
附图说明
49.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1是本发明实施例提供的复杂结构件加工路径优化方法的流程示意图。
51.图2是本发明实施例提供的复杂结构件加工路径优化装置的内部模块示意图。
52.图3是本发明实施例提供的终端的原理框图。
具体实施方式
53.本发明公开了复杂结构件加工路径优化方法、装置、终端及存储介质，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
54.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
55.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
56.在加工生产领域利用数控机床对工件进行加工时，需要将工件按照预定的图样加工成不同的成品工件。优化数控机床的加工路径实现加工效率的大幅提高。其次对应具有批量化加工生产需求或者零件加工路径十分复杂的加工任务而言，还能显著减少加工误差、提高工件质量，让企业能够获得可观的经济利润。现有技术中存在基于机器学习模型的加工路径优化方法，然而这种方法需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务。
57.针对现有技术的上述缺陷，本发明提供一种复杂结构件加工路径优化方法，所述方法通过获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀具的运动轨迹；根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参数包括坐标矢量和走刀方向矢量；根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定；将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第
一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值；根据所述奖励值更新所述智能体对应的网络参数；将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次得到的所述更新刀位点序列作为目标刀位点序列；根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。本发明采用强化学习的方法，无需预先采集大量的训练数据，可以快速实现加工路径的优化。解决了现有技术中的基于机器学习模型的加工路径优化方法，需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务的问题。
58.如图1所示，所述方法包括如下步骤：
59.步骤s100、获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀具的运动轨迹。
60.具体地，目标工件可以为任意一个待加工的零件，该零件可以是简单结构的零件，也可以是复杂结构的零件。本实施例需要预先获取目标工件对应的初始加工路径，该初始加工路径可以是预先存储在数控机床系统内的通用加工路径，也可以是基于前一次加工同类型工件时产生的历史加工路径。
61.在一种实现方式中，所述步骤s100具体包括如下步骤：
62.步骤s101、获取目标工件对应的结构特征和工艺特征；
63.步骤s102、获取数控机床的历史加工信息，根据所述结构特征和所述工艺特征从所述历史加工信息中确定若干候选历史加工路径；
64.步骤s103、根据若干所述候选历史加工路径分别对应的加工路径，确定所述初始加工路径。
65.具体地，本实施例需要从数控机床的历史加工信息中匹配出与目标工件的结构特征和工艺特征对应的多个候选历史加工路径，由于这些候选历史加工路径所采用的加工工艺和零件结构与目标工件类似，因此可以参考这些候选历史加工路径，选择目标工件对应的初始加工路径，后续在初始加工路径的基础上进行优化。
66.在一种实现方式中，所述步骤s103具体包括如下步骤：
67.步骤s1031、根据若干所述候选历史加工路径，确定历史刀位点集合，其中，所述历史刀位点集合中包括若干所述候选历史加工路径中的所有刀位点；
68.步骤s1032、对所述历史刀位点集合中的所有刀位点进行数据拟合，得到拟合曲线；
69.步骤s1033、根据所述拟合曲线，确定所述初始加工路径。
70.具体地，由于这些候选历史加工路径不一定完全相同，因此本实施例需要确定这些候选历史加工路径中的所有刀位点，然后采用数据拟合的方式将这些刀位点用一条光滑的曲线连接起来，使得尽可能多的刀位点位于该曲线上，即得到目标工件对应的初始加工路径。
71.如图1所示，所述方法还包括如下步骤：
72.步骤s200、根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参数包括坐标矢量和走刀方向矢量。
73.具体地，初始加工路径中包括若干个数据点，每一数据点对应刀具在加工过程中产生的一个刀位点。针对每一数据点，该数据点可以反映其对应的对刀点的坐标矢量和走刀方向矢量，其中，坐标矢量即为该对刀点的横坐标和纵坐标，走刀方向矢量即为该对刀点对应的刀具运动方向。
74.如图1所示，所述方法还包括如下步骤：
75.步骤s300、根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定。
76.简单来说，由于本实施例需要采用强化学习方法对初始加工路径进行优化，而强化学习中的智能体的输入数据有固定格式，因此需要先将初始加工路径转化为刀位点序列的格式。具体地，刀位点序列是由若干元素组成的，每一元素象征着一个刀位点，每一元素的值由两个分值组成，即基于坐标矢量确定的第一分值和基于走刀方向矢量确定的第二分值。刀位点序列可以直接输入智能体中，以实现智能体的网络参数与初始加工路径的同步优化。
77.如图1所示，所述方法还包括如下步骤：
78.步骤s400、将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值。
79.具体地，本实施例将刀位点序列输入智能体，以获取刀位点序列被执行特定的调整动作后得到的更新刀位点序列和奖励值，其中，特定的调整动作会对每一元素的两个分值都进行调整。奖励值主要是用于反映更新刀位点序列对应的各项加工指标的好坏，例如加工时长、工件的加工质量等等。
80.在一种实现方式中，所述步骤s400具体包括如下步骤：
81.步骤s401、将所述刀位点序列输入所述智能体，获取所述智能体基于所述刀位点序列输出的调整动作数据；
82.步骤s402、根据所述调整动作数据对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到所述更新刀位点序列；
83.步骤s403、根据所述更新刀位点序列，确定所述目标工件对应的更新加工路径；
84.步骤s404、通过仿真环境模型基于所述更新加工路径模拟加工过程，模拟完毕后获取所述刀具对应的实际加工路径和所述目标工件对应的质量评级，其中，所述仿真环境模型预先基于数控机床对应的机床误差设定有误差增加模块；
85.步骤s405、根据所述更新加工路径、所述实际加工路径和所述质量评级，确定所述奖励值。
86.具体地，将刀位点序列输入智能体以后，智能体会基于刀位点序列输出调整动作数据，其中，调整动作数据通常对应于刀位点序列中各元素的两个分值的变化。当智能体对刀位点序列进行调整以后即得到更新刀位点序列，仿真环境模型会相应地根据更新刀位点序列过渡到新的状态并计算奖励值。因此奖励值可以看做智能体在特定状态下采取特定动作所收到的来自仿真环境模型的反馈，通过奖励值可以评估智能体的调整动作数据的好
坏，从而对智能体的网络参数进行更新。例如奖励值可以基于仿真环境模型模拟出的实际加工路径与预设的更新加工路径的差距，以及目标工件的质量评级确定。
87.在一种实现方式中，所述智能体包括调整策略函数，所述步骤s401具体包括如下步骤：
88.步骤s4011、所述将所述刀位点序列输入所述调整策略函数，其中，所述调整策略函数中包括调整幅度参数，所述调整幅度参数的值与所述刀位点序列对应的序列复杂度成反比关系，所述序列复杂度与所述刀位点序列对应的第一波动值和第二波动值的合成正比关系，所述第一波动值基于所述刀位点序列对应的所述第一分值的波动幅度确定，所述第二波动值基于所述刀位点序列对应的所述第二分值的波动幅度确定；
89.步骤s4012、通过所述调整策略函数基于所述刀位点序列，输出所述调整动作数据。
90.简单来说，智能体主要是依靠其内的调整策略函数做出决策，该决策即反映了应该如何对刀位点序列中各元素的值进行调整。具体地，本实施例中的调整策略函数包含有调整幅度参数，该参数值的大小用于反映单次调整各元素的值的大小，例如调整幅度参数为1，则该次对目标元素(需要调整的元素)的第一分值上/下变动1，和/或第二分值上/下变动1；调整幅度参数为2，则该次对目标元素(需要调整的元素)的第一分值上/下变动2，和/或第二分值上/下变动2。此外，调整幅度参数的值主要是基于序列复杂度确定，对于复杂的刀位点序列，采用的方式是缓慢调整的策略，即单次调整幅度较小；对于简单的刀位点序列，采用的方式是快速调整的策略，即单次调整幅度较大。而序列复杂度是基于刀位点序列对应的第一波动值和第二波动值的合确定，合越大表示刀位点序列越复杂。其中，第一波动值用于反映第一分值的波动幅度，若刀位点序列中越多相邻元素出现坐标矢量差距大的情况，表示走刀位置变化较大，则第一分值的波动幅度较大，反之较小；第二波动值用于反映第二分值的波动幅度，若刀位点序列中越多相邻元素出现走刀方向矢量差距大的情况，表示走刀方向变化较大，则第二分值的波动幅度较大，反之较小。
91.在一种实现方式中，所述步骤s405具体包括如下步骤：
92.步骤s4051、根据所述更新加工路径和所述实际加工路径，确定路径偏差值；
93.步骤s4052、根据所述路径偏差值和所述质量评级，确定所述奖励值。
94.具体地，本实施例中的奖励值主要是采用两种指标来确定。第一种指标是路径偏差值，用于反映数控机床预先设定好的更新加工路径与数控机床实际执行所产生的实际加工路径之间的差异，路径偏差值越大，表示更新加工路径与实际加工路径的差异越大。第二种指标是质量评级，用于反映目标工件基于该更新加工路径加工后的成品工件性能、质量的好坏，其评判标准可以基于行业内的通用评判标准确定，例如基于成品工件的实际几何参数对理想几何参数的偏离程度确定质量评级。
95.在一种实现方式中，所述步骤s4051具体包括如下步骤：
96.步骤s40511、根据若干所述刀位点在所述更新加工路径和所述实际加工路径中分别对应的坐标数据的差值，确定若干所述刀位点分别对应的节点偏差值；
97.步骤s40512、根据若干所述刀位点在所述实际加工路径中分别对应的坐标数据和若干坐标约束区间，确定若干所述刀位点分别对应的约束得分值，其中，若干所述坐标约束区间分别对应的不同的坐标轴；
98.步骤s40513、根据若干所述刀位点分别对应的所述节点偏差值和所述约束得分值，确定所述路径偏差值。
99.具体地，本实施例中的路径偏差值由两种指标确定。第一种指标是更新加工路径中各刀位点的节点偏差值，针对每一刀位点，该刀位点在更新路径中的坐标与该刀位点在实际加工路径中的坐标的差值即为该刀位点对应的节点偏差值。第二种指标是更新加工路径中各刀位点的约束得分值，由于目标工件的大小有限，因此每一刀位点均需要在指定的范围内，所以本实施例预先针对目标工件的体积设定了不同坐标轴分别对应的坐标约束区间。针对每一刀位点，该刀位点的坐标数据包括若干轴分别对应的轴坐标值，若所有轴的轴坐标值均位于对应的坐标约束区间内，则其约束得分值为满分，若存在轴坐标值位于对应的坐标约束区间外，则根据轴坐标值位于对应的坐标约束区间外的轴的数量等比扣除部分约束得分值。
100.如图1所示，所述方法还包括如下步骤：
101.步骤s500、根据所述奖励值更新所述智能体对应的网络参数；
102.由于奖励值可以用于反映智能体对刀位点序列中各元素的第一分值和第二分值的调整的好坏，因此本实施例可以通过奖励值来学习信息和更新智能体对应的网络参数。
103.如图1所示，所述方法还包括如下步骤：
104.步骤s600、将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次得到的所述更新刀位点序列作为目标刀位点序列；
105.具体地，为了得到最优的加工路径，本实施例需要不断地、重复将最新得到的更新刀位点序列输入智能体中，通过智能体输出的调整动作数据不断地调整更新刀位点序列中的各元素的第一分值和第二分值，同时根据最新的更新刀位点序列计算奖励值并对智能体的网络参数进行更新，使得智能体对更新刀位点序列的调整能够获得仿真环境模型的最大奖励值。当智能体得到的奖励值达到预设目标值时，表示智能体最后一次对更新刀位点序列的调整已经满足期望的加工目标，此时可以停止强化学习，并将最后一次调整后得到的更新刀位点序列作为目标刀位点序列。
106.如图1所示，所述方法还包括如下步骤：
107.步骤s700、根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。
108.具体地，由于目标刀位点序列对应的奖励值达到预设目标值，因此根据目标刀位点序列确定的加工路径可以满足期望的加工目标，因此将目标刀位点序列对应的加工路径作为目标加工路径，数控机床基于目标加工路径对目标工件进行加工，不仅可以使得实际加工路径与目标加工路径的偏差较小，且加工后得到的成品工件的质量也有保障，实现了加工路径的优化。
109.基于上述实施例，本发明还提供了一种复杂结构件加工路径优化装置，如图2所示，所述装置包括：
110.预处理模块01，用于获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀具的运动轨迹；
111.根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参
数包括坐标矢量和走刀方向矢量；
112.根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定；
113.强化学习模块02，用于将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值；
114.根据所述奖励值更新所述智能体对应的网络参数；
115.将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次得到的所述更新刀位点序列作为目标刀位点序列；
116.根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。
117.基于上述实施例，本发明还提供了一种终端，其原理框图可以如图3所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现复杂结构件加工路径优化方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
118.本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
119.在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行复杂结构件加工路径优化方法的指令。
120.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
121.综上所述，本发明公开了一种复杂结构件加工路径优化方法、装置、终端及存储介质，所述方法通过获取目标工件对应的初始加工路径，其中，所述初始加工路径用于反映刀
具的运动轨迹；根据所述初始加工路径确定若干刀位点分别对应的矢量参数，其中，所述矢量参数包括坐标矢量和走刀方向矢量；根据若干所述刀位点分别对应的矢量参数，确定刀位点序列，其中，所述刀位点序列包括若干元素，若干所述元素与若干所述刀位点一一对应，每一所述元素的值包括第一分值和第二分值，每一所述元素的第一分值基于该元素对应的所述坐标矢量确定，每一所述元素的第二分值基于该元素对应的所述走刀方向矢量确定；将所述刀位点序列输入智能体，通过所述智能体对所述刀位点序列中各元素分别对应的所述第一分值和所述第二分值进行调整，得到更新刀位点序列和所述更新刀位点序列对应的奖励值；根据所述奖励值更新所述智能体对应的网络参数；将所述更新刀位点序列重新作为所述刀位点序列，继续执行将所述刀位点序列输入所述智能体得到更新刀位点序列和所述更新刀位点序列对应的奖励值，根据所述奖励值更新所述智能体对应的网络参数的步骤，直至所述奖励值达到预设目标值时，将最后一次得到的所述更新刀位点序列作为目标刀位点序列；根据所述目标刀位点序列，确定所述目标工件对应的目标加工路径。本发明采用强化学习的方法，无需预先采集大量的训练数据，可以快速实现加工路径的优化。解决了现有技术中的基于机器学习模型的加工路径优化方法，需要提前采集大量的训练数据对机器学习模型进行训练，难以快速完成加工路径优化任务的问题。
122.应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于改进蚁群算法与贝塞尔曲线的移动机器人路径规划方法

复杂结构件加工路径优化方法、装置、终端及存储介质与流程

相关文献

最热文献