模型训练配置数据生成方法、系统、终端及存储介质与流程

2022-02-19 01:39:01 来源：中国专利 TAG：

1.本发明涉及机器学习技术领域，具体涉及一种模型训练配置数据生成方法、系统、终端及存储介质。

背景技术：

2.机器学习在当今时代已进入各种研究领域，也已成为我们生活中不可或缺的一部分，但是随着任何重大的技术突破，也带来了许多挑战。正如机器学习的训练模型是机器学习中的重要环节，但该模型的设计和配置工作，需要大量的表单参数支持。传统的应用中，设计一个ml训练模型，繁杂的表单配置中很容易出现人为失误，导致整个模型最终无法执行或者执行失败，后续需要投入大量时间进行排错纠错，如何能更准确设计ml训练模型的执行规则，如何避免填写巨型表单的繁琐工作，提高模型配置参数的效率，已成为当前不得不正视的问题。

技术实现要素：

3.针对现有技术的上述不足，本发明提供一种模型训练配置数据生成方法、系统、终端及存储介质，以解决上述技术问题。
4.第一方面，本发明提供一种模型训练配置数据生成方法，包括：
5.构造节点库，在所述节点库中存储多种训练节点配置文件；
6.利用可视化技术将多种训练节点配置文件转换为可视配置项，并以树形菜单的形式显示所述可视配置项的文件内容；
7.根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系；
8.根据设定的校验规则对目标配置项之间的关联关系进行校验，并在校验通过后将目标配置项按照关联关系汇总生成训练配置模型，为训练配置模型生成模型id并持久化至数据库。
9.进一步的，构造节点库，在所述节点库中存储多种训练节点配置文件，包括：
10.在节点库中存储数据源类节点文件、特殊工程类节点文件、回归分析类节点文件，所述数据源类节点文件包括逗号分隔值文件、关系型数据库；所述特殊工程类节点文件包括词频、计数向量器和分词器；回归分析类节点文件包括随机森林和线性回归；
11.节点配置文件包括配置信息和配置类型，所述配置信息和配置类型均为轻量级数据交换格式。
12.进一步的，根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系，包括：
13.利用可视化技术生成配置界面，在所述配置界面中设置选中区域；
14.利用鼠标拖拽可视配置项，监控可视配置项的位置坐标，将位置坐标在所述选中区域内的可视配置项作为目标配置项；
15.根据目标配置项在选中区域内的位置坐标生成目标配置项的id；
16.解析用户添加的各目标配置项之间的箭头连接线，将所述箭头连接线的箭头方向等效于数据传输方向，生成各目标配置项之间的关联关系；
17.将目标配置项的文件内容导入对应的具备初始化信息的表单模板中，并将目标配置项的id写入对应表单模板的名字。
18.进一步的，根据设定的校验规则对目标配置项之间的关联关系进行校验，包括：
19.校验各目标配置项之间的数据传输关系与各目标配置项的数据传输权限是否匹配。
20.进一步的，所述方法还包括：
21.将上传的子模型解析为多个训练节点配置文件并解析出各训练节点配置文件的关联关系；
22.对子模型的多个训练节点配置文件及各训练节点配置文件的关联关系进行合法性校验，将通过合法性校验的子模型保存至子模型库；
23.根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型。
24.进一步的，根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型，包括：
25.根据当前训练配置模型的所有训练节点配置文件的上下级关系；
26.自上而下逐层根据子模型id获取其已保存的json格式的训练节点配置文件，并且将子模型的训练节点配置文件自下而上逐层合并入当前训练配置模型的数据中。
27.第二方面，本发明提供一种模型训练配置数据生成系统，包括：
28.数据准备单元，用于构造节点库，在所述节点库中存储多种训练节点配置文件；
29.可视转换单元，用于利用可视化技术将多种训练节点配置文件转换为可视配置项，并以树形菜单的形式显示所述可视配置项的文件内容；
30.目标选择单元，用于根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系；
31.模型生成单元，用于根据设定的校验规则对目标配置项之间的关联关系进行校验，并在校验通过后将目标配置项按照关联关系汇总生成训练配置模型，为训练配置模型生成模型id并持久化至数据库。
32.进一步的，所述数据准备单元用于：
33.在节点库中存储数据源类节点文件、特殊工程类节点文件、回归分析类节点文件，所述数据源类节点文件包括逗号分隔值文件、关系型数据库；所述特殊工程类节点文件包括词频、计数向量器和分词器；回归分析类节点文件包括随机森林和线性回归；
34.节点配置文件包括配置信息和配置类型，所述配置信息和配置类型均为轻量级数据交换格式。
35.进一步的，目标选择单元用于：
36.利用可视化技术生成配置界面，在所述配置界面中设置选中区域；
37.利用鼠标拖拽可视配置项，监控可视配置项的位置坐标，将位置坐标在所述选中区域内的可视配置项作为目标配置项；
38.根据目标配置项在选中区域内的位置坐标生成目标配置项的id；
39.解析用户添加的各目标配置项之间的箭头连接线，将所述箭头连接线的箭头方向等效于数据传输方向，生成各目标配置项之间的关联关系；
40.将目标配置项的文件内容导入对应的具备初始化信息的表单模板中，并将目标配置项的id写入对应表单模板的名字。
41.进一步的，模型生成单元用于：
42.校验各目标配置项之间的数据传输关系与各目标配置项的数据传输权限是否匹配。
43.进一步的，所述系统还包括：
44.将上传的子模型解析为多个训练节点配置文件并解析出各训练节点配置文件的关联关系；
45.对子模型的多个训练节点配置文件及各训练节点配置文件的关联关系进行合法性校验，将通过合法性校验的子模型保存至子模型库；
46.根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型。
47.进一步的，根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型，包括：
48.根据当前训练配置模型的所有训练节点配置文件的上下级关系；
49.自上而下逐层根据子模型id获取其已保存的json格式的训练节点配置文件，并且将子模型的训练节点配置文件自下而上逐层合并入当前训练配置模型的数据中。
50.第三方面，提供一种终端，包括：
51.处理器、存储器，其中，
52.该存储器用于存储计算机程序，
53.该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。
54.第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。
55.本发明的有益效果在于，本发明提供的模型训练配置数据生成方法、系统、终端及存储介质，通过可视化技术将ml训练模型的设计过程，由传统的繁杂表单配置工作改为可视化的图形拖拉拽实现，配合使用模块化分明的简易表单配置，最终把所有配置参数完成校验、合并、持久化。在很大程度上提高了设计ml训练模型的工作效率，简化了ml训练模型各节点表单的配置信息，降低了在配置大表单过程中出现人为事故的风险，使整个ml训练模型：结构更清晰，配置更简洁，执行更安全，维护更方便。
56.此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。
附图说明
57.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
58.图1是本发明一个实施例的方法的示意性流程图。
59.图2是本发明一个实施例的系统的示意性框图。
60.图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
61.为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
62.下面对本发明中出现的关键术语进行解释。
63.图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种模型训练配置数据生成系统。
64.如图1所示，该方法包括：
65.步骤110，构造节点库，在所述节点库中存储多种训练节点配置文件；
66.步骤120，利用可视化技术将多种训练节点配置文件转换为可视配置项，并以树形菜单的形式显示所述可视配置项的文件内容；
67.步骤130，根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系；
68.步骤140，根据设定的校验规则对目标配置项之间的关联关系进行校验，并在校验通过后将目标配置项按照关联关系汇总生成训练配置模型，为训练配置模型生成模型id并持久化至数据库。
69.为了便于对本发明的理解，下面以本发明模型训练配置数据生成方法的原理，结合实施例中对模型训练配置数据进行生成的过程，对本发明提供的模型训练配置数据生成方法做进一步的描述。
70.具体的，所述模型训练配置数据生成方法包括：
71.s1、构造节点库，在所述节点库中存储多种训练节点配置文件。
72.在节点库中存储数据源类节点文件、特殊工程类节点文件、回归分析类节点文件，所述数据源类节点文件包括逗号分隔值文件、关系型数据库；所述特殊工程类节点文件包括词频、计数向量器和分词器；回归分析类节点文件包括随机森林和线性回归；节点配置文件包括配置信息和配置类型，所述配置信息和配置类型均为轻量级数据交换格式。
73.预定义的节点库内分类存放组成一个完整ml训练模型的各种节点，例如数据源类的各种“csv文件”节点、“mysql”节点，特殊工程类的“词频”节点、“计数向量器”节点、“分词器”节点，回归分析类的“随机森林”节点、“线性回归”节点等，这些在节点库中都将被预定义为节点；每个节点又对应一个具备初始化信息的表单模板。
74.s2、利用可视化技术将多种训练节点配置文件转换为可视配置项，并以树形菜单的形式显示所述可视配置项的文件内容。
75.这些节点的配置信息与类型以json数据的格式存放在预定义节点库内，并以树形菜单的形式展示在可视化界面中。
76.s3、根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系。
77.利用可视化技术生成配置界面，在所述配置界面中设置选中区域；利用鼠标拖拽可视配置项，监控可视配置项的位置坐标，将位置坐标在所述选中区域内的可视配置项作为目标配置项；根据目标配置项在选中区域内的位置坐标生成目标配置项的id；解析用户添加的各目标配置项之间的箭头连接线，将所述箭头连接线的箭头方向等效于数据传输方向，生成各目标配置项之间的关联关系；将目标配置项的文件内容导入对应的具备初始化信息的表单模板中，并将目标配置项的id写入对应表单模板的名字。
78.s4、根据设定的校验规则对目标配置项之间的关联关系进行校验，并在校验通过后将目标配置项按照关联关系汇总生成训练配置模型，为训练配置模型生成模型id并持久化至数据库。
79.校验各目标配置项之间的数据传输关系与各目标配置项的数据传输权限是否匹配。
80.此外，将上传的子模型解析为多个训练节点配置文件并解析出各训练节点配置文件的关联关系；对子模型的多个训练节点配置文件及各训练节点配置文件的关联关系进行合法性校验，将通过合法性校验的子模型保存至子模型库；根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型。其中，根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型，包括：根据当前训练配置模型的所有训练节点配置文件的上下级关系；自上而下逐层根据子模型id获取其已保存的json格式的训练节点配置文件，并且将子模型的训练节点配置文件自下而上逐层合并入当前训练配置模型的数据中。
81.本实施例提供的方法，包括可视化构造器、模型分解器、模型校验器、模型聚合器、模型存储器。执行流程示意图如附图1所示，具体实施过程如下：
82.1)可视化构造器，即模型可视化设计页面，通过可视化技术制作和回显ml训练模型，其页面结构如附图2所示，总共分为三个区域：预定义节点库、画布、配置表单。
83.a)预定义的节点库内分类存放组成一个完整ml训练模型的各种节点，例如数据源类的各种“csv文件”节点、“mysql”节点，特殊工程类的“词频”节点、“计数向量器”节点、“分词器”节点，回归分析类的“随机森林”节点、“线性回归”节点等，这些在节点库中都将被预定义为节点；每个节点又对应一个具备初始化信息的表单模板。这些节点的配置信息与类型以json数据的格式存放在预定义节点库内，并以树形菜单的形式展示在可视化构造器中，在设计ml训练模型时，根据其训练业务从节点库内拖拽对应的节点到画布即可。其中已保存的模型也会以节点的形式存入预定义节点库，当需要嵌套使用子模型时，可以从节点库内直接拖取该子模型对应的节点。
84.2)通过可视化技术(如d3、jsplumb)等将选择并拖拽来的节点显示为矩形，各矩形之间提供连线操作、删除任务等操作。每个节点被拖拽至画布，会为其生成一个id，用于记录其画布位置数据，连线数据，以及与其对应表单的关联关系。画布中各节点以有向箭头连线，来标识ml训练的执行顺序以及不同训练节点的数据流向。
85.c)根据当前选中的节点加载节点json数据到其对应表单模板，通过id与节点绑定关联关系，如节点为mysql,被拖到画布上时将为该节点生成id“id_node_001”，同时为其渲
染的表单生成id“id_form_001”。表单内提供输入参数的文本框，如任务名称、描述、超时时间等各种配置项。
86.d)在可视化构造器中，完成ml训练模型设计及参数配置后，通过可视化技术如d3、jsplumb等解析计算画布中每个节点数据、连线数据、位置数据，根据节点id、表单id等合并各节点对应配置信息，上送给模型校验器。
87.2)模型校验器根据预定义的校验规则，对各节点配置数据，进行合法性校验。例如，校验节点名称是否合法，校验节点间是否有数据的输入输出，校验某些特定节点的输出列的数据类型是否合法等。数据不合法则返回画布重新调整或撤销，直至全部数据都校验通过，将json数据上送至模型聚合器。另外，当模型校验器遍历json数据遇到子模型数据时，则忽略不再对该子模型的数据进行校验，因为既然子模型已保存成功必定是已经校验通过的，为提高性能，无需重复校验。
88.3)模型聚合器接受来自模型校验器已校验通过的数据，并将各个节点对应的json数据合并在一起，最终以完整的json数据格式上送至模型存储器。
89.当前模型中嵌套有子模型时，将会自上而下逐层根据子模型id获取其已保存的模型json数据，并且将子模型的json数据自下而上逐层合并入当前模型的数据中。此设计是为了保证数据的安全性，在出现子模型被删除的场景中，不会导致当前模型无法执行。
90.当前模型中没有嵌套子模型，则直接将完整的json数据上送至模型存储器进行持久化。
91.4)模型存储器接收到模型聚合器上送的json数据，持久化到数据库，并生成模型id。在查看或维护ml训练模型时，根据模型id将数据返回给模型分解器。
92.5)模型分解器仅存在于展示/查看“已完成或已存储的ml训练模型”的流程中。通过模型id从模型存储器中查询模型的json数据，并按照可视技术要求的数据格式，将其拆分为各节点对应的json数据，然后把这些数据上送给可视化构造器。可视化构造器拿到分解完成且符合格式的数据后，通过可视化技术如d3、jsplumb等将数据渲染到可视化构造器的画布中。
93.如图2所示，该系统200包括：
94.数据准备单元210，用于构造节点库，在所述节点库中存储多种训练节点配置文件；
95.可视转换单元220，用于利用可视化技术将多种训练节点配置文件转换为可视配置项，并以树形菜单的形式显示所述可视配置项的文件内容；
96.目标选择单元230，用于根据用户输入的选择指令，将用户选中的可视配置项作为目标配置项，根据用户指令生成目标配置项之间的关联关系；
97.模型生成单元240，用于根据设定的校验规则对目标配置项之间的关联关系进行校验，并在校验通过后将目标配置项按照关联关系汇总生成训练配置模型，为训练配置模型生成模型id并持久化至数据库。
98.可选地，作为本发明一个实施例，所述数据准备单元用于：
99.在节点库中存储数据源类节点文件、特殊工程类节点文件、回归分析类节点文件，所述数据源类节点文件包括逗号分隔值文件、关系型数据库；所述特殊工程类节点文件包括词频、计数向量器和分词器；回归分析类节点文件包括随机森林和线性回归；
100.节点配置文件包括配置信息和配置类型，所述配置信息和配置类型均为轻量级数据交换格式。
101.可选地，作为本发明一个实施例，目标选择单元用于：
102.利用可视化技术生成配置界面，在所述配置界面中设置选中区域；
103.利用鼠标拖拽可视配置项，监控可视配置项的位置坐标，将位置坐标在所述选中区域内的可视配置项作为目标配置项；
104.根据目标配置项在选中区域内的位置坐标生成目标配置项的id；
105.解析用户添加的各目标配置项之间的箭头连接线，将所述箭头连接线的箭头方向等效于数据传输方向，生成各目标配置项之间的关联关系；
106.将目标配置项的文件内容导入对应的具备初始化信息的表单模板中，并将目标配置项的id写入对应表单模板的名字。
107.可选地，作为本发明一个实施例，模型生成单元用于：
108.校验各目标配置项之间的数据传输关系与各目标配置项的数据传输权限是否匹配。
109.可选地，作为本发明一个实施例，所述系统还包括：
110.将上传的子模型解析为多个训练节点配置文件并解析出各训练节点配置文件的关联关系；
111.对子模型的多个训练节点配置文件及各训练节点配置文件的关联关系进行合法性校验，将通过合法性校验的子模型保存至子模型库；
112.根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型。
113.可选地，作为本发明一个实施例，根据用户需求从子模型库调取目标子模型，并将目标子模型嵌套至当前训练配置模型，包括：
114.根据当前训练配置模型的所有训练节点配置文件的上下级关系；
115.自上而下逐层根据子模型id获取其已保存的json格式的训练节点配置文件，并且将子模型的训练节点配置文件自下而上逐层合并入当前训练配置模型的数据中。
116.图3为本发明实施例提供的一种终端300的结构示意图，该终端300可以用于执行本发明实施例提供的模型训练配置数据生成方法。
117.其中，该终端300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
118.其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
119.处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储
器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit，简称ic)组成，例如可以由单颗封装的ic所组成，也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说，处理器310可以仅包括中央处理器(central processing unit，简称cpu)。在本发明实施方式中，cpu可以是单运算核心，也可以包括多运算核心。
120.通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
121.本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read
‑
only memory，简称：rom)或随机存储记忆体(英文：random access memory，简称：ram)等。
122.因此，本发明通过可视化技术将ml训练模型的设计过程，由传统的繁杂表单配置工作改为可视化的图形拖拉拽实现，配合使用模块化分明的简易表单配置，最终把所有配置参数完成校验、合并、持久化。在很大程度上提高了设计ml训练模型的工作效率，简化了ml训练模型各节点表单的配置信息，降低了在配置大表单过程中出现人为事故的风险，使整个ml训练模型：结构更清晰，配置更简洁，执行更安全，维护更方便，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。
123.本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
124.本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。
125.在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
126.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
127.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
128.尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种PCIE总线寻址方法及装置与流程

模型训练配置数据生成方法、系统、终端及存储介质与流程

相关文献

最热文献