一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

任务操作指令映射模型训练数据生成方法、系统、设备及存储介质与流程

2022-02-19 02:24:14 来源:中国专利 TAG:


1.本发明涉及任务操作指令映射模型训练数据生成方法、系统、设备及存储介质,属于模型训练技术领域。


背景技术:

2.在it系统中存在大量的日志,它们记录了在实际场景中业务流程执行的过程;要从日志中还原出实际的业务流程,一般采用成熟的流程挖掘算法,而流程挖掘算法需要使用规范的日志,才能够表示出业务流程的真实情况,方便用户对业务流程做统计、分析,以及流程优化,提高业务流程的效率;实际的日志数据往往是混乱的,充满了各种错误和噪音,直接使用这样的日志,构建的业务流程图也会充满错误,使得后续的处理也变得不可靠。
3.要处理日志中噪音和错误,一般采用基于规则的方式和基于机器学习的方式;基于规则的方式需要编写大量包含业务逻辑的代码,工作量大而且不够灵活,不能随着业务的发展变化而变化;基于机器学习的方式,工作量相对较小,但是需要大量的标注数据;由于日常工作中计算机操作的范围很大,且数据量也很大,无论是采集数据,还是标注数据都是成本巨大,难以执行。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供任务操作指令映射模型训练数据生成方法、系统、设备及存储介质。
5.第一方面,本发明提供了一种任务操作指令映射模型训练数据生成方法,包括:获取基于实际任务编写的若干任务描述脚本,将所述若干任务描述脚本随机组合成若干任务描述脚本组;执行所述任务描述脚本组,获取所述任务描述脚本组所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据;将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。
6.进一步的,所述任务描述脚本组包含多个任务描述脚本,所述多个任务描述脚本随机混合执行获得混合了多个任务的操作指令序列。
7.进一步的,所述任务描述脚本包括有明确目标的任务脚本和通用随机任务脚本。
8.进一步的,所述任务执行时间戳数据包括所述操作指令序列中每条操作指令的开始和结束时间。
9.进一步的,所述操作指令序列、事件日志数据和屏幕录屏数据通过任务执行时间戳数据进行关联。
10.第二方面,本发明还提供了一种任务操作指令映射模型训练数据生成系统,包括:
任务描述脚本组编写模块:用于编写任务描述脚本组,基于实际任务编写若干任务描述脚本,将若干任务描述脚本随机组合成若干任务描述脚本组;任务描述脚本组执行模块:用于执行任务描述脚本组;事件日志数据获取模块:用于获取任务描述脚本组执行过程中的事件日志数据;屏幕录屏数据获取模块:用于获取任务描述脚本组执行过程中的屏幕录屏数据;时间戳数据获取模块:用于获取任务描述脚本组执行过程中的时间戳数据;训练数据生成模块:用于构建训练数据,将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。
11.进一步的,所述任务描述脚本组包含多个任务描述脚本,所述多个任务描述脚本随机混合执行获得混合了多个任务的操作指令序列。
12.第三方面,本发明还提供了一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的训练数据生成方法的步骤。
13.第四方面,本发明还提供了一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的训练数据生成方法的步骤。
14.与现有技术相比,本发明的有益效果为:本发明将用户编写的任务描述脚本,随机组合成任务描述脚本组,以多种不同的具体操作来执行,生成了大量目标相同但具体内容不同的事件日志,可以方便地模拟不同人、不同环境下用户执行同一个任务时存在的不同变形;且由于执行过程中每一个时刻只执行一个操作指令,对应的事件日志、录屏数据可以根据时间戳关联起来,作为训练数据,节省了人工标注工作量;且由于操作指令、事件日志是文本数据,录屏数据是视频,两两联合起来使用,可以用于多种形式模型的训练,包括视频与文本多模态模型。
附图说明
15.图1是本发明实施例任务操作指令映射模型训练数据生成方法流程图。
具体实施方式
16.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
17.实施例1:如图1所示,一种任务操作指令映射模型训练数据生成方法,包括:使用robotframework基于实际任务编写若干任务描述脚本,任务描述脚本包括有明确目标的任务脚本和通用随机任务脚本;有明确目标的任务,如:1.登录示例业务系统;2.进入上报故障页面;3.填写故障描述;4.提交数据;
通用随机任务的任务,如:1.打开163网站;2.随机点击一个链接,关闭;3.再随机点击,再关闭。
18.任务描述脚本可以使用任意的工具来编写,只要是文本形式表示就行,包括普通文本、xml等形式,任务描述脚本可以是结构化的表示,也可以是非结构化的表示。任务描述脚本中所有的操作指令顺序执行,若是有需要循环、跳转操作,需要将它们封装在一个操作指令内。
19.测试任务描述脚本,确保它们能够按照预期的方式执行并获得预期的结果。
20.更改执行任务描述脚本的方法,为任务描述脚本中的操作指令增加多种实现方式和随机数据。
21.任务描述脚本中的操作指令的多种实现方式,如:“登录示例业务系统”可以包含多种实现方式,通过点击浏览器图标,再在地址栏中输入网站地址,或者在windows运行中输入“chrome.exe",回车,再在地址栏中输入网站地址。
22.任务描述脚本中的操作指令的随机数据是指在不影响最终结果的情况下,加入一个变化因素;比如输入浏览器地址时,可以输入几个错误的字符,然后再删除这些字符,按照这样的方法执行任务描述脚本,每次执行一个任务描述脚本的结果仍然是与原来一致的,但具体的操作是有变化的,如键盘鼠标操作具体流程不同,对应的事件日志是不完全一样的。
23.将若干任务描述脚本随机组合成若干任务描述脚本组,任务描述脚本组可以包含一个或多个任务描述脚本,从有明确目标的任务描述脚本集合中随机选择n1个,从通用随机任务脚本集合中随机选择n2个。这里n1和n2最小为1个,n2要远小于n1,以保证噪音占比较少,不致于影响到主要任务的识别;在选择n1 n2个任务脚本之后,每个脚本中的操作指令转换为一个操作列队,每次任意选择一个操作队列,取出队列中第一个操作指令,直到所有的队列都为空,由此获得混合了多个任务的操作指令序列。
24.执行上述操作指令序列,获取所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据,记录每个操作指令的开始和结束时间;同时,使用事件录制器来记录事件日志,使用屏幕录制器来录制屏幕,事件录制器需要记录当前的键盘、鼠标操作,当前的应用信息、窗口信息,以及当前操作的组件的信息,以及当前时间戳;屏幕录制器记录完整的屏幕截屏,以及当前的时间戳,录屏数据可以压缩,也可以不压缩,直接存储为图片,录屏数据要保证每个键盘、鼠标事件发生时,至少要有一次截屏。
25.操作指令序列、事件日志数据和屏幕录屏数据通过任务执行时间戳数据进行关联;任务执行时间戳数据包括混合执行的任务描述脚本中每条操作指令的开始和结束时间。
26.执行完毕后,将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集,如下所示:使用时间对齐的<事件日志数据,操作指令序列>来训练事件日志压缩模型,该模型是gpt模型,输入为一个事件日志序列,输出为一个操作指令序列;训练好这个模型,可以
用于处理原始的it系统日志,自动输出较为抽象的操作指令,方便进一步的分析;由于分析的基本事件将是“打开网页”,“提交表单”这种指令,而不是原始的“click 382,332”这样的键鼠操作,更符合人的认知习惯,所得出的结论也具备更高的应用价值。
27.使用时间对齐的<录屏视频数据,操作指令序列>来训练univl视频语言双模态模型,该模型输入为连续多个视频帧,输出为操作指令序列;训练好这个模型,可以用于识别任意录制的操作视频,让模型自动识别出视频中包含的操作指令序列;有了这些操作指令,就可以方便做各种统计分析。相对较为处理视频,可以获得更丰富的语义信息和更大的灵活性。
28.实施例2:一种任务操作指令映射模型训练数据生成系统,包括任务描述脚本组编写模块、任务描述脚本组执行模块、事件日志数据获取模块、屏幕录屏数据获取模块、时间戳数据获取模块和训练数据生成模块。
29.任务描述脚本组编写模块用于编写任务描述脚本组,基于实际任务编写若干任务描述脚本,将若干任务描述脚本随机组合成若干任务描述脚本组,任务描述脚本组包含多个任务描述脚本。
30.任务描述脚本组执行模块用于执行任务描述脚本组,任务描述脚本组中的多个任务描述脚本随机混合执行。
31.事件日志数据获取模块用于获取任务描述脚本组执行过程中的事件日志数据。
32.屏幕录屏数据获取模块用于获取任务描述脚本组执行过程中的屏幕录屏数据。
33.时间戳数据获取模块用于获取任务描述脚本组执行过程中的时间戳数据。
34.训练数据生成模块:用于构建训练数据,将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。
35.实施例3:一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1所述的训练数据生成方法的步骤。
36.实施例4:一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求实施例1所述的训练数据生成方法的步骤。
37.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
38.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
39.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
40.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
41.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献