一种基于文字识别的自动化流程实现方法及系统与流程

2022-02-20 22:50:10 来源：中国专利 TAG：

1.本发明属于自动化流程实现技术领域，特别涉及一种基于文字识别的自动化流程实现方法及系统。

背景技术：

2.目前，主要存在两类自动化流程执行方法，分别是传统自动化执行方法与基于人工智能识别的自动化流程执行方法。其中，传统自动化执行方法包括基于数据驱动的自动化流程执行方法、基于关键字驱动的自动化流程执行方法和基于领域驱动的自动化执行方法，以上三种传统方法基本都是依靠对界面元素名称的记录，并通过自动执行时对该名称的查找，实现相关页面元素的搜寻与定位。
3.基于现有技术分析可知，现有传统自动化流程执行方法存在一些技术缺陷，具体包括：脚本无法直接编辑，需要录制，且脚本维护费时费力；在软件界面发生名称变化、标识变化等情况时，需要花费较大的成本；在不同的操作系统、硬件架构上，兼容性较差；工作质量由操作者的经验决定，稳定可靠性较差。

技术实现要素：

4.本发明的目的在于提供一种基于文字识别的自动化流程实现方法及系统，以解决上述存在的一个或多个技术问题。本发明提供的技术方案中，基于文字识别技术来识别软件界面的文字进而实现自动化执行操作，能够解决目前现有自动化流程执行方法尚存在的技术缺陷。
5.为达到上述目的，本发明采用以下技术方案：
6.本发明的一种基于文字识别的自动化流程实现方法，包括以下步骤：
7.获取待执行脚本；
8.按照预设执行模式执行所述待执行脚本，完成自动化流程实现；其中，执行所述待执行脚本时：基于预训练好的文字识别定位模型识别定位界面执行对象，并对界面执行对象进行相应操作；以脚本当前步骤操作的实际结果与预设结果的比较判定结果，作为是否执行脚本下一步骤的判据。
9.本发明的进一步改进在于，所述预训练好的文字识别定位模型的获取步骤包括：
10.基于预设文字识别范围，获取标注后的训练样本集；
11.基于获得的标注后的训练样本集，对paddle进行训练，获得训练后的文字识别定位模型；
12.测试所述训练后的文字识别定位模型，对识别错误的样本数据采用更新标注再次加入训练样本集的方式迭代优化，获得预训练好的文字识别定位模型。
13.本发明的进一步改进在于，所述预设执行模式为预设初级自动化模式；
14.所述预设初级自动化模式中，每个当前步骤执行结束后，获取外部输入的执行结果比对、正确性判断数据；当所述外部输入的结果比对、正确性判断数据符合预设要求时，
执行当前步骤的下一步骤，否则停止执行当前步骤的下一步骤。
15.本发明的进一步改进在于，所述预设执行模式为预设半自动化模式；
16.所述预设半自动化模式中，每个当前步骤执行结束后，将执行结果进行文字识别，并与预设期待结果进行比对，获得比对结果；获取外部输入的基于比对结果获取的正确性判断数据；当所述正确性判断数据符合预设要求时，执行当前步骤的下一步骤，否则停止执行当前步骤的下一步骤。
17.本发明的进一步改进在于，所述预设执行模式为预设完全自动化模式；
18.所述预设完全自动化模式中，每个当前步骤执行结束后，将执行结果进行文字识别，并与预设期待结果进行比对，获得比对结果；将比对结果与预设阈值比较判定，获得判定结果；当所述判定结果符合预设要求时，执行当前步骤的下一步骤，否则停止执行当前步骤的下一步骤。
19.本发明的一种基于文字识别的自动化流程实现系统，包括：
20.获取模块，用于获取待执行脚本；
21.执行模块，用于按照预设执行模式执行所述待执行脚本，完成自动化流程实现；其中，执行所述待执行脚本时：基于预训练好的文字识别定位模型识别定位界面执行对象，并对界面执行对象进行相应操作；以脚本当前步骤操作的实际结果与预设结果的比较判定结果，作为是否执行脚本下一步骤的判据。
22.本发明的进一步改进在于，所述执行模块中，预训练好的文字识别定位模型的获取步骤包括：
23.基于预设文字识别范围，获取标注后的训练样本集；
24.基于获得的标注后的训练样本集，对paddle进行训练，获得训练后的文字识别定位模型；
25.测试所述训练后的文字识别定位模型，对识别错误的样本数据采用更新标注再次加入训练样本集的方式迭代优化，获得预训练好的文字识别定位模型。
26.本发明的进一步改进在于，所述执行模块中，预设执行模式为预设初级自动化模式；
27.所述预设初级自动化模式中，每个当前步骤执行结束后，获取外部输入的执行结果比对、正确性判断数据；当所述外部输入的结果比对、正确性判断数据符合预设要求时，执行当前步骤的下一步骤，否则停止执行当前步骤的下一步骤。
28.本发明的进一步改进在于，所述执行模块中，预设执行模式为预设半自动化模式；
29.所述预设半自动化模式中，每个当前步骤执行结束后，将执行结果进行文字识别，并与预设期待结果进行比对，获得比对结果；获取外部输入的基于比对结果获取的正确性判断数据；当所述正确性判断数据符合预设要求时，执行当前步骤的下一步骤，否则停止执行当前步骤的下一步骤。
30.本发明的进一步改进在于，所述执行模块中，预设执行模式为预设完全自动化模式；
31.所述预设完全自动化模式中，每个当前步骤执行结束后，将执行结果进行文字识别，并与预设期待结果进行比对，获得比对结果；将比对结果与预设阈值比较判定，获得判定结果；当所述判定结果符合预设要求时，执行当前步骤的下一步骤，否则停止执行当前步
骤的下一步骤。
32.与现有技术相比，本发明具有以下有益效果：
33.本发明的方法中，基于文字识别技术来识别软件界面的文字，进而识别执行对象实现自动化执行操作，故可通过直接编写每步操作的识别目标及操作方法实现自动化执行，可解决目前现有自动化流程执行方法存在的无法直接编辑，脚本维护费时费力，界面变化时花费成本较大，兼容性较差，以及稳定可靠性较差的技术缺陷。具体的，本发明提供的技术方案能够直接编辑执行脚本而无需录制后再编辑；能够成本较低的应对界面变化；脚本方便维护；不存在兼容性问题：工作质量实现统一，且可沉淀、转化。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1是本发明实施例的一种基于文字识别的自动化流程实现方法的流程示意图；
36.图2是本发明实施例的一种基于文字识别的自动化流程实现系统的示意图。
具体实施方式
37.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
38.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.下面结合附图对本发明做进一步详细描述：
40.实施例1
41.请参阅图1，本发明实施例的一种基于文字识别的自动化流程实现方法，包括以下步骤：
42.获取待执行脚本；
43.按照预设执行模式执行所述待执行脚本，完成自动化流程实现；其中，执行所述待执行脚本时：基于预训练好的文字识别定位模型识别定位界面执行对象，并对界面执行对象进行相应操作；以脚本当前步骤操作的实际结果与预设结果的比较判定结果，作为是否执行脚本下一步骤的判据。
44.本发明实施例提供的技术方案中，基于文字识别技术来识别软件界面的文字进而实现自动化执行操作，能够解决目前现有自动化流程执行方法尚存在的技术缺陷。
45.本发明实施例可选的，所述预训练好的文字识别定位模型的获取步骤包括：基于预设文字识别范围，获取标注后的训练样本集；基于获得的标注后的训练样本集，对paddle进行训练，获得训练后的文字识别定位模型；测试所述训练后的文字识别定位模型，对识别错误的样本数据采用更新标注再次加入训练样本集的方式迭代优化，获得预训练好的文字识别定位模型。
46.实施例2
47.本发明实施例的一种基于文字识别的自动化流程实现方法，包括以下步骤：获取待执行脚本；基于预训练好的文字识别定位模型，执行所述待执行脚本；示例性的，所述预训练好的文字识别定位模型可使用第三方模型或基于识别范围采用自训练模型；可选的，所述预训练好的文字识别定位模型的获取步骤包括：在识别范围内获取标注后的训练样本数据；基于获得的标注后的训练样本数据，对文字识别定位模型进行训练；其中文字识别模型提供对指定目标文字的识别与定位，根据识别与定位结果可对相关内容进行操作，并在完成相关操作后，通过比对预期结果与实际结果确定操作结果的正确性。
48.本发明实施例中，文字识别模型可使用paddle或自训练模型。
49.自训练模型的过程如下：获取特定领域的文字邻域截图作为训练数据；将训练数据处理为灰度图片；通过裁剪、二值化方法对训练数据进行预处理；在预处理过程中需要同时缩减文字周围空间范围；训练数据中的词切割与短语切割需要按照相应领域的切割方式与特定词语来完成；保存训练数据的标注信息，即训练数据的正确文字，将标签保存在test_list文件夹中；将训练代码中的分类数与图片尺寸修改为训练过程中的正确数据；在训练代码中给定正确的训练数据路径；完成训练，并检测识别准确率。另外，对识别错误的数据，采用更新标注再次加入训练集的方式，实现识别模型的迭代优化。
50.本发明实施例中，所述获取待执行脚本的步骤包括：在初级自动化、半自动化或完全自动化执行模式中选择一种自动化执行方式；将待自动化执行的每个实际步骤，按顺序编写为待执行脚本。
51.示例性的，可根据验证结果中条件判断的难易程度，按照三种自动化程度执行：
52.初级自动化：即自动化输入信息人工比对人工判断方式，在实际执行过程中，本发明实施例提供的方法只负责输入链接地址、用户名、密码等相对固定的信息，而每个执行步骤的结果比对、正确性判断由人工完成；
53.半自动化：即自动化输入信息自动比对人工判断，在自动化输入信息的基础上，对于每个步骤的执行结果，进行如下比对：(1)对执行结果进行文字识别，并与期待结果进行比对，对于匹配率高于预制阈值的执行结果判定为正确；(2)对执行结果中的图像进行截屏或图像进行语义提取，并与期待结果进行比对，对于匹配率高于预制阈值的执行结果判定为正确；
54.完全自动化：即自动化输入信息自动比对自动判断，可自动化输入信息、自动化结果比对和自动判断结果正确性。
55.本发明实施例中，所述基于预训练好的文字识别定位模型，按顺序执行所述待执行脚本时，初级自动化的步骤具体包括：
56.1)使用预设的路径打开相关系统或浏览器，并在浏览器中输入预设链接；
57.2)对该软件或系统进行截屏操作，作为文字识别依据，并将图像数据存入数据库；
58.3)将识别关键字存入数据库，使用文字识别定位模型在该图片上查找预设关键字，并获取关键字的页面定位信息；
59.4)根据关键字定位信息及预设操作方式，对关键字执行相关操作，如点击、输入及其他键盘操作；
60.5)对操作结果截屏，该截图将用于结果比对步骤6)，并将图像数据存储数据库；
61.6)弹出新窗口，标记预设结果截屏与实际结果截屏；
62.7)由人工判定该执行结果是否正确；如果步骤执行正确，执行下一步骤。如果判定为执行不正确，则该用例在数据库中的截图、识别对象将标记为“再训练”，用于后续的迭代训练。
63.本发明实施例中，所述基于预训练好的文字识别定位模型，按顺序执行所述待执行脚本时，中级自动化的步骤具体包括：
64.1)使用预设的路径打开相关系统或浏览器，并在浏览器中输入预设链接；
65.2)对该软件或系统进行截屏操作，作为文字识别依据，并将图像数据存入数据库；
66.3)将识别关键字存入数据库，使用文字识别定位模型在该图片上查找预设关键字，并获取关键字的页面定位信息；
67.4)根据关键字定位信息及预设操作方式，对关键字执行相关操作，如点击、输入及其他键盘操作；
68.5)对操作结果截屏，该截屏将用于下一步的结果比对，并将图像数据存储数据库；
69.6)对操作结果截屏进行文字识别；
70.7)计算预设文字与实际结果的差异和差异比例；对图像数据，计算预设结果图片与实际结果截屏的差异，并计算出差异比例；
71.8)在弹出窗口中显示预设结果与实际结果及差异比例，由人工判定该执行结果是否正确；如果步骤执行正确，执行下一步骤。如果判定为执行不正确，则该用例在数据库中的截图、识别对象将标记为“再训练”，用于后续的迭代训练。
72.本发明实施例中，所述基于预训练好的文字识别定位模型，按顺序执行所述待执行脚本时，高级自动化的步骤具体包括：
73.1)使用预设的路径打开相关系统或浏览器，并在浏览器中输入预设链接；
74.2)对该软件或系统进行截屏操作，作为文字识别依据，并将图像数据存入数据库；
75.3)将识别关键字存入数据库，使用文字识别定位模型在该图片上查找预设关键字，并获取关键字的页面定位信息；
76.4)根据关键字定位信息及预设操作方式，对关键字执行相关操作，如点击、输入及其他键盘操作；
77.5)对操作结果截屏，该截屏将用于下一步的结果比对，并将图像数据存储数据库；
78.6)对操作结果截屏进行文字识别，并比较预设结果与实际结果之间的差异比例，如果小于预设阈值，则自动判定为执行成功；对图像数据，则比较预设结果图片与实际结果截屏的差异比例，如果小于预设阈值，则自动判定为执行成功；
79.7)如果发现因识别错误导致自动判断的结果不正确，则该用例在数据库中的截
图、识别对象将标记为“再训练”，用于后续的迭代训练。
80.本发明实施例中进一步可选的，实现识别模型的迭代优化的步骤具体包括：在每个步骤执行后，对结果预测与人工判断出现矛盾的识别结果，在数据库中找到相关截图，并做“迭代训练”标记；以日或周为单位，对数据重新做标注，并加入迭代训练集；在重新训练相关模型后，使用相应数据确认识别结果是否与人工判断符合；训练后如果不符合人工判断标准，则需要检查标注方法或增加同类数据，重新训练；另外，在增加同类数据时，可根据发生识别错误的页面元素种类，在同一系统或类似系统中生成训练数据并加入训练集。
81.实施例3
82.示例性的，本发明实施例的一种基于文字识别的自动化流程实现方法，具体包括以下步骤：将待自动化执行的每个实际步骤，按顺序编写为待执行脚本；根据实际需要选择初级自动化、中级自动化和高级自动化三种执行方式中的一种。本发明实施例方法使用paddleocr算法，经过训练共获得针对一般性软件系统的文字识别定位模块：菜单识别：可对一般软件系统的各级菜单项的文字进行识别；按钮识别：可对一般软件系统的各类标签、按钮的文字进行识别；图片中的文字识别：可对一般软件系统图片中的文字进行识别；下拉框识别：可对一般软件系统带有文字的下拉框进行识别；表格识别：可对对一般软件系统表格中的文字进行识别；文本框识别：可对一般软件系统中带有文字的文本框内容进行识别。
83.本发明实施例的识别原理包括：使用模型进行文字切割；对切割结果进行倾斜、形变等校正；把每个切割后的图片，进行特征向量提取；将提取的特征向量与模板库进行粗分类；将提取的特征向量与模板库进行细分类；得到文字识别结果；根据图片在整体图片中的位置换算得到文字位置。基于文字识别的自动化流程执行技术的关键点在于如何在不需要模型训练及任何前置工作的情况下通过预设脚本直接实现自动化执行。
84.本发明实施例提供的技术方案具体的核心发明点包括：
85.(1)本发明提供的技术方案能够直接编辑执行脚本而无需录制后再编辑，具体包括：通过简单编辑完成脚本，通过文字识别定位模块识别和定位文字，无需进行脚本录制；
86.(2)可以应对界面变化，具体包括：在界面发生变化的情况下，改变识别目标及验证判据中的文字，即可重新执行，无需重新训练模型；
87.(3)脚本方便维护，具体包括：根据软件操作顺序来编写脚本即可，逻辑简单，方便维护；
88.(4)不存在兼容性问题，具体包括：本发明实施例提供的方法不存在兼容性问题，可跨越不同操作系统、x86/arm等多硬件平台使用，只要支持python编译器和相关的库文件即可；
89.(5)工作质量实现统一，且可沉淀、转化，具体包括：工作质量由ai模型决定，不受员工经验影响。自动化执行经验可通过迭代文字识别定位模块的方式沉淀到软件客体中，自动化执行的人员投资可转化为文字识别定位模块的方式，实现增值(文字识别定位模块的识别范围、精度会迭代增加)。
90.实施例4
91.下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。
92.请参阅图2，本发明实施例的一种基于文字识别的自动化流程实现系统，包括：
93.获取模块，用于获取待执行脚本；
94.执行模块，用于按照预设执行模式执行所述待执行脚本，完成自动化流程实现；其中，执行所述待执行脚本时：基于预训练好的文字识别定位模型识别定位界面执行对象，并对界面执行对象进行相应操作；以脚本当前步骤操作的实际结果与预设结果的比较判定结果，作为是否执行脚本下一步骤的判据。
95.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
96.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
97.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
98.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
99.最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于文字识别的自动化流程实现方法及系统与流程

相关文献

最热文献