计算机操作辅助方法、系统、电子设备及存储介质

2022-06-11 23:09:53 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，特别涉及一种计算机操作辅助方法、系统、电子设备及存储介质。

背景技术：

2.随着科技的进步，越来越多的技术已经被人们认可，并被用于各行各业中，其中对于一些重复的、枯燥的、消耗大量人工劳动的任务也逐渐被一些自动化软件代替。例如，某一任务要求每天打卡签到，具体为：早上8点需要打开办公软件，找到打卡的功能，进入打卡的界面，然后点击打卡按钮完成打卡，最后退出该办公软件，在下午17点时需要再次打开办公软件，完成和早上一样的操作。这显然是一个重复且枯燥的任务，一些自动化操作助手，也可以完成该任务，例如，按键精灵，它可以模拟鼠标和键盘的动作，通过制作脚本完成一些信息发布、报表提交、邮件整理等任务，但是这些操作是死板的、不灵活的，并且需要人工提前编写程序，也就是需要制作这些任务的脚本来完成该任务，这也是目前已有的自动化操作助手的弊端。如果可以设计一款在使用时无需人工编写程序、全自动化的操作助手，那可以节省更多的人力物力，带来更大的社会收益。
3.在现有的自动化操作助手中，由于执行的操作都是基于模型的，也就是将需要处理的任务提前通过编写程序制作为脚本，但由于这些模型是提前写好的、不可变的，不能灵活的使用，对于实际应用中必须做到和模型一模一样才能匹配成功，这限制了该模型的使用场景，只能等待用户需要执行任务时，才会触发该脚本，这对于使用者及其不便，对于使用者要有更高的要求，需要自学一套符合该操作助手的编程范式，并且该操作助手对于数据的要求比较严格，对于处理的任务比较死板，它最大的缺点就是缺乏自主学习的能力。举例来说，如果设定一个任务是点击某个按钮，如果使用目前已有的自动化操作助手，它需要提前设定好按钮的形状、大小、颜色、相对位置等信息并存于模型设置之中，在实际应用中，当检测到与模型完全相匹配的设置之后才会触发这个脚本，接着去执行点击按钮的操作，如果在实际应用中按钮的相对位置、大小或颜色发生了变化，则无法与模型匹配，哪怕只有几个像素值的差别，那将无法执行对应操作。因此，这限制了该操作助手的应用范围和功能。如何找到一个万能的模型，也就是说，让该操作助手自动的学习出一个万能的模型，可以检测出任何形状、颜色、大小的按钮，这可以消除目前已有方法的死板，同时带来更大的灵活性和可靠性。
4.但是，目前相关技术中将人工智能与自动化操作助手结合的研究并不是很多，如果在自动化操作助手的设计中加入人工智能的优势，也就是说让人工智能自动的学习一些日常的操作，学习一些重复、耗时的任务，这将带来双重收益的同时，让人工智能的技术更好的服务用户。

技术实现要素：

5.本技术提供一种计算机操作辅助方法、系统、电子设备及存储介质，以解决目前计
算机的自动化操作应用范围小、功能死板、操作复杂等问题。
6.本技术第一方面实施例提供一种计算机操作辅助方法，包括以下步骤：采集计算机的当前屏幕显示信息，对所述当前屏幕显示信息进行处理，得到多个关键帧图像；将所述多个关键帧图像输入预先构建的操作辅助模型进行识别，得到所述当前屏幕显示信息对应的目标辅助动作；控制所述计算机执行所述目标辅助动作，以辅助计算机操作。
7.可选地，在本技术的一个实施例中，所述对所述当前屏幕显示信息进行处理，得到多个关键帧图像，包括：由所述当前屏幕显示信息获取所述计算机的视频数据，以将所述视频数据作为所述当前屏幕显示信息，通过数据转换得到当前屏幕的多张图像数据，或采集当前屏幕的多张图像数据；根据预设提取规则从所述多张图像数据中提取所述多个关键帧图像。
8.可选地，在本技术的一个实施例中，所述将所述多个关键帧图像输入预先构建的操作辅助模型进行识别，得到所述当前屏幕显示信息对应的目标辅助动作，包括：将所述多个关键帧图像输入所述预先构建的操作辅助模型进行识别，对多个识别结果进行取平均或加权后得到所述多个关键帧图像对应的目标辅助动作。
9.可选地，在本技术的一个实施例中，所述采集计算机的当前屏幕显示信息之前，还包括：采集计算机的输出信息以及对应的用户的输入信息组成输入-输出数据组；对所述输入-输出数据组进行数据标注，利用标注后的输入-输出数据组进行模型训练，得到所述操作辅助模型。
10.可选地，在本技术的一个实施例中，所述输入-输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
11.本技术第二方面实施例提供一种计算机操作辅助系统，包括：处理模块，用于采集计算机的当前屏幕显示信息，对所述当前屏幕显示信息进行处理，得到多个关键帧图像；识别模块，用于将所述多个关键帧图像输入预先构建的操作辅助模型进行识别，得到所述当前屏幕显示信息对应的目标辅助动作；控制模块，用于控制所述计算机执行所述目标辅助动作，以辅助计算机操作。
12.可选地，在本技术的一个实施例中，所述处理模块，包括：转换单元，用于由所述当前屏幕显示信息获取所述计算机的视频数据，以将所述视频数据作为所述当前屏幕显示信息，通过数据转换得到当前屏幕的多张图像数据，或采集当前屏幕的多张图像数据；提取单元，用于根据预设提取规则从所述多张图像数据中提取所述多个关键帧图像。
13.可选地，在本技术的一个实施例中，所述识别模块，具体用于，将所述多个关键帧图像输入所述预先构建的操作辅助模型进行识别，对多个识别结果进行取平均或加权后得到所述多个关键帧图像对应的目标辅助动作。
14.可选地，在本技术的一个实施例中，所述处理模块之前，还包括：采集模块，用于采集计算机的输出信息以及对应的用户的输入信息组成输入-输出数据组；建模模块，用于对所述输入-输出数据组进行数据标注，利用标注后的输入-输出数据组进行模型训练，得到所述操作辅助模型。
15.可选地，在本技术的一个实施例中，所述输入-输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
16.本技术第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存
储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以执行如上述实施例所述的计算机操作辅助方法。
17.本技术第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以执行如上述实施例所述的计算机操作辅助方法。
18.由此，本技术至少具有如下有益效果：
19.本技术通过结合人工智能技术，自动的学习出一个可以拟合用户习惯的模型，在没有人工干预的情况下，完成自动化的操作，本技术应用范围较广，可以用于各种场景，包括不限于自动化办公、自动回复邮件、自动整理文件等。并且操作方便，使用人群广，可以被任何人员使用，可以节省软件开发的周期，进而可以节省大量的人力物力，对于不同的自动化操作助手实现起来成本不一样，并且不同的功能所需的时间成本不一样，提出的方法可以学习所有的功能，并且只需要输入用户数据即可，大大节省了开发的效率，节省了人力物力。同时本技术容错率较高，在实际应用中，操作对象的相对位置、大小或颜色发生了变化，也可执行对应操作。由此，解决了目前自动化操作助手应用范围小、功能死板、操作复杂等问题。
20.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
21.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
22.图1为根据本技术实施例提供的一种计算机操作辅助方法的流程图；
23.图2为根据本技术的一个实施例提供的计算机操作辅助方法的执行逻辑示意图；
24.图3为根据本技术的一个实施例提供的一种计算机操作辅助方法的架构框图；
25.图4为根据本技术实施例的一种计算机操作辅助系统的示例图；
26.图5为申请实施例提供的电子设备的结构示意图。
27.附图标记说明：处理模块-100、识别模块-200、控制模块-300、存储器-501、处理器-502、通信接口-503。
具体实施方式
28.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
29.下面参考附图描述本技术实施例的计算机操作辅助方法、系统、电子设备及存储介质。针对上述背景技术中提到的问题，本技术提供了一种计算机操作辅助方法，该方法中，在没有任何人工干预的前提下，通过接受用户习惯的数据，自主的学习，并做出决策，利用人工智能相关技术完成自动化，将本技术用于一些重复且耗时的任务时，可以提高生产效率、开发成本、节省大量的人力物力，同时还能提高操作助手使用和任务的灵活性。本技术的应用范围比较广，泛化力比较强，不但可以减小计算机操作辅助的开发周期还简化了使用难度，提高了计算机操作辅助的使用效率。由此，解决了目前自动化计算机操作辅助应
用范围小、功能死板、操作复杂等问题。
30.具体而言，图1为本技术实施例所提供的一种计算机操作辅助方法的流程图。
31.如图1所示，该计算机操作辅助方法包括以下步骤：
32.在步骤s101中，采集计算机的当前屏幕显示信息，对当前屏幕显示信息进行处理，得到多个关键帧图像。
33.为了实现计算机操作辅助，本技术的实施例根据计算机的屏幕信息确定计算机的操作辅助动作。其中，计算机屏幕的显示信息可以以图像信息或文字信息。
34.可选地，在本技术的一个实施例中，对当前屏幕显示信息进行处理，得到多个关键帧图像，包括：由当前屏幕显示信息获取计算机的视频数据，以将视频数据作为当前屏幕显示信息，通过数据转换得到当前屏幕的多张图像数据，或采集当前屏幕的多张图像数据；根据预设提取规则从多张图像数据中提取多个关键帧图像。
35.具体地，作为一种具体的实施方式，本技术的实施例可以采集当前屏幕在预设时间内的显示的视频数据，如5秒内的屏幕显示信息，根据设定的提取规则对多张图像信息进行提取，如通过背景差分法或帧差法等算法对视频数据进行提取，得到关键帧图像，进一步地，本技术的实施例还可以直接采集计算机当前屏幕的多张图像数据，从多张图像数据中提取多个关键帧图像，本领域技术人员可以根据实际情况进行设置，对此，不作具体限定。
36.在步骤s102中，将多个关键帧图像输入预先构建的操作辅助模型进行识别，得到当前屏幕显示信息对应的目标辅助动作。
37.在步骤s103中，控制计算机执行目标辅助动作，以辅助计算机操作。
38.可以理解的是，本技术实施例的操作辅助模型为利用训练数据集离线训练的，训练好的操作辅助模型可以在用户习惯的基础上，根据计算机的屏幕显示信息确定计算机要执行的动作，从而模仿用户的习惯做出决策，在无人工干预的情况下自动化的操作。模型的训练过程通过下述的实施例进行介绍。
39.可选地，在本技术的一个实施例中，将多个关键帧图像输入预先构建的操作辅助模型进行识别，得到当前屏幕显示信息对应的目标辅助动作，包括：将多个关键帧图像输入预先构建的操作辅助模型进行识别，对多个识别结果进行取平均或加权后得到多个关键帧图像对应的目标辅助动作。
40.本技术的实施例将多个关键帧图像输入操作辅助模型后，可以得到多个识别结果，将多个识别结果进行取平均或者加权处理操作，得到计算机当前屏幕显示信息对应的目标执行动作，如点击“enter”等，在实际执行过程中，本领域技术人员可以根据实际需要进行调整，不作具体限制。
41.具体地，在本技术的实施例中，首先构建计算机的操作辅助模型的框架。本技术实施例的操作辅助模型可以是任何可以用数据拟合得到的方法，模型可以是人工智能算法中任意一个，包括不限于机器学习算法、深度学习算法、基于统计学的算法等。如通过yolo、faster-rcnn等深度学习图像处理算法或svm、随机森林等机器学习算法等进行计算机操作辅助。
42.需要说明的是，通过改变模型算法选取的都属于本技术的变型，通过添加其他用户计算机数据的(例如，音频、传感器温度等一切和电脑相关的信号)都是本技术的变型，只不过最后的性能效果不一样。
43.其次，设置选取模型中用到的超参数，对模型做初始化设置。最后，利用已筛选的带有标签的数据训练已构建的计算机操作辅助的模型，直到该模型可以拟合这些数据，即该模型收敛。
44.具体地，在本技术的实施例中，通过实时获取用户所操作的计算机的屏幕信息，对屏幕信息做出预处理，主要是将视频数据转换为图像数据，每一个视频将按照每秒采集5张图像作为该视频的数据，并将该数据传输给已训练的模型，需要注意的是，每秒采集图像的个数可以按照实际需求进行设定，例如可以参考屏幕刷新的速度，于此不做具体限定。其次，利用已训练的模型对接收的信息做出预测，最终取每秒所采集图像的平均结果作为本次预测的结果，进一步得到需要执行的操作，如打开某一软件。利用所得到的操作，匹配相对应的命令，如点击回车键，通过执行所有的命令即可自动的完成指定的任务。
45.可选地，在本技术的一个实施例中，采集计算机的当前屏幕显示信息之前，还包括：采集计算机的输出信息以及对应的用户的输入信息组成输入-输出数据组；对输入-输出数据组进行数据标注，利用标注后的输入-输出数据组进行模型训练，得到操作辅助模型。输入-输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
46.具体地，在本技术的实施例中，通过计算机的输出信息以及对应的用户的输入信息组成输入-输出数据组。如屏幕显示信息和输入信息，如键盘和鼠标的操作，举例而言，用户点击“ctrl”键，控制电脑进入某一界面，则点击“ctrl”键为用户的输入信息，进入某一界面则为计算机的输出信息，从而构成输入-输出数据组。通过录制某一用户计算机电脑的屏幕、用户的键盘输入和用户鼠标的操作；按照不同的任务切分视频数据和对应的键盘鼠标的操作。
47.需要注意的是，上述数据标注，即筛选有用的数据并为这些数据打标签，其中数据的标签和键盘鼠标的操作是强相关的。通过为每一个视频数据打标签，即对每个切分出来的数据做标注，可以选取键盘和鼠标的输入作为该切分视频的标签，也可以为键盘和鼠标的输入编码(例如独热编码)来表示该切分视频的标签。
48.需要说明的是，将已筛选的带有标签的数据重复多次，并通过不同的数据增强的方式来扩充数据，使得扩充后数据的数量为原始数据的10倍之多，之后将以扩充的数据和原始数据混合，并分批次送入已构建的计算机操作辅助的模型，根据每个批次的数据训练该模型,直到该模型可以拟合所有的数据，即模型已收敛。
49.可以理解的是，上述数据的采集以及模型的训练为计算机操作辅助方法的预处理过程，通过构建离线模型进一步提高计算机操作辅助的效率和准确性。
50.下面通过具体实施例对本技术的一种计算机操作辅助方法进行详细说明。
51.图2展示了一种计算机操作辅助方法的执行逻辑。如图2所示，首先，收集用户的数据为该方法提供数据支撑，其中数据包括计算机的输出信息，如屏幕显示信息和输入信息，如键盘和鼠标的操作。其次，筛选有用的数据并为这些数据打标签，其中数据的标签和键盘鼠标的操作是强相关的。再次，构建基于计算机操作辅助的模型，其中该模型是任何可以用数据拟合得到的方法。然后，利用已筛选的带有标签的数据训练已构建的计算机操作辅助的模型，直到该模型可以拟合这些数据，也就是该模型收敛。之后，实时获取用户计算机屏幕的信息，通过已训练的模型对该信息做出判断，得到待执行的操作。最后，根据已得到的操作执行相应的命令，完成指定的任务。本技术利用人工智能相关技术完成自动化操作，不
但可以减小计算机操作辅助的开发周期还简化了使用难度，提高了该计算机操作辅助的使用效率，从而提升了该计算机操作辅助使用的灵活性。
52.图3展示了计算机操作辅助的架构。如图3所示，本技术所阐述的方法具体包括两个阶段：自主学习阶段和自动决策阶段，其中自主学习阶段主要负责收集用户计算机相关的信息，例如：屏幕信息、键盘信息、鼠标信息等，通过对这些信息的处理，也就是打标签，来训练一个可以拟合用户数据的模型，自动决策阶段主要负责收集用户计算机实时的屏幕信息来提取关键帧信息，同时用自主学习阶段得到的已收敛的模型对新采集的数据做出预测，利用预测的结果来执行命令，最终完成指定任务。
53.根据本技术实例提出的一种计算机操作辅助方法，通过采用人工智能实现自动化操作的功能，使用计算机的输入和输出信息作为人工智能算法所需的数据，采用人工智能算法自主学习用户习惯并做出决策的功能，解决基于计算机重复性操作的方法。因此，其可以用于业务流程化的操作、自动化的办公、日常的开发和应用、一些游戏的辅助等场景，这大大提高了计算机操作辅助的应用价值，减小重复性劳动中的人力需求，同时弥补现有自动化计算机操作辅助方法的死板、不灵活的缺点。
54.其次参照附图描述根据本技术实施例提出的一种计算机操作辅助系统。
55.图4是本技术实施例的一种计算机操作辅助系统的方框示意图。
56.如图4所示，该计算机操作辅助系统10包括：处理模块100、识别模块200以及控制模块300。
57.其中，处理模块100，用于采集计算机的当前屏幕显示信息，对当前屏幕显示信息进行处理，得到多个关键帧图像；识别模块200，用于将多个关键帧图像输入预先构建的操作辅助模型进行识别，得到当前屏幕显示信息对应的目标辅助动作；控制模块300，用于控制计算机执行目标辅助动作，以辅助计算机操作。
58.可选地，在本技术的一个实施例中，处理模块100，包括：转换单元，用于由当前屏幕显示信息获取计算机的视频数据，以将视频数据作为当前屏幕显示信息，通过数据转换得到当前屏幕的多张图像数据，或采集当前屏幕的多张图像数据；提取单元，用于根据预设提取规则从多张图像数据中提取多个关键帧图像。
59.可选地，在本技术的一个实施例中，识别模块200，具体用于，将多个关键帧图像输入预先构建的操作辅助模型进行识别，对多个识别结果进行取平均或加权后得到多个关键帧图像对应的目标辅助动作。
60.可选地，在本技术的一个实施例中，处理模块100之前，还包括：采集模块，用于采集计算机的输出信息以及对应的用户的输入信息组成输入-输出数据组；建模模块，用于对输入-输出数据组进行数据标注，利用标注后的输入-输出数据组进行模型训练，得到操作辅助模型。
61.可选地，在本技术的一个实施例中，输入-输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
62.需要说明的是，前述对一种计算机操作辅助方法实施例的解释说明也适用于该实施例的一种计算机操作辅助系统，此处不再赘述。
63.根据本技术实例提出的一种计算机操作辅助系统，通过根据用户的习惯，自动的学习，模仿用户的习惯来做出决策，并且可以在无人工干预的情况下自动化的操作。因此，
其可以用于业务流程化的操作、自动化的办公、日常的开发和应用、一些游戏的辅助等场景，这大大提高了计算机操作辅助的应用价值，减小重复性劳动中的人力需求，同时弥补现有计算机操作辅助的死板、不灵活的缺点。
64.图5为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括：
65.存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
66.处理器502执行程序时实现上述实施例中提供的计算机操作辅助方法。
67.进一步地，电子设备还包括：
68.通信接口503，用于存储器501和处理器502之间的通信。
69.存储器501，用于存放可在处理器502上运行的计算机程序。
70.存储器501可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
71.如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
72.可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
73.处理器502可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
74.本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上的计算机操作辅助方法。
75.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
76.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“n个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
77.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺
序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
78.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
79.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种三维重力交叉反演方法、系统、存储介质和电子设备

计算机操作辅助方法、系统、电子设备及存储介质

相关文献

最热文献