结合AI和RPA的文本信息处理方法、装置及存储介质与流程

2022-02-19 04:33:07 来源：中国专利 TAG：

结合ai和rpa的文本信息处理方法、装置及存储介质
技术领域
1.本公开涉及人工智能技术领域，尤其涉及结合ai(artificial intelligence，人工智能)和rpa(robotic process automation，机器人流程自动化)的文本信息处理方法、装置及存储介质。

背景技术：

2.机器人流程自动化(robotic process automation，简称rpa)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。
3.人工智能(artificial intelligence，简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
4.目前，在当今的大数据信息时代，金融、保险、企业等行业对pdf文件、word文件、图片文件等电子资料信息编撰与识别智能化的需求越来越广泛，办公流程自动化的需求越来越多。
5.但是，在现有业务中，很多繁琐、重复的流程需要人工去处理，比如，需要人工将企业年报、票据、对账单以及转账凭证等材料的纸质文件扫描成相应的电子文件，并上传至系统中。流程繁琐且耗时，而且系统中的电子文件的数据分析基本上还是基于人工阅读审核的方式，工作难度大、效率低、出错率较高、成本高且多变，阻碍了企业工作的效率和业务开展。

技术实现要素：

6.本公开的目的旨在至少在一定程度上解决上述技术中的技术问题之一。
7.为此，本公开提出一种结合ai和rpa的文本信息处理方法、装置及存储介质，以实现根据待处理信息文件的信息处理类型，控制rpa机器人对文本信息进行处理，简化了文本信息处理流程，同时，结合光学字符识别ocr技术实现了文本信息的智能化审核，减少了人工干预，提高了文本信息处理的效率和准确性，降低了企业成本。
8.本公开第一方面实施例提出了一种结合人工智能ai和机器人流程自动化rpa的文本信息处理方法，包括：接收用户端的文本信息处理请求，其中，所述文本信息处理请求中包括：待处理信息文件以及所述待处理信息文件的信息处理类型；基于光学字符识别ocr获取所述待处理信息文件的文本信息；根据所述信息处理类型，控制rpa机器人对所述文本信息进行处理。
9.本公开第二方面实施例提出了一种结合人工智能ai和机器人流程自动化rpa的文本信息处理装置，包括：接收模块，用于接收用户端的文本信息处理请求，其中，所述文本信息处理请求中包括：待处理信息文件以及所述待处理信息文件的信息处理类型；获取模块，用于基于光学字符识别ocr获取所述待处理信息文件的文本信息；处理模块，用于根据所述信息处理类型，控制rpa机器人对所述文本信息进行处理。
10.本公开第三方面实施例提出一种电子设备，包括：至少一个处理器；以及与所述至
少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本公开上述第一方面实施例所述的方法。
11.本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本公开上述第一方面实施例所述的方法。
12.本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本公开上述第一方面实施例所述的方法。
13.本公开实施例所提供的技术方案包含如下的有益效果：
14.本公开实施例提供的技术方案，通过接收用户端的文本信息处理请求，其中，所述文本信息处理请求中包括：待处理信息文件以及所述待处理信息文件的信息处理类型；基于光学字符识别ocr获取所述待处理信息文件的文本信息；根据所述信息处理类型，控制rpa机器人对所述文本信息进行处理。由此，根据待处理信息文件的信息处理类型，控制rpa机器人对文本信息进行处理，简化了文本信息处理流程，同时，结合光学字符识别ocr技术实现了文本信息的智能化审核，减少了人工干预，提高了文本信息处理的效率和准确性，降低了企业成本。
15.应当理解，本公开所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
16.本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
17.图1为本公开实施例所提供一种结合ai和rpa的文本信息处理方法流程示意图；
18.图2为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图；
19.图3为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图；
20.图4(a)为本公开实施例提供的待校验表格信息的示意图；
21.图4(b)为本公开实施例提供的待校验表格的描述信息的示意图；
22.图5为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图；
23.图6(a)为本公开实施例所提供的2019年度报表；
24.图6(b)为本公开实施例所提供的2018年度报表；
25.图7为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图；
26.图8为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图；
27.图9为本公实施例的所提供的结合ai和rpa的文本信息处理方法交互示意图；
28.图10是根据本公开所提供的一种结合ai和rpa的文本信息处理装置的结构示意图；
29.图11是根据本公开实施例所提供的结合ai和rpa的文本信息处理方法的电子设备的框图。
具体实施方式
30.下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。
31.目前，在当今的大数据信息时代，金融、保险、企业等行业对pdf文件、word文件、图片文件等电子资料信息编撰与识别智能化的需求越来越广泛，办公流程自动化的需求越来越多。
32.但是，各类文档的录入采用和数据分析基本上还是基于人工阅读审核的方式，工作难度大、效率低、出错率较高、成本高且多变，阻碍了企业工作的效率和业务开展。比如，年报处理非常的繁琐，复杂，需要人工投入大量的时间和精力去核对年报的数据，反复翻阅查找对比年报数据的准确性，给人工带来了巨大的工作量；各公司规则不统一、需要跟各个公司年报数据进行核对，反复切换对比，耗费时间过长，效率低且容易出现错误。
33.针对上述问题，本公开提出一种结合人工智能(artificial intelligence，简称ai)和机器人流程自动化(robotic process automation，简称rpa)的文本信息处理方法、装置及存储介质。
34.图1为本公开实施例所提供一种结合ai和rpa的文本信息处理方法流程示意图。本公开实施例提供的结合ai和rpa的文本信息处理方法可应用于本公开实施例的结合ai和rpa的文本信息处理装置，该装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。
35.如图1所示，该结合ai和rpa的文本信息处理方法包括：
36.步骤101，接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型。
37.在本公开实施例中，用户可在用户端向结合ai和rpa的文本信息处理装置发送文本信息处理请求，其中，文本信息处理请求中可包括：待处理信息文件以及待处理信息文件的信息处理类型，该文本信息处理请求用于对待处理文件根据待处理信息文件的信息处理类型进行信息处理。其中，需要说明的是，信息处理类型可包括：勾稽关系校验、文本与表格一致性校验、报表信息一致性校验和文本纠错等；勾稽关系校验可为各种报表中有关数字之间存在的，可据以相互考察、核对的关系校验；文本与表格一致性校验可为年度报表中表格对应的文本信息与年度报表的描述信息的一致性校验；报表信息一致性校验可为不同年度报表之间的信息一致性校验；文本纠错可为对文本信息中的错误进行纠正。
38.步骤102，基于光学字符识别ocr获取待处理信息文件的文本信息。
39.进一步地，对待处理信息文件进行光学字符识别ocr，获取待处理信息文件对应的文本信息。
40.步骤103，根据信息处理类型，控制rpa机器人对文本信息进行处理。
41.进而，根据文本信息处理请求中的信息处理类型，控制rpa机器人对待处理信息文件对应的文本信息进行处理。其中，需要说明的是，信息处理类型可包括：勾稽关系校验、文本与表格一致性校验、报表信息一致性校验和文本纠错中的至少一种。
42.综上，通过接收用户端的文本信息处理请求，其中，所述文本信息处理请求中包括：待处理信息文件以及所述待处理信息文件的信息处理类型；基于光学字符识别ocr获取所述待处理信息文件的文本信息；根据所述信息处理类型，控制rpa机器人对所述文本信息进行处理。由此，根据待处理信息文件的信息处理类型，控制rpa机器人对文本信息进行处
理，简化了文本信息处理流程，同时，结合光学字符识别ocr技术实现了文本信息的智能化审核，减少了人工干预，提高了文本信息处理的效率和准确性，降低了企业成本。
43.为了对文本信息中勾稽关系进行校验，如图2所示，图2为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图，在本公开实施例中，待处理信息文件的信息处理类型为勾稽关系校验，可控制rpa机器人针对文本信息中的每个勾稽关系，查询预设勾稽关系表，以确定勾稽关系是否正确，图2所示实施例可包括如下步骤：
44.步骤201，接收用户端的文本信息处理请求，其中，所述文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型，其中，待处理信息文件的信息处理类型，包括：勾稽关系校验。
45.作为一种应用场景，在企业年报中，存在各种类型的勾稽关系，比如，基本的勾稽关系，如，收入
‑
费用＝利润；现金流入
‑
现金流出＝现金净流量；又比如，表间勾稽关系，如，不同年份报表之间的关系；又比如，表中勾稽关系，如，同一个报表中的多个数据之间的合计、总计、比例和变动等。
46.步骤202，基于光学字符识别ocr获取待处理信息文件的文本信息。
47.步骤203，控制rpa机器人针对文本信息中的每个勾稽关系，查询预设勾稽关系表，确定勾稽关系是否正确。
48.进一步地，可控制rpa机器人根据文本信息中的数据之间的关系，确定文本信息中的多个勾稽关系，进而，控制rpa机器人针对文本信息中的每个勾稽关系，查询预设勾稽关系表，若在预设勾稽关系表中可以查询到文本信息中的勾稽关系，可确定文本信息中的勾稽关系是正确的。
49.步骤204，在勾稽关系不正确时，控制rpa机器人进行预警提示处理。
50.进而，在勾稽关系不正确时，也就是文本信息中的勾稽关系在预设勾稽关系表中不存在时，可确定该勾稽关系不正确，为了提醒相关人员对错误的勾稽关系进行修改，rpa机器人可对该勾稽关系进行标注，以对相关人员进行预警提示。
51.在本公开实施例中，步骤202可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。
52.综上，通过控制rpa机器人针对文本信息中的每个勾稽关系，查询预设勾稽关系表，确定勾稽关系是否正确；在勾稽关系不正确时，控制rpa机器人进行预警提示处理，由此，可对文本信息中勾稽关系进行校验，提高文本信息处理的效率和准确性。
53.为了对文本信息中的文本与表格之间的一致性进行校验，如图3所示，图3为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图，在本公开实施例中，可控制rpa机器人将待校验表格信息进行文本信息转换，并将文本信息中的待校验表格的描述信息与转换后的文本信息进行比对，从而确定描述信息与转换后的文本信息是否一致。图3所示实施例可包括如下步骤：
54.步骤301，接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型。其中，待处理信息文件的信息处理类型，包括：文本与表格一致性校验。
55.作为一种应用场景，表格可为文本信息中的年度报表，文本可为文本信息中的年度报表的描述信息。可将年度报表对应的文本信息与年度报表的描述信息进行比对，以确
定年度报表的描述信息与年度报表是否一致。
56.步骤302，基于光学字符识别ocr获取待处理信息文件的文本信息。
57.步骤303，控制rpa机器人获取文本信息中的待校验表格信息。
58.可选地，可控制rpa机器人基于光学字符识别ocr对文本信息中的表格信息进行提取，并将提取的表格信息作为待校验表格信息。
59.步骤304，控制rpa机器人将待校验表格信息进行文本信息转换，获取转换后的文本信息。
60.进一步地，控制rpa机器人通过表格解析算法可对文本信息中的待校验表格信息进行文本信息转换，以获取转换后的文本信息。
61.步骤305，控制rpa机器人将文本信息中的待校验表格的描述信息与转换后的文本信息进行比对，确定描述信息与转换后的文本信息是否一致。
62.进而，控制rpa机器人可将文本信息中的待校验表格的描述信息与转换后的文本信息进行比对，以确定描述信息与转换后的文本信息是否一致，在描述信息与转换后的文本信息一致时，可确定文本信息中的待校验表格的描述信息和年度报表一致；在描述信息与转换后的文本信息不一致时，可确定待校验表格的描述信息和/或待校验表格存在错误。
63.举例而言，如图4(a)和图4(b)所示，图4(a)为本公开实施例提供的待校验表格信息的示意图，图4(b)为本公开实施例提供的待校验表格的描述信息的示意图，将图4(a)中的待校验表格信息进行文本转换，获取转换后的文本信息，将转换后的文本信息与图4(b)中的待校验表格的描述信息进行比对，如，图4(a)中的待校验表格信息对应的转换后的文本信息为“2018归属于母公司股东的营运利润为人民币112573百万元”，与描述信息“2018年公司实现归属于母公司股东的营运利润为1125.73亿元”进行比对，在转换后的文本中数据的单位与描述信息中的数据的单位不一致时，控制rpa机器人以转换后的文本中数据的单位或描述信息中的数据单位为基准，进行单位转换，使转换后的文本中数据的单位与描述信息中的数据的单位一致，如，将“112573百万元”准换为“1125.73亿元”，从而可确定描述信息与转换后的文本信息是否一致。
64.步骤306，在描述信息与所述转换后的文本信息不一致时，控制rpa机器人对描述信息和/或待校验表格信息进行标注。
65.进而，在描述信息与所述转换后的文本信息不一致时，也就是待校验表格的描述信息和/或待校验表格存在错误，控制rpa机器人可对描述信息和/或待校验表格信息进行标注，以提醒相关人员进行修改。
66.在本公开实施例中，步骤302可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。
67.综上，通过控制rpa机器人获取文本信息中的待校验表格信息；控制rpa机器人将待校验表格信息进行文本信息转换，获取转换后的文本信息；控制rpa机器人将文本信息中的待校验表格的描述信息与转换后的文本信息进行比对，确定描述信息与转换后的文本信息是否一致；在描述信息与转换后的文本信息不一致时，控制rpa机器人对描述信息和/或待校验表格信息进行标注。由此，可实现文本信息中的文本与表格之间的一致性校验，并在描述信息与转换后的文本信息不一致时，控制rpa机器人对描述信息和/或待校验表格信息进行标注，以对相关人员进行提醒。
68.为了实现年度报表信息的一致性校验，如图5所示，图5为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图，在本公开实施例中，可控制rpa机器人将文本信息中的第一年度的第一报表与文本信息中的第二年度的第二报表对应的各年度的子报表进行比对，以确定第一报表与第二报表对应的各年度的子报表是否一致。图5所示实施例可包括如下步骤：
69.步骤501，接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型，其中，待处理信息文件的信息处理类型，包括：报表信息一致性校验。
70.步骤502，基于光学字符识别ocr获取待处理信息文件的文本信息。
71.步骤503，控制rpa机器人获取文本信息中第一年度的第一报表；其中，第一报表中包含第一年度及其之前各年度的子报表。
72.作为一种应用场景，报表信息一致性校验可为不同年份对应的报表信息的一致性校验。
73.可选地，可控制rpa机器人基于光学字符识别ocr获取文本信息中第一年度的第一报表，其中，第一报表中包含第一年度及其之前各年度的子报表。比如，可获取2019年度的报表中包含2019年及其之前各年度的子报表。
74.步骤504，控制rpa机器人获取第二年度的第二报表；其中，第二年度在第一年度之前，第二报表包含第二年度及其之前各年度的子报表。
75.进一步地，可控制rpa机器人基于光学字符识别ocr获取第二年度的第二报表，其中，第二年度在第一年度之前，第二报表包含第二年度及其之前各年度的子报表。比如，第一年度的第一报表为2019年度报表，第二年度的第二报表可为2018年度报表。需要说明的是，第二年度的第二报表与第一年度的第一报表可位于同一待处理信息文件中，也可位于不同待处理信息文件中，本公开不做具体限定。
76.步骤505，控制rpa机器人将第一报表与第二报表对应的各年度的子报表进行比对，确定第一报表与第二报表对应的各年度的子报表是否一致。
77.举例而言，如图6(a)和6(b)所示，图6(a)为本公开实施例所提供的2019年度报表，该2019年度报表中包括2018年度子报表和2019年度子报表，图6(b)为本公开实施例所提供的2018年度报表，该2018年度报表中包括2018年度子报表和2017年度子报表，控制rpa机器人将2019年度报表中的2018年度子报表与2018年度报表中的2018年度子报表进行比对，如，将图6(a)中的2018年度的经营活动现金流入小计与图6(b)中的2018年度经营活动现金流入小计进行比对，以确定2019年度报表与2018年度报表对应的2018年度子报表是否一致。
78.需要说明的是，在第一报表与第二报表对应的各年度的子报表全部一致时，可确定第一报表与第二报表对应的各年度的子报表一致。在第一报表与第二报表对应的各年度的任一子报表不一致时，可确定第一报表与第二报表对应的各年度的子报表不一致，即第一报表和/或第二表报中存在错误，控制rpa机器人可对第一报表与第二报表对应的各年度的不一致的子报表进行标注，以提醒相关人员进行修改。
79.在本公开实施例中，步骤501
‑
502可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。
80.综上，通过控制rpa机器人获取文本信息中第一年度的第一报表；其中，第一报表中包含第一年度及其之前各年度的子报表；控制rpa机器人获取第二年度的第二报表；其中，第二年度在第一年度之前，第二报表包含第二年度及其之前各年度的子报表；控制rpa机器人将第一报表与第二报表对应的各年度的子报表进行比对，确定第一报表与第二报表对应的各年度的子报表是否一致。由此，可实现年度报表信息的一致性校验。
81.为了实现文本信息中的文本纠错，如图7所示，图7为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图，在本公开实施例中，文本信息中不同的错误类型采用不同的纠错方式进行纠正，可先识别出文本信息的错误类型，根据识别出的错误类型，对文本信息进行纠正处理。图7所示实施例可包括如下步骤：
82.步骤701，接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型。其中，待处理信息文件的信息处理类型，包括：文本纠错。
83.步骤702，基于光学字符识别ocr获取待处理信息文件的文本信息。
84.步骤703，控制rpa机器人识别文本信息的错误类型；其中，错误类别包括：字词错误、标点使用错误、重复类型错误、格式类型错误、常识内容错误、自定义实体错误、自定义实体顺序错误、实体属性搭配错误和相似说法归一化错误中的至少一种。
85.作为一种示例，可控制rpa机器人将文本信息进行词语分割，并将文本信息中的各个字词与预设文本库中的各个字词进行匹配，以确定文本信息中的字词错误，其中，预设文本中包括各个字词的正确读音、各个字词的正确书写和各个字词间的正确语法等。字词错误中的错误类型可包括：谐音字词错误、混淆音字词错误、形似字错误、字词缺少和语法错误等。其中，如“配副眼镜”的谐音字词为“配副眼睛”，“牛郎织女”的混淆音字词为“流浪织女”，“红高粱”的形似字为“红高梁”，“芈月传”缺少字词后为“芈传”，“难以想象”的语法错误为“想象难以”。
86.作为另一种示例，可控制rpa机器人对文本信息中的每个段落进行标点识别，若在段落的起始位置存在结束标点，则该段落的起始位置的标点使用错误；若在段落的结束位置存在非结束标点，则该段落的结束位置的标点使用错误；若段落中存在连续标点，则段落中的标点使用错误，如，在段落的起始位置存在问号，句号，感叹号等结束标点，则该段落的起始位置的标点使用错误。又比如，在段落的结束位置存在逗号，顿号等非结束标点，则该段落的结束位置的标点使用错误。又比如，段落中存在多个相同或不同连续标点，则该段落中的标点使用错误。
87.作为另一种示例，rpa机器人可对不同段落之间进行字符串比对，确定不同段落中的相同字符串的长度，若相同字符串的长度大于预设阈值，则确定段落为重复类型错误，比如，可标识不同段落间重复字符串的起始、结束位置，若重复字符串的长度大于20，则确定段落为重复类型错误。
88.作为另一种示例，可控制rpa机器人对同一段落中的相邻字符串进行比对，若相邻字符串的重复字符长度大于或等于2，则确定该段落为重复类型错误，比如，段落中存在“保障保障信息安全”，字符串“保障”为重复字符串，且该重复字符串的长度为2，则确定该段落为重复类型错误。
89.作为另一种示例，可控制rpa机器人对文本信息中的所有段落的段首位置进行空
格识别，若文本信息中存在段落的段首位置具有空格时，则文本信息中段落的起始位置不具有空格的段落为格式类型错误，并对段落的起始位置不具有空格的段落进行标识。
90.作为另一种示例，可控制rpa机器人对文本信息中的各个段落的起始位置的段落号信息进行识别，若段落号为不连续号码，则文本信息中的段落存在格式类型错误，并对不连续的段落号进行标识。
91.作为另一种示例，可控制rpa机器人对文本信息中的时间、日期和计量单位进行识别，若文本信息中的月份不为1至12之间，和/或，月份的天数不符合常识，如，月份为4、6、9或11时，日期大于30，和/或，时间的小时数和/或分钟数不符合常识，如，小时数不在0
‑
23之间，分钟数不在0
‑
59之间，计量单位不符合常识，如，从我家到公司需要走10平方米，则确定文本信息存在常识内容错误。
92.作为一种示例，可控制rpa机器人对文本信息中进行实体识别，并将识别到的实体与预设实体进行拼音和字形的相似度判断，若文本中的实体与预设实体拼音相同，字形不同，则文本信息存在自定义实体错误，如，预设实体为“雪琴”，文本信息中的实体为“学勤”，“学勤”与“雪琴”拼音相同，字形不同，该文本信息存在自定义实体错误。
93.作为另一种示例，可控制rpa机器人对文本信息中进行实体识别，并对多个连续实体间的顺序与预设实体顺序进行比对，若文本信息中的连续实体的顺序与预设实体顺序不同，则文本信息存在自定义实体顺序错误。比如，预设实体顺序为a、b、c，文本信息中的多个连续实体的顺序为a、c、b，文本信息中的多个连续实体的顺序与预设实体顺序不同，确定该文本信息存在自定义实体顺序错误。
94.作为另一种示例，rpa机器人对文本信息中进行实体识别，若识别到自定以实体名称，可进一步识别自定义实体名称后是否存在属性信息，若自定义实体名称后存在属性信息，可将自定义名称的属性信息与预设的实体名称的属性信息进行比对，若自定义名称的属性信息与预设的实体名称的属性信息不同，则文本信息中存在实体属性搭配错误。比如，文本信息中的自定义实体名称和属性信息为“张三书记”，预设的实体名称和属性信息为“张三主任”，“张三书记”与“张三主任”不同，该文本信息存在实体属性搭配错误。
95.作为另一种示例，若文本信息中的年报中同一个数值或比例在文档中出现多次，rpa机器人可对该数值或比例的主语进行识别，若出现该数值或比例的主语不同，该文本信息存在相似说法归一化错误。比如，同一数值的出现的主语分别为资产总计和资产合计，则确定该数值的主语不同，该文本信息存在相似说法归一化错误。
96.步骤704，根据错误类型，控制rpa机器人对文本信息进行纠正处理。
97.作为一种示例，在错误类型为字词错误时，可控制rpa机器人根据字词错误中的错误类型和和预设文本库中的正确字词对文本信息进行纠正处理。
98.举例而言，如表1所示，比如，可控制rpa机器人将谐音字词“配副眼睛”纠正为“配副眼镜”。又比如，可控制rpa机器人将混淆音字词“流浪织女”，纠正为“牛郎织女”；又比如，可控制rpa机器人将形似字错误的字词“红高梁”，纠正为“红高粱”；又比如，可控制rpa机器人将缺少字词“芈月”，纠正为“芈月传”，可控制rpa机器人将语法错误的字词“想象难以”，纠正为“难以想象”。
99.表1为本公开实施例的字词错误示意表
[0100][0101]
作为另一种示例，在错误类型为标点使用错误时，若在段落的起始位置存在结束标点，可控制rpa机器人将该段落的起始位置的结束标点清空，若在段落的结束位置存在非结束标点，可控制rpa机器人将该段落的结束位置的非结束标点清空；若段落中存在连续标点，可控制rpa机器人将段落的结束位置保留连续标点中的第一个结束标点，其它情况保留连续标点中的第一个非结束标点。比如，存在连续标点的文本信息为“花园中有月季花、玫瑰花、海棠花、银杏树、，。”，可控制rpa机器人将连续标点“、，”删除，保留“。”。又比如，存在连续标点的文本信息为“花园中有月季花、玫瑰花、，。海棠花、银杏树。”，可控制rpa机器人将连续标点“，。”删除，保留“、”。
[0102]
作为另一种示例，在文本信息中存在重复类型错误时，可控制rpa机器人对重复的字符串进行标识并将重复的字符串进行删除。
[0103]
作为另一种示例，在文本信息中存在格式类型错误时，可控制rpa机器人对段落的起始位置不具有空格的段落进行标识并添加相应的空格。
[0104]
作为另一种示例，文本信息中的段落存在格式类型错误时，可控制rpa机器人对不连续的段落号进行标识，并对文本中的各个段落的段落号重新进行排序，以使段落号为连续号码。
[0105]
作为另一种示例，在文本信息存在常识内容错误时，可控制rpa机器人对文本信息中不符合常识的内容进行标识和修改，比如，将文本信息中的月份修改为1至12之间，和/或，月份为4、6、9或11时，日期小于或等于30，和/或，小时数修改为在0
‑
23之间，分钟数在0
‑
59之间，和/或，对计量单位进行修改，如，从我家到公司需要走10分钟。
[0106]
作为另一种示例，在文本信息存在自定义实体错误时，可控制rpa机器人将文本信息中的错误的自定义实体，修改为预设实体。比如，“学勤”修改为“雪琴”。
[0107]
作为另一种示例，文本信息存在自定义实体顺序错误，可控制rpa机器人将文本信息中的自定义实体顺序修改为预设实体顺序。
[0108]
作为另一种示例，在文本信息存在实体属性搭配错误时，可控制rpa机器人将文本信息中的实体的属性信息修改为预设的实体名称的属性信息。
[0109]
作为另一种示例，在文本信息存在相似说法归一化错误时，可控制rpa机器人将同一个数值或比例的主语修改为同一主语。
[0110]
在本公开实施例中，步骤701
‑
702可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。
[0111]
综上，通过控制rpa机器人识别文本信息的错误类型；根据错误类型，控制rpa机器人对文本信息进行纠正处理，由此，根据文本信息的错误类型，rpa机器人可准确地对文本
信息中的错误文本进行纠正。
[0112]
为了有效地提升信息检索的执行效率，如图8所示，图8为本公开实施例所提供另一种结合ai和rpa的文本信息处理方法流程示意图，在本公开实施例中，可通过对话机器人与用户进行交互，以接收用户端的语音信息，进而，根据用户端的语音信息进行检索，以提供用于生成待处理信息文件的目标信息。图8所示实施例可包括如下步骤：
[0113]
步骤801，接收用户端的语音信息。
[0114]
在本公开实施例中，对话机器人可与用户进行交互，对话机器人可将接收的用户的语音信息发送给基于ai和rpa的信息处理装置，从而基于ai和rpa的信息处理装置可接收到用户端的语音信息。
[0115]
步骤802，根据语音信息进行检索，以提供与语音信息匹配的目标信息；其中，目标信息用于生成待处理信息文件，目标信息包括：参考文档、引用数据、文档模板和常用词库语料库中的至少一种。
[0116]
可选地，基于ai和rpa的信息处理装置可控制rpa机器人根据用户端的语音信息进行检索，向用户提供与该语音信息匹配的目标信息，用户根据该目标信息可生成待处理信息文件，其中，目标信息可包括：参考文档、引用数据、文档模板和常用词库语料库中的至少一种。
[0117]
步骤803，接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及所述待处理信息文件的信息处理类型。
[0118]
步骤804，基于光学字符识别ocr获取待处理信息文件的文本信息。
[0119]
步骤805，根据信息处理类型，控制rpa机器人对文本信息进行处理。
[0120]
在本公开实施例中，步骤803
‑
805可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。
[0121]
综上，通过接收用户端的语音信息；根据语音信息进行检索，以提供与语音信息匹配的目标信息；其中，目标信息用于生成待处理信息文件，目标信息包括：参考文档、引用数据、文档模板和常用词库语料库中的至少一种，由此，可有效地提升信息检索的执行效率。
[0122]
为了更加清楚地说明上述实施例，现举例进行说明。
[0123]
举例而言，如图9所示，rpa机器人可对word版本1文件进行文本纠错，并将纠错后版本发送给用户，在用户采纳rpa机器人的文本纠错后，用户可将文本纠错后版本word版本2发送给审稿人，审稿人审核过后可将审核之后的版本发送给撰稿人，撰稿人可将接收修订后的版本word版本3发送给rpa机器人，rpa机器人可将word版本3与word版本2进行比对，以确定word版本3与word版本2之间的差异信息，rpa机器人将差异信息发送给审核人，审核人对差异信息进行再次审核，将审核通过后的版本word版本4发送给设计人员，进而，通过rpa机器人多次进行文本信息校验，提高了文本信息的处理效率和准确度。
[0124]
本公开实施例的结合ai和rpa的文本信息处理方法，通过接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型；基于光学字符识别ocr获取待处理信息文件的文本信息；根据信息处理类型，控制rpa机器人对文本信息进行处理。由此，根据待处理信息文件的信息处理类型，控制rpa机器人对文本信息进行处理，简化了文本信息处理流程，同时，结合光学字符识别ocr技术实现了文本信息的智能化审核，减少了人工干预，提高了文本信息处理的效率和准确性，降低了
企业成本。
[0125]
与上述图1至图9实施例提出的结合ai和rpa的文本信息处理方法相对应，本公开的一个实施例还提出一种结合ai和rpa的文本信息处理装置，由于本公开实施例提出的结合ai和rpa的文本信息处理装置与上述图1至图9实施例提出的结合ai和rpa的文本信息处理方法相对应，因此上述结合ai和rpa的文本信息处理方法的实施方式也适用于本公开实施例提出的结合ai和rpa的文本信息处理装置，在下述实施例中不再详细描述。
[0126]
图10是根据本公开所提供的一种结合ai和rpa的文本信息处理装置的结构示意图，如图10所示，该结合ai和rpa的文本信息处理装置1000包括：接收模块1010、获取模块1020和处理模块1030。
[0127]
其中，接收模块1010，用于接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型；获取模块1020，用于基于光学字符识别ocr获取待处理信息文件的文本信息；处理模块1030，用于根据信息处理类型，控制rpa机器人对文本信息进行处理。
[0128]
作为本公开实施例的一种可能实现方式，待处理信息文件的信息处理类型，包括：勾稽关系校验，处理模块1030，用于：控制rpa机器人针对文本信息中的每个勾稽关系，查询预设勾稽关系表，确定勾稽关系是否正确；在勾稽关系不正确时，控制rpa机器人进行预警提示处理。
[0129]
作为本公开实施例的一种可能实现方式，待处理信息文件的信息处理类型，包括：文本与表格一致性校验，处理模块1030，还用于：控制rpa机器人获取文本信息中的待校验表格信息；控制rpa机器人将待校验表格信息进行文本信息转换，获取转换后的文本信息；控制rpa机器人将文本信息中的待校验表格的描述信息与转换后文本信息进行比对，确定描述信息与转换后的文本信息是否一致；在描述信息与所述转换后的文本信息不一致时，控制rpa机器人对描述信息和/或待校验表格信息进行标注。
[0130]
作为本公开实施例的一种可能实现方式，待处理信息文件的信息处理类型，包括：报表信息一致性校验，处理模块1030，还用于：控制rpa机器人获取文本信息中第一年度的第一报表；其中，第一报表中包含第一年度及其之前各年度的子报表；控制rpa机器人获取第二年度的第二报表；其中，第二年度在第一年度之前，第二报表包含第二年度及其之前各年度的子报表；控制rpa机器人将第一报表与第二报表对应的各年度的子报表进行比对，确定第一报表与第二报表对应的各年度的子报表是否一致。
[0131]
作为本公开实施例的一种可能实现方式，待处理信息文件的信息处理类型，包括：文本纠错，处理模块1030，还用于：控制rpa机器人识别文本信息的错误类型；其中，错误类别包括：字词错误、标点使用错误、重复类型错误、格式类型错误、常识内容错误、自定义实体错误、自定义实体顺序、实体属性搭配错误和相似说法归一化错误中的至少一种；根据错误类型，控制rpa机器人对文本信息进行纠正处理。
[0132]
作为本公开实施例的一种可能实现方式，结合ai和rpa的文本信息处理装置1000还包括：接收模块和检索模块。
[0133]
其中，接收模块，用于接收用户端的语音信息；检索模块，用于根据语音信息进行检索，以提供与语音信息匹配的目标信息；其中，目标信息用于生成待处理信息文件，目标信息包括：参考文档、引用数据、文档模板和常用词库语料库中的至少一种。
[0134]
本公开实施例的结合ai和rpa的文本信息处理装置，通过接收用户端的文本信息处理请求，其中，文本信息处理请求中包括：待处理信息文件以及待处理信息文件的信息处理类型；基于光学字符识别ocr获取待处理信息文件的文本信息；根据信息处理类型，控制rpa机器人对文本信息进行处理。由此，根据待处理信息文件的信息处理类型，控制rpa机器人对文本信息进行处理，简化了文本信息处理流程，同时，结合光学字符识别ocr技术实现了文本信息的智能化审核，减少了人工干预，提高了文本信息处理的效率和准确性，降低了企业成本。
[0135]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0136]
如图11所示，图11是根据本公开实施例所提供的结合ai和rpa的文本信息处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0137]
如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。
[0138]
存储器1102即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的基于ai和rpa的信息处理方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的结合ai和rpa的文本信息处理方法。
[0139]
存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的结合ai和rpa的文本信息处理方法对应的程序指令/模块(例如，附图10所示的接收模块1010、获取模块1020和处理模块1030)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的结合ai和rpa的文本信息处理方法。
[0140]
存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义表示模型的生成的电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至结合ai和rpa的文本信息处理的电子设备。上述网络的实例包括但不
限于互联网、企业内部网、局域网、移动通信网及其组合。
[0141]
结合ai和rpa的文本信息处理方法的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。
[0142]
输入装置1103可接收输入的数字或字符信息，以及产生与结合ai和rpa的文本信息处理的生成的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
[0143]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0144]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0145]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0146]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0147]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计
算机程序来产生客户端和服务器的关系。
[0148]
另外，本公开的技术方案中所涉及的信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0149]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。
[0150]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于深度学习的低信噪比下雷达RD图像目标检测方法与流程

结合AI和RPA的文本信息处理方法、装置及存储介质与流程

相关文献

最热文献