文档的处理方法、装置、电子设备和存储介质与流程

2022-12-20 00:14:57 来源：中国专利 TAG：

1.本公开涉及人工智能
技术领域：
：，具体为深度学习、自然语言处理
技术领域：
：，尤其涉及文档的处理方法、装置、电子设备和存储介质。
背景技术：
：：2.在很多业务场景中，需要对电子文档进行审核。比如在电子合同文档撰写完成后，需要人工审核其中是否有疏漏、编写错误或不符合撰写要求等问题，审核过程需要耗费用户大量时间，审核效率低。如何提高电子文档的审核效率，减少文档审核所需的人工成本是亟待解决的问题。技术实现要素：3.本公开提供了一种文档的处理方法、装置、电子设备和存储介质。4.根据本公开的一方面，提供了一种文档的处理方法，所述方法包括：获取待处理的文档、目标处理规则、指定文本片段及所述指定文本片段对应的提示信息；从所述文档中确定所述目标处理规则下与所述指定文本片段对应的目标文本片段；获取所述目标文本片段在所述文档中的位置信息；基于所述位置信息，对所述文档中的所述目标文本片段进行标记，并在所述目标文本片段的对应位置添加所述指定文本片段对应的提示信息。5.根据本公开的另一方面，提供了一种文档的处理装置，所述装置包括：第一获取模块，用于获取待处理的文档、目标处理规则、指定文本片段及所述指定文本片段对应的提示信息；第一确定模块，用于从所述文档中确定所述目标处理规则下与所述指定文本片段对应的目标文本片段；第二获取模块，用于获取所述目标文本片段在所述文档中的位置信息；第一处理模块，用于基于所述位置信息，对所述文档中的所述目标文本片段进行标记，并在所述目标文本片段的对应位置添加所述指定文本片段对应的提示信息。6.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的文档的处理方法。7.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开实施例公开的文档的处理方法。8.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开的文档的处理方法的步骤。9.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明10.附图用于更好地理解本方案，不构成对本公开的限定。其中：11.图1是根据本公开第一实施例的文档的处理方法的流程示意图；12.图2是根据本公开第二实施例的文档的处理方法的流程示意图；13.图3是根据本公开第二实施例的信息抽取模型的获取过程的示意图；14.图4是根据本公开第三实施例的文档的处理方法的流程示意图；15.图5是根据本公开第四实施例的文档的处理方法的流程示意图；16.图6是根据本公开第四实施例的文档处理平台的架构图；17.图7是根据本公开第四实施例的文本分类模型的获取过程的示意图；18.图8是根据本公开第五实施例的文档的处理装置的结构示意图；19.图9是根据本公开第六实施例的文档的处理装置的结构示意图；20.图10是用来实现本公开实施例的文档的处理方法的电子设备的框图。具体实施方式21.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。22.需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。23.本公开实施例提供一种文档的处理方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。其中文档的处理方法包括：获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，通过从文档中确定目标处理规则下与指定文本片段对应的目标文本片段，基于目标文本片段在文档中的位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息，可以实现对文档中需要用户重点审核的内容进行标记及提示，为用户进行文档审核提供参考，节省用户进行文档审核所消耗的时间，提高文档的审核效率。24.其中，本公开提供的文档的处理方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品，涉及人工智能
技术领域：
：，具体为深度学习、自然语言处理
技术领域：
：。25.其中，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。26.dl(deeplearning，深度学习)，是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。27.nlp(naturallanguageprocessing，自然语言处理)，是使用自然语言同计算机进行通讯的技术，因为处理自然语言的关键是要让计算机“理解”自然语言，所以自然语言处理又叫做自然语言理解，也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。28.下面参考附图描述本公开实施例的文档的处理方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。29.首先对本公开实施例提供的文档的处理方法进行说明。30.图1是根据本公开第一实施例的文档的处理方法的流程示意图。其中，需要说明的是，本实施的文档的处理方法，执行主体为文档的处理装置，该文档的处理装置可以由软件和/或硬件实现，该文档的处理装置可以配置在电子设备中，该电子设备可以包括但不限于终端设备、服务器等，该实施例对电子设备不作具体限定。31.如图1所示，该文档的处理方法可以包括：32.步骤101，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息。33.其中，待处理的文档，可以为docx(一种文件扩展名)等格式的流式文档，也可以为pdf(portabledocumentformat，可携带文档格式)等格式的版式文档，或者其它格式的文档，本公开对此不作限制。34.待处理的文档，可以包括一个文档页面，也可以包括多个文档页面，本公开对此不作限制。35.指定文本片段，为预先设置的文本片段，可以由用户根据审核文档时文档中需要重点关注的内容进行指定。其中，指定文本片段的数量可以为一个或多个，每个指定文本片段可以包括一个词语，或者包括至少一个字符等，本公开对此不作限制。36.指定文本片段对应的提示信息，为需要在待处理的文档中添加的信息，用于对用户进行提示，可以由用户根据需要进行配置。37.目标处理规则，为对待处理的文档进行处理时，需要遵循的规则，比如可以包括信息一致性规则、信息命中规则等。其中，信息一致性规则，用于指示确定指定文本片段作为目标字段名时，文档中对应相同的目标字段名的属性值是否一致；信息命中规则，用于指示确定文档中是否包含指定文本片段。38.比如，假设待处理的文档为电子合同文档，指定文本片段可以为“生效”、“起效”、“有效”、“期限”、“期间”等，这些指定文本字段对应的提示信息可以为“请确认该期限与文档前后文相关期限一致、无矛盾”，目标处理规则可以包括信息命中规则，用于指示确定文档中是否包含“生效”、或者“起效”、或者“有效”、或者“期限”、或者“期间”等指定文本片段。或者，指定文本片段可以为“甲方”和“乙方”，其中“甲方”对应的提示信息可以为“首页甲方:{}与尾页甲方:{}表述不一致，请复核”，“乙方”对应的提示信息可以为“首页乙方:{}与尾页乙方:{}表述不一致，请复核”，目标处理规则可以包括信息一致性规则，用于指示确定“甲方”或“乙方”作为目标字段名时，文档中对应相同的目标字段名的属性值是否一致。39.需要说明的是，本公开实施例中的文档的处理装置可以通过各种公开、合法合规的方式获取待处理的文档、指定文本片段及对应的提示信息等数据，例如可以从公开数据集处获取待处理的文档，或者也可以在经过用户授权后从用户处获取待处理的文档，本公开对此不作限制。40.在本公开的实施例中，数据库中可以预先存储多个处理规则，文档的处理装置可以提供交互界面，交互界面中包括多个处理规则的选项，用户可以通过交互界面，从多个处理规则中选择需要的处理规则作为目标处理规则，从而文档的处理装置可以根据用户的选择操作，获取目标处理规则。另外，交互界面中可以包括文档的上传按钮，用户可以通过该上传按钮，进行文档的上传，且交互界面中可以包括文本片段的输入框及对应的提示信息的输入框，用户可以根据需要，在文本片段的输入框及对应的提示信息的输入框中进行信息输入。文档的处理装置可以在经过用户授权后，将用户上传的文档作为待处理的文档，并根据用户输入的信息，获取指定文本片段及对应的提示信息。41.本公开实施例中，用户上传的文档包括一种格式的文档的情况下，文档的处理装置还可以同时生成对应的其它格式的文档，从而对多种格式的文档执行本公开各实施例的文档的处理方法。比如，在用户上传的文档为doc格式的文档的情况下，文档的处理装置可以同时生成对应的pdf格式的文档，并对doc格式的文档和pdf格式的文档执行本公开各实施例的文档的处理方法。42.步骤102，从文档中确定目标处理规则下与指定文本片段对应的目标文本片段。43.其中，待处理的文档可以划分为至少一个段落，每个段落包括至少一个字符。对于任一指定文本片段，目标文本片段，可以为其中的各字符与指定文本片段中各字符完全匹配的文本片段或者该文本片段所在段落，也可以为将指定文本片段作为目标字段名时，该目标字段名对应的属性值或者该属性值所在段落，或者通过其它方式确定的与指定文本片段对应的文本片段，本公开对此不作限制。其中，对于同一指定文本片段，在不同的目标处理规则下，指定文本片段对应的目标文本片段可能不同。44.在本公开实施例中，对于pdf等格式的版式文档，可以将版式文档中各文档页面的内容划分为至少一个段落，每个段落包括至少一个字符。目标文本片段，可以包括版式文档中的至少一个字符，或者至少一个段落，本公开对此不作限制。45.比如，假设待处理的pdf格式的版式文档中包括“甲方：张三；乙方：李四”等内容。指定文本片段为“甲方”。则在信息一致性规则下，目标文本片段，可以为将指定文本片段“甲方”作为目标字段名时，该目标字段名对应的属性值，即待处理的文档中的两个字符组成的“张三”，或者为目标字段名对应的属性值“张三”所在的段落；在信息命中规则下，目标文本片段，可以为其中的各字符与指定文本片段“甲方”中各字符完全匹配的多个字符，即待处理的文档中的两个字符组成的“甲方”，或者为“甲方”所在的段落。46.在本公开实施例中，对于docx等格式的流式文档，可以将流式文档中各文档页面的内容划分为至少一个段落，其中每个段落包括至少一个文本块，其中，文本块包括至少一个字符。目标文本片段，可以包括流式文档中的至少一个文本块，或者至少一个段落，本公开对此不作限制。47.比如，假设待处理的docx格式的流式文档中包括“期限为2022年10月1日”等内容。指定文本片段为“期限”。则在信息一致性规则下，目标文本片段，可以为将指定文本片段“期限”作为目标字段名时，该目标字段名对应的属性值，即待处理的文档中的文本块“2022年10月1日”，或者为目标字段名对应的属性值所在的段落，即文本块“2022年10月1日”所在的段落；在信息命中规则下，目标文本片段，可以为其中的各字符与指定文本片段“期限”中各字符完全匹配的文本块，即待处理的文档中的文本块“期限”，或者为文本块“期限”所在的段落。48.需要说明的是，目标处理规则中还可以包括提示方式，用于指示目标文本段落，是与指定文本片段对应的至少一个文本块或至少一个字符，比如上述示例中指定文本片段为“甲方”、目标处理规则包括信息一致性规则的情况下的“张三”，还是与指定文本片段对应的至少一个文本块或至少一个字符所在的段落，比如上述示例中指定文本片段为“甲方”、目标处理规则包括信息一致性规则的情况下的“张三”所在段落。49.步骤103，获取目标文本片段在文档中的位置信息。50.其中，目标文本片段在文档中的位置信息，可以为目标文本片段在文档中的坐标。51.步骤104，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。52.其中，目标文本片段的对应位置，可以为目标文本片段所在的位置，也可以为预先设置的与目标文本片段对应的其它位置，本公开对此不作限制。53.在本公开实施例中，文档的处理装置中可以预先设置对文档中的目标文本片段进行标记的方式，以及在目标文本片段的对应位置添加指定文本片段对应的提示信息的方式，从而文档的处理装置可以采用预先设置的方式，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。54.在本公开实施例中，目标处理规则中也可以包括用户根据需要设置的对文档中的目标文本片段进行标记的方式，以及在目标文本片段的对应位置添加指定文本片段对应的提示信息的方式，从而文档的处理装置可以采用用户设置的方式，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。55.其中，对文档中的目标文本片段进行标记的方式，比如可以包括：对于同一指定文本片段，对文档中对应的所有目标文本片段分别进行标记，或者对文档中对应的部分目标文本片段进行标记，标记方式比如为进行高亮或者添加下划线等。在目标文本片段的对应位置添加指定文本片段对应的提示信息的方式，比如可以包括：对于同一指定文本片段，在文档中对应的所有目标文本片段的对应位置均添加批注，批注中包括指定文本片段对应的提示信息，或者对于同一指定文本片段，在文档中对应的部分目标文本片段的对应位置均添加批注，批注中包括指定文本片段对应的提示信息等。56.通过上述方式对待处理的文档进行处理后，得到的处理后的文档，可以用于用户下载或者直接显示。比如，对于没有固定页的流式文档，文档的处理装置可以将处理后的文档存放在数据库中，并提供下载接口，以便用户通过下载接口对处理后的文档进行下载。对于页面固定的版式文档，文档的处理装置可以将处理后的文档在web(网页)前端页面上进行显示，供用户直接浏览。由此，可以满足用户的不同需求。57.由此，通过从文档中确定目标处理规则下与指定文本片段对应的目标文本片段，基于目标文本片段在文档中的位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息，可以实现对文档中需要用户重点审核的内容进行标记及提示，从而使得用户对文档进行审核时，可以参考文档中目标文本片段的标记以及对应的提示信息，从而可以节省用户进行文档审核所消耗的时间，提高文档的审核效率。且目标处理规则、指定文本片段及指定文本片段对应的提示信息可以由用户根据需要配置，从而能够满足用户的个性化需求。58.综上，本公开实施例提供的文档的处理方法，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，可以实现对文档中需要用户重点审核的内容进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。59.下面结合图2，对目标处理规则包括信息一致性规则的情况下，本公开提供的文档的处理方法中，从文档中确定目标处理规则下与指定文本片段对应的目标文本片段的过程进行进一步说明。60.图2是根据本公开第二实施例的文档的处理方法的流程示意图。如图2所示，文档的处理方法，可以包括以下步骤：61.步骤201，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息，其中，目标处理规则包括信息一致性规则。62.其中，信息一致性规则，用于指示确定指定文本片段作为目标字段名时，文档中对应相同的目标字段名对应的属性值是否一致。63.其中，步骤201的具体实现过程及原理，可以参考上述实施例的相关描述，此处不再赘述。64.步骤202，基于信息一致性规则，从文档中获取与目标字段名对应的多个目标属性值，并对多个目标属性值进行比对，以及在多个目标属性值中至少两个目标属性值不一致的情况下，基于至少两个目标属性值确定目标文本片段。65.在本公开的实施例中，与相同目标字段名对应的多个目标属性值中，至少两个目标属性值不一致的情况下，可以将该至少两个目标属性值各自确定为目标文本片段，或者将该至少两个目标属性值所在的段落各自确定为目标文本片段，或者可以通过其它方式，基于该至少两个目标属性值，确定目标文本片段，本公开对此不作限制。66.举例来说，假设待处理的文档为电子合同文档，指定文本片段包括“甲方”和“乙方”，目标处理规则包括信息一致性规则。文档的处理装置可以基于信息一致性规则，从文档中获取“甲方”对应的多个目标属性值，比如“张三”、“张四”等，并对多个目标属性值进行比对，在至少两个目标属性值不一致的情况下，可以将该至少两个目标属性值各自确定为目标文本片段，或者将该至少两个目标属性值所在的段落各自确定为目标文本片段。对于指定文本片段“乙方”，可以按照相同的方式确定与该指定文本片段对应的目标文本片段。67.在本公开的实施例中，步骤202中从文档中获取与目标字段名对应的多个目标属性值，可以通过以下方式实现：通过信息抽取模型，确定文档中多个实体为目标字段名对应的属性值的第一置信度；基于第一置信度，从多个实体中确定目标属性值。68.其中，信息抽取模型，为任意的具有信息抽取功能的神经网络模型，比如uie(universalinformationextraction，通用信息抽取)预训练模型，或者对uie预训练模型进行微调后的模型，或者其它模型，本公开对此不作限制。其中，uie预训练模型实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模，并使得不同任务间具备良好的迁移和泛化能力。69.其中，第一置信度，用于表示对应实体为目标字段名对应的属性值的概率大小。需要说明的是，对于同一实体，可以确定两个第一置信度，分别为实体的开始位置对应的第一置信度，以及实体的结束位置对应第一置信度。本公开实施例中，可以将两个第一置信度的乘积，作为该实体对应的第一置信度。70.以待处理的文档为pdf格式的版式文档为例，版式文档可以包括一个或多个文档页面，每个文档页面中可能包括一个或多个实体。在版式文档包括一个文档页面的情况下，对于每个目标字段名，可以将该文档页面输入信息抽取模型，得到该文档页面中多个实体为该目标字段名对应的属性值的第一置信度。在版式文档包括多个文档页面的情况下，对于每个目标字段名，可以将各文档页面输入信息抽取模型，得到各文档页面中至少一个实体为该目标字段名对应的属性值的第一置信度。由此，对于每个目标字段名，可以得到待处理的文档中多个实体为该目标字段名对应的属性值的第一置信度。71.另外，在版式文档中各文档页面不为文本形式的文档页面时，还可以将文档页面转换为文本形式的文档页面，再将文本形式的文档页面输入信息抽取模型中，以获取对应的文档页面中，各实体为目标字段名对应的属性值的第一置信度。72.进而对于每个目标字段名，可以基于待处理的文档中的所有实体为该目标字段名对应的属性值的第一置信度，从所有实体中确定目标属性值。比如，版式文档包括多个文档页面，可以将每个文档页面中对应的第一置信度最高的实体确定为目标属性值，或者，将所有文档页面中对应的第一置信度高于某个预设置信度阈值的实体确定为目标属性值。73.由此，可以通过信息抽取模型准确的抽取待处理的文档中相同目标字段名对应的多个目标属性值。74.在本公开的实施例中，为了减少信息抽取模型需要处理的数据量，从而快速确定文档中与相同目标字段名对应的多个目标属性值，通过信息抽取模型，确定文档中多个实体为目标字段名对应的属性值的第一置信度，还可以通过以下方式实现：从文档包括的多个文档页面中确定第一目标页面，第一目标页面中包含与目标字段名对应的属性值；将第一目标页面输入信息抽取模型，以通过信息抽取模型确定第一目标页面中多个实体为目标字段名对应的属性值的第一置信度。由此，可以使得信息抽取模型仅需要对少量的第一目标页面，确定其中各实体为目标字段名对应的属性值的第一置信度，从而能够基于第一置信度，快速确定文档中目标属性值。75.其中，第一目标页面的数量，可以为一个，也可以为多个，本公开对此不作限制。76.具体的，在第一目标页面的数量为一个的情况下，对于每个目标字段名，可以将该第一目标页面输入信息抽取模型，以通过信息抽取模型，确定该第一目标页面中多个实体为该目标字段名对应的属性值的第一置信度。在第一目标页面的数量为多个的情况下，对于每个目标字段名，可以将各第一目标页面输入信息抽取模型，以通过信息抽取模型，确定各第一目标页面中至少一个实体为该目标字段名对应的属性值的第一置信度。由此，可以得到所有的第一目标页面中多个实体为该目标字段名对应的属性值的第一置信度。77.另外，在第一目标页面不为文本形式的文档页面时，还可以将第一目标页面转换为文本形式的文档页面，再将文本形式的文档页面输入信息抽取模型中，以获取对应的第一目标页面中，各实体为目标字段名对应的属性值的第一置信度。78.在本公开实施例中，可以通过图3所示的方式，获取信息抽取模型。其中，参考图3，文档的处理装置可以包括第一预处理模块302、模型微调模块304、模型发布模块305、第一模型推理模块306。在本公开实施例中，可以采用零样本学习的方式获取信息抽取模型，即直接将uie模型等预训练模型303，通过模型发布模块305进行动态图转静态图，发布成推理服务即可，无需训练。或者，可以采用小样本学习的方式获取信息抽取模型，即先通过第一预处理模块302对多个文本形式的样本文档页面301进行预处理，将预处理后的每个样本文档页面作为一个训练样本，再通过模型微调模块304，基于预处理后得到的各训练样本对uie模型等预训练模型303进行调参，比如调节学习率、训练轮数、批数据大小等参数，以及进行模型参数的微调，得到动态图模型，并通过模型发布模块305将动态图模型转换成静态图模型，并发布成推理服务，从而通过少量的训练数据提高uie模型等预训练模型的信息抽取能力。进而可以在第一模型推理模块306中，利用发布的信息抽取模型，执行本公开实施例中确定待处理的文档中多个实体为目标字段名对应的属性值的第一置信度的步骤。79.其中，第一预处理模块302中可以包括实体标注和数据转换等处理。其中，可以使用相关技术中的标注工具比如doccano标注工具，对文本形式的样本文档页面进行序列标注，将所有的实体作为样本属性值，标注所有的实体对应的样本字段名，比如标注样本文档页面中“xx大学”对应的样本字段名为“机构”，标注样本文档页面中“xx地区”对应的样本字段名为“地名”。数据转换，比如包括将样本文档页面转换为信息抽取模型所需的输入格式等处理。80.在本公开实施例中，由于字段名和对应的属性值通常在一个页面中，则可以通过目标字段名匹配的方式，从多个文档页面中确定第一目标页面。即可以通过以下方式，从多个文档页面中确定第一目标页面：获取多个文档页面中与目标字段名匹配的候选字段名；将多个文档页面中候选字段名所在的页面，确定为第一目标页面。由此，可以快速确定多个文档页面中的第一目标页面。81.在本公开实施例中，还可以通过以下方式，从多个文档页面中确定第一目标页面：将多个文档页面输入预设的页面分类模型，从而通过页面分类模型确定多个文档页面中包含与目标字段名对应的属性值的第三置信度；基于第三置信度，从多个文档页面中确定第一目标页面。其中，可以将多个文档页面中，对应的第三置信度最高的页面确定为第一目标页面，或者将对应的第三置信度大于某个预设置信度阈值的页面确定为第一目标页面，本公开对此不作限制。82.其中，第三置信度，用于表示对应文档页面包含与目标字段名对应的属性值的概率大小。83.另外，在文档页面不为文本形式的文档页面时，还可以将文档页面转换为文本形式的文档页面，再将文本形式的页面输入页面分类模型中，以获取对应文档页面包含与目标字段名对应的属性值的第三置信度。84.步骤203，获取目标文本片段在文档中的位置信息。85.在本公开实施例中，对于docx等格式的流式文档，可以基于第三方工具包比如bayoo-docx等，按照换行符“\n”进行分段，获取文档中的至少一个自然段落，并且获取自然段落的属性信息以及自然段落中的文本块，其中，每个自然段落中可以包括一个或多个文本块。自然段落的属性信息可以包括自然段落的类别属性信息等，比如自然段落为normal(正文)类别还是heading(标题)类别。86.进一步的，可以按照预设策略，对自然段落进行过滤，得到过滤后的自然段落。其中，预设策略，比如可以包括以下几种：按照自然段落的属性信息，将除normal(正文)属性的自然段落过滤，保留normal(正文)属性的自然段落；按照自然段落的长度(即自然段落中包括的字符的数量)，将长度低于预设长度阈值的自然段落过滤，保留长度大于或等于预设长度阈值的自然段落；通过预设的正则表达式对自然段落进行抽取，保留满足某种模板的自然段落，比如抽取并保留自然段落中的以“一”、“1.”或“(1)”开头的自然段落。87.由此，可以将流式文档划分为至少一个段落，每个段落中包括至少一个文本块。88.其中，对于流式文档中的每个文本块，可以设置该文本块在文档中的坐标为(para_idx，run_idx)。其中，run_idx表示该文本块在所在段落中的索引即坐标，para_idx表示该文本块所在段落在文档中的索引即坐标。89.比如，假设流式文档中的一个段落的内容为“2.有关本合同条款的修改、补充和变更，均应以书面形式进行，经双方加盖公章或合同专用章后生效。如果本合同的约定与之前双方的约定有冲突，以本合同为准。”，该段落在文档中的第30段，即该段落在文档中的索引为30。其中，内容为“2.”的文本块为该段落中的第1个文本块，内容为“有关本合同条款的修改、补充和变更，均应以书面形式进行，经双方”的文本块为该段落中的第2个文本块，内容为“加盖公章或合同专用章”的文本块为该段落中的第3个文本块，内容为“后生效。”的文本块为该段落中的第4个文本块。90.则内容为“2.”的文本块在文档中的坐标为(30,0)；内容为“有关本合同条款的修改、补充和变更，均应以书面形式进行，经双方”的文本块在文档中的坐标为(30,1)，内容为“加盖公章或合同专用章”的文本块在文档中的坐标为(30,2)，内容为“后生效。”的文本块在文档中的坐标为(30,3)。91.相应的，在本公开的实施例中，在待处理的文档包括流式文档的情况下，基于信息一致性规则，从文档中获取与目标字段名对应的多个目标属性值，并在确定多个目标属性值中至少两个目标属性值不一致后，可以将该至少两个目标属性值各自确定为目标文本片段，或者可以将该至少两个目标属性值所在的文本块各自确定为目标文本片段，或者可以将该至少两个目标属性值所在的段落各自确定为目标文本片段。92.其中，在将该至少两个目标属性值各自确定为目标文本片段的情况下，或者将该至少两个目标属性值所在的文本块各自确定为目标文本片段的情况下，对于每个目标属性值，可以基于该目标属性值所在的文本块在所在段落中的坐标，以及所在段落在文档中的坐标，确定对应的目标文本片段在文档中的位置信息；在将该至少两个目标属性值所在的段落确定为目标文本片段的情况下，对于每个目标属性值，可以基于该目标属性值所在段落在文档中的坐标，确定对应的目标文本片段在文档中的位置信息。93.即，在待处理文档中包括流式文档时，流式文档中至少一个文档页面的内容可以划分为至少一个段落，至少一个段落包括至少一个文本块，相应的，步骤203可以通过以下方式实现：在目标文本片段包括流式文档中至少一个目标文本块的情况下，基于该至少一个目标文本块在所在段落中的坐标，以及该所在段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息；在目标文本片段包括流式文档中至少一个目标段落的情况下，基于该至少一个目标段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息。94.由此，对于流式文档，可以基于文档中的各文本块在所在段落中的坐标以及各段落在文档中的坐标，或者基于文档中的各段落在文档中的坐标，准确确定目标文本片段在文档中的位置信息。95.在本公开实施例中，对于pdf等格式的版式文档，可以基于第三方工具包比如pdfplumber等，对文档进行分页，得到每个文档页面中的文本或表格。进一步的，对于文本，可以进行句子合并，再进行段落合并，得到文档页面中的段落；对于表格，可以进行段落合并，得到文档页面中的段落。其中，表格中的一行内容可以合并为一个段落。由此，可以得到版式文档中各文档页面中的段落，每个段落中包括一个或多个字符。96.其中，对于版式文档中的每个段落，可以设置该段落在文档中的坐标，为该段落的最小外接矩形框的二维坐标，比如(left，top，width，height)。其中，left和top表示该段落的最小外接矩形框的左上顶点的坐标，width和height表示该段落的最小外接矩形框的宽度和高度。对于每个段落中的每个字符，可以设置该字符在文档中的坐标，为该字符的最小外接矩形框的二维坐标。97.相应的，在本公开的实施例中，在待处理的文档包括版式文档的情况下，基于信息一致性规则，从文档中获取与目标字段名对应的多个目标属性值，并在确定多个目标属性值中至少两个目标属性值不一致后，可以将该至少两个目标属性值各自包括的字符确定为目标文本片段，或者可以将该至少两个目标属性值所在的段落各自确定为目标文本片段。98.其中，在将该至少两个目标属性值各自包括的字符确定为目标文本片段的情况下，对于每个目标属性值，可以基于该目标属性值包括的各字符的拼接结果的最小外接矩形框在文档中的坐标，确定对应的目标文本片段在文档中的位置信息；在将该至少两个目标属性值所在的段落确定为目标文本片段的情况下，对于每个目标属性值，可以基于该目标属性值所在段落的最小外接矩形框在文档中的坐标，确定对应的目标文本片段在文档中的位置信息。99.即，在待处理的文档包括版式文档时，版式文档中至少一个文档页面的内容划分为至少一个段落，至少一个段落包括至少一个字符，相应的，步骤203可以通过以下方式实现：在目标文本片段包括版式文档中至少一个目标字符的情况下，基于该至少一个目标字符的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息；在目标文本片段包括版式文档中至少一个目标段落的情况下，基于该至少一个目标段落的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息。100.由此，对于版式文档，可以基于文档中的各字符的外接矩形框在文档中的坐标，或者基于文档中的各段落的外接矩形框在文档中的坐标，准确确定目标文本片段在文档中的位置信息。101.步骤204，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。102.其中，对于没有固定页的流式文档，文档的处理装置可以利用第三方工具包比如bayoo-docx，基于目标文本片段的位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。对于页面固定的版式文档，文档的处理装置可以将处理后的文档在web前端页面上进行显示，供用户直接浏览。由此，可以满足用户的不同需求。103.举例来说，假设待处理的文档为docx格式的电子合同文档，指定文本片段包括“甲方”和“乙方”，其中，“甲方”和“乙方”对应的提示信息均为“系统提示该主体名称前后文表述不一致，请复核”，目标处理规则包括信息一致性规则。文档的处理装置可以基于信息一致性规则，从文档包括的多个文档页面中确定第一目标页面，比如第一目标页面包括电子合同文档的首页和尾页，则可以将首页和尾页输入信息抽取模型，以通过信息抽取模型，确定首页和尾页中多个实体为“甲方”对应的属性值的第一置信度。基于第一置信度，可以将首页中对应的第一置信度最高的实体，确定为“甲方”对应的目标属性值，将尾页中对应的第一置信度最高的实体，确定为“甲方”对应的目标属性值。进而可以将首页和尾页中的“甲方”对应的两个目标属性值进行比对，在该两个目标属性值不一致的情况下，可以将该两个目标属性值各自确定为目标文本片段，并获取两个目标属性值在文档中的位置信息，基于位置信息，将两个目标属性值进行高亮，并在对应位置进行批注，批注中包括“系统提示该主体名称前后文表述不一致，请复核”提示信息。对于“乙方”，可以采用上述相似方式进行处理。104.综上，本公开实施例提供的文档的处理方法，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息，其中，目标处理规则包括信息一致性规则，基于信息一致性规则，从文档中获取与目标字段名对应的多个目标属性值，并对多个目标属性值进行比对，以及在多个目标属性值中至少两个目标属性值不一致的情况下，基于至少两个目标属性值确定目标文本片段，获取目标文本片段在文档中的位置信息，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，在目标处理规则包括信息一致性规则的情况下，可以实现对文档中相同目标字段名对应的多个目标属性值是否一致进行审核，并在不一致时进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。105.下面结合图4，对目标处理规则包括信息命中规则的情况下，本公开提供的文档的处理方法中，从文档中确定目标处理规则下与指定文本片段对应的目标文本片段的过程进行进一步说明。106.图4是根据本公开第三实施例的文档的处理方法的流程示意图。如图4所示，文档的处理方法，可以包括以下步骤：107.步骤401，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息，其中，目标处理规则包括信息命中规则。108.其中，步骤401的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。109.步骤402，基于信息命中规则，将指定文本片段与文档中多个文本片段进行比对，并在多个文本片段中存在与指定文本片段匹配的文本片段的情况下，基于与指定文本片段匹配的文本片段，确定目标文本片段。110.其中，信息命中规则，用于指示确定文档中是否包含指定文本片段。111.其中，对于流式文档，文档中的一个文本片段，可以为文档中的至少一个文本块；对于版式文档，文档中的一个文本片段，可以为文档中的至少一个字符。112.在本公开的实施例中，对于流式文档，可以将指定文本片段与文档中各文本块进行比对，并将文档中与指定文本片段匹配的文本块，确定为目标文本片段，或者，可以将文档中与指定文本片段匹配的文本块所在段落，确定为目标文本片段。对于版式文档，可以将指定文本片段与文档中各字符进行比对，并将文档中与指定文本片段匹配的相邻字符串，确定为目标文本片段，或者，可以将文档中与指定文本片段匹配的相邻字符串所在段落，确定为目标文本片段。113.举例来说，假设指定文本片段包括“甲方”和“乙方”，其中，“甲方”和“乙方”对应的提示信息均为“请确认该主体名称前后文表述是否一致”，目标处理规则包括信息命中规则。114.假设待处理的文档为docx格式的电子合同文档，则文档的处理装置可以基于信息命中规则，将“甲方”与文档中各文本块进行比对，并将文档中与“甲方”匹配的文本块，确定为目标文本片段。并且，可以基于信息命中规则，将“乙方”与文档中各文本块进行比对，并将文档中与“乙方”匹配的文本块，确定为目标文本片段。115.假设待处理的文档为pdf格式的电子合同文档，则文档的处理装置可以基于信息命中规则，将“甲方”与文档中各字符进行比对，并将文档中与“甲方”匹配的相邻字符串，确定为目标文本片段。并且，可以基于信息命中规则，将“乙方”与文档中各字符进行比对，并将文档中与“乙方”匹配的相邻字符串，确定为目标文本片段。116.步骤403，获取目标文本片段在文档中的位置信息。117.在本公开的实施例中，文档包括流式文档时，流式文档中至少一个文档页面的内容划分为至少一个段落，至少一个段落包括至少一个文本块，相应的，步骤403可以通过以下方式实现：在目标文本片段包括流式文档中至少一个目标文本块的情况下，基于至少一个目标文本块在所在段落中的坐标，以及所在段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息；在目标文本片段包括流式文档中至少一个目标段落的情况下，基于至少一个目标段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息。118.在本公开的实施例中，文档包括版式文档时，版式文档中至少一个文档页面的内容划分为至少一个段落，至少一个段落包括至少一个字符；相应的，步骤403可以通过以下方式实现：在目标文本片段包括版式文档中至少一个目标字符的情况下，基于至少一个目标字符的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息；在目标文本片段包括版式文档中至少一个目标段落的情况下，基于至少一个目标段落的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息。119.步骤404，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。120.其中，步骤404的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。121.综上，本公开实施例提供的文档的处理方法，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息，其中目标处理规则包括信息命中规则；基于信息命中规则，将指定文本片段与文档中多个文本片段进行比对，并在多个文本片段中存在与指定文本片段匹配的文本片段的情况下，基于与指定文本片段匹配的文本片段，确定目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，在目标处理规则包括信息命中规则的情况下，可以实现对文档中是否包含指定文本片段进行审核，并在包含时对指定文本片段进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。122.可以理解的是，文档的处理装置对待处理的文档进行处理后，可以提供给用户，由用户继续审核，在用户审核完成后，可能需要对文档进行签字。由于文档可能包括大量的文档页面，而需要用户签字的位置，即待签字位置，可能仅位于少量的一个或多个文档页面中，若由用户手动翻页，以确定包含待签字位置的页面，则需要耗费用户较多的时间。为了节省用户寻找包含待签字位置的页面的时间，提高用户的签字效率，本公开实施例中，还可以自动确定文档包括的多个文档页面中的包含待签字位置的页面，并跳转到该页面。下面针对上述情况，结合图5，对本公开提供的文档的处理方法进行进一步说明。123.图5是根据本公开第四实施例的文档的处理方法的流程示意图。如图5所示，文档的处理方法，可以包括以下步骤：124.步骤501，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息。125.步骤502，从文档中确定目标处理规则下与指定文本片段对应的目标文本片段。126.步骤503，获取目标文本片段在文档中的位置信息。127.步骤504，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。128.其中，步骤501-504的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。129.在本公开的实施例中，文档的处理装置可以部署在文档处理平台中。其中，参考图6，文档处理平台可以包括输入模块601、算法模块602、审阅模块603、输出模块604以及数据库605。130.其中，输入模块601可以获取用户上传的待处理的文档、用户从数据库605提供的处理规则中选择的目标处理规则，以及获取用户设置的指定文本片段及指定文本片段对应的提示信息。其中，用户上传的文档可以包括docx格式的流式文档，输入模块601可以生成与docx格式的流式文档对应的pdf格式的版式文档。算法模块602包括流式文档分段模块6021、版式文档分段模块6022、信息抽取模型6023、流式文档坐标计算模块6024、版式文档坐标计算模块6025、标记及批注模块6026，供审阅模块603使用和调配。审阅模块603包括信息命中规则模块6031和信息一致性规则模块6032。131.其中，在目标处理规则包括信息命中规则时，审阅模块603中的信息命中规则模块6031可以调用流式文档分段模块6021，对docx格式的流式文档进行段落划分，得到至少一个段落，每个段落中包括至少一个文本块，并且可以调用版式文档分段模块6022，对pdf格式的版式文档进行段落划分，得到至少一个段落，每个段落中包括至少一个字符。进而信息命中规则模块6031可以从文档中确定信息命中规则下的与指定文本片段对应的目标文本片段，并对于docx格式的流式文档，调用流式文档坐标计算模块6024获取目标文本片段在文档中的位置信息，对pdf格式的版式文档，调用版式文档坐标计算模块6025获取目标文本片段在文档中的位置信息。进而信息命中规则模块6031可以调用标记及批注模块6026，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。132.其中，在目标处理规则包括信息一致性规则时，审阅模块603中的信息一致性规则模块6032可以调用流式文档分段模块6021，对docx格式的流式文档进行段落划分，得到至少一个段落，每个段落中包括至少一个文本块，并且可以调用版式文档分段模块6022，对pdf格式的版式文档进行段落划分，得到至少一个段落，每个段落中包括至少一个字符。进而信息一致性规则模块6032可以调用信息抽取模型6023，结合信息抽取模型6023，从文档中确定信息命中规则下的与指定文本片段对应的目标文本片段，并对于docx格式的流式文档，调用流式文档坐标计算模块6024获取目标文本片段在文档中的位置信息，对pdf格式的版式文档，调用版式文档坐标计算模块6025获取目标文本片段在文档中的位置信息。进而信息一致性规则模块6032可以调用标记及批注模块6026，基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。133.对于流式文档，输出模块604，可以将处理后的docx格式的流式文档存放在数据库605中，并提供下载接口，以便用户通过下载接口对处理后的文档进行下载。对于版式文档，输出模块604可以返回页码、目标文本片段的坐标信息以及提示信息，供web前端页面进行显示，从而用户可以直接浏览处理后的文档。134.步骤505，响应于对文档的签字请求，从文档包括的多个文档页面中确定第二目标页面，第二目标页面中包含待签字位置。135.其中，第二目标页面的数量，可以为一个，也可以为多个，本公开对此不作限制。136.在本公开的实施例中，文档的处理装置可以提供交互界面，交互界面中可以包括用于触发签字请求的签字按钮，用户可以点击签字按钮，以触发对文档的签字请求。相应的，文档的处理装置响应于对文档的签字请求，可以从文档包括的多个文档页面中确定第二目标页面。137.在本公开的实施例中，可以通过以下方式，从文档包括的多个文档页面中确定第二目标页面：通过文本分类模型确定多个文档页面包含待签字位置的第二置信度；基于第二置信度，从多个文档页面中确定第二目标页面。138.其中，第二置信度，用于表示对应的文档页面中包含待签字位置的概率大小。139.其中，文本分类模型，为任意的具有文本分类功能的神经网络模型，比如ernie(enhancedrepresentationthroughknowledgeintegration，知识增强的语义表示)模型，或者其它模型，本公开对此不作限制。140.具体的，文档可以包括多个文档页面，文档的处理装置响应于对文档的签字请求，可以将各文档页面输入文本分类模型，得到各文档页面包含待签字位置的第二置信度，进而可以将各文档页面中，对应的第二置信度大于某个预设置信度阈值的页面，确定为第二目标页面。由此，可以通过文本分类模型，准确的确定文档中包含待签字位置的第二目标页面。141.另外，为了提高确定的第二目标页面的准确性，在将各文档页面输入文本分类模型之前，还可以对各文档页面进行预处理，再将预处理之后的各文档页面输入文本分类模型。其中，对文档包括的各文档页面进行预处理，可以包括：页面格式转换、数据清理、符号格式转换等。142.其中，页面格式转换，即在文档页面不为文本形式的文档页面时，将文档页面转换为文本形式的文档页面。其中，以文档为pdf等格式的版式文档为例，可以使用第三方工具包比如pdfplumber读取版式文档，得到每个文档页面中的文本字符串和页码，从而将pdf格式的版式文档中每个文档页面转换为文本形式的文档页面。或者，可以将pdf格式的版式文档中每个文档页面转换为图片，进而基于ocr(opticalcharacterrecognition，光学字符识别)技术对每个文档页面对应的图片进行识别，从而得到对应的文本形式的文档页面。143.数据清理，比如包括去除文档页面中的“\t”、“\n”、“_”等无用字符等处理。144.符号格式转换，比如包括将文档页面中的中文标点符号替换成相对应的英文标点符号，以将标点符号的格式进行统一等处理。145.需要说明的是，文档的多个文档页面，从第一页开始直到最后一页，在时间上的关系为顺序关系，而本公开实施例中，可以将按顺序关系排列的多个文档页面，同时输入文本分类模型中，并行对多个文档页面确定包含待签字位置的第二置信度。相比传统的链式结构，即将多个文档页面一个一个的输入文本分类模型，顺序对各文档页面确定包含待签字位置的第二置信度，本公开实施例中的并行对多个文档页面确定包含待签字位置的第二置信度，能够更快速的确定第二目标页面。146.在本公开的实施例中，可以通过图7所示的方式，获取文本分类模型。其中，参考图7，文档的处理装置可以包括第二预处理模块702、标注模块703、训练及发布模块704、第二模型推理模块705。在本公开实施例中，可以先通过第二预处理模块702，对文档中包含至少一个文档页面的多个样本文档701进行预处理，得到每个样本文档701包括的至少一个文本形式的文档页面，每个文本形式的文档页面为一个训练样本。再通过标注模块703对各训练样本进行标注，再通过训练及发布模块704，基于标注后的各训练样本对初始的文本分类模型进行调参，比如调节学习率、训练轮数、批数据大小等参数，以及进行模型参数的微调，得到动态图模型，再将动态图模型转换成静态图模型，并发布成推理服务。进而可以在第二模型推理模块705中，利用发布的文本信息抽取模型，执行本公开实施例中确定多个文档页面包含待签字位置的第二置信度的步骤，进而基于第二置信度，得到第二目标页面的页码。147.其中，数据预处理模块702中可以包括页面格式转换、数据清理、符号格式转换等处理。标注模块703中可以使用第三方标注工具比如doccano标注工具的文本分类标注功能，将每个预处理后得到的训练样本标注为是否包含待签字页位置，包含则标注为“1”，否则标注为“0”。148.步骤506，跳转至第二目标页面。149.在本公开的实施例中，文档的处理装置从文档包括的多个文档页面中确定第二目标页面后，可以根据第二目标页面的页码，控制web前端自动跳转至第二目标页面，从而帮助用户快速定位到第二目标页面，快速完成文档签字，节省了用户在文档中通过翻页来确定第二目标页面的时间，提高了文档的签字效率。150.综上，本公开实施例的文档的处理方法，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息；响应于对文档的签字请求，从文档包括的多个文档页面中确定第二目标页面，第二目标页面中包含待签字位置；跳转至第二目标页面。由此，可以实现对文档中需要用户重点审核的内容进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。另外，在用户需要在文档中签字时，可以帮助用户快速定位到第二目标页面，快速完成文档签字，从而节省用户在文档中通过翻页来确定第二目标页面的时间，提高文档的签字效率。151.下面结合图8，对本公开提供的文档的处理装置进行说明。152.图8是根据本公开第五实施例的文档的处理装置的结构示意图。153.如图8所示，本公开提供的文档的处理装置800，包括：第一获取模块801、第一确定模块802、第二获取模块803以及第一处理模块804。154.其中，第一获取模块801，用于获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；155.第一确定模块802，用于从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；156.第二获取模块803，用于获取目标文本片段在文档中的位置信息；157.第一处理模块804，用于基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。158.需要说明的是，本实施例提供的文档的处理装置800，可以执行前述实施例的文档的处理方法。其中，文档的处理装置800可以由软件和/或硬件实现，该文档的处理装置800可以配置在电子设备中，该电子设备可以包括但不限于终端设备、服务器等，该实施例对电子设备不作具体限定。159.需要说明的是，前述对于文档的处理方法的实施例的说明，也适用于本公开提供的文档的处理装置，此处不再赘述。160.本公开实施例提供的文档的处理装置，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，可以实现对文档中需要用户重点审核的内容进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。161.下面结合图9，对本公开提供的文档的处理装置进行进一步说明。162.图9是根据本公开第六实施例的文档的处理装置的结构示意图。163.如图9所示，本公开提供的文档的处理装置900，包括：第一获取模块901、第一确定模块902、第二获取模块903以及第一处理模块904。其中，图9中第一获取模块901、第一确定模块902、第二获取模块903以及第一处理模块904与图8中第一获取模块801、第一确定模块802、第二获取模块803以及第一处理模块804具有相同功能和结构。164.在本公开的实施中，目标处理规则包括信息一致性规则，用于指示确定指定文本片段作为目标字段名时，文档中对应相同的目标字段名的属性值是否一致；165.第一确定模块902，包括：166.第一确定子模块9021，用于基于信息一致性规则，从文档中获取与目标字段名对应的多个目标属性值，并对多个目标属性值进行比对，以及在多个目标属性值中至少两个目标属性值不一致的情况下，基于至少两个目标属性值确定目标文本片段。167.在本公开的实施中，第一确定子模块9021，包括：168.第一确定单元，用于通过信息抽取模型，确定文档中多个实体为目标字段名对应的属性值的第一置信度；169.第二确定单元，用于基于第一置信度，从多个实体中确定目标属性值。170.在本公开的实施中，第一确定单元，包括：171.第一确定子单元，用于从文档包括的多个文档页面中确定第一目标页面，第一目标页面中包含与目标字段名对应的属性值；172.第二确定子单元，用于将第一目标页面输入信息抽取模型，以通过信息抽取模型确定第一目标页面中多个实体为目标字段名对应的属性值的第一置信度。173.在本公开的实施中，目标处理规则包括信息命中规则，用于指示确定文档中是否包含指定文本片段；174.第一确定模块902，包括：175.第二确定子模块9022，用于基于信息命中规则，将指定文本片段与文档中多个文本片段进行比对，并在多个文本片段中存在与指定文本片段匹配的文本片段的情况下，基于与指定文本片段匹配的文本片段，确定目标文本片段。176.在本公开的实施中，文档包括流式文档，流式文档中至少一个文档页面的内容划分为至少一个段落，至少一个段落包括至少一个文本块；177.第二获取模块903，包括：178.第一获取子模块，用于在目标文本片段包括流式文档中至少一个目标文本块的情况下，基于至少一个目标文本块在所在段落中的坐标，以及所在段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息；179.第二获取子模块，用于在目标文本片段包括流式文档中至少一个目标段落的情况下，基于至少一个目标段落在流式文档中的坐标，获取目标文本片段在流式文档中的位置信息。180.在本公开的实施中，文档包括版式文档，版式文档中至少一个文档页面的内容划分为至少一个段落，至少一个段落包括至少一个字符；181.第二获取模块903，包括：182.第三获取子模块，用于在目标文本片段包括版式文档中至少一个目标字符的情况下，基于至少一个目标字符的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息；183.第四获取子模块，用于在目标文本片段包括版式文档中至少一个目标段落的情况下，基于至少一个目标段落的外接矩形框在文档中的坐标，获取目标文本片段在文档中的位置信息。184.在本公开的实施中，文档的处理装置900还包括：185.第二确定模块905，用于响应于对文档的签字请求，从文档包括的多个文档页面中确定第二目标页面，第二目标页面中包含待签字位置；186.第二处理模块906，用于跳转至第二目标页面。187.在本公开的实施中，第二确定模块905，包括：188.第三确定子模块，用于通过文本分类模型确定多个文档页面包含待签字位置的第二置信度；189.第四确定子模块，用于基于第二置信度，从多个文档页面中确定第二目标页面。190.需要说明的是，前述对于文档的处理方法的实施例的说明，也适用于本公开提供的文档的处理装置，此处不再赘述。191.本公开实施例提供的文档的处理装置，获取待处理的文档、目标处理规则、指定文本片段及指定文本片段对应的提示信息；从文档中确定目标处理规则下与指定文本片段对应的目标文本片段；获取目标文本片段在文档中的位置信息；基于位置信息，对文档中的目标文本片段进行标记，并在目标文本片段的对应位置添加指定文本片段对应的提示信息。由此，可以实现对文档中需要用户重点审核的内容进行标记及提示，为用户进行文档审核提供参考，从而节省用户进行文档审核所消耗的时间，提高文档的审核效率。192.基于上述实施例，本公开还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的文档的处理方法。193.基于上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开实施例公开的文档的处理方法。194.基于上述实施例，本公开还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开的文档的处理方法的步骤。195.根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。196.图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。197.如图10所示，该电子设备1000可以包括计算单元1001，其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序，来执行各种适当的动作和处理。在ram1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。198.设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。199.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文档的处理方法。例如，在一些实施例中，文档的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由计算单元1001执行时，可以执行上文描述的文档的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档的处理方法。200.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。201.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。202.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。203.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。204.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网和区块链网络。205.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtualprivateserver"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。206.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。207.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：异常事件跟踪方法及装置、计算机可读存储介质、终端与流程

文档的处理方法、装置、电子设备和存储介质与流程

相关文献

最热文献