基于RPA及AI的公文文件分发方法、装置、设备及介质与流程

2022-03-23 06:54:48 来源：中国专利 TAG：

基于rpa及ai的公文文件分发方法、装置、设备及介质
技术领域：
：1.本技术涉及流程自动化
技术领域：
：，尤其涉及一种基于rpa及ai的公文文件分发方法、装置、设备及介质。
背景技术：
：：2.机器人流程自动化(roboticprocessautomation)简称rpa，是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。3.人工智能(artificialintelligence，ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。4.rpa具有独特的优势：低代码、非侵入。低代码是说，rpa不需要很高的it水平就能操作，不懂编程的业务人员也能开发流程；非侵入是说，rpa可以模拟人的操作，不用软件系统开放接口。但是传统的rpa具有一定的局限性：只能基于固定的规则，并且应用场景受限。随着ai技术的不断发展，rpa与ai深度融合克服了传统rpa的局限，rpa ai＝handwork headwork，正在极大的改变劳动力的价值。5.目前，公文文件的分发业务通常需要公文分发手动来完成。公文分发人员需要快速从公文内容中提取出关键词，并根据关键词匹配对应的职责部门，这一处理过程较为繁琐。特别是在公文文件较多、公文内容篇幅较长的情况下，人工处理效率和准确率均较为低下。技术实现要素：6.本技术实施例提供一种基于rpa及ai的公文文件分发方法、装置、设备及介质，以解决人工处理公文文件效率和准确率低下的问题，技术方案如下：7.第一方面，本技术实施例提供了一种基于rpa及ai的公文文件分发方法，包括：8.s1、对公文文件的内容进行识别，得到关键信息，该关键信息包括公文文件所属领域信息；9.s2、根据关键信息，确定用于接收公文文件的目标部门信息；10.s3、将公文文件按照对应的目标部门信息进行分发。11.可选的，步骤s1具体包括：12.s11、调用光学字符识别ocr组件，对公文文件进行识别，得到公文内容；13.s12、根据预设公文领域关键词表，从公文内容中提取该公文所属领域的领域关键词，作为关键信息。14.可选的，步骤s12具体包括：15.s121、确定公文内容中的段落标题；16.s122、对于属于同一个段落标题的各个段落的内容，从该内容中抽取关键语句，该关键语句中的动词符合预设公文语料库的要求；17.s123、根据预设公文领域关键词表，从关键语句中提取该公文所属领域的领域关键词，作为关键信息。18.可选的，预设公文领域关键词表，通过如下方式创建：19.基于自然语言处理nlp服务中的自动短语挖掘方法autophrase，对预设公文语料库中公文所属领域的关键词进行挖掘，得到相似度大于第一设定阈值的候选领域关键词；20.抓取公文网页中的关键词，并对其中的领域关键词进行标注；21.基于标注结果，从候选领域关键词中筛选出与标注结果的相似度大于第二设定阈值的关键词，以用于形成领域关键词词表。22.可选的，步骤s2具体包括：23.s21、将关键信息作为训练完成的排序模型的输入，并从训练完成的排序模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息；24.其中，训练完成的排序模型建立了公文内容的关键信息与所属领域对应的部门信息之间的关联关系。25.可选的，排序模型具体通过如下方式训练得到：26.从历史公文内容中提取主题关键词，并确定历史公文对应的历史部门信息；27.将主题关键词和历史部门信息进行拼接，并将拼接后的关键信息作为部分训练样本；28.从经过人工修正后的历史公文的分发意见信息中，确定该历史公文对应的历史目标部门信息；29.根据历史公文与历史目标部门信息之间的对应关系，生成正样本和负样本，其中，正样本表示历史公文与历史目标部门信息为正确的对应关系，负样本表示历史公文与历史目标部门信息为错误的对应关系；30.基于部分训练样本、正样本和负样本，对初始排序模型进行训练，得到训练完成的排序模型。31.可选的，经过人工修正后的历史公文的分发意见信息中还包括：32.基于人工修改建议生成的修改例句库，以及，基于人工对公文内容的修改日志生成的短语纠错白名单。33.第二方面，本技术实施例提供了一种基于rpa及ai的公文文件分发装置，包括：34.关键信息确定模块，被配置为对公文文件的内容进行识别，得到关键信息，该关键信息包括公文文件所属领域信息；35.目标部门信息确定模块，被配置为根据关键信息，确定用于接收公文文件的目标部门信息；36.公文文件分发模块，被配置为将公文文件按照对应的目标部门信息进行分发。37.可选的，关键信息确定模块，包括：38.公文内容识别单元，被配置为调用光学字符识别ocr组件，对公文文件进行识别，得到公文内容；39.关键信息确定单元，被配置为根据预设公文领域关键词表，从公文内容中提取该公文所属领域的领域关键词，作为关键信息。40.可选的，关键信息确定单元，具体被配置为：41.确定公文内容中的段落标题；42.对于属于同一个段落标题的各个段落的内容，从该内容中抽取关键语句，关键语句中的动词符合预设公文语料库的要求；43.根据预设公文领域关键词表，从关键语句中提取该公文所属领域的领域关键词，作为关键信息。44.可选的，预设公文领域关键词表，通过如下方式创建：45.基于自然语言处理nlp服务中的自动短语挖掘方法autophrase，对预设公文语料库中公文所属领域的关键词进行挖掘，得到相似度大于第一设定阈值的候选领域关键词；46.抓取公文网页中的关键词，并对其中的领域关键词进行标注；47.基于标注结果，从候选领域关键词中筛选出与标注结果的相似度大于第二设定阈值的关键词，以用于形成领域关键词词表。48.可选的，目标部门信息确定模块，具体被配置为：49.将关键信息作为训练完成的排序模型的输入，并从训练完成的排序模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息；50.其中，训练完成的排序模型建立了公文内容的关键信息与所属领域对应的部门信息之间的关联关系。51.可选的，排序模型具体通过如下方式训练得到：52.从历史公文内容中提取主题关键词，并确定历史公文对应的历史部门信息；53.将主题关键词和历史部门信息进行拼接，并将拼接后的关键信息作为部分训练样本；54.从经过人工修正后的历史公文的分发意见信息中，确定该历史公文对应的历史目标部门信息；55.根据历史公文与历史目标部门信息之间的对应关系，生成正样本和负样本，其中，正样本表示历史公文与历史目标部门信息为正确的对应关系，负样本表示历史公文与历史目标部门信息为错误的对应关系；56.基于部分训练样本、正样本和负样本，对初始排序模型进行训练，得到训练完成的排序模型。57.可选的，经过人工修正后的历史公文的分发意见信息中还包括：58.基于人工修改建议生成的修改例句库，以及，基于人工对公文内容的修改日志生成的短语纠错白名单。59.第三方面，本技术实施例提供了一种用于公文文件分发的设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。60.第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。61.本技术实施例提供的技术方案，rpa机器人通过对公文内容中的关键信息进行识别，可根据识别出的关键信息，对待分发公文文件对应的目标部门信息进行确定，从而可将公文文件发送到对应的目标部门。通过采用rpa机器人代替人工操作的方式，节省了工作人员的时间，有效提高了公文文件的分发效率。62.上述技术方案中的优点或有益效果至少包括：63.1、通过采用rpa机器人代替人工对公文文件的内容进行识别，并确定该公文文件待送达的目标部门，节省了工作人员的时间，有效提高了公文文件的分发效率。64.2、通过将rpa平台与ai平台相结合，解决了相关技术在公文内容识别过程中费时费力的问题，提高了公文内容识别的效率和准确率。65.3、在分发公文文件的过程中，rpa机器人基于已训练完成的排序模型，可快速、准确地得到待分发公文文件的目标部门信息，相对于相关技术中人工确定公文文件的目标部门的方式，本技术实施例这样设置，节省了工作人员的时间，有效提高了公文文件的分发效率。66.4、通过创建预设领域关键词词表，可基于该词表得到更加准确的公文内容的关键信息，从而使得排序模型能够基于该关键信息进行更加准确地预测，以得到与公文内容相关，且更加精准的目标部门信息。67.上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本技术进一步的方面、实施方式和特征将会是容易明白的。附图说明68.在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本技术公开的一些实施方式，而不应将其视为是对本技术范围的限制。69.图1是本技术实施例一提供的一种基于rpa及ai的公文文件分发方法的流程图；70.图2a是本技术实施例二提供的一种排序模型的训练方法的流程图；71.图2b是本技术实施例二提供的一种排序模型的训练方法的原理图；72.图2c是本技术实施例二提供的一种公文分发意见提示组件的显示界面效果图；73.图2d是本技术实施例二提供的一种短语纠错白名单的生成原理图；74.图3是本技术实施例三提供的一种基于rpa及ai的公文文件分发方法的流程图；75.图4是本技术实施例四提供的一种基于rpa及ai的公文文件分发装置的结构框图；76.图5是本技术实施例五提供的一种用于公文文件分发的设备的结构框图。具体实施方式77.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能理解为对本技术的限制。78.在本技术的描述中，术语“关键信息”指公文内容中能够反映公文内容的主题、公文内容的语义或者公文所属领域的重要信息。79.在本技术的描述中，术语“目标部门信息”指公文文件将要送达的部门的名称信息，例如财务部、科技部、人力资源部或者检察院等，“目标部门信息”还包括该部门中接收公文文件的人员信息。80.在本技术的描述中，术语“ocr”是指光学字符识别(opticalcharacterrecognition)，具体是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。81.在本技术的描述中，“预设公文语料库”指经科学取样和加工，例如经过自动分词、词语标注等处理的大规模电子文本库，其中存放的是在公文语言在实际使用中真实出现过的语言材料。82.在本技术的描述中，“预设公文领域关键词表”指对“预设公文语料库”中公文所属领域的关键词采用有监督的方式进行挖掘，得到的与标注样本的相似度大于设定阈值的关键词，所有得到的这些关键词的集合可作为领域关键词词表。其中，“有监督”学习是指使用一个先前已知的属性或者目标来进行模型的训练。本技术实施例中，是通过对抓取到的公文网页中的关键词进行标注，并将标注后的关键词作为数据挖掘过程中的标注样本。83.在本技术的描述中，术语“nlp”指自然语言处理(naturallanguageprocessing)，具体是研究人与计算机交互的语言问题的一门学科。本技术实施例中，将其应用于预设公文领域关键词表的创建过程中。84.在本技术的描述中，术语“自动短语挖掘方法”(autophrase)指的是词汇和短语的挖掘，是一个统称，短语挖掘输入的是领域语料，输出的是领域短语。其中，领域语料是大量文章融合在一起组成的。本技术实施例中，挖掘的是公文领域短语。85.在本技术的描述中，“排序模型”是通过有监督学习的方式训练完成的，训练完成的排序模型建立了公文内容的关键信息与所属领域对应的部门信息之间的关联关系。86.在本技术的描述中，“修改例句库”包含有大量经过人工修改之后得到的公文例句。87.在本技术的描述中，“分发意见信息”指人工对公文文件的分发操作给出的提示或建议信息，其中包括公文文件分发到的部门名称、部门接口人等。88.在本技术的描述中，“短语纠错白名单”中包含有大量经过人工修正之后的公文内容所属领域对应的目标部门信息。89.参照下面的描述和附图，将清楚本技术的实施例的这些和其他方面。在这些描述和附图中，具体公开了本技术的实施例中的一些特定实施方式，来表示实施本技术的实施例的原理的一些方式，但是应当理解，本技术的实施例的范围不受此限制。相反，本技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。90.以下结合附图对本技术实施例的基于rpa及ai的公文文件分发方法、装置、设备及介质进行详细介绍。91.实施例一92.图1是本技术实施例一提供的一种基于rpa及ai的公文文件分发方法的流程图，该方法可应用于公文文件分发等应用场景下。本实施例的技术方案是通过rpa机器人来执行的，该rpa机器人可搭载在uibotcreator平台上，该uibotcreator平台是一款专业强大的机器人生产工具，为机器人提供良好载体。本实施例中，可以设置rpa机器人每天定时启动，登录公文处理系统，并获取待分发的公文文件，避免造成公文文件积压的情况，达到提高公文处理效率的效果。如图1所示，本实施例提供的方法包括：93.s110、对公文文件的内容进行识别，得到关键信息。94.其中，对于提交到公文处理系统中的公文文件，该公文文件通常以pdf(portabledocumentformat，可携带文档格式)或者影印文件的形式存在。本实施例中，rpa机器人在对公文文件进行识别时，可结合人工智能(artificialintelligence，ai)技术中的ocr组件扫描公文文件，得到公文文件的内容。其中，该公文文件的内容中包括公文文件中的签章内容。95.本实施例中，具有签章、图片识别功能的ai平台为uibotmage平台，该uibotmage平台是一款主要为rpa机器人开发者提供ai能力支持的工具型产品。该平台与rpa机器人搭载的uibotcreator平台均依赖于uibot平台上，uibot平台是流程自动化专家，是一款面向多类需求、为业务全流程提供智能机器人服务的平台。该ai平台中集成有预先配置完成的签章识别模板。利用该签章识别模板，可执行签章文字识别操作、印章颜色识别操作、签章形状识别操作和签章位置识别等操作。本实施例主要用到的是签章文字识别操作，以得到签章文字中的公文文件的组织机构名称。96.可选的，可通过一个同时登录rpa平台以及ai平台的目标账号，即uibot帐号，使得rpa机器人所搭载的平台与ai平台相结合。在使用该目标账号同时登录了rpa机器人所搭载的平台以及ai平台后，rpa机器人所搭载的平台即与ai平台建立了通信连接，也即rpa机器人可以直接调用ai平台已发布的ocr识别功能对公文文件进行识别。这样设置，相对于相关技术中先在ai平台采用ocr功能对公文文件进行识别，然后再采用人工的方式将识别后的数据导出，再通过人工导入到rpa平台的方式，本实施例通过将rpa平台与ai平台相结合，解决了相关技术在公文内容识别过程中费时费力的问题，提高了公文内容识别的效率。97.本实施例中，rpa机器人在得到公文文件的内容后，可从该内容中提取出关键信息。其中，关键信息指公文内容中能够反映公文内容的主题、公文内容的语义或者公文所属领域的重要信息。98.示例性的，rpa机器人可将公文文件的内容与预设公文语料库进行匹配，并从公文内容中提取出与预设公文语料库中的语料的相似度大于设定阈值的关键词。其中，预设公文语料库指经科学取样和加工，例如经过自动分词、词语标注等处理的大规模电子文本库，其中存放的是在公文语言在实际使用中真实出现过的语言材料。99.示例性的，rpa机器人还可将公文文件的内容与预设公文领域关键词表进行匹配，从公文内容中提取该公文所属领域的领域关键词，作为关键信息。其中，预设公文领域关键词表指对预设公文语料库中公文所属领域的关键词采用有监督的方式进行挖掘，得到的与标注样本的相似度大于设定阈值的关键词，所有得到的这些关键词的集合可作为领域关键词词表。其中，“有监督”学习是指使用一个先前已知的属性或者目标来指导学习过程。本技术实施例中，是通过对抓取到的公文网页中的关键词进行标注，并将标注后的关键词作为数据挖掘过程中的标注样本。100.本技术实施例的目的是为了将公文文件分发到对应的负责部门。由于不同的部门对应的领域不同，本实施例通过创建公文领域关键词表，可根据公文领域关键词表，从待分发的公文内容中提取出领域关键词，作为关键信息。基于关键信息与部门领域之间的对应关系，rpa机器人可确定出用于接收该公文文件的目标部门，从而可将该公文文件分发到对应的目标部门。101.s120、根据关键信息，确定用于接收公文文件的目标部门信息。102.其中，目标部门信息指公文文件将要送达的部门的名称信息，例如财务部、科技部、人力资源部或者检察院等，目标部门信息还包括该部门中接收公文文件的人员信息。103.示例性的，rpa机器人可通过nlp服务中的语义识别方法，理解公文内容的关键信息的所属领域，例如，如果关键信息是“人员编制”，则对应的领域是“人力资源领域”；如果关键信息是“责任追究”、“监督问责”，则对应的领域可包括“监察领域”、“审计领域”或者“法律领域”。由于不同领域对应的组织机构不同，rpa机器人可通过公文文件所属领域确定与对应的目标部门，例如，如果公文文件所属领域是“人力资源领域”，则对应的部门是“人力资源部”，即如果得到关键信息是“人员编制”，则对应的目标部门信息包括“人力资源部”；如果公文文件所属领域是“监察领域”，则对应的部门是“纪检监察部”；如果公文文件所属领域是“审计领域”，则对应的部门是“审计部”；如果公文文件所属领域是“法律领域”，则对应的部门是法务部，即如果得到的关键信息是“责任追究”、“监督问责”，则对应的目标部位信息包括“纪检监察部”、“审计与法务部”。104.可选的，为了更加快速、准确地得到公文文件对应的目标部门信息，本技术实施例采用了nlp服务中的排序模型对公文文件的目标部门信息进行确定。具体的，可通过采用有监督的方式对初始排序模型进行训练，从而可使得训练完成的排序模型建立公文内容的关键信息与所属领域对应的部门信息之间的关联关系。在利用该模型对公文文件的目标部门信息进行确定时，可将公文内容的关键信息作为训练完成的排序模型的输入，并从模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息。105.s130、将公文文件按照对应的目标部门信息进行分发。106.本实施例中，公文文件的分发操作是由rpa机器人来执行的。rpa机器人可基于公文内容的关键信息与公文所属的部门领域信息之间的对应关系将不同的公文文件分发到对应的目标部门，这样设置代替了人工对公文文件的操作，节省了工作人员的时间。107.示例性的，对于同一份公文文件，如果确定出该公文文件对应的目标部门只有一个，rpa机器人则将该公文文件发送到对应的目标部门；如果确定出该公文文件对应的目标部门有多个，rpa机器人则将该公文文件同时发送到对应的多个目标部门。108.本实施例提供的技术方案，rpa机器人通过对公文内容中的关键信息进行识别，可根据识别出的关键信息，对待分发公文文件对应的目标部门进行确定，从而可将公文文件发送到对应的目标部门。通过采用rpa机器人代替人工操作的方式，可节省工作人员的时间，特别是在待分发的公文文件数量较多的情况下，达到了提高公文文件的分发效率的效果。109.为了更加准确地得到公文文件对应的目标部门信息，本技术实施例采用了nlp服务中的排序模型对公文文件的目标部门信息进行确定。下面，分别从排序模型的训练阶段和应用阶段，对公文文件对应的目标部门信息的确定过程进行详细介绍。110.实施例二111.图2a是本技术实施例二提供的一种排序模型的训练方法的流程图，该方法可通过排序模型的训练装置来执行，该装置可通过软件和/或硬件的方式来实现，如图2a所示，该方法包括：112.s210、从历史公文内容中提取主题关键词，并确定历史公文对应的历史部门信息。113.其中，历史公文是指当前时刻之前已经分发完成的公文文件。公文文件通常采用通用的公文格式，例如，正文部分会存在对应的标题，包括一级标题、二级标题等，不同标题存在对应的标题标识。114.示例性的，可根据历史公文内容中的标题标识，从历史公文内容中提取出标题信息作为主题关键词，或者也可采用文本排序算法(textrank)从历史公文内容中提取关键词。115.示例性的，为了提高模型训练的效率，节省计算量，历史公文可先经过预训练模型进行预处理，得到其中的关键词信息，然后，可从得到的关键词信息中提取出公文内容的主题关键词。其中，预训练模型可基于大规模无标注公文文件训练得到，或者可基于数据增强技术对小规模有标注的公文文件进行数据增强处理后得到。其中，数据增强技术包括对公文文件的关键信息进行替换，或者将所有关键信息进行拼接。116.具体的，预训练模型可以为bert(bidirectionalencoderrepresentationsfromtransformers，双向编码器模型)、xlnet(通用的自回归预训练模型)。通过采用预训练模型，可使得排序模型基于一个更好的初始状态进行学习，实现更快的收敛速度，并且能够达到更好的性能。117.本实施例中，由于历史公文已经得到了分发，因此，可基于历史分发记录确定历史公文对应的历史部门信息，例如部门名称、部门接口人等。示例性的，可采用人工的方式确定历史公文对应的历史部门信息，并将其作为部分关键词，或者也可以使用关键词提取模型，例如textrank，从历史公文内容中提取出关键词。这些关键词能够反映出历史公文内容的所属领域信息。118.s220、将主题关键词和历史部门信息进行拼接，并将拼接后的关键信息作为部分训练样本。119.本实施例中，将主题关键词和历史部门信息进行拼接是指将主题关键词和历史部门信息进行组合，这样设置，可以使得组合后的关键信息中包含有能够反映公文所属领域的关键词，以及该关键词对应的公文部门，即组合后的关键信息相当于对历史公文内容进行了与公文领域相关的关键信息的标注，标注的历史公文内容可作为模型的部分训练样本，用于对模型进行训练。120.具体的，图2b是本技术实施例二提供的一种排序模型的训练方法的原理图。如图2b所示，从历史公文内容中，可提取出“人员编制、责任追究、信息系统和制度指定”等主题关键词，通过将主题关键词与该历史公文分发到的部门信息进行拼接，可将拼接后的关键信息作为部分训练样本，以用于对排序模型进行训练。121.s230、从经过人工修正后的历史公文的分发意见信息中，确定该历史公文对应的历史目标部门信息。122.其中，历史公文的分发意见信息指人工对公文文件的分发操作给出的提示信息或建议信息，其中包括公文文件分发到的部门名称、部门接口人等。123.本实施例中，历史公文的分发意见信息可通过公文处理系统中的分发提示组件得到。图2c是本技术实施例二提供的一种公文分发意见提示组件的显示界面效果图。如图2c所示，对于待分发的公文文件，通过将该公文文件导入该公文分发提示组件中，可在该组件的显示界面展现该公文文件对应的关键信息，例如待送达的部门名称，部门接口人等。如果显示界面上的用于采纳该关键信息的“采纳按键”被触发，则在该显示界面上的“批分意见”栏里将显示该公文文件的关键信息。相关工作人员可对“批分意见”栏”里的分发意见进行修正。此外，在该显示界面上，工作人员还可通过触发“查询”按键，查找某个部门对应的其他相关部门。通过如图2c所示的公文分发意见提示组件，可得到公务处理系统针对该公文文件的初步的分发意见信息。通过人工的方式对该初步的分发意见信息进行修正，可得到该公文文件对应的准确的分发意见信息，其中，该分发意见信息中包括公文对应的目标部门信息，该目标部门信息可作为模型的训练样本。124.进一步的，对于经过人工修正后的历史公文的分发意见信息，可基于人工修改建议生成的修改例句库，以及，基于人工对公文内容的修改日志生成的短语纠错白名单。125.具体的，图2d是本技术实施例二提供的一种短语纠错白名单的生成原理图。如图2d所示，对于经过人工直接修改并采纳的分发意见信息，可基于人工修改痕迹，生成修改例句库，该修改例句库中包含有人工对公文内容修正后的领域部门信息等内容。如图2d所示，对于经过人工直接修改但并未被采纳的分发意见信息，可根据修改记录，即核稿行为日志，确定修改前后的短语的相似度，并将相似度大于设定相似度阈值的短语均作为白名单中的短语，从而得到短语纠错白名单。126.s240、根据历史公文与历史目标部门信息之间的对应关系，生成正样本和负样本。127.其中，正样本表示历史公文与历史目标部门信息为正确的对应关系，负样本表示历史公文与历史目标部门信息为错误的对应关系。128.具体的，如果历史公文与其待送达的部门之间正确的对应关系是：公文1与阅处部门a对应，公文2与阅处部门b对应，公文3与阅处部门c对应，那么，如图2b所示，正样本中包括标注有阅处部门a的公文1、标注有阅处部门b的公文2，以及标注有阅处部门c的公文3。负样本中包括标注有阅处部门b的公文1、标注有阅处部门c的公文2，以及标注有阅处部门a的公文3。129.s250、基于部分训练样本、正样本和负样本，对初始排序模型进行训练，得到训练完成的排序模型。130.其中，排序模型的训练过程为：每个批次的训练样本送入模型后，通过前向传播输出预测值，然后通过损失函数会计算出预测值和真实值之间的差异值，也就是损失值。得到损失值之后，模型通过反向传播去更新各个参数，来降低真实值与预测值之间的损失，使得模型生成的预测值往真实值方向靠拢，直到损失函数的值达到收敛，模型训练完成。131.具体的，如图2b所示，在训练过程中，排序模型的输出是不同公文对应的目标部门信息的百分比，即权重值，通过采用上述训练过程，当损失函数的值达到收敛时，各公文对应的目标部门信息的百分比均达到设定阈值，此时，排序模型训练完成。132.进一步的，随着训练样本的不断更新，训练完成的排序模型可定期重新进行训练，从而可有效提升排序模型的性能。133.本实施例中，通过利用历史公文内容以及经过人工修正后的历史公文的分发意见信息对排序模型进行训练，可使得训练完成的排序模型建立公文内容的关键信息与其所属领域对应的部门信息之间的关联关系。rpa机器人在分发公文文件的过程中，基于该训练完成的排序模型，可快速、准确地得到待分发公文文件的目标部门信息，相对于相关技术中通过人工确定公文文件的目标部门的方式，本实施例这样设置，节省了工作人员的时间，有效提高了公文文件的分发效率。134.下面，对排序模型在公文文件分发过程中的具体应用进行详细介绍。135.实施例三136.图3是本技术实施例三提供的一种基于rpa及ai的公文文件分发方法的流程图，本实施例在上述实施例的基础上，对公文内容关键信息的确定过程进行了细化，并将“根据关键信息，确定用于接收公文文件的目标部门信息”细化为“将关键信息作为训练完成的排序模型的输入，并从训练完成的排序模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息”。如图3所示，该方法包括：137.s310、调用光学字符识别ocr组件，对公文文件进行识别，得到公文内容。138.s320、确定公文内容中的段落标题。139.其中，公文文件通常采用通用的公文格式，例如，正文部分会存在对应的标题，包括一级标题、二级标题等，不同标题存在对应的标题标识。本实施例中，rpa机器人可基于标题标识，可确定出公文内容中的段落标题。140.s330、对于属于同一个段落标题的各个段落的内容，从该内容中抽取关键语句。141.其中，关键语句中的动词符合预设公文语料库的要求。例如，关键语句可以为：从符合公文语料库的要求的动词开始，到该动词所在语句的句号结束。具体的，如果公文内容为“从即日起号召各个单位统筹建设监管工作平台。”，在这一句话，如果“统筹建设”是符合公文语料库的要求的动词，则关键语句是“统筹建设监管工作平台”。142.s340、根据预设公文领域关键词表，从关键语句中提取该公文所属领域的领域关键词，作为关键信息。143.其中，预设公文领域关键词表，可通过如下方式创建：144.基于自然语言处理nlp服务中的自动短语挖掘方法autophrase，对预设公文语料库中公文所属领域的关键词进行挖掘，得到相似度大于第一设定阈值的候选领域关键词；145.抓取公文网页中的关键词，并对其中的领域关键词进行标注；146.基于标注结果，从候选领域关键词中筛选出与标注结果的相似度大于第二设定阈值的关键词，以用于形成领域关键词词表。其中，第二设定阈值小于第一设定阈值。147.本实施例中，预设领域关键词词表的创建结合了多种渠道得来的领域关键词信息，使得预设关键词词表中能够包含更加全面、且和公文内容所属领域相关的领域关键词。通过预设领域关键词词表，可使得待分发公文内容的关键信息的确定更加准确，从而可使得排序模型能够基于该关键信息进行更加准确地预测，以得到与公文内容相关，且更加精准的目标部门信息。148.具体的，预设领域关键词词表中包含有与公文内容所属领域相关的信息，例如“监管、抽查、建设、人力、法律、审计、规划、财政、经营和管理”等。具体的，对于关键语句是“统筹建设监管工作平台”，则基于预设领域关键词词表，从该关键语句中提取的领域关键词为“监管”，该关键词对应的部门为“纪检监察部”。149.s350、将关键信息作为训练完成的排序模型的输入，并从训练完成的排序模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息。150.其中，排序模型的训练过程可参照上述实施例的说明，此处不再赘述。151.s360、将公文文件按照对应的目标部门信息进行分发。152.本实施例中，rpa机器人可通过触发公文处理系统操作界面上的“分发”按键，可将待分发的公文文件发送到对应的目标部门。或者，rpa机器人可以通过邮件的方式，将公文文件发送到目标对应的指定邮箱中。153.本实施提供的技术方案，通过基于自动短语挖掘方法对预设公文语料库中公文所属领域的关键词进行挖掘，并通过抓取公文网页中的关键词，对其中的领域关键词进行了人工标注。基于上述多种渠道得来的领域关键词信息，可创建出领域关键词词表，这样可使得预设关键词词表中能够包含更加全面、且和公文内容所属领域相关的领域关键词。通过预设领域关键词词表，可使得待分发的公文内容的关键信息的确定更加准确，从而可使得排序模型能够基于该关键信息进行更加准确地预测，以得到与公文内容相关，且更加精准的目标部门信息。154.实施例四155.图4是本技术实施例四提供的一种基于rpa及ai的公文文件分发装置的结构框图，如图4所示，该装置包括：关键信息确定模块410、目标部门信息确定模块420和公文文件分发模块430，其中，156.关键信息确定模块410，被配置为对公文文件的内容进行识别，得到关键信息，该关键信息包括公文文件所属领域信息；157.目标部门信息确定模块420，被配置为根据关键信息，确定用于接收公文文件的目标部门信息；158.公文文件分发模块430，被配置为将公文文件按照对应的目标部门信息进行分发。159.可选的，关键信息确定模块410，包括：160.公文内容识别单元，被配置为调用光学字符识别ocr组件，对公文文件进行识别，得到公文内容；161.关键信息确定单元，被配置为根据预设公文领域关键词表，从公文内容中提取该公文所属领域的领域关键词，作为关键信息。162.可选的，关键信息确定单元，具体被配置为：163.确定公文内容中的段落标题；164.对于属于同一个段落标题的各个段落的内容，从该内容中抽取关键语句，关键语句中的动词符合预设公文语料库的要求；165.根据预设公文领域关键词表，从关键语句中提取该公文所属领域的领域关键词，作为关键信息。166.可选的，预设公文领域关键词表，通过如下方式创建：167.基于自然语言处理nlp服务中的自动短语挖掘方法autophrase，对预设公文语料库中公文所属领域的关键词进行挖掘，得到相似度大于第一设定阈值的候选领域关键词；168.抓取公文网页中的关键词，并对其中的领域关键词进行标注；169.基于标注结果，从候选领域关键词中筛选出与标注结果的相似度大于第二设定阈值的关键词，以用于形成领域关键词词表。170.可选的，目标部门信息确定模块420，具体被配置为：171.将关键信息作为训练完成的排序模型的输入，并从训练完成的排序模型的输出中，选择权重值最大的公文部门信息作为公文文件对应的目标部门信息；172.其中，训练完成的排序模型建立了公文内容的关键信息与所属领域对应的部门信息之间的关联关系。173.可选的，排序模型具体通过如下方式训练得到：174.从历史公文内容中提取主题关键词，并确定历史公文对应的历史部门信息；175.将主题关键词和历史部门信息进行拼接，并将拼接后的关键信息作为部分训练样本；176.从经过人工修正后的历史公文的分发意见信息中，确定该历史公文对应的历史目标部门信息；177.根据历史公文与历史目标部门信息之间的对应关系，生成正样本和负样本，其中，正样本表示历史公文与历史目标部门信息为正确的对应关系，负样本表示历史公文与历史目标部门信息为错误的对应关系；178.基于部分训练样本、正样本和负样本，对初始排序模型进行训练，得到训练完成的排序模型。179.可选的，经过人工修正后的历史公文的分发意见信息中还包括：180.基于人工修改建议生成的修改例句库，以及，基于人工对公文内容的修改日志生成的短语纠错白名单。181.本技术实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。182.实施例五183.图5是本技术实施例五提供的一种用于公文文件分发的设备的结构框图。如图5所示，该设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的基于rpa及ai的公文文件分发方法。存储器910和处理器920的数量可以为一个或多个。184.该设备还包括：185.通信接口930，用于与外界设备进行通信，进行数据交互传输。186.如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(industrystandardarchitecture，isa)总线、外部设备互连(peripheralcomponentinterconnect，pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture，eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。187.可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。188.本技术实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本技术实施例中提供的方法。189.本技术实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本技术实施例提供的方法。190.本技术实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。191.应理解的是，上述处理器可以是中央处理器(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advancedriscmachines，arm)架构的处理器。192.进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存。易失性存储器可以包括随机存取存储器(randomaccessmemory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用。例如，静态随机存取存储器(staticram，sram)、动态随机存取存储器(dynamicrandomaccessmemory，dram)、同步动态随机存取存储器(synchronousdram，sdram)、双倍数据速率同步动态随机存取存储器(doubledatadatesdram，ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram，esdram)、同步连接动态随机存取存储器(synchlinkdram，sldram)和直接内存总线随机存取存储器(directrambusram，drram)。193.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本技术的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。194.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本技术的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。195.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。196.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。197.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。198.应理解的是，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。199.此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。200.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本
技术领域：
：的技术人员在本技术揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种原生图数据存储方法和系统与流程

基于RPA及AI的公文文件分发方法、装置、设备及介质与流程

相关文献

最热文献