一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文件检查方法、设备及存储介质与流程

2022-03-30 10:02:54 来源:中国专利 TAG:


1.本技术属于计算机领域,具体涉及一种文件检查方法、设备及存储介质。


背景技术:

2.为了保证各项社会业务活动的正常进行,通常需要编制对应的文件,例如,政府的招标文件、公司的交易文件等。但是,如果文件中存在漏洞或者违规条款,就会导致业务活动失效,甚至违法违规,因此,对文件进行检查是必不可少的。
3.传统的文件检查方法,包括:人工对文件进行合法合规性检查。
4.然而,面对成百上千份文件,如果依靠人工形式对文件进行检查,工作量庞大,会导致文件检查效率较低的问题。


技术实现要素:

5.本技术提供了文本检查方法、设备及存储介质,可以解决面对成百上千份文件,依靠人工形式对文件进行检查,工作量庞大,导致文件检查效率较低的问题。本技术提供如下技术方案:
6.第一方面,提供了一种文件检查方法,包括:获取样本数据;使用所述样本数据训练得到文件检查模型,所述文件检查模型包括条款匹配子模型、相似度对比子模型、敏感词子模型以及融合子模型;获取预设负面清单、预设文件模板以及待检查文件;将所述预设文件模板、所述预设负面清单和所述待检查文件输入所述文件检查模型,得到文件检查结果。
7.可选地,所述对比结果包括所述预设文件模板与所述待检查文件的差异行、纠错行以及对比记录。
8.可选地,所述相似度对比子模型对所述待检查文件和所述预设文件模板进行相似度对比,包括:对所述预设文件模板和所述待检查文件进行逐行对比,得到所述预设文件模板和所述待检查文件之间的差异行以及差异记录;获取预设相似度值;从所述预设文件模板和所述待检查文件之间差异行中,确定相似度值大于或等于所述预设相似度值的差异行,得到所述纠错行;基于所述纠错行生成所述对比记录。
9.可选地,所述基于所述纠错行生成所述对比记录,包括:对所述纠错行进行分词对比,得到分词对比结果;基于所述分词对比结果对所述纠错行进行纠错,得到纠错记录;基于所述纠错记录和所述差异记录,得到对比记录。
10.可选地,所述对所述预设文件模板和所述待检查文件进行逐行对比之前,还包括:将所述预设文件模板和所述待检查文件按照章节标题进行拆分,得到对应的章节标题合集和段落合集,所述章节标题合集包括至少一个章节标识和每个章节标识对应的章节文本,段落合集包括每个章节标识对应的至少一个文本段落;所述对所述预设文件模板和所述待检查文件进行逐行对比,包括:对于所述章节标题合集中章节标识相同的章节文本,将所述待检查文件的章节文本与所述待检查文件的章节文本进行对比,得到章节标题差异行以及章节标题差异记录;对于所述段落合集中章节标识相同的文本段落,将所述待检查文件的
文本段落与所述待检查文件的文本段落进行对比,得到段落差异行以及段落差异记录。
11.可选地,所述敏感词子模型对所述待检查文件进行敏感词检查,得到敏感词检查结果,包括:获取敏感词词库;将所述待检查文件与所述敏感词词库进行文本对比,得到敏感词检查结果。
12.可选地,所述融合子模型对所述条款匹配结果、所述敏感词检查结果以及所述对比结果进行融合,得到文件检查结果,包括:将所述条款匹配结果、所述敏感词检查结果以及所述对比结果按照预设模板拼接,得到所述文件检查结果。
13.可选地,所述使用所述样本数据训练得到文件检查模型,包括:获取第一样本数据,所述第一样本数据包括第一样本文件、样本负面清单和所述第一样本文件中与所述样本负面清单相匹配的目标文本;使用所述第一样本数据对预设正则表达式进行训练,得到所述条款匹配子模型,所述预设正则表达式用于从所述第一样本文件中定位与所述样本负面清单相匹配的文本;获取第二样本数据,所述第二样本数据包括样本文件模板、第二样本文件和所述样本文件模板和所述第二样本文件之间的相似度比较结果;使用所述第二样本数据对预设的相似度计算模型进行训练,得到所述相似度对比子模型,所述相似度计算模型用于计算所述样本文件模板和所述第二样本文件之间的相似度;获取第三样本数据,所述第三样本数据包括第三样本文件、样本敏感词词库、和所述第三样本文件中与所述样本敏感词词库相匹配的敏感词;使用所述第三样本数据对预设的文本对比模型进行训练,得到所述敏感词子模型;获取预设模板;基于所述预设模板确定所述融合子模型;基于所述条款匹配子模型、所述敏感词子模型、所述相似度对比子模型以及所述融合子模型生成所述文件检查模型。
14.第二方面,提供一种电子设备,包括存储器、控制器以及存储在存储器上并可在控制器上运行的计算机程序,所述控制器执行所述计算机程序时实现上述文件检查方法的步骤。
15.第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现第一方面提供的文件检查方法。
16.本技术的有益效果至少包括:获取样本数据;使用样本数据训练得到文件检查模型;获取预设负面清单、预设文件模板以及待检查文件;将预设文件模板、预设负面清单和待检查文件输入文件检查模型,得到文件检查结果;可以解决面对成百上千份文件,依靠人工对文件进行检查,工作量庞大,导致文件检查效率较低的问题,提高文件检查的效率。通过样本数据训练得到的文件检查模型对文件进行检查,无需通过人工检查,从而提高文件检查的效率,同时,无需雇佣大量的人工对文件进行检查,可以节省文件检查的费用。
17.另外,通过预设负面清单,检查文件中是否存在具有违规条款或者具有倾向性的条款,避免了因文件存在负面条款导致的违规或者不公平行为,可以保证业务活动的正常流转。
附图说明
18.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提
下,还可以根据这些附图获得其他的附图。
19.图1是本技术一个实施例提供的用于文件检查方法的流程图;
20.图2是本技术一个实施例提供的文件检查装置的框图;
21.图3是本技术一个实施例提供的电子设备的框图。
具体实施方式
22.下面将结合附图对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。下文中将参考附图并结合实施例来详细说明本技术。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
23.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
24.在本技术中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的,或者是针对部件本身在竖直、垂直或重力方向上而言的;同样地,为便于理解和描述,“内、外”是指相对于各部件本身的轮廓的内、外,但上述方位词并不用于限制本技术。
25.下面对本技术提供的文件检查方法进行详细介绍。
26.如图1所示,本技术的实施例提供一种文件检查方法,该方法的实现可依赖于计算机程序,该计算机程序可运行于智能手机、平板电脑、个人电脑等计算机设备或者运行于服务器,本实施例不对该方法的运行主体作限定。该方法至少包括以下几个步骤:
27.步骤101,获取样本数据。
28.其中,样本数据包括第一样本数据、第二样本数据以及第三样本数据。第一样本数据用于对文件检查模型中的条款匹配子模型进行训练;第二样本数据用于对文件检查模型中的相似度对比子模型进行训练;第三样本数据用于对文件检查模型中的敏感词子模型进行训练。
29.步骤102,使用样本数据训练得到文件检查模型。
30.其中,文件检查模型包括条款匹配子模型、相似度对比子模型、敏感词子模型以及融合子模型。
31.使用样本数据训练得到文件检查模型,包括以下几个方面:
32.第一方面,获取第一样本数据,第一样本数据包括第一样本文件、样本负面清单;使用第一样本数据对预设正则表达式进行训练,得到条款匹配子模型,预设正则表达式用于从第一样本文件中定位与样本负面清单相匹配的文本;
33.其中,预设正则表达式是预先设定好的正则表达式。
34.相应地,条款匹配子模型的训练过程包括:将第一样本文件和样本负面清单输入至预设的文本匹配模型中,对文本匹配模型进行训练;通过预设正则表达式在第一样本文件中提取与样本负面清单相匹配的文本,并将该文本输入到训练好的预设文本匹配模型中,对训练好的预设文本匹配模型进行验证,在验证通过的情况下,将预设的文本匹配模型确定为条款匹配子模型。
35.第二方面,获取第二样本数据,第二样本数据包括样本文件模板、第二样本文件以
及样本文件模板和第二样本文件之间的相似度比较结果;使用第二样本数据对预设的相似度计算模型进行训练,得到相似度对比子模型,相似度计算模型用于计算样本文件模板和第二样本文件之间的相似度;
36.其中,样本文件模板和第二样本文件之间的相似度比较结果通过相似度算法计算得到。
37.可选地,相似度算法包括余弦相似度算法。
38.相应地,相似度对比子模型的训练过程包括:将样本文件模板和第二样本文件输入至预设的相似度计算模型中,对预设的相似度计算模型进行训练;将样本文件模板和第二样本文件之间的相似度比较结果输入到相似度计算模型中,对相似度计算模型进行验证,在验证通过的情况下,将相似度计算模型确定为相似度对比子模型。
39.第三方面,获取第三样本数据,第三样本数据包括第三样本文件、样本敏感词词库、和第三样本文件中与样本敏感词词库相匹配的敏感词;使用第三样本数据对预设的文本对比模型进行训练,得到敏感词子模型。
40.可选地,敏感词词库可以通过文件检查模型训练过程中标注样本数据中的敏感词构建得到,或者,通过对当前已有的敏感词进行整理得到,本实施例不对敏感词词库的实现方式作限定。
41.相应地,敏感词子模型的训练包括:将第三样本文件和样本敏感词词库输入至预设的文本对比模型,对文本对比模型进行训练;将第三样本文件中与样本敏感词词库相匹配的敏感词输入训练好的文本对比模型,对文本对比模型进行验证,在验证通过的情况下,将文本对比模型确定为敏感词子模型。
42.在实际实施时,第一样本文件、第二样本文件和第三样本文件之间相同或不同。
43.其中,第一方面、第二方面和第三方面之间的执行顺序可以基于用户需求设置,第一方面、第二方面和第三方面还可以同步执行,本实施例不对第一方面、第二方面和第三方面之间的执行顺序作限定。
44.第四方面,获取预设模板;基于预设模板确定融合子模型;基于条款匹配子模型、敏感词子模型、相似度对比子模型以及融合子模型生成文件检查模型。
45.其中,预设模板是预先设置的文件检查模型输出的文件检查结果的模板。
46.步骤103,获取预设负面清单、预设文件模板以及待检查文件。
47.其中,预设负面清单是通过整理当前已有的具有歧视性、倾向性的负面条款得到的,且预设负面清单中的负面条款应该与待检查文件中的条款为同一领域的条款。同时,预设文件模板是与待检查文件对应的文件模板。
48.比如:待检查文件为招标文件,预设负面清单中的条款为负面招标条款,预设文件模板为招标文件的模板;待检查文件为交易文件,预设负面清单中的条款为负面交易条款,预设文件模板为交易文件的模板。
49.步骤104,将预设文件模板、预设负面清单和待检查文件输入文件检查模型,得到文件检查结果。
50.其中,将预设文件模板、预设负面清单和待检查文件输入文件检查模型包括以下几个方面:
51.第一方面,将待检查文件和预设负面清单输入条款匹配子模型。
52.其中,条款匹配子模型用于对预设负面清单和待检查文件进行匹配,得到负面条款匹配结果。
53.第二方面,将待检查文件和预设文件模板输入相似度对比子模型。
54.其中,相似度对比子模型用于对待检查文件和预设文件模板进行相似度对比,得到对比结果。
55.对比结果包括预设文件模板与待检查文件的差异行、纠错行以及对比记录。
56.差异行是指预设文件模板与待检查文件对应的存在差异的行。通过对预设文件模板和待检查文件进行相似度对比,得到预设文件模板和待检查文件的差异行。
57.相应地,纠错行是相似度值大于或等于预设相似度值的差异行。
58.其中,预设相似度值为预先设置的相似度值,例如,50%或60%等,本实施例不对预设相似度值的实现方式作限定。
59.对比记录包括文本新增记录、文本删除记录以及文本修改记录。
60.相似度对比子模型对待检查文件和预设文件模板进行相似度对比,得到对比结果,包括:对预设文件模板和待检查文件进行逐行对比,得到预设文件模板和待检查文件之间的差异行以及差异记录;获取预设相似度值;从预设文件模板和待检查文件之间差异行中,确定相似度值大于或等于预设相似度值的差异行,得到纠错行;基于纠错行生成对比记录。
61.其中,基于纠错行生成对比记录,包括:对纠错行进行分词对比,得到分词对比结果;基于分词对比结果对纠错行进行纠错,得到纠错记录;基于纠错记录和差异记录,得到对比记录。
62.分词对比是指通过分词算法对纠错行的文本进行分词,进而得到精准的词语或者单个文字的差异。
63.可选地,分词算法可以为双向最大匹配法(bi-directction matching method,bm)、条件随机场算法(conditional random field algorithm,crf),本实施例不对分词算法的实现方式作限定。
64.在实际实施中,对预设文件模板和待检查文件进行逐行对比之前,还包括:将预设文件模板和待检查文件按照章节标题进行拆分,得到对应的章节标题合集和段落合集,章节标题合集包括至少一个章节标识和每个章节标识对应的章节文本,段落合集包括每个章节标识对应的至少一个文本段落。
65.具体地,将预设文件模板和待检查文件按照章节标题进行拆分,需要对文本的文字样式进行检测,进而确定段落对象是否为章节标题,例如,当文字样式为标题时,确定文本为章节标题。
66.另外,预设文件模板和待检查文件对应的每个章节标题标注有相同的章节标识,该章节标识可以为对应的章节标题在预设文件模板,或者是对应的章节标题的序号,本实施例不对章节标识的实现方式作限定。
67.相应地,将当前章节标题与下一个章节标题之间的文本确定为当前章节标题对应的段落,为该段落标注与当前章节相同的章节标识。
68.对预设文件模板和待检查文件进行逐行对比,包括:对于章节标题合集中章节标识相同的章节文本,将预设文件模板的章节文本与待检查文件的章节文本进行对比,得到
章节标题差异行以及章节标题差异记录;对于段落合集中章节标识相同的文本段落,将预设文件模板的文本段落与待检查文件的文本段落进行对比,得到段落差异行以及段落差异记录。
69.第三方面,将待检查文件输入敏感词子模型。
70.敏感词子模型用于对待检查文件进行敏感词检查,得到敏感词检查结果。
71.敏感词子模型对待检查文件进行敏感词检查,得到敏感词检查结果,包括:获取敏感词词库;将待检查文件与敏感词词库进行文本对比,得到敏感词检查结果。
72.第四方面,将条款匹配结果、敏感词检查结果以及对比结果输入融合子模型。
73.融合子模型用于对条款匹配结果、敏感词检查结果以及对比结果进行融合,得到文件检查结果。
74.融合子模型对条款匹配结果、敏感词检查结果以及对比结果进行融合,得到文件检查结果,包括:将条款匹配结果、敏感词检查结果以及对比结果按照预设模板拼接,得到文件检查结果。
75.综上所述,本实施例提供的文件检查方法,通过获取样本数据;使用样本数据训练得到文件检查模型;获取预设负面清单、预设文件模板以及待检查文件;将预设文件模板、预设负面清单和待检查文件输入文件检查模型,得到文件检查结果;可以解决面对成百上千份文件,依靠人工对文件进行检查,工作量庞大,导致文件检查效率较低的问题,提高文件检查的效率。通过样本数据训练得到的文件检查模型对文件进行检查,无需通过人工检查,从而提高文件检查的效率,同时,无需雇佣大量的人工对文件进行检查,可以节省文件检查的费用。
76.另外,通过预设负面清单,检查文件中是否存在具有违规条款或者具有倾向性的条款,避免了因文件存在负面条款导致的违规或者不公平行为,可以保证业务活动的正常流转。
77.本实施例提供一种文件检查装置,如图2所示,该装置包括至少以下几个模块:样本获取模块210、模型训练模块220、数据获取模块230和结果生成模块240。
78.样本获取模块210,用于获取样本数据;
79.模型训练模块220,用于使用样本数据训练得到文件检查模型;
80.数据获取模块230,用于获取预设负面清单、预设文件模板以及待检查文件;
81.结果生成模块240,用于将预设文件模板、预设负面清单和待检查文件输入文件检查模型,得到文件检查结果。
82.相关细节参考上述方法和系统实施例。
83.本实施例提供一种电子设备,如图3所示。电子设备可以为图1中第一终端或第二终端。该电子设备至少包括处理器301和存储器302。
84.处理器301可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器301可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在
一些实施例中,处理器301可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
85.存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本技术中方法实施例提供的文件检查方法。
86.在一些实施例中,电子设备还可选包括有:外围设备接口和至少一个外围设备。处理器301、存储器302和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
87.当然,电子设备还可以包括更少或更多的组件,本实施例对此不作限定。
88.可选地,本技术还提供有一种计算机可读存储介质,计算机可读存储介质中存储有程序,程序由处理器加载并执行以实现上述方法实施例的文件检查方法。
89.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
90.显然,上述所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,可以做出其它不同形式的变化或变动,都应当属于本技术保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献