一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

法律法规解析方法、装置、计算机设备及可读存储介质与流程

2022-11-23 15:47:48 来源:中国专利 TAG:


1.本发明涉及政策法律法规解析技术领域,具体涉及一种法律法规解析方法、装置、计算机设备及可读存储介质。


背景技术:

2.目前大部分的法律、行政法规、政府规章、部门规章、地方性法规、通知公告等都以pdf、rtf、ofd等格式文本存储,法律法规内容查找和使用困难,在行政执法过程中涉及处罚依据问题查找不方便,法规内容变更时无法及时更新。
3.中国专利cn202110152861.1公开了一种基于正则表达式匹配算法的政策法律法规解析方法及系统,通过对有代表性的少量政策法律法规进行人工解析,整理出部分规则算法库;再对大量的历史政策法律法规文件进行训练,不断挖掘补充新的匹配规则,最终形成较完整的匹配规则模型。然而该模型不能够针对不同结构的法规文件按照不同的模版文件实现解析,且没有公开对于“款”、“项”、“目”的解析方法,模型层级相对不明确。


技术实现要素:

4.本发明的目的是提供一种法律法规解析方法、装置、计算机设备及可读存储介质,基于模板对象实现法规文件解析,使不同结构的法规文件按照不同的模板文件实现解析,按照层级对文件实现结构化信息入库,方便查找与使用。
5.为解决上述问题,本发明的第一方面提供了一种法律法规解析方法,包括:对加载的原始法律法规文档进行预解析得到预解析数据,所述预解析数据包括:目录信息项和各所述目录信息项对应的最大索引序号;所述目录信息项包括:“卷”目录、“编”目录、“章”目录和“条”内容,所述“条”内容包括:“条”目录和“款”段落;所述“卷”目录、“编”目录、“章”目录和“条”目录均位于所述原始法律法规文档每行的第一个空格之前,所述“款”段落为所述“条”目录下,无数字排序的自然段;根据所述预解析数据生成法律法规模板;逐行解析所述原始法律法规文档并与所述法律法规模板比对,将解析得到的各条款挂载到所述法律法规模板中对应的各目录信息项下,形成法律法规模型;验证所述法律法规模型。
6.优选地,目录信息项还包括:“节”目录,所述“节”目录位于所述原始法律法规文档每行的第一个空格之前。
7.优选地,以最大序号的序号数为各所述目录信息项的项数生成法律法规模板。
8.优选地,原始法律法规文档的格式包括:word文档、文本文档、pdf文档或网页文档。
9.优选地,法律法规模型的生成方法具体包括:按照所述原始法律法规文档的结构逐行解析所述原始法律法规文档的内容,逐行
读取原始法律法规文档的目录信息项及其索引序号并与所述法律法规模板中的目录信息项及其索引序号比对,找到所述原始法律法规文档中每行的内容对应在所述法律法规模板中的具体位置并挂载。
10.优选地,法律法规模型的形成方法还包括逐行对
ꢀ“
项”目录、“目”目录的解析和挂载;所述“项”基于“款”目录下,非所述目录信息项,以“项”的应用格式开始的行,解析为“项”;所述“目”基于“项”目录下,非所述目录信息项,以“目”的应用格式开始的行,解析为“目”。
11.优选地,法律法规模型的验证内容包括:在全篇法律法规下对所述目录信息项的索引序号连续性的验证;对每个“条”内容下“款”目录的索引序号连续性的验证;和/或对每个“款”目录下“项”目录的索引序号连续性的验证;和/或对每个“项”目录下“目”目录的索引序号连续性的验证;对解析得到的各条款的内容正确性的验证。
12.优选地,在全篇法律法规下对所述目录信息项的索引序号连续性的验证内容包括:“条”内容的索引序号在每个“章”和/或“节”目录下连续性的验证;“条”内容的索引序号在所述全篇法律法规下连续性的验证;还可以包括:“项”目录的索引序号在所述全篇法律法规下连续性的验证。
13.优选地,法律法规模型的验证还包括二次验证,所述二次验证用于通过对所述原始法律法规文档再次进行解析,与生成的所述法律法规模型比对,标记验证不通过的条款。
14.优选地,还包括:利用ascii码对加载的原始法律法规文档进行清洗。
15.根据本发明的第二方面提供了一种法律法规解析装置,应用于计算机设备,包括:预解析模块,用于生成法律法规模板;模型生成模块,用于解析原始法律法规文档并与所述法律法规模板进行比对,将解析得到的各条款挂载到所述法律法规模板中对应的各目录信息项下,形成法律法规模型;验证模块,用于对所述法律法规模型进行验证和二次验证;存储单元,用于加载所述原始法律法规文档和存储所述法律法规模型;还可以包括:清洗模块,用于对所述法律法规模板进行清洗。
16.优选地,预解析模块包括:读取单元、预解析单元、提取单元、模板生成单元;所述读取单元用于读取所述原始法律法规文档的内容;所述预解析单元用于解析所述原始法律法规文档的结构,判断是否包含目录信息项;所述提取单元用于提取目录信息项与所述目录信息项对应的最大索引序号的序号值;所述模板生成单元用于根据目录信息项与所述目录信息项对应的最大索引序号
值生成法律法规模板。
17.优选地,模型生成模块包括:解析单元、比对匹配单元;解析单元用于逐行解析并提取所述原始法律法规文档的目录信息项及其序号,解析
ꢀ“
项”目录和“目”目录及其索引序号;比对匹配单元用于将原始法律法规文档的目录信息项、“项”目录和“目”目录及其索引序号与所述法律法规模型中的目录信息项、
ꢀ“
项”目录和“目”目录及其索引序号比对,找到原始法律法规文档中每行的内容对应在所述法律法规模型中的具体位置并挂载。
18.根据本发明的第三方面提供了一种计算机设备,计算机设备包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备执行第一方面至少一种可能的实施方式中的法律法规解析方法。
19.根据本发明的第四方面提供了一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行第一方面至少一种可能的实施方式中的法律法规解析方法。
20.本发明的上述技术方案具有如下有益的技术效果:本发明基于模板对象方法解析法规内容,解析的层级及关系会更准确;当法律法规内容发生调整时会提醒系统中所有引用或使用处能及时提醒,确保所有引用处能及时更新调整。
附图说明
21.图1是本发明第一实施方式的法律法规解析方法的流程图;图2是本发明一个实施例的预解析方法的流程图;图3是本发明一个实施例的法律法规模型生成方法的流程图;图4是本发明一个实施例的写入临时库中的法律法规模板的截图;图5是本发明一个实施例的法律法规模解析方法的逻辑框图;图6是本发明第二实施方式的法律法规解析装置的结构示意图;图7是本发明一个实施例的预解析模块的结构示意图;图8是本发明一个实施例的模型生成模块的结构示意图。
22.附图标记:预解析模块1、读取单元11、预解析单元12、提取单元13、模板生成单元14、清洗模块2、模型生成模块3、解析单元31、比对匹配单元32、验证模块4、存储单元5。
具体实施方式
23.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
24.显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
25.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
26.图1是本发明第一实施方式的法律法规解析方法的流程意图,如图1所示,包括步骤:s1、对加载的原始法律法规文档进行预解析得到预解析数据;s2、根据预解析数据生成法律法规模板;s3、对原始法律法规文档进行逐行解析并与法律法规模板进行比对,将解析得到的各条款挂载到法律法规模板中对应的各目录信息项下,形成法律法规模型;s4、验证法律法规模型。
27.本发明旨在保护一种法律法规解析的方法,该方法基于构建法律法规模板的方法解析法律法规的内容,解析的层级及关系更加准确;同时通过对模型的二次验证,使当法律法规的内容发生调整时,系统中所有引用或使用处能及时发现并标记作为提醒,确保所有引用处能及时更新调整。
28.图2是本发明一个实施例的关于步骤s1中预解析方法的流程图,参见图2,包括步骤:s11、读取并解析原始法律法规文档的结构,提取目录信息项;目录信息项包括:“卷”目录、“编”目录、“章”目录以及“条”内容,其中,“条”内容包括:“条”目录和“款”段落。
29.s12、提取解析到的各目录信息项对应的最大索引序号。
30.具体的,将待解析的原始法律法规文档加载到计算机系统的内存中,通过读取原始法律法规文档的结构,解析并提取其目录信息项。计算机系统可支持poi、网络爬虫等技术对原始法律法规文档进行读取,原始法律法规文档的格式不限于word文档、文本文档、pdf文档或网页文档。
31.对于现行的规范性文件,特别是在法律法规文件中,结构单位一般包括:“卷”、“编”、“章”、“节”、“条”、“款”、“项”、“目”,其上下级关系依次为:“卷”、“编”、“章”、“节”、“条”、“款”、“项”、“目”。
32.因此,在本发明的一个实施例中,根据待解析的原始法律法规文档的结构,提取“卷”目录、“编”目录、“章”目录、“条”内容或提取“卷”目录、“编”目录、“章”目录、“节”目录和“条”内容。
33.对于“卷”目录、“编”目录、“章”目录的提取,由于一些法律法规文档的条款内容包含“卷”、“编”、“章”、“节”等关键字。因此,在预解析时无需比较条款的具体内容,只将位于原始法律法规文档每行的第一个空格的前一个,且为“卷”、“编”、“章”、“节”等关键字的包含“卷”、“编”、“章”、“节”的词条判定为目录信息项,即第x卷、第x编、第x章和/或第x节。
34.对于“条”内容的提取,由于“款”为“条”内容的组成部分,因此,“条”内容的提取因此分“条”目录的提取和“款”段落的提取。
35.具体的,将位于原始法律法规文档每行的第一个空格的前一个字为“条”的词条判定为“条”目录,即第x条;将“条”目录下,无数字排序的自然段判定为“款”。
36.解析完目录信息项后,提取各目录信息项前对应的索引序号值,以提取到的最大
索引序号的序号值为各目录信息项的项数,生成如下所示的法律法规模板:“第一卷 ;第一编 ;第一章 ;第一节 ;第一条 ;第二条 ;

第二十条 ;

第二章 ;第一条 ;第二条 ;

第二十条 ;

第二卷 ;第一编 ;第一章 ;第一节 ;第一条 ;第二条 ;第二节 ;第一条 ;第二条 ;

第二十条 ;

第二编;
…”
具体的,若检测到“卷”目录的最大序号为五,则法律法规模板中生成五个“卷”目录,即第一卷、第二卷、

、第五卷;若检测到“编”目录的最大索引序号为四,则法律法规模板中,每个“卷”目录下均生成四个“编”目录,即第一编、第二编、第三编、第四编;若检测到“章”目录的最大索引序号为六,则法律法规模板中,每个“章”目录下均生成六个“章”目录,即第一章、第二章、

、第六章;若检测到“节”目录的最大索引序号为六,则法律法规模板中,每个“节”目录下均生成六个“节”目录,即第一节、第二节、

、第六节;
若检测到“条”内容的最大索引序号为二十,则法律法规模板中,每个“节”目录下均生成二十个“条”目录,即第一条、第二条、

、第二十条;若没有检测到“节”目录,则将检测到的“条”目录直接挂载在“章”目录下;本发明利用法律法规模板,将法律法规解析成结构化数据,使解析的层级及关系更加准确,方便后续的查找与使用。
37.在本实施的一个优选实施例中,在完成法律法规模板的构建之后,生成法律法规模型之前,通过读取每行内容转换成ascii码内容,对原始法律法规文档的序号进行转换以及对内容进行清洗,剔除一些无用的符号,如\r、\n,以及中文括号、中文空格、转英文半角等,使对于条款的解析更加准确。
38.图3是本发明一个实施例的生成法律法规模型的方法的流程图,如图3所示,包括步骤:s31、逐行读取原始法律法规文档的目录信息项及其索引序号并与法律法规模板中的目录信息项及其索引序号比对,找到原始法律法规文档中每行的内容对应在法律法规模板中的具体位置并挂载;s32、逐行对“条”内容进行解析和挂载;s33、逐行对
ꢀ“
项”目录和/或“目”目录进行解析和挂载。
39.图4为暂存在临时库中的法律法规模板的截图,该法律法规模板对应于解析得到的“条”内容中“条”目录的最大索引序号为二十的法律法规模型,结合图4对法律法规模型的生成过程进行详细说明。
40.在本发明的一个优选实施例中,法律法规模板生成之后,按照原始法律法规文档的结构自上而下逐行解析原始法律法规文档的内容,依次读取到“卷”目录、“编”目录、“章”目录及其索引序号和该行对应的内容,即读取到“第一卷”、“第一编”、“第一章”及其后该行的内容,与法律法规模板中的“第一卷”、“第一编”、“第一章”的位置进行比对,无误后将读取到的原始法律法规的“第一卷”、“第一编”、“第一章”后的内容挂载到法律法规模板中相应的位置处。
41.读取“条”内容,包括:读取“条”目录及其索引序号和该行对应的内容,即读取到“第一条”及其后该行的内容,与法律法规模板中的“第一条”的位置进行比对,无误后将读取到的原始法律法规的“第一条”后的内容挂载到法律法规模板中相应的位置处;以及对“条”目录下可能存在的“款”段落进行解析。
[0042]“条”目录下的“款”段落的应用格式是以自然段划分的,“条”内容下的非“项”目录及“目”目录的段落解析成“款”段落。“款”的内容本身没有序号信息,为了区分和排序,在解析的过程中给暂存在系统内的临时库中 的“款”段落也增加了目录索引及排序信息,即“第一款、”、“第二款、”,挂载到所属“条”目录下,用于系统内部查看及管理人员来维护使用。
[0043]
本实施例中的原始法律法规文档没有解析到“节”目录,因此直接将“第一条”挂载到“第一章”后。
[0044]
接下来对基于“项”、“目”目录的解析和挂载进行说明。
[0045]
继续向下解析,“项”的应用格式是以“(一)、(二)”的方式,将“条”或“款”目录下以(一)、(二)

信息开头的段落解析成“项”,关联文件上下文,挂载到相应的“条”目录或“款”段落下,即挂载到“第一款、”或“第二款、”的内容后,增加系统索引信息(一)、(二)、(三)。
[0046]
继续向下解析,“目”的应用格式是以阿拉伯数字“1.、2.、3.”或“1)、2)、3)”的方式,分段表述,以“;”区分。根据该格式结构,解析以阿拉伯数字开头以分号结束的段落作为系统的“目”,并根据上下文结构关联到所属的“项”目录下,即关联到(三)的内容后,增加索引信息1)、2)、3)。
[0047]
继续逐行解析,如下一行解析为“项”,则挂载到3)的内容后,增加系统索引信息(四);如下一行解析为“第二条”,与法律法规模板中的“第二条”的位置进行比对,无误后将读取到的原始法律法规的“第二条”后的内容挂载到法律法规模板中相应的位置处。
[0048]
以此类推,建立起上下级关系,匹配相应的条款,形成完整法律法规模型。
[0049]
进一步的,如原始法律法规文档的第一章中只解析到五个“条”内容,而实际原始法律法规文档中的第二章是从“第六条”排序,在利用本技术的法律法规模板时,只需将解析到的原始法律法规文档中的第二章的“第六条”的内容对应挂载到法律法规模板中第二章的“第六条”的位置,后期系统会自动删除没有匹配相应条款内容的第二章的“第一条”至“第五条”。
[0050]
现阶段大多数法律法规中“条”内容的索引序号是延续上一章中“条”的索引序号,而非是每一章对“条”的索引序号重新排序。因此本发明的法律法规模板能够适用于多种法律法规结构的解析。
[0051]
本发明的其它实施例中,还可以先解析“卷”、“编”、“章”、“条”内容的内容并进行挂载,后解析“款”、“项”、“目”目录的内容并挂载到对应位置。
[0052]
在法律法规模型形成后,将其写入临时库,对从临时库中取出数据进行至少两次验证,验证的内容包括:(1)在全篇法律法规下对目录信息项的索引序号连续性的验证,即验证“卷”目录、“编”目录、“章”目录、“节”目录、“条”目录的索引序号在全篇法律法规下是否连续。
[0053]
关于“卷”目录的索引序号的验证,由于“卷”属于最大目录,只需判断临时库中存入的“卷”的目录索引序号是否连续;关于“编”目录的索引序号的验证,需要判断某“卷”目录下“编”目录的索引序号的连续性;在其他实施例中,针对“编”目录的索引序号在下一“卷”中不重新编号的情况,还需要验证全篇法律法规下“编”目录索引序号的连续性,只要是连续的索引序号都判定为数据合法;“章”目录、“节”目录和“条”目录的索引序号验证同“编”的索引序号的验证方法同理。
[0054]
(2)对每个“条”目录下“款”段落的索引序号连续性的验证;关于“款”段落的索引序号的验证,需要判断“款”段落的索引序号的连续性,且每个“条”目录下的“款”段落的序号必须是从数字“一”开始排序的。
[0055]
(3)对每个“款”段落或“条”目录下的“项”目录索引序号连续性的验证,验证方法同“编”目录的索引序号的验证方法;(4)对每个“项”目录下“目”目录索引序号连续性的验证,验证方法同“编”目录的索引序号的验证方法。在其他实施例中,还需要验证“项”目录的索引序号在全篇法律法规
下连续性;(5)对解析得到的各条款的内容正确性的验证,即读取原始法律法规文档的内容和暂存在临时库的数据,找到对应的目录序号与解析过后的内容进行比较,判断有无差异,如原始法律法规中第一条的内容为abc,解析后的第一条对应的内容也是abc,则系统认为此行解析内容正确。
[0056]
验证通过后,将法律法规模型写入数据库中保存,验证不通过的数据则进行二次验证。
[0057]
二次验证就是重新进行一遍上述的解析全过程,即重复步骤s1-s3,一方面避免因解析时组件之间通信异常导致的失败;另一方面,二次验证时会对异常数据进行特殊标记,如对所有引用、使用、增加、删减处,区别于第一次解析得到的法律法规模型,对二次解析得到的内容进行高亮显示,方便研发人员及时调整,因此针对法律法规的修改、废止或发布等情况,能够方便做出相应的修改并显示修改之处,方便查阅、对比。
[0058]
在本发明的另一个优选实施例中,多次解析失败的数据写入临时库,供研发人员查看并排查问题,最终优化模版,实现法规多样性的解析。
[0059]
即当系统发现存在未曾制定相关法律法规模板的法规结构的情况时,研发人员会根据法律法规结构编写法律法规模板,同时调整相关程序,能够解析不同结构的法律法规。
[0060]
图5示出了本发明第一实施方式的逻辑框图,参见图5,根据对原始法律法规文档的预解析结果生成法律法规模板,利用ascii码对原始法律法规文档的内容进行清洗后,逐行解析原始法律法规文档,建立完整的上下级关系并完成“卷”、“编”、“章”、“节”、“条”、“款”、“项”、“目”目录内容的匹配,形成完整的法律法规模型。再对法律法规模型进行至少两次验证,验证无误后保存入数据库。
[0061]
图6是本发明第二实施方式的法律法规解析装置的结构示意图,如图所示,包括:预解析模块1、清洗模块2、模型生成模块3、验证模块4和存储单元5。
[0062]
其中,预解析模块1,用于生成法律法规模板;清洗模块2,用于对法律法规模板进行清洗;模型生成模块3,用于解析原始法律法规文档并与法律法规模板进行比对,将解析得到的各条款挂载到法律法规模板中对应的各目录信息项下,形成法律法规模型;验证模块4,用于对法律法规模型进行验证和二次验证;存储单元5,用于加载原始法律法规文档和存储法律法规模型。
[0063]
进一步的,如图7所示,预解析模块1包括:读取单元11、预解析单元12、提取单元13、模板生成单元14;读取单元11用于读取原始法律法规文档的内容,可以读取word文档、文本文档、pdf文档或网页文档;预解析单元12用于解析原始法律法规文档的结构,判断是否包含何类目录信息项,即“卷”、“编”、“章”、“节”、“条”中的几类;提取单元13用于提取目录信息项与目录信息项对应的最大索引序号的数值;模板生成单元14用于根据目录信息项与目录信息项对应的最大索引序号的数值生成法律法规模板。
[0064]
进一步的,如图8所示,模型生成模块3包括:解析单元31、比对匹配单元32;
解析单元31用于逐行解析并提取原始法律法规文档的目录信息项,即“卷”目录、“编”目录、“章”目录、“节”目录及其索引序号,解析“条”内容、“项”目录和“目”目录及其索引序号并建立“款”段落的索引序号和索引信息;比对匹配单元32用于将原始法律法规文档的“卷”目录、“编”目录、“章”目录、“节”目录、“条”内容、“项”目录和“目”目录及其索引序号与法律法规模型中的“卷”目录、“编”目录、“章”目录、“节”目录、“条”内容、“项”目录和“目”目录及其索引序号比对,找到原始法律法规文档中每行的内容对应在法律法规模型中的具体位置并挂载。
[0065]
本发明的第三实施方式提供了一种计算机设备,该计算机设备包括处理器及存储有计算机指令的非易失性存储器,计算机指令被所述处理器执行时,计算机设备执行上述法律法规解析方法。
[0066]
本发明的第四实施方式提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序被执行时,实现上的法律法规解析方法的步骤。
[0067]
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
[0068]
本发明是参照根据本发明实施例的方法、设备、和计算机程序产品的流程图图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和一个方框或多个方框中指定的功能的装置。
[0069]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
[0070]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,简称rom)或随机存取存储器(randomaccessmemory,简称ram)等。
[0071]
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献