一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本实体链接方法、系统、电子设备及存储介质与流程

2022-07-06 06:02:04 来源:中国专利 TAG:


1.本技术涉及文本处理技术领域,特别涉及一种文本实体链接方法、系统、一种电子设备及一种存储介质。


背景技术:

2.实体链接是指将文本中的mention(提及)链接到knowledge graph(知识图谱)中的entity(实体)的任务。knowledge graph可以理解为一个大规模的语义网络,旨在描述客观世界的概念、实体以及之间的关系,有时候也可以狭义地理解为知识库。entity是知识图谱的基本单元,mention指文本中表达实体的语言片段。
3.法规文本数量繁多且更新较快,仅靠关键词匹配和标点符号(如书名号、括号等)匹配实现实体链接的工作量较大、准确度较低。
4.因此,如何提高对法规文本进行实体链接的效率和准确率是本领域技术人员目前需要解决的技术问题。


技术实现要素:

5.本技术的目的是提供一种文本实体链接方法、一种文本实体链接系统、一种存储介质及一种电子设备,能够提高对法规文本进行实体链接的效率和准确率。
6.为解决上述技术问题,本技术提供一种文本实体链接方法,该文本实体链接方法包括:
7.获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
8.根据所述法规标题生成对应的标题字典树;
9.根据所述法规文号生成对应的文号字典树;
10.若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
11.可选的,获取目标法规的法规文本,包括:
12.从目标网站中爬取所述目标法规的法规文本;
13.从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。
14.可选的,在从所述法规文本中提取法规标题和法规文号之后,还包括:
15.对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;
16.为所述法规文本设置唯一对应的法规id,根据所述法规id与所述法规标题的对应关系生成法规标题字典,根据所述法规id与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规id;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规id;
17.相应的,根据所述法规标题生成对应的标题字典树,包括:
18.根据所述法规标题字典中的法规标题生成对应的所述标题字典树;
19.相应的,根据所述法规文号生成对应的文号字典树;
20.根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
21.可选的,对所述法规标题和所述法规文号进行拓展,包括:
22.对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;
23.对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。
24.可选的,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
25.利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹配结果;其中,所述文本匹配结果包括标题文本和/或文号文本,所述标题文本为所述待处理文本中存在于所述标题字典树的文本,所述文号文本为所述待处理文本中存在于所述文号字典树的文本;
26.根据所述文本匹配结果对所述待处理文本进行实体链接。
27.可选的,根据所述文本匹配结果对所述待处理文本进行实体链接,包括:
28.对所述待处理文本中符合预设规则的所述标题文本和所述文号文本进行实体链接;其中,所述预设规则为所述标题文本和所述文号文本之间不存在间隔,或,所述标题文本和所述文号文本之间只存在书名号和/或括号;
29.和/或,将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本,查询所述待处理文本中距离所述无文号标题文本最近的时间文本,根据所述时间文本和所述无文号标题文本进行实体链接。
30.可选的,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
31.利用所述标题字典树和所述文号字典树确定所述待处理文本中的实体;所述实体包括法规标题和法规文号的文本;
32.根据所述实体与所述法规文本的对应关系对所述待处理文本进行实体链接,以使所述实体被点击后跳转至对应的法规文本。
33.本技术还提供了一种文本实体链接系统,该系统包括:
34.法规采集模块,用于获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
35.字典树生成模块,用于根据所述法规标题生成对应的标题字典树;还用于根据所述法规文号生成对应的文号字典树;
36.实体链接模块,用于若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
37.本技术还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本实体链接方法执行的步骤。
38.本技术还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算
机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本实体链接方法执行的步骤。
39.本技术提供了一种文本实体链接方法,包括:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;根据所述法规标题生成对应的标题字典树;根据所述法规文号生成对应的文号字典树;若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
40.本技术获取目标法规的法规文本,并提取法规文本的法规标题和法规文号。法规标题用于描述法规的名称、类型、内容等信息,法规文号用于描述法规的文件编号,法规文号可以包括发文日期、发文序号等信息。本技术根据法规标题构建标题字典树,根据法规文号生成对应的文号字典树,进而利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,因此本技术能够提高对法规文本进行实体链接的效率和准确率。本技术同时还提供了一种文本实体链接系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
41.为了更清楚地说明本技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1为本技术实施例所提供的一种文本实体链接方法的流程图;
43.图2为本技术实施例所提供的一种标题字典树的结构示意图;
44.图3为本技术实施例所提供的一种文号字典树的结构示意图;
45.图4为本技术实施例所提供的一种文本实体链接系统的结构示意图。
具体实施方式
46.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.下面请参见图1,图1为本技术实施例所提供的一种文本实体链接方法的流程图。
48.具体步骤可以包括:
49.s101:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
50.其中,本实施例可以应用于文本处理装置,以便实现对目标法规的收集和实体链接。上述目标法规可以为特定类型的法规也可以为多类法规的组合,例如,目标法规可以指税收法规、交通法规等。本实施例可以从特定的网站中获取目标法规的法规文本,也可以从数据库中获取目标法规的法规文本。法规文本包括法规标题、法规文号和法规内容,法规标题指目标法规的标题,法规文号指目标法规的编号,法规内容指目标法规的具体内容。
51.例如,目标法规的法规文本为:
[0052]“《某局关于小规模纳税人免征增值税政策有关征管问题的公告》(2019 年第4号)
[0053]
第一条:
……
[0054]
第二条:
……
[0055]
第三条:
……”
[0056]
法规标题为《某局关于小规模纳税人免征增值税政策有关征管问题的公告》,法规文号为2019年第4号,法规内容为第一条至第三条的内容。
[0057]
具体的,在得到法规文本之后,可以对法规文本经过清洗和格式化处理,得到一批规范的法规标题和法规文号。本实施例可以通过标点符号、关键字或正则表达式确定法规文本中的法规标题和法规文号。
[0058]
s102:根据所述法规标题生成对应的标题字典树;
[0059]
其中,在提取法规标题和法规文号的基础上,本实施例可以为法规文本设置唯一对应的法规id,并根据所述法规id与所述法规标题的对应关系生成法规标题字典,根据所述法规id与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key(键)为所述法规标题,所述法规标题字典的value(值)为所述法规id;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规id。本步骤可以根据法规标题字典中的法规标题生成对应的所述标题字典树。
[0060]
s103:根据所述法规文号生成对应的文号字典树;
[0061]
其中,s102和s103可以先后执行,也可以同时执行,本实施例不限定 s102和s103的执行顺序。本步骤可以根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
[0062]
s104:若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
[0063]
其中,待处理文本指需要进行实体链接的文本,本实施例可以利用多模匹配算法从标题字典树和文号字典树中查询待处理文本中的实体,并对相应的实体进行链接,以便完成对待处理文本的实体链接操作。
[0064]
具体的,本实施例利用所述标题字典树和所述文号字典树确定所述待处理文本中的实体;所述实体包括法规标题和法规文号的文本;根据所述实体与所述法规文本的对应关系对所述待处理文本进行实体链接,以使所述实体被点击后跳转至对应的法规文本。例如,待处理文本中存在实体“20xx年6 号《发票管理办法实施细则》”,在对上述文本进行实体链接后,若用户点击上述实体,则自动跳转至“20xx年6号《发票管理办法实施细则》对应的法规文本。
[0065]
本实施例获取目标法规的法规文本,并提取法规文本的法规标题和法规文号。法规标题用于描述法规的名称、类型、内容等信息,法规文号用于描述法规的文件编号,法规文号可以包括发文日期、发文序号等信息。本实施例根据法规标题构建标题字典树,根据法规文号生成对应的文号字典树,进而利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,因此本实施例能够提高对法规文本进行实体链接的效率和准确率。
[0066]
作为对于图1对应实施例的进一步介绍,本实施例可以通过迭代爬取的方式获取目标法规的法规文本,具体过程如下:从目标网站中爬取所述目标法规的法规文本;从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。上述法规关联信息可以为法规废止信息和/或法规修订信息,本实施例可以通过关键词(如,废止、修订、调整等)匹配的方式确定上述法规关联信息。本实施例根据法
规之间的废止、修订等法规关联关系来获取新的目标法规,在法规来源网站并没有更多法规目录的情况下自动拓展了法规名单,确保了税收法规采集的完整性。本实施例还形成了一套自动化的法规更新方法,法规库的增加变得及时且不依赖人工补充。
[0067]
以目标法规为税收法规为例,说明上述过程:
[0068]
在没有任何数据时,可以从权威网站通过合乎规范的网络爬虫、网页查询等方法,将税收法规爬取下来并存储到法规库中。此时可以得到第一批税收法规的文本。在实际应用中得到的第一批税收法规存在不完整缺陷,而且相当一部分法规会被其他法规修订,或者修订了其他法规,或者被其他法规废止,并在正文中提到“本法规被xxx法规废止”。此外,也有专门用于公告废止和修订其他法规的法规。根据专家经验归纳总结,一般内容中含有“废止”、“修订”、“调整”等词的条款很可能描述的是废止或者修订关系,比如在《关于a类企业城镇土地使用税政策的通知》([2015]76号)第七条:“七、本通知自2015年7月1日起执行。原某局《关于对b公司所属单位用地征免土地使用税问题的通知》〔(89)第088号〕、《关于对c公司及其所属公司用地征免土地使用税问题的规定》〔(90)第003号〕同时废止。”,基于此条,利用标点符号等正则表达式抽取出了两个法规《关于对b公司所属单位用地征免土地使用税问题的通知》〔(89)第088号〕和《关于对c 公司及其所属公司用地征免土地使用税问题的规定》〔(90)第003号〕,这两个法规如果不在已有的法规库中,则可以以此爬取内容并补充进法规库。又《某局关于实施小微企业普惠性税收减免政策的通知》(〔2019〕13号) 这个法规第五条第一款的内容“五、《某局关于创业投资企业和天使投资个人有关税收政策的通知》(〔2018〕55号)第二条第(一)项关于初创科技型企业条件中的

从业人数不超过200人

调整为’从业人数不超过300人



资产总额和年销售收入均不超过3000万元’调整为

资产总额和年销售收入均不超过5000万元’。”中,可以提取出《某局关于创业投资企业和天使投资个人有关税收政策的通知》(〔2018〕55号)这个法规
……
通过上述方法反复迭代进行已有法规的文本中废止关系、修订关系的提取,以此获得了新的一批法规目录。基于这一批目录中的每一个法规,再进行单独的网络爬虫爬取,以此来补充法规库。经过一段时间的操作后,可以采集到了绝大多数存量法规。将上述流程的代码整理后,即可根据发布日期,自动完成从权威网站爬取—法规关系抽取—新增法规爬取的过程。
[0069]
作为对于图1对应实施例的进一步介绍,在从所述法规文本中提取法规标题和法规文号之后,还可以存在构建法规标题字典和法规文号字典的操作,以便根据所述法规标题字典中的法规标题生成对应的所述标题字典树,并根据所述法规文号字典中的法规文号生成对应的所述文号字典树。具体的,本实施例可以对所述法规标题和所述法规文号进行拓展(具体指数量上的拓展),得到含义相同的多个法规标题、以及多个含义相同的法规文号;为所述法规文本设置唯一对应的法规id,并根据法规id、法规标题和法规文号的对应关系生成法规标题字典和法规文号字典;其中,法规标题字典的key为法规标题,法规标题字典的value为法规id;法规文号字典的key为法规文号,法规文号字典的value为法规id。本实施例可以根据拓展前后的法规标题和法规文号组合得到多个key,以使法规标题字典和法规文号字典的value 对应多个key。本实施例通过对大量法规的文本分析整理了一套统计规则来构建税收法规的字典树,并采用最大文本匹配的方法运用ac自动机从涉税文本中提取出引用法规的标题和文号,再基于一定的统计规则进行结果排序,自动返回文本片段链接到的法规。
[0070]
虽然法规之间的引用关系都是通过名称和文号进行的,但实际法规中引用的部分文本并不绝对规范,引用的法规标题可能缺失或者冗余,可能没有发布单位,可能没有文号等。针对以上问题,通过对法规文本进行数据分析后的统计规则,我们对规范化的法规标题和法规文号进行拓展,得到多个含义相同的法规标题和多个含义相同的法规文号,并以每一个加工后的标题和文号作为字典(dict)的key,value即为其可能对应的法规id的list(列表)。
[0071]
假设存在法规a引用到了其他的法规,可能有以下不同的引用方式。本实施例可以通过以下规则1~3的任一项或任几项对法规标题进行拓展:
[0072]
规则1:对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题。
[0073]
例如,以“某省某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”这个法规为例,法规a在引用这个法规时,引用文本可能是“某省某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”,也可能是“某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”,即法规发布单位之间可能存在缩写,因而在处理含有发布单位的标题时,需要既记录完整的发布单位标题数据,也记录缩写的发布单位标题,并在以这些文本为key的list里增加上法规id。
[0074]
规则2:对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题。
[0075]
例如,以“某省某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”这个法规为例,法规a在引用这个法规时,引用文本可能是“关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”,即没有提到文号和发布单位,因而在处理含有文号和发布单位的标题时,需要既记录单独的法规标题数据,又记录含有发布单位前缀的法规标题数据,并在以这些文本为key的list里增加上法规id。
[0076]
规则3:对所述法规标题中的符号进行调整,得到拓展后的法规标题。
[0077]
例如,法规a可能引用“关于修改《xxxxxxxxxxx管理办法实施细则》的决定”,也可能引用“关于修改《xxxxxxxxxxx管理办法实施细则》的决定”,因而在处理含有特殊符号的标题时,分别存储两种格式下的标题,并在以这些文本为key的list里增加上法规id。
[0078]
本实施例还可以通过以下方式对法规文号进行拓展:对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。例如法规a可能引用“某省某市某局公告2019年第13号”,也可能引用“2019年第13号”,因而在处理文号时,将常见的前缀去掉后余下的年份和数字序号也会被保存下来,并在以这些文本为key的list里增加上法规id。可以将“某省某市某局公告2019年第13号”缩写为“2019年第13 号”,可以将“2019年第13号”扩写为“某省某市某局公告2019年第13 号”。
[0079]
举例说明,“某省某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”的法规标题文本为“关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”,法规文号文本为“某省某市某局公告2019年第13号”。
[0080]
对法规标题进行缩写可以得到拓展后的法规标题“某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”,对法规文号进行缩写可以得到拓展后的法规文号2019年第13号,“某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”的法规id为006,由法规id、法规标题
和法规文号的对应关系生成法规标题字典中value为006对应以下四种key:
[0081]
key1:某省某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告;
[0082]
key2:某市某局公告2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告;
[0083]
key3:2019年第13号关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告;
[0084]
key4:关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告;
[0085]
这个法规将在法规文号字典中value为006对应以下三种key:
[0086]
key1:某省某市某局公告2019年第13号;
[0087]
key2:某市某局公告2019年第13号;
[0088]
key3:2019年第13号;
[0089]
经过以上一系列统计规则后,法规标题和法规文号都得到了拓展,分别以标题数据和文号数据构建ac自动机的标题字典树和文号字典树。标题字典树和文号字典树是一种trie结构,下面举例说明。
[0090]
根据标题[“对于关于小微企业免征增值税有关问题的公告”,“关于小规模商业企业增值税政策的公告”,“关于小型微利企业所得税优惠政策有关问题的通告”,“关于稀土磷肥征免增值税问题的批复”,“关于稀土企业等汉字防伪项目企业开具增值税发票有关问题的公告”],生成的标题字典树如图2所示。根据文号[“d部门[2012]10号”,“d部门[2009]4号”,“d部门函[2013]25号”,“e部门[2012]55号”,“e部门字[1997]42号”],生成的字典树如图3所示。图2和图3仅为举例说明,事实上二十万个词的字典树非常复杂,上述可以视为标题字典树和文号字典树中非常小的子树片段。字典树生成时间较快,20万个词上仅需要2s不到的时间(单线程,cpu型号为intel xeon silver 4210@2.20ghz)。10万篇税收法规可以在10分钟内完成从读取原始数据到生成标题字典树和文号字典树的过程。由于税收法规本身是有限的,因而本方案没有性能瓶颈。
[0091]
作为对于图1对应实施例的进一步介绍,可以通过以下方式进行实体链接:利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹配结果;其中,所述文本匹配结果包括标题文本和/或文号文本,所述标题文本为所述待处理文本中存在于所述标题字典树的文本,所述文号文本为所述待处理文本中存在于所述文号字典树的文本;根据所述文本匹配结果对所述待处理文本进行实体链接。
[0092]
具体的,根据所述文本匹配结果对所述待处理文本进行实体链接,包括:对所述待处理文本中符合预设规则的所述标题文本和所述文号文本进行实体链接;其中,所述预设规则为所述标题文本和所述文号文本之间不存在间隔,或,所述标题文本和所述文号文本之间只存在书名号和/或括号;和/或,将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本,查询所述待处理文本中距离所述无文号标题文本最近的时间文本,根据所述时间文本和所述无文号标题文本进行实体链接。
[0093]
在构建完成法规标题和文号的字典树后,本实施例可以利用多模匹配算法(如ac自动机)找到任意文本中存在于树中的标题和文号及为止,也就是可以进行涉税文本的实体链接。法规的实体链接分为最大文本匹配召回和统计规则排序这两个步骤。
[0094]
最大文本匹配是指,对于一段文本中通过ac自动机找到的词,如果长的词语完全包含了短的词,我们返回最长的那个词。以“本公告自2021年4月 1日起施行。《某局关于小规模纳税人免征增值税政策有关征管问题的公告》 (2019年第4号)同时废止。”这段话为例,树会发现三个结果,1.某局关于小规模纳税人免征增值税政策有关征管问题的公告。2.关于小规模纳税人免征增值税政策有关征管问题的公告。3.2019年第4号。其中,1和2指的都是同一个法规的标题,2被1完全包含,我们选择片段1。在法规实体链接的应用场景下,最大文本匹配的准确率得到了很好的验证。
[0095]
通过最大文本匹配后我们得到了法规a的文本中提到的一系列的法规标题和法规文号,由于某一个文本片段可能对应有多个法规(比如个人所得税法,按照不同年份颁发的不同个人所得税法都有个人所得税法这个名称),我们整理了如下的统计规则来进行筛选。
[0096]
统计规则1:当标题在文号之前,并且和文号仅间隔书名号和括号时,它们指的是同一个法规。
[0097]
统计规则2:当仅发现标题没有发现文号时,根据离这个标题最近的时间戳和这个标题可能对应的法规的具体文号的年份进行对比,返回结果。
[0098]
单个涉税法规的实体链接在单线程(cpu型号为intel xeon silver 4210@ 2.20ghz)的情况下可以在30ms之内完成。
[0099]
请参见图4,图4为本技术实施例所提供的一种文本实体链接系统的结构示意图;
[0100]
该系统可以包括:
[0101]
法规采集模块401,用于获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
[0102]
字典树生成模块402,用于根据所述法规标题生成对应的标题字典树;还用于根据所述法规文号生成对应的文号字典树;
[0103]
实体链接模块403,用于若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
[0104]
本实施例获取目标法规的法规文本,并提取法规文本的法规标题和法规文号。法规标题用于描述法规的名称、类型、内容等信息,法规文号用于描述法规的文件编号,法规文号可以包括发文日期、发文序号等信息。本实施例根据法规标题构建标题字典树,根据法规文号生成对应的文号字典树,进而利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,因此本实施例能够提高对法规文本进行实体链接的效率和准确率。
[0105]
具体的,法规采集模块401,可以从权威网站进行法规采集,并根据法规中的修订关系进行法规补充,自动化更新工具可以实现法规的更新。字典树生成模块402可以对法规进行文本处理、ac自动机处理和字典树生成操作,得到标题字典树和文号字典树。实体链接模块403可以进行最大文本匹配、并给予统计规则进行实体链接。本实施例建立了完整、及时更新的法规库,其次构建了不依赖人工的,全自动的法规实体链接算法。对所有法规、法规政策解读、法规相关问答等等涉税文本,均可无差别地实现对引用法规的链接。
[0106]
进一步的,法规采集模块401用于从目标网站中爬取所述目标法规的法规文本;从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。
[0107]
进一步的,还包括:
[0108]
字典构建模块,用于在从所述法规文本中提取法规标题和法规文号之后,对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;还用于为所述法规文本设置唯一对应的法规 id,根据所述法规id与所述法规标题的对应关系生成法规标题字典,根据所述法规id与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规id;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规id;
[0109]
相应的,字典树生成模块402用于根据所述法规标题字典中的法规标题生成对应的所述标题字典树;还用于根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
[0110]
进一步的,字典构建模块对所述法规标题和所述法规文号进行拓展的过程包括:对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/ 或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。
[0111]
进一步的,实体链接模块403用于利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹配结果;其中,所述文本匹配结果包括标题文本和/或文号文本,所述标题文本为所述待处理文本中存在于所述标题字典树的文本,所述文号文本为所述待处理文本中存在于所述文号字典树的文本;还用于根据所述文本匹配结果对所述待处理文本进行实体链接。
[0112]
进一步的,实体链接模块403根据所述文本匹配结果对所述待处理文本进行实体链接的过程包括:对所述待处理文本中符合预设规则的所述标题文本和所述文号文本进行实体链接;其中,所述预设规则为所述标题文本和所述文号文本之间不存在间隔,或,所述标题文本和所述文号文本之间只存在书名号和/或括号;和/或,将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本,查询所述待处理文本中距离所述无文号标题文本最近的时间文本,根据所述时间文本和所述无文号标题文本进行实体链接。
[0113]
进一步的,实体链接模块403用于利用所述标题字典树和所述文号字典树确定所述待处理文本中的实体;所述实体包括法规标题和法规文号的文本;还用于根据所述实体与所述法规文本的对应关系对所述待处理文本进行实体链接,以使所述实体被点击后跳转至对应的法规文本。
[0114]
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0115]
下面通过实际应用中的实施例说明上述文本实体链接系统对税收法规处理的应用:
[0116]
调控经济、促进社会公平已经成为目前国家税收的主要目标,正式起草和发布后的法规是税务从业者和纳税人一切征纳税行为的依据。税收法规既要涵盖多个税种和各行各业的纳税人完全不同的经营状况,又要根据时代的进步,科技的发展而不断更新修订。单个政策法规可能不断迭代更新,多个法规之间可能也会存在有互相引用的关系,地方级的法规可能是中央发布的法规的补充和扩展
……
纳税人的单个具体业务问题可能需要查阅
多个法规才能得到解答,因而,涉税文本(包括法规、解读文件、涉税问答等)中若有文本片段提及其他法规,能够将这段文本链接到正确的法规上的需求是非常迫切的。税务是行业壁垒较高的领域之一,由于种种原因,互联网上暂时没有一个完整、全面(包含从中央到地方各级)的税收法规政策库。现有的税收法规产品基本是靠关键词或者纯人工进行法规配对。同时,税收政策的发布频率较为频繁,意味着这个法规的实体链接功能需要能链接到提及的所有法规,并且及时链接到新增的法规上去。
[0117]
现有的针对涉税文本的实体链接结果,链接到的法规本身就是不完整的。同时,由于同一个法规可能有多种不同的引用格式,仅仅靠关键词匹配和标点符号(书名号、括号等)匹配并不准确,这导致后续对运营人员的工作量要求大且任务繁重;再加上法规更新较快,对实体链接的实时性的需求,极大地提高了对人力资源的需求。为了解决上述问题,本实施例提出了一种基于税收知识图谱的法规实体链接方案,该方案既能全地包括所有的政策法规,又能够自动化更新,又快又好地完成涉税文本中的法规实体链接任务的方法。本实施例提出了一种先进行完整地法规采集,后通过ac自动机和统计规则来实现法规实体链接的自动化技术方案,极大地降低了对人力资源的需求。
[0118]
法规采集模块在没有任何数据时,从权威网站通过合乎规范的网络爬虫、网页查询等方法,将税收法规爬取下来并存储到法规库中。在基于已有税收法规中的法规关联信息获得了新的一批法规目录。基于这一批目录中的每一个法规,再进行单独的网络爬虫爬取,以此来补充的法规库。经过一段时间的操作后,我们几乎采集到了绝大多数存量法规。之后,我们将上述流程的代码整理后,即可根据发布日期,自动完成从权威网站爬取—法规关系抽取—新增法规爬取的过程。虽然法规之间的引用关系都是通过名称和文号进行的,但实际法规中引用的部分文本并不绝对规范,引用的法规标题可能缺失或者冗余,可能没有发布单位,可能没有文号。针对以上问题,字典树生成模块通过对法规文本进行数据分析后的统计规则,我们对规范化的标题和文号进行特殊处理和扩展。并以每一个加工后的标题和文号作为字典(dict)的 key,value即为其可能对应的法规的id的list(列表)。在构建完成法规标题和文号的字典树后,实体链接模块可以找到任意文本中存在于树中的法规标题和法规文号及为止,也就是可以进行涉税文本的实体链接。本实施例提出并探索成功了一种对税收专业领域的法规进行实体链接的方案,本方案可以变换后复用到其他领域的法规实体链接中。本实施例建立了完整、及时更新的税收法规库,其次构建了不依赖人工的,全自动的法规实体链接算法。对所有的税收法规、法规政策解读、税收相关问答等等涉税文本,均可无差别地实现对引用法规的链接。
[0119]
本技术还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(randomaccess memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0120]
本技术还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
[0121]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而
言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
[0122]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献