一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能行政执法案例信息抽取和案由认定方法

2022-06-01 04:17:24 来源:中国专利 TAG:


1.本发明涉及一种智能行政执法案例信息抽取和案由认定方法,属于法律人工智能的技术领域。


背景技术:

2.随着我国的法律制度不断发展,法律文书越来越完善,对法律文书的格式、内容都做出了比较细致的规定,而且法律文书的理论研究工作也有了很大的发展,因此,法律文书更加规范和完备。随着信息科技的不断进步,网络上有着大量的行政执法文书资源。而行政执法文书作为承载法律判决与信息的重要载体,其中蕴涵了大量的可用信息。如果能正确的提取并使用这些信息,会节省下大量的人力资源并给新的执法判决提供可靠的帮助。
3.同时,随着深度学习的不断发展,统计学习与深度学习结合的信息抽取模型得到了广泛的关注。通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题:两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。对于一对多的问题,也就是关系重叠问题,串联模型无法提供较好的解决方案。因此,近年来有许多工作都考虑将实体识别与关系抽取任务进行联合建模,这种end-to-end的模型直觉上会有更优的效果。
4.为了加强两个子模型之间的交互,一些联合解码算法被提出:2014年li qi等提出了将实体关系抽取看为一个结构化预测问题,采用结构化感知机算法,设计了全局特征,并使用集束搜索进行近似联合解码。2016年arzoo katiyar等提出了利用条件随机场(crf)同时建模实体和关系模型,并通过维特比解码算法得到实体和关系的输出结果。2017年zhang meishan等提出了使用全局归一化(global normalization)解码算法。2017年自动化所的zheng suncong等针对实体关系抽取设计了一套转移系统(transition system),从而实现联合实体关系抽取。但是,上述统一实体和关系标注框架不能完全解决关系重叠等问题,所以在特定场景下,需要引入一些后处理规则进行约束。且由于上述的大部分算法使用的是序列模型导致训练时间较慢。
5.目前,在对行政执法文书进行文本分析时,往往受限于数据的非结构化特征,信息容量大,内容表示复杂,信息字段表示多样化,这些问题都对行政执法文书的信息抽取和结构化提出了更高要求。针对行政执法文书的信息抽取,2018年南京大学的葛季栋等提出了分段特征规则模型,将文书作为逻辑段处理并针对设计规则。2019年戴广宇等提出了重点词集合与关键词集合匹配的法律文书信息抽取模型,提高用户从法律文书中获取信息的效率。2020年席丽娜等提出了针对目标区块构建基于规则的要素树方法,可以自动化抽取行政执法文书中的基本要素。2020年白雄文等提出一种基于自注意力机制的序列到序列神经网络的法律裁判文信息抽取方法,可以提高法律要素的提取效率与准确度。2020年李丹等提出了基于规则和模型结合的法律文书信息抽取方法,将规则与模型的方法有效结合、形
成互补,提高法律文书信息提取效果,同时提高了可拓展性和移植性。此类方法都是基于规则的方法,其简单便捷,准确率也可以达到要求。但是,往往在面临数据变动时需要更改和增加新的正则语句,即通用性较差。而且不同地区的行政执法文书的内容格式会有差别,导致基于正则化的方法限制性较高。
6.近年来,自然语言处理在司法领域得到了广泛应用,法律人工智能领域备受关注。人工智能技术可以极大地提升信息抽取的效率和准确率,为从业人员带来方便。然而简单的基于深度学习或机器学习的方式受文本长度、上下文信息等方面影响,效果有待提升。此外,往往抽取出的结果不适用与所有下游任务的分析,因为抽取出的仅仅是一些实体和关系,无法直接的应用到下游的任务上。因此,针对统计学习领域模型信息抽取准确率低,统一的深度学习抽取模型不能完全解决关系重叠问题,速度较慢等问题。以及它们所共同存在的抽取结果不适用与所有的下游自然语言处理任务的问题,需要提出新的适用于法律文书信息抽取的模型。


技术实现要素:

7.针对现有技术的不足,本发明提供一种基于dgcnn的高准确率高利用率的信息抽取与案由认定方法。
8.本发明为解决现有司法领域存在的行政处罚决定书信息抽取效率低、准确率不高,且抽取出来的实体无法进一步使用等问题,提出了一种行政处罚决定书的信息抽取方法,将文书的长文本提取后作为输入,进一步生成符合目前主流nlp任务所需要的短文本格式。
9.发明概述:
10.本发明的目的是解决现有司法领域存在的行政处罚文书信息抽取准确率不高且抽取结果不适用于下游nlp子任务的问题。提供了一种高准确率高利用率的行政执法文书信息抽取与案由认定方法。
11.本发明主要包括五个部分:行政执法文书命名实体识别、行政执法文书中法律相关术语抽取、行政执法文书中案件人物关系抽取、行政执法文书中案情事件抽取、抽取结果组合生成短文本。行政执法文文书命名实体识别即研究如何对存在于行政执法文书中的所有实体进行识别、分类,如时间、地点、案情相关主客体,该研究旨在提升命名实体抽取效果;法律相关术语抽取即研究如何对文书中的法律领域专业表达进行抽取,如相关法律条款、执法判决等,任务旨在研究如何通过与法律知识库融合提升识别效果;案件人物关系是文书中的关键特征要素,该内容主要研究如何通过文书中人物实体、属性、关系的抽取,提升下游辅助决策任务的效果。案情事件抽取研究如何对案件关键性事件文本描述进行抽取,即从案件中找到核心信息。抽取结果组合生成短文本旨在把信息抽取的结果进行进一步的处理,生成适合当前各种nlp方法,可以分析的短文本且不丢失关键信息,这一步骤大大提升了抽取出的信息的作用,为下游任务提供了良好的铺垫作用。
12.术语解释:
13.1、jieba:jieba库是一款优秀的python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。
14.2、行政处罚文书:行政处罚决定书是行政管理机关针对当事人的违法行为,在经
过调查取证掌握违法证据的基础上,制作的记载当事人违法事实、处罚理由、依据和决定等事项的具有法律强制力的书面法律文书。
15.3、信息抽取:即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。
16.4、dgcnn(dilate gated convolutional neural network):即“膨胀门卷积神经网络”,融合了两个比较新的卷积用法:膨胀卷积、门卷积,并增加了一些人工特征和trick,最终使得模型在轻、快的基础上达到最佳的效果。
17.5、rouge(recall-oriented understudy for gisting evaluation):是评估自动文摘和机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较,统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的相似度。
18.6、tokenizer:是tensorflow中常使用的工具包。使用它我们可以对文本进行预处理,序列化,向量化等。tokenizer基于矢量化语料库、单词数、tf-idf等,将每个文本转换为整数序列(每个整数是字典中标记的索引)或转换成矢量(其中每个标记的系数可以是二进制的)。
19.7、chinese_roberta_wwm_ext_l-12_h-768_a-12:是哈工大联合讯飞实验室针对谷歌在2019年5月31日发布的一项bert的升级版本,主要更改了原预训练阶段的训练样本生成策略。原有基于wordpiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。这里采用的是全词mask,即如果一个完整的词的部分wordpiece子词被mask,则同属该词的其他部分也会被mask。
20.8、early stopping:是控制过拟合的一种常用方法。训练深度学习神经网络的时候通常希望能获得最好的泛化性能(generalization performance,即可以很好地拟合数据)。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合:当网络在训练集上表现越来越好,错误率越来越低的时候,实际上在某一刻,它在测试集的表现已经开始变差。用early stopping可以有效的避免上述情况的发生。
21.本发明的技术方案如下:
22.一种智能行政执法案例信息抽取和案由认定方法,包括步骤如下:
23.a、数据集的构建:爬取行政处罚决定书,提取其中的文本内容,对文本内容中的短文本进行标注;
24.b、语料转换:
25.将行政执法文书中所有长句按照标点符号分割为短句;
26.将步骤a数据集中标注的短文本根据标点符号进行分句;
27.在短文本中找到最长的短句,把这个最长的短句作为标准,从行政处罚文书中找出与这个最长的短句相似的句子,提取并保存,递归执行直到短文本中所有的语句都被执行过一次;
28.c、抽取数据预处理及向量化:
29.步骤b在行政执法文书中抽出了与标签即短文本相似的语句;
30.对抽取出的文本进行过滤,将文本转换成以空格分割的句子序列;将句子序列编码索引;
31.对得到的文本数据进行全局平均池化之后再引入全词mask的bert预训练中文模型,补充平均池化,把分割的句子序列转换为句子向量;
32.d、基于dgcnn的抽取模型的训练:
33.将步骤b中在行政执法文书中抽出的与标签即短文本的句子向量当作标签,将行政执法文书整个文本生成的句子向量作为输入,训练抽取模型;
34.e、基于unilm的短文本生成:
35.将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入,人工标注的短文本作为标签,训练生成模型;
36.f、输入执法文书文本进行预测:
37.将需要转化的行政执法文书通过步骤a至步骤c处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本,最终得到抽取结果和适合下游其他任务分析的短文本。
38.进一步优选的,步骤a中,对文本内容进行标注,是指:从行政执法文书中提取所有需要的关键字段,并根据语义重新组合成新的一段仅包括关键目的信息的短文本;在行政处罚文书中对这些短文本进行标注。
39.根据本发明优选的,步骤b中,
40.将行政执法文书中所有长句按照标点符号分割为短句,具体是指:采用jieba分词将行政执法文书文本根据标点符号分割成句子格式,并保存为列表中的元素。
41.将步骤a数据集中标注的短文本根据标点符号进行分句,具体是指:采用jieba分词将标注的短文本分割成短句格式,并保存为数组格式。
42.提取数组中的最长的短句,在列表中的行政执法文书中进行匹配,提取列表中的行政执法文书中和最长的短句最相似的句子并保存,递归地执行此步骤,直到将数组中所有的句子都匹配一遍。
43.进一步优选的,提取列表中的行政执法文书中和最长的短句最相似的句子,具体实现过程如下:
44.假设x1是标注短文本序列x=[x1,x2,...xn]中的一个句子,ym是行政执法文书序列y=[y1,y2,...ym]中的一个句子,则flcs如式(1)所示:
[0045][0046]
式(1)中,r
lcs
是指召回率,是抽取出的文本与短文本中相同字的个数,与人工标签即短文本中字的个数的比值;p
lcs
是指准确率,是指抽取出的文本与短文本中相同字的个数,与抽取出字的总个数的比值;f
lcs
就是rouge-l;
[0047]
针对将标注短文本序列x中的一个句子xn与行政执法文书序列中的所有句子yj,j=1,2...m;计算f
lcs
,取使得f
lcs
分数最高的行政执法文书序列中的句子yk作为最相似语句并保存,递归地进行此步骤,直到标注短文本序列x中所有句子都匹配完成,将抽取结果保存为r,即为最相似的句子。
[0048]
根据本发明优选的,步骤c的具体实现过程如下:
[0049]
首先,利用tensorflow中的tokenizer工具包去除文本中的标点符号、换行符号进行文本预处理。
[0050]
然后,利用tokenizer工具包的fit_on_texts方法学习出文本的字典,word_index就是对应的单词和数字的映射关系dict,通过这个dict将每个句子中的每个词转成数字,即texts_to_sequences;
[0051]
再次,通过padding的方法补成同样长度;在用keras中自带的embedding层进行一个向量化;
[0052]
最后,引入全词mask的bert预训练中文模型即chinese_roberta_wwm_ext_l-12_h-768_a-12预训练模型来补充平均池化。
[0053]
根据本发明优选的,步骤d的具体实现过程如下:
[0054]
将步骤c得到的行政执法文书文本对应的句子向量当作抽取模型的输入,通过一层的dgcnn提取特征,将提取的特征输入attention层来完成对序列信息的整合,包括将行政执法文书的句子向量序列编码为一个总的行政执法文书文本向量,将标注短文本的句子向量编码为一个总的标注短文本向量,attention层如式(2)所示:
[0055][0056]
式(2)中,α,w都为可训练参数,而act()为激活函数,取tanch;xi是编码前的序列,x是编码完成后的向量,λi是计算时的权重,softmaxi()是激活函数函数,又称归一化指数函数;
[0057]
之后,把步骤c得到的总的行政执法文书文本对应的句子向量x作为输入,将抽取出的最相似句子向量y作为对应的标签,输入5层dgcnn,之后连接一层全连接层;采用sigmoid激活函数激活之后,与指定的阈值进行比较,大于阈值的句子向量保存为列表,小于阈值的向量丢弃,之后将句子向量解码为原文本最终得到信息抽取结果。
[0058]
进一步优选的,dgcnn是膨胀门卷积神经网络,其搭建方式如下:首先,给普通的一维卷积加
[0059]
个门,公式表示如式(3)所示:
[0060][0061]
式(3)中,其中,x表示输入序列,y表示输出序列,conv1d1和conv1d2是两个一维卷积;
[0062]
接下来,使用膨胀卷积;具体是指:先将输入x通过一层全连接层提取特征后输入扩张率为1的膨胀门卷积层,再将输出输入到扩张率为2的膨胀门卷积层;之后再连接一层扩张率为4的膨胀门卷积层和一层扩张率为8的膨胀门卷积层;最后连接两层扩张率为1的膨胀门卷积层后,通过sigmoid激活的全连接层后输出结果y。
[0063]
根据本发明优选的,步骤e的具体实现过程如下:
[0064]
a、将步骤b中行政执法文书数据y和对应的标注短文本x分组成n条,分组的标准是:n-1条数据作为训练集给步骤d中的抽取模型训练,在预测阶段使用那条没有被训练的数据作为输入来预测生成短文本,把这个步骤重复进行n次,直到所有数据都被训练到和作为预测的输入时停止,这样就得到全部行政执法文书文本的抽取短文本,记为c;
[0065]
b、将分组后得到的数据输入unilm网络进行训练:
[0066]
首先,把读取到的一段抽取短文本序列c进行打包,结果为p0=[x1,x2,...x
x
];
[0067]
然后,将上述打包结果p0输入一个k层的transformer,即pk=transformerk(p
k-1
),k∈[1,k];这样,p通过k层transformer,将p0编码成在不同抽象层面pk=[x
1k
,x
2k
,...x
xk
]上的上下文向量表征;
[0068]
对于第k层transformer,其自注意头ak的输出计算方式如式(4)所示:
[0069][0070]
式(4)中,q,k,v为三个向量,是训练出来的权重矩阵,k∈[1,k];m是掩码矩阵,m
ij
是掩码矩阵的元素,表示是否被关注,0表示受到关注,负无穷表示被掩码;dk表示矩阵k的维数,ak和vk的下标k表示第k层。
[0071]
在unilm网络的seq2seq模型的解码阶段加一个序列预测任务,即将decoder建模阶段对每个token的分布p(y
t
|y
<t
,x)的预测变为多预测一个标签,如式(5)所示:
[0072]
p(y
t
,z
t
∣y
<t
,x)=p(y
t
∣y
<t
,x)p(z
t
∣y
<t
,x)
ꢀꢀ
(5)
[0073]
式(5)中,z是标注短文本与行政执法文书文本的最长公共子序列;
[0074]
在预测阶段,对每一步,先预测标签z
t
,如果z
t
不出现在行政执法文书文本中,那么不用改变,如果z
t
出现在行政执法文书文本中且是一句话的开始字段,那么在token的分布中mask掉所有不在原文中的token,如果z
t
出现在行政执法文书文本中且和前面的token是连续的片段,那么在token的分布中mask掉所有不能组成原文中对应的n-gram的token。
[0075]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现智能行政执法案例信息抽取和案由认定方法的步骤。
[0076]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现智能行政执法案例信息抽取和案由认定方法的步骤。
[0077]
本发明的有益效果为:
[0078]
1、本发明通过采用dgcnn作为抽取模型,利用其非序列化的神经网络结构特点进行文本数据的信息抽取,大大减少了所耗费的时间资源和计算资源,并且提升了抽取的准确性。
[0079]
2、本发明提供的训练数据结合bert生成句子向量的方法减少了对数据量的依赖,在标注数据较少时也能起到不错的效果。
[0080]
3、本发明提供的信息抽取思路在构造训练集时不需要对原文本中所有需要抽取的信息进行标注,只需要提供需要的短文本信息,就能实现原文中的信息抽取。节省了人力资源。
[0081]
4、本发明提出的基于抽取与生成结合的行政执法文书信息抽取方法,不仅满足了传统的信息抽取任务还为其他如案由分析,相似行政执法文书推荐等下游其他任务提供了实用的短文本信息。
附图说明
[0082]
图1为模型训练过程示意图;
[0083]
图2为dgcnn的搭建示意图;
[0084]
图3为抽取模型的神经网络架构示意图;
[0085]
图4为本发明中seq2seq的mask方法示意图;
[0086]
图5为本发明中unilm神经网络做seq2seq模型示意图;
[0087]
图6为unilm网络的架构示意图;
[0088]
图7为智能行政执法案例信息抽取和案由认定方法的流程示意图;
具体实施方式
[0089]
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
[0090]
实施例1
[0091]
一种智能行政执法案例信息抽取和案由认定方法,如图7所示,包括步骤如下:
[0092]
如图1所示,模型训练过程包括步骤a至步骤e;
[0093]
a、数据集的构建:从网站上爬取行政处罚决定书,提取标签为html的文本内容,对文本内容中的短文本进行标注;
[0094]
b、语料转换:
[0095]
将行政执法文书中所有长句按照标点符号分割为短句;
[0096]
将步骤a数据集中标注的短文本根据标点符号进行分句;
[0097]
在短文本中找到最长的短句,把这个最长的短句作为标准,从行政处罚文书中找出与这个最长的短句相似的句子,提取并保存,递归执行直到短文本中所有的语句都被执行过一次;
[0098]
c、抽取数据预处理及向量化:
[0099]
步骤b在行政执法文书中抽出了与标签即短文本相似的语句;
[0100]
对抽取出的文本进行过滤,即:过滤掉所有的标点符号加上制表符和换行符,将文本转换成以空格分割的句子序列;将句子序列编码索引;
[0101]
对得到的文本数据进行全局平均池化之后再引入哈工大版的全词mask的bert预训练中文模型,补充平均池化,把分割的句子序列转换为句子向量;
[0102]
d、基于dgcnn的抽取模型的训练:
[0103]
上述步骤c中生成的句子向量相当于预处理,将步骤b中在行政执法文书中抽出的与标签即短文本的句子向量当作标签,将行政执法文书整个文本生成的句子向量作为输入,训练抽取模型;这一步是抽取模型的关键,目的是训练出一个可以从行政执法文书中抽取关键知识的模型。
[0104]
e、基于unilm的短文本生成:
[0105]
为了生成与标签中短文本最为匹配的一段文本,需要对抽取出来的行政执法文书中的关键内容进行组合。将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入,人工标注的短文本作为标签,训练生成模型;
[0106]
f、输入执法文书文本进行预测:
[0107]
将需要转化的行政执法文书通过步骤a至步骤c处理后,将得到的处理结果输入训
练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本,最终得到抽取结果和适合下游其他任务分析的短文本。
[0108]
实施例2
[0109]
根据实施例1所述的一种智能行政执法案例信息抽取和案由认定方法,其区别在于:
[0110]
进一步优选的,步骤a中,对文本内容进行标注,是指:从行政执法文书中提取所有需要的关键字段,并根据语义重新组合成新的一段仅包括关键目的信息的短文本;在行政处罚文书中对这些短文本进行标注。
[0111]
具体的,从行政处罚文书网爬取获取行政处罚决定书,并提取标签为html的文本内容。之后对文本内容进行标注,具体是指:人工提取文本中的重要信息,并根据语义将这些信息进行组合,添加适当的关联词和修改句子顺序,标注结果是生成一段通顺流畅并且符合语义的短文本。将上述标注的短文本中出现的具体在原文中也进行标注。这里总共标注9697条数据,格式为{原行政执法文书文本,标注短文本}。将标注数据集保存为json格式,放在对应文件目录下。将上述标注的短文本中出现的具体在原文中也进行标注,这样的目的是使模型输入更多的准确标签,提升效果。但是为了减少人工成本人,这一步也可以用舍去,最终的提取效果不会有太大差别。
[0112]
步骤b中,将行政执法文书中所有长句按照标点符号分割为短句,具体是指:采用jieba分词将行政执法文书文本根据标点符号分割成句子格式,并保存为列表中的元素。
[0113]
将步骤a数据集中标注的短文本根据标点符号进行分句,具体是指:采用jieba分词将标注的短文本分割成短句格式,并保存为数组格式。
[0114]
提取数组中的最长的短句,在列表中的行政执法文书中进行匹配,提取列表中的行政执法文书中和最长的短句最相似的句子并保存,递归地执行此步骤,直到将数组中所有的句子都匹配一遍。注意这里衡量句子之间是否相似的标准是采用以字为单位的加权rouge与以词为单位的加权rouge相结合来计算。因为单纯以词为单位会降低长词的权重导致越长的词抽取越不准,但是仅仅以字为单位会降低专有名词准确率。为了平衡两者的关系,最终选择以字为单位的加权rouge权重为0.7,以词为单位的加权rouge权重为0.3。
[0115]
提取列表中的行政执法文书中和最长的短句最相似的句子,具体实现过程如下:
[0116]
rouge-l是一个基于recall的度量指标,其中l为指最长公共子序列。
[0117]
首先,定义最长公共子句longest common subsequence(lcs):假设存在x=[x1,x2,...xn]和y=[y1,y2,...ym],如果存在严格递增序列[i1,i2,...ik]是x的索引,对于每个j=1,2...k,总有x
ij
=yj,则y是x的子序列;序列x与序列y的最大长度的公共子序列称为lcs,用lcs(x,y)表示,这里使用基于lcs的f-measure来评价两个句子x和y的相似性;假设x1是标注短文本序列x=[x1,x2,...xn]中的一个句子,此处为最高人民法院关于民事诉讼证据的若干规定,ym是行政执法文书序列y=[y1,y2,...ym]中的一个句子,此处为中华人民共和国民事诉讼法;则flcs如式(1)所示:
[0118][0119]
式(1)中,r
lcs
是指召回率,是抽取出的文本与短文本中相同字的个数,与人工标签即短文本中字的个数的比值;p
lcs
是指准确率,是指抽取出的文本与短文本中相同字的个数,与抽取出字的总个数的比值;f
lcs
就是rouge-l;是长公共子序列的重合率计算的一种方法与评价指标。综上,相似度计算结果为flcs=0.41167*0.7=0.2882。保留该抽取词汇。
[0120]
针对将标注短文本序列x中的一个句子xn与行政执法文书序列中的所有句子yj,j=1,2...m;计算f
lcs
,取使得f
lcs
分数最高的行政执法文书序列中的句子yk作为最相似语句并保存,递归地进行此步骤,直到标注短文本序列x中所有句子都匹配完成,将抽取结果保存为r,即为最相似的句子。进行评价时主要考虑求全,即考虑抽取结果的充分性与忠实性。
[0121]
步骤c的具体实现过程如下:
[0122]
首先,利用tensorflow中的tokenizer工具包去除文本中的标点符号、换行符号进行文本预处理。
[0123]
由于计算机在处理语言文字时,无法理解文字的含义,所以需要把一个词(中文单个字或者词组认为是一个词)转化为一个正整数,于是需要把一个文本变成了一个序列供计算机处理。然后,利用tokenizer工具包的fit_on_texts方法学习出文本的字典,word_index就是对应的单词和数字的映射关系dict,通过这个dict将每个句子中的每个词转成数字,即texts_to_sequences;
[0124]
再次,通过padding的方法补成同样长度;在用keras中自带的embedding层进行一个向量化;向量化之后采用全局平均池化降低数据量大小。
[0125]
最后,引入全词mask的bert预训练中文模型即chinese_roberta_wwm_ext_l-12_h-768_a-12预训练模型来补充平均池化。向量化之后采用全局平均池化降低数据量大小。
[0126]
步骤d的具体实现过程如下:
[0127]
如图3所示,将步骤c得到的行政执法文书文本对应的句子向量当作抽取模型的输入,通过一层的dgcnn提取特征,将提取的特征输入attention层来完成对序列信息的整合,包括将行政执法文书的句子向量序列编码为一个总的行政执法文书文本向量,将标注短文本的句子向量编码为一个总的标注短文本向量,attention层如式(2)所示:
[0128][0129]
式(2)中,α,w都为可训练参数,而act()为激活函数,取tanch;xi是编码前的序列,x是编码完成后的向量,λi是计算时的权重,softmaxi()是激活函数函数,又称归一化指数函数;把输入映射为0-1之间的实数,并且归一化保证和为1。
[0130]
之后,把步骤c得到的总的行政执法文书文本对应的句子向量x作为输入,将抽取出的最相似句子向量y作为对应的标签,输入5层dgcnn,之后连接一层全连接层;采用
sigmoid激活函数激活之后,与指定的阈值进行比较,大于阈值的句子向量保存为列表,小于阈值的向量丢弃,之后将句子向量解码为原文本最终得到信息抽取结果。
[0131]
指定的阈值是用来做earlystop的,理论的范围应当在(0,1)之间。其设置标准为希望模型抽取结果较全面,即注重泛化效果时,应当设置一个较低的数值,如0.2,0.15等。当注重抽取结果的精度即准确性时,应当设置一个较高的数值,如0.3,0.35等。其理论取值范围为(0,1),但是实际应用中其取值不宜超过0.5。
[0132]
进一步优选的,dgcnn是膨胀门卷积神经网络,结合了门控机制和膨胀机制。如图2所示,其
[0133]
搭建方式如下:首先,给普通的一维卷积加个门,公式表示如式(3)所示:
[0134][0135]
式(3)中,其中,x表示输入序列,y表示输出序列,conv1d1和conv1d2是两个一维卷积;它们的形式一样(比如卷积核数、窗口大小都一样),但权值是不共享的,也就是说参数翻倍了,σ表示conv1d2用sigmoid函数激活,另外一个不加激活函数,表示将它们逐位相乘。因为sigmoid函数的值域是(0,1),所以就是给conv1d的每个输出都加了一个“阀门”来控制流量。这样做的一个好处是梯度消失的风险更低,因为有一个卷积是不加任意激活函数的,没加激活函数的这部分卷积不容易梯度消失。
[0136]
接下来,为了使得cnn模型能够捕捉更远的的距离,并且又不至于增加模型参数,需要使用膨胀卷积;与普通的卷积相比,膨胀卷积除了卷积核的大小以外,还有一个扩张率(dilation rate)参数,主要用来表示扩张的大小。膨胀卷积与普通卷积的相同点在于,卷积核的大小是一样的,在神经网络中即参数数量不变,区别在于扩张卷积具有更大的感受野。即可以捕捉更长序列之间的联系又不至于扩大模型参数。具体是指:先将输入x通过一层全连接层提取特征后输入扩张率为1的膨胀门卷积层,再将输出输入到扩张率为2的膨胀门卷积层;之后再连接一层扩张率为4的膨胀门卷积层和一层扩张率为8的膨胀门卷积层;最后连接两层扩张率为1的膨胀门卷积层后,通过sigmoid激活的全连接层后输出结果y。
[0137]
步骤e的具体实现过程如下:
[0138]
a、在把上述抽取模型结果输入到unilm网络之前,需要对数据进行转换。由于在训练集中,抽取和生成两个模型都会接受标注短文本的标签。解决由此带来的过拟合问题,将步骤b中行政执法文书数据y和对应的标注短文本x分组成n条,分组的标准是:n-1条数据作为训练集给步骤d中的抽取模型训练,在预测阶段使用那条没有被训练的数据作为输入来预测生成短文本,把这个步骤重复进行n次,直到所有数据都被训练到和作为预测的输入时停止,这样就得到全部行政执法文书文本的抽取短文本,记为c;并且尽可能地提升了模型在训练和预测阶段的一致性。
[0139]
b、将分组后得到的数据输入unilm网络进行训练:
[0140]
首先,把读取到的一段抽取短文本序列c进行打包,结果为p0=[x1,x2,...x
x
];
[0141]
然后,将上述打包结果p0输入一个k层的transformer,即pk=transformerk(p
k-1
),k∈[1,k];这样,p通过k层transformer,将p0编码成在不同抽象层面pk=[x
1k
,x
2k
,...x
xk
]上的上下文向量表征;
[0142]
对于第k层transformer,其自注意头ak的输出计算方式如式(4)所示:
[0143][0144]
式(4)中,q,k,v为三个向量,是训练出来的权重矩阵,k∈[1,k];m是掩码矩阵,m
ij
是掩码矩阵的元素,表示是否被关注,0表示受到关注,负无穷表示被掩码;dk表示矩阵k的维数,ak和vk的下标k表示第k层。
[0145]
unilm网络包括24层transformer,其中,设置1024个hidden size和16个attention heads;使用的初始化生成模型参数是nezha_base,dropout比例为0.1,权重衰减因子为0.01;
[0146]
损失函数为交叉熵损失,采用seq2seq的方式生成短文本。
[0147]
使用自注意掩码进行预训练,令s1和s2分别表示抽取短文本序列和标注短文本序列,构建输入「[sos]s1[eos]s2[eos]」。
[0148]
生成模型的微调是通过随机掩盖目标序列中一定比例的token,并学习恢复被掩盖的词。
[0149]
训练目标是基于上下文最大化被掩盖token的似然度。训练设置30个epochs,微调的超参数与预训练的时候一致,target token被mask的比例为0.7,batch size设置为8,最大长度1024,标签平滑设置为0.1,训练时target端的结束标识[eos]也被mask,让生成模型学习预测,以次使生成模型学会自动结束,完成训练目标。
[0150]
为了保证生成短文本中的词汇和行政执法文书中专业词汇间的忠实性和准确率,在unilm网络的seq2seq模型的解码阶段加一个序列预测任务,即将decoder建模阶段对每个token的分布p(y
t
|y
<t
,x)的预测变为多预测一个标签,如式(5)所示:
[0151]
p(y
t
,z
t
∣y
<t
,x)=p(y
t
∣y
<t
,x)p(z
t
∣y
<t
,x)
ꢀꢀ
(5)
[0152]
式(5)中,z是标注短文本与行政执法文书文本的最长公共子序列;
[0153]
在预测阶段,对每一步,先预测标签z
t
,如果z
t
不出现在行政执法文书文本中,那么不用改变,如果z
t
出现在行政执法文书文本中且是一句话的开始字段,那么在token的分布中mask掉所有不在原文中的token,如果z
t
出现在行政执法文书文本中且和前面的token是连续的片段,那么在token的分布中mask掉所有不能组成原文中对应的n-gram的token。
[0154]
unilm网络总体结构如图6所示,将抽取模型的结果作为输入x,人工标注的摘要作为标签y。则有「[sos]x[eos]y[eos]」。左侧的x是已知序列,y是未知序列。所以,此处可以采用图4所示的结构,无需从“应”开始逐步预测,所以,仅仅预测经济补偿就可。其输入输出关系如图5所示:输入部分的attention为双向的,输出部分attention为单向。综上,unilm网络的具体设计为输入一串word序列「[sos]x[eos]y[eos]」。x是抽取模型的结果,y是人工标注的摘要。与bert一样,将其表征为segment embedding,position embedding,token embedding三种形式。将其输入24层transformer网络。transformer模块中,用头多自注意力来聚合前一层的输出向量。每一层通过掩码矩阵m控制注意力范围,如公式(4)中所示。训练过程中,源序列和目标序列被视作一个连续的文本序列,并通过随机mask来鼓励模型学
习这两个片段之间的关系,并同时训练双向的编码器和单向的解码器。最后target端的结束标识[eos]也会被mask,一遍让生成模型学习预测何时结束,完成训练目标。通过30个epochs的训练最终得到所需参数,完成训练。
[0155]
步骤f的具体实现过程如下:爬取行政执法文书文本,将行政执法文书文本进行语料转换。根据标点符号将行政执法文书文本分割成短句后再去除标点符号。后使用tokenizer结合预训练的bert模型将文本向量化。之后输入到dgcnn网络并输入训练参数对句子向量进行提取并保存,再对向量后再解码还原成文本并保存。将提取出的句子向量输入unilm并载入训练参数,生成最终的短文本结果。
[0156]
实施例3
[0157]
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2所述的智能行政执法案例信息抽取和案由认定方法的步骤。
[0158]
实施例4
[0159]
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1或2所述的智能行政执法案例信息抽取和案由认定方法的步骤。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献