文本摘要抽取方法、计算机装置、产品及存储介质与流程

2022-02-19 13:26:32 来源：中国专利 TAG：

1.本发明涉及文本摘要处理技术，特别是一种文本摘要抽取方法、装置、产品及存储介质。

背景技术：

2.随着公开司法裁判文书数量的迅速增加，自动司法摘要的需求越来越大。中文司法裁判文书具有结构冗长、逻辑严密的特点，抽取式摘要是一种行之有效的方法。然而，现有的抽取式摘要模型无法捕捉句子之间的信息。
3.司法裁判文书记录了法律案件的审理过程和结果，将审判活动公之于众，并且公布了判决的理由、依据和结果。它是法院确定和分配当事人实体权利和义务的证据。裁判文书包含了丰富的法律信息，包括案件类别、案由、诉请、事实和理由、裁判依据和裁判结果等。然而，司法裁判文书使用大量专业知识且篇幅较长，结构复杂，这给普通读者的阅读和理解带来了障碍。截至2021年5月28日22时，中国裁判文书网上的文书量已超过1.19亿份，总访问量超过620亿次，这就要求对公开裁判文书进行有效的自动汇总。
4.目前，自动文摘方法主要有抽取式和生成式两种。抽取式摘要即直接从原文中选取句子作为摘要，法律文本摘要的研究一般都是基于这种方法[1，2]。生成式摘要通过融合原始信息产生新的句子，但它存在未登录词(oov)和重复片段两个缺点。指针生成器[3]是一种典型的生成式摘要框架，它提出了复制和覆盖机制来缓解上述问题。然而，这种方法在处理冗长的法律文件中的大量未登录词时并不令人满意。此外，生成式摘要的计算成本非常高，面对大量司法裁判文书显得不现实。
[0005]
如何利用计算机处理法律文本一直是法律人工智能领域的核心问题[16
‑
18]。随着摘要技术在通用领域的发展，法律文本摘要的研究受到越来越多的关注。polsley等人[1]设计了一个基于词频和领域知识的法律文本摘要系统
‑‑
casesummarizer。liu等人[2]以语言信息、统计信息、法律信息和字词向量为特征，构造文本分类器进行文摘。
[0006]
抽取式摘要直接从原文中选取重要句子，然后对其进行排序和重组形成摘要。抽取方法可分为无监督和有监督。
[0007]
textrank[4]是一种经典的通过计算句子间相似度的无监督抽取摘要方法。liu等人[5]将稀疏编码技术应用到抽取式文摘任务中，将其视为一个优化问题。li等人[6]在稀疏编码的基础上加入了更详细的语法单位(名词和短语动词)，并重写了命名实体，以提高摘要的质量。fevry等人[7]增加噪声来扩充句子，并训练去噪的自动编码器来恢复原文，构建了端到端的训练机制。zheng等人[8]基于图的排序算法，并修改了节点(即句子)中心性的计算方式：使用bert来捕捉句子的语义，并构建具有有向边的图，认为任意两个节点对其各自中心性的贡献受它们在文档中的相对位置的影响。
[0008]
在有监督的方法中，抽取式摘要被视为二分类问题。cao等人[9]提出了递归神经网络(r2n2)的排序框架。他们将句子排序任务描述为一个分层回归过程，该过程同时测量句子及其组成部分在句法分析树中的显著程度。cheng等人[10]提出一种基于长短期记忆
(lstm)[19]和连续句子特征的数据驱动方法进行摘要。nallapati等人[11]提出summarunner，一个基于递归神经网络(rnn)的自动文摘序列模型，采用分层神经网络提取词、句子和文档之间的特征。随着预训练语言模型的提出，bert[20]在[12]中首次被应用于抽取式摘要。在这项工作中，在文档中的每个句子之前添加[cls]字符以获得它们的向量，并将其送入摘要层以获得最终的摘要。其中摘要层可以通过三种方式构建：通过矩阵运算直接构建分类器；在分类器之前添加transformer[21]；在分类器之前添加rnn。
[0009]
与普通文本不同，司法裁判文书具有很强的逻辑性。在抽取句子作为摘要时，不仅要注意其中的词关系，还要注意上下文中句子的语义关系。现有方法在进行抽取式摘要时只注重句子本身的语义特征，而忽略裁判文书中句子之间的上下文语义关系，导致句子分类不准确。

技术实现要素：

[0010]
本发明所要解决的技术问题是，针对现有技术不足，提供一种文本摘要抽取方法、装置、产品及存储介质，考虑句子之间的上下文语义关系，提高句子分类准确率。
[0011]
为解决上述技术问题，本发明所采用的技术方案是：一种文本摘要抽取方法，包括以下步骤：
[0012]
s1、对待抽取的文书进行分割处理和过滤，得到若干个待处理句子s
n
，其中n代表句子个数；
[0013]
s2、基于预训练的语言模型对待处理句子进行向量表示，得到句子中各个字的字符向量i代表句子序号，e
i
代表第i个句子的字符向量；
[0014]
s3、对每个句子的字符向量进行全局平均池化操作，得到整个句子的语义向量x
i
代表第i个句子的语义向量；
[0015]
s4、将所述语义向量作为双层记忆网络的输入，获得融合上下文的句子记忆向量；
[0016]
s5、基于所述句子记忆向量预测句子的重要程度类别，得到司法裁判文书中的重要句子；
[0017]
s6、对所述重要句子按原始司法裁判文书中的出现顺序进行组合，得到对应所述待抽取的文书的摘要。
[0018]
现有技术在抽取司法裁判文书摘要时，只考虑句子本身的语义内容，基于单独的句子语义向量进行处理和计算，而忽略句子与上下文之间的语义关系，不符合司法裁判文书的强逻辑特征，使抽取出的摘要缺乏完整性和逻辑性。本发明在利用池化操作得到句子语义向量的基础上，通过双层记忆网络使句子语义向量融合上下文的语义关系，得到句子的记忆向量，其中双层记忆网络的第一层是单向记忆网络，第二层是双向记忆网络。通过双层记忆网络得到的句子记忆向量既包含句子本身的语义特征，又包含句子及其上下文的语义关系，同时还融入了句子之间的先后顺序信息，使后续的抽取式摘要更精准完整，更符合司法裁判文书的逻辑性。为了放大句子之间的差异，步骤s3和s4之间还包括：对句子语义向量进行白化处理，得到句子白化向量；
[0019]
则步骤s4替换为：将所述句子白化向量作为双层记忆网络的输入，获得融合上下
文的句子记忆向量。
[0020]
句子白化向量表达式为：
[0021]
u
i
＝(x
i
‑
μ)w；
[0022]
其中，w表示转换矩阵，μ表示所有整个句子的语义向量的均值。
[0023]
由于司法裁判文书中的各个句子具有很多法律方面的语义共性，由预训练语言模型得到的句子向量在空间中分布不均匀，影响后续分类时的效果。引入白化处理，可以放大句子之间的差异，把这些句子向量变成高斯分布，即在每个向量维度上方差是一样的，使后续句子分类更准确。
[0024]
步骤s1的具体实现过程包括：
[0025]
基于标点符号特征，对待抽取的文书进行分句处理，得到初始句子集合；
[0026]
基于待抽取的文书结构特征，对初始句子集合中的判决部分长句进行二次分割，得到二次分割句子集合；
[0027]
基于待抽取的文书形式结构的特征，使用正则表达式对二次分割句子集合进行过滤，得到所述待处理句子集合s
n
。
[0028]
本发明结合文书的具体特征对其进行分句和过滤，提升了摘要的简洁性和精确性。
[0029]
步骤s2中，所述预训练的语言模型为roberta
‑
wwm预训练模型。roberta
‑
wwm是bert预训练模型的改进版本，它加入中文全词掩码训练策略，更加适配中文的自然语言处理任务。
[0030]
步骤s4的具体实现过程包括：
[0031]
将句子白化向量中的前i
‑
1个向量组合成矩阵k
i
‑1，通过计算u
i
和k
i
‑1之间的内积，获得第i个句子与前文中i
‑
1个句子的匹配度match
i
；
[0032]
使用softmax函数对匹配度match
i
进行归一化，计算获得第i个句子与前文中i
‑
1个句子之间的概率向量pi；
[0033]
通过下式获得第i个句子的单向记忆向量m
i
：m
i
＝p
i
k
i
‑1；
[0034]
将所有句子的白化向量和单向记忆向量拼接为白化
‑
单向记忆向量将中的除第i个向量之外的其它向量组合成矩阵k'
n
‑1，计算u
′
i
和k'
n
‑1之间的内积，并对该内积使用softmax函数进行归一化，获得第i个句子的白化
‑
单向记忆向量与其上下文中其他n
‑
1个句子的白化
‑
单向记忆向量之间的概率向量p
i
'：
[0035]
通过下式获得第i个句子的双向记忆向量m’i
：m
i
'＝p
i
'k
i
'
‑1；
[0036]
拼接所有句子的白化向量和双向记忆向量得到第i个句子的记忆向量o
i
。
[0037]
记忆向量由句子的白化向量、单向记忆向量和双向记忆向量组成，既包含句子本身的语义特征，又包含句子及其上下文的语义关系，同时还融入了句子之间的先后顺序信息，使后续的抽取式摘要更精准，更符合司法裁判文书的逻辑性。
[0038]
步骤s5中，第i个句子的重要程度类别y
i
的计算公式为：y
i
＝soft max(dense
(o
i
))；其中，dense()为全连接神经网络；o
i
为第i个句子的记忆向量。
[0039]
作为一个发明构思，本发明还提供了一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；其特征在于，所述处理器执行所述计算机程序，以实现本发明所述方法的步骤。
[0040]
作为一个发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序/指令；其特征在于，所述计算机程序/指令被处理器执行时实现本发明所述方法的步骤。
[0041]
作为一个发明构思，本发明还提供了一种计算机程序产品，包括计算机程序/指令；其特征在于，该计算机程序/指令被处理器执行时实现本发明所述方法的步骤。
[0042]
与现有技术相比，本发明所具有的有益效果为：本发明提出双层记忆网络，使句子向量融合了上下文中的语义关系。变换后的记忆网络有两层，第一层是单向记忆网络，第二层是双向记忆网络。司法裁判文书中的句子之间有很强的逻辑性，为了使后续句子分类时充分融合前文已有信息，本发明通过单向记忆网络将目标语句向量和前文语句向量相结合。在单向记忆网络中，前文的句子向量被不加区分地融合，为了引入句子在司法裁判文书中的位置信息，本发明通过双向记忆网络将目标语句向量和其上下文语句向量相结合。本发明可以在将裁判文书的上下文语义融入句子本身的语义特征，使抽取式摘要更精准，更符合司法裁判文书的逻辑性，极大地提高了句子分类准确率。
附图说明
[0043]
图1为本发明实施例方法流程图。
具体实施方式
[0044]
如图1所示，本发明实施例方法包括以下步骤：
[0045]
步骤1，对待抽取的文书(司法裁判文书)进行分割处理和过滤，得到若干个待处理句子s
n
，其中n代表句子个数；
[0046]
步骤2，基于预训练语言模型对步骤1所得待处理句子进行向量表示处理，得到句子中各个字的字符向量n代表句子个数，i代表句子序号，e
i
代表第i个句子的字符向量；
[0047]
步骤3，对步骤2中的字符向量进行全局平均池化操作，得到整个句子的语义向量n代表句子个数，i代表句子序号，x
i
代表第i个句子的语义向量；
[0048]
步骤4，对步骤3所述句子语义向量进行白化处理，得到句子白化向量
[0049]
步骤5，将步骤4句子白化向量输入双层记忆网络中，得到融合了上下文的句子记忆向量
[0050]
步骤6，基于步骤5中的句子记忆向量预测得到句子的重要程度类别，得到
司法裁判文书中的重要句子；
[0051]
步骤7，对步骤6所述重要句子按原始司法裁判文书中的出现顺序进行组合，得到对应所述待抽取司法裁判文书的摘要。
[0052]
本发明实施例中，对待抽取的文书进行分割处理和过滤，得到若干个待处理句子集合s
n
的步骤包括：
[0053]
基于标点符号特征，对司法裁判文书进行分句处理，得到初始句子集合；
[0054]
基于司法裁判文书结构特征，对初始句子集合中的判决部分长句进行二次分割，得到二次分割句子集合；
[0055]
基于司法裁判文书形式结构的的特征，使用正则表达式对二次分割句子集合进行过滤，得到所述待处理句子集合s
n
,其中n代表句子个数。
[0056]
基于预训练语言模型对步骤1所得待处理句子进行向量表示处理，得到句子中各个字的字符向量的步骤包括：
[0057]
基于roberta
‑
wwm预训练模型，对各所述待处理句子进行向量表示处理，得到句子中各个字符的语义向量其中n代表句子个数，i代表句子序号，e
i
代表第i个句子的字符向量，e
i
由m个768维数的一维向量构成，m为该句子中包含的字符数。
[0058]
对步骤2中的字符向量进行全局平均池化操作，得到整个句子的语义向量的步骤包括：
[0059]
对步骤2中的字符向量e
i
的m个向量求平均值(即将每句话中的所有字符向量对应位置的元素相加，然后获得由各位置平均值组成的向量)，得到整个句子的语义向量x
i
。
[0060]
对步骤3中句子语义向量进行白化处理，得到句子白化向量的步骤包括：
[0061]
首先，计算司法裁判文书所有句子的语义向量的均值μ和协方差矩阵c：
[0062][0063][0064]
其中n代表句子个数，i代表句子序号，xi代表第i个句子的语义向量，(*)
t
代表矩阵的转置。将协方差矩阵c按下式进行svd分解，求得a、b矩阵：
[0065]
c＝aba
t
[0066]
按下式计算转换矩阵w:
[0067]
w＝ab
‑
1/2
[0068]
句子白化向量计算公式如下：
[0069]
u
i
＝(x
i
‑
μ)w。
[0070]
将步骤4句子白化向量输入双层记忆网络中，得到融合了上下文的句子记忆向量的步骤包括：
[0071]
下面以计算第i个句子的记忆向量o
i
为例进行说明。
[0072]
首先将句子白化向量中的前i
‑
1个向量组合成矩阵k
i
‑1，通过计算u
i
和k
i
‑1之间的内积来获得第i个句子与前文中i
‑
1个句子的匹配度match
i
：
[0073][0074]
然后，使用softmax函数对匹配度matchi进行归一化，计算获得第i个句子与前文中i
‑
1个句子之间的概率向量pi：
[0075]
p
i
＝soft max(match
i
)
[0076]
通过计算k
i
‑1在概率向量p
i
上的加权求和获得第i个句子的单向记忆向量m
i
：
[0077]
m
i
＝p
i
k
i
‑1[0078]
将所有句子的白化向量和单向记忆向量拼接为白化
‑
单向记忆向量然后将其中的除第i个向量之外的其它向量组合成矩阵k'
n
‑1，通过计算u
′
i
和k'
n
‑1之间的内积并对该内积使用softmax函数进行归一化获得第i个句子的白化
‑
单向记忆向量与其上下文中其他n
‑
1个句子的白化
‑
单向记忆向量之间的概率向量p
i
'：
[0079][0080]
通过计算k’i
‑1在概率向量p’i
上的加权求和获得第i个句子的双向记忆向量m’i
：
[0081]
m’i
＝’p
i
k’i
‑1[0082]
将所有句子的白化向量和双向记忆向量拼接得到第i个句子的记忆向量o
i
。
[0083]
基于步骤5中的句子记忆向量预测得到句子的重要程度类别，得到司法裁判文书中的重要句子的步骤包括：
[0084]
句子记忆向量o
i
被输入到全连接神经网络dense中进行降维，并采用softmax函数进行分类：
[0085]
y
i
＝soft max(dense(o
i
))
[0086]
其中y
i
代表第i个句子的重要程度类别，y
i
＝0时，该句子为非重要句子，y
i
＝1时，该句子为重要句子。
[0087]
对比实验数据
[0088]
分类向量类别rouge
‑
1(％)rouge
‑
2(％)rouge
‑
l(％)准确率(％)textrnn[24]45.9031.0339.0688.57textcnn[25]47.5533.9642.2390.28句子语义向量46.5633.8739.8189.98句子白化向量47.3333.9340.9090.84
computational linguistics(volume 1:long papers),pp.484
–
494(2016)
[0101]
[11]nallapati,r.,zhai,f.,zhou,b.:summarunner:a recurrent neural network based sequence model for extractive summarization of documents.in:proceedings of the aaai conference on artificial intelligence,vol.31(2017)
[0102]
[12]liu,y.:fine
‑
tune bert for extractive summarization.arxiv preprint arxiv:1903.10318(2019)
[0103]
[13]bouscarrat,l.,bonnefoy,a.,peel,t.,pereira,c.:strass:a light and effective method for extractive summarization based on sentence embeddings.in:proceed
‑
ings of the 57th annual meeting of the association for computational linguistics:student research workshop,pp.243
–
252(2019)
[0104]
[14]yuan,r.,wang,z.,li,w.:fact
‑
level extractive summarization with hierarchical graph mask on bert.in:proceedings of the 28th international conference on computational linguistics,pp.5629
–
5639(2020)
[0105]
[15]zhou,q.,wei,f.,zhou,m.:at which level should we extract？an empirical analysis on extractive document summarization.in:proceedings of the 28th inter
‑
national conference on computational linguistics,pp.5617
–
5628(2020)
[0106]
[16]rissland,e.l.,ashley,k.d.,loui,r.p.:ai and law:a fruitful synergy.artif.intell.150(1
–
2),1
–
15(2003)
[0107]
[17]bench
‑
capon,t.,et al.:a history of ai and law in 50 papers:25 years of the international conference on ai and law.artif.intell.law20(3),215
–
319(2012)
[0108]
[18]surden,h.:artificial intelligence and law:an overview.ga.st.ul rev.35,1305(2018)
[0109]
[19]hochreiter,s.,schmidhuber,j.:long short
‑
term memory.neural comput.9(8),1735
–
1780(1997)
[0110]
[20]devlin,j.,chang,m.w.,lee,k.,toutanova,k.:bert:pre
‑
training of deep bidirectional transformers for language understanding.in:proceedings of the 2019conference of the north american chapter of the association for computational linguistics:human language technologies,volume 1(long and short papers),pp.4171
–
4186(2019)
[0111]
[21]vaswani,a.,et al.:attention is all you need.in:proceedings of the 31st inter
‑
national conference on neural information processing systems,pp.6000
–
6010(2017)
[0112]
[22]reimers,n.,et al.:sentence
‑
bert:sentence embeddings using siamese bert
‑
networks.in:proceedings of the 2019 conference on empirical methods in natural language processing.association for computational linguistics(2019)
[0113]
[23]lin,c.y.:rouge:a package for automatic evaluation of summaries.in:text summarization branches out,pp.74
–
81(2004)
[0114]
[24]liu,p.,qiu,x.,huang,x.:recurrent neural network for text classification with multi
‑
task learning.arxiv preprintarxiv:1605.05101(2016)
[0115]
[25]kim,y.:convolutional neural networks for sentence classification(2014)

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于海洋捕食者算法的电生理信号的分类方法及分类系统与流程

文本摘要抽取方法、计算机装置、产品及存储介质与流程

相关文献

最热文献