一种融合多元语义的文本摘要自动生成方法及装置与流程

2021-11-05 19:59:00 来源：中国专利 TAG：

1.本发明属于文本数据处理技术领域，具体涉及一种融合多元语义的文本摘要自动生成方法及装置，是指给定一个较长文本，通过模型最终生成一个较短文本，并且能概括源文本主要内容。

背景技术：

2.文本自动摘要不仅可以有效的降低阅读成本，而且可以缓解当前人们面临的信息过载问题。按照自动摘要的方法进行区分，主要的方法有两种：抽取式摘要和生成式摘要。
3.抽取式摘要通过判断原文中每个句子的重要性，将其最重要的几个句子抽取出来进行重新组合，组合后的内容作为摘要。早期的抽取式摘要，以统计学知识为基础，将词频，句子的相对长度，以及句子与标题的相似度作为重要性的判断。最初根据高频率词来对句子的重要性进行衡量，高频词越多，则句子越重要，后来提出了词频
‑
逆文档算法改进了传统的词频算法，摘要质量得到了改善。目前在拥有优越的计算能力条件下，可以运用机器学习的方法，通过有监督以及半监督方法对数据集进行标注，在合理建模后，通过训练好的模型对一个未标注的句子进行标注，预测其是否可以作为摘要句。虽然抽取式摘要方法易于实现，但都只是基于文档表层，并没有考虑相邻单词之间的语法以及上下文关系，并不是真正的理解原文，同时生成摘要中的句子间不仅缺乏连贯性，而且存在比较大的局限性。
4.生成式摘要通过目前更先进更复杂的方法对原文进行语法分析，在理解原文的基础上，将原文的内容用更简洁的句子表达出来。随着近年来硬件性能的不断提升，并伴随着可用于训练的数据量不断增加，深度学习的发展迅猛。序列到序列模型被提出后，开始被应用于自然语言处理的一些领域中，序列到序列模型为文本自动摘要的任务提供了很好的研究思路，并取得了很大进展。序列到序列模型通过编码器将源文本编码成固定大小的上下文向量，再基于上一时刻生成的单词以及该时刻隐藏层状态，通过解码器生成下一个预测单词。后来提出了将注意力机制用于编码器，提高了生成摘要的质量。之后又将循环神将网络替换于解码器，取得了不错的进展。也有在该模型的基础上，引入了强化学习，不仅解决了错误传播问题，而且解决了词句重复问题，增加了生成摘要的可读性。另外，生成式摘要可以结合我们源文本所固有的特征来提高我们模型的效果，可以将词向量融入tf
‑
idf、pos、ner等统计信息，使生成的摘要更接近于人工总结的摘要。
5.伴随着深度学习和自然语言处理的发展，基于序列到序列的生成式摘要方法正在不断改进与提升。目前大多数改进都是基于编码器与解码器层面，在融合多元语义还很缺乏。

技术实现要素：

6.为了在训练模型时从源文本获取更多的有效信息，以便通过训练模型后生成的摘要质量得到进一步提升，本发明提出了一种融合多元语义的文本摘要自动生成方法及装置，在源文本输入到编码器之前融入多元语义特征，充分挖掘源文本深层次的隐藏特征，能
够在保留原文重要信息的基础上，提高生成摘要的质量。
7.为解决上述技术问题，本发明采用以下的技术方案：
8.本发明提供了一种融合多元语义的文本摘要自动生成方法，包含以下步骤：
9.步骤1，基于序列到序列模型，结合自然语言处理的多元语义特性，在源文本输入到编码器之前融合多元语义特征，使源文本包含更多的语义信息；
10.步骤2，将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中，并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态；
11.步骤3，解码器采用单向长短期记忆网络结合改进的注意力机制、通过上下文向量以及当前时刻的解码器隐藏层状态来预测下一时刻生成的词向量；
12.步骤4，利用损失函数对该模型进行训练，通过训练后的模型将文本自动生成摘要。
13.进一步地，所述步骤1的融合多元语义特征包括两次语义信息提取和两次向量拼接，具体过程为：
14.设置卷积神经网络的两个卷积层的卷积核数量与词向量大小k相同，将第一个卷积层的每个卷积核的大小设置为3，将第二个卷积层的每个卷积核的大小设置为5；
15.源文本输入第一个卷积层，第一个卷积层输出k个语义向量，并将该k个语义向量进行第一次拼接；
16.拼接后的语义向量作为新的特征矩阵输入到第二个卷积层，第二个卷积层再次输出k个语义向量，并将新的k个语义向量进行第二次拼接，最后将其输入到编码器。
17.进一步地，所述步骤2中隐藏层状态表示为：
[0018][0019]
其中，h
i
由前向隐藏层状态和后向隐藏层状态拼接成，和的生成公式为：
[0020][0021][0022]
其中，x
i
表示输入的第i个词向量，i∈[1,m]，m表示输入的源文本词向量个数。
[0023]
进一步地，所述步骤3具体包含以下步骤：
[0024]
步骤3.1，通过单向长短期记忆网络计算t时刻解码器隐藏层状态s
t
；
[0025]
步骤3.2，通过改进的注意力机制和t时刻编码器的隐藏层状态生成用于t时刻解码的上下文向量c
t
；
[0026]
步骤3.3，通过上下文向量c
t
和t时刻解码器隐藏层状态s
t
对词汇进行预测。
[0027]
进一步地，所述步骤3.1中t时刻解码器隐藏层状态s
t
的计算公式为：
[0028]
s
t
＝lstm(s
t
‑1，y
t
‑1)
[0029]
其中，s
t
‑1为上一时刻隐藏层状态，当进行模型训练时，y
t
‑1是训练集中参考摘要词汇的词向量，当用训练好的模型进行预测时，y
t
‑1是上一时刻经过预测得出的词向量；将编码器隐藏层最后一个编码输出结果h
m
初始化解码器的初始时刻的隐藏层状态s0，将源文本的结束向量赋值给解码器的初始输入序列y0；t∈[1,n],n为生成摘要的设置长度。
[0030]
进一步地，所述步骤3.2中t时刻的上下文向量c
t
利用编码器隐藏层状态h
i
和解码
器在t时刻的隐藏层状态s
t
生成，计算公式如下：
[0031][0032]
其中，将非饱和激活函数leakyrelu引入注意力机制来优化模型，leakyrelu的公式为：
[0033]
leakyrelu＝max(θx，x)
[0034]
其中，θ为函数的参数，θ∈(
‑
∞，1)；
[0035][0036][0037]
其中，v，w
h
，w
s
，b
attn
均是可学习的参数，exp(
·
)表示指数函数，表示解码器t时刻的隐藏层状态st和编码器的隐藏层状态的相似度，α
t
表示源词汇的概率分布，i∈[1，m]，t∈[1，n]。
[0038]
进一步地，所述步骤3.3中t时刻词汇预测的公式如下：
[0039]
p
vocab
＝softmax(v
′
(v[s
t
；c
t
] b) b
′
)
[0040]
其中，v
′
、v、b、b
′
均是可学习的参数，p
vocab
是字典中所有单词的概率分布，softmax(
·
)表示softmax函数，最终预测单词w的最终分布为：
[0041]
p(w)＝p
vocab
(w)。
[0042]
进一步地，所述步骤4中当时刻t时对于目标词汇的损失函数为：
[0043][0044]
且整个序列的损失为：
[0045][0046]
利用训练好的模型，自动生成摘要。
[0047]
本发明还提供了一种融合多元语义的文本摘要自动生成装置，包括：
[0048]
多元语义特征融合模块，用于基于序列到序列模型，结合自然语言处理的多元语义特性，在源文本输入到编码器之前融合多元语义特征，使源文本包含更多的语义信息；
[0049]
编码器隐藏层状态计算模块，用于将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中，并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态；
[0050]
词向量预测模块，用于解码器采用单向长短期记忆网络结合改进的注意力机制、通过上下文向量以及当前时刻的解码器隐藏层状态来预测下一时刻生成的词向量；
[0051]
模型训练模块，用于利用损失函数对该模型进行训练，通过训练后的模型将文本自动生成摘要。
[0052]
与现有技术相比，本发明具有以下优点：
[0053]
1、在传统的序列到序列模型结合注意力机制的基础上，在源文本输入到编码器之
前融合多元语义特征，使得源文本在进入编码器之前得到更多的语义信息，使模型充分挖掘源文本的重要内容，增加了生成摘要的可读性和全局相关性，解决了生成摘要全局相关性低的问题。
[0054]
2、编码后基于注意力机制产生一个用于预测下一时刻单词的上下文向量，以往的注意力机制多使用饱和激活函数，本发明的注意力机制使用非饱和激活函数leakyrelu，其作用是避免了模型训练过程中出现梯度消失以及加快模型的收敛速度；结合该时刻的上下文向量和解码器隐藏层状态对下一个单词进行预测。通过对该模型进行训练，整体提高了生成摘要的质量。
附图说明
[0055]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0056]
图1是本发明实施例的带有注意力机制的序列到序列模型加入融合多元语义特征后的网络结构图；
[0057]
图2是本发明实施例的融合多元语义的文本摘要自动生成方法的流程图；
[0058]
图3是本发明实施例的融合多元语义特征的过程示意图；
[0059]
图4是本发明实施例的预测下一时刻生成的词向量的流程图；
[0060]
图5是本发明实施例的融合多元语义的文本摘要自动生成装置的结构图。
具体实施方式
[0061]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0062]
如图1和图2所示，本实施例的一种融合多元语义的文本摘要自动生成方法，包含以下步骤：
[0063]
步骤s11，基于序列到序列模型，结合自然语言处理的多元语义特性，在源文本输入到编码器之前融合多元语义特征，使源文本包含更多的语义信息，以便模型能够充分挖掘源文本的重要内容。
[0064]
如图3所示，融合多元语义特征包括两次语义信息提取和两次向量拼接，具体过程为：
[0065]
本发明提出一种适用于文本摘要的多元语义提取方法，该方法使用卷积神经网络的两个卷积层，设置第一个卷积层的卷积核数量与词向量大小k相同，结合人们日常的阅读范围是三到五个词，将第一个卷积层的每个卷积核的大小设置为3，源文本输入第一个卷积层，得到同词向量大小k相同数量的语义向量，并将这些语义向量进行第一次拼接；拼接后的语义向量作为新的特征矩阵输入到第二个卷积层，设置第二个卷积层的卷积核数量与词向量大小k也相同，将第二个卷积层的每个卷积核的大小设置为5，再次得到k个语义向量，
将新的k个语义向量进行第二次拼接，拼接成特征矩阵，此时的特征矩阵与最初的源文本向量矩阵相比，包含更多的语义信息，最后将其输入到编码器。
[0066]
卷积神经网络在自然语言处理领域起初用于文本分类，用于获取句子中的特征，我们将其改进后用在本发明的模型，以便提取句子中的局部相关性，如短语结构的内部相关性，并且去除卷积神经网络的池化层(池化层会让文本损失大量特征)，防止信息丢失；在每个特征矩阵边界进行全0填充，以保证融合多元语义特征后的矩阵大小不变，这样，融合多元语义特征后可以更好地挖掘文本中的深层特征，增强摘要的全局相关性。
[0067]
步骤s12，将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中，并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态。
[0068]
在本实例中，隐藏层状态表示为：
[0069][0070]
其中，h
i
由前向隐藏层状态和后向隐藏层状态拼接成，和的生成公式为：
[0071][0072][0073]
其中，x
i
表示输入的第i个词向量，i∈[1,m]，m表示输入的源文本词向量个数。
[0074]
步骤s13，解码器采用单向长短期记忆网络结合改进的注意力机制、通过上下文向量以及当前时刻的解码器隐藏层状态来预测下一时刻生成的词向量，具体包含以步骤s131～s133，如图4所示：
[0075]
步骤s131，通过单向长短期记忆网络计算t时刻解码器隐藏层状态s
t
，计算公式为：
[0076]
s
t
＝lstm(s
t
‑1，y
t
‑1)
[0077]
其中，s
t
‑1为上一时刻隐藏层状态，当进行模型训练时，y
t
‑1是训练集中参考摘要词汇的词向量，当用训练好的模型进行预测时，y
t
‑1是上一时刻经过预测得出的词向量；将编码器隐藏层最后一个编码输出结果h
m
初始化解码器的初始时刻的隐藏层状态s0，将源文本的结束向量赋值给解码器的初始输入序列y0；t∈[1,n],n为生成摘要的设置长度。
[0078]
步骤s132，通过改进的注意力机制和t时刻编码器的隐藏层状态生成用于t时刻解码的上下文向量c
t
。
[0079]
具体的，t时刻的上下文向量c
t
利用编码器隐藏层状态h
i
和解码器在t时刻的隐藏层状态s
t
生成，计算公式如下：
[0080][0081]
其中，attention机制多用于饱和激活函数，本发明改进其attention机制，将非饱和激活函数leakyrelu引入attention机制来优化模型，其作用是避免模型训练过程中出现梯度消失以及加快模型的收敛速度，leakyrelu的公式为：
[0082]
leakyrelu＝max(θx，x)
[0083]
其中，θ为函数的参数，θ∈(
‑
∞，1)；
[0084][0085][0086]
其中，v，w
h
，w
s
，b
attn
均是可学习的参数，exp(
·
)表示指数函数，表示解码器t时刻的隐藏层状态s
t
和编码器的隐藏层状态的相似度，注意力分布α
t
可以看作是源词汇的概率分布，它告诉解码器产生下一个词需要重点关注的地方，接下来生成带有注意力权重的编码器隐藏层状态的加权和，称之为上下文向量c
t
，i∈[1，m]，t∈[1，n]。
[0087]
序列到序列模型在自然语言处理中的使用，常伴随着注意力机制的使用，在解码器解码前判断下一时刻生成单词与源文本相关度，可以提升生成摘要的全局相关度与质量。
[0088]
步骤s133，通过上下文向量c
t
和t时刻解码器隐藏层状态s
t
对词汇进行预测，计算公式如下：
[0089]
p
vocab
＝softmax(v
′
(v[s
t
；c
t
] b) b
′
)
[0090]
其中，v
′
、v、b、b均是可学习的参数，p
vocab
是字典中所有单词的概率分布，softmax(
·
)表示softmax函数，最终预测单词w的最终分布为：
[0091]
p(w)＝p
vocab
(w)。
[0092]
步骤s14，利用损失函数对该模型进行训练，通过训练后的模型将文本自动生成摘要。
[0093]
其中当时刻t时对于目标词汇的损失函数为：
[0094][0095]
且整个序列的损失为：
[0096][0097]
利用训练好的模型，自动生成摘要。
[0098]
生成摘要的过程，是重复步骤s131至步骤s133的过程，通过重复完成一个单词的生成，直到生成所有单词，最后将生成的所有单词进行融合，形成摘要。
[0099]
与上述一种融合多元语义的文本摘要自动生成方法相应地，如图5所示，本实施例还提出一种融合多元语义的文本摘要自动生成装置，包括多元语义特征融合模块51、编码器隐藏层状态计算模块52、词向量预测模块53和模型训练模块54。
[0100]
多元语义特征融合模块51，用于基于序列到序列模型，结合自然语言处理的多元语义特性，在源文本输入到编码器之前融合多元语义特征，使源文本包含更多的语义信息。
[0101]
编码器隐藏层状态计算模块52，用于将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中，并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态。
[0102]
词向量预测模块53，用于解码器采用单向长短期记忆网络结合改进的注意力机制、通过上下文向量以及当前时刻的解码器隐藏层状态来预测下一时刻生成的词向量。
[0103]
模型训练模块54，用于利用损失函数对该模型进行训练，通过训练后的模型将文本自动生成摘要。
[0104]
需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0105]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
[0106]
最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：地毯识别方法、装置、智能设备及存储介质与流程

一种融合多元语义的文本摘要自动生成方法及装置与流程

相关文献

最热文献