基于成分句法分析的中文摘要生成方法

2022-06-05 14:08:05 来源：中国专利 TAG：

1.本发明涉及信息处理技术领域，尤其涉及一种基于成分句法分析的中文摘要生成方法。

背景技术：

2.国家自然科学基金包含了基础理论与应用基础理论研究工作的申报，是揭示自然界普遍规律、基本原理和自然现象运动本质的理论性工作。在基金申报书申报过程中，评审专家需要从海量申报书文本中高效、准确地获取有效信息，并做出评审。文本摘要技术旨在从大量的申报书文本数据中自动提取关键信息，可在一定程度上在专家评审过程起到辅助作用。然而，在基金申报书中包含了大量科研专业术语，现有的文本摘要模型难以充分挖掘并理解专业术语中包含的语义信息与语法结构信息，生成的摘要往往存在关键信息遗漏、覆盖不全面、语法不通顺等缺陷。
3.申报书文本大多篇幅较长，传统基于序列的文本摘要生成模型无法并行计算且并不关注文本语法信息，导致处理长文本时生成摘要主旨不显著且不符合语法规则。在文本摘要生成中，摘要不充分、准确，不符合人类的语言习惯是生成过程中面对的主要问题。若能通过获取到文本深层语义信息并引入句法结构信息，则整合后的编码将包含文本语义信息以及语法信息，可以使摘要更符合语法规则、主旨更显著。

技术实现要素：

4.针对于现有技术的不足之处，本发明提供了一种基于成分句法分析的中文摘要生成方法、装置及存储介质，以解决现有的文本摘要生成方法得到的摘要主旨不明、可读性不高的问题。
5.为了实现上述目的，本发明采用如下技术方案。
6.一种基于成分句法分析的中文摘要生成方法，包括：
7.对文档进行预处理，得到文本句子集；
8.基于文本句子集，使用语义提取模型得到文本语义信息编码；
9.基于文本句子集，生成每个句子的成分句法分析结构树，并将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码；
10.将文本语义信息编码及成分句法结构序列化编码共同输入编码器中进行整合编码；
11.通过解码器对编码器传来的整合编码进行解码，生成文本摘要。
12.进一步地，所述语义提取模型采用pegasus模型。
13.进一步地，采用stanford corenlp生成每个句子的成分句法分析结构树。
14.进一步地，所述将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码，包括：
15.对于每个句子的成分句法分析结构树，递归地结合最右边的两个子节点，将其转
换为一个右二叉树；
16.将得到的右二叉树表示为一个跨度表；
17.根据跨度表的右边界将其划分为n个部分，n为句子长度；二叉树中包含根节点在内的所有左孩子分布于n个部分，所有左孩子的右边界一一对应了[1，n]中的值，把所有左孩子的右边界作为序列化后的下标，而相应的左边界就作为序列化后的值，得到跨度表线性化后的成分句法结构序列化编码。
[0018]
进一步地，所述编码器采用基于注意力机制的语义结构编码器，其首先将文本语义信息编码及成分句法结构序列化编码进行融合，如下式所示：
[0019][0020]
式中，表示编码器最终的隐藏状态，d表示成分句法结构序列化编码，h表示文本语义信息编码，为glu激活函数，b表示偏移量，w表示可学习参数；
[0021]
编码器的注意力介质会根据当前时刻t的解码器输入来重新分配其他词语的注意力大小，并生成随当前词不断变化的上下文语义向量c
t
，注意力机制公式如下：
[0022][0023][0024][0025]
式中，a
t，i
表示注意力权重，通过e
t，i
分数来计算；表示编码器的第i个隐藏状态，s
t-1
表示解码器上一时刻t-1的隐藏状态，n表示句子长度，wh、vh均表示权重矩阵。
[0026]
进一步地，解码器采用单向gru网络，其输入由上一时刻t-1解码器的输出y
t-1
、上一时刻t-1解码器的隐藏状态s
t-1
、当前时刻t的上下文语义向量c
t
共同构成；将编码器的最终隐藏状态作为解码器的第一个输入，单向gru网络结构公式为：
[0027]zt
＝σ(wzs
t-1
w
zct
w
zyt-1
)
[0028]rt
＝σ(wr s
t-1
w
rct
wry
t-1
)
[0029][0030][0031]
式中，z
t
和r
t
分别表示更新门和重置门；是对c
t
，y
t-1
和上一时刻的s
t-1
的总结，计算总结出的新的向量包含上文信息和y
t-1
；σ、tanh表示激活函数；
⊙
表示矩阵的乘积；wz为更新门的权重参数，wr为重置门的权重参数，为的权重参数；s
t
表示当前时刻t解码器的隐藏状态；
[0032]
通过softmax层得到词语在词表的位置，如式所示：
[0033]
p(y
t
|y1，y2，...，yn，c
t
)＝softmax(s
t
)
[0034]
解码器的隐藏状态s
t
如下式所示，gru代表门控循环单元解码器；
[0035]st
＝gru(s
t-1
，c
t
，y
t-1
)
[0036]
最后采用搜索算法生成最优解。
[0037]
进一步地，所述搜索算法采用集束搜索算法。
[0038]
有益效果
[0039]
本发明提出了一种基于成分句法分析的中文摘要生成方法，首先采用语义提取模型提取文本的文本语义信息编码，包含了文本的深层语义信息；同时，获取文本的成分句法分析结构树，并通过一种基于跨度的方法得到成分句法结构序列化编码，该编码包含了文本的句法结构信息，可用于监督摘要生成过程，使生成的摘要更加符合人类语言习惯；然后，将文本语义信息编码与成分句法结构序列化编码共同输入基于注意力的编码器结构中，该编码器主要用于融合文本语义信息编码和成分句法结构序列化编码，使用注意力机制计算出关键词语义向量，将其与成分句法结构序列化编码结合后推导到下一个词项，使整合编码在保留语义信息的同时包含语法结构信息。最后，采用解码器对编码器传来的整合编码进行解码，最后生成更符合语法规则且主旨更显著的摘要结果。
[0040]
本发明能够实现长文本中文摘要生成任务，能够解决长文本摘要生成任务中由于文本过长导致的摘要主旨不明确以及摘要不符合人类语言习惯的问题，能针对申报书文本量化工作起到重要的辅助作用。此方案的核心意义在于能够把文本原有的语法结构提出来，用于监督文本摘要生成过程，解决了文本摘要准确性问题以及可读性问题。
附图说明
[0041]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0042]
图1是本发明实施例提供的基于成分句法分析的中文摘要生成方法流程图；
[0043]
图2是本发明实施例提供的成分句法结构序列化编码生成过程示意图。
具体实施方式
[0044]
为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。
[0045]
如图1所示，本发明实施例公开了一种基于成分句法分析的中文摘要生成方法，包括：
[0046]
s1：对待生成摘要的文档进行预处理，得到文本句子集。
[0047]
具体地，将文档中每个句子依次过滤掉停用词,并只保留指定词性的词,从而得到新的文本句子集。
[0048]
s2：基于文本句子集，使用语义提取模型得到文本语义信息编码。
[0049]
实施时，所述语义提取模型采用pegasus模型。pegasus模型使用新的自监督目标在大量文本语料库上预训练，模型在bert的预训练结构中加入generator，使得能够对生成类任务进行预训练。作为预训练目标，模型同时使用gsg(gap sentences generation)和
mlm(masked language model)。具体地，假设原文在文本预处理后共有m个句子组成句子集，通过将句子集中2/3部分视为原文，1/3部分视为摘要构成训练集，构成伪数据集，使用伪数据集预训练pegasus模型。
[0050]
gsg(gap sentences generation)：从文档中掩盖某个关键句子，并依照文档的其他句子生成这个关键句。有利于模型对整个文档的理解和类似摘要的生成。
[0051]
mlm(masked language model)：依照bert，选择输入文本15％的字符，并选择其中(1)80％用符号[mask]替换；(2)10％随机替换成其他字符；(3)10％不变。
[0052]
s3：基于文本句子集，生成每个句子的成分句法分析结构树，并将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码。
[0053]
句子的成分句法分析结构树是将句子分成组件，较大的组件由较小的组件组合得到，本实施例中，采用stanford corenlp生成每个句子的成分句法分析结构树。stanford corenlp是一个自然语言处理工具包，目前支持阿拉伯语，中文，英文，法语，德语，西班牙语等。stanford corenlp集成包括分词，词性标注，句法分析等功能。因此通过使用stanford corenlp对句子进行语法分析，得到每个句子对应的成分句法分析结构树。
[0054]
直接构建一个带语法信息的模型不仅能够捕获和记录整个成分句法分析结构树的结构，而且能够区分任意两个不同词语的内容。然而，直接构建这样一个带有语法结构信息的模型缺少一个有效的方法，本实施例使用一个可替代的方法——将成分句法分析结构树通过基于跨度的方法转化成一个线性化的结构标签序列，图2所示为句子“我爱写代码。”的线性化过程。
[0055]
首先通过stanfordcorenlp获取其原始的成分句法分析结构树，然后递归地结合最右边的两个子结点，将它转换为一棵右二叉树。接着，将树表示为一个span表(跨度表)，并根据span表的右边界将其分为五部分。
[0056]
定义：设w＝(w1，w2，...，wn)为一个句子；定义(i，j)：是一个从w
i 1
到wi的span(跨度)，0≤i＜j≤n；给定一个句子w和它的成分句法分析结构树t，我们称d＝(d1，d2，...，dn)为t的线性化(即成分句法结构序列化编码)，其中di∈{0，1，...，i-1}和(di，i)是t中以i结尾的最长跨度。
[0057]
右二叉树(b)在span表(c)中灰色的部分就是所有的左孩子(包含根结点)，黑色的部分就是所有的右孩子。所有左孩子的右边界一定不存在重复，因此一定一一对应了[1，n]中的值，那么就可以把它们作为序列化后的下标，而相应的左边界就作为序列化后的值。例如，图2中span表内(1，4)这个span表示的是
″
爱写代码
″
这个短语，那么序列化数组d的下标4处的值就是d4＝1。依次将span表线性化后得到的di序列即为我们所需的成分句法结构序列化编码。
[0058]
s4：将文本语义信息编码及成分句法结构序列化编码共同输入编码器中进行整合编码。
[0059]
本实施例中，所述编码器采用基于注意力机制的语义结构编码器。基于注意力机制的语义结构编码器是一种双编码器模型，编码器encoder1采用生成式预训练模型pegasus获取到的文本语义信息编码中对应的隐藏状态信息hi(i＝1，2，...，p)；编码器encoder2采用cnn(convolutionalneuralnetworks，cnn)网络提取文本语法信息，将成分句法结构树序列化编码向量化；将cnn提取的特征信息与pegasus隐层状态融合后构建注意力
机制，将文本语义信息编码与基于跨度的成分句法结构序列化编码融合，使整合编码包含文本整体信息。
[0060]
首先将文本语义信息编码及成分句法结构序列化编码进行融合，如下式所示：
[0061][0062]
式中，表示编码器最终的隐藏状态，d表示成分句法结构序列化编码，h为pegasus模型的隐藏状态值，为glu激活函数，b表示偏移量，w表示可学习参数，可通过训练得到；
[0063]
经过融合后，得到包含文本句法结构特征的隐藏状态值。传统的seq2seq模型，由编码器对全文进行编码并产生一个固定的上下文语义向量c，解码器对c进行解码输出最终结果。本实施例中的模型采用注意力机制对目标数据进行加权变化，编码器的注意力介质会根据当前时刻t的解码器输入来重新分配其他词语的注意力大小，并生成随当前词不断变化的上下文语义向量c
t
，注意力机制公式如下：
[0064][0065][0066][0067]
式中，a
t，i
表示注意力权重，通过e
t，i
分数来计算；表示编码器的第i个隐藏状态，s
t-1
表示解码器上一时刻t-1的隐藏状态，wh、vh均表示权重矩阵，可通过训练得到。根据编码器的隐藏状态与解码器隐藏状态s
t-1
来计算e
t，i
分数，再根据e
t，i
分数计算注意力权重a
t，i
，将编码器每一个隐藏状态与注意力权重a
t，i
相乘再进行加权求和，得到当前时刻t的上下文语义向量c
t
。
[0068]
s5：通过解码器对编码器传来的整合编码进行解码，生成文本摘要。
[0069]
本实施例中，解码器采用单向gru网络，其输入由上一时刻t-1解码器的输出y
t-1
、上一时刻t-1解码器的隐藏状态s
t-1
、当前时刻t的上下文语义向量c
t
共同构成；将编码器的最终隐藏状态作为解码器的第一个输入，单向gru网络结构公式为：
[0070]zt
＝σ(wzs
t-1
w
zct
w
zyt-1
)
[0071]rt
＝σ(wr s
t-1
w
rct
wry
t-1
)
[0072][0073][0074]
式中，z
t
和r
t
分别表示更新门和重置门，更新门能决定要丢弃哪些信息和要添加哪些新信息，重置门用于决定丢弃先前信息的程度；是对c
t
，y
t-1
和上一时刻的s
t-1
的总结，计算总结出的新的向量包含上文信息和y
t-1
；σ、tanh表示激活函数；
⊙
表示矩阵的乘积；wz、wr、表示权重矩阵，可通过训练得到，wz为更新门的权重参数，wr为重置门的权重参数，为的权重参数；s
t
表示当前时刻t解码器的隐藏状态，表示s
t
的中间状态。
[0075]
经过解码器得到当前时刻的输出状态，再通过softmax层得到词语在词表的位置，
如式所示：
[0076]
p(y
t
|y1，y2，...，yn，c
t
)＝softmax(s
t
)
[0077]
解码器的隐藏状态s
t
如下式所示，gru代表门控循环单元解码器；
[0078]st
＝gru(s
t-1
，c
t
，y
t-1
)
[0079]
最后采用搜索算法生成最优解。本实施例中，采用集束搜索算法降低计算复杂度并提高准确率。传统的解码器采用的是贪心搜索算法，即在概率矩阵中选择最大的概率去生成目标词。集束搜索算法是一种启发式图搜索算法，集束搜索选取前q个最大概率，考虑更多的候选空间，这样可以获得更好的生成结果。本实施例设置集束搜索的宽度q为10。
[0080]
本发明能够实现长文本中文摘要生成任务，能够解决长文本摘要生成任务中由于文本过长导致的摘要主旨不明确以及摘要不符合人类语言习惯的问题，能针对申报书文本量化工作起到重要的辅助作用。此方案的核心意义在于能够把文本原有的语法结构提出来，用于监督文本摘要生成过程，解决了文本摘要准确性问题以及可读性问题。首先采用一种生成式预训练模型——pegasus，该模型结合gsg(gap sentences generation)与mlm(masked language model)的方法用于提取文本的文本语义信息编码，包含了文本的深层语义信息；同时，通过stanford corenlp获取文本的成分句法分析结构树，并通过一种基于跨度的方法得到成分句法结构序列化编码，该编码包含了文本的句法结构信息，可用于监督摘要生成过程，使生成的摘要更加符合人类语言习惯；然后，将文本语义信息编码与成分句法结构序列化编码共同输入基于注意力的编码器结构中，该编码器主要用于融合文本语义信息编码和成分句法结构序列化编码，使用注意力机制计算出关键词语义向量，将其与成分句法结构序列化编码结合后推导到下一个词项，使整合编码在保留语义信息的同时包含语法结构信息。最后，采用基于集束搜索的单向gru网络对解码器传来的整合编码进行解码，从而在降低计算复杂度的同事提高准确率，最后生成更符合语法规则且主旨更显著的摘要结果。
[0081]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
[0082]
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：配电网供电单元布线优化方法及装置与流程

基于成分句法分析的中文摘要生成方法

相关文献

最热文献