一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于NLP技术的中文摘要自动生成方法及系统与流程

2022-06-01 01:23:56 来源:中国专利 TAG:

一种基于nlp技术的中文摘要自动生成方法及系统
技术领域
1.本发明涉及摘要自动生成领域,具体而言,涉及一种基于nlp技术的中文摘要自动生成方法及系统。


背景技术:

2.自然语言处理(nlp,natural language processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配,从而做到自动回答问题或进行相关辅导。模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。这样,即使学生所提问题中按原来的关键字在答案库中找不到直接匹配的答案,但是假若与该关键字同义或反义的词能够匹配则仍可在答案库中找到相关的应答条目。段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统(简单匹配式和模糊匹配式,严格说只能称之为“自动辅导答疑系统”而非“智能辅导答疑系统”)。但是由于这种系统涉及自然语言的段落理解,对于汉语来说,这种理解涉及自动分词、词性分析、句法分析和语义分析等nlp领域的多种复杂技术,所以实现难度很大。近年来,自动文本摘要己经成为了人工智能和自然语言处理领域的重要研究方向之一。自动文本摘要旨在提取出原始文本中的关键信息,并生成一段语义通顺且简洁准确的摘要,其目的是为了提高用户浏览信息的效率。随着深度学习的发展,当今的自动文本摘要模型主要基于序列到序列框架构建。然而,目前序列到序列框架在自动文本摘要中的应用也存在着诸多问题,例如集外词生成困难、无法有效地对单词之间的联系进行建模、缺乏对关键信息提取过程的建模等。


技术实现要素:

3.本发明的主要目的在于提供一种基于nlp技术的中文摘要自动生成方法及系统,以解决相关技术中的问题。
4.为了实现上述目的,根据本发明的一个方面,提供了一种基于nlp技术的中文摘要自动生成方法及系统,包括如下步骤:
5.s1:对需要生成摘要的文本进行目标训练,最大化生成每个目标单词的概率;
6.s2:自动生成评价指标;
7.s3:采用自动生成评价指标对需要生成摘要的文本进行评价;
8.s4:采用摘要生成模型对文本进行语句抽取,生成摘要;
9.进一步地,所述需要生成摘要的文本进行目标训练具体为:
[0010][0011]
其中,£(θ)为最大化生成每个目标单词的概率,d为训练数据集,x为输入文本,y
为目标摘要,θ为模型的参数。
[0012]
进一步地,所述自动生成评价指标为rouge-n、rouge-l中任意一种或两种的组合。
[0013]
进一步地,所述rouge-n指标具体为:
[0014][0015]
其中,s代表了参考摘要中的句子,gramn代表n元组,count(gramn)表示s中n元组的数量,count
match
(gramn)表示模型生成的摘要和参考摘要匹配的n元组数量。
[0016]
进一步地,所述rouge-l指标具体为:
[0017][0018][0019][0020]
其中,x为参考摘要,m为其长度,y为模型生成的摘要,n为其长度,
[0021]
进一步地,所述对文本进行语句抽取具体包括将文本内容表示为特征项组成的集,从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词,重复上述过程直至生成摘要。
[0022]
进一步地,所述将文本内容表示为特征项组成的集具体为:doc(t1,t2,

,tn),指定tk为特征项,将文本用特征项及其对应的权重来表示,形成一个向量,向量的形式为:doc((t1,w1),(t2,w2),

,(tn,wn)),其中,wk是特征项tk的权重。
[0023]
进一步地,所述从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词具体为:
[0024][0025]
p(w|d)=p(w|t)
×
p(t|d)
[0026]
其中,t为抽取的主题,w为抽取的词,d为被抽取的集,p为组成的摘要。
[0027]
另一方面提供一种基于nlp技术的中文摘要自动生成系统,包括文本输入单元、编码单元和解码单元,所述文本输入单元用于通过用户终端输入需要生成摘要的文本,所述编码单元用于对需要生成摘要的文本进行编码得到文本表示,所述解码单元用于对输入文本的文本表示进行解码生成摘要。
[0028]
进一步地,所述编码单元由n个相同的编码层堆叠而成,编码单元第l层的编码过程如公的编码过程为:
[0029][0030]
[0031][0032]
其中,表示编码器第l-1层对于输入文本x中第i个单词xi的编码,第l-1层的输出为第l层的输入;self-attn表示对输入应用自注意力机制,layernorm表示层标准化,ffn表示前馈神经网络,和表示为计算过程的中间结果;
[0033]
所述解码单元通过概率分布p
uocab
得到当前步的输出单词,所述概率分布p
uocab
=softmax(wos bo),其中,wo和bo为可训练的参数,s为解码器最后一层的输出,softmax为softmax函数。
[0034]
与现有技术相比,本发明具有以下有益效果:本发明通过自然语言处理技术自动生成摘要,指根据一篇或多篇文档,自动地生成一段保留输入文本中关键信息并且语义通顺、简洁准确的摘要。自动文本摘要可以快速、准确、实时地生成摘要,弥补了人工摘要的不足之处。
附图说明
[0035]
图1为本发明中整体流程示意图;
[0036]
图2为本发明的整体系统框图;
[0037]
图3为本发明中部分模块示意图。
[0038]
图中:100、文本输入单元;200、编码单元;300、解码单元。
具体实施方式
[0039]
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0040]
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。
[0041]
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
[0042]
一种基于nlp技术的中文摘要自动生成方法,包括如下步骤:
[0043]
s1:对需要生成摘要的文本进行目标训练,最大化生成每个目标单词的概率;
[0044]
s2:自动生成评价指标;
[0045]
s3:采用自动生成评价指标对需要生成摘要的文本进行评价;
[0046]
s4:采用摘要生成模型对文本进行语句抽取,生成摘要;
[0047]
进一步地,所述需要生成摘要的文本进行目标训练具体为:
[0048][0049]
其中,£(θ)为最大化生成每个目标单词的概率,d为训练数据集,x为输入文本,y为目标摘要,θ为模型的参数。
[0050]
本实施例模型分为两个步骤进行训练:预训练和微调。为了更好地对预训练模型进行利用以及硬件条件的限制,发明人使用模型mass代替预训练的过程。将预训练好的模型在文本摘要的数据集上进行微调。在微调时,使用最大似然估计来最大化给定模型参数θ和输入文本x的情况下生成每个目标词的条件概率,其等价于最小化模型生成的单词和目标单词之间的负对数似然。
[0051]
进一步地,所述自动生成评价指标为rouge-n、rouge-l中任意一种或两种的组合。
[0052]
进一步地,所述rouge-n指标具体为:
[0053][0054]
其中,s代表了参考摘要中的句子,gramn代表n元组,count(gramn)表示s中n元组的数量,count
match
(gramn)表示模型生成的摘要和参考摘要匹配的n元组数量。该指标对参考摘要和模型生成摘要n元组之间的共现召回率进行统计。
[0055]
进一步地,所述rouge-l指标具体为:
[0056][0057][0058][0059]
其中,x为参考摘要,m为其长度,y为模型生成的摘要,n为其长度,该指标根据模型生成的摘要和参考摘要之间的最长公共子串来衡量模型生成摘要的质量。
[0060]
进一步地,所述对文本进行语句抽取具体包括将文本内容表示为特征项组成的集,从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词,重复上述过程直至生成摘要。
[0061]
进一步地,所述将文本内容表示为特征项组成的集具体为:doc(t1,t2,

,tn),指定tk为特征项,将文本用特征项及其对应的权重来表示,形成一个向量,向量的形式为:doc((t1,w1),(t2,w2),

,(tn,wn)),其中,wk是特征项tk的权重。
[0062]
在本实施例中,主题模型通过引入一个“主题(topic)”作为隐变量,实现了对bow模型的扩展,将词和文档之间关联关系抽象为:文档-》主题-》词.主题模型将具有相同主题的词或词组映射到同一维度上,两个不同的词属于同一主题的判断依据是:如果两个词有更高的概率同时出现在同一篇文档中,或给定一个主题,两个不同的词的产生概率比其他词汇产生的概率高。主题模型是一种特殊的概率图模型,数学基础十分完备,并且基于吉布
斯采样的推断简单有效。假设有k个主题(一般人为设定,这也是模型可能存在的问题),就把一篇文章表示成一个k维向量,向量的每一维代表一个主题,权重代表该文章属于对应主题的概率。这样,主题模型计算文本语料库中主题的词分布,并计算出每篇文章的主题分布。
[0063]
文本特征从原始文本中抽取出来,可以是字、词、短语、句子或其他形式,形成节点,相同的特征项只构造一个节点,节点的总数就是文本中互不相同的特征项数目,构成节点集合v.以v中节点之间的关系构成边,这种关系最简单的就是共现关系,若两个特征项出现在一个窗口中,比如一个句子、特定个数的字符间隔、一个文档等,窗口内的特征项对应的节点之间就有连边。文本图可以是有向的也可以是无向的,所有边的集合构成边集合e.节点本身的属性和边的权重根据任务需要进行设定。除了共现关系形成文本共现图之外,类似地,可以构建文本的语法关系图或语义关系图结构。
[0064]
进一步地,所述从集中按照特征项抽取一个主题,从被抽到的主题所对应的词分布中抽取一个词具体为:
[0065][0066]
p(w|d)=p(w|t)
×
p(t|d)
[0067]
其中,t为抽取的主题,w为抽取的词,d为被抽取的集,p为组成的摘要。
[0068]
另一方面提供一种基于nlp技术的中文摘要自动生成系统,包括文本输入单元100、编码单元200和解码单元300,所述文本输入单元100用于通过用户终端输入需要生成摘要的文本,所述编码单元200用于对需要生成摘要的文本进行编码得到文本表示,所述解码单元300用于对输入文本的文本表示进行解码生成摘要。
[0069]
进一步地,所述编码单元200由n个相同的编码层堆叠而成,编码单元200第l层的编码过程如公的编码过程为:
[0070][0071][0072][0073]
其中,表示编码器第l-1层对于输入文本x中第i个单词xi的编码,第l-1层的输出为第l层的输入;self-attn表示对输入应用自注意力机制,layernorm表示层标准化,ffn表示前馈神经网络,和表示为计算过程的中间结果;
[0074]
所述解码单元300通过概率分布p
uocab
得到当前步的输出单词,所述概率分布p
uocab
=softmax(wos bo),其中,wo和bo为可训练的参数,s为解码器最后一层的输出,softmax为softmax函数。
[0075]
为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器
件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
[0076]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0077]
需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0078]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献