基于句子特征分数加权的抽取式文本摘要生成方法及装置与流程

2022-04-09 06:37:29 来源：中国专利 TAG：

1.本发明涉及文档摘要提取领域，具体涉及一种基于句子特征分数加权的抽取式文本摘要生成方法及装置。

背景技术：

2.当代的网络背景下，人们接收信息的途径越来越多，接收信息的数量也随之变得庞大。对于新闻报告类题材来说，同一事件有可能由多家媒体机构报道发布，而这些报道除了措辞之外，在信息上多数只有事件不同方面细节程度的差别。对于读者来说，面对庞杂的信息，高效获取更为全面信息的诉求愈发突出。抽取式自动多文档文本摘要则是一种从同一主题的多个文档中直接抽取包含主要信息的句子而形成一篇摘要性文档的任务。
3.文档文本摘要任务所需的数据集一般是包含单个或多个主题的文档所组成的数据集。将相同主题的多个文档整理成一个主题集，即每个主题集中包含多个同一主题的文档。数据集中的主题个数与主题集的数量一致。多文档文本摘要任务的目标是将每个主题集各生成一篇摘要。目前主要由句子打分式模型(如textrank，各类神经网络等)计算出的每个句子的分数。句子打分式模型是根据句子包含的信息量、重要程度等维度对每一个句子进行的打分，这些句子的模型分数经过排序后可以作为抽取的标准，分数达到标准的对应句子将被抽出组成目标生成的摘要文档。现有的抽取式自动多文档文本摘要方法中在文本特征表示和算法模型上进行了大量的探索和实践，但较少细节地针对特定文体特点进行特征提取尝试，导致抽取的摘要文本准确度低、模型性能较差。

技术实现要素：

4.针对上述提到的直接由句子打分式模型抽取摘要准确度低、模型性能较差等问题。本技术的实施例的目的在于提出了一种基于句子特征分数加权的抽取式文本摘要生成方法及装置，来解决以上背景技术部分提到的技术问题。
5.第一方面，本技术的实施例提供了一种基于句子特征分数加权的抽取式文本摘要生成方法，包括以下步骤：
6.s1，获取主题集中各个文档标题的词汇频率和所有句子的平均长度，基于词汇频率得到标题词表，其中主题集中包括多个同一主题的文档；
7.s2，采用句子打分式基础模型计算出主题集中句子i的基础模型分数si，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，响应于句子i为首句得到首句特征分数ff，基于平均长度与句子i的长度计算得到句长特征分数f
l
；
8.s3，将基础模型分数si、标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
相乘得到句子i的句子分数scorei；
9.s4，重复步骤s2-s3得到主题集中所有句子的句子分数，并基于句子分数在主题集中提取出目标摘要。
10.在一些实施例中，步骤s1中基于词汇频率得到标题词表，具体包括：提取词汇频率超过预设频率阈值的词汇组成标题词表。
11.在一些实施例中，步骤s2中句子打分式基础模型为基于神经网络的句子打分模型。
12.在一些实施例中，步骤s2中基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，具体采用下式计算：
[0013][0014]
其中，wh为标题词汇的特征权重，h为标题词表中词汇的个数，t为句子i中出现标题词表中的词汇的个数。
[0015]
在一些实施例中，步骤s2中响应于句子i为首句得到首句特征分数ff，具体包括，判断句子i是否为首句，若是，则采用下式计算首句特征分数ff：
[0016]ff
＝wf；
[0017]
其中，wf为首句的特征权重，否则，wf的取值为1，首句特征分数ff为1。
[0018]
在一些实施例中，步骤s2中基于平均长度与句子i的长度计算得到句长特征分数f
l
，具体采用下式计算：
[0019][0020]
其中，w
l
为句长的特征权重，l
avg
为平均长度，li为句子i的长度。
[0021]
在一些实施例中，步骤s4中的基于句子分数在主题集中提取出目标摘要，具体包括：将所有句子的句子分数进行排序，将满足预设分数阈值的句子筛选出并抽取出来，组合成目标摘要。
[0022]
第二方面，本技术的实施例提供了一种基于句子特征分数加权的抽取式文本摘要生成装置，包括：
[0023]
参数计算模块，被配置为获取主题集中各个文档标题的词汇频率和所有句子的平均长度，基于词汇频率得到标题词表，其中主题集中包括多个同一主题的文档；
[0024]
分数计算模块，被配置为采用句子打分式基础模型计算出主题集中句子i的基础模型分数si，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，响应于句子i为首句得到首句特征分数ff，基于平均长度与句子i的长度计算得到句长特征分数f
l
；
[0025]
综合模块，被配置为将基础模型分数si、标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
相乘得到句子分数scorei；
[0026]
提取模块，被配置为重复执行分数计算模块和综合模块得到主题集中所有句子的句子分数，并基于句子分数在主题集中提取出目标摘要。
[0027]
第三方面，本技术的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0028]
第四方面，本技术的实施例提供了一种计算机可读存储介质，其上存储有计算机
程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0029]
相比于现有技术，本发明具有以下有益效果：
[0030]
(1)本发明针对新闻报告类文体的特性，提出一些针对性的句子层面特征加权加入句子打分式基础模型，以提高基于句子分数抽取摘要的准备性。
[0031]
(2)本发明的基于句子特征分数加权的抽取式文本摘要生成方法在不改变句子打分式基础模型的网络结构的基础上，对句子分数计算方式进行优化，提高模型的性能。
[0032]
(3)本发明的基于句子特征分数加权的抽取式文本摘要生成方法融入了标题词汇特征、首句特征、句长特征作为主题集中摘要提取的标准，使得文本摘要抽取的准确度更高，颗粒度更细。
附图说明
[0033]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0034]
图1是本技术的一个实施例可以应用于其中的示例性装置架构图；
[0035]
图2为本发明的实施例的基于句子特征分数加权的抽取式文本摘要生成方法的流程示意图；
[0036]
图3为本发明的实施例的基于句子特征分数加权的抽取式文本摘要生成方法的计算方式的示意图；
[0037]
图4为本发明的实施例的基于句子特征分数加权的抽取式文本摘要生成装置的示意图；
[0038]
图5是适于用来实现本技术实施例的电子设备的计算机装置的结构示意图。
具体实施方式
[0039]
为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0040]
图1示出了可以应用本技术实施例的基于句子特征分数加权的抽取式文本摘要生成方法或基于句子特征分数加权的抽取式文本摘要生成装置的示例性装置架构100。
[0041]
如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0042]
用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。
[0043]
终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式
计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
[0044]
服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。
[0045]
需要说明的是，本技术实施例所提供的基于句子特征分数加权的抽取式文本摘要生成方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于句子特征分数加权的抽取式文本摘要生成装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。
[0046]
应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。
[0047]
图2示出了本技术的实施例提供的一种基于句子特征分数加权的抽取式文本摘要生成方法，包括以下步骤：
[0048]
s1，获取主题集中各个文档标题的词汇频率和所有句子的平均长度，基于词汇频率得到标题词表，其中主题集中包括多个同一主题的文档。
[0049]
在具体的实施例中，先计算当前主题集中各个文档标题的词汇频率，并将词汇频率进行排序，提取词汇频率超过预设频率阈值的词汇组成标题词表。具体地，预设频率阈值可以设为70％，因此抽取前70％的高频词汇组成标题词表。并且计算当天主题集的句子的平均长度l
avg
。
[0050]
s2，采用句子打分式基础模型计算出主题集中句子i的基础模型分数si，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，响应于句子i为首句得到首句特征分数ff，基于平均长度与句子i的长度计算得到句长特征分数f
l
。
[0051]
在具体的实施例中，参考图3，采用句子打分式基础模型计算出当前主题集中所有文档的每一个句子的基础模型分数，当前主题集中的其中一个句子以句子i表示，其基础模型分数为si。具体地，句子打分式基础模型为基于传统机器学习或神经网络的句子打分模型，例如textrank。本技术的重点不在句子打分式基础模型的结构本身，因此不再赘述。
[0052]
在具体的实施例中，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，具体采用下式计算：
[0053][0054]
其中，wh为标题词汇的特征权重，其取值范围为(0, ∞)，h为步骤s1得到的标题词表中词汇的个数，t为句子i中出现标题词表中的词汇的个数。因此，h为根据标题词表中词汇的个数确定的固定数值，而t则是将句子i中词与标题词表中的词汇进行比对，根据比对结果确定t的数值。
[0055]
在具体的实施例中，响应于句子i为首句得到首句特征分数ff，具体包括，判断句子i是否为首句，若是，则采用下式计算首句特征分数ff：
[0056]ff
＝wf；
[0057]
其中，wf为首句的特征权重，否则，wf的取值为1，首句特征分数ff为1。因此需要先判断句子i是否首句，若句子i为首句，wf的取值则为大于1的权重；若句子i不是首句，wf的取值则为1，首句的特征分数ff为1，即没有首句的特征。
[0058]
在具体的实施例中，基于平均长度与句子i的长度计算得到句长特征分数f
l
，具体采用下式计算：
[0059][0060]
其中，w
l
为句长的特征权重，其取值范围为(0, ∞)，l
avg
为步骤s1得到的平均长度，li为句子i的长度。则f
l
的取值范围为(1,w
l
1)。
[0061]
新闻报告类文体具有一些明显的特征，如凝练精简的标题，信息丰富的首句，以及句子长度的稳定性。标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
均是句子层面特征，因此可以对使用句子打分式模型的自动文本摘要任务中计算句子分数的环节进行改进。标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
分别对应是否含有标题词汇、是否首句、句长，提取后通过组合加权的方式得到特征分数，加入句子打分式模型最终得到的句子分数中。也就是，在原本作为句子抽取标准的模型分数上额外融入了这三个特征的分数，以这个最终分数作为句子抽取的新标准，最终目的为通过增加特征的方式以求提升原本句子打分式模型的性能。三个特征权重wh，wf和w
l
则作为机器学习的超参数，可与其他超参数一样对其进行调参，找到与所用数据集匹配效果更优的参数。
[0062]
s3，将基础模型分数si、标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
相乘得到句子i的句子分数scorei。
[0063]
具体地，综合标题词汇、首句、句长这三个特征得到标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
后，与基础模型分数si相乘，计算出句子i的句子分数scorei，其计算公式如下：
[0064]
scorei＝si·fh
·fl
·ff
。
[0065]
s4，重复步骤s2-s3得到主题集中所有句子的句子分数，并基于句子分数在主题集中提取出目标摘要。
[0066]
在具体的实施例中，主题集中每个文档的所有句子均重复步骤s2-s3，在原先句子打分式模型计算得到的基础模型分数的基础上融合标题词汇、首句、句长这三个特征得到新的句子分数，至此，所得到的句子分数便是经过本发明改进后的句子分数。将所有句子的句子分数进行排序，将满足预设分数阈值的句子筛选出并抽取出来，组合成目标摘要。本发明对句子打分式模型中计算句子分数的环节进行的改进到此结束。后续的步骤保持不变，仍然是基于每个句子分数对句子进行排序，筛选出满足任务要求分数线的句子并将它们抽取出来，组合成自动摘要任务的目标摘要。
[0067]
本方法针对新闻报告类文本的文体特征，对这类文本的自动多文档文本摘要提出三个句子层面的特征，分别计算特征分数后加入句子打分式基础模型的句子分数中，相比原句子打分式基础模型的性能得到了一定程度的提高。本方法在国际计算语言学协会年会(acl2010)自动文本摘要赛道的数据上进行了实践。在句子表征为glove的textrank基础模
型上，rouge-2分数由0.0383提升至0.0604；在句子表征为tf-idf的mmr基础模型上,rouge-2分数由0.0689提升至0.0809。
[0068]
进一步参考图4，作为对上述各图所示方法的实现，本技术提供了一种基于句子特征分数加权的抽取式文本摘要生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0069]
本技术实施例提供了一种基于句子特征分数加权的抽取式文本摘要生成装置，包括：
[0070]
参数计算模块1，被配置为获取主题集中各个文档标题的词汇频率和所有句子的平均长度，基于词汇频率得到标题词表，其中主题集中包括多个同一主题的文档；
[0071]
分数计算模块2，被配置为采用句子打分式基础模型计算出主题集中句子i的基础模型分数si，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，响应于句子i为首句得到首句特征分数ff，基于平均长度与句子i的长度计算得到句长特征分数f
l
；
[0072]
综合模块3，被配置为将基础模型分数si、标题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
相乘得到句子分数scorei；
[0073]
提取模块4，被配置为重复执行分数计算模块和综合模块得到主题集中所有句子的句子分数，并基于句子分数在主题集中提取出目标摘要。
[0074]
下面参考图5，其示出了适于用来实现本技术实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0075]
如图5所示，计算机装置500包括中央处理单元(cpu)501和图形处理器(gpu)502，其可以根据存储在只读存储器(rom)503中的程序或者从存储部分509加载到随机访问存储器(ram)504中的程序而执行各种适当的动作和处理。在ram 504中，还存储有装置500操作所需的各种程序和数据。cpu 501、gpu502、rom 503以及ram504通过总线505彼此相连。输入/输出(i/o)接口506也连接至总线505。
[0076]
以下部件连接至i/o接口506：包括键盘、鼠标等的输入部分507；包括诸如、液晶显示器(lcd)等以及扬声器等的输出部分508；包括硬盘等的存储部分509；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分510。通信部分510经由诸如因特网的网络执行通信处理。驱动器511也可以根据需要连接至i/o接口506。可拆卸介质512，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器511上，以便于从其上读出的计算机程序根据需要被安装入存储部分509。
[0077]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分510从网络上被下载和安装，和/或从可拆卸介质512被安装。在该计算机程序被中央处理单元(cpu)501和图形处理器(gpu)502执行时，执行本技术的方法中限定的上述功能。
[0078]
需要说明的是，本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——
电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0079]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0080]
附图中的流程图和框图，图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0081]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
[0082]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取主题集中各个文档标题的词汇频率和所有句子的平均长度，基于词汇频率得到标题词表，其中主题集中包括多个同一主题的文档；采用句子打分式基础模型计算出主题集中句子i的基础模型分数si，基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数fh，响应于句子i为首句得到首句特征分数ff，基于平均长度与句子i的长度计算得到句长特征分数f
l
；将基础模型分数si、标
题词汇特征分数fh、首句特征分数ff、句长特征分数f
l
相乘得到句子i的句子分数scorei；重复上述步骤得到主题集中所有句子的句子分数，并基于句子分数在主题集中提取出目标摘要。
[0083]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于句子特征分数加权的抽取式文本摘要生成方法及装置与流程

相关文献

最热文献