一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新闻摘要的生成方法、装置以及计算机设备与流程

2022-04-13 23:29:24 来源:中国专利 TAG:


1.本发明涉及语言处理技术领域,特别是涉及一种新闻摘要的生成方法、装置以及计算机设备。


背景技术:

2.文本摘要(text summarization)是自然语言处理(natural languageprocessing,nlp)的一个常见的基础任务,它是指通过各种技术或方法,对文本或文本集合数据进行抽取、提炼,概括其主旨大意。
3.文本摘要算法主要分为抽取式和生成式,其中,抽取式方法是直接从原文中选出具有代表性的短语、句子或段落,组成原文的摘要。而常规的抽取式算法往往仅从句子对文本的概括性角度出发而设计,最终形成的文本摘要常常缺乏逻辑性和连贯性。


技术实现要素:

4.基于此,有必要针对上述问题,提供一种新闻摘要的生成方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品。
5.一种新闻摘要的生成方法,包括:
6.对新闻数据进行预处理,得到单句文本集合;
7.按照第一预设重要性排序算法对所述单句文本集合中各所述单句文本重新排序,得到第一摘要候选句集合;
8.从所述单句文本集合中提取出若干个关键词,并按照第二预设重要性排序算法对若干个所述关键词进行排序,得到关键词集合;
9.从所述单句文本集合中提取出摘要首句;
10.基于所述第一摘要候选句集合、所述关键词集合以及所述摘要首句进行逻辑拼接,得到所述新闻摘要。
11.在其中一个实施例中,所述对新闻数据进行预处理,得到单句文本集合的步骤包括:
12.按照预设规则对所述新闻数据进行过滤处理;
13.对过滤处理后的新闻数据进行单句划分,得到若干个单句文本,形成单句文本集合。
14.在其中一个实施例中,所述按照预设规则对所述新闻数据进行过滤处理的步骤通过以下方式中的任意一种或多种实现:
15.过滤所述新闻数据中的各级标题数据;
16.过滤所述新闻数据中的无用信息;
17.过滤所述新闻数据中各单句首部的逻辑词;
18.过滤所述新闻数据中的预设句式。
19.在其中一个实施例中,所述按照第一预设重要性排序算法对所述单句文本集合中
各所述单句文本重新排序,得到第一摘要候选句集合的步骤包括:
20.利用摘要抽取算法将所述单句文本集合中的各所述单句文本作为节点,建立图模型;
21.根据所述各所述单句文本之间的关系,确定各所述单句文本在所述新闻数据中的重要程度指标数据,并按照所述重要程度指标数据对各所述单句文本排序,形成所述第一摘要候选句集合。
22.在其中一个实施例中,所述从所述单句文本集合中提取出摘要首句的步骤包括:
23.形成首句分类模型;
24.将所述单句文本集合中的各所述单句文本依次输入至所述首句分类模型,以首个被所述首句分类模型判定为摘要首句的单句文本作为提取出的所述摘要首句。
25.在其中一个实施例中,所述基于所述第一摘要候选句集合、所述关键词集合以及所述摘要首句进行逻辑拼接,得到所述新闻摘要的步骤包括:
26.通过所述关键词集合中的关键词对所述第一摘要候选句集合中的摘要候选句进行筛选,得到第二摘要候选句集合;
27.将所述第二摘要候选句集合中的摘要候选句与所述摘要首句进行拼接,得到所述新闻摘要。
28.在其中一个实施例中,所述通过所述关键词集合中的关键词对所述第一摘要候选句集合中的摘要候选句进行筛选,得到第二摘要候选句集合的步骤包括:
29.按照重要程度指标数据由高到低的顺序,从所述关键词集合中依次提取出预设数量的目标关键词;
30.按照重要程度指标数据由高到低的顺序,从所述第一摘要候选句集合中依次提取出包含任意一个所述目标关键词的单句文本,形成所述第二摘要候选句集合。
31.一种新闻摘要的生成装置,包括:
32.预处理模块,用于对新闻数据进行预处理,得到单句文本集合;
33.第一生成模块,用于按照第一预设重要性排序算法对所述单句文本集合中各所述单句文本重新排序,得到第一摘要候选句集合;
34.第二生成模块,用于从所述单句文本集合中提取出若干个关键词,并按照第二预设重要性排序算法对若干个所述关键词进行排序,得到关键词集合;
35.提取模块,用于从所述单句文本集合中提取出摘要首句;
36.第三生成模块,用于基于所述第一摘要候选句集合、所述关键词集合以及所述摘要首句进行逻辑拼接,得到所述新闻摘要。
37.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的新闻摘要的生成方法的步骤。
38.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的新闻摘要的生成方法的步骤。
39.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的新闻摘要的生成方法的步骤。
40.上述新闻摘要的生成方法,在传统的抽取摘要候选句之前,对新闻数据做了预处理,一定程度上可避免后续摘要中出现语句不通顺和逻辑错误,同时在抽取摘要候选句的
基础上,还提取了新闻数据中的关键词,以及提取合适的单句文本作为摘要首句,最后结合关键词、摘要候选句和摘要首句拼接出新闻摘要,由于关键词具有高度概括性,结合关键词形成摘要,可弥补以传统抽取方式得到的摘要的概括性,提前提取出摘要首句,并在摘要首句之后直接添加摘要候选句,简化了拼接摘要的难度,可进一步提高语句间的流畅性和前后逻辑性,由此形成的新闻摘要具有良好的概括性、连贯性和逻辑性。
附图说明
41.图1为本技术一实施例提供的新闻摘要的生成方法的流程框图;
42.图2为本技术一实施例提供的新闻摘要的生成方法中步骤s100的流程框图;
43.图3为本技术一实施例提供的新闻摘要的生成方法中步骤s200的流程框图;
44.图4为本技术一实施例提供的新闻摘要的生成方法中步骤s400的流程框图;
45.图5为本技术一实施例提供的新闻摘要的生成方法中步骤s500的流程框图;
46.图6为本技术一实施例提供的新闻摘要的生成方法中步骤s510的流程框图;
47.图7为本技术一实施例提供的新闻摘要的生成装置的结构示意图;
48.图8为本技术一实施例提供的计算机设备的结构示意图。
具体实施方式
49.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的优选实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反的,提供这些实施方式的目的是为了对本发明的公开内容理解得更加透彻全面。
50.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
51.术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
52.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
53.文本摘要(text summarization)是自然语言处理(natural languageprocessing,nlp)的一个常见的基础任务,它是指通过各种技术或方法,对文本或文本集合数据进行抽取、提炼,概括其主旨大意。
54.随着互联网的快速发展,人们对信息的关注也越来越多,各新闻网站每日产生大量新闻。但与之而来的,是愈发严重的文本信息过载问题。在给用户推荐、播报每日新闻时,
为减少用户的阅读成本,需要对新闻内容进行抽取、提炼,获取文本对应的摘要。
55.文本摘要算法分为抽取式的和生成式的,其中,抽取式方法是直接从原文中选出具有代表性的短语、句子或段落,组成原文的摘要。例如,传统的基于经验的lead-3算法,直接取原文的前三句话作为文本的摘要;基于特征的 word-significance算法,先选出文本中的关键词,然后根据关键词的权重排序,依次从文本中选出第一个含有关键词的句子,拼为摘要;基于神经网络的算法则是利用神经网络模型对文本语义的理解能力,判断某句子是否为摘要句。
56.以上抽取式算法,无论是基于经验的、基于关键词的还是基于神经网络的,都是从句子对文本的概括性角度出发设计的,忽略了句子之间的连贯性和逻辑性,容易造成逻辑不恰、不通顺等问题。
57.基于上述考虑,本技术提供了一种新闻摘要的生成方法、生成装置、计算机设备、计算机可读存储介质以及计算机程序产品。
58.在一个实施例中,提供了一种新闻摘要的生成方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
59.参照图1,本实施例中,该方法包括以下步骤:
60.步骤s100、对新闻数据进行预处理,得到单句文本集合。
61.获取到新闻数据,即编辑完成的新闻稿之后,首先对新闻数据进行预处理,预处理的方式有多种,可以将不利于形成摘要的内容过滤掉,也可以对新闻数据中出现的明显错误进行纠正等,具体的预处理方式可以根据实际需求而定,在此不做限制。
62.其中,预处理过程中还包括对新闻数据的拆分,即,可以根据每个单句的结束符,将新闻数据拆分为若干个单句,由此形成单句文本集合。
63.步骤s200、按照第一预设重要性排序算法对单句文本集合中各单句文本重新排序,得到第一摘要候选句集合。
64.确定了单句文本集合之后,可以根据第一预设重要性排序算法对各单句文本进行排序,得到第一摘要候选句集合,第一摘要候选句集合中的各单句文本按照重要程度指标数据的高低依次排列。
65.其中,第一预设重要性排序算法一般是指按照预设的规则计算得到各单句文本在单句文本集合中的重要程度指标数据,并根据各单句文本的重要程度指标数据对各单句文本进行排序。重要程度指标数据用于表征单句文本在单句文本集合中的重要程度。一般地,重要程度指标数据可以根据实际需求来设定,可以是与单句文本集合中其他单句文本的相关程度,也可以是以各单句文本中所包含的词在集合中的出现频率的高低作为重要程度指标数据,当然还可以为其他的数据类型,在此不做具体限定。
66.步骤s300、从单句文本集合中提取出若干个关键词,并按照第二预设重要性排序算法对若干个关键词进行排序,得到关键词集合。
67.本实施例中,在传统的提取摘要候选句的基础上,还从单句文本集合进行关键词的提取,并按照第二预设重要性排序算法对提取出的关键词进行排序,形成关键词集合,关键词集合中的各关键词按照重要程度的高低依次排列。
68.其中,第二预设重要性排序算法一般是指按照预设的规则计算得到各关键词在单
句文本集合中的重要程度指标数据,并根据各关键词的重要程度指标数据对各关键词进行排序。重要程度指标数据用于表征关键词在单句文本集合中的重要程度。一般地,重要程度指标数据可以根据实际需求来设定,可以包括关键词在单句文本集合中出现的频率,当然还可以为其他的数据类型,在此不做具体限定。
69.步骤s400、从单句文本集合中提取出摘要首句。
70.往往摘要中的首句关乎整个摘要的流畅性和前后逻辑性,因此,本实施例还从形成的单句文本集合中提取出合适的句子作为摘要首句,可以提高摘要整体的流畅性和逻辑性。
71.步骤s500、基于第一摘要候选句集合、关键词集合以及摘要首句进行逻辑拼接,得到新闻摘要。
72.当确定了第一摘要候选句集合、关键词集合以及摘要首句之后,即可根据第一摘要候选句集合、关键词集合以及摘要首句进行逻辑拼接,具体地,关键词集合中的关键词充分体现了对新闻数据的概括性,可以根据其中的关键词对第一摘要候选句集合进行进一步的筛选和限缩,以得到更具概括性的摘要候选句,再与摘要首句进行拼接,同时确保前后句子的逻辑性,即可得到新闻摘要。
73.上述新闻摘要的生成方法,在传统的抽取摘要候选句之前,对新闻数据做了预处理,一定程度上可避免后续摘要中出现语句不通顺和逻辑错误,同时在抽取摘要候选句的基础上,还提取了新闻数据中的关键词,以及提取合适的单句文本作为摘要首句,最后结合关键词、摘要候选句和摘要首句拼接出新闻摘要,由于关键词具有高度概括性,结合关键词形成摘要,可弥补以传统抽取方式得到的摘要的概括性,提前提取出摘要首句,并在摘要首句之后直接添加摘要候选句,简化了拼接摘要的难度,可进一步提高语句间的流畅性和前后逻辑性,由此形成的新闻摘要具有良好的概括性、连贯性和逻辑性。
74.在其中一个实施例中,参照图2,步骤s100,即对新闻数据进行预处理,得到单句文本集合的步骤包括:
75.步骤s110、按照预设规则对新闻数据进行过滤处理。
76.即,可以预先设定过滤的规则,将不利于形成摘要的内容过滤掉。例如,可以将新闻数据中的各级标题提取出并过滤,可以过滤掉新闻数据中与新闻事件本身无关的内容,也可以过滤掉一些明显不适合作为摘要的句子,例如疑问句、感叹句、小标题等,还可以将句子中包含的转折词、承接词等逻辑连接词过滤掉,以避免后续逻辑拼接时,前后逻辑错误的问题。以上仅是列举出的几种预处理方式,但不局限于此,可以根据需求而定。
77.步骤s120、对过滤处理后的新闻数据进行单句划分,得到若干个单句文本,形成单句文本集合。
78.当对新闻数据过滤完毕,即可进行单句划分,具体可以识别出每个句子的结束符,例如句号、问号、感叹号、省略号等,并根据结束符进行句子的划分,形成单句文本集合。
79.其中,当得到若干个单句文本后,还可以利用分词工具对每个单句文本进行分词处理。
80.在其中一个实施例中,步骤s110,即按照预设规则对新闻数据进行过滤处理的步骤通过以下方式中的任意一种或多种实现:
81.(1)过滤新闻数据中的各级标题数据。为了体现更好的文本结构,新闻数据中往往
会存在各种形式的标题,标题数据往往不适合作为摘要的内容,因此可以将其过滤掉。由于这类标题数据存在文本长度较短、没有结束语、以序号数据开头等特征,因此可以根据这些特征将标题数据提取出来并过滤掉。
82.(2)过滤新闻数据中的无用信息。新闻数据中通常会涵盖较多的关于编者、媒体、提示等信息,这些信息与新闻事件本身无关,因此可作为无用信息,对其进行过滤。
83.(3)过滤新闻数据中各单句首部的逻辑词。逻辑词可以包括单句开头出现的转折词,例如,“但是”、“但”、“然而”等,可以包括承接词,例如,“因此”、“而且”、“还”、“其次”等,这些逻辑词易造成后续拼接的摘要中前后句之间出现逻辑错误的问题,因此,在预处理过程中对各单句首部的逻辑词进行过滤处理,以避免后续拼接摘要时出现逻辑错误的问题。
84.(4)过滤新闻数据中的预设句式。由于摘要长度限制,且摘要中一般以陈述句为主,新闻数据中的小标题、感叹句、疑问句等句式均不适合作为摘要,可以将这些句式作为预设的需要过滤的句式,根据结束符对其进行过滤处理,关于小标题,可以根据有无结束符的判断方式进行识别,当识别出无结束符,则判定为标题数据,将其过滤。
85.在其中一个实施例中,参照图3,步骤s200,即按照第一预设重要性排序算法对单句文本集合中各单句文本重新排序,得到第一摘要候选句集合的步骤包括:
86.步骤s210、利用摘要抽取算法将单句文本集合中的各单句文本作为节点,建立图模型。
87.步骤s220、根据各单句文本之间的关系,确定各单句文本在新闻数据中的重要程度指标数据,并按照重要程度指标数据对各单句文本排序,形成第一摘要候选句集合。
88.本实施例中,可以利用textrank算法将单句文本集合中的各单句文本作为节点,建立图模型,并利用各单句文本之间的关系确定各单句文本在新闻数据中的重要程度指标数据,根据各单句文本的重要程度指标数据对单句文本集合中的单句文本进行排序。
89.具体地,将单句文本集合《s1,s2,

,sn》表示为一个有向有权图g=(v,e),由点集合v和边集合e组成。其中,点集合为句子集合,每两个句子之间用边连接。任意两点vi,vj之间的权重w
i,j
,对于一个给定的点vi,in(vi)为指向该点的集合,out(vi)为点vi指向的点集合。点vi的得分计算如下:
[0090][0091]
其中,d为阻尼系数,取值范围为0到1。各点得分初始化值相同,两点间的权重值为两点之间的句子相似度。初始化后,对各点得分递归计算直到收敛,此时每一个点的得分都将趋于稳定,稳定后的得分即为重要程度指标数据。得分的大小决定该句子在整个新闻数据中重要程度的大小。对句子按得分大小排序后得到《s1′
,s2′
,...,sn′
》,即第一摘要候选句集合。
[0092]
在其中一个实施例中,在步骤s300,即从单句文本集合中提取出若干个关键词,并按照第二预设重要性排序算法对若干个关键词进行排序,得到关键词集合的步骤中,可以利用tf-idf(term frequency

inverse documentfrequency,词频-逆文本频率指数)算法进行关键词的提取。
[0093]
具体地,tf-idf算法的核心思想是从统计学方法的角度出发,对不同的词,根据出现频率的大小,赋上相对应的权重值。这种方法能够用来评估一个词在特定语料库中的重
要程度。具体做法如下:
[0094]
对于单句文本集合,tf
ij
表示该数据集分词后第i个词语t在第j个文档词频的大小,具体计算公式为:
[0095][0096]
其中n
ij
表示第i个词语t在第j个文档中出现的次数,分母是第j个文档中,所有词语出现的次数之和。
[0097]
逆文档频率用来度量一个词语的普遍重要性。对于上述特定词语t,其idfi可以由总文档数除以包含该文档的文件数得到的商取对数计算出来。具体计算公式为:
[0098][0099]
其中,|d|表示文档的总数,分母表示所有文档中包含有词语t的文档数量。
[0100]
则词频逆文档频率指数可以被表示成:
[0101]
tfidf
i,j
=tf
i,j
×
idfi[0102]
最后,对所有词按其tf-idf值进行排序,得到该单句文本集合中,所有词的重要性排序《w1,w2,...,wm》,即关键词集合。
[0103]
在其中一个实施例中,参照图4,步骤s400,即从单句文本集合中提取出摘要首句的步骤包括:
[0104]
步骤s410、形成首句分类模型。
[0105]
步骤s420、将单句文本集合中的各单句文本依次输入至首句分类模型,以首个被首句分类模型判定为摘要首句的单句文本作为提取出的摘要首句。
[0106]
一般地,适合作为摘要首句的单句文本往往存在词汇、句式、结构上的一致性,其中,词汇上,一般没有指代不清的代词,语义上,一般没有依托上一句的承接、转折等,句式上,问句等形式不太适合作为摘要首句。另外,由于新闻数据撰写的特点,需要将重点信息放在文章显眼的部分,因此,大多数新闻数据的前几句中包含了适合的摘要首句,由此进行正样本标注时,仅需要对新闻数据的前几句进行标注即可,有效减少了数据标注成本。鉴于此,可以首先训练得到首句分类模型,用于筛选出新闻数据中第一条适合作为摘要首句的句子。
[0107]
本实施例中,可以采用fasttext模型,其只有三层结构,分别为输入层、隐藏层、输出层。该模型的输入是句子的字符向量及n-gram向量,输出为该句子所属类别。该模型的前半部分,即从输入层到隐藏层,主要用于生成句子的向量表征,模型的后半部分,即从隐藏层到输出层,主要用于利用层次softmax 进行分类。在分类任务中,该模型可以较好的兼具训练精度和训练时长。
[0108]
对于单句文本集合中的任意一个句子,假设输入特征向量个数为n,输入向量可以选择word2vec或其他方法训练得到,特征向量经过线性变换映射到中间层,以作为句子的向量表示,最后通过softmax层,映射到标签。依此类推,将单句文本集合中的句子依次输入模型中,取第一个被模型判定为摘要首句的句子《si》。
[0109]
在其中一个实施例中,参照图5,步骤s500,即基于第一摘要候选句集合、关键词集
合以及摘要首句进行逻辑拼接,得到新闻摘要的步骤包括:
[0110]
步骤s510、通过关键词集合中的关键词对第一摘要候选句集合中的摘要候选句进行筛选,得到第二摘要候选句集合。
[0111]
一般文本的关键信息大多是在包含文本关键词的句子中,因此,本实施例在获取到第二摘要候选句集合后,还可以通过关键词对第二摘要候选句集合中的摘要候选句进行进一步筛选,进而可以得到第二摘要候选句集合中与新闻事件相关度较高的摘要候选句,形成第二摘要候选句集合,由此可提高后续形成的摘要对新闻信息的蕴含度。具体地,可以在第一摘要候选句集合中筛选出包含关键词的句子,以此作为后续与摘要首句进行拼接的摘要候选句。
[0112]
步骤s520、将第二摘要候选句集合中的摘要候选句与摘要首句进行拼接,得到新闻摘要。
[0113]
当确定了第二摘要候选句集合,则可以将第二摘要候选句集合中的摘要候选句与摘要首句进行拼接,得到新闻摘要。实际应用中,考虑到摘要长度对摘要效果有一定影响,摘要长度过长,句子之间的前后顺序、逻辑关系难以把握,摘要长度过短,则难以覆盖新闻主旨,因此,在拼接时需要选取合适数量的摘要候选句与摘要首句进行拼接。具体地,可以从第二摘要候选句集合中选取两句重要性较高的句子作为拼接对象,也可以选取三句或四句等,可视实际需求而定。
[0114]
在其中一个实施例中,参照图6,步骤s510,即通过关键词集合中的关键词对第一摘要候选句集合中的摘要候选句进行筛选,得到第二摘要候选句集合的步骤包括:
[0115]
步骤s511、按照重要程度指标数据由高到低的顺序,从关键词集合中依次提取出预设数量的目标关键词。
[0116]
假设,关键词集合为《w1,w2,...,wm》,其中,w1到wm是按照各关键词的重要程度指标数据由高到低进行排序的,可以取排在前5位的关键词,作为目标关键词。当然,提取出的关键词的数量不唯一,可以为4位或6位或7位或10位等,可使实际需求而定。例如,新闻数据的信息量较大时,可以增加目标关键词的数量,以提高摘要对关键信息的覆盖度;新闻数据的信息量较小时,可以减少目标关键词的数量,以简化摘要生成过程。
[0117]
需要说明的是,由于各关键词的重要程度指标数据有可能存在相同的情况,例如,重要程度指标数据最大值为a,存在4个重要程度指标数据为a的关键词,若预设数量为5,那么可以提取出这4个重要程度指标数据为a的关键词,另外再提取一个排在a后面且临近a的关键词即可;若存在5个重要程度指标数据为a的关键词,若预设数量为5,那么仅提取出这5个重要程度指标数据为a的关键词即可;若存在6个重要程度指标数据为a的关键词,若预设数量为5,那么可以随机提取出其中5个重要程度指标数据为a的关键词。即,当预设数量确定之后,仅需提取出预设数量的关键词。
[0118]
步骤s512、按照重要程度指标数据由高到低的顺序,从第一摘要候选句集合中依次提取出包含任意一个目标关键词的单句文本,形成第二摘要候选句集合。
[0119]
当获取到目标关键词后,即可根据目标关键词对第一摘要候选句集合中的摘要候选句进行筛选,以得到包含新闻关键信息的摘要候选句。具体地,可以按照重要程度指标数据由高到低的顺序,对第一摘要候选句集合中的摘要候选句进行依次筛选,将包含目标关键词的摘要候选句提取出来。例如,关键词集合中包含5个关键词,第一摘要候选句集合为《
s1′
,s2′
,...,sn′
》,s1′
到sn′
按照各单句文本的重要程度指标数据由高到低进行排序,可以在《s1′
,s2′
,...,sn′
》中筛选出前5个分别包含5个目标关键词中任意一个的摘要候选句,组合形成第二摘要候选句集合《s1″
,s2″
,...,s5″
》,然后将该摘要首句《si》与第二摘要候选句集合《s1″
,s2″
,...,s5″
》进行首位拼接并去重。在实际应用中,考虑到摘要长度不宜过长,可以从第二摘要候选句集合《s1″
,s2″
,...,s5″
》中提取出少量的摘要候选句与摘要首句进行拼接,以控制摘要的长度,例如提取出两句或三句。
[0120]
需要说明的是,本实施例提供的新闻摘要的生成方法,除了能够使形成的摘要具有良好的概括性、连贯性和逻辑性,同时仅在首句分类时需要进行二分类数据标注,将原本篇章级的标注需求降为句子级的二分类标注需求,兼顾摘要效果和数据标注成本。
[0121]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0122]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的新闻摘要的生成方法的新闻摘要的生成装置。该新闻摘要的生成装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个新闻摘要的生成装置实施例中的具体限定可以参见上文中对于新闻摘要的生成方法的限定,在此不再赘述。
[0123]
参照图7,本实施例提供的新闻摘要的生成装置包括预处理模块100、第一生成模块200、第二生成模块300、提取模块400以及第三生成模块500。其中:
[0124]
预处理模块100用于对新闻数据进行预处理,得到单句文本集合;
[0125]
第一生成模块200用于按照第一预设重要性排序算法对单句文本集合中各单句文本重新排序,得到第一摘要候选句集合;
[0126]
第二生成模块300用于从单句文本集合中提取出若干个关键词,并按照第二预设重要性排序算法对若干个关键词进行排序,得到关键词集合;
[0127]
提取模块400用于从单句文本集合中提取出摘要首句;
[0128]
第三生成模块500用于基于第一摘要候选句集合、关键词集合以及摘要首句进行逻辑拼接,得到新闻摘要。
[0129]
上述新闻摘要的生成装置,在传统的抽取摘要候选句之前,对新闻数据做了预处理,一定程度上可避免后续摘要中出现语句不通顺和逻辑错误,同时在抽取摘要候选句的基础上,还提取了新闻数据中的关键词,以及提取合适的单句文本作为摘要首句,最后结合关键词、摘要候选句和摘要首句拼接出新闻摘要,由于关键词具有高度概括性,结合关键词形成摘要,可弥补以传统抽取方式得到的摘要的概括性,提前提取出摘要首句,并在摘要首句之后直接添加摘要候选句,简化了拼接摘要的难度,可进一步提高语句间的流畅性和前后逻辑性,由此形成的新闻摘要具有良好的概括性、连贯性和逻辑性。
[0130]
在其中一个实施例中,预处理模块用于:按照预设规则对新闻数据进行提取和过滤处理;对提取和过滤处理后的新闻数据进行单句划分,得到若干个单句文本,形成单句文
本集合。
[0131]
在其中一个实施例中,预处理模块通过以下方式中的任意一种或多种实现对新闻数据的提取和过滤处理:
[0132]
提取新闻数据中的各级标题数据;
[0133]
过滤新闻数据中的无用信息;
[0134]
过滤新闻数据中各单句首部的逻辑词;
[0135]
过滤新闻数据中的预设句式。
[0136]
在其中一个实施例中,第一生成模块用于:利用摘要抽取算法将单句文本集合中的各单句文本作为节点,建立图模型;根据各单句文本之间的关系,确定各单句文本在新闻数据中的重要程度指标数据,并按照重要程度指标数据对各单句文本排序,形成第一摘要候选句集合。
[0137]
在其中一个实施例中,提取模块用于:形成首句分类模型;将单句文本集合中的各单句文本依次输入至首句分类模型,以首个被首句分类模型判定为摘要首句的单句文本作为提取出的摘要首句。
[0138]
在其中一个实施例中,第三生成模块用于:按照重要程度指标数据由高到低的顺序,从关键词集合中依次提取出预设数量的目标关键词;按照重要程度指标数据由高到低的顺序,从第一摘要候选句集合中依次提取出包含任意一个目标关键词的单句文本,形成第二摘要候选句集合;将第二摘要候选句集合中的单句文本与摘要首句进行拼接,得到新闻摘要。
[0139]
上述新闻摘要的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0140]
图8为本技术一实施例提供的计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻摘要的生成方法涉及到的各类数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻摘要的生成方法。
[0141]
本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0142]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0143]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0144]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0145]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccess memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram) 或动态随机存取存储器(dynamic random access memory,dram)等。
[0146]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0147]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献