稿件摘要生成方法和装置、设备及存储介质与流程

2022-06-25 12:47:56 来源：中国专利 TAG：

1.本公开涉及摘要生成方法技术领域，尤其涉及一种稿件摘要生成方法和装置、设备及储存介质。

背景技术：

2.现有的摘要生成方法主要有两种，一种是静态摘要生成方法，另一种是动态摘要生成方法。静态摘要是将文章的摘要提前生成好，以文章的中心意思为主体，其弊端是无法根据用户的想要获取的信息来找到相应的稿件信息。而动态生成的摘要完全以用户提供的query为主体，无法把文章的中心思想表达完全。在相关技术中，无论静态摘要生成方法，还是动态摘要生成方法，均可以采用抽取式的摘要生成方式来实现。但是，抽取式的摘要生成方法主要考虑单词词频，没有过多的语义信息，所以无法建立段落中的完整语义信息。
3.因此，如何精确生成满足用户需求且与文章中心意思挂钩的稿件摘要，成为本领域技术人员亟待解决的问题。

技术实现要素：

4.有鉴于此，本公开提出了一种稿件摘要生成方法和装置、设备及储存介质，基于用户提供的query，对数据库中的命中稿件进行摘要生成。
5.根据本公开的一方面，提供了一种稿件摘要生成方法，包括：
6.对当前获取的query进行分词处理，得到所述query中的关键词；
7.基于所述关键词，由数据库中提取出包含有所述关键词中的实体词的稿件作为命中稿件；
8.对于各所述命中稿件，将包含有所述关键词的语句按照段落分布提取出来作为待合并语句，并确定各所述待合并语句的段落关系；
9.将有段落关系的待合并语句进行重构合并得到段落语句，将没有段落关系的待合并语句单独作为一个段落语句；
10.将各所述段落语句按照顺序合并，构建得到稿件摘要。
11.在一种可能的实现方式中，对当前获取的query进行分词处理时，基于预先构建的词表进行处理。
12.在一种可能的实现方式中，基于预先构建的词表，对当前获取的query进行分词处理时，包括：
13.确定query中是否存在记录在所述词表中的词；
14.对于query中记录在所述词表中的词不进行分词处理。
15.在一种可能的实现方式中，基于所述关键词，由数据库中提取出包含有所述关键词中的实体词的稿件作为命中稿件时，包括：
16.对各所述关键词进行词性预测，得到各所述关键词的词性；
17.根据各所述关键词的词性，确定所述关键词中的实体词；
18.基于确定的所述实体词，由数据库中提取出包含所述实体词的所有稿件作为命中稿件。
19.在一种可能的实现方式中，由数据库中提取出包含有所述关键词中的实体词的稿件作为命中稿件后，还包括：对提取出来的各所述命中稿件进行排序的操作。
20.在一种可能的实现方式中，对提取出来的各所述命中稿件进行排序时，按照预先设置的排序规则进行排序；
21.其中，所述排序规则为：虚实词全部命中的稿件，实词命中稿件，部分虚实体词命中稿件，部分实体词命中稿件。
22.在一种可能的实现方式中，将有段落关系的所述待合并语句按照对应的段落关系进行合并重构得到所述段落语句时，包括：
23.将所述待合并语句进行压缩，将压缩后有段落关系的所述待合并语句套到对应的段落关系句式中进行重构合并。
24.在一种可能的实现方式中，将各所述段落语句按照顺序合并，构建得到稿件摘要后，还包括：
25.按照各所述命中稿件的顺序，将生成的各所述稿件摘要顺序排列。
26.根据本技术的另一方面，提供一种稿件摘要生成设备，包括：
27.处理器；
28.用于存储处理器可执行指令的存储器；
29.其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述的方法。
30.根据本技术的另一方面，提供一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。
31.根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。
32.本公开适用于根据用户所提供的query对数据库中的新闻稿件进行检索并对检索出的稿件根据关键词和段落关系形成稿件摘要。通过对当前获取的query进行分词处理，得到关键词，将数据库中所有包含实体词的关键词的稿件作为命中稿件，使检索出的稿件可以更好的满足用户需求。再对命中稿件中包含有关键词的语句提取出作为待合并语句，再将待合并语句按照对应的段落关系进行合并重构得到段落语句，将没有段落关系的待合并语句单独作为一个段落语句，将各所述段落语句按照顺序合并，构建得到稿件摘要，使所形成的摘要可以更加贴合文章的中心意思，且可读性较强字数可控。最后在前端展示出所有命中稿件的标题以及所对应的稿件摘要。
33.根据下面参考附图对示例性实施例的详细说明，本技术的其它特征及方面将变得清楚。
附图说明
34.包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本技术的示例性实施例、特征和方面，并且用于解释本技术的原理。
35.图1示出本公开实施例的稿件摘要生成方法的流程图；
36.图2示出本公开实施例的稿件摘要生成设备的主体结构图。
具体实施方式
37.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
38.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
39.另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。
40.图1示出根据本公开一实施例的稿件摘要生成方法的流程图。图2示出根据本公开一实施例的稿件摘要生成设备的主体结构图。如图1所示，该稿件摘要生成方法，包括：步骤s100：对当前获取的query进行分词处理，得到query中的关键词。步骤s200：基于关键词，由数据库中提取出包含有关键词中的实体词的稿件作为命中稿件。步骤s300：对于各命中稿件，将包含有关键词的语句按照段落分布提取出来作为待合并语句，并确定各待合并语句的段落关系。步骤s400：将有段落关系的待合并语句进行合并重构得到段落语句，将没有段落关系的待合并语句单独作为一个段落语句。步骤s500：将各段落语句按照顺序合并，构建得到稿件摘要。
41.本公开适用于根据用户所提供的query对数据库中的新闻稿件进行检索并对检索出的稿件根据关键词和段落关系形成稿件摘要。通过对当前获取的query进行分词处理，得到关键词，将数据库中所有包含实体词的关键词的稿件作为命中稿件，使检索出的稿件可以更好的满足用户需求。再对命中稿件中包含有关键词的语句提取出作为待合并语句，再将待合并语句按照对应的段落关系进行合并重构得到段落语句，将没有段落关系的待合并语句单独作为一个段落语句，将各段落语句按照顺序合并，构建得到稿件摘要，使所形成的摘要可以更加贴合文章的中心意思，且可读性较强字数可控。最后在前端展示出所有命中稿件的标题以及所对应的稿件摘要。
42.在一种可能的实现方式中，对当前获取的query进行分词处理时，可以基于预先构建的词表进行处理，相较于传统的分词词表，本公开中所使用的词表包含了新闻领域术语及其他相关术语，使对query的分词可以和数据库中的新闻稿件更加匹配。
43.在一种可能的实现方式中，基于预先构建的词表，对当前获取的query进行分词处理时，包括：确定query中是否存在记录在词表中的词。对于query中记录在词表中的词不进行分词处理。其中，用于对query进行分词处理的词表可以使用本领域常规技术手段进行构建，此处不再赘述。
44.此处，需要进行说明的是，对query进行分词后，根据停用词表将所分的词分为停用词与非停用词，然后利用bert模型的mask机制，依次将所分的非停用词掩盖并进行预测，如果预测出的词与所分的非停用词的编辑距离小于或等于预设字符数，或者所分的非停用词在预先构建的词表中有相近词，那么这个所分的非停用词就是关键词。
45.举例来说，对query进行分词后得到词a、词b、词c、词d和词e。其中，根据停用词表确定词a、词c和词d为非停用词，词b和词e为停用词。然后，利用bert模型的mask机制，依次对非停用词(即，词a、词c和词d)进行预测，分别得到词a的预测词a’、词c的预测词c’和词d的预测词d’。进而，再分别计算词a与词a’的编辑距离、词c与词c’的编辑距离以及词d与词d’的编辑距离，在计算到的编辑距离小于或等于预设字符数时，确定该编辑距离小于或等于预设字符数的非停用词为关键词。如：在本实施例中，在计算出词a与词a’的编辑距离小于或等于预设字符数和词c与词c’的编辑距离小于或等于预设字符数时，则可以确定词a和词c均为关键词。bert模型的mask机制为本领域常规技术手段，此处不再赘述。
46.同时，在上述可能的实现方式中，在对分词处理后得到的各个词进行是够为关键词的判断时，还可以根据预先构建的词表中是否存在对应的相近词的方式来实现。即，对分词后得到的词a、词b、词c、词d和词e，分别进行停用词和非停用词的划分之后，再从预先构建的词表中查找是否存在各非停用词(即，词a、词c和词d)对应的相近词，如果存在对应的相近词，则确定该非停用词为关键词，如果不存在相近词，则确定该非停用词为非关键词。
47.举例来说，从预先构建的词表用逐一对比的方式依次对词a、词c和词d进行相似度对比，相似度值大于或等于预设阈值的词则为相近词。如：在本实施例中，预先构建的词表中存在与词a相似度值大于或等于预设阈值的词a，预先构建的词表中存在与词c相似度值大于或等于预设阈值的词c，则可以确定词a和词c均为关键词。
48.其中，停用词表可根据实际使用情况或用户喜好进行灵活选择，此处不做限定。
49.还需要指出的是，在根据预测出的词与所分的非停用词的编辑距离和所分的非停用词在预先构建的词表中是否有相近词这一条件进行非停用词是否为关键词的判断时，可以先通过对非停用词在预先构建的词表中是否有相近词，在有相近词时则不再进行编辑距离的计算，直接将该非停用词作为关键词。如果在预先构建的词表中没有相近词时，则再对预测出的词与该停用词进行编辑距离的计算，在计算出编辑距离小于或等于预设字符数时，则确定该非停用词为关键词。在计算出编辑距离大于预设字符数时，则将该非停用词作为不是关键词处理。
50.本领域技术人员可以理解的是，编辑距离的计算可以通过计算预测出的词修改几个字可变为所对应的非停用词的方式来实现。即，编辑距离指的是预测出的词转换为其对应的非停用词时所修改的字的个数。也就是说，预测出的词通过修改一个字可变为所对应的所分非停用词，则两者之间编辑距离为1。
51.此处，还应当指出的是，预测出的词与所分的非停用词的编辑距离为0时，则确定该非停用词也为关键词。即，在本技术实施例中，预设字符数的取值范围可以设置为：0—2，优选的，预设字符数的取值可以设置为1。
52.进一步地，对于预测出的词与对应的非停用词进行编辑距离的计算时，可以采用本领域常用技术手段即可实现，此处不再赘述。
53.应当说明的是，在对所划分出的非停用词进行在预先构建的词表中是否有相近词的判断时，可以采用以下方式来实现。即，对非停用词与预先构建的词表中的词进行相似度对比，得到各非停用词与词表中的词的相似度值，然后再根据得到的相似度值确定各非停用词与词表中的词是否为相近词。
54.其中，在对各非停用词与预先构建的词表中的词进行相似度对比时，可以采用逐
一对比的方式，也可以先基于各非停用词的字符数，由词表中提取出字符数相一致的词，然后再对各非停用词与由词表中提取出的字符数相一致的词依次进行相似度对比。在进行相似度对比过程中，当出现相似度值大于或等于预设阈值时，则直接确定非停用词在预先构建的词表中存在相近词。
55.在一种可能的实现方式中，预设阈值的取值可以根据实际使用情况或用户喜好灵活进行设置。如：预设阈值的取值范围可以设置为0.7至0.95，优选的，预设阈值的取值可以设置为0.87。
56.同时，还需要指出的是，在对各非停用词与预先构建的词表中的各词逐一进行相似度对比时，可以采用本领域常规的相似度对比技术手段来实现，此处不再进行赘述。
57.在对用户输入的query中提取出关键词之后，即可对提取出的关键词进行词性的检测，将关键词划分为实体词和虚词。其中，在一种可能的实现方式中，可以利用基于语料训练过的crf模型对关键词进行词性的预测，预测出关键词的词性，将关键词分为实体词和虚词。此处，本领域技术人员可以理解的是，实体词指的是具有实际含义的词，虚词则为段落中起到承接作用，使得段落语句更加连贯的词。crf模型是一个对数线性模型，通过训练crf模型，参数的学习就是根据训练数据找到能使条件概率最大化的参数。然后给定一个已知句子，但是其标注未知，通过模型推测每个单词可能性最大的词性，即找到最优的一组，确定他们的词性。
58.通过上述任一方式，将关键词划分为实体词和虚词之后，即可进行稿件的提取。在一种可能的实现方式中，基于关键词，由数据库中提取稿件时，可以基于划分得到的所有实体词，由数据库中提取包含有各实体词的稿件作为命中稿件。
59.也就是说，在本技术实施例的方法中，在由数据库中提取稿件作为命中稿件时，首先，对各关键词进行词性预测，得到各关键词的词性。根据各关键词的词性，确定关键词中的实体词。基于确定的实体词，由数据库中提取出包含实体词的所有稿件作为命中稿件，使数据库中的命中稿件更符合用户需求。
60.此处，需要解释说明的是，由数据库中提取出的包含实体词的稿件作为命中稿件时，所提取出的稿件包括有：包含有所有实体词的稿件，以及包含有部分实体词的稿件。即，数据库存储的稿件中，只要包含有所有实体词中的其中一个实体词就可以作为命中稿件。
61.将所有的命中稿件提取后，对所有的命中稿件进行排序处理。在一种可能的实现方式中，由数据库中提取出包含有关键词中的实体词的稿件作为命中稿件后，还包括：对提取出来的各命中稿件进行排序的操作，使所提取出的所有命中稿件可以按照其与输入的query相关程度进行排序。排序后的所有命中稿件使用户检索时更加方便。
62.在一种可能的实现方式中，对提取出来的各命中稿件进行排序时，按照预先设置的排序规则进行排序。其中，排序规则为：虚实体词全部命中的稿件，实体词全部命中稿件，部分虚实体词命中稿件，部分实体词命中稿件。进而将命中稿件按照相关程度进行排序，进一步便于用户进行检索。
63.此处，需要进行说明的是，对于命中条件相同的稿件，按照稿件发布时间进行排序。即，对于虚实体词全部命中的稿件中，再按照稿件发布时间的先后顺序进行排序。对于实体词全部命中的稿件中，同样也按照稿件发布时间的先后进行排序。以此类推。
64.在对所有命中稿件进行排序后，即可分别针对各命中稿件进行提取待合并语句以
及构成段落语句，再将各段落语句按照顺序排列构成稿件摘要，其中，在对各命中稿件进行待合并语句提取时，所提取出的待合并语句为包含有关键词的语句，按照段落分布对命中稿件进行待合并语句提取。同时，由稿件中提取出包含有各关键词的语句作为待合并语句时，可以采用本领域常用技术手段即可实现，此处不再赘述。
65.由稿件中提取出包含有关键词的语句作为待合并语句之后，即可进行待合并语句的重构和合并。在本技术实施例的方法中，可以根据各待合并语句之间的段落关系进行重构合并。
66.具体的，将有段落关系的待合并语句按照对应的段落关系进行合并重构得到段落语句时，包括：将待合并语句进行压缩，然后再对压缩后的待合并语句按照对应的段落关系句式进行重构合并，生成一句话。
67.其中，在进行待合并语句的压缩时可以采用语言模型来实现。即，通过语言模型对各待合并语句进行是否要压缩的判断，同时在判断出需要进行压缩时直接对待合并语句进行压缩，以缩短待合并语句的句长。此处，需要指出的是，对待合并语句是否要进行压缩的判断可以通过对待合并语句的字符数与预设字符数的比较来实现。在比较出待合并语句的字符数大于或等于预设字符数时，则确定待合并语句需要进行压缩。在比较出待合并语句的字符数小于预设字符数时，则确定待合并语句不需要进行压缩。在一种可能的实现方式中，预设字符数的取值可以根据实际情况灵活设置，如：可以根据当前要生成的摘要的总字符数进行设置。一般来说，预设字符数的取值可以设置为：5—8。
68.在对压缩后的待合并语句按照对应的段落关系句式进行重构合并时，需要对待合并语句进行段落关系的判断。此处，需要解释说明的是，对待合并语句的段落关系的判断指的是，对属于同一段落中的相邻的待合并语句进行段落关系的判断。同时，在一种可能的实现方式中，对相邻的待合并语句进行段落关系的判断时可以采用分类模型，优选的，分类模型基于bert模型和lstm模型构建，为本领域常用技术手段，此处不再赘述
69.其中，段落关系包括总分关系、并列关系、因果关系、承接关系、转折关系和没有关系中的至少一种。同时，段落关系可以使用分类模型进行关系分类，将有属于同一段落中且有段落关系的待合并语句合并在一起得到相应的段落语句(例如：因果关系的待合并语句，通过因为......所以......的格式合并在一起，并列关系的待合并语句，通过......并且......的格式合并在一起)，没有段落关系的待合并语句按照所在段落顺序排列，属于同一段落中的压缩后的段落语句和没有段落关系的待合并语句按其在命中稿件中的顺序依次排列，命中稿件中的其余各段均按照上述方法进行操作，再将各段的压缩后的段落语句和没有段落关系的待合并语句按其在命中稿件中的顺序依次排列，进而得到稿件摘要，且所得到的稿件摘要可以很好的和文章中心思想关联。
70.此处，需要进行说明的是，使用分类模型进行关系分类时，如果所有关系的置信度没有超过阈值，则认为没有关系。通过分类模型能得到属于上述段落关系的置信度，事先通过测试集确定属于这些段落关系的最小的置信度的值，如果超过这个预设置信度的值，则认为段落中有对应的段落关系，否则则认为没有关系，如果没有命中任何关系，则认为没有关系。
71.此处，需要进行说明的是，利用语言模型和句法分析模型对待合并语句进行压缩和重构，将待合并语句压缩一句话，可以采用将有段落关系的待合并语句套进原本设置好
的段落关系句式中(例如：因果关系，因为.....所以......)进行待合并语句的重构，如果待合并语句只有一句，则不改变句子。
72.其中，还需要指出的是，在对有段落关系的待合并语句进行重构合并时，一种方式是按照段落关系所对应的段落句式进行重构合并，另一种则可以直接将有段落关系的待合并语句合并为一句话。在一种可能的实现方式中，对于上述两种重构合并方式，可以通过计算重构合并的语句的ppl值，根据ppl值的大小确定有段落关系的待合并语句的重构合并方式。如：可以选择ppl值较小的重构合并方式进行有段落关系的待合并语句的重构合并。
73.举例来说，在所提取出的命中稿件a的其中一段中，根据关键词进行待合并语句的提取分别得到：待合并语句a、待合并语句b、待合并语句c、待合并语句d、待合并语句e和待合并语句f。
74.对上述各待合并语句进行压缩后，各待合并语句分别与相邻的待合并语句进行段落关系判断，如：待合并语句a与待合并语句b进行段落关系判断，待合并语句b与待合并语句c进行段落关系判断，待合并语句c与待合并语句d进行段落关系判断
……
。以此类推，得到同一段落中各相邻待合并语句之间的段落关系。
75.如：判断出待合并语句a与待合并语句b为因果关系且待合并语句b与待合并语句c为并列关系，待合并语句c与待合并语句d没有关系，待合并语句d与待合并语句e为转折关系，待合并语句e与待合并语句f没有关系。
76.再将待合并语句a、待合并语句b和待合并语句c套入“因为
……
所以
……
并且
……”
的模板句式，利用bert模型计算待合并语句a、待合并语句b和待合并语句c不使用模板句式直接合并后(a。b。c。)的ppl值(整句话的概率分布)，以及使用模板句式合并后(因为a所以b并且c。)的ppl值，取ppl值最小的合并方式作为段落语句a。
77.将待合并语句d和待合并语句e套入
“……
但是
……”
的模板句式，利用bert模型计算待合并语句d和待合并语句e不使用模板句式直接合并后(d。e。)的ppl值，以及使用模板句式合并后(d但是e。)的ppl值。取ppl值最小的合并方式作为段落语句d。保留待合并语句f作为段落语句f。
78.将段落语句a、段落语句d和段落语句f依次排列为一段话，进而得到命中稿件a其中一段的摘要。以此类推，再对命中稿件a中的其他段进行如上操作，得到命中稿件各段的摘要，将各段的摘要按照段落顺序依次排列合并为一段，得到命中稿件a的最终摘要。
79.在生成稿件摘要后，各稿件摘要与所对应的命中稿件标题一一对应在前端进行展示。在一种可能的实现方式中，将各段落语句按照顺序合并，构建得到稿件摘要后，还包括：按照各命中稿件的顺序，将生成的各稿件摘要顺序排列，使前端可以展示出所有排好序的稿件标题以及相关内容摘要。
80.更进一步地，根据本公开的另一方面，还提供了一种稿件摘要生成设备200。参阅图2，本公开实施例稿件摘要生成设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一的稿件摘要生成方法。
81.此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本公开实施例的稿件摘要生成设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，
此处不进行具体限定。
82.存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的稿件摘要生成方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行稿件摘要生成设备200的各种功能应用及数据处理。
83.输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
84.根据本公开的另一方面，还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器210执行时实现前面任一的稿件摘要生成方法。
85.以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种适SSD的可见容量调整的方法、装置、设备及介质与流程

稿件摘要生成方法和装置、设备及存储介质与流程

相关文献

最热文献