关键短语抽取方法及装置与流程

2022-06-05 21:19:48 来源：中国专利 TAG：

1.本发明涉及文本处理技术领域，尤其涉及一种关键短语抽取方法及装置。

背景技术：

2.随着海量数据的爆炸式增长，人工处理文档变成了一项不可能完成的任务。面对庞大的信息量，准确的关键短语可以提高工作效率。文档关键短语抽取的目标是从文档中抽取出能够代表文档主题和内容的短语集合。短语是由一个或多个词语组成的词组，例如：深度神经网络(“深度”、“神经网络”两个词的组合)，强迫高弹形变(“强迫”、“高”、“弹”、“形变”四个词的组合)。一般地，关键短语由文档中出现过的词语组合而成。
3.由于短语的应用十分广泛，关键短语抽取是文档处理领域的一项重要任务。关键短语可以用于生成文档的索引以便于检索，用于查询词的扩展以获取更多查询结果，作为特征用于文档聚类和分类，作为文档的简短总结以让读者了解文档内容。另外，关键短语抽取在学术出版领域十分重要，在很多任务中发挥关键作用，例如：给用户精准推荐新出版的文章和图书，发现文章中缺失的引用项，为论文发掘潜在的审稿人，分析学术研究趋势等。
4.然而，目前关键短语抽取算法大多数是针对英文文本的关键短语抽取，而针对中文的关键短语抽取算法十分缺乏，也没有公开的标准评测数据集。因此，现有技术中缺乏针对中文文本的关键短语抽取方法。

技术实现要素：

5.本技术实施例提供一种关键短语抽取方法及装置，以解决现有技术中无法实现中文文本关键短语抽取的问题。
6.本技术的第一方面提供一种关键短语抽取方法，包括：
7.从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词；
8.获取各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示；其中，所述目标向量表示能够表征语义信息，以及，图嵌入信息；
9.根据各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，获取各所述候选关键短语的第一参数值，所述第一参数值与所述候选关键短语的重要程度正相关；
10.基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度，以及，各所述候选关键短语在所述文本中的位置，从所述至少两个候选关键短语中获取所述文本的关键短语；
11.输出所述文本的关键短语。
12.一种可选的实施方式中，所述从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词，包括：
13.基于候选关键短语的词性组合集合，从所述文本中抽取候选关键短语；
14.基于主题词的词性集合，从所述文本中抽取主题词。
15.一种可选的实施方式中，所述从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词之前，所述方法还包括：
16.获取样本集合；其中，所述样本集合包括至少一个样本文本的样本数据，所述样本数据包括所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性；
17.按照所述样本集合中各样本词性组合的数量从大到小的顺序，将前n个样本词性组合作为所述候选关键短语的词性组合集合；
18.按照所述样本集合中各样本主题词的词性的数量从大到小的顺序，将前m个样本主题词的词性作为所述主题词的词性集合；其中，所述n和所述m均为大于或等于1的整数。
19.一种可选的实施方式中，所述获取样本集合，包括：
20.获取初始样本集合；所述初始样本集合包括至少一个样本文本；
21.对所述至少一个样本文本进行标注，获取各所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性。
22.一种可选的实施方式中，所述获取各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，包括：
23.利用预训练语言模型，获取各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示；
24.根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示，从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示；
25.使用所述候选关键短语和主题词构建的所述文本的关系图；
26.基于所述关系图，获取所述候选关键短语的第二向量表示和所述主题词的第二向量表示；
27.基于所述候选关键短语的第一向量表示和所述候选关键短语的第二向量表示，获取所述候选关键短语的目标向量表示，并基于所述主题词的第一向量表示和所述主题词的第二向量表示相关，获取所述主题词的目标向量表示。
28.一种可选的实施方式中，所述根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示，从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示，包括：
29.根据各所述主题词的第一向量表示，获取所述文本的主题的第一向量表示；
30.基于各所述候选关键短语的多个初始向量表示，以及，所述文本的主题的第一向量表示的相似度，从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示。
31.一种可选的实施方式中，所述根据各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，获取各所述候选关键短语的第一参数值，包括：
32.根据各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，获取各所述候选关键短语与所述文本的主题的相似度；
33.基于各所述候选关键短语与所述文本的主题的相似度，以及，使用所述候选关键短语构建的所述文本的关系图，计算各所述候选关键短语的第一参数值。
34.一种可选的实施方式中，所述基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度，以及，各所述候选关键短语在所述文本中的位置，从所述至少两个候选关键短语中获取所述文本的关键短语，包括：
35.基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合的分值、各所述候选关键短语的长度的分值，以及，各所述候选关键短语在所述文本中的位置的分值，计算各所述候选关键短语的第二参数值，所述第二参数值用于表征所述候选关键短语的分值，所述分值为置信度值或出现概率；
36.按照各所述候选关键短语的第二参数值从大到小的顺序，将前q个候选关键短语作为所述文本的关键短语；其中，所述q为大于或等于1的整数。
37.本技术的第二方面提供一种关键短语抽取装置，所述装置包括：
38.抽取模块，用于从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词；
39.获取模块，用于获取各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示；其中，所述目标向量表示能够表征语义信息，以及，图嵌入信息；
40.处理模块，用于根据各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，获取各所述候选关键短语的第一参数值，所述第一参数值与所述候选关键短语的重要程度正相关；基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度，以及，各所述候选关键短语在所述文本中的位置，从所述至少两个候选关键短语中获取所述文本的关键短语；
41.输出模块，用于输出所述文本的关键短语。
42.一种可选的实施方式中，所述抽取模块，还用于基于候选关键短语的词性组合集合，从所述文本中抽取候选关键短语；基于主题词的词性集合，从所述文本中抽取主题词。
43.一种可选的实施方式中，所述获取模块，还用于获取样本集合；其中，所述样本集合包括至少一个样本文本的样本数据，所述样本数据包括所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性；
44.所述处理模块，还用于按照所述样本集合中各样本词性组合的数量从大到小的顺序，将前n个样本词性组合作为所述候选关键短语的词性组合集合；
45.按照所述样本集合中各样本主题词的词性的数量从大到小的顺序，将前m个样本主题词的词性作为所述主题词的词性集合；其中，所述n和所述m均为大于或等于1的整数。
46.一种可选的实施方式中，所述获取模块，还用于获取初始样本集合；所述初始样本集合包括至少一个样本文本；对所述至少一个样本文本进行标注，获取各所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性。
47.一种可选的实施方式中，所述获取模块，还用于利用预训练语言模型，获取各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示；根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示，从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示；使用所述候选关键短语和主题词构建的所述文本的关系图；基于所述关系图，获取所述候选关键短语的第二向量表示和所述
主题词的第二向量表示；基于所述候选关键短语的第一向量表示和所述候选关键短语的第二向量表示，获取所述候选关键短语的目标向量表示，并基于所述主题词的第一向量表示和所述主题词的第二向量表示相关，获取所述主题词的目标向量表示。
48.一种可选的实施方式中，所述获取模块，还用于根据各所述主题词的第一向量表示，获取所述文本的主题的第一向量表示；基于各所述候选关键短语的多个初始向量表示，以及，所述文本的主题的第一向量表示的相似度，从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示。
49.一种可选的实施方式中，所述处理模块，还用于根据各所述候选关键短语的目标向量表示，以及，各所述主题词的目标向量表示，获取各所述候选关键短语与所述文本的主题的相似度；基于各所述候选关键短语与所述文本的主题的相似度，以及，使用所述候选关键短语构建的所述文本的关系图，计算各所述候选关键短语的第一参数值。
50.一种可选的实施方式中，所述处理模块，还用于基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合的分值、各所述候选关键短语的长度的分值，以及，各所述候选关键短语在所述文本中的位置的分值，计算各所述候选关键短语的第二参数值，所述第二参数值用于表征所述候选关键短语的分值，所述分值为置信度值或出现概率；按照各所述候选关键短语的第二参数值从大到小的顺序，将前q个候选关键短语作为所述文本的关键短语；其中，所述q为大于或等于1的整数。
51.本技术的第三方面提供一种电子设备，包括：
52.处理器与存储器；
53.所述存储器用于存储计算机程序；
54.所述处理器用于调用并运行所述存储器中存储的计算机程序，执行如权利要求1-8中任一项所述的方法。
55.本技术的第四方面提供一种芯片，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1-8中任一项所述的方法。
56.本技术的第五方面提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1-8中任一项所述的方法。
57.本技术的第六方面提供一种计算机程序产品，包括计算机程序信息，该计算机程序信息使得计算机执行如权利要求1-8中任一项所述的方法。
58.本技术的第七方面提供一种计算机程序，所述计算机程序使得计算机执行如权利要求1-8中任一项所述的方法。
59.本技术实施例提供的关键短语抽取方法及装置，首先，从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词，然后，获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，其中，目标向量表示能够表征语义信息，以及，图嵌入信息，随后，根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语的第一参数值，第一参数值与候选关键短语的重要程度正相关，之后，基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置，从至少两个候选关键短语中获取文本的关键短语，最后，输出文本的关键短语。与现有技术相比，通过各候选关键短语、各主题词的目标向量表示，获取各候选关键短语的第一参数值，再基于获取各候选关键短语的第一参数值、词性组合、长度
以及位置，确定关键短语，从而实现了中文文本关键短语的抽取。
附图说明
60.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
61.图1为本技术实施例提供的一种关键短语抽取方法的应用场景示意图；
62.图2为本技术实施例提供的一种关键短语抽取方法的流程示意图；
63.图3为本技术实施例提供的另一种关键短语抽取方法的流程示意图；
64.图4为本技术实施例提供的再一种关键短语抽取方法的流程示意图；
65.图5为本技术提供的一种关键短语抽取装置的结构示意图；
66.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
67.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
68.大数据时代的来临，呈现在人们面前的信息量呈爆炸式增长，而如何从过于丰富的信息中快速而准确的找到最有用的信息则是人们面临一个巨大的挑战。当我们拿到一份文档，我们希望可以迅速找到文档的关键信息，而文档关键短语抽取可以实现从文档中抽取出能够代表文档主题和内容的短语集合的目的。
69.现有技术中，关键短语抽取算法主要是针对英文文本，中文文本的关键短语抽取则十分缺乏，甚至没有公开的标准评测数据集。
70.为解决上述问题，本技术提供了一种关键短语抽取方法及装置，通过各候选关键短语、各主题词的目标向量表示，获取各候选关键短语的第一参数值，再基于获取各候选关键短语的第一参数值、词性组合、长度以及位置，确定关键短语，从而实现了中文文本关键短语的抽取。
71.下面对本技术的应用场景进行说明。
72.图1为本技术实施例提供的一种关键短语抽取方法的应用场景示意图。如图1所示，包括：终端设备001、服务器002。用户将获取到的文本，发送给终端设备001，通过终端设备001对的文本进行处理，得到文本的关键短语，然后输出给用户；或者，终端设备001将获取到的文本发送给服务器端进行处理，然后将处理后得到的文本的关键短语通过终端设备001输出给用户。用户根据得到的文本的关键短语可以获取文本的关键信息，示例性的，文本的主题。
73.其中，终端可以是带无线收发功能的电脑、虚拟现实(virtual reality，vr)终端设备、增强现实(augmented reality，ar)终端设备、手机(mobile phone)、平板电脑(pad)、工业控制(industrial control)中的无线终端、远程手术(remote medical surgery)中的
无线终端、智能电网(smart grid)中的无线终端、智慧家庭(smart home)中的无线终端等。
74.本技术实施例中，用于实现关键短语抽取的功能的装置可以是终端设备或者服务器，也可以是能够支持实现该功能的装置，例如芯片系统，该装置可以被安装在终端设备或者服务器中。本技术实施例中，芯片系统可以由芯片构成，也可以包括芯片和其他分立器件。
75.需要说明的是，本技术技术方案的应用场景可以是图1中的场景，但并不限于此，还可以应用于其他需要进行关键短语抽取的场景。
76.可以理解，上述关键短语抽取方法可以通过本技术实施例提供的关键短语抽取装置实现，关键短语抽取装置可以是某个设备的部分或全部，例如为上述终端设备或者服务器或者终端设备的芯片。
77.下面以集成或安装有相关执行代码的关键短语抽取装置为例，以具体地实施例对本技术实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
78.图2为本技术实施例提供的一种关键短语抽取方法的流程示意图，本实施例的执行主体可以是终端设备或者服务器，涉及的是关键短语抽取的具体过程。如图2所示，该方法包括：
79.s101、从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词。
80.在本步骤中，当终端设备或者服务器获取到待抽取文本后，则从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词。
81.本技术对于候选关键短语和主题词的抽取方式不做限制，示例性的，可以通过建立候选关键短语的词性组合集合、主题词的词性集合的方式，抽取候选关键短语、主题词。
82.在一些实施例中，基于候选关键短语的词性组合集合，从文本中抽取候选关键短语，基于主题词的词性集合，从文本中抽取主题词。
83.下面对建立候选关键短语的词性组合集合和主题词的词性集合的过程进行说明，包括到s1011-s1013：
84.s1011、获取样本集合。
85.应说明的是，本技术的样本为中文期刊论文中的文本，为保证样本质量，本技术采用如下措施进行样本筛选：a)文本乱码比例小于3％；b)关键词的数量大于3个；c)关键词全部出现在摘要或标题当中。本技术对于样本筛选原则不做限制，以上为提供的一种可选的筛选原则。
86.其中，样本集合包括至少一个样本文本的样本数据，样本数据包括样本文本的样本关键短语、样本关键短语的样本词性组合、样本文本的样本主题词和样本文本的样本主题词的词性。
87.示例性的，获取初始样本集合；初始样本集合包括至少一个样本文本；对至少一个样本文本进行标注，获取各样本文本的样本关键短语、样本关键短语的样本词性组合、样本文本的样本主题词和样本文本的样本主题词的词性。
88.本技术对于样本文本的标注方式不做限制，示例性的，可以采用自然语言处理算法(han language processing，hanlp)对样本文本进行标注。
89.具体的，基于一些样本文本中给出的关键短语(keywords)的统计，发现关键短语
的常见词性组合如下：
90.n，即一个名词；
91.n n，两个名词的组合；
92.gb/gc/gi/gg/gm/gp，生物/化学/计算机/地理/数学/物理等学科的相关词汇；
93.vn n，动名词和名词的组合；
94.n v，名词和动词的组合。
95.基于样本文本中给出的关键短语((keywords)构建主题词的词性集合。将关键短语中经常出现的词性合并整理为主题词的词性集合，例如，关键短语中经常出现的词性包含：'n','vn','v','gi','nz','a','ng','b','vi','q','ns','gm','gp','gb'。特别地，“gi”和“gm”是由“g.*”产生的。
96.其中，nz，即其他专名；a，即形容词；ng，即名词性语素；b，即区别词；vi，即不及物动词；q，即量词；ns，即地名。
97.s1012、按照样本集合中各样本词性组合的数量从大到小的顺序，将前n个样本词性组合作为候选关键短语的词性组合集合。
98.其中，n为大于或等于1的整数。本技术对于n的选择不做限制，可以根据具体情况进行设定。示例性的，可以选择为30或者50。
99.一种选择方式，如下面表格所示，根据词性组合出现的次数计算该词性组合出现的概率，并根据前x个样本出现的概率之和进行选择。其中，x为整数。
100.表1为样本文本中词性组合统计结果中排名前10的词性组合。其中，第一列为词性组合的缩写，第二列为对应词性组合在样本文本中出现的次数，第三列为对应词性组合在样本文本中出现的次数所对应的概率。
101.表1
102.词性组合次数概率n90700.13311n n68730.100867nz32520.047726gi30430.044659n vn27380.040183n v26380.053958vn n21510.031568vn21300.03126v n13850.020326v13660.020047总数3464650.85％
103.从表1中可以看出，排名前10的词性组合的概率总计只有50.85％，可见中文词性组合的多样性。
104.本技术统计了词性组合排名前x的概率情况，表2为词性组合排名前x的概率情况。其中，第一列topx意为排名前x，取值为10、30、50、100、150、200，第二列为对应排名前x出现的次数，第三列为对应排名前x出现的次数所对应的概率。
105.表2
106.topx次数概率top10346460.508461top30448330.657964top50488900.717504top100535790.786319top150559470.821072top200574120.842572
107.基于词性组合的统计结果，选用合适的筛选方法以获取大部分候选短语。
108.在一些实施例中，通过建立词性组合筛选正则表达式的方式筛选词性组合。
109.示例性的，可以选择排名前35名的词性组合以及专业词汇词性(以“g”开头)设计正则表达式。在本技术中通过该正则表达式可以获取超过90个词性组合，因为有些专业词汇词性(例如：“gg”)不在前35名当中。最终，该词性组合可以获取样本中73％的关键短语。
110.s1013、按照样本集合中各样本主题词的词性的数量从大到小的顺序，将前m个样本主题词的词性作为主题词的词性集合。
111.其中，m为大于或等于1的整数。本技术对于m的选择不做限制，可以根据具体情况进行设定。示例性的，可以选择为10或者30。
112.一种选择方式，如下面的表格所示，根据词性出现的次数计算该词性出现的概率，并根据前k个样本出现的概率之和进行选择。其中，k为整数。
113.表3为将s1012中关键短语中的词语进行统计和词性分析后排名前10的词性统计结果。如表3所示，其中，第一列为词性，第二列为对应词性在样本文本中出现的次数，第三列为对应词性在样本文本中出现的次数所对应的概率。
114.表3
[0115][0116][0117]
主题词的词性集合可以由出现次数较多的词性和学科相关的词性组成。示例性的，可以选取排名前10的词性及专业词汇的词性组成的主题词的词性集合，对应的词性集合为：{'n','vn','v','gi','nz','a','ng','b','vi','q','ns','gm','gp','gb'}。
[0118]
s102、获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示。
[0119]
在本步骤中，终端设备或者服务器从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词后，则获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示。
[0120]
其中，目标向量表示能够表征语义信息，以及，图嵌入信息。
[0121]
本技术对于各候选关键短语的目标向量表示，以及各主题词的目标向量表示的获取方式不做限制，下面为本技术实施例提供的一种获取方式，包括s1021-s1025：
[0122]
s1021、利用预训练语言模型，获取各候选关键短语多个初始向量表示和各主题词的第一向量表示。
[0123]
本技术对于预训练语言模型的选择不做限制，示例性的，可以采取互感器的双向编码器表示模型(bidirectional encoder representation from transformers，bert)、嵌入语言模型(embeddings from language models，elmo)。
[0124]
s1022、根据各候选关键短语多个初始向量表示和各主题词的第一向量表示，从各候选关键短语的多个初始向量表示中获取各候选关键短语的第一向量表示。
[0125]
其中，初始向量表示能够表征语义信息、位置信息、上下文信息等。
[0126]
本技术对候选关键短语的第一向量表示的获取方式不做限制，示例性的，可以通过相似度的方式获取。
[0127]
具体的，根据各主题词的第一向量表示，获取文本的主题的第一向量表示；基于各候选关键短语的多个初始向量表示，以及，文本的主题的第一向量表示的相似度，从各候选关键短语的多个初始向量表示中获取各候选关键短语的第一向量表示。
[0128]
其中，文本的主题的第一向量表示是通过各主题词的第一向量表示确定的，本技术中对于文本的主题的第一向量表示的获取方式不做限制，示例性的，可以通过将各主题词的第一向量表示进行累加并求平均，得到文本的主题的第一向量表示。
[0129]
进一步的，基于各候选关键短语的多个初始向量表示与文本的主题的第一向量表示的相似度，确定候选关键短语的第一向量表示。
[0130]
相似度的公式为：
[0131][0132]
其中，(e
1i
，e
2i
)表示e
1i
和e
2i
的点乘；e1＝{e
11
，e
12
,e
13
…
,e
1n
}表示候选关键短语的初始向量；e2＝{e
21
，e
22
,e
23
…
,e
2n
}表示文本的主题的第一向量。
[0133]
其中，基于各候选关键短语有多个初始向量，计算各个候选关键短语的初始向量与文本的主题的第一向量之间的相似度，然后，选取其中相似度最大的为候选关键短语的第一向量表示。
[0134]
下面提供一些可能出现的情况下，候选关键短语的第一向量表示的一些选择方案：若候选关键短语仅有一个候选关键短语的初始向量的情况下，选择此候选关键短语的初始向量为此候选关键短语的第一向量表示；若出现同一候选关键短语的两个及以上的候选关键短语的初始向量与文本的主题的第一向量表示的相似度相同，则可以选取第一次出现的候选关键短语的初始向量为候选关键短语的第一向量表示。
[0135]
相同的，各主题词的第一向量表示通过各主题词的多个初始向量表示与文本的主
题的第一向量表示的相似度获取。
[0136]
其中，各主题词的多个初始向量表示在步骤一中通过预训练语言模型获取的。
[0137]
s1023、使用候选关键短语和主题词构建的文本的关系图。
[0138]
具体的，将候选关键短语和主题词作为关系图中的节点，节点之间的连线的权重为1，构建关系图。
[0139]
其中，用g＝{v,e}表示短语关系图，其中v是关系图的节点集，e是关系图的边线集。每个短语对应关系图的一个节点。如果两个短语出现在同一个句子中，而且在同一窗口内(窗口尺寸设置为5个词语/词)，那么这两个短语对应的节点会有连线。
[0140]
s1024、基于关系图，获取候选关键短语的第二向量表示和主题词的第二向量表示。
[0141]
在本步骤中，当构建关系图后，则基于关系图，获取候选关键短语的第二向量表示和主题词的第二向量表示。
[0142]
本技术对于候选关键短语的第二向量表示和主题词的第二向量表示的获取方式不做限制，示例性的，可以通过图模型的方式。
[0143]
需要注意的是，本技术中使用图注意力卷积网络(graph attention networks，gat)训练图注意力自动编码器(graph attention auto-encoder，gate)模型，得到图嵌入(graph embedding)模型。
[0144]
其中，图嵌入模型的算法依据是使用候选关键短语和主题词构建的文本的关系图。
[0145]
具体的，将各候选关键短语的第一向量表示和各主题词的第一向量表示输入中图嵌入模型中，得到有图嵌入信息的候选关键短语的第二向量表示和主题词的第二向量表示。
[0146]
其中，候选关键短语的第二向量表示和主题词的第二向量表示的语义信息不明显。
[0147]
s1025、基于候选关键短语的第一向量表示和候选关键短语的第二向量表示，获取候选关键短语的目标向量表示，并基于主题词的第一向量表示和主题词的第二向量表示相关，获取主题词的目标向量表示。
[0148]
本技术对获取候选关键短语的目标向量表示的方式、主题词的目标向量表示不做限制，示例性的，可以通过相加、拼接的方式。
[0149]
通过相加的方式获取目标向量时，需要保证候选关键短语的第一向量表示和候选关键短语的第二向量表示及主题词的第一向量表示和主题词的第二向量表示的维度相同。
[0150]
s103、根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语的第一参数值。
[0151]
在本步骤中，当终端设备或者服务器获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示后，则根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语的第一参数值。
[0152]
其中，第一参数值与候选关键短语的重要程度正相关。
[0153]
在一些实施例中，根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语与文本的主题的相似度；基于各候选关键短语与文本的主题
的相似度，以及，使用候选关键短语构建的文本的关系图，计算各候选关键短语的第一参数值。
[0154]
其中，第一参数值为基于关键词提取算法(textrank)思想下的网页排名(pagerank，pr)。计算公式如下：
[0155][0156]
各个变量的说明如下：
[0157]
pr(pi)表示候选关键短语pi在文本中的pr值。同样地，pr(pj)表示候选关键短语pj在文章中pr值。各个节点的pr值的初始值设置为1/k，其中k为候选关键短语的数量。
[0158]
sim(pi)表示候选关键短语与主题向量的余弦相似度的归一化值。在计算出各候选关键短语与主题向量的余弦相似度之后，将这些相似度值进行归一化。
[0159]
mi表示与pi对应的节点有关联的节点集合。
[0160]wij
表示节点i和节点j之间的连线的权重，即pi和pj同在一个窗口的次数。
[0161]
o(pj)表示与节点j有关联的节点的数量。
[0162]
z是一个超参数，取值在0～1之间。若候选关键短语与文本的相似度对候选短语的选择更为重要，则z的取值较小，例如：0.15；若候选关键短语的图嵌入信息更为重要，则z的取值较大，例如：0.85。
[0163]
基于公式依次计算每个候选关键短语的pr。上述过程需要迭代多个轮次，直到候选关键短语pr值的变化小于一定阈值，则确定候选关键短语的pr值。
[0164]
本技术对阈值的设置不做限制，示例性的，可以设为0.00001。相应的，当候选关键短语pr值的变化小于0.00001时，则确定候选关键短语的pr值。
[0165]
s104、基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置，从至少两个候选关键短语中获取文本的关键短语。
[0166]
具体的，通过统计各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置分别对应的概率，结合各候选关键短语的第一参数值，确定出候选关键短语。
[0167]
下面分别对各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置的统计情况进行说明。
[0168]
关于词性组合的统计参照步骤s101中的s1012。
[0169]
关于各候选关键短语的长度统计情况的描述如下：
[0170]
具体的，候选关键短语的长度即它含有的字符数量。表4为样本中关键短语长度排名前10的统计结果。如表4所示，其中，第一列为短语长度(字符数)；第二列为该长度的关键短语在样本文本中出现的次数；第三列为对短语长度出现次数对应的概率。
[0171]
表4
[0172][0173]
关于候选关键短语的位置统计情况的描述如下：
[0174]
其中，候选关键短语在文章中出现的位置也有一定的规律，一般地，出现位置越靠前的概率越高。
[0175]
表5为候选关键短语出现位置的统计结果，如表5所示，其中，第一列为短语在文本中的位置，示例性的，位置“1-10％”表示，候选关键短语的首字符出现在文本的前10％文本内；第二列为关键短语出现的次数；第三列为对应的概率。
[0176]
表5
[0177]
短语在文本中的位置次数概率1-10％163790.24037610-20％72700.10669420-30％68940.10117630-40％66290.09728640-50％58860.08638260-70％55800.08189150-60％55650.08167170-80％50150.073680-90％48870.07172190-100％40340.059203
[0178]
在一些实施例中，基于各候选关键短语的第一参数值、各候选关键短语的词性组合的分值、各候选关键短语的长度的分值，以及，各候选关键短语在文本中的位置的分值，计算各候选关键短语的第二参数值，第二参数值用于表征候选关键短语的分值，分值为置信度值或出现概率；按照各候选关键短语的第二参数值从大到小的顺序，将前q个候选关键短语作为文本的关键短语；其中，q为大于或等于1的整数。
[0179]
其中，分值可以为置信度值或者出现的概率，示例性的，各候选关键短语的词性组合的分值、各候选关键短语的长度的分值，以及，各候选关键短语在文本中的位置的分值可以分别选择为表1、表4和表5中第三列对应的概率。
[0180]
本技术对第二参数值的计算方式不做限制，示例性的，第二参数值的计算公式可
以为：
[0181]
s(pi)＝pr(pi) pos(pi) posifion(pi) length(pi)
ꢀꢀꢀꢀꢀꢀ
(3)
[0182]
其中，s(pi)表示候选关键短语pi的第二参数值，pr(pi)表示候选关键短语的pr值，pos(pi)表示候选关键短语pi的词性组合概率，position(pi)表示候选关键短语pi的位置概率，length(pi)是候选关键短语pi的长度概率。
[0183]
本技术对q的选择不做限制，可以根据具体情况说明，示例性的，根据学术论文中一般给出5个关键短语的情况，可以设置q的值为5。
[0184]
s105、输出文本的关键短语。
[0185]
在本步骤中，当终端设备或者服务器基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置，从至少两个候选关键短语中获取文本的关键短语后，则输出文本的关键短语。
[0186]
本技术实施例提供的关键短语抽取方法，应用于中文文本的关键短语抽取，方法包括：首先，从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词，然后，获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示；其中，目标向量表示能够表征语义信息，以及，图嵌入信息，随后，根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语的第一参数值，第一参数值与候选关键短语的重要程度正相关，之后，基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置，从至少两个候选关键短语中获取文本的关键短语，最后，输出文本的关键短语。与现有技术相比，根据各候选关键短语的第一参数值、词性组合、长度，以及，在文本中的位置，确定出文本的关键短语，从而实现中文文本关键短语的抽取。
[0187]
在上述实施例的基础上，下面对于通过样本集训练获取候选关键短语词性组合集合和词性集合的情况进行说明。图3为本技术实施例提供的另一种关键短语抽取方法的流程示意图，如图3所示，该方法包括：
[0188]
s201、获取初始样本集合。
[0189]
其中，初始样本集合包括至少一个样本文本。
[0190]
s202、对至少一个样本文本进行标注，获取各样本文本的样本关键短语、样本关键短语的样本词性组合、样本文本的样本主题词和样本文本的样本主题词的词性。
[0191]
s203、按照样本集合中各样本词性组合的数量从大到小的顺序，将前n个样本词性组合作为候选关键短语的词性组合集合。
[0192]
s204、按照样本集合中各样本主题词的词性的数量从大到小的顺序，将前m个样本主题词的词性作为主题词的词性集合；其中，n和m均为大于或等于1的整数。
[0193]
s201-s204的技术名词、技术效果、技术特征，以及可选实施方式，可参照图2所示的s101理解，对于重复的内容，在此不再累述。
[0194]
在上述实施例的基础上，图4为本技术实施例提供的再一种关键短语抽取方法的流程示意图，如图4所示，该方法包括：
[0195]
s301、获取待抽取文本。
[0196]
s302、基于候选关键短语的词性组合集合，从文本中抽取候选关键短语。
[0197]
s303、基于主题词的词性集合，从文本中抽取主题词。
[0198]
s304、利用预训练语言模型，获取各候选关键短语多个初始向量表示和各主题词的第一向量表示。
[0199]
s305、根据各主题词的第一向量表示，获取文本的主题的第一向量表示。
[0200]
s306、基于各候选关键短语的多个初始向量表示，以及，文本的主题的第一向量表示的相似度，从各候选关键短语的多个初始向量表示中获取各候选关键短语的第一向量表示。
[0201]
s307、使用候选关键短语和主题词构建的文本的关系图。
[0202]
s308、基于关系图，获取候选关键短语的第二向量表示和主题词的第二向量表示。
[0203]
s309、基于候选关键短语的第一向量表示和候选关键短语的第二向量表示，获取候选关键短语的目标向量表示，并基于主题词的第一向量表示和主题词的第二向量表示相关，获取主题词的目标向量表示。
[0204]
s310、根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语与文本的主题的相似度。
[0205]
s311、基于各候选关键短语与文本的主题的相似度，以及，使用候选关键短语构建的文本的关系图，计算各候选关键短语的第一参数值。
[0206]
s312、基于各候选关键短语的第一参数值、各候选关键短语的词性组合的分值、各候选关键短语的长度的分值，以及，各候选关键短语在文本中的位置的分值，计算各候选关键短语的第二参数值，第二参数值用于表征候选关键短语的分值，分值为置信度值或出现概率。
[0207]
s313、按照各候选关键短语的第二参数值从大到小的顺序，将前q个候选关键短语作为文本的关键短语。
[0208]
其中，q为大于或等于1的整数。
[0209]
s314、输出文本的关键短语。
[0210]
s301-s304的技术名词、技术效果、技术特征，以及可选实施方式，可参照图2所示的s101-s105理解，对于重复的内容，在此不再累述。
[0211]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0212]
本技术实施例还提供的一种关键短语抽取装置，图5为本技术提供的一种关键短语抽取装置的结构示意图，该关键短语抽取装置可以通过软件、硬件或者两者的结合实现。如图5所示，该关键短语抽取装置400包括：抽取模块401、获取模块402、处理模块403和输出模块404。
[0213]
抽取模块401，用于从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词；
[0214]
获取模块402，用于获取各候选关键短语的目标向量表示，以及，各主题词的目标向量表示；其中，目标向量表示能够表征语义信息，以及，图嵌入信息；
[0215]
处理模块403，用于根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语的第一参数值，第一参数值与候选关键短语的重要程度正
相关；基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度，以及，各候选关键短语在文本中的位置，从至少两个候选关键短语中获取文本的关键短语；
[0216]
输出模块404，用于输出文本的关键短语。
[0217]
一种可选的实施方式中，抽取模块401，还用于基于候选关键短语的词性组合集合，从文本中抽取候选关键短语；基于主题词的词性集合，从文本中抽取主题词。
[0218]
一种可选的实施方式中，获取模块402，还用于获取样本集合；其中，样本集合包括至少一个样本文本的样本数据，样本数据包括样本文本的样本关键短语、样本关键短语的样本词性组合、样本文本的样本主题词和样本文本的样本主题词的词性；
[0219]
处理模块，还用于按照样本集合中各样本词性组合的数量从大到小的顺序，将前n个样本词性组合作为候选关键短语的词性组合集合；
[0220]
按照样本集合中各样本主题词的词性的数量从大到小的顺序，将前m个样本主题词的词性作为主题词的词性集合；其中，n和m均为大于或等于1的整数。
[0221]
一种可选的实施方式中，获取模块402，还用于获取初始样本集合；初始样本集合包括至少一个样本文本；对至少一个样本文本进行标注，获取各样本文本的样本关键短语、样本关键短语的样本词性组合、样本文本的样本主题词和样本文本的样本主题词的词性。
[0222]
一种可选的实施方式中，获取模块402，还用于利用预训练语言模型，获取各候选关键短语多个初始向量表示和各主题词的第一向量表示；根据各候选关键短语多个初始向量表示和各主题词的第一向量表示，从各候选关键短语的多个初始向量表示中获取各候选关键短语的第一向量表示；使用候选关键短语和主题词构建的文本的关系图；基于关系图，获取候选关键短语的第二向量表示和主题词的第二向量表示；基于候选关键短语的第一向量表示和候选关键短语的第二向量表示，获取候选关键短语的目标向量表示，并基于主题词的第一向量表示和主题词的第二向量表示相关，获取主题词的目标向量表示。
[0223]
一种可选的实施方式中，获取模块402，还用于根据各主题词的第一向量表示，获取文本的主题的第一向量表示；基于各候选关键短语的多个初始向量表示，以及，文本的主题的第一向量表示的相似度，从各候选关键短语的多个初始向量表示中获取各候选关键短语的第一向量表示。
[0224]
一种可选的实施方式中，处理模块，还用于根据各候选关键短语的目标向量表示，以及，各主题词的目标向量表示，获取各候选关键短语与文本的主题的相似度；基于各候选关键短语与文本的主题的相似度，以及，使用候选关键短语构建的文本的关系图，计算各候选关键短语的第一参数值。
[0225]
一种可选的实施方式中，处理模块403，还用于基于各候选关键短语的第一参数值、各候选关键短语的词性组合的分值、各候选关键短语的长度的分值，以及，各候选关键短语在文本中的位置的分值，计算各候选关键短语的第二参数值，第二参数值用于表征候选关键短语的分值，分值为置信度值或出现概率；按照各候选关键短语的第二参数值从大到小的顺序，将前q个候选关键短语作为文本的关键短语；其中，q为大于或等于1的整数。
[0226]
需要说明的，本技术实施例提供的关键短语抽取装置，可用于执行上述任意实施例所提供的方法，具体实现方式和技术效果类似，这里不再进行赘述。
[0227]
图6为本技术实施例提供的一种电子设备的结构示意图。如图6所示，该电子设备
可以包括：至少一个处理器501和存储器502。图6示出的是以一个处理器为例的电子设备。
[0228]
存储器502，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。
[0229]
存储器502可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0230]
处理器501用于执行存储器502存储的计算机执行指令，以实现上述关键短语抽取方法；
[0231]
其中，处理器501可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
[0232]
可选的，在具体实现上，如果通信接口、存储器702和处理器701独立实现，则通信接口、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。
[0233]
可选的，在具体实现上，如果通信接口、存储器502和处理器501集成在一块芯片上实现，则通信接口、存储器502和处理器501可以通过内部接口完成通信。
[0234]
本技术实施例还提供了一种芯片，包括处理器和接口。其中接口用于输入输出处理器所处理的数据或指令。处理器用于执行以上方法实施例中提供的方法。该芯片可以应用于传感器检测装置中。
[0235]
本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序信息，程序信息用于上述关键短语抽取方法。
[0236]
本技术实施例还提供一种程序，该程序在被处理器执行时用于执行以上方法实施例提供的关键短语抽取方法。
[0237]
本技术实施例还提供一种程序产品，例如计算机可读存储介质，该程序产品中存储有指令，当其在计算机上运行时，使得计算机执行上述方法实施例提供的关键短语抽取方法。
[0238]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集
成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0239]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

关键短语抽取方法及装置与流程

相关文献

最热文献