一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

关键短语抽取方法及装置与流程

2022-06-05 21:19:48 来源:中国专利 TAG:

技术特征:
1.一种关键短语抽取方法,其特征在于,所述方法包括:从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词;获取各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示;其中,所述目标向量表示能够表征语义信息,以及,图嵌入信息;根据各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,获取各所述候选关键短语的第一参数值,所述第一参数值与所述候选关键短语的重要程度正相关;基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度,以及,各所述候选关键短语在所述文本中的位置,从所述至少两个候选关键短语中获取所述文本的关键短语;输出所述文本的关键短语。2.根据权利要求1所述的方法,其特征在于,所述从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词,包括:基于候选关键短语的词性组合集合,从所述文本中抽取候选关键短语;基于主题词的词性集合,从所述文本中抽取主题词。3.根据权利要求2所述的方法,其特征在于,所述从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词之前,所述方法还包括:获取样本集合;其中,所述样本集合包括至少一个样本文本的样本数据,所述样本数据包括所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性;按照所述样本集合中各样本词性组合的数量从大到小的顺序,将前n个样本词性组合作为所述候选关键短语的词性组合集合;按照所述样本集合中各样本主题词的词性的数量从大到小的顺序,将前m个样本主题词的词性作为所述主题词的词性集合;其中,所述n和所述m均为大于或等于1的整数。4.根据权利要求3所述的方法,其特征在于,所述获取样本集合,包括:获取初始样本集合;所述初始样本集合包括至少一个样本文本;对所述至少一个样本文本进行标注,获取各所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性。5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,包括:利用预训练语言模型,获取各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示;根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示,从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示;使用所述候选关键短语和主题词构建的所述文本的关系图;基于所述关系图,获取所述候选关键短语的第二向量表示和所述主题词的第二向量表示;基于所述候选关键短语的第一向量表示和所述候选关键短语的第二向量表示,获取所
述候选关键短语的目标向量表示,并基于所述主题词的第一向量表示和所述主题词的第二向量表示相关,获取所述主题词的目标向量表示。6.根据权利要求5所述的方法,其特征在于,所述根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示,从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示,包括:根据各所述主题词的第一向量表示,获取所述文本的主题的第一向量表示;基于各所述候选关键短语的多个初始向量表示,以及,所述文本的主题的第一向量表示的相似度,从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示。7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,获取各所述候选关键短语的第一参数值,包括:根据各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,获取各所述候选关键短语与所述文本的主题的相似度;基于各所述候选关键短语与所述文本的主题的相似度,以及,使用所述候选关键短语构建的所述文本的关系图,计算各所述候选关键短语的第一参数值。8.根据权利要求1-4任一项所述的方法,其特征在于,所述基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度,以及,各所述候选关键短语在所述文本中的位置,从所述至少两个候选关键短语中获取所述文本的关键短语,包括:基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合的分值、各所述候选关键短语的长度的分值,以及,各所述候选关键短语在所述文本中的位置的分值,计算各所述候选关键短语的第二参数值,所述第二参数值用于表征所述候选关键短语的分值,所述分值为置信度值或出现概率;按照各所述候选关键短语的第二参数值从大到小的顺序,将前q个候选关键短语作为所述文本的关键短语;其中,所述q为大于或等于1的整数。9.一种关键短语抽取装置,其特征在于,所述装置包括:抽取模块,用于从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词;获取模块,用于获取各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示;其中,所述目标向量表示能够表征语义信息,以及,图嵌入信息;处理模块,用于根据各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,获取各所述候选关键短语的第一参数值,所述第一参数值与所述候选关键短语的重要程度正相关;基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合、各所述候选关键短语的长度,以及,各所述候选关键短语在所述文本中的位置,从所述至少两个候选关键短语中获取所述文本的关键短语;输出模块,用于输出所述文本的关键短语。10.根据权利要求9所述的装置,其特征在于,所述抽取模块,还用于基于候选关键短语的词性组合集合,从所述文本中抽取候选关键短语;基于主题词的词性集合,从所述文本中抽取主题词。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,还用于获取样本集合;其中,所述样本集合包括至少一个样本文本的样本数据,所述样本数据包括所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性;所述处理模块,还用于按照所述样本集合中各样本词性组合的数量从大到小的顺序,将前n个样本词性组合作为所述候选关键短语的词性组合集合;按照所述样本集合中各样本主题词的词性的数量从大到小的顺序,将前m个样本主题词的词性作为所述主题词的词性集合;其中,所述n和所述m均为大于或等于1的整数。12.根据权利要求11所述的装置,其特征在于,所述获取模块,还用于获取初始样本集合;所述初始样本集合包括至少一个样本文本;对所述至少一个样本文本进行标注,获取各所述样本文本的样本关键短语、所述样本关键短语的样本词性组合、所述样本文本的样本主题词和所述样本文本的样本主题词的词性。13.根据权利要求9-12任一项所述的装置,其特征在于,所述获取模块,还用于利用预训练语言模型,获取各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示;根据各所述候选关键短语多个初始向量表示和各所述主题词的第一向量表示,从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示;使用所述候选关键短语和主题词构建的所述文本的关系图;基于所述关系图,获取所述候选关键短语的第二向量表示和所述主题词的第二向量表示;基于所述候选关键短语的第一向量表示和所述候选关键短语的第二向量表示,获取所述候选关键短语的目标向量表示,并基于所述主题词的第一向量表示和所述主题词的第二向量表示相关,获取所述主题词的目标向量表示。14.根据权利要求13所述的装置,其特征在于,所述获取模块,还用于根据各所述主题词的第一向量表示,获取所述文本的主题的第一向量表示;基于各所述候选关键短语的多个初始向量表示,以及,所述文本的主题的第一向量表示的相似度,从各所述候选关键短语的多个初始向量表示中获取各所述候选关键短语的第一向量表示。15.根据权利要求9-12任一项所述的装置,其特征在于,所述处理模块,还用于根据各所述候选关键短语的目标向量表示,以及,各所述主题词的目标向量表示,获取各所述候选关键短语与所述文本的主题的相似度;基于各所述候选关键短语与所述文本的主题的相似度,以及,使用所述候选关键短语构建的所述文本的关系图,计算各所述候选关键短语的第一参数值。16.根据权利要求9-12任一项所述的装置,其特征在于,所述处理模块,还用于基于各所述候选关键短语的第一参数值、各所述候选关键短语的词性组合的分值、各所述候选关键短语的长度的分值,以及,各所述候选关键短语在所述文本中的位置的分值,计算各所述候选关键短语的第二参数值,所述第二参数值用于表征所述候选关键短语的分值,所述分值为置信度值或出现概率;按照各所述候选关键短语的第二参数值从大到小的顺序,将前q个候选关键短语作为所述文本的关键短语;其中,所述q为大于或等于1的整数。17.一种电子设备,其特征在于,包括:处理器与存储器;所述存储器用于存储计算机程序;所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1-8中
任一项所述的方法。18.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1-8中任一项所述的方法。19.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1-8中任一项所述的方法。20.一种计算机程序产品,其特征在于,包括计算机程序信息,该计算机程序信息使得计算机执行如权利要求1-8中任一项所述的方法。21.一种计算机程序,其特征在于,所述计算机程序使得计算机执行如权利要求1-8中任一项所述的方法。

技术总结
本申请提供一种关键短语抽取方法及装置,该方法包括:从待抽取的文本中抽取至少两个候选关键短语和至少一个主题词;获取各候选关键短语的目标向量表示,各主题词的目标向量表示;根据各候选关键短语的目标向量表示,各主题词的目标向量表示,获取各候选关键短语的第一参数值;基于各候选关键短语的第一参数值、各候选关键短语的词性组合、各候选关键短语的长度,各候选关键短语在文本中的位置,从至少两个候选关键短语中获取文本的关键短语;输出文本的关键短语。与现有技术相比,根据各候选关键短语的第一参数值、词性组合、长度,在文本中的位置,确定出文本的关键短语,从而实现中文文本关键短语的抽取。文文本关键短语的抽取。文文本关键短语的抽取。


技术研发人员:陈雪飞 都仪敏 谢海华
受保护的技术使用者:北大方正信息产业集团有限公司
技术研发日:2020.12.01
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献