一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

关键词获取的方法、装置、计算设备和存储介质与流程

2021-12-08 00:36:00 来源:中国专利 TAG:

技术特征:
1.一种关键词获取方法,包括:获取种子关键词;基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词;获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;提取所述相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。2.如权利要求1所述的方法,还包括:选择所述经排序的关键词中排序前k的关键词,k为正整数;对所述排序前k的关键词进行进一步筛选,得到经筛选的关键词;将所述经筛选的关键词加入所述正例关键词库。3.如权利要求2所述的方法,还包括:将下述步骤迭代m次,m为预先设定的迭代次数且m为正整数:获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;提取所述相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词;选择所述经排序的关键词中排序前k的关键词,k为正整数;对所述排序前k的关键词进行进一步筛选,得到经筛选的关键词;将所述经筛选的关键词加入所述正例关键词库。4.如权利要求1

3中任一项所述的方法,其中所述获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量包括:分别基于所述召回关键词和所述正例关键词在经预训练的词向量库中查找与所述召回关键词相对应的词向量和与所述正例关键词相对应的词向量;分别基于与所述召回关键词相对应的词向量和与所述正例关键词相对应的词向量计算所述召回关键词的平均词向量和所述正例关键词的平均词向量。5.如权利要求4所述的方法,其中所述经预训练的词向量库基于下述步骤进行训练:基于预定条件选择全量语料库;对全量语料库中的文本进行分词,得到不同层级的文本;以不同层级的文本作为节点构建词图;对所述节点进行节点采样,生成节点序列;以及基于所述节点序列训练词向量。6.如权利要求5所述的方法,其中所述基于预定条件选择全量语料库包括:基于产品范围或企业范围选择全量语料库。7.如权利要求5所述的方法,其中所述对全量语料库中的文本进行分词,得到不同层级的文本包括:对所述全量语料库中的文本进行分词,分别得到词组、词语和字层级的文本。8.如权利要求7所述的方法,其中所述以不同层级的文本作为节点构建词图包括:以所述词组、词语和字层级的文本作为节点,分别对预定大小的窗口内的各个词组、所
述词组和所述词语级别的文本、所述词组和所述字层级的文本进行连接,作为所述词图的词组

词组边、词组

词语边和词语

字边。9.如权利要求8所述的方法,其中所述词图的词组

词组边、词组

词语边和词语

字边分别具有不同的权重。10.如权利要求5所述的方法,其中所述对所述节点进行节点采样,生成节点序列包括:采用node2vec算法进行节点采样,生成所述节点序列。11.如权利要求5所述的方法,其中所述基于所述节点序列训练词向量包括:利用word2vec算法对所述节点序列进行训练,得到各自与词组、词和字相对应的词向量。12.如权利要求1

3中任一项所述的方法,其中所述词频

逆文档频率为,是词频,是一词语在所述召回关键词中的频率,为逆文档频率,是基于下述表达式在所述全量语料库中预先计算的。13.一种关键词获取装置,包括:获取模块,被配置成获取种子关键词;筛选模块,被配置成基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词,以及关键词联想模块,被配置成对所述召回关键词执行下述步骤:获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;提取所述相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。14.一种计算设备,包括存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1

12中的任一项所述的方法。15.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1

12中的任一项所述的方法。

技术总结
本申请例提供了一种关键词获取方法,包括:获取种子关键词;基于所述种子关键词对全量语料库中的关键词进行正则筛选,得到召回关键词;获取所述召回关键词的平均词向量和正例关键词库中正例关键词的平均词向量;计算所述召回关键词的平均词向量与所述正例关键词的平均词向量的相似度;提取所述相似度大于预定阈值的召回关键词作为候选关键词;以预定频率作为权重对所述候选关键词进行排序,输出经排序的关键词。该方法联想挖掘的精确度和召回率相对于相关技术具有较大提升,并且能够从语料中挖掘高质量关键词组。中挖掘高质量关键词组。中挖掘高质量关键词组。


技术研发人员:顾秀森 张雨春 王国华 范云霓
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.05.21
技术公布日:2021/12/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献