一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种确定作品类别信息的方法、装置、计算机设备及介质与流程

2022-07-14 01:28:21 来源:中国专利 TAG:

技术特征:
1.一种确定作品类别信息的方法,其特征在于,包括:获取待分类作品中的多个关键词;基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值;基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。2.根据权利要求1所述的方法,其特征在于,所述目标模型是通过以下步骤训练得到的:获取多个预设作品中的多个预设关键词;将所述多个预设关键词分别输入至待训练的目标模型中,得到所述多个预设关键词的词向量;将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到所述训练好的目标模型。3.根据权利要求2所述的方法,所述将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到所述训练好的目标模型,包括:从所述正样本中选择任一正样本作为参考正样本,并基于所述参考正样本中包含的两个预设关键词的词向量,确定所述参考正样本的第一相似度;以及,基于各个所述负样本中包含的两个预设关键词的词向量,分别确定各个所述负样本的第二相似度;基于所述参考正样本的第一相似度以及各个所述负样本的第二相似度,确定所述参考正样本与各个所述负样本的相似度之和;基于所述参考正样本的第一相似度以及所述相似度之和,确定训练损失;基于所述训练损失,对所述待训练的目标模型进行训练,得到所述训练完成的目标模型。4.根据权利要求2或3所述的方法,其特征在于,所述将多个预设作品的多个预设关键词分别输入至待训练的目标模型中,得到所述多个预设关键词的词向量,包括:将每个所述预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层,得到各个所述预设关键词的初始词向量;所述初始词向量的维度高于预设维度;将所述初始词向量输入所述目标模型的降维编码器,得到所述预设关键词对应的预设维度的词向量。5.根据权利要求2所述的方法,其特征在于,所述获取多个预设作品中的多个预设关键词,包括:获取多个预设作品中的多个候选关键词;
针对每个所述候选关键词,确定所述候选关键词与所述候选关键词所在的预设作品的相关度;基于每个所述候选关键词与所述候选关键词所在的预设作品的相关度,从所述多个候选关键词中,选择所述相关度符合第二设定阈值的多个预设关键词。6.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息,包括:基于各个所述类簇中包含的所述词向量的数量,确定各个所述类簇中所述词向量的数量最多的目标类簇;基于所述目标类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。7.根据权利要求6所述的方法,其特征在于,所述基于所述目标类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息,包括:基于所述目标类簇中各个所述词向量,确定各个所述词向量的平均词向量;确定所述目标类簇的各个所述词向量中,距离所述平均词向量最近的目标词向量;基于所述目标词向量对应的关键词,确定所述待分类作品的作品类别信息。8.根据权利要求1所述的方法,其特征在于,确定所述待分类作品的作品类别信息之后,所述方法还包括:基于所述待分类作品的作品类别信息,确定所述待分类作品所属作者的作者类别信息。9.根据权利要求8所述的方法,其特征在于,所述基于所述待分类作品的作品类别信息,确定所述待分类作品所属作者的作者类别信息,包括:基于各个所述待分类作品的作品类别信息,确定同一作者在确定的多个作品类别下的作品数量;将所述作者在多个作品类别中作品数量最多的待分类作品类别,作为所述作者的作者类别。10.一种确定作品类别信息的装置,其特征在于,包括:第一获取模块,用于获取待分类作品中的多个关键词;第一确定模块,用于基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;聚类模块,用于对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值;第二确定模块,用于基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。11.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的确
定作品类别信息的方法的步骤。12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一项所述的确定作品类别信息的方法的步骤。

技术总结
本公开提供了一种确定作品类别信息的方法、装置、计算机设备及介质,其中,该方法包括:获取待分类作品中的多个关键词;基于预先训练的目标模型,确定多个关键词分别在目标向量空间中的词向量;其中,任意两个词向量在目标向量空间中的空间距离与任意两个词向量之间的语义相似度呈负相关;目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;对多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个类簇内的各个词向量之间的空间距离小于第一设定阈值;基于至少一个类簇中各个词向量对应的关键词,确定待分类作品的作品类别信息。信息。信息。


技术研发人员:陈维识
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2022.03.10
技术公布日:2022/7/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献