一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种确定作品类别信息的方法、装置、计算机设备及介质与流程

2022-07-14 01:28:21 来源:中国专利 TAG:


1.本公开涉及信息处理技术领域,具体而言,涉及一种确定作品类别信息的方法、装置、计算机设备及介质。


背景技术:

2.随着互联网技术的发展,在媒体平台上浏览文章已经成为人们的主要阅读方式之一。因此,为了满足人们的网络阅读需求,越来越多的作者在媒体平台上发表文章。
3.为了实现对文章资源和作者资源的管理,通常会通过人工的方式按照历史定义的文章类别对文章进行分类。但是这种分类方式分类效率较低,并且无法保证对一些新兴领域的文章进行准确分类。


技术实现要素:

4.本公开实施例至少提供一种确定作品类别信息的方法、装置、计算机设备及介质。
5.第一方面,本公开实施例提供了一种确定作品类别信息的方法,包括:
6.获取待分类作品中的多个关键词;
7.基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;
8.对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值;
9.基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
10.一种可行的实施方式中,所述目标模型是通过以下步骤训练得到的:
11.获取多个预设作品中的多个预设关键词;
12.将所述多个预设关键词分别输入至待训练的目标模型中,得到所述多个预设关键词的词向量;
13.将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到所述训练好的目标模型。
14.一种可行的实施方式中,所述将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到所述训练好的目标模型,包括:
15.从所述正样本中选择任一正样本作为参考正样本,并基于所述参考正样本中包含的两个预设关键词的词向量,确定所述参考正样本的第一相似度;以及,基于各个所述负样
本中包含的两个预设关键词的词向量,分别确定各个所述负样本的第二相似度;
16.基于所述参考正样本的第一相似度以及各个所述负样本的第二相似度,确定所述参考正样本与各个所述负样本的相似度之和;
17.基于所述参考正样本的第一相似度以及所述相似度之和,确定训练损失;
18.基于所述训练损失,对所述待训练的目标模型进行训练,得到所述训练完成的目标模型。
19.一种可行的实施方式中,所述将多个预设作品的多个预设关键词分别输入至待训练的目标模型中,得到所述多个预设关键词的词向量,包括:
20.将每个所述预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层,得到各个所述预设关键词的初始词向量;所述初始词向量的维度高于预设维度;
21.将所述初始词向量输入所述目标模型的降维编码器,得到所述预设关键词对应的预设维度的词向量。
22.一种可行的实施方式中,所述获取多个预设作品中的多个预设关键词,包括:
23.获取多个预设作品中的多个候选关键词;
24.针对每个所述候选关键词,确定所述候选关键词与所述候选关键词所在的预设作品的相关度;
25.基于每个所述候选关键词与所述候选关键词所在的预设作品的相关度,从所述多个候选关键词中,选择所述相关度符合第二设定阈值的多个预设关键词。
26.一种可行的实施方式中,所述基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息,包括:
27.基于各个所述类簇中包含的所述词向量的数量,确定各个所述类簇中所述词向量的数量最多的目标类簇;
28.基于所述目标类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
29.一种可行的实施方式中,所述基于所述目标类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息,包括:
30.基于所述目标类簇中各个所述词向量,确定各个所述词向量的平均词向量;
31.确定所述目标类簇的各个所述词向量中,距离所述平均词向量最近的目标词向量;
32.基于所述目标词向量对应的关键词,确定所述待分类作品的作品类别信息。
33.一种可行的实施方式中,确定所述待分类作品的作品类别信息之后,所述方法还包括:
34.基于所述待分类作品的作品类别信息,确定所述待分类作品所属作者的作者类别信息。
35.一种可行的实施方式中,所述基于所述待分类作品的作品类别信息,确定所述待分类作品所属作者的作者类别信息,包括:
36.基于各个所述待分类作品的作品类别信息,确定同一作者在确定的多个作品类别下的作品数量;
37.将所述作者在多个作品类别中作品数量最多的待分类作品类别,作为所述作者的
作者类别。
38.第二方面,本公开实施例还提供一种确定作品类别信息的装置,包括:
39.第一获取模块,用于获取待分类作品中的多个关键词;
40.第一确定模块,用于基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;
41.聚类模块,用于对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值;
42.第二确定模块,用于基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
43.第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
44.第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
45.本公开实施例提供的确定作品类别信息的方法,可以基于预先训练的目标模型确定待分类作品中关键词的词向量,这里的目标模型是预先利用属于同一预设作品的任意两个预设关键词的词向量作为正样本、属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;在确定关键词的词向量后,将目标向量空间中的空间距离小于第一设定阈值的词向量聚为一类,得到的至少一个类簇中各个词向量所对应的关键词的语义更相似,从而在根据同一个类簇中各个词向量对应的关键词确定待分类作品的作品类别信息的时候,可以更准确地确定出待分类作品的作品类别;并且上述方法可以不依赖于历史定义的作品类别对作品进行分类,比如对于一些小众领域的作品都可以实现准确分类,并且不依赖于人工分类,分类效率更高。
46.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
47.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
48.图1示出了本公开实施例所提供的一种确定作品类别信息的方法的流程图;
49.图2示出了本公开实施例所提供的一种训练目标模型的流程示意图;
50.图3示出了本公开实施例所提供的文本编码器的工作流程图;
51.图4示出了本公开实施例所提供的一种确定作品类别信息的装置的示意图;
52.图5示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
[0053][0054]
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0055]
对于文章的分类方法,通常是通过人工依照历史定义的文章类别对文章进行分类。一方面,依靠人工分类的方式效率比较低;另一方面,针对一些新兴领域的文章,比如电商,历史定义的文章类别中可能还未涵盖该领域的文章类别,因此无法对一些新兴领域的文章进行准确分类。
[0056]
基于此,本公开提供了一种确定作品类别信息的方法,预先利用属于同一预设作品的任意两个预设关键词的词向量作为正样本、属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到用于确定关键词的词向量的目标模型;在对待分类作品进行分类时,可以基于训练的目标模型确定待分类作品中关键词的词向量,然后将目标向量空间中的空间距离小于第一设定阈值的词向量聚为一类,得到的至少一个类簇中各个词向量所对应的关键词的语义更相似,从而在根据同一个类簇中各个词向量对应的关键词,确定待分类作品的作品类别信息的时候,可以更准确地确定出待分类作品的作品类别;并且上述方法可以不依赖于历史定义的作品类别对作品进行分类,比如对于一些小众领域的作品都可以实现准确分类,并且不依赖于人工分类,分类效率更高。
[0057]
针对以上方案所存在的缺陷以及所提出的解决方案,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
[0058]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0059]
为便于对本实施例进行理解,首先对本公开实施例所公开的一种确定作品类别信息的方法进行详细介绍,本公开实施例所提供的确定作品类别信息的方法的执行主体一般为具有一定计算能力的计算机设备。
[0060]
下面以执行主体为服务器为例对本公开实施例提供的确定作品类别信息的方法加以说明。
[0061]
参见图1所示,为本公开实施例提供的确定作品类别信息的方法的流程图,所述方法包括s101~s104,其中:
[0062]
s101:获取待分类作品中的多个关键词。
[0063]
在本公开实施例中,待分类作品可以指作者在媒体平台上发表的各个待分类的作品。本公开实施例中的作品包括但不限于文章、视频、图片、音频等任何形式的作品,也即任何需要作者创作的发布内容都属于作品。
[0064]
在具体实施中,可以针对每个待分类作品,分别提取其中包含的多个关键词。这里,获取的每个待分类作品的多个关键词可以是从每个待分类作品中提取的所有的关键词,也可以是从每个待分类作品中的所有关键词中筛选出的、与该待分类作品的相关度符合预设条件(例如设定阈值)的多个关键词。具体地,可以根据每个关键词在所在的待分类作品中的出现频率,确定该关键词与所在的预设作品的相关度。关键词的出现频率越高,则与所在的待分类作品的相关度就越大。在一种方式中,在提取到每个待分类作品的所有关键词之后,可以利用bm25算法分别确定出各个关键词与所在的待分类作品的相关度,然后按照相关度对关键词进行由大到小或由小到大的排序,最后选择与所在的待分类作品的相关度符合设定阈值的多个关键词。
[0065]
s102:基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的。
[0066]
目标向量空间可以指embedding space映射空间。每个关键词在目标向量空间中的词向量可以是embedding space映射空间下的词向量。
[0067]
这里,针对每个关键词,可以从预先生成的关键词词义矩阵中查找每个关键词对应的词向量。关键词词义矩阵可以是embedding space映射空间下的词义矩阵。关键词词义矩阵中可以包含各个预设关键词与词向量的对应关系。因此这里可以针对每个关键词,根据各个预设关键词与词向量的对应关系,从关键词词义矩阵中查找每个关键词对应的词向量。
[0068]
关键词词义矩阵可以是根据预设关键词在目标向量空间下的词向量预先生成的。关键词词义矩阵中的每一行向量可以表示一个预设关键词的词向量。每个预设关键词的词向量可以表征该预设关键词的语义信息。关键词词义矩阵中每个预设关键词的词向量都可以是预设维度下的向量,例如,这里的词向量可以是300维的向量。
[0069]
其中,预设关键词可以是预先从多个预设作品中提取的。在一种方式中,为了保证能够查找到各个关键词对应的词向量,预设关键词的数量可以是足够多的。
[0070]
在某些情况下,在确定多个关键词分别在目标向量空间中的词向量的过程中,当关键词词义矩阵中未包含某个关键词对应的词向量的时候,则可以舍弃该关键词。即在后续步骤中,可以不使用该关键词的词向量进行聚类。
[0071]
确定出的多个关键词的词向量可以是具有以下特点的词向量:任意两个词向量在目标向量空间中的空间距离与任意两个词向量之间的语义相似度呈负相关。也就是针对任意两个词向量,当这两个词向量在目标向量空间中的空间距离越小,则这两个词向量之间的语义相似度就越大。通过确定具有上述特点的词向量,可以将语义相似度符合预设条件的词向量聚为一类,从而根据聚类结果确定待分类作品的作品类别信息。其中,该过程将在后文进行详述。
[0072]
这里,可以利用预先训练好的目标模型来确定多个关键词分别在目标向量空间中的词向量。具体地,可以将多个关键词分别输入到预先训练好的目标模型中,预先训练好的目标模型中的特征提取层可以基于关键词词义矩阵,得到多个关键词分别对应的词向量。
[0073]
目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;也就是预先训练好的目标模型可以针对语义相近的关键词,从关键词词义矩阵中查找到的词向量在目标向量空间中的空间距离更相近;针对语义不相近的关键词,从关键词词义矩阵中查找到的词向量在目标向量空间中的空间距离更疏远。
[0074]
上述确定出来的多个关键词在目标向量空间中的词向量可以是得到的初始词向量。初始词向量的维度与关键词词义矩阵中的每一行向量的维度可以是相同的。上述确定出来的多个关键词在目标向量空间中的词向量还可以是对初始词向量进行降维处理之后的低维词向量(这里所说的低维词向量是相对于初始词向量而言的,也就是低维词向量的维度低于初始词向量的维度)。针对上述确定出来的多个关键词在目标向量空间中的词向量是对初始词向量进行降维处理之后的低维词向量的情况,在一种实施方式中,预先训练好的目标模型中还可以包括预先训练好的降维编码器,利用预先训练好的降维编码器可以对上述初始词向量进行降维处理,得到预设维度的词向量。其中初始词向量的维度高于预设维度。降维编码器中可以包含至少一层编码器。示例性地,在一种实施方式中,降维编码器可以包含两层编码器,第一层编码器可以将初始词向量降为中间维度(中间维度低于初始词向量的维度且高于预设维度)的词向量,第二层编码器可以将中间维度的词向量降为预设维度的词向量。例如,初始词向量的维度可以为300维,第一层编码器可以将300维的初始词向量降为64维的词向量;第二层编码器可以将64维的词向量降为32维的词向量。通过对初始词向量进行降维处理,可以减少后续聚类时的数据计算量,因而可以提高运算效率。上述预先训练好的目标模型所具有的能力是经过训练学习到的,目标模型的训练过程将在后文详述。
[0075]
承接上述步骤,本公开实施例提供的确定作品类别信息的方法还包括以下步骤:
[0076]
s103:对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值。
[0077]
这里,可以设定词向量之间的空间距离阈值,即第一设定阈值。聚类得到的每个类簇内的各个词向量之间的空间距离小于第一设定阈值,也就是每个类簇内的各个词向量之间的语义相似度大于相似度阈值。因此,通过聚类可以将语义相似度大于相似度阈值的词向量聚在一起。在具体实施中,可以利用任何可行的聚类算法对词向量进行聚类,例如k均值聚类算法(k-means clustering algorithm)等。接下来,可以利用得到的至少一个类簇中各个词向量的关键词,确定待分类作品的作品类别信息。
[0078]
承接上述步骤,本公开实施例提供的确定作品类别信息的方法还包括以下步骤:
[0079]
s104:基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
[0080]
这里,在一种实施方式中,可以从至少一个类簇中随机选择一个目标类簇,然后基于随机选择的目标类簇中各个词向量对应的关键词,确定待分类作品的作品类别信息。
[0081]
在一种实施方式中,还可以基于各个类簇中包含的词向量的数量,确定各个类簇
中词向量的数量最多的目标类簇;然后基于目标类簇中各个词向量对应的关键词,确定待分类作品的作品类别信息。
[0082]
其中,词向量的数量最多的目标类簇中词向量对应的关键词在所属作品中所占的篇幅最大,更能表征待分类作品的作品类别,因此基于目标类簇中各个词向量对应的关键词,确定的作品类别信息可以更准确。
[0083]
由于每个类簇中包含的词向量对应的关键词的语义都是相近的,因此可以从随机选择的目标类簇中或者是从词向量的数量最多的目标类簇中再随机选择一个词向量,然后将随机选择的词向量对应的关键词作为待分类作品的作品类别信息。
[0084]
为了更加准确地确定作品类别信息,在一种实施方式中,可以基于目标类簇中各个词向量,确定各个词向量的平均词向量;然后确定目标类簇的各个词向量中,距离平均词向量最近的目标词向量;然后基于目标词向量对应的关键词,确定待分类作品的作品类别信息。
[0085]
在上述实施方式中,各个词向量的平均词向量可以为各个词向量所形成的高维图形的几何重心。通过计算各个词向量与平均词向量的距离,可以找到距离平均词向量最近的目标词向量。通常情况下,距离平均词向量最近的目标词向量可以为一个,或者多个。因此,在目标词向量仅为一个的情况下,可以将该目标词向量对应的关键词作为待分类作品的作品类别信息。在目标词向量为多个的情况下,可以将多个目标词向量对应的关键词作同时作为待分类作品的作品类别信息,或者是将多个目标词向量中的任意一个目标词向量对应的关键词作为待分类作品的作品类别信息,或者是通过人工的方式对多个目标词向量对应的关键词进行归纳总结,得到待分类作品的作品类别信息,这里可以不作具体限定。例如,类簇中各个词向量对应的关键词分别为:生长、钓鱼、野生、植物、补水、野钓、科普,可以得到待分类作品的作品类别信息为钓鱼或垂钓;再如,类簇中各个词向量对应的关键词分别为:写字、课本、学习、成语、启蒙、读懂、学到、黑板、读书、绘画、学堂、领悟、练字、书皮、写作、作文,可以得到待分类作品的作品类别信息为初等教育。
[0086]
在本公开实施例确定待分类作品的作品类别信息之后,在一种实施方式中,还可以基于待分类作品的作品类别信息,确定待分类作品所属作者的作者类别信息。其中,当待分类作品的作品类别信息仅包含一种作品类别的情况下,可以将该作品类别作为待分类作品所属作者的作者类别信息。例如待分类作品的作品类别为美妆类,则该待分类作品所属作者的作者类别就是美妆类。
[0087]
在一些情况下,同一作者可能发表不同类别的作品,例如,作者s可能发表美妆、生活、旅游等多个类别的作品。这种情况下,在一种实施方式中,可以基于各个待分类作品的作品类别信息,确定同一作者在确定的多个作品类别下的作品数量;然后将作者在多个作品类别中作品数量最多的待分类作品类别,作为该作者的作者类别。
[0088]
具体地,比如作者s发表美妆类的待分类作品的数量为60篇,发表生活类的待分类作品的数量为30篇,发表旅游类的待分类作品的数量为10篇,那么该作者s的作者类别就是美妆类。
[0089]
在一种实施方式中,还可以基于各个待分类作品的作品类别信息,确定同一作者在确定的多个作品类别下的作品数量占比;然后基于多个作品类别下的作品数量占比,确定该作者的作者类别。
[0090]
具体地,比如在上述举例中,作者s发表的美妆类的待分类作品的作品数量占比为60%,发表的生活类的待分类作品的作品数量占比为30%,发表的旅游类的待分类作品的作品数量占比为10%,那么该作者s的作者类别就是60%美妆类、30%生活类、10%旅游类。
[0091]
本公开实施例还对目标模型的训练过程进行了详细介绍。
[0092]
具体地,首先,可以获取多个预设作品中的多个预设关键词;然后,将多个预设关键词分别输入至待训练的目标模型中,得到多个预设关键词的词向量;最后,将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到训练好的目标模型。
[0093]
这里,可以针对各个预设作品,分别提取多个预设关键词。在具体实施中,预设作品的数量可以表示为n(n为大于等于1的正整数),预设关键词可以表示为其中,表示第t(t大于等于1且小于等于n)个作品的第m个预设关键词。一般情况下,多个预设作品中的预设关键词可以是不相同的。
[0094]
在一种实施方式中,可以获取多个预设作品中的多个候选关键词,然后将多个候选关键词作为预设关键词,分别输入到待训练的目标模型中进行训练。在一种实施方式中,也可以获取多个预设作品中的多个候选关键词;然后针对每个候选关键词,确定候选关键词与候选关键词所在的预设作品的相关度;最后,基于每个候选关键词与候选关键词所在的预设作品的相关度,从多个候选关键词中,选择相关度符合第二设定阈值的多个预设关键词。
[0095]
在具体实施中,可以根据候选关键词在所在的预设作品中的出现频率,确定候选关键词与所在的预设作品的相关度。候选关键词的出现频率越高,则说明候选关键词与所在的预设作品的相关度就越大。在一种方式中,可以利用bm25算法选择与所在的预设作品的相关度符合第二设定阈值的多个关键词。利用bm25算法选择关键词的过程可以参照前述s101的步骤,重复之处不再赘述。
[0096]
最后将筛选出的与预设作品的相关度符合预设条件的多个预设关键词分别输入到待训练的目标模型中进行训练。这里需要说明的是,筛选出的预设关键词应当涵盖各个预设作品。具体地,可以针对每个预设作品,从该预设作品中筛选出多个与该预设作品的相关度符合预设条件的预设关键词。
[0097]
利用待训练的目标模型,可以得到每个预设关键词对应的目标向量空间下的词向量。这里,每个预设关键词对应的词向量可以表示为这里目标向量空间可以指embedding space映射空间。每个预设关键词在目标向量空间中的词向量可以是embedding space映射空间下的词向量。
[0098]
在具体实施中,待训练的目标模型可以从针对每个预设关键词,从预先生成的关键词词义矩阵中查找每个预设关键词对应的词向量。关键词词义矩阵可以是embedding space映射空间下的词义矩阵。
[0099]
在确定出各个预设关键词的词向量之后,可以根据预设关键词与预设作品的所属关系,将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到训练好的目标模型。在本公开实施例中,不需要额外标签,利用正样本与负样本即可以实
现对目标模型的自监督训练。
[0100]
根据同一预设作品的多个预设关键词对应的词向量,可以得到多个正样本,这里可以将正样本记为(z,z

),其中z表示一个预设关键词对应的词向量,z

表示与另一个预设关键词组成正样本的预设关键词对应的词向量;根据不同预设作品的多个预设关键词对应的词向量,可以得到多个负样本,这里可以将负样本记为(z,z-),其中z-表示与另一个预设关键词组成负样本的预设关键词对应的词向量。在一种实施方式中,可以从正样本中选择任一正样本作为参考正样本,并基于参考正样本中包含的两个预设关键词的词向量,确定参考正样本的第一相似度;以及,基于各个负样本中包含的两个预设关键词的词向量,分别确定各个负样本的第二相似度。
[0101]
这里,第一相似度可以指参考正样本中包含的两个预设关键词的词向量之间的语义相似度,这里可以记为sim(z,z

);第二相似度可以指每个负样本中包含的两个预设关键词的词向量之间的语义相似度,这里可以记为sim(z,z-)。
[0102]
然后,基于参考正样本的第一相似度以及各个负样本的第二相似度,确定参考正样本与各个负样本的相似度之和,这里可以记为∑
z'∈{z-,z }
sim(z,z')。基于参考正样本对应的第一相似度以及相似度之和,确定训练损失;基于训练损失,对待训练的目标模型进行训练,得到训练完成的目标模型。
[0103]
在一种实施方式中,可以将参考正样本对应的第一相似度作为分子,将相似度之和作为分母,然后对分子与分母的比值先取对数,再取负数,就可以得到训练损失l,即
[0104]
在理想情况下,当两个预设关键词的词向量之间的语义完全相同时,可以认为这两个预设关键词的词向量的语义相似度为1;当两个预设关键词的词向量之间的语义完全不相同时,可以认为这两个预设关键词的词向量的语义相似度为0。因此,在一般情况下,正样本对应的第一相似度与负样本对应的第二相似度在0至1之间。当上述训练损失l中的分子越大时,分子与分母的比值就越大,那么训练损失l的值就越小。
[0105]
具体地,在第一轮训练过程中,在将多个预设关键词输入至待训练的目标模型得到多个预设关键词的词向量之后,基于参考正样本对应的第一相似度以及相似度之和,确定训练损失l1,然后利用训练损失l1对待训练的目标模型进行训练。具体地,可以根据训练损失l1,修改目标模型中的相关参数,使得修改参数后的目标模型能够针对语义相近的预设关键词,确定出在空间距离上更近的词向量。
[0106]
在第二轮训练过程中,将上述多个预设关键词重新输入至待训练的目标模型中,重新得到多个预设关键词的词向量,并重新选择一个正样本作为参考正样本(重新选择的参考正样本可以是与历史选择的参考正样本不同的),以及重新构成多个负样本,然后基于重新选择的参考正样本对应的第一相似度以及相似度之和,确定训练损失l2,然后利用训练损失l2对待训练的目标模型进行训练。根据训练损失l2,继续修改目标模型中的相关参数。
[0107]
接下来,重复执行以上步骤,直至达到训练截止条件,得到训练好的目标模型。训练截止条件可以包括相邻两轮的训练损失的差值小于设定阈值的出现次数达到第一预设
次数;或,对待训练的目标模型进行训练的迭代次数达到第二预设次数。其中,相邻两轮的训练损失的差值小于设定阈值的出现次数达到第一预设次数的情况下,说明相邻两轮的训练损失比较接近了,此时可以截止训练。
[0108]
在一种实施方式中,当目标模型中包含降维编码器的情况下,还可以将每个预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层,得到各个预设关键词的初始词向量;然后将初始词向量输入目标模型的降维编码器,得到预设关键词对应的预设维度的词向量。该过程可以参照前述s101的步骤,重复之处不再赘述。
[0109]
在得到多个预设关键词对应的预设维度的词向量后,将属于同一预设作品的任意两个预设关键词对应的预设维度的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词对应的预设维度的词向量作为负样本,对待训练的目标模型进行训练,得到训练好的目标模型。具体过程可以参照前述训练过程,这里不再赘述。
[0110]
如图2所示的一种训练目标模型的流程示意图中,可以先从n篇预设的文章中,分别针对每篇文章提取多个关键词,即:文章1-关键词1、文章1-关键词2、文章1-关键词3、
……
;文章2-关键词1、文章2-关键词2、文章2-关键词3、
……

……
;文章n-关键词1、文章n-关键词2、文章n-关键词3、
……

[0111]
在第一轮训练过程中,将上述关键词分别输入到目标模型的特征提取层,特征提取层根据embedding space映射空间下的关键词词义矩阵,分别得到各个关键词在embedding space映射空间下的初始词向量。
[0112]
然后,将上述初始词向量分别输入到目标模型的text encoder文本编码器中,分别得到各个初始词向量对应的降维后的词向量。text encoder文本编码器中可以包含两层编码器,如图3所示,第一层编码器可以将各个初始词向量降为64维的词向量;第二层编码器可以将64维的词向量降为32维的词向量。
[0113]
接下来,将文章1中的任意两个关键词的词向量(这里指降维后的词向量,下同)记为正样本(这里可以构成一个正样本,可以理解为前文所述的参考正样本),将文章1中的任一关键词的词向量分别与其它文章中的任一关键词的词向量记为负样本。
[0114]
接下来,计算正样本中两个关键词的词向量的第一相似度、各个负样本中两个关键词的词向量的第二相似度。并计算该正样本的第一相似度与各个负样本的第二相似度的相似度之和。
[0115]
将该正样本的第一相似度作为分子、上述相似度之和作为分母,然后对分子与分母的比值先取对数,再取负数,就可以得到训练损失l1。然后利用训练损失l1对目标模型进行训练。通过对目标模型的相关参数进行调整,实现对目标模型的优化。
[0116]
在后续多轮训练过程中,重复以上步骤,直至训练完成。
[0117]
在应用过程中,可以使用训练完成的目标模型中的特征提取层针对语义相近的关键词,提取在目标向量空间中的空间距离更相近的词向量;针对语义不相近的关键词,提取在目标向量空间中的空间距离更疏远的词向量。也可以使用训练完成的目标模型中的特征提取层和降维编码器针对语义相近的关键词,提取在目标向量空间中的空间距离更相近的降维后的词向量;针对语义不相近的关键词,提取在目标向量空间中的空间距离更疏远的降维后的词向量。从而在应用阶段,对待分类作品中的多个关键词的词向量进行聚类得到的类簇中,包含的词向量对应的关键词的语义更相近,从而可以更准确地确定出待分类作
品的作品类别信息。
[0118]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0119]
基于同一发明构思,本公开实施例中还提供了与确定作品类别信息的方法对应的确定作品类别信息的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述确定作品类别信息的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0120]
参照图4所示,为本公开实施例提供的一种确定作品类别信息的装置的架构示意图,所述装置包括:第一获取模块401、第一确定模块402、聚类模块403、第二确定模块404;其中,
[0121]
第一获取模块401,用于获取待分类作品中的多个关键词;
[0122]
第一确定模块402,用于基于预先训练的目标模型,确定所述多个关键词分别在目标向量空间中的词向量;其中,任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之间的语义相似度呈负相关;所述目标模型为将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练得到的;
[0123]
聚类模块403,用于对所述多个关键词的词向量进行聚类,得到至少一个类簇;其中,每个所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值;
[0124]
第二确定模块404,用于基于所述至少一个类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
[0125]
一种可行的实施方式中,第一确定模块402,具体用于:
[0126]
将所述多个关键词分别输入到预先训练好的目标模型中,得到所述多个关键词分别对应的词向量;
[0127]
所述装置还包括:
[0128]
第二获取模块,用于获取多个预设作品中的多个预设关键词;
[0129]
输入模块,用于将所述多个预设关键词分别输入至待训练的目标模型中,得到所述多个预设关键词的词向量;
[0130]
训练模块,用于将属于同一预设作品的任意两个预设关键词的词向量作为正样本,以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本,对待训练的目标模型进行训练,得到所述训练好的目标模型。
[0131]
一种可行的实施方式中,训练模块,具体用于:
[0132]
从所述正样本中选择任一正样本作为参考正样本,并基于所述参考正样本中包含的两个预设关键词的词向量,确定所述参考正样本的第一相似度;以及,基于各个所述负样本中包含的两个预设关键词的词向量,分别确定各个所述负样本的第二相似度;
[0133]
基于所述参考正样本的第一相似度以及各个所述负样本的第二相似度,确定所述参考正样本与各个所述负样本的相似度之和;
[0134]
基于所述参考正样本的第一相似度以及所述相似度之和,确定训练损失;
[0135]
基于所述训练损失,对所述待训练的目标模型进行训练,得到所述训练完成的目
标模型。
[0136]
一种可行的实施方式中,输入模块,具体用于:
[0137]
将每个所述预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层,得到各个所述预设关键词的初始词向量;所述初始词向量的维度高于预设维度;
[0138]
将所述初始词向量输入所述目标模型的降维编码器,得到所述预设关键词对应的预设维度的词向量。
[0139]
一种可行的实施方式中,第二获取模块,具体用于:
[0140]
获取多个预设作品中的多个候选关键词;
[0141]
针对每个所述候选关键词,确定所述候选关键词与所述候选关键词所在的预设作品的相关度;
[0142]
基于每个所述候选关键词与所述候选关键词所在的预设作品的相关度,从所述多个候选关键词中,选择所述相关度符合第二设定阈值的多个预设关键词。
[0143]
一种可行的实施方式中,第二确定模块404,具体用于:
[0144]
基于各个所述类簇中包含的所述词向量的数量,确定各个所述类簇中所述词向量的数量最多的目标类簇;
[0145]
基于所述目标类簇中各个所述词向量对应的关键词,确定所述待分类作品的作品类别信息。
[0146]
一种可行的实施方式中,第二确定模块404,具体用于:
[0147]
基于所述目标类簇中各个所述词向量,确定各个所述词向量的平均词向量;
[0148]
确定所述目标类簇的各个所述词向量中,距离所述平均词向量最近的目标词向量;
[0149]
基于所述目标词向量对应的关键词,确定所述待分类作品的作品类别信息。
[0150]
一种可行的实施方式中,所述装置还包括:
[0151]
第三确定模块,用于基于所述待分类作品的作品类别信息,确定所述待分类作品所属作者的作者类别信息。
[0152]
一种可行的实施方式中,第三确定模块,具体用于:
[0153]
基于各个所述待分类作品的作品类别信息,确定同一作者在确定的多个作品类别下的作品数量;
[0154]
将所述作者在多个作品类别中作品数量最多的待分类作品类别,作为所述作者的作者类别。
[0155]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0156]
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图5所示,为本公开实施例提供的计算机设备500的结构示意图,包括处理器501、存储器502、和总线503。其中,存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当计算机设备500运行时,处理器501与存储器502之间通过总线503通信,使得处理器501在执行以下指令:
[0157]
获取待分类作品中的多个关键词;
memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0168]
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献