多媒体资源分类模型构建方法、装置、服务器及存储介质与流程

2022-05-21 06:19:00 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种多媒体资源分类模型构建方法、装置、服务器及存储介质。

背景技术：

2.目前，常见的广告交易模式为：不同的广告源可以在同一个广告投放平台上投放广告，广告投放平台向各个终端推荐广告，用户可以通过其使用的终端查看广告。其中，广告投放平台自身也可以是一个广告源。在广告投放平台自身也是广告源的情况下，由于各个广告源在广告投放平台上投放的广告的类目属于机密信息，因此广告投放平台仅能得到自身投放的广告的类目，无法获知其他广告源投放的广告的类目。
3.相关技术中，每个广告源在广告投放平台上投放的广告通常是用户感兴趣的广告，广告投放平台向终端推荐的是使用该终端的用户感兴趣的广告。但是，广告投放平台仅能获取到用户在自身广告源中感兴趣的广告类目，无法获知用户在其他广告源中感兴趣的广告类目。又由于不同的广告源的广告类目体系不同，广告分类标准的差别可能较大，因此广告投放平台无法综合分析得到用户在所有广告源中感兴趣的广告类目。

技术实现要素：

4.本公开提供一种多媒体资源分类模型构建方法、装置、服务器及存储介质，能够构建各个来源的多媒体资源通用的分类模型，使得基于该分类模型获得用户在全网感兴趣的多媒体资源的类目。
5.本公开的技术方案如下：
6.根据本公开的第一方面，提供一种多媒体资源分类模型构建方法，该方法包括：
7.获取目标来源的多条目标多媒体资源样本；其中，所述目标多媒体资源样本包括第一类目，所述第一类目用于表示所述目标多媒体资源样本的类型；
8.采用所述多条目标多媒体资源样本训练得到初始分类模型；
9.将其他来源的多条候选多媒体资源样本分别输入所述初始分类模型，得到每条候选多媒体资源样本对应的第二类目；其中，所述第二类目用于表示相应的候选多媒体资源样本的类型，所述第二类目和所述第一类目属于一个类目体系；
10.根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本；
11.采用所述多条目标多媒体资源样本和所述其他多媒体资源样本，训练得到所述多媒体资源分类模型。
12.可选地，所述获取目标来源的多条多媒体资源目标样本，包括：
13.获取所述目标来源的多条目标描述文本，以及每条目标描述文本对应的第一类目；
14.对每条目标描述文本进行分词，得到每条目标描述文本对应的分词结果；
15.根据每条目标描述文本对应的分词结果和第一类目，构建所述目标多媒体资源样
本，所述目标多媒体资源样本的格式为所述初始分类模型支持的数据格式。
16.可选地，所述获取所述目标来源的多条目标描述文本，以及每条目标描述文本对应的第一类目，包括：
17.获取预存的所述目标来源的多条初始描述文本，以及每条初始描述文本对应的第一类目；
18.删除所述多条初始描述文本中，文本字符串长度小于预设长度的初始描述文本，得到多条候选描述文本；
19.将每条候选描述文本与该候选描述文本对应的第一类目对应的关键词库中的关键词进行匹配；
20.从所述多条候选描述文本中删除类目不匹配的描述文本，得到所述多条目标描述文本；所述类目不匹配的描述文本中未包括该描述文本对应的第一类目对应的关键词库中的任一关键词。
21.可选地，所述方法还包括：
22.将所述多条候选多媒体资源样本分别输入所述初始分类模型，除了得到每条候选多媒体资源样本对应的第二类目，还得到每条候选多媒体资源样本对应的类目概率；
23.所述根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本，包括：
24.将大于预设概率的类目概率对应的候选多媒体资源样本确定为有效多媒体资源样本；
25.根据每条有效多媒体资源样本和对应的第二类目，构建所述其他多媒体资源样本。
26.可选地，在所述采用所述多条目标多媒体资源样本训练得到初始分类模型之后，还包括：
27.获取所述目标来源的多条第一多媒体资源样本，所述第一多媒体资源样本包括第一类目；
28.采用所述多条第一多媒体资源样本，更新所述初始分类模型。
29.可选地，所述采用所述多条第一多媒体资源样本，更新所述初始分类模型，包括：
30.将第一类目相同的第一多媒体资源样本划分为一个类型样本集合；
31.对于每个类型样本集合包括的每条第一多媒体资源样本，均执行：将所述第一多媒体资源样本输入所述初始分类模型，得到所述第一多媒体资源样本对应的第二类目，将所述第一多媒体资源样本对应的第一类目和第二类目进行比较；
32.在每个类型样本集合中，统计第一类目和第二类目不同的第一多媒体资源样本的数量在该类型样本集合的总数中的占比；
33.将小于预设百分比的占比对应的类型样本集合增加至所述多条目标多媒体资源样本中；
34.采用增加了所述第一多媒体资源样本的所述多条目标多媒体资源样本，更新所述初始分类模型。
35.根据本公开的第二方面，提供一种多媒体资源分类模型构建装置，包括：
36.获取模块，被配置为执行获取目标来源的多条目标多媒体资源样本；其中，所述目
标多媒体资源样本包括第一类目，所述第一类目用于表示所述目标多媒体资源样本的类型；
37.训练模块，被配置为执行采用所述获取模块获取的所述多条目标多媒体资源样本训练得到初始分类模型；
38.处理模块，被配置为执行将其他来源的多条候选多媒体资源样本分别输入所述训练模块得到的所述初始分类模型，得到每条候选多媒体资源样本对应的第二类目；其中，所述第二类目用于表示相应的候选多媒体资源样本的类型，所述第二类目和所述第一类目属于一个类目体系；
39.构建模块，被配置为执行根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本；
40.所述训练模块，还被配置为执行采用所述多条目标多媒体资源样本和所述其他多媒体资源样本，训练得到所述多媒体资源分类模型。
41.可选地，所述获取模块，具体被配置为执行：
42.获取所述目标来源的多条目标描述文本，以及每条目标描述文本对应的第一类目；
43.对每条目标描述文本进行分词，得到每条目标描述文本对应的分词结果；
44.根据每条目标描述文本对应的分词结果和第一类目，构建所述目标多媒体资源样本，所述目标多媒体资源样本的格式为所述初始分类模型支持的数据格式。
45.可选地，所述获取模块，具体被配置为执行：
46.获取预存的所述目标来源的多条初始描述文本，以及每条初始描述文本对应的第一类目；
47.删除所述多条初始描述文本中，文本字符串长度小于预设长度的初始描述文本，得到多条候选描述文本；
48.将每条候选描述文本与该候选描述文本对应的第一类目对应的关键词库中的关键词进行匹配；
49.从所述多条候选描述文本中删除类目不匹配的描述文本，得到所述多条目标描述文本；所述类目不匹配的描述文本中未包括该描述文本对应的第一类目对应的关键词库中的任一关键词。
50.可选地，所述处理模块，还被配置为执行将所述多条候选多媒体资源样本分别输入所述初始分类模型，除了得到每条候选多媒体资源样本对应的第二类目，还得到每条候选多媒体资源样本对应的类目概率；
51.所述构建模块，具体被配置为执行：
52.将大于预设概率的类目概率对应的候选多媒体资源样本确定为有效多媒体资源样本；
53.根据每条有效多媒体资源样本和对应的第二类目，构建所述其他多媒体资源样本。
54.可选地，所述多媒体资源分类模型构建装置还包括：更新模块；
55.所述获取模块，还被配置为执行获取所述目标来源的多条第一多媒体资源样本，所述第一多媒体资源样本包括第一类目；
56.所述更新模块，被配置为执行采用所述多条第一多媒体资源样本，更新所述初始分类模型。
57.可选地，所述更新模块，具体被配置为执行：
58.将第一类目相同的第一多媒体资源样本划分为一个类型样本集合；
59.对于每个类型样本集合包括的每条第一多媒体资源样本，均执行：将所述第一多媒体资源样本输入所述初始分类模型，得到所述第一多媒体资源样本对应的第二类目，将所述第一多媒体资源样本对应的第一类目和第二类目进行比较；
60.在每个类型样本集合中，统计第一类目和第二类目不同的第一多媒体资源样本的数量在该类型样本集合的总数中的占比；
61.将小于预设百分比的占比对应的类型样本集合增加至所述多条目标多媒体资源样本中；
62.采用增加了所述第一多媒体资源样本的所述多条目标多媒体资源样本，更新所述初始分类模型。
63.根据本公开的第三方面，提供一种服务器，包括：
64.处理器；
65.用于存储所述处理器可执行指令的存储器；
66.其中，所述处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地多媒体资源分类模型构建方法。
67.根据本公开的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行上述第一方面中任一种可选地多媒体资源分类模型构建方法。
68.根据本公开的第五方面，提供一种计算机程序产品，包含指令，当其在计算机上运行时，使得计算机执行如第一方面中任一种可选地多媒体资源分类模型构建方法。
69.本公开提供的技术方案至少带来以下有益效果：获取目标来源的多条目标多媒体资源样本，目标多媒体资源样本包括第一类目，第一类目用于表示目标多媒体资源样本的类型。采用该多条目标多媒体资源样本训练得到初始分类模型，并将其他来源的多条候选多媒体资源样本分别输入初始分类模型，得到每条候选多媒体资源样本对应的第二类目，根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本，最后采用多条目标多媒体资源样本和其他多媒体资源样本训练得到多媒体资源分类模型。其中，第二类目用于表示相应的候选多媒体资源样本的类型，第二类目和第一类目属于一个类目体系。
70.这样，通过利用目标来源的目标多媒体资源样本训练得到初始分类模型，并采用初始分类模型预测其他来源的候选多媒体资源样本的第二类目，从而将所有来源的多媒体资源的类目体系均统一为目标来源的多媒体资源的类目体系。之后，根据候选多媒体资源样本和对应的第二类目构建其他多媒体资源样本，并利用目标多媒体资源样本和其他多媒体资源样本训练得到多媒体资源分类模型。该分类模型是所有来源的多媒体资源的通用模型，基于该分类模型，能够得到每个来源的每个多媒体资源的类目，从而综合分析出每个用户在全网感兴趣的多媒体资源的类目。由于该分析结果综合了多个来源的多媒体资源，更加全面和准确，利用该分析结果能够提高多媒体资源的投放效果。
71.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
72.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
73.图1是根据一示例性实施例示出的一种多媒体资源分类模型构建系统的示意图。
74.图2是根据一示例性实施例示出的一种多媒体资源分类模型构建方法的流程图之一。
75.图3是根据一示例性实施例示出的一种多媒体资源分类模型构建方法的流程图之二。
76.图4是根据一示例性实施例示出的一种多媒体资源分类模型构建方法的流程图之三。
77.图5是根据一示例性实施例示出的一种多媒体资源分类模型构建方法的流程图之四。
78.图6是根据一示例性实施例示出的一种多媒体资源分类模型构建装置的逻辑结构框图。
79.图7是根据一示例性实施例示出的另一种多媒体资源分类模型构建装置的逻辑结构框图。
80.图8是根据一示例性实施例示出的一种服务器的结构框图。
具体实施方式
81.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
82.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
83.在相关技术中，由于在广告投放平台自身也是广告源的情况下，广告投放平台仅能得到自身投放的广告的类目，无法获知其他广告源投放的广告的类目，且不同的广告源的广告类目体系不同，因此广告投放平台无法综合分析得到用户在所有广告源中感兴趣的广告类目。
84.为了解决上述问题，本公开实施例提供一种多媒体资源分类模型构建方法，能够构建各个来源的多媒体资源通用的分类模型，使得基于该分类模型获得用户在全网感兴趣的多媒体资源的类目。
85.图1是根据一示例性实施例示出的一种多媒体资源分类模型构建系统的示意图，本公开实施例提供的多媒体资源分类模型构建方法可以应用于该系统中。如图1所示，该多
媒体资源分类模型构建系统可以包括：多个第一服务器11、第二服务器12和多个终端13。其中，每个第一服务器11通过有线通讯方式或无线通讯方式与第二服务器12通信，每个终端13通过有线通讯方式或无线通讯方式与第二服务器12通信。
86.其中，第一服务器11，可以是多媒体资源的数据服务器，用于向第二服务器12投放多媒体资源。图1所示的多个第一服务器11，可以代表不同来源的多媒体资源。不同来源的多媒体资源的类目体系不同。例如，多媒体资源可以为：广告、视频等。当多媒体资源为广告时，对于纸巾的广告，有些广告源可能将其归为生活日用类，有些广告源可能将其归为家居用品类。
87.第二服务器12，可以是多媒体资源投放平台的数据服务器，用于存储和处理各个来源的多媒体资源。例如，第二服务器12中可以存储各个来源的多媒体资源，第二服务器12可以通过有线网络或无线网络将存储的多媒体资源推荐给终端13，以使得终端13将多媒体资源展示给用户，供用户查看。需要说明的是，第二服务器12本身可以作为一个多媒体资源的来源。
88.在一些实施例中，第一服务器11或第二服务器12可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开实施例对第一服务器11或第二服务器12的具体实现方式不作限制。
89.终端13，可以是手机、平板电脑等个人智能设备，或者，也可以是笔记本电脑、台式计算机、电视、投影仪等设备。本公开实施例对终端13的类型同样不作限制。
90.需要说明的是，本公开实施例中以多媒体资源为广告为例对多媒体资源分类模型构建方法的过程进行详细介绍。对于多媒体资源为除广告外的其他资源的情况，可以参考以下多媒体资源为广告时，多媒体资源分类模型构建方法的过程的相关描述，本公开实施例在此不再赘述。
91.图2是根据一示例性实施例示出的一种多媒体资源分类模型构建方法的流程图，当该方法应用于图1的第二服务器时，如图2所示，该方法可以包括步骤201-步骤205。
92.201、获取目标广告源的多条目标广告样本。
93.其中，目标广告样本包括第一广告类目，第一广告类目用于表示目标广告样本的类型。
94.202、采用多条目标广告样本训练得到初始分类模型。
95.203、将其他广告源的多条候选广告样本分别输入初始分类模型，得到每条候选广告样本对应的第二广告类目。
96.其中，第二广告类目用于表示相应的候选广告样本的类型，第二广告类目和第一广告类目属于一个类目体系。
97.204、根据每条候选广告样本和对应的第二广告类目，构建其他广告样本。
98.205、采用多条目标广告样本和其他广告样本，训练得到广告分类模型。
99.可选地，在训练广告分类模型时，采用越多数量的其他广告源的其他广告样本，得到的模型的泛化能力越强。基于该广告分类模型，可以确定广告投放平台上每个广告对应的广告类目。
100.上述实施例提供的技术方案至少带来以下有益效果：服务器获取目标来源的多条目标多媒体资源样本，目标多媒体资源样本包括第一类目，第一类目用于表示目标多媒体
资源样本的类型。采用该多条目标多媒体资源样本训练得到初始分类模型，并将其他来源的多条候选多媒体资源样本分别输入初始分类模型，得到每条候选多媒体资源样本对应的第二类目，根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本，最后采用多条目标多媒体资源样本和其他多媒体资源样本训练得到多媒体资源分类模型。其中，第二类目用于表示相应的候选多媒体资源样本的类型，第二类目和第一类目属于一个类目体系。
101.这样，通过利用目标来源的目标多媒体资源样本训练得到初始分类模型，并采用初始分类模型预测其他来源的候选多媒体资源样本的第二类目，从而将所有来源的多媒体资源的类目体系均统一为目标来源的多媒体资源的类目体系。之后，根据候选多媒体资源样本和对应的第二类目构建其他多媒体资源样本，并利用目标多媒体资源样本和其他多媒体资源样本训练得到多媒体资源分类模型。该分类模型是所有来源的多媒体资源的通用模型，基于该分类模型，能够得到每个来源的每个多媒体资源的类目，从而综合分析出每个用户在全网感兴趣的多媒体资源的类目。由于该分析结果综合了多个来源的多媒体资源，更加全面和准确，利用该分析结果能够提高多媒体资源的投放效果。
102.可选地，在本公开实施例中，结合图2，如图3所示，上述步骤201具体可以包括以下步骤201a-步骤201c。
103.201a、获取目标广告源的多条目标广告描述文本，以及每条目标广告描述文本对应的第一广告类目。
104.可选地，在本公开实施例中，广告描述文本指的是描述广告的文本信息，其中包括广告的相关信息，用于吸引用户查看。例如，某坚果的广告描述文本可以为“a品牌的坚果味美价廉，真好吃”。
105.可选地，在一种实现方式中，该多条目标广告描述文本可以为第二服务器预存的目标广告源的初始广告描述文本。
106.可选地，在另一种实现方式中，第二服务器可以对多条初始广告描述文本进行处理，从中筛选出较准确的广告描述文本，作为目标广告描述文本。具体的：第二服务器可以先获取预存的目标广告源的多条初始广告描述文本，以及每条初始广告描述文本对应的第一广告类目。然后第二服务器可以将多条初始广告描述文本中，文本字符串长度小于预设长度的初始广告描述文本删除，剩余的广告描述文本为候选广告描述文本。最后，第二服务器可以将每条候选广告描述文本与该候选广告描述文本对应的第一广告类目对应的关键词库中的关键词进行匹配，并从多条候选广告描述文本中删除类目不匹配的广告描述文本，以得到多条目标广告描述文本。其中，类目不匹配的广告描述文本指的是广告描述文本中未包括该广告描述文本对应的第一广告类目对应的关键词库中的任一关键词的文本。
107.需要说明的是，在本公开实施例中，上述第二服务器对多条初始广告描述文本的处理，是先删除文本字符串长度较短的广告描述文本，然后再删除类目不匹配的广告描述文本。当然，第二服务器也可以在多条初始广告描述文本中，先删除类目不匹配的广告描述文本，然后再删除文本字符串长度较短的广告描述文本。本公开实施例在此对多条初始广告描述文本的处理过程不做具体限制。
108.可以理解，上述删除文本字符串长度较短的广告描述文本是因为较短的广告描述文本中包含的信息较少，若不进行删除采用该较短的广告描述文本训练初始分类模型，则
会影响该初始分类模型预测广告类目的准确性。另外，删除类目不匹配的广告描述文本是为了验证目标广告源的广告描述文本对应的第一广告类目的准确性，并将类目不匹配的广告描述文本删除。通过这些删除操作，能够从多条初始广告描述文本中筛选得到较准确的广告描述文本。
109.201b、对每条目标广告描述文本进行分词，得到每条目标广告描述文本对应的分词结果。
110.第二服务器在获取到多条目标广告描述文本之后，可以采用预存的分词工具，对每条目标广告描述文本进行分词，得到每条目标广告描述文本对应的分词结果。
111.201c、根据每条目标广告描述文本对应的分词结果和第一广告类目，构建目标广告样本。
112.需要说明的是，目标广告样本对应的第一广告类目即为相应的目标广告描述文本对应的第一广告类目。
113.第二服务器在得到每条目标广告描述文本对应的分词结果之后，可以根据每条目标广告描述文本对应的分词结果和第一广告类目，构建目标广告样本。分别对多条目标广告描述文本进行处理后，便得到多条目标广告样本。目标广告样本的格式为初始分类模型支持的数据格式。
114.示例性的，假设初始分类模型为fasttext模型，那么第二服务器构建目标广告样本具体可以为，将目标广告描述文本对应的分词结果和第一广告类目按照预设规则进行拼接，得到相应的目标广告样本。
115.上述实施例提供的技术方案至少带来以下有益效果：通过对目标描述文本进行处理，构建成目标多媒体资源样本，为之后的训练初始分类模型做好准备。其中，目标描述文本为从多条初始描述文本中删除文本字符串长度较短、且类目不匹配的描述文本得到，与目标描述文本为多条初始描述文本相比，对初始描述文本进行筛选，得到的目标描述文本更加准确，使得构建的目标多媒体资源样本更加准确，进而使得采用目标多媒体资源样本训练得到的初始分类模型预测的多媒体资源类目更加准确。
116.可选地，在本公开实施例中，结合图3，如图4所示，上述步骤203中，将多条候选多媒体资源样本分别输入初始分类模型，除了得到每条候选多媒体资源样本对应的第二类目，还得到每条候选多媒体资源样本对应的类目概率。其中，类目概率越大，表明预测的候选多媒体资源样本的第二类目越准确。此时，上述步骤204具体可以包括以下步骤204a-步骤204b。
117.204a、将大于预设概率的类目概率对应的候选广告样本确定为有效广告样本。
118.可选地，在本公开实施例中，第二服务器获取其他广告源的多条候选广告样本的过程为：第二服务器无法获知其他广告源的广告类目，可以获取多条其他广告描述文本，并采用预设的分词工具，对每条其他广告描述文本进行分词，得到每条其他广告描述文本的分词结果。最后第二服务器根据每条其他广告描述文本的分词结果构建相应的候选广告样本。该候选广告样本的格式为初始分类模型支持的数据格式。
119.可以理解，第二服务器获取的多条其他广告描述文本，可以是对预存的其他广告描述文本进行处理得到的。该处理过程可以为删除文本字符串长度较短的广告描述文本。
120.可选地，在一种实现方式中，第二服务器可以直接根据每条候选广告样本和对应
的第二广告类目，构建其他广告样本。在另一种实现方式中，由于直接使用初始分类模型预测其他广告源的广告样本的广告类目的准确率可能较低，因此第二服务器可以从多条候选广告样本中筛选出准确率较高的有效广告样本。具体的，第二服务器可以将大于预设概率的类目概率对应的候选广告样本确定为有效广告样本。
121.204b、根据每条有效广告样本和对应的第二广告类目，构建其他广告样本。
122.可以理解，如果不存在大于预设概率的类目概率，即每条候选广告样本对应的类目概率均小于预设概率，则第二服务器需要重新获取目标广告源的广告样本，并重新训练初始分类模型，也就是说重新开始执行上述步骤201-步骤202。
123.上述实施例提供的技术方案至少带来以下有益效果：第二服务器在利用初始分类模型预测其他来源的候选多媒体资源样本的类目时，通过将候选多媒体资源样本对应的类目概率与预设概率进行比较，仅将大于预设概率的类目概率对应的候选多媒体资源样本作为有效多媒体资源样本，并根据每条有效多媒体资源样本和对应的第二类目，构建其他多媒体资源样本，以使得获取的其他多媒体资源样本为其他来源的多媒体资源样本中准确率较高的样本，为之后训练通用的多媒体资源分类模型做准备，进而使得得到的该多媒体资源分类模型预测多媒体资源类目更加准确。
124.可选地，在本公开实施例中，在第二服务器采用多条目标多媒体资源样本训练得到初始分类模型之后，第二服务器可以对该初始分类模型进行验证，并根据验证结果更新该初始分类模型，从而提高初始分类模型的准确性。具体的，结合图4，如图5所示，在执行上述步骤202之后，步骤203之前，本公开实施例提供的多媒体资源分类模型构建方法还可以包括以下步骤206-步骤207。
125.206、获取目标广告源的多条第一广告样本。
126.其中，第一广告样本包括第一广告类目。
127.可选地，在本公开实施例中，多条第一广告样本可以与多条目标广告样本不同。
128.需要说明的是，在本公开实施例中，第二服务器获取第一广告样本的具体过程与获取目标广告样本的过程相同。对于获取第一广告样本的具体描述可以参考上述步骤201中获取目标广告样本的相关描述。
129.207、采用多条第一广告样本，更新初始分类模型。
130.可选地，在本公开实施例中，第二服务器更新初始分类模型的具体过程为：第二服务器可以先将多条第一广告样本中，第一广告类目相同的第一广告样本划分为一个类型样本集合，这样便可以得到至少一个类型样本集合。对于每个类型样本集合包括的每条第一广告样本，第二服务器均可以执行以下操作：将第一广告样本输入上述步骤202得到的初始分类模型(在将该第一广告样本输入初始分类模型时可以将第一广告样本包括的第一广告类目进行隐藏)中，得到第一广告样本对应的第二广告类目，并将第一广告样本对应的第一广告类目和第二广告类目进行比较。然后，第二服务器可以在每个类型样本集合中，统计第一广告类目和第二广告类目不同的第一广告样本的数量在该类型样本集合的总数中的占比，并将小于预设百分比的占比对应的类型样本集合增加至上述步骤201中的多条目标广告样本中。最后，第二服务器可以采用增加了第一广告样本的多条目标广告样本，更新初始分类模型，即采用新的广告样本重新训练初始分类模型。
131.可以理解，上述第一广告类目和第二广告类目不同的第一广告样本的数量在该类
型样本集合的总数中的占比小于预设百分比，表明利用初始分类模型，预测该类型样本集合的广告类目的准确性较低，表明初始分类模型对该类型样本集合的预测能力较弱。此时，便需要将该类型样本集合的第一广告样本增加至多条目标广告样本中，并重新训练初始分类模型。
132.需要说明的是，上述如果在每个类型样本集合中统计出来的占比均大于或等于预设百分比，则表明利用初始分类模型，预测该广告类目的准确性较高。此时，第二服务器可以直接执行上述步骤203，无需重新训练初始分类模型。
133.上述实施例提供的技术方案至少带来以下有益效果：第二服务器通过在得到初始分类模型之后，利用目标来源的第一多媒体资源样本验证该初始分类模型的准确性，若不准确则重新训练初始分类模型，若准确则利用初始分类模型预测其他来源的多媒体资源样本对应的类目，这样能够提高初始分类模型预测多媒体资源类目的准确性。
134.可选地，在本公开实施例中，在上述步骤205采用多条目标广告样本和多条其他广告样本训练得到广告分类模型之后，也可以验证该广告分类模型的分类准确性。在确定该广告分类模型的准确性较高时，便可以将该广告分类模型正式投入使用。
135.图6是根据一示例性实施例示出的一种多媒体资源分类模型构建装置的逻辑结构框图。参照图6，该多媒体资源分类模型构建装置应用于服务器，该多媒体资源分类模型构建装置包括：获取模块31、训练模块32、处理模块33和构建模块34；
136.获取模块31，被配置为执行获取目标来源的多条目标多媒体资源样本；其中，所述目标多媒体资源样本包括第一类目，所述第一类目用于表示所述目标多媒体资源样本的类型；
137.训练模块32，被配置为执行采用所述获取模块31获取的所述多条目标多媒体资源样本训练得到初始分类模型；
138.处理模块33，被配置为执行将其他来源的多条候选多媒体资源样本分别输入所述训练模块32得到的所述初始分类模型，得到每条候选多媒体资源样本对应的第二类目；其中，所述第二类目用于表示相应的候选多媒体资源样本的类型，所述第二类目和所述第一类目属于一个类目体系；
139.构建模块34，被配置为执行根据每条候选多媒体资源样本和对应的第二类目，构建其他多媒体资源样本；
140.所述训练模块32，还被配置为执行采用所述多条目标多媒体资源样本和所述其他多媒体资源样本，训练得到所述多媒体资源分类模型。
141.可选地，所述获取模块31，具体被配置为执行：
142.获取所述目标来源的多条目标描述文本，以及每条目标描述文本对应的第一类目；
143.对每条目标描述文本进行分词，得到每条目标描述文本对应的分词结果；
144.根据每条目标描述文本对应的分词结果和第一类目，构建所述目标多媒体资源样本，所述目标多媒体资源样本的格式为所述初始分类模型支持的数据格式。
145.可选地，所述获取模块31，具体被配置为执行：
146.获取预存的所述目标来源的多条初始描述文本，以及每条初始描述文本对应的第一类目；
147.删除所述多条初始描述文本中，文本字符串长度小于预设长度的初始描述文本，得到多条候选描述文本；
148.将每条候选描述文本与该候选描述文本对应的第一类目对应的关键词库中的关键词进行匹配；
149.从所述多条候选描述文本中删除类目不匹配的描述文本，得到所述多条目标描述文本；所述类目不匹配的描述文本中未包括该描述文本对应的第一类目对应的关键词库中的任一关键词。
150.可选地，所述处理模块33，还被配置为执行将所述多条候选多媒体资源样本分别输入所述初始分类模型，除了得到每条候选多媒体资源样本对应的第二类目，还得到每条候选多媒体资源样本对应的类目概率；
151.所述构建模块34，具体被配置为执行：
152.将大于预设概率的类目概率对应的候选多媒体资源样本确定为有效多媒体资源样本；
153.根据每条有效多媒体资源样本和对应的第二类目，构建所述其他多媒体资源样本。
154.可选地，如图7所示，所述多媒体资源分类模型构建装置还包括：更新模块35；
155.所述获取模块31，还被配置为执行获取所述目标来源的多条第一多媒体资源样本，所述第一多媒体资源样本包括第一类目；
156.所述更新模块35，被配置为执行采用所述多条第一多媒体资源样本，更新所述初始分类模型。
157.可选地，所述更新模块35，具体被配置为执行：
158.将第一类目相同的第一多媒体资源样本划分为一个类型样本集合；
159.对于每个类型样本集合包括的每条第一多媒体资源样本，均执行：将所述第一多媒体资源样本输入所述初始分类模型，得到所述第一多媒体资源样本对应的第二类目，将所述第一多媒体资源样本对应的第一类目和第二类目进行比较；
160.在每个类型样本集合中，统计第一类目和第二类目不同的第一多媒体资源样本的数量在该类型样本集合的总数中的占比；
161.将小于预设百分比的占比对应的类型样本集合增加至所述多条目标多媒体资源样本中；
162.采用增加了所述第一多媒体资源样本的所述多条目标多媒体资源样本，更新所述初始分类模型。
163.图8是根据一示例性实施例示出的一种服务器的结构框图，该服务器可以是多媒体资源分类模型构建装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器41和一个或一个以上的存储器42。其中，存储器42中存储有至少一条指令，至少一条指令由处理器41加载并执行以实现上述各个方法实施例提供的多媒体资源分类模型构建方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。
164.本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质
上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的多媒体资源分类模型构建方法。例如，计算机可读存储介质可以为包括指令的存储器42，上述指令可由服务器的处理器41执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。
165.本公开还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机设备执行上述所示实施例提供的多媒体资源分类模型构建方法。
166.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
167.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种指纹解锁方法、装置及电子设备与流程

多媒体资源分类模型构建方法、装置、服务器及存储介质与流程

相关文献

最热文献