一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种关键词的类目识别方法以及相关装置与流程

2021-10-29 20:40:00 来源:中国专利 TAG:类目 识别 装置 关键词 计算机


1.本技术涉及计算机技术领域,尤其涉及一种关键词的类目识别方法以及相关装置。


背景技术:

2.随着互联网技术的发展,越来越多的推荐信息出现在人们生活中,一般采用训练分类模型的方式对用户输入的关键词进行类目的划分,而为了保证分类模型的识别性能,需要对分类模型进行基于标注数据的训练过程。
3.具体的,可以在训练词库中随机采样关键词送给人工标注,标注时需要为关键词在所有候选类目中选择最合适的打上标记,数据标注后训练分类模型。
4.但是,由于关键词对应的类目非均匀分布,随机采样策略会导致标注的关键词集中在高频类目,而低频类目下的关键词数量较少甚至没有,影响用于分类模型训练的样本准确性,进而影响该分类模型对于关键词的类目识别的准确性。


技术实现要素:

5.有鉴于此,本技术提供一种关键词的类目识别方法,可以有效提高分类模型对于关键词的类目识别的准确性。
6.本技术第一方面提供一种关键词的类目识别方法,可以应用于终端设备中包含关键词的类目识别功能的系统或程序中,具体包括:
7.获取第一分类模型,所述第一分类模型基于第一标注数据对第一预设模型训练所得,所述第一标注数据基于对训练数据采样后标注所得,所述第一分类模型用于识别目标关键词的第一类目信息;
8.将所述训练数据输入所述第一分类模型,以得到第一分类结果;
9.对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;
10.根据所述第二标注数据对第二预设模型进行训练,以得到第二分类模型,所述第一分类模型中用于分类预测的第一标签的数量少于所述第二分类模型中用于分类预测的第二标签的数量,所述第一标签包含所述第一类目信息,所述第二标签包含第二类目信息;
11.将所述目标关键词输入所述第二分类模型进行识别,以得到所述第二类目信息,所述第二类目信息为所述第一类目信息的后代类目信息。
12.可选的,在本技术一些可能的实现方式中,所述对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据,包括:
13.将所述训练数据输入所述第二预设模型,以得到第二分类结果;
14.确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
15.基于所述识别重合项确定所述第一待标数据;
16.对所述第一待标数据进行样本扩展,以得到第二标注数据。
17.可选的,在本技术一些可能的实现方式中,所述基于所述识别重合项确定所述第一待标数据,包括:
18.确定所述识别重合项在所述第二类目信息上的特征值;
19.基于所述特征值对所述重合项进行排序,以得到识别重合序列;
20.根据所述重合序列确定所述第一待标数据。
21.可选的,在本技术一些可能的实现方式中,所述对所述第一待标数据进行样本扩展,以得到第二标注数据,包括:
22.获取所述第一分类结果中的所述第一待标数据对应的词条数;
23.若所述词条数小于第一阈值,则获取所述第一待标数据对应的后代节点的标记信息;
24.基于所述标记信息进行样本扩展,以得到所述第二标注数据。
25.可选的,在本技术一些可能的实现方式中,所述方法还包括:
26.若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
27.基于所述语义拓展工具确定近义数据;
28.根据所述近义数据进行样本扩展,以得到所述第二标注数据。
29.可选的,在本技术一些可能的实现方式中,所述根据所述近义数据进行样本扩展,以得到所述第二标注数据,包括:
30.基于所述近义数据对应的近义词确定种子词条;
31.将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第二标注数据。
32.可选的,在本技术一些可能的实现方式中,所述方法还包括:
33.将所述训练数据输入所述第二分类模型,以得到第三分类结果;
34.对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据;
35.根据所述第三标注数据对第三预设模型进行训练,以得到第三分类模型,所述第三分类模型用于识别所述目标关键词的第三类目信息,所述第三类目信息为所述第二类目信息的后代类目信息。
36.可选的,在本技术一些可能的实现方式中,所述对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据,包括:
37.获取目标平台中的类目消耗信息;
38.确定所述类目消耗信息与所述第二待标数据的交集,以得到第三待标数据;
39.基于所述第三待标数据进行样本扩展,以得到所述第三标注数据。
40.可选的,在本技术一些可能的实现方式中,所述对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据,包括:
41.将所述训练数据输入所述第二预设模型,以得到第二分类结果;
42.确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
43.基于所述识别重合项确定所述第二待标数据;
44.对所述第二待标数据进行样本扩展,以得到第三标注数据。
45.可选的,在本技术一些可能的实现方式中,所述基于所述识别重合项确定所述第二待标数据,包括:
46.确定所述识别重合项在所述第二类目信息上的特征值;
47.基于所述特征值对所述重合项进行排序,以得到识别重合序列;
48.根据所述重合序列确定所述第二待标数据。
49.可选的,在本技术一些可能的实现方式中,所述对所述第二待标数据进行样本扩展,以得到第三标注数据,包括:
50.获取所述第二待标数据对应的词条数;
51.若所述词条数小于第一阈值,则获取所述第二待标数据对应的后代节点的标记信息;
52.基于所述标记信息进行样本扩展,以得到所述第三标注数据。
53.可选的,在本技术一些可能的实现方式中,所述方法还包括:
54.若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
55.基于所述语义拓展工具确定近义数据;
56.根据所述近义数据进行样本扩展,以得到所述第三标注数据。
57.可选的,在本技术一些可能的实现方式中,所述根据所述近义数据进行样本扩展,以得到所述第三标注数据,包括:
58.基于所述近义数据对应的近义词确定种子词条;
59.将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第三标注数据。
60.可选的,在本技术一些可能的实现方式中,所述方法还包括:
61.确定所述第三分类结果中的词条粒度信息;
62.基于所述词条粒度信息确定目标粒度;
63.确定所述目标粒度对应的参考类目,所述参考类目用于指示所述目标粒度对应的类目的后代类目;
64.基于所述参考类目对所述第二待标数据进行更新。
65.可选的,在本技术一些可能的实现方式中,所述方法还包括:
66.将所述训练数据输入目标分类器,以得到目标分类结果;
67.基于所述目标分类结果对所述第三分类结果进行校验,以确定校验数据;
68.确定所述校验数据对应的词条得分;
69.根据所述词条得分确定目标词条,以对所述第二待标数据进行更新。
70.可选的,在本技术一些可能的实现方式中,所述第一待标数据中包含低频类目,所述第一类目信息为所述目标商品的一级类目,所述第二类目信息为所述目标商品的二级类目,所述一级类目中的低频类目的数量小于所述二级类目中的低频类目的数量。
71.本技术第二方面提供一种关键词的类目识别装置,包括:
72.获取单元,用于获取第一分类模型,所述第一分类模型基于第一标注数据对第一预设模型训练所得,所述第一标注数据基于对训练数据采样后标注所得,所述第一分类模型用于识别目标关键词的第一类目信息;
73.输入单元,用于将所述训练数据输入所述第一分类模型,以得到第一分类结果;
74.扩展单元,用于对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;
75.识别单元,用于根据所述第二标注数据对第二预设模型进行训练,以得到第二分类模型,所述第一分类模型中用于分类预测的第一标签的数量少于所述第二分类模型中用于分类预测的第二标签的数量,所述第一标签包含所述第一类目信息,所述第二标签包含第二类目信息;
76.所述识别单元,还用于将所述目标关键词输入所述第二分类模型进行识别,以得到所述第二类目信息,所述第二类目信息为所述第一类目信息的后代类目信息。
77.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于将所述训练数据输入所述第二预设模型,以得到第二分类结果;
78.所述扩展单元,具体用于确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
79.所述扩展单元,具体用于基于所述识别重合项确定所述第一待标数据;
80.所述扩展单元,具体用于对所述第一待标数据进行样本扩展,以得到第二标注数据。
81.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于确定所述识别重合项在所述第二类目信息上的特征值;
82.所述扩展单元,具体用于基于所述特征值对所述重合项进行排序,以得到识别重合序列;
83.所述扩展单元,具体用于根据所述重合序列确定所述第一待标数据。
84.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于获取所述第一分类结果中的所述第一待标数据对应的词条数;
85.所述扩展单元,具体用于若所述词条数小于第一阈值,则获取所述第一待标数据对应的后代节点的标记信息;
86.所述扩展单元,具体用于基于所述标记信息进行样本扩展,以得到所述第二标注数据。
87.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
88.所述扩展单元,具体用于基于所述语义拓展工具确定近义数据;
89.所述扩展单元,具体用于根据所述近义数据进行样本扩展,以得到所述第二标注数据。
90.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于基于所述近义数据对应的近义词确定种子词条;
91.所述扩展单元,具体用于将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第二标注数据。
92.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于将所述训练数据输入所述第二分类模型,以得到第三分类结果;
93.所述扩展单元,具体用于对所述第三分类结果中的第二待标数据进行样本扩展,
以得到第三标注数据;
94.所述扩展单元,具体用于根据所述第三标注数据对第三预设模型进行训练,以得到第三分类模型,所述第三分类模型用于识别所述目标关键词的第三类目信息,所述第三类目信息为所述第二类目信息的后代类目信息。
95.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于获取目标平台中的类目消耗信息;
96.所述扩展单元,具体用于确定所述类目消耗信息与所述第二待标数据的交集,以得到第三待标数据;
97.所述扩展单元,具体用于基于所述第三待标数据进行样本扩展,以得到所述第三标注数据。
98.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于将所述训练数据输入所述第二预设模型,以得到第二分类结果;
99.所述扩展单元,具体用于确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
100.所述扩展单元,具体用于基于所述识别重合项确定所述第二待标数据;
101.所述扩展单元,具体用于对所述第二待标数据进行样本扩展,以得到第三标注数据。
102.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于确定所述识别重合项在所述第二类目信息上的特征值;
103.所述扩展单元,具体用于基于所述特征值对所述重合项进行排序,以得到识别重合序列;
104.所述扩展单元,具体用于根据所述重合序列确定所述第二待标数据。
105.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于获取所述第二待标数据对应的词条数;
106.所述扩展单元,具体用于若所述词条数小于第一阈值,则获取所述第二待标数据对应的后代节点的标记信息;
107.所述扩展单元,具体用于基于所述标记信息进行样本扩展,以得到所述第三标注数据。
108.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
109.所述扩展单元,具体用于基于所述语义拓展工具确定近义数据;
110.所述扩展单元,具体用于根据所述近义数据进行样本扩展,以得到所述第三标注数据。
111.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于基于所述近义数据对应的近义词确定种子词条;
112.所述扩展单元,具体用于将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第三标注数据。
113.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于确定所述第三分类结果中的词条粒度信息;
114.所述扩展单元,具体用于基于所述词条粒度信息确定目标粒度;
115.所述扩展单元,具体用于确定所述目标粒度对应的参考类目,所述参考类目用于指示所述目标粒度对应的类目的后代类目;
116.所述扩展单元,具体用于基于所述参考类目对所述第二待标数据进行更新。
117.可选的,在本技术一些可能的实现方式中,所述扩展单元,具体用于将所述训练数据输入目标分类器,以得到目标分类结果;
118.所述扩展单元,具体用于基于所述目标分类结果对所述第三分类结果进行校验,以确定校验数据;
119.所述扩展单元,具体用于确定所述校验数据对应的词条得分;
120.所述扩展单元,具体用于根据所述词条得分确定目标词条,以对所述第二待标数据进行更新。
121.本技术第三方面提出一种广告数据的推送方法,包括:
122.响应于目标操作获取目标关键词;
123.基于第一方面或第一方面任一项所述关键词的类目识别方法对所述目标关键词进行识别,以得到目标类目信息;
124.根据所述目标类目信息确定关联商品,以推送所述关联商品对应的广告数据。
125.本技术第四方面提出一种广告数据的推送装置,包括:
126.获取单元,用于响应于目标操作获取目标关键词;
127.识别单元,用于基于第一方面或第一方面任一项所述关键词的类目识别方法对所述目标关键词进行识别,以得到目标类目信息;
128.推送单元,用于根据所述目标类目信息确定关联商品,以推送所述关联商品对应的广告数据。
129.本技术第五方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的关键词的类目识别方法,或上述第三方面所述的广告数据的推送方法。
130.本技术第六方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的关键词的类目识别方法,或上述第三方面所述的广告数据的推送方法。
131.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的关键词的类目识别方法,或上述第三方面所述的广告数据的推送方法。
132.从以上技术方案可以看出,本技术实施例具有以下优点:
133.通过获取第一分类模型,第一分类模型基于第一标注数据对第一预设模型训练所得,第一标注数据基于对训练数据采样后标注所得,第一分类模型用于识别目标关键词的第一类目信息;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;接下来根据第二标注数据对第
二预设模型进行训练,以得到第二分类模型,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息;进而将目标关键词输入第二分类模型进行识别,以得到第二类目信息,第二类目信息为第一类目信息的后代类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代类目模型输出结果的基础上逐步优化,即保证了后代模型训练数据的丰富程度,使得后代类目对应的关键词数量得到提升,提高了训练数据的有效性,提高了关键词的类目识别准确性。
附图说明
134.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
135.图1为关键词的类目识别系统运行的网络架构图;
136.图2为本技术实施例提供的一种关键词的类目识别的流程架构图;
137.图3为本技术实施例提供的一种关键词的类目识别方法的流程图;
138.图4为本技术实施例提供的一种关键词的类目识别方法的场景示意图;
139.图5为本技术实施例提供的另一种关键词的类目识别方法的场景示意图;
140.图6为本技术实施例提供的另一种关键词的类目识别方法的场景示意图;
141.图7为本技术实施例提供的另一种关键词的类目识别方法的流程图;
142.图8为本技术实施例提供的另一种关键词的类目识别方法的场景示意图;
143.图9为本技术实施例提供的一种广告数据的推荐方法的流程图;
144.图10为本技术实施例提供的另一种关键词的类目识别方法的场景示意图;
145.图11为本技术实施例提供的一种关键词的类目识别装置的结构示意图;
146.图12为本技术实施例提供的一种广告数据的推荐装置的结构示意图;
147.图13为本技术实施例提供的一种终端设备的结构示意图;
148.图14为本技术实施例提供的一种服务器的结构示意图。
具体实施方式
149.本技术实施例提供了一种关键词的类目识别方法以及相关装置,可以应用于终端设备中包含关键词的类目识别功能的系统或程序中,通过获取第一分类模型,第一分类模型基于第一标注数据对第一预设模型训练所得,第一标注数据基于对训练数据采样后标注所得,第一分类模型用于识别目标关键词的第一类目信息;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;接下来根据第二标注数据对第二预设模型进行训练,以得到第二分类模型,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息;进而将目标关键词输入第二分类模型进行识别,以得到第二类目信息,第二类目信息为第一类目信息的后代类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代
类目模型输出结果的基础上逐步优化,即保证了后代模型训练数据的丰富程度,使得后代类目对应的关键词数量得到提升,提高了训练数据的有效性,提高了关键词的类目识别准确性。
150.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
151.首先,对本技术实施例中可能出现的一些名词进行解释。
152.类目体系:一个树形的类目体系,树上结点为预定义的类目。
153.标注:人工将关键词打上最合适的、最细粒度的类目标签,比如关键词“淮北煤炭师范大学”应该标注为三级类目“教育
‑‑
学历教育
‑‑
普通高等教育”。
154.关键词分类模型:可以将关键词预测上合适类目的模型。模型需要在标注数据上训练后,才有预测能力。
155.低频类目:关键词映射上类目后,可以将类目下关键词数少于50的类目记为低频类目。大量的低频类目会影响关键词分类模型的效果。
156.应理解,本技术提供的关键词的类目识别方法可以应用于终端设备中包含关键词的类目识别功能的系统或程序中,例如互动剧,具体的,关键词的类目识别系统可以运行于如图1所示的网络架构中,如图1所示,是关键词的类目识别系统运行的网络架构图,如图可知,关键词的类目识别系统可以提供与多个信息源的关键词的类目识别过程,即通过终端侧的交互操作获取关键词,并在服务器对该关键词进行识别得到相关的类目信息,并进行相应类目的信息推送;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到关键词的类目识别的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,具体服务器数量因实际场景而定。
157.本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本技术在此不做限制。
158.可以理解的是,上述关键词的类目识别系统可以运行于个人移动终端,例如:作为互动剧这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供关键词的类目识别,以得到信息源的关键词的类目识别处理结果;具体的关键词的类目识别系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
159.随着互联网技术的发展,越来越多的推荐信息出现在人们生活中,一般采用训练分类模型的方式对用户输入的关键词进行类目的划分,其中可以应用到自然语言处理,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
160.类目识别即为自然语言处理的一种应用,而为了保证分类模型的识别性能,需要对分类模型进行基于标注数据的训练过程。
161.具体的,可以在训练词库中随机采样关键词送给人工标注,标注时需要为关键词在所有候选类目中选择最合适的打上标记,数据标注后训练分类模型。
162.但是,由于关键词对应的类目非均匀分布,随机采样策略会导致标注的关键词集中在高频类目,而低频类目下的关键词数量较少甚至没有,影响用于分类模型训练的样本准确性,进而影响该分类模型对于关键词的类目识别的准确性。
163.为了解决上述问题,本技术提出了一种关键词的类目识别方法,该方法应用于图2所示的关键词的类目识别的流程框架中,如图2所示,为本技术实施例提供的一种关键词的类目识别的流程架构图,用户通过界面层输入关键词,并输入服务器中的分类模型进行识别,该分类模型采用逐级迭代的方案,在上一层级(前代)的标注数据上训练模型,辅助指导下一层级(后代)的样本选取。逐级积累数据,同时完成模型在一二三级类目上的迭代优化;从而输出对应的类目识别结果,以供相关信息的推送。
164.可以理解的是,本技术所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种关键词的类目识别装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该关键词的类目识别装置通过获取第一分类模型,第一分类模型基于第一标注数据对第一预设模型训练所得,第一标注数据基于对训练数据采样后标注所得,第一分类模型用于识别目标关键词的第一类目信息;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;接下来根据第二标注数据对第二预设模型进行训练,以得到第二分类模型,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息;进而将目标关键词输入第二分类模型进行识别,以得到第二类目信息,第二类目信息为第一类目信息的后代类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代类目模型输出结果的基础上逐步优化,即保证了后代模型训练数据的丰富程度,使得后代类目对应的关键词数量得到提升,提高了训练数据的有效性,提高了关键词的类目识别准确性。
165.本技术实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
166.结合上述流程架构,下面将对本技术中关键词的类目识别方法进行介绍,请参阅图3,图3为本技术实施例提供的一种关键词的类目识别方法的流程图,该管理方法可以是由终端执行的,也可以是由服务器执行的,还可以是由终端与服务器共同执行的,本技术实
施例至少包括以下步骤:
167.301、获取第一分类模型。
168.本实施例中,第一分类模型为训练后的模型,即第一分类模型为基于第一标注数据对第一预设模型训练所得;其中,该第一标注数据基于对训练数据采样后标注所得,该第一标注数据即为第一分类模型的训练数据,其指示了关键词与类目的对应关系;另外,第一预设模型即为初始的用于分类得到第一类目信息的模型,相应的,第一分类模型用于识别目标关键词的第一类目信息。
169.具体的,对于类目的划分,即为对于数据描述程度的指示过程,如图4所示,图4为本技术实施例提供的一种关键词的类目识别方法的场景示意图,图中示出了关键词“abc大学”的一级类目“教育”,二级类目“教育

学历教育”,三级类目“教育

学历教育

普通高等教育”,在本技术中第一类目信息即可以为一级类目,而第二类目信息即可以为二级类目,依次类推,具体的类目数量因实际场景而定。
170.可以理解的是,本实施例对于相邻类目之间的分类模型的训练过程进行说明,即为逐级迭代训练的过程;具体在实际场景中可以是两个类目对应的分类模型之间的训练过程,也可以是三个类目对应的分类模型之间的训练过程,还可以是更多个类目对应的分类模型之间的训练过程,具体数量因实际场景而定,下述实施例以两个类目对应的分类模型之间的训练过程进行说明,而在实际场景中可以应用到任意数量的类目场景中。
171.在一种可能的场景中,对于第一标注数据的获取可以是采用随机采样方案,在词库(训练数据)中随机采样了一批关键词后,推送给人工标注所得。具体的,在标注数据上,可以将关键词标注类目依次回溯到一级、二级、三级类目上。比如关键词“淮北煤炭师范大学”标注为三级类目“教育
‑‑
学历教育
‑‑
普通高等教育”,回溯的二级类目为”教育
‑‑
学历教育”,回溯的一级类目为“教育”。类目统计结果如下表:在一二三级类目上,低频类目占比依次为5.56%、47.66%、64.65%。
172.为了提高分类模型的性能,即分类模型可以将关键词预测上合适的类目。而模型需要在标注数据上训练后,才有预测能力。所以性能好的分类模型依赖于充足的标注数据。由于现有标注数据中,二三级类目的低频类目占比较高,很多类目下的关键词数量太少。这导致无法直接训练三级类目模型。但是一级类目中只有一个为低频类目,拿现有数据直接训练一级模型是可行的。
173.因此,本技术采用逐级迭代方案,即在上一层级的标注数据上训练模型,辅助指导下一层级的样本选取。逐级积累数据,同时完成模型在一二级类目或一二三级类目上的迭代优化。
174.具体的,对于图5所示的场景,图5为本技术实施例提供的一种关键词的类目识别方法的场景示意图,图中示出了一二级类目的逐级迭代训练过程,即先用随机采样策略在词库上选取关键词样本进行人工标注一级类目,进而训练得到一级分类模型;一级模型指导样本选取,人工标注二级类目,进而训练得到二级分类模型。
175.相应的,对于一二三级类目的逐级迭代训练过程,可以先用随机采样策略在词库上选取关键词样本进行人工标注一级类目,进而训练得到一级分类模型;一级模型指导样本选取,人工标注二级类目,进而训练得到二级分类模型;二级模型指导样本选取,人工标注三级类目,进而训练得到三级分类模型。
176.302、将训练数据输入第一分类模型,以得到第一分类结果。
177.本实施例中,第一分类结果即为上述逐级迭代训练过程中一级模型指导样本选取的过程,即第一分类结果中的低频类目少,相较于从训练数据选取第二分类模型的训练数据,可以在第一分类结果指示的一级类目下,进行样本选取的过程。
178.303、对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据。
179.本实施例中,通过步骤302在第一分类结果的基础上进行样本提取,可以得到第一待标数据,即在第一待标数据中包含了低频类目,故需要对这些低频类目进行关键词的扩展,即样本扩展。
180.可以理解的是,对于第二标注数据的生成包含了样本扩展与样本标注的过程,即首先扩展第一待标数据的范围,然后进行人工标注对应的类型,从而得到第二标注数据。
181.具体的,样本扩展的过程可以通过两级模型校验所得,这是由于将已有的标注数据回溯到一级类目上,低频类目占比非常低,可以训练得到一个高质量的一级分类模型。将已有标注数据回溯到二级类目上,低频类目占比较高,可以训练得到一个低质量的二级分类模型;而使用两个分类模型依次在词库上完成预测后。对于关键词而言,一级模型预测得到一级类目,二级模型预测得到二级类目。由于二级非低频类目的标注关键词多,故二级模型预测二级非低频类目的能力较强,得分较高。
182.因此,可以首先将训练数据输入第二预设模型,以得到第二分类结果;然后确定第二分类结果和第一分类结果在第一类目信息上的识别重合项;并基于识别重合项确定第一待标数据;进而对第一待标数据进行样本扩展,以得到第二标注数据。其中,第一待标数据的确定可以是重合项中得分低的项,从而来指示低频类目。
183.可选的,为了便于重合项中特征值(得分)的比较,可以首先确定识别重合项在第二类目信息上的特征值;然后基于特征值对重合项进行排序,以得到识别重合序列;进而根据重合序列确定第一待标数据。例如排序规则为取出一级、二级模型预测结果一致(在一级类目上)的词条,按二级模型得分从小到大排序。排在前面的词条一级类目正确(因为两个模型校验结果一致)、二级类目错误(因为这些词条二级模型预测得分低)的概率较大,故在这些词条中采样生成第一待标数据,该第一待标数据分布在低频类目下的可能性更大。
184.另外,对于样本扩展的过程还可以通过语义扩展进行,即进行近义词的扩展。具体的,为了保证近义词的有效性,可以采用不同程度的语义扩展过程,即对于不同的词条缺乏程度进行不同的语义扩展策略。对于词条缺乏程度较高的场景,可以首先获取第一分类结果中的第一待标数据对应的词条数;若词条数小于第一阈值,则获取第一待标数据对应的后代节点的标记信息;进而基于标记信息进行样本扩展,以得到第二标注数据。例如对于词条数<3(第一阈值)的类目,使用关键标记信息(token)补全至3个词条;token的来源为低频类目的后代结点与类目体系中备注的标注规范。比如:“家居
‑‑
清洁用品”是低频二级类目,它的后代结点有“纸品湿巾”和“驱虫灭鼠”,其中结点“驱虫灭鼠”在类目体系中备注的标注规范为“驱蚊、驱虫、杀蟑、灭鼠用品”,即基于“驱蚊、驱虫、杀蟑、灭鼠用品”进行样本扩展,从而在保证样本有效的同时,减少低频类目的生成。
185.进一步的,对于词条缺乏程度一般的场景,可以检测若词条数小于第二阈值,则调用语义拓展工具,第二阈值大于第一阈值;然后基于语义拓展工具确定近义数据;进而根据近义数据进行样本扩展,以得到第二标注数据。例如对于词条数<10(第二阈值)的类目,使
用语义扩展工具(tagex)自动推荐补全至10个词条;具体的,tagex的使用方法为输入一个词,输出词库中与其语义相近的前k个词。
186.可选的,对于语义扩展工具的使用可以是多次,即基于近义数据对应的近义词确定种子词条;然后将种子词条输入语义拓展工具进行样本扩展,以得到第二标注数据。例如将每个类目下的10个种子词条再次进行tagex推荐补全至100个词条,作为第一待标数据。从而进一步的增加了样本的数量,减少低频类目的生成。
187.在另一种可能的场景中,对于第一待标数据的扩展过程还可以采用更大数据量的扩展过程。例如三级类目的场景中,可以将训练数据输入第二分类模型,以得到第三分类结果;然后对第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据;进而根据第三标注数据对第三预设模型进行训练,以得到第三分类模型,第三分类模型用于识别目标关键词的第三类目信息,第三类目信息为第二类目信息的后代类目信息。
188.具体的,对于两级模型校验的过程,可以是与目标平台中的数据进行比对,例如广告平台的消耗,即广告的点击率;具体的,可以首先获取目标平台中的类目消耗信息;然后确定类目消耗信息与第二待标数据的交集,以得到第三待标数据;进而基于第三待标数据进行样本扩展,以得到第三标注数据。具体的,对词条数<3或10的类目,可以可以利用tagex进行2次或者1次扩展生产补标数据,即采用上述实施例中语义扩展的过程。进一步的,由于三级的低频类目过多,可以优先生产重要的类目。故可以将类目按广告消耗排序,和低频类目做交集,得到94个低频类目。优先对着94个三级低频类目做语义扩展策略。
189.可选的,样本的扩展还可以是对粗粒度样本的重标,即确定第三分类结果中的词条粒度信息;然后基于词条粒度信息确定目标粒度;并确定目标粒度对应的参考类目,参考类目用于指示目标粒度对应的类目的后代类目;进而基于参考类目对第二待标数据进行更新。这是由于整理历史标注数据中有6千词条最初只标注到二级类目,需要将这些粗粒度词条重新标注到最细粒度。发布标注任务,让标注相关人员选择已有二级类目下的三级类目。
190.可以理解的是,前面所有策略选取的关键词样本,在人工标注过程中,可以会提供类目(模型预测得到或者语义扩展时提供)供参考。如此,可以将人工标注时的候选类目由整棵类目树缩小到含有参考类目的子树上,进而解决人工标注效率低效。因此粗粒度词条重标策略则更加高效,由于上述6千词条的二级类目本就是之前人工标注的,所以在进行三级类目标注时,参考的二级类目可以认为就是准确的。
191.可选的,样本的扩展还可以是不同的分类器的校验,即第三方分类器的校验。具体的,首先将训练数据输入目标分类器(第三方分类器),以得到目标分类结果;然后基于目标分类结果对第三分类结果进行校验,以确定校验数据;然后确定校验数据对应的词条得分;进而根据词条得分确定目标词条,以对第二待标数据进行更新。例如利用高质量的文章分类器(目标分类器),在词库上完成预测;在关键词分类任务中,可以也获得了高质量的二级分类器,在词库上完成预测;然后在文章分类器预测结果中,过滤得到三级低频类目词条,再取出与关键词分类器结果一致(在二级类目上)的词条。显然经过两种分类器的校验,这些词条在二级类目上大概率是正确的。进一步的在每个类目下,取出文章分类器得分前50%的词条(至多100个)。发布标注任务:让标注相关人员仅判断当前词条的候选三级类目是否正确,标注更加高效。
192.可以理解的是,上述对于三级类目的样本扩展过程也可以应用到二级类目的样本
扩展过程中,二级类目的样本扩展过程也可以应用到三级类目的样本扩展过程中,具体的扩展过程因实际场景而定,此处不做限定。
193.304、根据第二标注数据对第二预设模型进行训练,以得到第二分类模型。
194.本实施例中,第二标注数据中的低频类目经过步骤303的扩展并标注后大大减少,且第二标注数据中的类目是基于第一分类模型的输出基础上标注而得,保证了样本的准确性。
195.具体的,第一分类模型和第二分类模型可以均使用的相同关键词分类模型,但是,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息,例如第一标签的数量是18,第二标签的数量是214,故本技术中的可以理解为是同一个模型基于不同训练数据训练得到的。
196.在一种可能的场景中,第一分类模型和第二分类模型对应的关键词分类模型可以参见如图6所示的场景架构,图6为本技术实施例提供的一种关键词的类目识别方法的场景示意图,图中示出了关键词分类模型可以包括表示层、转换层以及预测层;其中,表示层可以采用bert学习关键词的向量表示,关键词的表示是bert最后一层的cls向量;转换层可以采用神经网络模块(如mlp、cnn、层次分类模型hmcn等)将关键词的表示进行转换,得到向量表示(embedding);而预测层用于将关键词embedding利用一层全连接层映射到标签(num_label)维度,进行分类预测,其中,由于一级类目、二级类目个数分别为18和214,所以第一分类模型的预测层中num_label为18,第二分类模型的预测层中num_label为214,即第一分类模型与第二分类模型在预测层中标签数的配置不同,由于第二分类模型为第一分类模型的细化分类模型,故标签数更多,且第二标签可以是由第一标签衍生关联所得。
197.可选的,第一分类模型和第二分类模型也可以使用不同的关键词分类模型,例如第一分类模型采用表示层(bert) 转换层(mlp) 预测层(18个预设标签),第二分类模型采用表示层(bert) 转换层(cnn) 预测层(214个预设标签),具体的层级模型因实际场景而定,此处不做限定。
198.305、将目标关键词输入第二分类模型进行识别,以得到第二类目信息。
199.本实施例中,第二分类模型用于识别目标关键词的第二类目信息,第二类目信息为第一类目信息的后代类目信息。其中,第一分类模型和第二分类模型可以是同一分类模型里面的不同分支,也可以是相互独立的分类模型,具体的关联形式因实际场景而定,此处不做限定。
200.在一种可能的场景中,采用可以提出的逐级迭代指导样本选取选取策略后,标注效率显著提升,标注数据积累迅速。标注数据数量由46,311提升为183,604,增幅296.45%。另外,采用逐级迭代方案后,一二三级类目的低频类目占比显著下降。如下表1所示,为本技术实施例方法的效果改进,其中示出了一级低频类目从5.56%降为0,二级低频类目从47.66%降为17.76%,三级低频类目从64.65%降为35.35%。
201.表1本技术实施例方法的效果改进
[0202][0203]
结合上述实施例可知,通过获取第一分类模型,第一分类模型基于第一标注数据对第一预设模型训练所得,第一标注数据基于对训练数据采样后标注所得,第一分类模型用于识别目标关键词的第一类目信息;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;接下来根据第二标注数据对第二预设模型进行训练,以得到第二分类模型,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息;进而将目标关键词输入第二分类模型进行识别,以得到第二类目信息,第二类目信息为第一类目信息的后代类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代类目模型输出结果的基础上逐步优化,即保证了后代模型训练数据的丰富程度,使得后代类目对应的关键词数量得到提升,提高了训练数据的有效性,提高了关键词的类目识别准确性。
[0204]
上述实施例介绍了二级类目以及多级类目的识别过程,而在不同类目的识别过程中可以进行不同程度的数据扩展,下面对该场景进行说明。请参阅图7,图7为本技术实施例提供的一种关键词的类目识别方法的流程图,本技术实施例至少包括以下步骤:
[0205]
701、获取第一分类模型。
[0206]
702、将训练数据输入第一分类模型,以得到第一分类结果。
[0207]
703、对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据。
[0208]
704、根据第二标注数据对第二预设模型进行训练,以得到第二分类模型。
[0209]
本实施例中,步骤701

704的过程与图3所示实施例步骤301

305的过程相似,相关特征可以进行参考,此处不做赘述。
[0210]
705、逐级调整扩展参数,以确定后代标注数据。
[0211]
本实施例中,由于低频类目的数量随着类目级数的推进逐渐增加,故可以针对不同的类目级数采用不同的样本扩展策略,从而确定对应的后代标注数据,以保证训练样本的准确性。
[0212]
具体的,对于扩展参数指示低频类目大于第三阈值的情况,可以采用图3所示实施例步骤303中二级类目的样本扩展过程,例如低频类目大于100,则采用两级模型校验策略和语义扩展策略,具体策略过程参见图3所示实施例步骤303的相关描述,此处不做赘述。
[0213]
另外,对于扩展参数指示低频类目小于第三阈值的情况,可以采用图3所示实施例步骤303中三级类目的样本扩展过程,例如低频类目大于200,则采用粗粒度词条重标策略
和目标分类器校验策略,具体策略过程参见图3所示实施例步骤303的相关描述,此处不做赘述。
[0214]
706、基于后代标注数据训练对应的后代分类模型。
[0215]
本实施例中,基于步骤705中确定的对应的样本扩展策略,进行后代标注数据的生成,并进行标注,从而对对应的后代分类模型进行训练,保证了分类模型的识别准确性。
[0216]
可以理解的是,对于各个后代分类模型中预测标签数的设定为逐级增加的,从而符合分级标签的特性。
[0217]
在一种可能的场景中,如图8所示,图8为本技术实施例提供的另一种关键词的类目识别方法的场景示意图,图中示出了对于一二三级类目的逐级迭代训练过程,可以先用随机采样策略在词库上选取关键词样本进行人工标注一级类目,进而训练得到一级分类模型;一级模型采用两级模型校验策略和语义扩展策略指导样本选取,人工标注二级类目,进而训练得到二级分类模型;二级模型采用粗粒度词条重标策略和目标分类器校验策略指导样本选取,人工标注三级类目,进而训练得到三级分类模型。从而实现了一二三级类目的逐级迭代训练过程,保证了关键词一二三级类目识别的准确性。
[0218]
上述实施例介绍了互动视频之间的切换过程,而在切换过程中可以通过全局界面对所有的互动视频进行展示,下面对该场景进行说明。请参阅图9,图9为本技术实施例提供的一种广告数据的推荐方法的流程图,本技术实施例至少包括以下步骤:
[0219]
901、响应于目标操作获取目标关键词。
[0220]
本实施例中,目标操作可以是用户对于搜索相关内容的输入操作,如图10所示,图10为本技术实施例提供的另一种关键词的类目识别方法的场景示意图;图中通过在输入框a1输入关键词a,进而触发服务器进行类目识别,类目词条扩展,以及推荐数据的过程,从而在界面中展示关联内容a2。
[0221]
902、对目标关键词进行识别,以得到目标类目信息。
[0222]
本实施例中,对目标关键词进行识别的过程采用图3或图7实施例所示的识别方法,此处不做赘述。
[0223]
903、根据目标类目信息确定关联商品,以推送关联商品对应的广告数据。
[0224]
本实施例中,通过对于目标关键词的识别,可以得到用户当前想搜索的商品类目,可以基于商品类目提取对应的关联关键词,从而得到关联商品对应的广告数据,进而对用户进行推送,保证了推送内容与用户输入内容的强关联性,提升了用户体验,且提高了用户的搜索效率。
[0225]
为了更好的实施本技术实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图11,图11为本技术实施例提供的一种关键词的类目识别装置的结构示意图,关键词的类目识别装置1100包括:
[0226]
获取单元1101,用于获取第一分类模型,所述第一分类模型基于第一标注数据对第一预设模型训练所得,所述第一标注数据基于对训练数据采样后标注所得,所述第一分类模型用于识别目标关键词的第一类目信息;
[0227]
输入单元1102,用于将所述训练数据输入所述第一分类模型,以得到第一分类结果;
[0228]
扩展单元1103,用于对所述第一分类结果中的第一待标数据进行样本扩展,以得
到第二标注数据;
[0229]
识别单元1104,用于根据所述第二标注数据对第二预设模型进行训练,以得到第二分类模型,所述第一分类模型中用于分类预测的第一标签的数量少于所述第二分类模型中用于分类预测的第二标签的数量,所述第一标签包含所述第一类目信息,所述第二标签包含第二类目信息;
[0230]
所述识别单元1104,还用于将所述目标关键词输入所述第二分类模型进行识别,以得到所述第二类目信息,所述第二类目信息为所述第一类目信息的后代类目信息。
[0231]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于将所述训练数据输入所述第二预设模型,以得到第二分类结果;
[0232]
所述扩展单元1103,具体用于确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
[0233]
所述扩展单元1103,具体用于基于所述识别重合项确定所述第一待标数据;
[0234]
所述扩展单元1103,具体用于对所述第一待标数据进行样本扩展,以得到第二标注数据。
[0235]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于确定所述识别重合项在所述第二类目信息上的特征值;
[0236]
所述扩展单元1103,具体用于基于所述特征值对所述重合项进行排序,以得到识别重合序列;
[0237]
所述扩展单元1103,具体用于根据所述重合序列确定所述第一待标数据。
[0238]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于获取所述第一分类结果中的所述第一待标数据对应的词条数;
[0239]
所述扩展单元1103,具体用于若所述词条数小于第一阈值,则获取所述第一待标数据对应的后代节点的标记信息;
[0240]
所述扩展单元1103,具体用于基于所述标记信息进行样本扩展,以得到所述第二标注数据。
[0241]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
[0242]
所述扩展单元1103,具体用于基于所述语义拓展工具确定近义数据;
[0243]
所述扩展单元1103,具体用于根据所述近义数据进行样本扩展,以得到所述第二标注数据。
[0244]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于基于所述近义数据对应的近义词确定种子词条;
[0245]
所述扩展单元1103,具体用于将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第二标注数据。
[0246]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于将所述训练数据输入所述第二分类模型,以得到第三分类结果;
[0247]
所述扩展单元1103,具体用于对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据;
[0248]
所述扩展单元1103,具体用于根据所述第三标注数据对第三预设模型进行训练,
以得到第三分类模型,所述第三分类模型用于识别所述目标关键词的第三类目信息,所述第三类目信息为所述第二类目信息的后代类目信息。
[0249]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于获取目标平台中的类目消耗信息;
[0250]
所述扩展单元1103,具体用于确定所述类目消耗信息与所述第二待标数据的交集,以得到第三待标数据;
[0251]
所述扩展单元1103,具体用于基于所述第三待标数据进行样本扩展,以得到所述第三标注数据。
[0252]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于将所述训练数据输入所述第二预设模型,以得到第二分类结果;
[0253]
所述扩展单元1103,具体用于确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;
[0254]
所述扩展单元1103,具体用于基于所述识别重合项确定所述第二待标数据;
[0255]
所述扩展单元1103,具体用于对所述第二待标数据进行样本扩展,以得到第三标注数据。
[0256]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于确定所述识别重合项在所述第二类目信息上的特征值;
[0257]
所述扩展单元1103,具体用于基于所述特征值对所述重合项进行排序,以得到识别重合序列;
[0258]
所述扩展单元1103,具体用于根据所述重合序列确定所述第二待标数据。
[0259]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于获取所述第二待标数据对应的词条数;
[0260]
所述扩展单元1103,具体用于若所述词条数小于第一阈值,则获取所述第二待标数据对应的后代节点的标记信息;
[0261]
所述扩展单元1103,具体用于基于所述标记信息进行样本扩展,以得到所述第三标注数据。
[0262]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;
[0263]
所述扩展单元1103,具体用于基于所述语义拓展工具确定近义数据;
[0264]
所述扩展单元1103,具体用于根据所述近义数据进行样本扩展,以得到所述第三标注数据。
[0265]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于基于所述近义数据对应的近义词确定种子词条;
[0266]
所述扩展单元1103,具体用于将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第三标注数据。
[0267]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于确定所述第三分类结果中的词条粒度信息;
[0268]
所述扩展单元1103,具体用于基于所述词条粒度信息确定目标粒度;
[0269]
所述扩展单元1103,具体用于确定所述目标粒度对应的参考类目,所述参考类目
用于指示所述目标粒度对应的类目的后代类目;
[0270]
所述扩展单元1103,具体用于基于所述参考类目对所述第二待标数据进行更新。
[0271]
可选的,在本技术一些可能的实现方式中,所述扩展单元1103,具体用于将所述训练数据输入目标分类器,以得到目标分类结果;
[0272]
所述扩展单元1103,具体用于基于所述目标分类结果对所述第三分类结果进行校验,以确定校验数据;
[0273]
所述扩展单元1103,具体用于确定所述校验数据对应的词条得分;
[0274]
所述扩展单元1103,具体用于根据所述词条得分确定目标词条,以对所述第二待标数据进行更新。
[0275]
通过获取第一分类模型,第一分类模型基于第一标注数据对第一预设模型训练所得,第一标注数据基于对训练数据采样后标注所得,第一分类模型用于识别目标关键词的第一类目信息;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;接下来根据第二标注数据对第二预设模型进行训练,以得到第二分类模型,第一分类模型中用于分类预测的第一标签的数量少于第二分类模型中用于分类预测的第二标签的数量,第一标签包含第一类目信息,第二标签包含第二类目信息;进而将目标关键词输入第二分类模型进行识别,以得到第二类目信息,第二类目信息为第一类目信息的后代类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代类目模型输出结果的基础上逐步优化,即保证了后代模型训练数据的丰富程度,使得后代类目对应的关键词数量得到提升,提高了训练数据的有效性,提高了关键词的类目识别准确性。
[0276]
本技术实施例还提供一种广告数据的推送装置,请参阅图12,图12为本技术实施例提供的一种关键词的类目识别装置的结构示意图,推送装置1200包括:
[0277]
获取单元1201,用于响应于目标操作获取目标关键词;
[0278]
识别单元1202,用于基于第一方面或第一方面任一项所述关键词的类目识别方法对所述目标关键词进行识别,以得到目标类目信息;
[0279]
推送单元1203,用于根据所述目标类目信息确定关联商品,以推送所述关联商品对应的广告数据。
[0280]
本技术实施例还提供了一种终端设备,如图13所示,是本技术实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本技术实施例相关的部分,具体技术细节未揭示的,请参照本技术实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,pda)、销售终端(point of sales,pos)、车载电脑等任意终端设备,以终端为手机为例:
[0281]
图13示出的是与本技术实施例提供的终端相关的手机的部分结构的框图。参考图13,手机包括:射频(radio frequency,rf)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity,wifi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解,图13中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0282]
下面结合图13对手机的各个构成部件进行具体的介绍:
[0283]
rf电路1310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1380处理;另外,将设计上行的数据发送给基站。通常,rf电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,lna)、双工器等。此外,rf电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(global system of mobile communication,gsm)、通用分组无线服务(general packet radio service,gprs)、码分多址(code division multiple access,cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution,lte)、电子邮件、短消息服务(short messaging service,sms)等。
[0284]
存储器1320可用于存储软件程序以及模块,处理器1380通过运行存储在存储器1320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0285]
输入单元1330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作,以及在触控面板1331上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331,输入单元1330还可以包括其他输入设备1332。具体地,其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0286]
显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341,可选的,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light

emitting diode,oled)等形式来配置显示面板1341。进一步的,触控面板1331可覆盖显示面板1341,当触控面板1331检测到在其上或附近的触摸操作后,传送给处理器1380以确定触摸事件的类型,随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中,触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。
[0287]
手机还可包括至少一种传感器1350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板
1341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等:至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0288]
音频电路1360、扬声器1361,传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出;另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出处理器1380处理后,经rf电路1310以发送给比如另一手机,或者将音频数据输出至存储器1320以便进一步处理。
[0289]
wifi属于短距离无线传输技术,手机通过wifi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图13示出了wifi模块1370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0290]
处理器1380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1320内的软件程序和/或模块,以及调用存储在存储器1320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1380可包括一个或多个处理单元;可选的,处理器1380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1380中。
[0291]
手机还包括给各个部件供电的电源1390(比如电池),可选的,电源可以通过电源管理系统与处理器1380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0292]
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0293]
在本技术实施例中,该终端所包括的处理器1380还具有执行如上述页面处理方法的各个步骤的功能。
[0294]
本技术实施例还提供了一种服务器,请参阅图14,图14是本技术实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
[0295]
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0296]
上述实施例中由管理装置所执行的步骤可以基于该图14所示的服务器结构。
[0297]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有关键词的类目识别指令,当其在计算机上运行时,使得计算机执行如前述图3至图10所示
实施例描述的方法中关键词的类目识别装置所执行的步骤。
[0298]
本技术实施例中还提供一种包括关键词的类目识别指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图10所示实施例描述的方法中关键词的类目识别装置所执行的步骤。
[0299]
本技术实施例还提供了一种关键词的类目识别系统,所述关键词的类目识别系统可以包含图11所描述实施例中的关键词的类目识别装置,或图12所描述实施例中的广告数据的推荐装置,或图13所描述实施例中的终端设备,或者图14所描述的服务器。
[0300]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0301]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0302]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0303]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0304]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,关键词的类目识别装置,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0305]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜