一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

标签挖掘方法、装置及电子设备与流程

2022-02-20 19:38:27 来源:中国专利 TAG:


1.本公开涉及数据分析技术领域,尤其涉及一种标签挖掘方法、装置及电子设备。


背景技术:

2.在数据分析和用户运营等领域,经常需要根据实际业务需要,给用户添加业务属性的标签,比如,为用户添加“有车”、“有房”等标签,以供分析、运营和营销活动时对用户进行筛选,以锁定高转化目标人群,实现精准营销。
3.相关技术中,一般根据单个用户的特征信息,例如年龄、性别、职业、应用使用记录等人工来确定业务所需的该用户的用户标签,这种人工确定用户标签的方式浪费了大量的人力成本,且效率低。


技术实现要素:

4.本公开提供一种标签挖掘方法、装置及电子设备,以至少解决相关技术中的根据单个用户的特征信息,人工来确定业务所需的该用户的用户标签的方法,浪费了大量的人力成本,且效率低的问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种标签挖掘方法,包括:获取挖掘需求,其中,所述挖掘需求包括需求关键词;根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,其中,所述样本数据库中的样本包括对象,以及对象的特征信息;根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型;以及根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息,其中,所述待挖掘对象为待确定是否有所述挖掘需求的对象。
6.在一种可能的实现形式中,所述根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,包括:根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征;根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合;以及根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
7.在另一种可能的实现形式中,在所述根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合之后,包括:获取所述正样本集合中各个特征的出现次数;根据所述正样本集合中各个特征的出现次数确定待过滤特征;删除所述正样本集合的每个样本中的所述待过滤特征。
8.在另一种可能的实现形式中,当特征满足以下条件时,判断为所述待过滤特征:对应的出现次数小于预设次数阈值,且为非第一特征;和/或,对应的出现次数的排序序号小于预设序号阈值,且为非第一特征。
9.在另一种可能的实现形式中,所述根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合,包括:获取所述样本数据库中在第一预设时间段内处于活跃状态的活跃样本;以及根据所述活跃样本中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
10.在另一种可能的实现形式中,所述根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型,包括:根据所述挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型;以及根据所述挖掘需求对应的正样本集合和负样本集合,对所述初始标签挖掘模型进行训练,以得到所述挖掘需求对应的标签挖掘模型。
11.在另一种可能的实现形式中,所述待挖掘对象的数量为多个,其中,所述根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息,包括:根据所述挖掘需求对应的标签挖掘模型以及多个待挖掘对象的特征信息,获取所述多个待挖掘对象的标签挖掘结果,其中,所述标签挖掘结果包括与所述挖掘需求对应的标签的分数信息;按照所述标签的分数信息对所述多个待挖掘对象进行排序,得到排序结果;获取所述排序结果中排序在前的预设数量的第一待挖掘对象;将所述第一待挖掘对象的标签信息,确定为与所述挖掘需求对应的标签。
12.在另一种可能的实现形式中,所述待挖掘对象为第二预设时间段内处于活跃状态的对象。
13.在另一种可能的实现形式中,在所述根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息之后,还包括:将所述待挖掘对象以及所述待挖掘对象的标签信息,存储至标签数据库中。
14.在另一种可能的实现形式中,所述待挖掘对象的数量为多个,其中,在所述根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息之后,还包括:针对所述标签信息中与所述挖掘需求对应的标签,获取与所述标签对应的待投放广告;向具有所述标签的每个待挖掘对象投放所述待投放广告,并获取所述待投放广告的投放指标;将所述待投放广告的投放指标,确定为所述标签挖掘模型的挖掘效果参数;如果根据所述标签挖掘模型的挖掘效果参数确定所述标签挖掘模型不符合预期条件,则对所述标签挖掘模型进行优化处理。
15.在另一种可能的实现形式中,所述投放指标包括以下指标中的任意一种或者多种:点击通过率、转化率和投资回报率。
16.在另一种可能的实现形式中,所述对所述标签挖掘模型进行优化处理,包括:通过以下步骤之中的一项或多项重新生成所述挖掘需求对应的标签挖掘模型:对与所述需求关键词匹配的第一特征进行调整;对所述标签挖掘模型的类型进行调整;对所述正样本集合和所述负样本集合中样本的特征信息进行调整。
17.在另一种可能的实现形式中,所述标签挖掘模型的数量为多个,其中,在所述根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息之后,还包括:在符合所述预期条件的标签挖掘模型为多个时,获取每个所述标签挖掘模型在第三预设时间段内的挖掘效果参数;根据每
个所述标签挖掘模型在第三预设时间段内的挖掘效果参数,确定待去除的标签挖掘模型;以及去除所述待去除的标签挖掘模型。
18.根据本公开实施例的第二方面,提供一种标签挖掘装置,包括:第一获取模块,被配置为获取挖掘需求,其中,所述挖掘需求包括需求关键词;第二获取模块,被配置为根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,其中,所述样本数据库中的样本包括对象,以及对象的特征信息;生成模块,被配置为根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型;以及挖掘模块,被配置为根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息,其中,所述待挖掘对象为待确定是否有所述挖掘需求的对象。
19.在一种可能的实现形式中,所述第二获取模块,包括:第一获取单元,被配置为根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征;第一生成单元,被配置为根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合;以及第二生成单元,被配置为根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
20.在另一种可能的实现形式中,所述第二获取模块,还包括:第二获取单元,被配置为获取所述正样本集合中各个特征的出现次数;第一确定单元,被配置为根据所述正样本集合中各个特征的出现次数确定待过滤特征;第一处理单元,被配置为删除所述正样本集合的每个样本中的所述待过滤特征。
21.在另一种可能的实现形式中,所述第一确定单元,具体被配置为当特征满足以下条件时,判断为所述待过滤特征:对应的出现次数小于预设次数阈值,且为非第一特征;和/或,对应的出现次数的排序序号小于预设序号阈值,且为非第一特征。
22.在另一种可能的实现形式中,所述第二生成单元,具体被配置为:获取所述样本数据库中在第一预设时间段内处于活跃状态的活跃样本;以及根据所述活跃样本中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
23.在另一种可能的实现形式中,所述生成模块,包括:选择单元,被配置为根据所述挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型;以及训练单元,被配置为根据所述挖掘需求对应的正样本集合和负样本集合,对所述初始标签挖掘模型进行训练,以得到所述挖掘需求对应的标签挖掘模型。
24.在另一种可能的实现形式中,所述待挖掘对象的数量为多个,其中,所述挖掘模块,包括:第三获取单元,被配置为根据所述挖掘需求对应的标签挖掘模型以及多个待挖掘对象的特征信息,获取所述多个待挖掘对象的标签挖掘结果,其中,所述标签挖掘结果包括与所述挖掘需求对应的标签的分数信息;第二处理单元,被配置为按照所述标签的分数信息对所述多个待挖掘对象进行排序,得到排序结果;第四获取单元,被配置为获取所述排序结果中排序在前的预设数量的第一待挖掘对象;第二确定单元,被配置为将所述第一待挖掘对象的标签信息,确定为与所述挖掘需求对应的标签。
25.在另一种可能的实现形式中,所述待挖掘对象为第二预设时间段内处于活跃状态的对象。
26.在另一种可能的实现形式中,所述装置还包括:存储模块,被配置为将所述待挖掘对象以及所述待挖掘对象的标签信息,存储至标签数据库中。
27.在另一种可能的实现形式中,所述待挖掘对象的数量为多个,所述装置还包括:第三获取模块,被配置为针对所述标签信息中与所述挖掘需求对应的标签,获取与所述标签对应的待投放广告;第四获取模块,被配置为向具有所述标签的每个待挖掘对象投放所述待投放广告,并获取所述待投放广告的投放指标;第一确定模块,被配置为将所述待投放广告的投放指标,确定为所述标签挖掘模型的挖掘效果参数;优化模块,被配置为在根据所述标签挖掘模型的挖掘效果参数确定所述标签挖掘模型不符合预期条件时,对所述标签挖掘模型进行优化处理。
28.在另一种可能的实现形式中,所述投放指标包括以下指标中的任意一种或者多种:点击通过率、转化率和投资回报率。
29.在另一种可能的实现形式中,所述优化模块具体被配置为:通过以下步骤之中的一项或多项重新生成所述挖掘需求对应的标签挖掘模型:对与所述需求关键词匹配的第一特征进行调整;对所述标签挖掘模型的类型进行调整;对所述正样本集合和所述负样本集合中样本的特征信息进行调整。
30.在另一种可能的实现形式中,所述标签挖掘模型的数量为多个,所述装置,还包括:第五获取模块,被配置为符合所述预期条件的标签挖掘模型为多个时,获取每个所述标签挖掘模型在第三预设时间段内的挖掘效果参数;第二确定模块,被配置为根据每个所述标签挖掘模型在第三预设时间段内的挖掘效果参数,确定待去除的标签挖掘模型;以及处理模块,被配置为去除所述待去除的标签挖掘模型。
31.根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如前所述的标签挖掘方法。
32.根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的标签挖掘方法。
33.根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序由电子设备的处理器执行时,使得电子设备能够执行如前所述的标签挖掘方法。
34.本公开的实施例提供的技术方案至少带来以下有益效果:
35.通过在获取挖掘需求后,根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息,实现了根据挖掘需求以及样本数据库自动生成与挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
36.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
38.图1是根据一示例性实施例示出的一种标签挖掘方法的流程图。
39.图2是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
40.图3是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
41.图4是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
42.图5是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
43.图6是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
44.图7是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
45.图8是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
46.图9是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
47.图10是根据一示例性实施例示出的另一种标签挖掘方法的流程图。
48.图11是根据一示例性实施例示出的一种标签挖掘装置的框图。
49.图12是根据一示例性实施例示出的另一种标签挖掘装置的框图。
50.图13是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
51.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
52.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
53.可以理解的是,相关技术中,一般根据单个用户的特征信息,例如年龄、性别、职业、应用使用记录等人工来确定业务所需的该用户的用户标签,这种人工确定用户标签的方式浪费了大量的人力成本,且效率低。
54.本公开各实施例针对上述问题,提出一种标签挖掘方法,在获取挖掘需求后,首先根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息。由此,实现了根据挖掘需求以及样本数据库自动生成与挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
55.图1是根据一示例性实施例示出的一种标签挖掘方法的流程图,如图1所示,标签挖掘方法用于电子设备中,包括以下步骤。
56.在步骤101中,获取挖掘需求,其中,挖掘需求包括需求关键词。
57.需要说明的是,本公开的标签挖掘方法的执行主体为标签挖掘装置。其中,本公开实施例的标签挖掘装置可以配置在电子设备中,以根据挖掘需求及样本数据库自动生成与挖掘需求对应的标签挖掘模型,进而利用标签挖掘模型对待挖掘对象自动进行标签挖掘,从而节省人工成本,提高标签挖掘效率。
58.其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者其它类型的计算设备。标签挖掘装置可以是安装在电子设备中的标签挖掘应用程序,也可以是该标签挖掘应用程序的管理者、开发者所使用的对该标签挖掘应用程序进行管理、维护的网页、应用程序等,本公开实施例对此不做限定。
59.其中,挖掘需求以及挖掘需求包括的需求关键词,可以根据实际业务需要任意设置。
60.举例来说,假设需要给有车用户推送营销广告,例如推销各银行的车主信用卡、汽车保险、汽车用品、加油优惠等,则挖掘需求可以为挖掘有车人群,挖掘需求包括的需求关键词可以为“有车”;假设需要给无房用户推送营销广告,例如推销各区域的楼盘信息、贷款优惠等,则挖掘需求可以为挖掘无房人群,挖掘需求包括的需求关键词可以为“无房”,等等。
61.在步骤102中,根据需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本生成挖掘需求对应的正样本集合和负样本集合,其中,样本数据库中的样本包括对象,以及对象的特征信息。
62.其中,对象的特征信息,可以包括任意与对象有关的特征,比如包括对象的年龄、性别、地域、兴趣、爱好、偶像等任意与对象本身的属性有关的特征,以及对象所使用的设备、设备中安装的软件名称及类别等任意与对象所使用的设备有关的特征,等等。
63.第一特征,可以为特征信息中与挖掘需求包括的需求关键词匹配的特征。在示例性实施例中,第一特征可以通过以下多种方式确定。
64.方式一
65.可以预先设置与各需求关键词分别对应的特征,从而在获取挖掘需求后,可以根据挖掘需求包括的需求关键词,查询预先设置的各需求关键词与特征之间的对应关系,以确定与挖掘需求包括的需求关键词匹配的第一特征。
66.举例来说,可以预先设置与需求关键词“有车”对应的特征为“安装了查违章类软件”和“购买过汽车配件”,与需求关键词“无房”对应的特征为“安装了房屋租赁软件”,从而在获取的挖掘需求为挖掘有车人群,挖掘需求包括的需求关键词为“有车”时,可以根据预先设置的各需求关键词与特征之间的对应关系,确定与挖掘需求包括的需求关键词“有车”匹配的第一特征为“安装了查违章类软件”和“购买过汽车配件”。
67.其中,各需求关键词与对应的特征之间的对应关系,可以根据经验预先设置。举例来说,以需求关键词“有车”为例,由于有车的对象通常会安装查违章类软件用于查询自己是否有违章记录,或者通常会购买汽车配件,那么与需求关键词“有车”对应的特征可以设置为有车的对象通常具有的特征,即“安装了查违章类软件”和“购买过汽车配件”;以需求关键词“无房”为例,由于无房的对象通常会安装房屋租赁软件以查询房屋出租信息,那么
与需求关键词“无房”对应的特征可以设置为“安装了房屋租赁软件”。
68.方式二
69.根据样本数据库中的各样本包括的对象的特征信息确定与需求关键词匹配的第一特征。
70.具体的,可以预先设置与各需求关键词分别对应的特征,并预先设置次数阈值,从而在获取挖掘需求后,可以根据预先设置的各需求关键词与特征之间的对应关系,确定与挖掘需求包括的需求关键词匹配的特征,假设称为候选特征,然后可以查询样本数据库中的各样本包括的对象的特征信息中,候选特征的出现次数,并将出现次数大于预设次数阈值的候选特征,确定为第一特征。
71.举例来说,可以预先设置与需求关键词“有车”对应的特征为“安装了查违章类软件”和“购买过汽车配件”,与需求关键词“无房”对应的特征为“安装了房屋租赁软件”,从而在获取的挖掘需求为挖掘有车人群,挖掘需求包括的需求关键词为“有车”时,可以根据预先设置的各需求关键词与特征之间的对应关系,确定与“有车”匹配的候选特征为“安装了查违章类软件”和“购买过汽车配件”,若样本数据库中的各样本包括的对象的特征信息中“安装了查违章类软件”和“购买过汽车配件”的出现次数均大于预设次数阈值,则可以将“安装了查违章类软件”和“购买过汽车配件”确定为与“有车”匹配的第一特征。
72.需要说明的是,第一特征,可以是一个特征,例如上述示例中的“安装了房屋租赁软件”,或者,也可以是多个特征,例如上述示例中的“安装了查违章类软件”和“购买过汽车配件”,本公开对第一特征包含的特征数量不作限制。
73.正样本集合,为具有第一特征的样本的集合。负样本集合,为不具有第一特征的样本的集合。
74.以挖掘需求为挖掘有车人群为例,第一特征可以为“安装了查违章类软件”和“购买过汽车配件”,挖掘需求对应的正样本集合,可以包括安装了查违章类软件、购买过汽车配件的对象及这些对象的特征信息的集合;负样本集合,可以包括未安装查违章类软件、未购买过汽车配件的对象及这些对象的特征信息的集合。以挖掘需求为挖掘无房人群为例,第一特征可以为“安装了房屋租赁软件”,挖掘需求对应的正样本集合,可以包括安装了房屋租赁软件的对象及这些对象的特征信息的集合;负样本集合,可以包括未安装房屋租赁软件的对象及这些对象的特征信息的集合。
75.具体的,可以预先设置样本数据库,样本数据库中包含大量的样本,其中每个样本包括对象及该对象的特征信息比如该对象的年龄、性别、地域、兴趣、爱好、偶像、对象所使用的设备、设备中安装的软件名称及类别等信息,从而在获取挖掘需求,并根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征后,可以根据样本数据库中具有第一特征的样本,生成挖掘需求对应的正样本集合和负样本集合。
76.需要说明的是,正样本集合中的样本数量可以大于负样本集合中的样本数量,或者,正样本集合中的样本数量可以小于负样本集合中的样本数量,或者,正样本集合中的样本数量也可以等于负样本集合中的样本数量,在实际应用中,可以根据需要设置正样本集合与负样本集合分别包括的样本数量的比例关系,本公开对正样本集合和负样本集合中分别包括的样本数量不作限制。
77.在步骤103中,根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应
的标签挖掘模型。
78.其中,标签挖掘模型,可以是梯度上升决策树(gradient boosting decision tree,简称gbtb)模型、极端梯度提升(extreme gradient boosting,简称xgb)模型、深度神经网络(deep neural networks,简称dnn)模型、支持向量机(support vector machine,简称svm)模型等任意能够实现数据分类的分类模型。
79.具体的,可以先按照预设规则从正样本集合和负样本集合中筛选出包括至少一个正样本和一个负样本的训练样本集合以及包括至少一个正样本和负样本的测试样本集合,然后基于包括至少一个正样本和一个负样本的训练样本集合对待训练的标签挖掘模型进行训练,得到标签挖掘模型,再基于包括至少一个正样本和负样本的测试样本集合,对得到的标签挖掘模型进行测试,最终生成挖掘需求对应的标签挖掘模型。
80.其中,预设规则可以是分别从正样本集合和负样本集合中随机选取预设数量的正样本和负样本,形成测试样本集合,其余的作为训练样本集合,或者,也可以是分别从正样本集合和负样本集合中随机选取预设数量的正样本和负样本,形成训练样本集合,其余的作为测试样本集合,本公开对此不作限制。
81.另外,测试样本集合和训练样本集合中分别包含的样本数量,可以根据需要设置,例如,可以设置训练样本集合中包括的样本数量大于测试样本集合中的样本数量,比如训练样本集合包括70%的正样本集合中的正样本和70%的负样本集合中的负样本,测试样本集合包括30%的正样本集合中的正样本和30%的负样本集合中的负样本,或者,也可以设置训练样本集合中包括的样本数量小于测试样本集合中的样本数量,比如训练样本集合包括40%的正样本集合中的正样本和40%的负样本集合中的负样本,测试样本集合包括60%的正样本集合中的正样本和60%的负样本集合中的负样本,本公开对此不作限制。
82.在步骤104中,根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息。
83.其中,待挖掘对象为待确定是否有挖掘需求的对象。
84.待挖掘对象的特征信息,可以包括任意与待挖掘对象有关的特征,比如包括待挖掘对象的年龄、性别、地域、兴趣、爱好、偶像等任意与待挖掘对象本身的属性有关的特征,以及待挖掘对象所使用的设备、设备中安装的软件名称及类别等任意与待挖掘对象所使用的设备有关的特征,等等。
85.具体的,将待挖掘对象的特征信息输入标签挖掘模型,可以输出待挖掘对象的与挖掘需求对应的标签的分数信息,进而根据待挖掘对象的与挖掘需求对应的标签的分数信息,确定待挖掘对象的标签信息。
86.需要说明的是,标签挖掘模型输出的与挖掘需求对应的标签的分数的最大值和最小值,可以根据需要设置,比如,可以是0-1之间的分数,也可以是0-100之间的分数,等等,本公开对此不作限制。
87.另外,待挖掘对象的数量,可以为一个,也可以为多个,本公开对此不作限制。
88.具体的,在待挖掘对象的数量为一个时,将该待挖掘对象的特征信息输入标签挖掘模型,即可输出该待挖掘对象的与挖掘需求对应的标签的分数信息;在待挖掘对象的数量为多个时,可以将多个待挖掘对象的特征信息依次输入标签挖掘模型,从而分别得到每个待挖掘对象的与挖掘需求对应的标签的分数信息,或者,也可以将多个待挖掘对象的标
识以及每个待挖掘对象分别对应的特征信息同时输入标签挖掘模型,从而同时得到各待挖掘对象的标识分别对应的与挖掘需求对应的标签的分数信息。
89.其中,待挖掘对象的标识,用于将待挖掘对象与其它待挖掘对象进行区分,其可以是待挖掘对象的身份证号码、预先设置的待挖掘对象的编号、待挖掘对象的电话号码等等,本公开对此不作限制。
90.具体的,确定待挖掘对象的与挖掘需求对应的分数信息后,即可根据待挖掘对象的与挖掘需求对应的分数信息,确定是否为待挖掘对象添加与挖掘需求对应的标签。
91.具体实现时,可以预先设置分数阈值,从而可以在待挖掘对象的与挖掘需求对应的标签的分数大于分数阈值时,将待挖掘对象的标签信息确定为与挖掘需求对应的标签。
92.其中,分数阈值可以根据需要设置,比如可以设置为固定数值,例如,标签挖掘模型输出的与挖掘需求对应的标签的分数是0-1之间的分数时,分数阈值可以为0.6、0.7等等;或者,分数阈值,也可以根据标签挖掘模型输出的与挖掘需求对应的标签的分数的最大值动态设置,比如设置为标签挖掘模型输出的与挖掘需求对应的标签的分数的最大值的80%,或者标签挖掘模型输出的与挖掘需求对应的标签的分数的最大值的90%,等等。
93.举例来说,假设挖掘需求为挖掘有车人群,挖掘需求对应的标签可以为“有车”,可以预先设置分数阈值为0.6,若标签挖掘模型输出的待挖掘对象a的标签为“有车”的分数为0.7,则可以将待挖掘对象a的标签信息确定为“有车”。若标签挖掘模型输出的待挖掘对象b的标签为“有车”的分数为0.3,则可以将待挖掘对象b的标签信息确定为“无车”,或者,也可以不为待挖掘对象b增加标签信息,本公开对此不作限制。
94.需要说明的是,本公开提供的分数阈值的设置方式,仅是示例性说明,在实际应用中,本领域技术人员可以根据实际需要通过其它任意方式确定分数阈值,本公开对此不作限制。
95.需要说明的是,在待挖掘对象的数量较多时,为了提高待挖掘对象的标签信息的确定速度,在本公开实施例中,可以在多个电子设备中均设置标签挖掘模型,从而利用多个电子设备中的标签挖掘模型同时对多个待挖掘对象进行标签挖掘,以提高标签挖掘的效率。
96.由于根据挖掘需求包括的需求关键词查询样本数据库,即可自动获取与需求关键词匹配的第一特征,进而自动获取具有第一特征的样本,并根据具有第一特征的样本生成挖掘需求对应的正样本集合和负样本集合,进而自动生成挖掘需求对应的标签挖掘模型,以对待挖掘对象进行标签挖掘,整个过程无需人工操作,从而节省了大量的人工成本,且相比人工进行标签挖掘的效率更高。
97.本公开实施例提供的标签挖掘方法,通过在获取挖掘需求后,根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本,生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息,实现了根据挖掘需求以及样本数据库自动生成挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
98.通过上述分析可知,在一种可能的实现形式中,可以根据样本数据库中的各样本包括的对象的特征信息确定与挖掘需求包括的需求关键词匹配的第一特征,从而根据具有第一特征的样本生成与需求关键词对应的正样本集合和负样本集合,下面结合图2,对本公开根据样本数据库确定与需求关键词匹配的第一特征,进而生成正样本集合和负样本集合的过程进行说明。
99.图2是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图2所示,上述步骤102具体可以包括以下步骤。
100.在步骤201中,根据需求关键词查询样本数据库,获取与需求关键词匹配的第一特征。
101.在示例性实施例中,可以预先设置与各需求关键词分别对应的特征,并预先设置次数阈值,从而在获取挖掘需求,并根据预先设置的各需求关键词与特征之间的对应关系,确定与挖掘需求包括的需求关键词匹配的候选特征后,可以查询样本数据库中的各样本包括的对象的特征信息中,是否有与该候选特征匹配的特征,并统计候选特征出现的次数,从而即可将出现次数大于预设次数阈值的候选特征,确定为与挖掘需求包括的需求关键词匹配的第一特征。
102.其中,次数阈值,可以根据需要设置,比如可以设置为1000、2000等固定数值,或者,也可以根据样本数据库中候选特征出现的次数动态设置,比如设置为样本数据库中候选特征出现的次数中最大次数的80%,或者样本数据库中候选特征出现次数中最大次数的90%,等等。
103.举例来说,假设预先设置的与需求关键词“有车”对应的特征为“安装了查违章类软件”和“购买过汽车配件”,与需求关键词“无房”对应的特征为“安装了房屋租赁软件”,预先设置的次数阈值为样本数据库中候选特征出现的次数中最大次数的80%。则在获取的挖掘需求为挖掘有车人群,挖掘需求包括的需求关键词为“有车”时,可以确定与需求关键词“有车”对应的候选特征为“安装了查违章类软件”和“购买过汽车配件”,然后可以在样本数据库中查询各样本包括的对象的特征信息中,是否有与“安装了查违章类软件”和“购买过汽车配件”匹配的特征,并统计这两个特征出现的次数,假设“安装了查违章类软件”出现了1000次,“购买过汽车配件”出现了900次,则可以确定预设次数阈值为800,由于样本数据库中的各样本包括的对象的特征信息中,“安装了查违章类软件”的特征出现的次数和“购买过汽车配件”的特征出现的次数均大于预设次数阈值,则可以确定第一特征为“安装了查违章类软件”和“购买过汽车配件”。
104.需要说明的是,本公开提供的预设次数阈值的设置方式,仅是示例性说明,在实际应用中,本领域技术人员可以根据实际需要通过其它任意方式确定预设次数阈值,本公开对此不作限制。
105.在步骤202中,根据样本数据库之中的具有第一特征的样本,生成挖掘需求对应的正样本集合。
106.在步骤203中,根据样本数据库之中的不具有第一特征的样本,生成挖掘需求对应的负样本集合。
107.需要说明的是,步骤202和步骤203可以同时执行,也可以先执行步骤202,再执行步骤203,或者,先执行步骤203,再执行步骤202,本公开对步骤202和步骤203的执行顺序不
作限制,只需步骤202和步骤203在步骤201之后执行即可。
108.具体的,根据需求关键词查询样本数据库,获取与需求关键词匹配的第一特征后,即可确定样本数据库中哪个样本包括的对象的特征信息中包括第一特征,哪个样本包括的对象的特征信息中不包括第一特征,从而可以将样本数据库之中的具有第一特征的样本的集合,作为挖掘需求对应的正样本集合,将样本数据库之中的不具有第一特征的样本的集合,作为挖掘需求对应的负样本集合。
109.通过根据需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,进而根据样本数据库之中的具有第一特征的样本,生成挖掘需求对应的正样本集合,根据样本数据库之中的不具有第一特征的样本,生成挖掘需求对应的负样本集合,即可实现根据挖掘需求及样本数据库,自动生成训练标签挖掘模型时所需要的训练样本集合,由于无需人工获取训练样本集合,从而节省了人力成本,提高了训练样本集合的获取效率。
110.通过上述分析可知,可以根据样本数据库中的具有第一特征的样本,生成挖掘需求对应的正样本集合,在一种可能的实现形式中,直接从样本数据库中获取的具有第一特征的样本所具有的特征中,可能有的特征在样本数据库中的出现次数较少,参考价值不高,若根据包括这些特征的正样本集合进行模型训练,生成标签挖掘模型,可能会在标签挖掘模型的训练过程中存在冗余工作,那么,在本公开实施例中,可以根据正样本集合中各特征出现的次数,滤除参考价值不高的特征,从而减少标签挖掘模型训练过程中的工作量,提高标签挖掘模型的生成速度,下面针对上述情况,结合图3,对本公开提供的标签挖掘方法进行进一步说明。
111.图3是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图3所示,上述步骤202之后,还可以包括以下步骤。
112.在步骤301中,获取正样本集合中各个特征的出现次数。
113.在步骤302中,根据正样本集合中各个特征的出现次数确定待过滤特征。
114.在步骤303中,删除正样本集合的每个样本中的待过滤特征。
115.需要说明的是,步骤301-303可以在步骤203之后执行,也可以在步骤202和203之间执行,本公开对此不作限制,只需在步骤202之后执行即可。
116.具体的,根据样本数据库中的具有第一特征的样本,生成与挖掘需求对应的正样本集合后,即可获取正样本集合中各个特征的出现次数,从而将出现次数较小的特征确定为待过滤特征,然后,即可将正样本集合中的每个样本中的待过滤特征删除,利用每个样本中仅包括剩余的特征的正样本集合作为训练样本,训练生成标签挖掘模型。
117.由于将正样本集合中的各样本中的部分特征删除,减少了正样本集合中的特征数量,从而减少了利用正样本集合进行标签挖掘模型训练的过程中的工作量,提高了标签挖掘模型的生成速度,且由于删除的仅是正样本集合中出现次数较小的参考价值不高的特征,因此不会影响生成的标签挖掘模型的性能。
118.通过上述分析可知,在一种可能的实现形式中,可以将正样本集合中出现次数较小的特征确定为待过滤特征,从而将正样本集合的每个样本中的待过滤特征删除,以减少标签挖掘模型训练过程中的工作量,提高标签挖掘模型的生成速度,具体实现时,可以根据正样本集合中各个特征的出现次数,通过多种方式,确定待过滤特征,下面结合图4,对根据正样本集合中各个特征的出现次数,确定待过滤特征的过程进行说明。
119.图4是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图4所示,上述步骤302具体可以包括以下步骤。
120.在步骤401中,比较正样本集合中各个特征的出现次数与预设次数阈值的关系。
121.在步骤402中,将对应的出现次数小于预设次数阈值,且为非第一特征的特征确定为待过滤特征。
122.具体的,可以预先设置次数阈值,从而在获取正样本集合中各个特征的出现次数后,可以将各个特征的出现次数与预设次数阈值进行比较,进而将对应的出现次数小于预设次数阈值,且为非第一特征的特征确定为待过滤特征。
123.其中,次数阈值,可以根据需要设置,比如可以设置为1000、2000等固定数值,或者,也可以根据正样本集合中各特征出现的次数动态设置,比如设置为正样本集合中各特征出现次数的最大值的80%,或者正样本集合中各特征出现次数的最大值的90%,等等。
124.举例来说,假设预先设置次数阈值为正样本集合中各特征出现次数的最大值的80%,则获取到正样本集合中各个特征的出现次数后,若正样本集合中各特征出现次数的最大值为1000,则可以确定次数阈值为800,从而可以将正样本集合中对应的出现次数小于800的特征确定为待过滤特征,进而可以将正样本集合中各样本的待过滤特征删除。
125.需要说明的是,本公开提供的预设次数阈值的设置方式,仅是示例性说明,在实际应用中,本领域技术人员可以根据实际需要通过其它任意方式确定预设次数阈值,本公开对此不作限制。
126.或者,也可以通过下面步骤403和404的方式,确定待过滤特征。
127.在步骤403中,将正样本集合中各个特征按照对应的出现次数升序排序。
128.在步骤404中,将对应的出现次数的排序序号小于预设序号阈值,且为非第一特征的特征确定为待过滤特征。
129.具体的,在获取正样本集合中各个特征的出现次数后,可以将正样本集合中各个特征按照对应的出现次数升序排序,从而将对应的出现次数的排序序号小于预设序号阈值,且为非第一特征的特征确定为待过滤特征。
130.其中,预设序号阈值,可以根据需要设置。
131.比如可以根据正样本集合中的特征数量设置为固定数值,例如,正样本集合中的特征数量为100,则预设序号阈值可以为20或者30等;
132.或者,预设序号阈值,也可以根据正样本集合中各特征的出现次数动态设置,比如设置为正样本集合中出现次数为最大次数的80%的特征对应的排序序号,或者正样本集合中出现次数为最大次数的90%的特征对应的排序序号,等等。
133.举例来说,假设预设序号阈值为正样本集合中出现次数为最大次数的80%的特征对应的排序序号,则正样本集合中的各特征的出现次数中,最大次数为1000时,将正样本集合中各个特征按照对应的出现次数升序排序后,出现次数为800的特征排在第20位,则预设序号阈值为20,从而可以将对应的出现次数的排序序号小于20,且为非第一特征的特征确定为待过滤特征,进而可以将正样本集合中各样本的待过滤特征删除。
134.或者,在一种可能的实现形式中,还可以结合上述两种方式,将对应的出现次数小于预设次数阈值,且将对应的出现次数的排序序号小于预设序号阈值,且为非第一特征的特征确定为待过滤特征。
135.需要说明的是,本公开提供的预设序号阈值的设置方式,仅是示例性说明,在实际应用中,本领域技术人员可以根据实际需要通过其它任意方式确定预设序号阈值,本公开对此不作限制。
136.通过上述过程,即可根据正样本集合中各个特征的出现次数,确定待过滤特征,进而可以删除正样本集合中各样本的参考价值不高的待过滤特征,以减少标签挖掘模型训练过程中的工作量,提高标签挖掘模型的生成速度。
137.通过上述分析可知,可以根据样本数据库之中的不具有第一特征的样本,生成挖掘需求对应的负样本集合,在实际应用中,样本数据库之中的某些样本可能长时间未处于活跃状态,比如某个样本包括的对象很长时间未登陆任何软件或者进行任何消费等等,那么,利用根据这些样本生成的负样本集合训练生成标签挖掘模型,进而确定的待挖掘对象的标签信息可能存在误差,因此,在本公开实施例中,为了提高根据标签挖掘模型确定的待挖掘对象的标签信息的准确性,可以结合样本数据库中各样本的活跃状态,生成负样本集合。下面针对上述情况,结合图5,对本公开提供的标签挖掘方法进行进一步说明。
138.图5是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图5所示,上述步骤203具体可以包括以下步骤。
139.在步骤501中,获取样本数据库中在第一预设时间段内处于活跃状态的活跃样本。
140.在步骤502中,根据活跃样本中的不具有第一特征的样本,生成挖掘需求对应的负样本集合。
141.其中,第一预设时间段,可以根据需要设置,比如,可以设置为1年、半年等时间较长的时间段,或者,也可以设置为半个月、1个月等时间较短的时间段,本公开对此不作限制。
142.具体的,可以根据样本数据库中的各样本在第一预设时间段内登录各个软件的次数,消费次数等因素,确定样本数据库中的各样本在第一预设时间段内的活跃状态,从而将样本数据库中在第一预设时间段内处于活跃状态的样本确定为活跃样本。
143.进一步的,即可根据与需求关键词匹配的第一特征,查询样本数据库中哪个活跃样本包括的对象的特征信息中不包括第一特征,从而可以将活跃样本中的不具有第一特征的样本的集合,作为挖掘需求对应的负样本集合。
144.由于在一段时间内处于活跃状态的活跃用户的行为的参考价值更高,因此通过根据样本数据库中在第一预设时间段内处于活跃状态的活跃用户,生成负样本集合,提高了利用负样本集合训练生成的标签挖掘模型的性能,进而提高了利用生成的标签挖掘模型确定的待挖掘对象的标签信息的准确性。
145.可以理解的是,标签挖掘模型可以是gbtb模型、xgb模型、dnn模型、svm模型等任意能够实现数据分类的分类模型,在实际应用中,若对于任意挖掘需求,均随意选择分类模型作为标签挖掘模型,可能会影响根据与挖掘需求对应的正样本集合和负样本集合训练生成的标签挖掘模型的性能,那么,在本公开实施例中,还可以根据挖掘需求及与挖掘需求对应的正样本集合和负样本集合,选择要生成的标签挖掘模型的种类,从而提高生成的标签挖掘模型的性能。下面针对上述情况,结合图6,对本公开实施例提供的标签挖掘方法进行进一步说明。
146.图6是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图6所示,上
述步骤103具体可以包括以下步骤。
147.在步骤601中,根据挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型。
148.其中,多个分类模型,可以包括gbtb模型、xgb模型、dnn模型、svm模型等任意能够实现数据分类的分类模型。
149.具体的,可以根据挖掘需求以及对应的正样本集合和负样本集合中各特征,结合多个分类模型各自的性能,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型。
150.举例来说,假设挖掘需求对应的正样本集合和负样本集合中包括多个特征,每个特征之间相互独立,由于svw模型更适合于处理分类器输出仅与当前输入的特征有关的问题,那么,可以选择svw模型作为初始标签挖掘模型。假设挖掘需求对应的正样本集合和负样本集合中包括多个特征,且各特征之间存在复杂的相互关系,由于决策树和神经网络更加适合处理分类器输出与多个输入的特征有关的问题,那么,可以选择xgb模型、gbdt模型或者dnn模型作为初始标签挖掘模型。
151.需要说明的是,上述根据挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型的方式仅是示例性说明,在实际应用中,可以通过其它多种方式,根据挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型,本公开对初始标签挖掘模型的选择方式不作限制。
152.在步骤602中,根据挖掘需求对应的正样本集合和负样本集合,对初始标签挖掘模型进行训练,以得到挖掘需求对应的标签挖掘模型。
153.具体的,确定初始标签挖掘模型后,即可根据挖掘需求对应的正样本集合和负样本集合,对初始标签挖掘模型进行训练,以得到挖掘需求对应的标签挖掘模型。
154.通过根据挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型,再根据挖掘需求对应的正样本集合和负样本集合,对初始标签挖掘模型进行训练,即可得到挖掘需求对应的标签挖掘模型,由于对待挖掘对象进行标签挖掘时,确定的是与挖掘需求对应的标签的分数信息,因此通过利用上述方式训练的与挖掘需求对应的标签挖掘模型对待挖掘对象进行标签挖掘时,确定的待挖掘对象的与挖掘需求对应的标签的分数更准确,从而提高了确定的待挖掘对象的标签信息的准确性。
155.通过上述分析可知,根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,确定待挖掘对象的与挖掘需求对应的标签的分数后,可以根据待挖掘对象的与挖掘需求对应的标签的分数与预设分数阈值的关系,确定待挖掘对象的标签信息,在一种可能的实现形式中,待挖掘对象的数量为多个时,可以根据以下方式,确定多个待挖掘对象的标签信息。下面结合图7,对本公开实施例提供的标签挖掘方法进行进一步说明。
156.图7是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图7所示,上述步骤104具体可以包括以下步骤。
157.在步骤701中,根据挖掘需求对应的标签挖掘模型以及多个待挖掘对象的特征信息,获取多个待挖掘对象的标签挖掘结果,其中,标签挖掘结果包括与挖掘需求对应的标签
的分数信息。
158.其中,待挖掘对象的数量为多个。
159.具体的,可以将多个待挖掘对象的特征信息,依次输入标签挖掘模型,从而分别得到每个待挖掘对象的挖掘结果,每个挖掘结果包括对应的待挖掘对象的与挖掘需求对应的标签的分数信息;或者,也可以将多个待挖掘对象的标识以及每个待挖掘对象分别对应的特征信息同时输入标签挖掘模型,从而同时得到各待挖掘对象的标识分别对应的标签挖掘结果,每个挖掘结果包括与待挖掘对象的标识对应的待挖掘对象的与挖掘需求对应的标签的分数信息。
160.其中,待挖掘对象的标识,用于将待挖掘对象与其它待挖掘对象进行区分,其可以是待挖掘对象的身份证号码、预先设置的待挖掘对象的编号、待挖掘对象的电话号码等等,本公开对此不作限制。
161.在步骤702中,按照标签的分数信息对多个待挖掘对象进行排序,得到排序结果。
162.在步骤703中,获取排序结果中排序在前的预设数量的第一待挖掘对象。
163.在步骤704中,将第一待挖掘对象的标签信息,确定为与挖掘需求对应的标签。
164.具体的,在获取多个待挖掘对象的挖掘结果后,可以根据挖掘结果中包括的与挖掘需求对应的标签的分数信息,按照标签的分数信息对多个待挖掘对象进行降序排序,然后将排序结果中排序在前的预设数量的待挖掘对象确定为第一待挖掘对象,并将预设数量的第一待挖掘对象的标签信息,确定为与挖掘需求对应的标签。
165.其中,预设数量,可以根据需要设置。
166.比如,可以根据待挖掘对象的数量设置为固定数值,例如,待挖掘对象的数量为100,则预设数量可以为50、60等等。
167.或者,也可以在将多个待挖掘对象按照标签的分数信息进行排序后,将标签的分数信息中最大分数的预设百分数的分数对应的排序序号,确定为预设数量,例如,将标签的分数信息中最大分数的80%的分数对应的排序序号,确定为预设数量,或者,将标签的分数信息中最大分数的70%的分数对应的排序序号,确定为预设数量,等等。
168.需要说明的是,本公开提供的预设数量的设置方式,仅是示例性说明,在实际应用中,本领域技术人员可以根据实际需要通过其它任意方式确定预设数量,本公开对此不作限制。
169.举例来说,假设待挖掘对象的数量为100,预设数量为50,挖掘需求为挖掘有车人群,挖掘需求对应的标签为“有车”,则在获取100个待挖掘对象的挖掘结果后,可以按照挖掘结果中包括的各待挖掘对象的标签为“有车”的分数信息,按照分数信息对100个待挖掘对象进行降序排序,然后将排序结果中排序在前的50个待挖掘对象确定为第一待挖掘对象,并将这50个第一待挖掘对象的标签信息,确定为“有车”。
170.通过按照多个待挖掘对象的挖掘结果中包括的与挖掘需求对应的标签的分数信息,对多个待挖掘对象进行排序,然后将排序结果中排序在前的预设数量的待挖掘对象确定为第一待挖掘对象,并将预设数量的第一待挖掘对象的标签信息,确定为与挖掘需求对应的标签,实现了为多个待挖掘对象中与挖掘需求匹配的对象添加与挖掘需求对应的标签。
171.可以理解的是,以业务为锁定高转化目标人群,实现精准营销的应用场景为例,在
确定各待挖掘对象的标签信息后,即可将标签为与挖掘需求对应的标签的待挖掘对象确定为高转化目标人群,从而针对这些人群推送营销广告。在一种可能的实现形式中,待挖掘对象中可能包括长时间为未处于活跃状态的对象,比如某个对象很长时间未登陆任何软件或者进行任何消费等等,那么,即使确定该对象的标签信息为与挖掘需求对应的标签,对该对象推送营销广告,可能也无法获得预期的营销效果,因此,本公开一种可能的实现形式中,还可以仅将在一段时间内处于活跃状态的对象,确定为待挖掘对象,从而仅对这些对象进行标签挖掘,以减少标签挖掘的工作量。
172.即,待挖掘对象,可以为第二预设时间段内处于活跃状态的对象。
173.其中,第二预设时间段,可以根据需要设置,比如,可以设置为1年、半年等时间较长的时间段,或者,也可以设置为半个月、1个月等时间较短的时间段,本公开对此不作限制。
174.需要说明的是,第一预设时间段和第二预设时间段,可以为相同时间段,也可以为不同时间段,本公开对此不作限制。
175.具体的,可以根据各待挖掘对象在第二预设时间段内登录各个软件的次数,消费次数等因素,确定各待挖掘对象在第二预设时间段内的活跃状态,从而将在第二预设时间段内处于活跃状态的对象确定为最终的待挖掘对象。
176.通过根据标签挖掘模型以及最终的待挖掘对象的特征信息,仅对最终的待挖掘对象进行标签挖掘,减少了标签挖掘的工作量。
177.另外,本公开实施例中,在对待挖掘对象进行标签挖掘,确定待挖掘对象的标签信息后,可以将各待挖掘对象以及待挖掘对象的标签信息进行存储,从而可以根据存储的待挖掘对象以及待挖掘对象的标签信息,实现锁定高转化目标人群,实现精准营销等业务。
178.即,在上述步骤104之后,还可以包括:
179.将待挖掘对象以及待挖掘对象的标签信息,存储至标签数据库中。
180.在示例性实施例中,可以将待挖掘对象以及待挖掘对象的标签信息,存储至分布式文件系统(hadoop distributed file system,简称hdfs)的分区,或者,也可以将待挖掘对象以及待挖掘对象的标签信息存储至其它类型的标签数据库中,本公开对此不作限制。
181.可以理解的是,本公开实施例中,还可以每隔预设时间,选取在一段时间内处于活跃状态的对象作为待挖掘对象,并对待挖掘对象进行标签挖掘,以对标签数据库中存储的待挖掘对象以及待挖掘对象的标签信息进行更新,从而保证标签数据库中存储的待挖掘对象以及待挖掘对象的标签信息的时效性。
182.其中,预设时间,可以根据需要设置,比如,可以设置为一天、两天等较短的时间,或者,也可以设置为半个月、1个月等较长的时间,本公开对此不作限制。
183.举例来说,本公开实施例中,可以每隔一天,对最近一个月内处于活跃状态的对象进行标签挖掘,从而每天对标签数据库中存储的待挖掘对象以及待挖掘对象的标签信息进行更新,以保证标签数据库中存储的待挖掘对象以及待挖掘对象的标签信息的时效性。
184.可以理解的是,在实际应用中,根据与挖掘需求对应的标签挖掘模型,确定待挖掘对象的标签信息后,需要根据待挖掘对象的标签信息进行广告营销等业务,那么,在本公开实施例中,为了使根据确定的待挖掘对象的标签信息进行的广告营销等业务能够更符合预期效果,在确定待挖掘对象的标签信息后,还可以根据待挖掘对象的标签信息,进行预设广
告的投放,从而根据广告投放后的投放指标,对不符合预期的标签挖掘模型进行优化。下面针对上述情况,结合图8,对本公开实施例提供的标签挖掘方法进行进一步说明。
185.图8是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图8所示,在上述步骤104之后,还可以包括以下步骤。
186.在步骤801中,针对标签信息中与挖掘需求对应的标签,获取与标签对应的待投放广告。
187.具体的,可以预先设置与各挖掘需求对应的标签分别对应的待投放广告,从而在确定待挖掘对象的标签信息后,针对标签信息中与挖掘需求对应的标签,可以获取与标签对应的待投放广告。
188.举例来说,假设挖掘需求为挖掘有车人群时,与该挖掘需求对应的标签为“有车”,挖掘需求为挖掘无房人群时,与该挖掘需求对应的标签为“无房”,可以预先设置与“有车”对应的待投放广告为广告x,与“无房”对应的待投放广告为广告y,从而在挖掘需求为挖掘有车人群时,针对待挖掘对象的标签信息中与挖掘有车人群的挖掘需求对应的标签“有车”,可以获取与该标签对应的待投放广告x。
189.在步骤802中,向具有标签的每个待挖掘对象投放待投放广告,并获取待投放广告的投放指标。
190.在本公开实施例中,待挖掘对象的数量为多个。
191.其中,投放指标可以包括以下指标中的任意一种或者多种:点击通过率、转化率和投资回报率。
192.其中,点击通过率(click-through-rate,简称ctr),可以表征广告的实际点击次数占广告的展现量的百分比。
193.举例来说,假设向具有与挖掘需求对应的标签的100个待挖掘对象投放了待投放广告,其中20个待挖掘对象点击了该待投放广告,则可以确定待投放广告的点击通过率为20/100=20%。
194.其中,转化率(click value rate,简称cvr),可以表征广告转化次数占广告点击次数的百分比。其中,转化次数可以是注册数、订单数等等。
195.举例来说,假设向具有与挖掘需求对应的标签的100个待挖掘对象投放了待投放广告,其中50个待挖掘对象点击了该待投放广告,50个待挖掘对象点击该投放广告后其中20个待挖掘对象注册了账号,则可以确定待投放广告的转化率为20/50=40%。
196.其中,投资回报率(return on investment,简称roi),可以表征通过投资而应返回的价值,其可以通过计算年利润或年均利润占投资总额的百分比得到。
197.举例来说,假设每向一个对象投放待投放广告需投资10元人民币,每一个对象下单可得到利润20元人民币,则向100个待挖掘对象投放待投放广告后,假设有20个待挖掘对象下单,则投资回报率为20*20/(100*10)*100%=40%。
198.需要说明的是,投资指标还可以包括留存用户数、每日成功登陆的用户数量(daily active user,简称dau)等其它任意衡量广告投放效果的指标,在实际应用中可以根据需要设置,本公开对此不作限制。
199.其中,留存用户数,可以指未来一段时间内再次登录的用户数量,比如次日留存用户数、3天留存用户数、7天留存用户数等,分别表示注册并首次登录日期后的第1天、第3天、
第7天再次登录的用户的数量。
200.在步骤803中,将待投放广告的投放指标,确定为标签挖掘模型的挖掘效果参数。
201.可以理解的是,挖掘效果参数,可以表征本公开实施例生成的标签挖掘模型对待挖掘对象的标签挖掘效果。比如待投放广告的投放指标包括点击通过率、转化率和投资回报率时,则这些指标的数值越大,表示标签挖掘模型对待挖掘对象的标签挖掘效果越好。
202.在步骤804中,如果根据标签挖掘模型的挖掘效果参数确定标签挖掘模型不符合预期条件,则对标签挖掘模型进行优化处理。
203.具体的,可以预先设置参数阈值,从而在向具有标签的每个待挖掘对象投放待投放广告,并获取待投放广告的投放指标,然后将待投放广告的投放指标确定为标签挖掘模型的挖掘效果参数后,可以通过判断标签挖掘模型的挖掘效果参数与参数阈值的关系,确定标签挖掘模型是否符合预期条件。
204.其中,不同的挖掘效果参数,可以对应相同的参数阈值,也可以对应不同的参数阈值,本公开对此不作限制。比如,假设投放指标包括点击通过率、转化率和投资回报率,可以设置参数阈值为20%,即点击通过率、转化率和投资回报率均大于20%时,可以确定标签挖掘模型符合预期条件。或者,假设投放指标包括点击通过率、转化率和投资回报率,可以设置参数阈值为15%、18%、20%,即点击通过率大于15%、转化率大于18%、且投资回报率大于20%时,可以确定标签挖掘模型符合预期条件。
205.可以理解的是,若根据标签挖掘模型的挖掘效果参数确定标签挖掘模型不符合预期条件,则可以对标签挖掘模型进行优化处理。具体实现时,可以通过调整标签挖掘模型的类型,或者,也可以通过调整与需求关键词匹配的第一特征,从而调整正样本集合和负样本集合中包括的样本等方式,重新生成挖掘需求对应的标签挖掘模型,以实现对标签挖掘模型的优化处理。
206.通过根据待挖掘对象的标签信息,向具有标签的每个待挖掘对象投放与标签对应的待投放广告,从而根据广告投放后的投放指标,对不符合预期的标签挖掘模型进行优化,使得利用优化后的标签挖掘模型确定的标签信息更准确,从而根据确定的待挖掘对象的标签信息进行的广告营销等业务能够更符合预期效果。
207.通过上述分析可知,在根据标签挖掘模型的挖掘效果参数确定标签挖掘模型不符合预期条件,可以对标签挖掘模型进行优化处理,下面结合图9,对对标签挖掘模型进行优化处理的过程进行说明。
208.图9是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图9所示,上述步骤804具体可以包括以下步骤。
209.在步骤901中,通过以下步骤之中的一项或多项重新生成挖掘需求对应的标签挖掘模型:
210.对与需求关键词匹配的第一特征进行调整;
211.对标签挖掘模型的类型进行调整;
212.对正样本集合和负样本集合中样本的特征信息进行调整。
213.具体的,可以通过对与需求关键词匹配的第一特征进行调整,从而生成新的与挖掘需求对应的正样本集合和负样本集合,以利用新的正样本集合和负样本集合,重新生成标签挖掘模型。
214.举例来说,假设挖掘需求为挖掘有车人群,挖掘需求包括的需求关键词为“有车”,当前的与需求关键词“有车”匹配的第一特征为“安装了查违章类软件”和“购买过汽车配件”,则可以通过调整预设次数阈值等方式,对第一特征进行调整,假设调整后的第一特征为“购买过汽车配件”,进而可以根据样本数据库中的具有调整后的第一特征的样本生成挖掘需求对应的正样本集合,根据样本数据库中不具有调整后的第一特征的样本,生成挖掘需求对应的负样本集合,再根据正样本集合和负样本集合,重新生成挖掘需求对应的标签挖掘模型。
215.或者,可以将当前的标签挖掘模型的类型调整为另一类型,从而根据挖掘需求对应的正样本集合和负样本集合,重新生成另一类型的挖掘需求对应的标签挖掘模型。
216.举例来说,假设当前的标签挖掘模型为svm模型,则可以将标签挖掘模型调整为dnn模型,从而根据挖掘需求对应的正样本集合和负样本集合,重新生成挖掘需求对应的标签挖掘模型,其中重新生成的标签挖掘模型为dnn模型。
217.可以理解的是,通过前述实施例可知,在根据样本数据库之中的具有第一特征的样本,生成挖掘需求对应的正样本集合之后,可以根据正样本集合中各个特征的出现次数与预设次数阈值的关系,或者出现次数的排序序号与预设序号阈值的关系,确定待过滤特征,从而删除正样本集合的每个样本中的待过滤特征,在本公开实施例中,可以通过重新确定预设次数阈值或者预设序号阈值的大小,从而重新确定待过滤特征,以重新确定正样本集合的中样本的特征信息,另外,对于负样本集合,也可以采用与对正样本集合中特征信息进行处理的类似的方式,对负样本集合中样本的特征信息进行调整,从而利用重新确定的正样本集合和负样本集合,重新生成挖掘需求对应的标签挖掘模型。
218.举例来说,假设当前预设次数阈值为20,若确定当前的标签挖掘模型不符合预期条件,则可以将预设次数阈值调整为30,即调整为将正样本集合和负样本集合中对应的出现次数小于30次,且为非第一特征的特征确定为待过滤特征,从而可以将正样本集合和负样本集合中各样本的重新确定的待过滤特征删除,以重新确定正样本集合和负样本集合,进而重新生成挖掘需求对应的标签挖掘模型。
219.在示例性实施例中,也可以同时对与需求关键词匹配的第一特征及标签挖掘模型的类型进行调整,或者同时对与需求关键词匹配的第一特征及正样本集合和负样本集合中样本的特征信息进行调整,或者同时对标签挖掘模型的类型及正样本集合和负样本集合中样本的特征信息进行调整,或者同时对与需求关键词匹配的第一特征、标签挖掘模型的类型及正样本集合和负样本集合中样本的特征信息进行调整,以重新生成挖掘需求对应的标签挖掘模型。
220.需要说明的是,上述重新生成挖掘需求对应的标签挖掘模型的方式进行示例性说明,在实际应用中,本领域技术人员可以根据需要任意设置重新生成挖掘需求对应的标签挖掘模型的方式,以对标签挖掘模型进行优化处理,本公开对此不作限制。
221.可以理解的是,通过上述过程重新生成挖掘需求对应的标签挖掘模型后,即可重新根据新的标签挖掘模型以及待挖掘对象的标签信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息,然后针对标签信息中与挖掘需求对应的标签,重新执行上述步骤801-804的过程,直至最终根据标签挖掘模型的挖掘效果参数确定标签挖掘模型符合预期条件。
222.需要说明的是,利用每次生成的标签挖掘模型对待挖掘对象进行标签挖掘,并通过投放广告,根据广告投放后的投放指标,对不符合预期的标签挖掘模型进行优化时,每次的待挖掘对象可以不同。
223.通过上述过程,实现了重新生成挖掘需求对应的标签挖掘模型,以对标签挖掘模型进行优化处理,从而生成符合预期条件的标签挖掘模型。
224.可以理解的是,在一种可能的实现形式中,标签挖掘模型的数量可以为多个,即可以训练多个标签挖掘模型,以对多个待挖掘对象分别进行标签挖掘,确定多个待挖掘对象分别的标签信息,然后针对多个待挖掘对象的标签信息中与挖掘需求对应的标签,获取与标签对应的待投放广告,再向多个待挖掘对象中具有标签的每个待挖掘对象投放待投放广告,并获取待投放广告的投放指标,然后将待投放广告的投放指标,确定为对应的标签挖掘模型的挖掘效果参数,以根据对应的挖掘效果参数,确定各标签挖掘模型是否符合预期条件。
225.举例来说,假设挖掘需求为挖掘有车人群,与该挖掘需求对应的标签为“有车”,与标签“有车”对应的待投放广告为广告a,参数阈值为20%,训练了3个标签挖掘模型:模型1、模型2、模型3,利用模型1对编号为1-100的待挖掘对象进行标签挖掘,利用模型2对编号为101-200的待挖掘对象进行标签挖掘,利用模型3对编号为201-300的待挖掘对象进行标签挖掘。在分别确定编号为1-300的待挖掘对象的标签信息后,可以向编号1-300的待挖掘对象中具有“有车”标签的每个待挖掘对象投放广告a,然后针对编号1-100的待挖掘对象,确定广告a的投放指标a,并将广告a的投放指标a确定为模型1的挖掘效果参数,针对编号101-200的待挖掘对象,确定广告a的投放指标b,并将广告a的投放指标b确定为模型2的挖掘效果参数,针对编号201-300的待挖掘对象,确定广告a的投放指标c,并将广告a的投放指标c确定为模型3的挖掘效果参数。然后,即可将模型1、模型2、模型3各自的挖掘效果参数分别与参数阈值20%进行比较,以确定模型1、模型2、模型3是否符合预期条件。
226.在实际应用中,符合预期条件的标签挖掘模型的数量可能为多个,在本公开实施例中,还可以去除挖掘效果较差的标签挖掘模型,下面针对上述情况,结合图10,对本公开提供的标签挖掘方法进行进一步说明。
227.图10是根据一示例性实施例示出的另一种标签挖掘方法的流程图,如图10所示,上述步骤104之后,还可以包括以下步骤。
228.在步骤1001中,在符合预期条件的标签挖掘模型为多个时,获取每个标签挖掘模型在第三预设时间段内的挖掘效果参数。
229.其中,第三预设时间段,可以根据需要设置,比如,可以设置为1年、半年等时间较长的时间段,或者,也可以设置为半个月、1个月等时间较短的时间段,本公开对此不作限制。
230.在步骤1002中,根据每个标签挖掘模型在第三预设时间段内的挖掘效果参数,确定待去除的标签挖掘模型。
231.在步骤1003中,去除待去除的标签挖掘模型。
232.具体的,可以根据每个标签挖掘模型在第三预设时间段内的挖掘效果参数,将挖掘效果最差的标签挖掘模型确定为待去除的标签挖掘模型,或者,也可以预先设置将预设数量的效果较差的标签挖掘模型确定为待去除的标签挖掘模型,并去除待去除的标签挖掘
模型。
233.举例来说,假设待投放广告的投放指标包括点击通过率、转化率和投资回报率,符合预期条件的标签挖掘模型有3个,预先设置将挖掘效果最差的标签挖掘模型确定为待去除标签挖掘模型,由于点击通过率、转化率和投资回报率的数值越小,表示标签挖掘模型的挖掘效果最差,则可以将3个标签挖掘模型中,点击通过率、转化率和投资回报率最小的标签挖掘模型确定为待去除标签挖掘模型,从而可以将待去除标签挖掘模型去除。
234.通过根据各标签挖掘模型在一个时间段内的挖掘效果参数,确定并去除待去除标签挖掘模型,实现了将挖掘效果较差的标签挖掘模型去除,以利用挖掘效果较好的标签挖掘模型进行标签挖掘,从而提高了利用标签挖掘模型挖掘的待挖掘对象的标签信息进行广告营销等业务的营销效果。
235.图11是根据一示例性实施例示出的一种标签挖掘装置框图。参照图11,该装置110包括第一获取模块1101,第二获取模块1102,生成模块1103和挖掘模块1104。
236.其中,该第一获取模块1101,被配置为获取挖掘需求,其中,所述挖掘需求包括需求关键词;
237.该第二获取模块1102,被配置为根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征,并根据具有所述第一特征的样本生成所述挖掘需求对应的正样本集合和负样本集合,其中,所述样本数据库中的样本包括对象,以及对象的特征信息;
238.该生成模块1103,被配置为根据所述挖掘需求对应的正样本集合和负样本集合,生成所述挖掘需求对应的标签挖掘模型;以及
239.该挖掘模块1104,被配置为根据所述挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对所述待挖掘对象进行标签挖掘,以确定所述待挖掘对象的标签信息,其中,所述待挖掘对象为待确定是否有所述挖掘需求的对象。
240.具体的,本公开实施例提供的标签挖掘装置,可以执行前述实施例提供的标签挖掘方法,其中,标签挖掘装置可以配置在电子设备中,以根据挖掘需求及样本数据库生成与挖掘需求对应的标签挖掘模型,进而利用标签挖掘模型对待挖掘对象自动进行标签挖掘,从而节省人工成本,提高标签挖掘效率。
241.其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者其它类型的计算设备。标签挖掘装置可以是安装在电子设备中的标签挖掘应用程序,也可以是该标签挖掘应用程序的管理者、开发者所使用的对该标签挖掘应用程序进行管理、维护的网页、应用程序等,本公开实施例对此不做限定。
242.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
243.本公开实施例提供的标签挖掘装置,通过在获取挖掘需求后,根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本,生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签
信息,实现了根据挖掘需求以及样本数据库自动生成挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
244.图12是根据一示例性实施例示出的一种标签挖掘装置框图。参照图12,在图11所示的基础上,该装置110还可以包括:
245.存储模块1201,被配置为将所述待挖掘对象以及所述待挖掘对象的标签信息,存储至标签数据库中;
246.第三获取模块1202,被配置为针对所述标签信息中与所述挖掘需求对应的标签,获取与所述标签对应的待投放广告;
247.第四获取模块1203,被配置为向具有所述标签的每个待挖掘对象投放所述待投放广告,并获取所述待投放广告的投放指标;
248.第一确定模块1204,被配置为将所述待投放广告的投放指标,确定为所述标签挖掘模型的挖掘效果参数;
249.优化模块1205,被配置为在根据所述标签挖掘模型的挖掘效果参数确定所述标签挖掘模型不符合预期条件时,对所述标签挖掘模型进行优化处理;
250.第五获取模块1206,被配置为符合所述预期条件的标签挖掘模型为多个时,获取每个所述标签挖掘模型在第三预设时间段内的挖掘效果参数;
251.第二确定模块1207,被配置为根据每个所述标签挖掘模型在第三预设时间段内的挖掘效果参数,确定待去除的标签挖掘模型;以及
252.处理模块1208,被配置为去除所述待去除的标签挖掘模型。
253.在一种可能的实现形式中,上述第二获取模块1102,包括:
254.第一获取单元,被配置为根据所述需求关键词查询样本数据库,获取与所述需求关键词匹配的第一特征;
255.第一生成单元,被配置为根据所述样本数据库之中的具有所述第一特征的样本,生成所述挖掘需求对应的正样本集合;以及
256.第二生成单元,被配置为根据所述样本数据库之中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
257.在另一种可能的实现形式中,上述第二获取模块1102,还可以包括:
258.第二获取单元,被配置为获取所述正样本集合中各个特征的出现次数;
259.第一确定单元,被配置为根据所述正样本集合中各个特征的出现次数确定待过滤特征;
260.第一处理单元,被配置为删除所述正样本集合的每个样本中的所述待过滤特征。
261.在另一种可能的实现形式中,上述第一确定单元,具体被配置为当特征满足以下条件时,判断为所述待过滤特征:
262.对应的出现次数小于预设次数阈值,且为非第一特征;
263.和/或,
264.对应的出现次数的排序序号小于预设序号阈值,且为非第一特征。
265.在另一种可能的实现形式中,上述第二生成单元,具体被配置为:
266.获取所述样本数据库中在第一预设时间段内处于活跃状态的活跃样本;以及
267.根据所述活跃样本中的不具有所述第一特征的样本,生成所述挖掘需求对应的负样本集合。
268.在另一种可能的实现形式中,上述生成模块1103,可以包括:
269.选择单元,被配置为根据所述挖掘需求以及对应的正样本集合和负样本集合,从多个分类模型中选择对应的分类模型作为初始标签挖掘模型;以及
270.训练单元,被配置为根据所述挖掘需求对应的正样本集合和负样本集合,对所述初始标签挖掘模型进行训练,以得到所述挖掘需求对应的标签挖掘模型。
271.在另一种可能的实现形式中,上述待挖掘对象的数量为多个时,上述挖掘模块1104,可以包括:
272.第三获取单元,被配置为根据所述挖掘需求对应的标签挖掘模型以及多个待挖掘对象的特征信息,获取所述多个待挖掘对象的标签挖掘结果,其中,所述标签挖掘结果包括与所述挖掘需求对应的标签的分数信息;
273.第二处理单元,被配置为按照所述标签的分数信息对所述多个待挖掘对象进行排序,得到排序结果;
274.第四获取单元,被配置为获取所述排序结果中排序在前的预设数量的第一待挖掘对象;
275.第二确定单元,被配置为将所述第一待挖掘对象的标签信息,确定为与所述挖掘需求对应的
276.在另一种可能的实现形式中,上述待挖掘对象为第二预设时间段内处于活跃状态的对象。
277.在另一种可能的实现形式中,上述投放指标包括以下指标中的任意一种或者多种:点击通过率、转化率和投资回报率。
278.在另一种可能的实现形式中,上述优化模块1205具体被配置为:
279.通过以下步骤之中的一项或多项重新生成所述挖掘需求对应的标签挖掘模型:
280.对与所述需求关键词匹配的第一特征进行调整;
281.对所述标签挖掘模型的类型进行调整;
282.对所述正样本集合和所述负样本集合中样本的特征信息进行调整。
283.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
284.本公开实施例提供的标签挖掘装置,通过在获取挖掘需求后,根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样本,生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息,实现了根据挖掘需求以及样本数据库自动生成挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
285.图13是根据一示例性实施例示出的一种用于标签挖掘的电子设备200的框图。
286.如图13所示,上述电子设备200包括:
287.处理器220、用于存储处理器220可执行指令的存储器210;
288.其中,处理器220被配置为执行所述指令,以实现本公开实施例所述的标签挖掘方法。
289.在一种可能的实现形式中,电子设备还可以包括连接不同组件(包括存储器210和处理器220)的总线230。
290.总线230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
291.电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
292.存储器210还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)240和/或高速缓存存储器250。电子设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统260可以用于读写不可移动的、非易失性磁介质(图13未显示,通常称为“硬盘驱动器”)。尽管图13中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
293.具有一组(至少一个)程序模块270的程序/实用工具280,可以存储在例如存储器210中,这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本公开所描述的实施例中的功能和/或方法。
294.电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口292进行。并且,电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图13所示,网络适配器293通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
295.处理器220通过运行存储在存储器210中的程序,从而执行各种功能应用以及数据处理。
296.需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的标签挖掘方法的解释说明,此处不再赘述。
297.本公交实施例提供的电子设备,通过在获取挖掘需求后,根据挖掘需求包括的需求关键词查询样本数据库,获取与需求关键词匹配的第一特征,并根据具有第一特征的样
本,生成挖掘需求对应的正样本集合和负样本集合,以根据挖掘需求对应的正样本集合和负样本集合,生成挖掘需求对应的标签挖掘模型,进而根据挖掘需求对应的标签挖掘模型以及待挖掘对象的特征信息,对待挖掘对象进行标签挖掘,以确定待挖掘对象的标签信息,实现了根据挖掘需求以及样本数据库自动生成挖掘需求对应的标签挖掘模型,以利用标签挖掘模型对待挖掘对象自动进行标签挖掘,由于无需人工操作,从而节省了大量的人工成本,提高了标签挖掘效率。
298.在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由装置200的处理器220执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
299.在示例性实施例中,还提供了一种计算机程序产品,该计算机程序由电子设备的处理器执行时,使得电子设备能够执行如前所述的标签挖掘方法。
300.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
301.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献