数据处理方法、装置、设备、存储介质和计算机程序产品与流程

2022-06-05 13:14:01 来源：中国专利 TAG：

1.本技术涉及数据处理领域，具体涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。

背景技术：

2.在模型训练过程中，样本数据的特征信息的选取是后续模型训练的重要环节。
3.然而，过多冗余特征信息的存在对模型准确度与训练效率均存在干扰。如何在海量特征信息中，以合理有效的方式选择适量的特征群，将特征的作用发挥到最佳状态，提升模型应用成效，是当模型训练工作经常忽视的一个重难点问题，且目前还未有很好的解决方式。

技术实现要素：

4.本技术实施例提供一种数据处理方法、装置、设备、存储介质及计算机程序产品，实现高效从海量特征信息中去除冗余特征信息的效果。
5.第一方面，本技术实施例提供一种数据处理方法，该方法包括：
6.获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数；
7.对于每个特征信息，分别确定所述第一响应参数和所述第二响应参数之间的差异；
8.对于每个特征信息，分别对各个差异进行加权计算，得到特征信息的特征重要度标识；
9.从多个不同特征信息中，筛选出所述特征重要度标识中满足预设条件的特征信息，得到目标特征信息；
10.其中，所述正样本数据为第一用户对预设对象进行正向响应的样本数据；所述负样本数据为第一用户对预设对象进行负向响应的样本数据。
11.第二方面，本技术实施例提供了一种数据处理装置，该装置包括：
12.获取模块，用于获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数；
13.第一确定模块，用于对于每个特征信息，分别确定所述第一响应参数和所述第二响应参数之间的差异；
14.第二确定模块，用于对于每个特征信息，分别对各个差异进行加权计算，得到特征信息的特征重要度标识；
15.筛选模块，用于从多个不同特征信息中，筛选出所述特征重要度标识中满足预设条件的特征信息，得到目标特征信息；其中，所述正样本数据为第一用户对预设对象进行正向响应的样本数据；所述负样本数据为第一用户对预设对象进行负向响应的样本数据。
16.第三方面，本技术实施例提供了一种电子设备，该电子设备包括：处理器以及存储
有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如第一方面所述的数据处理方法。
17.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的数据处理方法。
18.第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面所述的数据处理方法。
19.本技术实施例的数据处理方法、装置、设备、存储介质和计算机程序产品，通过获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数，然后对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异，然后对各个差异进行加权计算，得到特征信息的特征重要度标识，基于该标识，从不同的特征信息中，选取目标特征信息，如此高效实现了从海量的特征信息中去除冗余特征信息的目的。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理，并不构成对本技术的不当限定。
22.图1是本技术第一方面的实施例提供的数据处理方法的流程示意图；
23.图2是本技术第一方面实施例涉及的数据处理系统的结构示意图
24.图3是本技术第二方面实施例提供的数据处理装置的结构示意图；
25.图4是本技术第三方面的实施例提供的电子设备的结构示意图。
具体实施方式
26.为了使本领域普通人员更好地理解本技术的技术方案，下面将结合附图，对本技术实施例中的技术方案进行清楚、完整地描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
27.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的例子。
28.如背景技术部分所述，为了很好的从海量的特征信息中去除冗余特征信息，本技术实施例提供了一种数据处理方法、装置、设备、存储介质和计算机程序产品，通过获取正
样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数，然后对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异，然后对各个差异进行加权计算，得到特征信息的特征重要度标识，基于该标识，从不同的特征信息中，选取目标特征信息，如此高效实现了从海量的特征信息中去除冗余特征信息的目的。
29.下面首先对本技术实施例所提供的数据处理方法进行介绍。
30.图1示出了本技术一个实施例提供的数据处理方法的流程示意图。如图1所示，本技术实施例提供的数据处理方法具体包括如下步骤110-步骤140：
31.步骤110、获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数。
32.其中，正样本数据可以为第一用户对预设对象进行正向响应的样本数据。
33.负样本数据可以为第一用户对预设对象进行负向响应的样本数据。
34.步骤120、对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异。
35.步骤130、对于每个特征信息，分别对各个差异进行加权计算，得到特征信息的特征重要度标识。
36.步骤140、从多个不同特征信息中，筛选出特征重要度标识中满足预设条件的特征信息，得到目标特征信息。
37.在本技术的实施例中，通过获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数，然后对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异，然后对各个差异进行加权计算，得到特征信息的特征重要度标识，基于该标识，从不同的特征信息中，选取目标特征信息，如此高效实现了从海量的特征信息中去除冗余特征信息的目的。
38.下面对本技术实施例提供的数据处理方法进行详细介绍：
39.首先介绍步骤110，获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数。
40.其中，正样本数据可以为第一用户对预设对象进行正向响应的样本数据。
41.在本技术的一些实施例中，第一用户可以是对预设对象进行响应的用户。
42.预设对象可以是预先设置的对象，这里的预设对象可以是一次活动，对应的第一用户可以是参与该活动的用户。
43.在本技术的一些实施例中，正向响应可以是正面的响应。例如，以预设对象为一次线上营销活动为例，正向响应可以是在该活动进行了消费行为。对应的正样本数据可以是参与了该活动且在该线上营销活动中进行了消费行为的第一用户。
44.在本技术的一些实施例中，负样本数据可以为第一用户对预设对象进行负向响应的样本数据。
45.在本技术的一些实施例中，负向响应可以是负向的响应。例如，以预设对象为一次线上营销活动为例，负向响应可以是在该活动未进行消费行为。对应的负样本数据可以是参与了该活动且在该线上营销活动中未进行消费行为的第一用户。
46.在本技术的一些实施例中，特征信息可以是与预设对象对应的，用于表征预设对
象特征的信息。例如，以预设对象为一次线上营销活动为例，这里的特征信息可以但不限于是：分享使用次数、公共缴费使用次数、优惠详情页使用次数、我的红包使用次数、搜索页面使用次数、支付控件使用次数和账单使用次数。
47.在本技术的一些实施例中，第一响应参数可以是正样本数据分别在各特征信息下的响应参数。这里的第一响应参数可以包括第一响应次数和第一响应人数。
48.在本技术的一些实施例中，第一响应次数可以是正样本数据分别在各特征信息下的响应次数。
49.在一个示例中，以预设对象为一次线上营销活动，特征信息为分享使用次数，正样本数据为用户a、用户b和用户c为例，若用户a分享使用次数为1次，用户b未使用分享使用，用户c使用了2次分享使用，则第一响应次数为3次。
50.在本技术的一些实施例中，第一响应人数可以是正样本数据分别在各特征信息下的响应人数。
51.在一个示例中，以预设对象为一次线上营销活动，特征信息为分享使用次数，正样本数据为用户a、用户b和用户c为例，若用户a使用了1次分享使用，用户b未使用分享使用，用户c使用了2次分享使用，则第一响应人数为2(即用户a和c两人)。
52.在本技术的一些实施例中，第二响应参数可以是负样本数据分别在各特征信息下的响应参数。这里的第二响应参数可以包括第二响应次数和第二响应人数。
53.在本技术的一些实施例中，第二响应次数可以是负样本数据分别在各特征信息下的响应次数。具体示例可参照第一响应次数，这里不再赘述。
54.在本技术的一些实施例中，第二响应人数可以是负样本数据分别在各特征信息下的响应人数。具体示例可参照第一响应人数，这里不再赘述。
55.然后介绍步骤120，对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异。
56.在本技术的一些实施例中，在确定了第一响应参数和第二响应参数之后，对于每个特征信息，可分别确定第一响应参数和第二响应参数之间的差异。
57.在本技术的一些实施例中，为了进一步实现在海量特征信息去除冗余特征信息，在步骤120之前，上述所涉及的数据处理方法还可以包括：
58.获取正样本数据的第一数量，以及负样本数据的第二数量。
59.在本技术的一些实施例中，第一数量可以是正样本数据的数量。
60.第二数量可以是负样本数据的数量。
61.对应的，步骤120具体的可以包括：
62.对于每个特征信息，确定第一响应参数和第一数量的第一比值；
63.对于每个特征信息，确定第二响应参数和第二数量的第二比值；
64.确定第一比值和第二比值的差异。
65.在本技术的一些实施例中，第一比值可以是第一响应参数和第一数量的比值。
66.第二比值可以是第二响应参数和第二数量的比值。
67.在本技术的实施例中，对于每个特征信息，通过确定第一响应参数和第一数量的第一比值，以及第二响应参数和第二数量的第二比值，如此可精确确定第一比值和第二比值的差异，进而可精确的基于该差异去除冗余特征信息。
68.在本技术的一些实施例中，为了精确确定第一比值，所述对于每个特征信息，确定第一响应参数和第一数量的第一比值，具体可以包括：
69.对于每个特征信息，确定第一响应人数和第一数量的第一子比值，以及第一响应次数和第一数量的第二子比值。
70.在本技术的一些实施例中，第一子比值可以是第一响应人数和第一数量的比值。
71.第二子比值可以是第一响应次数和第一数量的比值。
72.在本技术的一些实施例中，为了精确确定第二比值，所述对于每个特征信息，确定第二响应参数和第二数量的第二比值，具体可以包括：
73.对于每个特征信息，确定第二响应人数和第二数量的第三子比值，以及第二响应次数和第二数量的第四子比值。
74.在本技术的一些实施例中，第三子比值可以是第二响应人数和第二数量的比值。
75.第四子比值可以是第二响应次数和第二数量的比值。
76.在本技术的实施例中，对应每个特征信息，可确定第一响应人数和第一数量的第一子比值，以及第一响应次数和第一数量的第二子比值，以及第二响应人数和第二数量的第三子比值，以及第二响应次数和第二数量的第三子比值，如此可得到精确的第一比值和第二比值，进而可基于该精确的第一比值和第二比值，去除冗余特征信息。
77.在本技术的一些实施例中，为了精确确定第一比值和第二比值的差异，所述确定第一比值和第二比值的差异，具体可以包括：
78.确定第一子比值和第三子比值的第一差异，以及第二子比值和第四子比值的第二差异。
79.在本技术的一些实施例中，第一差异可以是第一子比值和第三子比值的差异。具体的可以是通过第一子比值和第三子比值的比值来体现两者之间的差异。
80.第二差异可以是第二子比值和第四子比值的差异。具体的可以是通过第二子比值和第四子比值的比值来体现两者之间的差异。
81.在本技术的实施例中，通过确定第一子比值和第三子比值的第一差异，以及第二子比值和第四子比值的第二差异，可进而精确基于该第一差异和第二差异，去除冗余特征信息。
82.接着介绍步骤130，对于每个特征信息，分别对各个差异进行加权计算，得到特征信息的特征重要度标识。
83.在本技术的一些实施例中，特征重要度标识可以是用于表征特征信息的重要度的标识。
84.在本技术的一些实施例中，为了精确对各个差异进行加权计算，步骤130具体可以包括：
85.对于每个特征信息，对第一差异和第二差异进行加权计算，得到特征信息的特征重要度标识。
86.在本技术的一些实施例中，具体的可以通过如下公式(1)得到特征信息的特征重要度标识：
87.88.其中，ni和m
l
分别为每个正样本数据和负样本数据在某一特征下的取值(i＝1,2,
…
n,l＝1,2,
…
m)，ai和b
l
分别为每个正样本数据和负样本数据是否有该特征，其取值为0或1。n为正样本数据的数量(即第一数量)，m为负样本数据的数量(即第二数量)。
∝
为权重值(其值可根据用户需求自行设置，默认
∝
＝0.5)。
89.下面以具体示例说明上述公式(1)中各字符的含义：
90.以预设对象为一次线上营销活动，正样本数据的数量(即第一数量)为3个(即n＝3)，负样本数据的数量(即第二数量)为5个(即m＝5)。其中，正样本数据有用户a、用户b和用户c，负样本数据有用户d、用户e、用户f、用户g和用户h。用户a分享使用次数为1次，用户b分享使用次数为0次，用户c分享使用次数为2次，用户d分享使用次数为1次，用户e分享使用次数为1次，用户f分享使用次数为0次，用户g分享使用次数为2次，用户h分享使用次数为1次。则ni(其中，这里的i分别为用户a、用户b和用户c)的取值分别为1、0和2(如此，表示各正样本数据在该特征(分享使用次数)下的取值的总和(即1 0 2＝3))，m
l
(其中，这里的l分别为用户d、用户e、用户f、用户g和用户h)的取值分别为1、1、0、2和1(如此，表示各负样本数据在该特征(分享使用次数)下的取值的总和(即1 1 0 2 1＝5))。由于用户a和用户c具有分享使用次数这个特征信息，则其对应的ai的取值均为1，用户b不具有分享使用次数这个特征信息，其对应的ai的取值为0(如此，表示各正样本数据是否具有该特征的总和，即为1 0 1＝2)。由于用户d、用户e、用户g和用户h具有分享使用次数这个特征信息，则其对应的b
l
的取值为1，用户f不具有分享使用次数这个特征信息，其对应的b
l
的取值为0(如此，表示各负样本数据是否具有该特征的总和，即为1 1 0 1 1＝4)。
91.继续参考上述示例，说明步骤120-130的过程：
92.针对分享使用次数这个特征信息而言，第一响应人数和第一数量的第一子比值，即为上述的(第一响应人数)和n(第一数量)的比值(第一子比值)。
93.针对分享使用次数这个特征信息而言，第一响应次数和第一数量的第二子比值，即为上述的(第一响应次数)和n(第一数量)的比值(第二子比值)。
94.针对分享使用次数这个特征信息而言，第二响应人数和第二数量的第三子比值，即为上述的(第二响应人数)和m(第二数量)的比值(第三子比值)。
95.针对分享使用次数这个特征信息而言，第二响应次数和第二数量的第四子比值，即为上述的(第二响应次数)和m(第二数量)的比值(第四子比值)。
96.针对分享使用次数这个特征信息而言，第一子比值和第三子比值的第一差异，即为上述的
97.针对分享使用次数这个特征信息而言，第二子比值和第四子比值的第二差异，即为上述的
98.然后对第一差异和第二差异进行加权计算，得到分享使用次数这个特征信息的特征重要度标识y。
99.需要说明的是，特征重要度标识的值越高，表明正样本数据和负样本数据之间的差异度越大，即该特征信息与第一用户的响应情况的关联度越高，反之则越弱。
100.需要说明的是，上述公式(1)中，只有当ni、m
l
、和的取值均大于某一阈值(该值可根据用户需求自行设置，这里不做限定，本技术实施例中可以是)时，得分值y才有意义。
101.最后介绍步骤140，从多个不同特征信息中，筛选出特征重要度标识中满足预设条件的特征信息，得到目标特征信息。
102.其中，预设条件可以是预先设置的特征重要度标识满足的条件。
103.目标特征信息可以是从不同的特征信息中，筛选出的特征重要度标识满足预设条件的特征信息。
104.在一个示例中，特征信息具有10个，筛选出的特征重要度标识中满足预设条件的特征信息有4个，则这4个特征信息为目标特征信息。
105.在本技术的一些实施例中，为了精确从多个不同的特征信息中筛选出目标特征信息，步骤140具体可以包括：
106.将特征重要度标识按照从大到小的顺序进行排列，筛选出序次在前n的特征重要度标识对应的特征信息，得到目标特征信息。
107.其中，n为大于或等于1的正整数。
108.以预设对象为某一次线上营销活动为例，表1示出了部分特征信息对应的得分值的排序情况：
109.表1
[0110][0111]
上述表1中的负样本得分值为(第二响应次数)和m(第二数量)的比值(第四子比值)，正样本得分值为(第一响应次数)和n(第一数量)的比值(第二子比值)，次数之比为负样本得分值和正样本得分值的比值。负样本数为(第二响应人数)和m(第二数量)的比值，正样本数为(第一响应人数)和n(第一数量)的比值(第一子比值)，人数之比为负样本数和正样本数的比值，得分上述公式(1)中的y值。
[0112]
需要说明的是，上述表1中的负样本得分值、正样本得分值、负样本数和正样本数并非针对该特征的同一次的数据，故表1中的次数之比的数值并非是负样本得分值和正样本得分值的比值。例如，针对分享使用次数这个特征信息而言，负样本得分值可能是针对的
分享使用次数1次而得到的数值，正样本得分值可能是针对分享使用次数为2次而得到的数值，故所得到的次数之比并非是负样本得分值和正样本得分值的比值。但是在实际计算的过程中，次数之比是负样本得分值和正样本得分值的比值。
[0113]
在本技术的实施例中，通过将特征重要度标识按照从大到小的顺序进行排列，筛选出序次在前n的特征重要度标识对应的特征信息，得到目标特征信息，由于将特征重要度标识按照从大到小的顺序信息排列，则排列靠前的特征重要度标识对应的特征信息与第一用户的响应情况的关联度越高，如此，将排序靠前的n个特征重要度标识对应的特征信息筛选出来，即可得到与第一用户的响应情况的关联度高的特征信息，去除了冗余的关联度不高的特征信息。
[0114]
在本技术的一些实施例中，在模型构建过程中，常因某些客观因素，导致正样本数据或负样本数据过少，即正样本数据和负样本数据失衡的问题。为了解决该正样本数据和负样本数据失衡的问题，在所述获取正样本数据的第一数量，以及负样本数据的第二数量之后，上述所涉及的数据处理方法还可以包括：
[0115]
对负样本数据进行采样，得到目标负样本数据的第三数量。
[0116]
其中，目标负样本数据可以是对负样本数据进行采样后得到的负样本数据。
[0117]
第三数量可以是目标负样本数据的数量。
[0118]
在一个示例中，负样本数据有5个，分别为用户d、用户e、用户f、用户g和用户h，对这5个负样本数据进行采样后，得到的负样本数据为用户d、用户e和用户f，则用户d、用户e和用户f为目标负样本数据，第三数量为3个。
[0119]
对应的，所述对于每个特征信息，确定第二响应参数和第二数量的第二比值，具体可以包括：
[0120]
对于每个特征信息，确定第二响应参数和第三数量的第二比值。
[0121]
在本技术的实施例中，通过对负样本数据进行采样，得到目标负样本数据的第三数量，如此可使正样本数据和负样本数据的数量均衡，进一步提升去除冗余特征信息的精确性。
[0122]
在本技术的一些实施例中，为了精确对负样本数据进行采样，所述对负样本数据进行采样，得到目标负样本数据的第三数量，具体可以包括：
[0123]
获取历史预设对象对应的历史正样本数据的第四数量和历史负样本数据的第五数量；
[0124]
基于第一数量、第四数量和第五数量，得到目标负样本数据的第三数量。
[0125]
其中，历史预设对象可以是在该预设对象之前，与预设对象为同种类型的对象。以预设对象为一次线上营销活动为例，则历史预设对象为在该次线上营销活动之前，与该次线上营销活动为同种类型的线上营销活动。
[0126]
历史正样本数据可以是历史预设对象中的正样本数据。
[0127]
第四数量可以是历史正样本数据的数量。
[0128]
历史负样本数据可以是历史预设对象中的负样本数据。
[0129]
第五数量可以是历史负样本数据的数量。
[0130]
在一个示例中，以预设对象为一次线上营销活动为例，则历史预设对象为在该次线上营销活动之前，与该次线上营销活动为同种类型的线上营销活动。在该历史线上营销
活动中，进行了消费行为的用户即为正样本数据，未进行消费行为的用户即为负样本数据。
[0131]
在本技术的一些实施例中，可根据如下公式(2)，基于第一数量、第二数量、第四数量和第五数量，得到目标负样本数据的第三数量：
[0132][0133]
其中，ai为正样本数据的数量(即第一数量)，aj是目标负样本数据的数量(即第三数量)，ci为历史正样本数据的数量(即第四数量)cj是历史负样本数据的数量(即第五数量)。
[0134]
在本技术的一些实施例中，通过公式(2)得到目标负样本数据的第三数量后，可从第二数量中随机挑选出第三数量的负样本数据作为目标负样本数据，也可以是根据某一些特征信息挑选出第三数量的负样本数据作为目标负样本数据，具体的如何挑选可根据用户需求自行设置，这里不做限定。
[0135]
在本技术的实施例中，通过对获取历史预设对象对应的历史正样本数据的第四数量和历史负样本数据的第五数量；基于第一数量、第四数量和第五数量，可得到目标负样本数据的第三数量，如此可使正样本数据和负样本数据的数量均衡，以更加精确的去除冗余特征信息。
[0136]
需要说明的是，本技术实施例中，是以负样本数据远大于正样本数据为例来进行说明解决正样本数据和负样本数据不均衡的问题的，故这里的仅示出了对负样本数据进行采样的方案，未示出对正样本数据进行采样的方案。但是在实际应用过程中，若出现正样本数据远大于负样本数据，需要对正样本数据进行采样，可采样与对负样本数据进行采样的同种方式进行实现，在此不再赘述。
[0137]
在本技术的一些实施例中，除了可以利用上述方式解决正样本数据和负样本数据均衡的问题之外，还可以采用metropolis-hastings抽样的方式，具体的metropolis-hastings抽样属于现有技术，这里不再赘述。
[0138]
在本技术的一些实施例中，为了让更多的用户对预设对象进行响应，在步骤140之后，上述所涉及的数据处理方法还可以包括：
[0139]
基于正样本数据的目标特征信息和负样本数据的目标特征信息，训练预测模型，得到目标预测模型。
[0140]
其中，预测模型可以是用于预测未对预设对象进行响应的第二用户响应预设对象的概率值。
[0141]
这里的第二用户可以是未对预设对象进行响应的用户。
[0142]
在一个示例中，以预设对象为一次线上营销活动为例，第二用户即为未参与该线上营销活动的用户。
[0143]
目标预测模型可以是对预测模型进行训练后所得到的模型。
[0144]
在本技术的实施例中，通过基于正样本数据的目标特征信息和负样本数据的目标特征信息，训练预测模型，得到目标预测模型，如此可基于该目标预测模型预测未对预设对象进行响应的第二用户响应预设对象的概率值。
[0145]
在本技术的一些实施例中，目标预测模型可以包括第一网络和第二网络。
[0146]
其中，第一网络可以是目标预测模型中的一个子模型。
[0147]
第二网络可以是目标预测模型中的除第一网络外的另一个子模型。
[0148]
在本技术的一些实施例中，由于目标预测模型是用于预测未对预设对象进行响应的第二用户响应预设对象的概率值，故需要目标预测模型具有很高的解释性，且使用方便。故这里的第一网络可以是线性模型，第二网络可以是树模型。由于线性模型使用简单，树模型具有较强的解释性，故将两个模型进行结合，可形成具有普适性、较强解释性的融合模型，以便于更好的预测未对预设对象进行响应的第二用户响应预设对象的概率值。
[0149]
在所述基于正样本数据的目标特征信息和负样本数据的目标特征信息，训练预测模型，得到目标预测模型之后，上述所涉及的数据处理方法还可以包括：
[0150]
基于第二用户对应的目标特征信息，以及第一网络，预测第二用户响应预设对象的第一概率值；
[0151]
基于第二用户对应的目标特征信息，以及第二网络，预测第二用户响应预设对象的第二概率值；
[0152]
将第一概率值和第二概率值进行加权计算，得到第二用户响应预设对象的概率值。
[0153]
其中，第一概率值可以是基于第一网络预测的第二用户响应预测对象的概率值。
[0154]
第二概率值可以是基于第二网络预测的第二用户响应预测对象的概率值。
[0155]
在本技术的一些实施例中，可以将第一概率值和第二概率值进行加权计算，得到第二用户响应预设对象的概率值。具体的可以通过如下公式(3)可通过目标预测模型预测未对预设对象进行响应的第二用户响应预设对象的概率值：
[0156][0157]
其中，lr
score
i为第i(i＝1,2,
…
n)个第二用户在线性模型下的得分(即第一概率值)，xgboost
score
i为第i个用户在树模型下的得分(即第二概率值)；
∝
为权重值(其可根据用户需求自行设置，默认
∝
＝0.5)。
[0158]
在本技术的实施例中，通过基于第二用户对应的目标特征信息，以及第一网络，预测第二用户响应预设对象的第一概率值；基于第二用户对应的目标特征信息，以及第二网络，预测第二用户响应预设对象的第二概率值；将第一概率值和第二概率值进行加权计算，如此可精确得到第二用户响应预设对象的概率值，提升第二用户想要预设对象的概率值。
[0159]
在本技术的一些实施例中，为了使更多的人可对预设对象进行响应，在所述将第一概率值和第二概率值进行加权计算，得到第二用户响应预设对象的概率值之后，上述所涉及的数据处理方法还可以包括：
[0160]
从概率值中筛选出数值大于或等于预设概率值的概率值，得到目标概率值；
[0161]
向目标概率值对应的第二用户推送预设对象对应的信息。
[0162]
其中，预设概率值可以是预先设置的概率值的阈值。
[0163]
目标概率值可以是从概率值中筛选出的数值大于或等于预设概率值的概率值。
[0164]
在本技术的一些实施例中，可从概率值中筛选出数值大于或等于预设概率值的概率值，得到目标概率值，然后通过短信或线上推送的方式向目标概率值对应的第二用户推送预设对象对应的信息，以使第二用户可及时了解该预设对象的信息，并对该预设对象进行响应，提升对预设对象响应的概率。
[0165]
在本技术的一些实施例中，在通过短信或线上推送的方式向目标概率值对应的第二用户推送预设对象对应的信息时，可以通过ab实验的方式向其推送预设对象对应的信息。具体的例如一共需要向10个第二用户推送预设对象对应的信息，可以先用a短信模板发送预设对象对应的信息给其中5个第二用户，然后用b短信模板发送预设对象对应的信息给剩下的5个第二用户，如此可基于后续这10个第二用户对预设对象的响应效果，选取更适用于预设对象的推送方式，如此进一步提升了第二用户响应预设对象的概率。
[0166]
在本技术的实施例中，通过从概率值中筛选出数值大于或等于预设概率值的概率值，得到目标概率值；向目标概率值对应的第二用户推送预设对象对应的信息，如此可使第二用户可及时了解该预设对象的信息，并对该预设对象进行响应，提升对预设对象响应的概率。
[0167]
在本技术的一些实施例中，为了进一步提升去除冗余特征信息的精确性，在所述向目标概率值对应的第二用户推送预设对象对应的信息之后，上述所涉及的数据处理方法还可以包括：
[0168]
获取对预设对象进行正向响应的第二用户的第六数量，以及对预设对象进行负向响应的第二用户的第七数量；
[0169]
基于第六数量对正样本数据进行更新，以及基于第七数量对负样本数据进行更新。
[0170]
其中，第六数量可以是对预设对象进行正向响应的第二用户的数量。
[0171]
第七数量可以是对预设对象进行负向响应的第二用户的数量。
[0172]
在本技术的一些实施例中，在每因一轮向目标概率值对应的第二用户推送预设对象对应的信息后，可获取被推送信息的第二用户对预设对象的响应结果，作为海量特征信息的补充，来优化冗余特征信息标签筛选信息。具体的可以是获取对预设对象进行正向响应的第二用户的第六数量，以及对预设对象进行负向响应的第二用户的第七数量，然后基于第六数量对正样本数据进行更新，以及基于第七数量对负样本数据进行更新。
[0173]
在一个示例中，若正样本数据有n个，负样本数据有m个，则可利用第六数量对正样本数据进行更新，以及基于第七数量对负样本数据进行更新，若n
′i为更新后的每个正样本数据在某一特征下的取值，m
′
l
为更新后的每个负样本数据在该特征下的取值，a
′i为更新后的每个正样本数据是否具有该特征，b
′
l
为更新后的每个负样本数据是否有该特征，则特征重要度标识y
′
更新如下公式(4)：
[0174][0175]
在本技术的实施例中，通过获取对预设对象进行正向响应的第二用户的第六数量，以及对预设对象进行负向响应的第二用户的第七数量；基于第六数量对正样本数据进行更新，以及基于第七数量对负样本数据进行更新，如此可不断对海量特征信息进行优化，提升去除冗余特征信息的精确性，得到更加具有代表性的可用于构建预测模型的目标特征信息。
[0176]
在本技术的一些实施例中，为了使用户能够更加详细的了解本技术实施例的技术方案，下面以预设对象为一次线上营销活动为例来详细说明本技术实施例的技术方案：
[0177]
图2为本技术实施例提供的实现数据数据处理方法的数据处理系统的框架图，如
图2所示，该数据处理系统包括：冗余特征处理模块210、线上场景预测模型构建模块220、用户触达模块230和效果检验与特征优化模块240。
[0178]
下面以预设对象为一次线上营销活动为例来详细说明各模块的作用：
[0179]
1、冗余特征处理模块210
[0180]
在本技术的一些实施例中，冗余特征处理模块210用于从海量的特征信息去除冗余特征信息，得到目标特征信息。其对应于上述实施例中的步骤110-步骤140，具体的在此不再赘述。
[0181]
如此，通过对正样本数据和负样本数据在各个特征信息下的响应参数进行对比分析，以差异度作为特征重要度的标识，在海量特征信息中提炼优质特征信息，去除冗余特征信息，提高后续预测模型训练效率及有效性。
[0182]
2、线上场景预测模型构建模块220
[0183]
在本技术的一些实施例中，线上场景预测模型构建模块220主要实现了两个部分内容，一个是对线上营销活动中的负样本数据进行采样，得到目标负样本数据；另一个是利用目标特征信息对预测模型进行训练，得到目标预测模型。具体的各部分内容的实现过程在上述实施例中已经介绍，在此不再赘述。
[0184]
如此，通过对负样本数据进行采样，解决正样本数据和负样本数据不均衡的问题，完正样本数据和负样本数据的构建。同时通过树模型和线性模型的融合，形成具有较强可解释性的融合预测模型，并基于触达结果对预测模型结果进行优化调整，多算法融合的线上场景高潜在用户(即第二用户)响应预设对象的概率。
[0185]
3、用户触达模块230
[0186]
在本技术的一些实施例中，用户触达模块230是用于在基于目标预测模型得到第二用户对预设对象进行响应的概率值后，通过短信或线上推送的方式将预设对象的信息发送至第二用户。具体的实现过程在上述实施例中已经介绍，在此不再赘述。
[0187]
4、效果检验与特征优化模块240
[0188]
在本技术的一些实施例中，效果检验与特征优化模块240用于在每次用户触达模块之后，对第二用户对预设对象的响应结果进行记录，作为海量特征信息的补充，优化冗余特征信息标签筛选，完善预测模型效果数据。具体的实现过程在上述实施例中已经介绍，在此不再赘述。
[0189]
本技术实施例提出的数据处理系统，旨在通过冗余特征信息去除、数据迁移采样和多模型融合等方法，形成用户筛选、触达、优化全链路完整式的解决方案，以简洁有效的方式对用户提供差异化数据服务，加强用户与线上场景间的适配度，提升用户体验、提高业务方用户运营的效率及成效。
[0190]
需要说明的是，本技术实施例提供的数据处理方法，执行主体可以为数据处理装置，或者该数据处理装置中的用于执行数据处理方法的控制模块。本技术实施例中以数据处理装置执行数据处理方法为例，说明本技术实施例提供的数据处理装置。
[0191]
基于与上述的数据处理方法相同的发明构思，本技术还提供了一种数据处理装置，下面结合图3对本技术实施例提供的数据处理装置进行详细说明。
[0192]
图3是根据一示例性实施例示出的一种数据处理装置的结构框图。
[0193]
如图3所示，数据处理装置300可以包括：
[0194]
获取模块310，用于获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数；
[0195]
第一确定模块320，用于对于每个特征信息，分别确定所述第一响应参数和所述第二响应参数之间的差异；
[0196]
第二确定模块330，用于对于每个特征信息，分别对各个差异进行加权计算，得到特征信息的特征重要度标识；
[0197]
筛选模块340，用于从多个不同特征信息中，筛选出所述特征重要度标识中满足预设条件的特征信息，得到目标特征信息；其中，所述正样本数据为第一用户对预设对象进行正向响应的样本数据；所述负样本数据为第一用户对预设对象进行负向响应的样本数据。
[0198]
在本技术的实施例中，通过获取模块获取正样本数据分别在多个不同特征信息下的第一响应参数，以及负样本数据分别在多个不同特征信息下的第二响应参数，然后基于第一确定模块对于每个特征信息，分别确定第一响应参数和第二响应参数之间的差异，然后基于第二确定模块对各个差异进行加权计算，得到特征信息的特征重要度标识，通过筛选模块基于该标识，从不同的特征信息中，选取目标特征信息，如此高效实现了从海量的特征信息中去除冗余特征信息的目的。
[0199]
在本技术的一些实施例中，为了进一步实现在海量特征信息去除冗余特征信息，获取模块还可以用于：
[0200]
获取所述正样本数据的第一数量，以及所述负样本数据的第二数量；
[0201]
对应的，第一确定模块具体可以包括：
[0202]
第一确定单元，用于对于每个特征信息，确定第一响应参数和第一数量的第一比值；
[0203]
第二确定单元，用于对于每个特征信息，确定第二响应参数和第二数量的第二比值；
[0204]
第三确定单元，用于确定所述第一比值和所述第二比值的差异。
[0205]
在本技术的一些实施例中，所述第一响应参数包括第一响应人数和第一响应次数；所述第二响应参数包括第二响应人数和第二响应次数。
[0206]
在本技术的一些实施例中，为了精确确定第一比值，第一确定单元具体可以用于：对于每个特征信息，确定第一响应人数和第一数量的第一子比值，以及第一响应次数和第一数量的第二子比值。
[0207]
在本技术的一些实施例中，为了精确确定第二比值，第二确定单元具体可以用于：对于每个特征信息，确定第二响应人数和第二数量的第三子比值，以及第二响应次数和第二数量的第四子比值。
[0208]
在本技术的一些实施例中，第三确定单元具体可以用于：确定所述第一子比值和所述第三子比值的第一差异，以及所述第二子比值和所述第四子比值的第二差异。
[0209]
对应的，第二确定模块可具体用于：对于每个特征信息，对所述第一差异和所述第二差异进行加权计算，得到特征信息的特征重要度标识。
[0210]
在本技术的一些实施例中，为了进一步提升目标特征信息的确定的精确性，上述所涉及的数据处理装置还可以包括：
[0211]
采样模块，用于对所述负样本数据进行采样，得到目标负样本数据的第三数量；
[0212]
对应的，所述第二确定单元具体可以用于：
[0213]
对于每个特征信息，确定第二响应参数和第三数量的第二比值。
[0214]
在本技术的一些实施例中，为了精确对负样本数据进行采样，采用模块具体可以用于：
[0215]
获取历史预设对象对应的历史正样本数据的第四数量和历史负样本数据的第五数量；
[0216]
基于所述第一数量、所述第四数量和所述第五数量，得到目标负样本数据的第三数量。
[0217]
在本技术的一些实施例中，为了精确从多个不同的特征信息中筛选出目标特征信息，筛选模块具体可以用于：
[0218]
将所述特征重要度标识按照从大到小的顺序进行排列，筛选出序次在前n的特征重要度标识对应的特征信息，得到目标特征信息；其中n为大于或等于1的正整数。
[0219]
在本技术的一些实施例中，为了让更多的用户对预设对象进行响应，上述所涉及的数据处理装置还可以包括：
[0220]
模型训练模块，用于基于所述正样本数据的目标特征信息和所述负样本数据的目标特征信息，训练预测模型，得到目标预测模型；所述预测模型用于预测未对预设对象进行响应的第二用户响应所述预设对象的概率值。
[0221]
在本技术的一些实施例中，所述目标预测模型包括第一网络和第二网络；上述所涉及的数据处理装置还可以包括：
[0222]
第一预测模块，用于基于所述第二用户对应的目标特征信息，以及所述第一网络，预测所述第二用户响应所述预设对象的第一概率值；
[0223]
第二预测模块，用于基于所述第二用户对应的目标特征信息，以及所述第二网络，预测所述第二用户响应所述预设对象的第二概率值；
[0224]
第三确定模块，用于将所述第一概率值和所述第二概率值进行加权计算，得到所述第二用户响应所述预设对象的概率值。
[0225]
在本技术的一些实施例中，为了使更多的人可对预设对象进行响应，上述所涉及的数据处理装置还可以包括：
[0226]
第四确定模块，用于从所述概率值中筛选出数值大于或等于预设概率值的概率值，得到目标概率值；
[0227]
信息推送模块，用于向所述目标概率值对应的第二用户推送所述预设对象对应的信息。
[0228]
在本技术的一些实施例中，为了进一步提升去除冗余特征信息的精确性，获取模块还可以具体用于：
[0229]
获取对所述预设对象进行正向响应的第二用户的第六数量，以及对所述预设对象进行负向响应的第二用户的第七数量；
[0230]
上述所涉及的数据处理装置还可以包括：
[0231]
更新模块，用于基于所述第六数量对所述正样本数据进行更新，以及基于所述第七数量对所述负样本数据进行更新。
[0232]
图4示出了本技术实施例提供的电子设备的硬件结构示意图。
[0233]
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
[0234]
具体地，上述处理器401可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0235]
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。
[0236]
存储器可包括只读存储器(rom)，随机存取存储器(ram)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。
[0237]
处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。
[0238]
在一个示例中，电子设备还可包括通信接口403和总线410。其中，如图4所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
[0239]
通信接口403，主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
[0240]
总线410包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
[0241]
该电子设备执行本技术实施例中的数据处理方法，从而实现结合图1描述的数据处理方法。
[0242]
另外，结合上述实施例中的数据处理方法，本技术实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
[0243]
需要明确的是，本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本技术的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本技术的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0244]
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组
合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0245]
还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
[0246]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
[0247]
以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种目标对象检测方法、装置、存储介质及电子装置与流程

数据处理方法、装置、设备、存储介质和计算机程序产品与流程

相关文献

最热文献