一种确定流量模型的数据处理系统的制作方法

2022-10-13 00:11:54 来源：中国专利 TAG：

1.本技术涉及模型预测技术领域，具体涉及一种确定流量模型的数据处理系统。

背景技术：

2.随着技术的发展，模型的更迭越来越频繁，用户对模型预测准确程度的要求也越来越高，通常技术人员对现有使用模型进行替换时，采用先将现有使用模型停止使用，再将新模型接替现有使用模型进行使用的方式，当技术人员观察到新模型的使用状况不理想时，再换回现有使用模型进行使用。
3.这样的话，无法对现有使用模型与新模型并行运行进行比较，导致得到的结果不够准确，并且当使用新模型出现问题时，换回现有使用模型浪费时间资源，也会导致一部分损失，保证不了预测的准确性。

技术实现要素：

4.针对上述技术问题，本技术采用的技术方案为：
5.一种确定流量模型的数据处理系统，所述系统包括：第一模型id列表a、样本流量列表l、处理器、数据库和存储有计算机程序的存储器，其中，所述第一模型id列表a＝(a1，a2，...，aj，...，an)，aj为第j个第一模型id，j的取值为1到n，n为第一模型id数量，所述第一模型为未训练过的流量模型；所述样本点击率列表l＝(l1，l2，...，lr，...，ls)，lr为在第r个第一时间段的点击率均值，r的取值为1到s，s为时间段的数量；
6.当所述将计算机程序被处理器执行时，实现以下步骤：
7.s100、根据样本流量列表与a，获取第二模型id列表b1＝(b
11
，b
12
，...，b
1i
，...，b
1m
)，bi为第i个第二模型id，i的取值为1到m，m为第二模型id的数量，所述第二模型为通过训练的流量模型；
8.s200、将当前使用模型插入到第二模型列表中，构建成第三模型id列表c＝(c1，c2，...，cg，...，cz)，cg为第g个第三模型id，g的取值为1到z，z为第三模型id的数量，所述第三模型id为当前投入使用的流量模型；
9.s300、获取第二时间段的流量列表f＝(f1，f2，...，fy，...，fq)，fy为第y个第二时间段的流量数值，y的取值为1到q，q为第二时间段的数量；
10.s400、根据f和c，获取dy＝(d
y1
，d
y2
，...，d
yg
，...，d
yz
)，d
yg
为第g个第三模型在第y个第二时间段预测的点击率均值；
11.s500、根据dy，获取d0＝(d
01
，d
02
，...，d
0g
，...，d
0z
)，d
0g
符合如下条件：
[0012][0013]
s600、遍历d0，从d0中获取最大值d
0max
，并将d
0max
对应的第三模型作为当前投入使用的消息模型。
[0014]
本技术至少具有以下技术效果：通过训练挑选出合误差在预设范围内的第二模型，并且与当前使用模型预设观察时间段内同时投入使用，预设一段合理的观察时间，观察每个模型对应的偏差均值，选择在预设观察时间中，最小偏差均值对应的模型继续使用，其余撤回，不再进行使用；从而不需要将当前使用模型暂停使用就可以测试新的模型的预测效果，可以尽可能减少误差，使得到的预测结果更加准确，可以使用户更加准确且直观的观察模型的预测效果，进而选择出最合适的预测模型。
[0015]
此外，本发明还能够根据第三模型处理流量的效率，对第三模型流量分配率的调整，使除当前使用模型外的第三模型都输入相同的流量数据，可以减少因为流量数据不同导致的误差，并且在任一第二时间段用户都可以调整流量分配率，使用户对数据的观察更加方便且对与数据的设置更加灵活。
附图说明
[0016]
为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]
图1为本技术实施例提供的
具体实施方式
[0018]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0019]
需要说明的是，本发明所使用的术语“第一”、“第二”等是用于对类似的对象作出命名上的区分，但这些对象本身不受这些术语限制。应当理解，在不脱离本发明的范围的情况下，这些术语在适当的情况下可以互换。例如，可将“第一对象信息”描述为“第二对象信息”，且类似地，将“第二对象信息”描述为“第一对象信息”。
[0020]
此外，术语“包括”、“包含”、“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已清楚地列出的步骤或单元，而是还可以包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021]
本技术实施例提供一种确定流量模型的数据处理系统，所述系统包括：第一模型id列表a、样本流量列表l、处理器、数据库和存储有计算机程序的存储器，其中，所述第一模型id列表a＝(a1，a2，...，aj，...，an)，aj为第j个第一模型id，j的取值为1到n，n为第一模型id数量，所述第一模型为需要训练的流量模型；所述样本点击率列表l＝(l1，l2，...，lr，...，ls)，lr为在第r个第一时间段的点击率均值，r的取值为1到s，s为时间段的数量。
[0022]
具体地，第一模型id为第一模型的唯一标识，进一步地，所述第一模型包括但不限于：lr模型(logistic regression model)、fm模型(factorization machines model)以及tf模型(tensorflow model)；本领域技术人员知晓，任一点击率预测模型均落在本发明保
护范围内。
[0023]
进一步地，所述第一模型在训练过程中为离线状态。
[0024]
进一步地，第1时间段＝第2时间段＝...＝第r时间段＝...＝第s时间段，可以理解为任一时间段的时间间隔相同。
[0025]
当所述计算机程序被处理器执行时，如图1所示，实现以下步骤：
[0026]
s100、根据样本流量列表与a，获取第二模型id列表b1＝(b
11
，b
12
，...，b
1i
，...，b
1m
)，bi为第i个第二模型id，i的取值为1到m，m为第二模型id的数量，所述第二模型为通过训练的流量模型。
[0027]
具体地，所述第二模型id为第二模型的唯一标识。
[0028]
进一步地，b1∈(a1，a2，...，aj，...，an)，且j的取值为1到n。
[0029]
进一步地，在s100中，还包括如下步骤：
[0030]
s110、基于l对a中的第一模型进行训练，获取点击率预测值列表yar＝(ya
r1
，ya
r2
，...，ya
rj
，...，ya
rn
)，ya
rj
为aj在第r个时间段预测出的点击率。
[0031]
具体地，在本发明实施例中，使用第r个时间段内的同一个消息对应的流量对第一模型进行训练，可以理解为，当在第p个时间段内存在2个以上消息时，选择流量数值最大的一个消息对所述第一模型进行训练，得出yar；所述流量数值最大消息可以理解为在第r个时间段内消息显示次数最多的消息。
[0032]
进一步地，在本发明实施例中，还可获取第二预测值列表ya
r2
＝(ya
r21
，ya
r22
，...，ya
r2j
，...，ya
r2n
)，ya
r2j
为xaj在第r时间段内的用户转换率。
[0033]
具体地，所述用户转换率为预测出的最大概率转换为点击第r个时间段发布消息的用户数量与接收到消息的用户数量的比值。
[0034]
具体地，使用第r个时间段的同一个消息对第一模型进行训练，可以理解为，当在第r个时间段内存在2个以上消息时，选择流量数值最大的一个消息对所述第一模型进行训练，得出ya
r2
。
[0035]
s120、根据yar与l，获取oe＝(oe1，oe2，...，oej，...，oen)，oej＝(oe
1j
，oe
2j
，....，oe
rj
，...，oe
sj
)，oe
rj
为ya
rj
与lr在第r个时间段内的比值。
[0036]
s130、根据oe，获取pe＝(pe1，pe2，...，pej，...，pen)，pej为oej对应的偏差均值，pej符合如下条件：
[0037][0038]
s140、根据pe，获取pe0＝(pe
01
，pe
02
，...，pe
0i
，...，pe
0m
)，pe
0i
为pe0第i个小于设定阈值的偏差均值。
[0039]
具体地，所述pe0初始为空集，将所述pe0中的每个值与设定阈值进行比较，当pe中的偏差均值≤设定阈值时，存入pe0，pe
0i
∈pe。
[0040]
进一步地，在本发明实施例中，所述设定阈值为0.01～0.1。
[0041]
优选地，所述设定阈值为0.01。
[0042]
s150、基于pe0，获取第二模型id列表b。
[0043]
具体地，将oe
upi
对应的第一模型id记为bi，进而获取到第二模型id列表b。
[0044]
s200、将当前使用模型插入到第二模型列表中，构建成第三模型id列表c＝(c1，
c2，...，cg，...，cz)，cg为第g个第三模型id，g的取值为1到z，z为第三模型id的数量，所述第三模型id为在线使用的流量模型。
[0045]
具体地，所述第二模型id为第二模型的唯一标识。进一步地，z＝m 1。
[0046]
这样，不需要将当前使用模型暂停使用以测试新的模型的效果，可以将第二模型与当前正在使用模型同时并行使用。
[0047]
s300、获取第二时间段的流量列表f＝(f1，f2，...，fy，...，fq)，fy为第y个预设观察时间段的流量数值，y的取值为1到q，q为第二时间段的数量。
[0048]
具体地，在本发明实施例中，本领域技术人员可根据需求设置q。
[0049]
进一步地，在本发明实施例中，所述第二时间段时间间隔的单位设置为天，q的取值为1天，由于模型的时效时间短，因此需要对模型的迭代更新预设一段合理的观察时间，使预测出的数据更加准确。
[0050]
进一步地，fy＝(f
y1
，f
y2
，...，f
ye
，...，f
yhy
)，f
ye
为在fy中包括的第e个第三时间段流量数值，e的取值为1到hy，hy为在第y天中第三时间段的数量。
[0051]
具体地，在本发明实施例中，本领域技术人员可根据实际需求设置hy。
[0052]
优选地，hy＝3。
[0053]
优选地，在本发明实施例中，任一第三时间段时间间隔为1h。
[0054]
这样，在一天内选取若干个时间段进行观察，且每个时间段的间隔时间相同，可以尽可能减少误差，使得到的预测结果更加准确，这样就可以使用户更加准确且直观的观察模型的预测效果。
[0055]
进一步地，s300中还包括如下步骤：
[0056]
s310、根据c，获取初始流量分配率列表fb＝(fb1，fb2，...，fbg，...，fbz)，fbg为cg的初始流量分配率。
[0057]
具体地，本领域技术人员可以根据实际需求设置fbg。
[0058]
进一步地，fb1 fb2
……
fbg
……
fbz＝1。
[0059]
优选地，fb1＞fb2＝
……
＝fbg＝
……
＝fbz，这样，无需进行后续的流量分配率调节，节省了用户的投放资源。
[0060]
s320、根据fb，获取x＝(x1，x2，...，xg，...，xz)，xg为cg的处理流量的效率。
[0061]
具体地，xg符合如下条件：
[0062][0063]
其中，f1为第1个第二时间段的流量数值，t1为第二时间间隔，时间单位为(天)。
[0064]
s330、基于x1，对所述初始流量分配率进行调整，获取最终流量分配表fc＝(fc1，fc2，...，fcg，...，fcz)，fcg为第g个第三模型的最终流量数值。
[0065]
具体地，所述最终流量数值可以理解为在q个第二时间段结束后输入第g个第三模型的总流量数值。
[0066]
优选地，fc1＞fc2＝...＝fcg＝...＝fcz。
[0067]
上述，除当前使用模型外的第三模型都输入相同的流量数据，可以减少因为流量数据不同导致的误差，并且在任一第二时间段用户都可以调整流量分配率，使用户对数据的观察更加方便且对与数据的设置更加灵活。
[0068]
s400、根据f和c，获取dy＝(d
y1
，d
y2
，...，d
yg
，...，d
yz
)，d
yg
为第g个第三模型在第y个第二时间段预测的点击率均值。
[0069]
s500、根据dy，获取oey＝(oe
y1
，oe
y2
，...，oe
yg
，...，oe
yz
)，oe
yg
为第二时间段实时点击率均值与第g个第三模型在第二时间段预设的点击率均值的比值。
[0070]
s600，根据oey，获取peg＝(pe1，pe2，...，peg，...，pez)，peg为oe
yg
对应的偏差均值，peg符合如下条件：
[0071][0072]
通过长时间的观察，和取平均值运算，可以使得到的判断数据更加准确，从而使技术人员更加直观的看出模型的优劣。
[0073]
s700、遍历peg，获取最小值pe
min
，并将pe
min
对应的第三模型作为当前投入使用的消息模型。
[0074]
具体地，在本发明实施例中，将pe
min
对应的第三模型作为当前使用模型，第三模型id列表中除pe
min
对应的第三模型之外的模型撤回，不再进行使用。
[0075]
本发明提供了一种确定流量模型的数据处理系统，通过训练挑选出合误差在预设范围内的第二模型，并且与当前使用模型预设观察时间段内同时投入使用，预设一段合理的观察时间，观察每个模型对应的偏差均值，选择在预设观察时间中，最小偏差均值对应的模型继续使用，其余撤回，不再进行使用；从而不需要将当前使用模型暂停使用就可以测试新的模型的预测效果，可以尽可能减少误差，使得到的预测结果更加准确，可以使用户更加准确且直观的观察模型的预测效果，进而选择出最合适的预测模型。
[0076]
此外，本发明还能够根据第三模型处理流量的效率，对第三模型流量分配律的调整，使任一第三模型在在q个第二时间段所积累的流量数值相同，这样，可以减少因为流量数据不同导致的误差，并且再任一第二时间段用户都可以调整流量分配率，使用户对数据的观察更加方便且对与数据的设置更加灵活。
[0077]
虽然已经通过示例对本技术的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本技术的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本技术的范围和精神。本技术开的范围由所附权利要求来限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于大数据的移动互联网广告智能投放管理方法及系统与流程

一种确定流量模型的数据处理系统的制作方法

相关文献

最热文献