一种基于大数据机器学习智能投放系统的制作方法

2021-11-15 18:22:00 来源：中国专利 TAG：

1.本发明涉及互联网大数据技术领域，尤其是一种基于大数据机器学习智能投放系统。

背景技术：

2.近年来，随着移动互联网的迅猛发展，作为其主要盈利方式，广告的市场竞争也越发激烈，各种类型的app在获取新用户方面越来越困难，昂贵的拓客成本和有限的广告收入使得许多广告入不敷出。
3.市场人员通过统计系统来监控推广效果，这样需要大量的推广优化人员，效率较低。作为广告投放效果评估的重要指标roi(return
‑
on
‑
investment投资回报率：收入/成本)，广告产生的收入并不能及时看到，需要等到第二天数据回传才能计算出来，这严重影响推广评估的时效性。为了取得更好的roi，需要对广告的价值进行预估，其中的成本主要源于获客成本，成本与获取的新增用户人数呈正相关，因此采用另一个指标arpu(average
‑
revenue
‑
per
‑
user每用户平均收入)来衡量广告的价值，如何实时地预估每个广告的arpu就是整个智能推广系统的核心需求。
4.app广告按类型可以分为展示广告、搜索广告、下载广告，不同广告不同平台的广告计费方式都不相同，常见的计费方式：
5.cpm(cost
‑
per
‑
thousand
‑
impression，千人影响成本)，常用于信息流广告的计价；
6.cpc(cost
‑
per
‑
click，单次点击费用)，常用于展示广告；
7.cpa(cost
‑
per
‑
action，单次转化费用)，适合app下载、产品使用回单等需要明确转化动作的推广；
8.cpt(cost
‑
per
‑
time，单位时长费用)，适合垂直行业平台展示广告位，类似地铁广告、电梯广告等户外广告也是这种类型；
9.cps(cost
‑
per
‑
sale，销售佣金模式)，比较适合折扣类站点，促销类产品，直接依照销售转化对推广平台分成。作为需求方，如果推广效果能够比较准确的计量与评估，将会节省大量的曝光成本，从而整体上提高平台的收入。广告的收入由广告供应商提供结算，通过广告计费方式预估广告位渠道的收入结合相应的成本决定某渠道是否买入流量，预估收入需要建立收入和特征(点击数、曝光数、广告位、广告素材，平台)等指标的模型，根据训练好的模型和特征指标数据预估出收入。
10.现有方案的主要步骤是：
11.1.计算前一天的点击单价(就是前一天的收入除以广告点击数)；
12.2.计算当天广告位的点击数；
13.3.用昨天的点击单价乘今天的点击数得到今天的预估收入，用预估的收入除以新增人数得到当日arpu。
14.现有方案的特点是简单粗暴，且有一定的效果，但仍然存在以下缺陷：
15.1.某些渠道在某些广告位上前一天没有产生收入或者其点击数为零，故没有可参考的点击单价，该渠道广告位上当天的收入也就无法计算；
16.2.即使某渠道某广告位在前一天有收入和点击数，数据回传会延时，这样会影响预估的时效性；
17.3.渠道的点击单价并不是固定的值，会随时间变化，也会因不同平台不同广告位而不同。
18.本发明以现有的方案为基础，通过模型融合的方式，设计一种基于大数据机器学习智能投放系统，解决优化上述所存在的缺陷。

技术实现要素：

19.为了解决上述现有技术中存在的问题，本发明通过大数据的机器学习算法，提供一种高效投放、精准监测、模型预估的基于大数据机器学习智能投放系统，并帮助企业降低广告成本，使平台提升广告投放的效率。
20.本发明解决其技术问题所采用的技术方案是：
21.一种基于大数据机器学习智能投放系统，包括数据采集服务(神策)、大数据处理服务(阿里云max compute)、训练算法、模型预测(系统中最核心的部分，采用python脚本实现)，分析型数据库adb，定时调度与冗余数据清理；其中，定时调度与冗余数据清理分别连接大数据处理服务(阿里云max compute)、训练算法、模型预测和分析型数据库adb，数据采集服务(神策)连接于大数据处理服务(阿里云max compute)，大数据处理服务(阿里云max compute)通过样本连接于训练算法；大数据处理服务(阿里云max compute)通过实时输入连接于模型预测，模型预测连接于分析型数据库adb；模型预测还通过结果反馈连接于大数据处理服务(阿里云max compute)。
22.本发明和现有技术相比，其优点在于：
23.本发明准确率更高，时效性更好，灵活性可操作性更好。
24.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1为本发明智能推广系统总体概括图。
具体实施方式
27.下面将参照附图更详细地描述本发明公开的示例性实施例，这些实施例是为了能够更透彻地理解本发明，并且能够将本发明公开的范围完整的传达给本领域的技术人员。虽然附图中显示了本发明公开的示例性实施例，然而应当理解，本发明而不应被这里阐述的实施例所限制。
28.一种基于大数据机器学习智能投放系统，如图1所示，包括数据采集服务(神策)、大数据处理服务(阿里云max compute)、训练算法、模型预测(系统中最核心的部分，采用python脚本实现)，分析型数据库adb，定时调度与冗余数据清理；其中，定时调度与冗余数据清理分别连接大数据处理服务(阿里云max compute)、训练算法、模型预测和分析型数据库adb，数据采集服务(神策)连接于大数据处理服务(阿里云max compute)，大数据处理服务(阿里云max compute)通过样本连接于训练算法；大数据处理服务(阿里云max compute)通过实时输入连接于模型预测，模型预测连接于分析型数据库adb；模型预测还通过结果反馈连接于大数据处理服务(阿里云max compute。
29.如图1所示为智能推广系统的总体概括图，包括数据采集服务(神策)，大数据处理服务(阿里云max compute)，训练算法和模型预测(系统中最核心的部分，采用python脚本实现)，其中训练算法采用了最近7天的历史数据，通过模型特征构造，深度神经网络模型构建，训练出各个模型的权重文件并保存，模型预测时通过保存的权重文件，重新构建出训练时的模型，从而对实时数据进行预测，预测的结果输出到adb(分析型数据库，和mysql比较近似)，各模块的运行按不同的时间及依赖关系定时调度；由于数据比较看中时效性，过程中会产生较多的冗余数据，为节省存储空间，会调用定时调度与冗余数据清理。以下详细介绍各模块。
30.图1中，数据采集服务(神策)是数据采集与分析的第三方大数据服务，不仅仅用于数据收集，也应用与其他数据分析的场合，例如：用户画像、数据趋势、数据分布图。
31.本系统中，利用数据采集服务(神策)采集用户相关信息，广告渠道相关信息，用户事件的埋点信息(点击事件、曝光事件、登录事件)，广告收入相关数据。max compute是阿里云的大数据处理服务，用于构建完整的数据仓库，首先将神策收集到的数据先同步进max compute，对数据进行清洗，去除重复、缺失字段等异常数据，然后再从各个维度汇总出一些粗粒度的数据或者宽表：
32.当用户数据中用户本身的数据较少，只有一些设备号、注册时间、手机型号等数据，这不利于精准推广，但用户是来源于渠道，渠道中包含了用户的使用行为和偏好，将用户和渠道进行关联便可将推广渠道的属性赋予用户，这就是用户宽表；
33.当对用户的行为数据，点击数、曝光数根据渠道进行聚合，便得到渠道维度的点击数和曝光数。
34.本系统所需的数据就是来源于数据仓库的数据，主要有两类数据：样本数据和实时输入数据。
35.样本数据用于训练模型，其中包含每个渠道每个广告位的点击数，曝光数，收入，每个渠道的新增人数以及渠道的创意、素材类型、平台类型、产品类型、操作系统类型，收入作为预测目标，其他的字段作为特征。
36.实时输入数据用于模型预测的输入，数据结构是样本数据去掉收入字段的剩余子集，每小时统计一批，为了保障数据的完整性，避免神策数据产生延时，采用推迟一小时抽取，为防止每个小时间隙会掉数据，采取每次抽取当天的全量数据，但数据量太大使抽取时间太长，将口径缩到最小，因为主要研究的是新用户，所以只抽取和新用户有关的行为数据。
37.当时间接近当天23点时，会将输入数据和当天样本做比较，这有助于分析模型误
差的原因。
38.训练算法中包括线性模型和树形模型。线性模型是假设收入与点击数是成比例的，且参考了昨天的点击单价α，前两天的点击单价β，留存率衰减方程l(t)，而且引入了更多的维度(如平台类型，产品类型，广告创意)，这样可以一定程度的减轻现有方案的第三种缺陷。其中线性公式如下:
39.f(t)＝α
×
c ∫
0t
β
×
c
×
l(t)dt。
40.树形模型是用一个星期的样本训练梯度提升树模型，其中定义损失函数如下:
[0041][0042]
当损失函数如上公式所示时，则总体的损失函数如下:
[0043][0044]
模型对每个样本当前预测值所产生的梯度为：
[0045][0046]
那么模型通过梯度下降法拟合出数据最小残差。
[0047]
将一个星期的样本数据的最后一天分割出来作为测试，前几天的数据用作训练，采用均方根误差(root
‑
mean
‑
squareerror，rmse)，决定系数(coefficient of determination，r2)评价模型的训练和测试效果，通过多次迭代最终使误差收敛。线性模型有一定准确性，但是受波动的影响会比较大，对空缺值比较敏感，表现出的状况是一会儿是准确的，一会儿又不太准。而树形模型的泛化能力较好，体现在对输入数据的波动适应较好，但准确性还不及线性模型的。本发明将两种模型融合起来，依据各自的特点优势互补，取得的效果优于两种单独的模型。
[0048]
模型预测中，首先根据分区参数从大数据处理服务(阿里云max compute)下载实时输入数据，如果下载数据失败将会推送报警消息等候5分钟继续下载如此循环10次直到下载成功，下载成功后读取数据到内存，进行一定的预处理后作为输入数据，训练算法中输出的模型将以文本文件保存，在预测模块中加载最新的模型文件，通过保存的权重文件，重新构建出训练时的模型，从而对实时数据进行预测；结果数据会进行一定的格式转换然后插入到分析型数据库adb，同时也会上传一份到大数据处理服务(阿里云max compute)。
[0049]
分析型数据库adb(analytic db分析型数据库)全面兼容mysql协议和sql2003，可以像mysql一样使用，融合了分布式、弹性计算与云计算的优势，对规模性、易用性、可靠性和安全性等方面进行了大规模的改进，满足不同场景实时数据仓库的需求。支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等。
[0050]
定时调度与冗余数据清理主要以系统crontab实现，被调用的模块之间的依赖关系在各自的脚本中有相关逻辑实现。冗余数据清理会删除一星期前的数据，由于所有数据都会带上日期
‑
小时的标识，直接根据标识即可清出无用的数据。
[0051]
所述训练算法的方法为：首先下载样本数据，数据需要预处理，对于空缺值比较多的特征舍弃整列，数值型特征(例如收入、点击数、曝光数、新增人数)都转换为浮点数类型，
类别型特征(产品类型、平台类型、广告位、素材类型、创意类型)都需要编码成onehot形式，这是因为类别型特征是定性的数据不能比较大小，也就不能参与到运算，比如“产品类型”一共有三种产品(a，b，c)，那产品类型特征将被分解为3个特征“是否为产品a”、“是否为产品b”、“是否为产品c”，利用lightgbm工具包，直接将编码后的数据输入到梯度提升树模型训练，训练完得到树形模型保存为文本文件，并以日期小时命名备用。而线形模型是建立在各广告的收入与点击呈线性关系的假设基础上，线性模型的误差会受到点击单价的波动影响，而点击单价的波动并没有收集到相关的特征数据；对于广告位粒度，定义一个指标q，q＝mean(|c(i)
‑
c(i
‑
1)|)，其中c(i)表示第i天的点击单价，q定义为第i天的单价与第i
‑
1天的单价的差的绝对值的平均值，比较不同广告位q值就可以衡量不同广告位单价的波动程度，通过动态观察各广告位的q值，如果某广告位的点击单价最近两天的偏差绝对值大于q值，则丢弃该广告位点击单价的参考作用，而选择用树形模型进行预测。如果近两天的点击单价的偏差绝对值都小于q值，则选择用此单价作为参考单价用线性模型进行预测。把两种模型的预测结果按渠道聚合起来即得到收入的预测结果，这种模型融合的方式可明显改善现有模型的三种缺陷。
[0052]
本系统最终的发明并不是收入而是arpu，由于收入不会按小时结算，所以对于每小时的arpu并没有真实值，只有整天的arpu才有真实值。数据分析表明小时arpu会在整天arpu附近小范围波动，属于正常现象。
[0053]
推广，是指把自己的产品、服务、技术、文化、事迹等等通过传统的四大媒体(报刊、广播、电视、网络)广告让更多的人和组织机构等了解、接受，从而达到宣传、普及的目的。
[0054]
渠道，指在广告交易平台上依据某主题某创意某素材创立的一组广告。
[0055]
新增，，指当天在广告平台中所获取的新用户的人数。
[0056]
arpu(average
‑
revenue
‑
per
‑
user每用户平均收入)，指某渠道新用户所产生的收入与该渠道新增数的比值。
[0057]
为使本发明实施例的目的、技术方案和优点更加清楚，上面结合本发明实施例中的附图，对本发明实施例中的技术方案进行了清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0058]
因此，以上对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0059]
在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0060]
在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一
体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：考虑空间分布特征的地质灾害危险性综合评价方法及装置与流程

一种基于大数据机器学习智能投放系统的制作方法

相关文献

最热文献