一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于大数据机器学习智能投放系统的制作方法

2021-11-15 18:22:00 来源:中国专利 TAG:

技术特征:
1.一种基于大数据机器学习智能投放系统,其特征在于,包括数据采集服务、大数据处理服务、训练算法、模型预测,分析型数据库adb,定时调度与冗余数据清理;其中,定时调度与冗余数据清理分别连接大数据处理服务、训练算法、模型预测和分析型数据库adb,数据采集服务连接于大数据处理服务,大数据处理服务通过样本连接于训练算法;大数据处理服务通过实时输入连接于模型预测,模型预测连接于分析型数据库adb;模型预测还通过结果反馈连接于大数据处理服务。2.根据权利要求1所述的一种基于大数据机器学习智能投放系统,其特征在于:训练算法中包括线性模型和树形模型;所述训练算法采用最近7天的历史数据,通过模型特征构造,深度神经网络模型构建,训练出各个模型的权重文件并保存,模型预测时通过保存的权重文件,重新构建出训练时的模型,从而对实时数据进行预测,预测的结果输出到分析型数据库adb,各模块的运行按不同的时间及依赖关系定时调度;由于数据比较看中时效性,过程中会产生较多的冗余数据,为节省存储空间,会调用定时调度与冗余数据清理。3.根据权利要求1所述的一种基于大数据机器学习智能投放系统,其特征在于:所述数据采集服务是数据采集与分析的第三方大数据服务,不仅仅用于数据收集,也应用与其他数据分析的场合,例如用户画像、数据趋势、数据分布图;本系统中,利用数据采集服务采集用户相关信息,广告渠道相关信息,用户事件的埋点信息,广告收入相关数据;max compute是阿里云的大数据处理服务,用于构建完整的数据仓库,首先将神策收集到的数据先同步进max compute,对数据进行清洗,去除重复、缺失字段等异常数据,然后再从各个维度汇总出一些粗粒度的数据或者宽表:当用户数据中用户本身的数据较少,只有一些设备号、注册时间、手机型号等数据,这不利于精准推广,但用户是来源于渠道,渠道中包含了用户的使用行为和偏好,将用户和渠道进行关联便可将推广渠道的属性赋予用户,这就是用户宽表;当对用户的行为数据,点击数、曝光数根据渠道进行聚合,便得到渠道维度的点击数和曝光数。4.根据权利要求3所述的一种基于大数据机器学习智能投放系统,其特征在于:本系统所需的数据就是来源于数据仓库的数据,主要有两类数据:样本数据和实时输入数据;样本数据用于训练模型,其中包含每个渠道每个广告位的点击数,曝光数,收入,每个渠道的新增人数以及渠道的创意、素材类型、平台类型、产品类型、操作系统类型,收入作为预测目标,其他的字段作为特征;实时输入数据用于模型预测的输入,数据结构是样本数据去掉收入字段的剩余子集,每小时统计一批,为了保障数据的完整性,避免神策数据产生延时,采用推迟一小时抽取,为防止每个小时间隙会掉数据,采取每次抽取当天的全量数据,但数据量太大使抽取时间太长,将口径缩到最小,因为主要研究的是新用户,所以只抽取和新用户有关的行为数据。5.根据权利要求2所述的一种基于大数据机器学习智能投放系统,其特征在于:所述线性模型是假设收入与点击数是成比例的,且参考了昨天的点击单价α,前两天的点击单价β,留存率衰减方程l(t),而且引入了更多的维度,可一定程度的减轻现有方案的第三种缺陷;其中线性公式如下:6.根据权利要求2所述的一种基于大数据机器学习智能投放系统,其特征在于:所述树
形模型是用一个星期的样本训练梯度提升树模型,其中定义损失函数如下:当损失函数如上公式所示时,则总体的损失函数如下:模型对每个样本当前预测值所产生的梯度为:模型通过梯度下降法拟合出数据最小残差。7.根据权利要求1所述的一种基于大数据机器学习智能投放系统,其特征在于:所述模型预测中,首先根据分区参数从大数据处理服务下载实时输入数据,如果下载数据失败将会推送报警消息等候5分钟继续下载如此循环10次直到下载成功,下载成功后读取数据到内存,进行一定的预处理后作为输入数据,训练算法中输出的模型将以文本文件保存,在预测模块中加载最新的模型文件,通过保存的权重文件,重新构建出训练时的模型,从而对实时数据进行预测;结果数据会进行一定的格式转换然后插入到分析型数据库adb,同时也会上传一份到大数据处理服务。8.根据权利要求1所述的一种基于大数据机器学习智能投放系统,其特征在于:所述分析型数据库adb全面兼容mysql协议和sql2003,可以像mysql一样使用,融合了分布式、弹性计算与云计算的优势,满足不同场景实时数据仓库的需求;支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等。9.根据权利要求1所述的一种基于大数据机器学习智能投放系统,其特征在于:所述定时调度与冗余数据清理主要以系统crontab实现,被调用的模块之间的依赖关系在各自的脚本中有相关逻辑实现;冗余数据清理会删除一星期前的数据,由于所有数据都会带上日期

小时的标识,直接根据标识即可清出无用的数据。10.根据权利要求2所述的一种基于大数据机器学习智能投放系统,其特征在于:所述训练算法的方法为:首先下载样本数据,数据需要预处理,对于空缺值比较多的特征舍弃整列,数值型特征都转换为浮点数类型,类别型特征都需要编码成onehot形式,这是因为类别型特征是定性的数据不能比较大小,也就不能参与到运算,比如“产品类型”一共有三种产品a,b,c,那产品类型特征将被分解为3个特征“是否为产品a”、“是否为产品b”、“是否为产品c”,利用lightgbm工具包,直接将编码后的数据输入到梯度提升树模型训练,训练完得到树形模型保存为文本文件,并以日期小时命名备用;而线形模型是建立在各广告的收入与点击呈线性关系的假设基础上,线性模型的误差会受到点击单价的波动影响,而点击单价的波动并没有收集到相关的特征数据;对于广告位粒度,定义一个指标q,q=mean(|c(i)

c(i

1)|),其中c(i)表示第i天的点击单价,q定义为第i天的单价与第i

1天的单价的差的绝对值的平均值,比较不同广告位q值就可以衡量不同广告位单价的波动程度,通过动态观察各广告位的q值,如果某广告位的点击单价最近两天的偏差绝对值大于q值,则丢弃该广告位点击单价的参考作用,而选择用树形模型进行预测;如果近两天的点击单价的偏差绝对值都小于q值,则选择用此单价作为参考单价用线性模型进行预测;把两种模型的预测结果
按渠道聚合起来即得到收入的预测结果,这种模型融合的方式可明显改善现有模型的三种缺陷。

技术总结
一种基于大数据机器学习智能投放系统,定时调度与冗余数据清理分别连接大数据处理服务(阿里云MaxCompute)、训练算法、模型预测和分析型数据库adb,数据采集服务(神策)连接于大数据处理服务(阿里云MaxCompute),大数据处理服务(阿里云MaxCompute)通过样本连接于训练算法;大数据处理服务(阿里云Max Compute)通过实时输入连接于模型预测,模型预测连接于分析型数据库adb;模型预测还通过结果反馈连接于大数据处理服务(阿里云MaxCompute)。本发明准确率更高,时效性更好,灵活性可操作性更好。好。好。


技术研发人员:王春雷
受保护的技术使用者:广州迈量科技有限公司
技术研发日:2021.08.12
技术公布日:2021/11/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献