一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

广告点击欺诈检测方法、系统、服务器和存储介质

2022-05-21 11:13:34 来源:中国专利 TAG:

技术特征:
1.一种广告点击欺诈检测方法,应用于服务器端,其特征在于,所述方法包括广告请求阶段和广告点击阶段,在广告请求阶段采用主动检测;在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。2.根据权利要求1所述的广告点击欺诈检测方法,其特征在于,所述被动检测还包括在线检测,对广告点击数据进行在线检测,得到数据集。3.根据权利要求2所述的广告点击欺诈检测方法,其特征在于,所述对广告点击数据进行在线检测,得到数据集,具体包括:采用规则检测对用户的广告点击数据进行在线的快速筛选,将与条件相符的广告点击数据标记为欺诈流量,未被标记的广告点击数据则为正常流量,作为样本数据;所有的样本数据构成数据集。4.根据权利要求2所述的广告点击欺诈检测方法,其特征在于,所述通过离线检测,完成对广告点击数据的分类,具体包括:若所述数据集中样本数据的个数小于设定阈值,则选择基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类;否则,选择基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类;分类的结果为正常广告点击或欺诈广告点击。5.根据权利要求4所述的广告点击欺诈检测方法,其特征在于,所述基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类,具体包括:对所述数据集进行预处理,得到预处理后数据集;利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集;利用样本平衡的数据集训练集成学习中lightgbm模型,得到训练好的lightgbm模型;其中,所述lightgbm模型采用单边梯度采样算法对训练样本进行采样优化;同时采用互斥特征绑定进行特征抽取,从而优化模型的训练速度;将待测的广告点击数据输入所述训练好的lightgbm模型,得到检测结果。6.根据权利要求5所述的广告点击欺诈检测方法,其特征在于,所述利用局部敏感哈希合成过采样算法对预处理后数据集进行处理,得到样本平衡的数据集,具体包括:根据所述预处理后数据集中样本数据,计算每个样本的哈希值;根据所述预处理后数据集中每个样本的哈希值,查找样本的近似最近邻;通过在每个样本与其近似最近邻之间进行插值,合成新样本;将所述新样本加入所述预处理后数据集中,得到样本平衡的数据集;其中,根据所述预处理后数据集中样本数据,计算每个样本的哈希值,具体包括:通过高斯分布多次生成随机数与向量,得到对应的多个哈希函数;对每个样本进行多个哈希函数计算,将得到的哈希值进行随机加权后取模,得到每个样本最终的哈希值。7.根据权利要求4所述的广告点击欺诈检测方法,其特征在于,所述基于媒体图嵌入向
量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类,具体包括:对所述数据集进行预处理,得到预处理后数据集;利用用户的媒体广告点击序列构建媒体关系图,通过随机游走与图嵌入算法得到图嵌入向量;利用所述预处理后数据集和所述图嵌入向量训练wide&deep模型,得到训练好的wide&deep模型;其中,wide&deep模型中的wide部分采用逻辑回归模型,将所述预处理后数据集中的样本数据输入wide部分,通过拟合函数完成模型训练;wide&deep模型中的deep部分采用全连接网络结构对图嵌入向量进行非线性变换;wide部分与deep部分通过sigmoid函数结合,得到wide&deep模型的输出;将待测的广告点击数据输入所述训练好的wide&deep模型,得到检测结果。8.根据权利要求7所述的广告点击欺诈检测方法,其特征在于,所述利用用户的媒体广告点击序列构建媒体关系图,通过随机游走与图嵌入算法得到图嵌入向量,具体包括:假定媒体关系图为g=(v,e),每个节点游走n次,每次游走长度为l,嵌入向量的维度为n,n<<|v|;其中,v为关系图g的节点集,e为关系图g的边集;遍历节点集v,对每个节点进行随机游走,得到随机游走序列s;将s输入skip-gram模型,得到节点的嵌入向量所有节点的嵌入向量构成图嵌入向量;其中,采用余弦相似度衡量图嵌入向量的相似度,并结合媒体相似度,得到新损失函数项,将所述新损失函数项加入skip-gram模型的损失函数中。9.根据权利要求5或7所述的广告点击欺诈检测方法,其特征在于,所述对所述数据集进行预处理,得到预处理后数据集,具体包括:对所述数据集中的样本数据进行清洗,得到清洗后数据集;对所述清洗后数据集进行特征工程,得到预处理后数据集,具体包括:根据所述清洗后数据集中样本数据,将同一用户前后两次广告点击的时间差作为新特征,加入所述清洗后数据集;统计所述清洗后数据集中特征的数量,将其作为新特征,加入所述清洗后数据集;对所述清洗后数据集中特征的值,根据方差构建新特征,将其加入所述清洗后数据集;根所述据清洗后数据集,将信息熵作为新特征,加入所述清洗后数据集。10.一种广告点击欺诈检测系统,应用于服务器端,其特征在于,所述系统包括检测模块,检测模块包括主动检测模块和被动检测获取模块,其中:主动检测模块,用于在广告请求阶段采用主动检测;被动检测获取模块,用于在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

技术总结
本发明公开了一种广告点击欺诈检测方法、系统、服务器和存储介质,所述方法应用于服务器端,包括广告请求阶段和广告点击阶段,在广告请求阶段采用主动检测;在广告点击阶段采用被动检测,被动检测包括离线检测,通过离线检测,完成对广告点击数据的分类;其中,所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。本发明通过采用基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法,在检测准确率小幅度降低的情况下,采样时间减少了56%;通过采用基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法,检测结果的准确率为96.82%。为96.82%。为96.82%。


技术研发人员:刘洋 刘洋麟 王轩 蒋琳 廖清 漆舒汉 夏文
受保护的技术使用者:哈尔滨工业大学(深圳)
技术研发日:2022.01.28
技术公布日:2022/5/20
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献