一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网页处理方法、装置、电子设备以及存储介质与流程

2022-03-23 08:52:17 来源:中国专利 TAG:

技术特征:
1.一种网页处理方法,所述方法包括:获取网页的页面内容,其中,所述页面内容包括响应于触发操作而加载的第一页面内容以及默认加载的第二页面内容;基于与所述第一页面内容相应的第一预设权重和与所述第二页面内容相应的第二预设权重,对所述第一页面内容和所述第二页面内容进行加权处理,以获取所述网页的页面内容特征,其中,所述第一预设权重大于所述第二预设权重;以及基于所述页面内容特征,确定所述网页是否为作弊网页。2.根据权利要求1所述的方法,还包括:获取所述第二页面内容中的第三页面内容和第四页面内容,其中,所述第三页面内容具有非可视属性,并且其中,所述第四页面内容具有可视属性;以及基于与所述第三页面内容相应的第三预设权重和与所述第四页面内容相应的第四预设权重,更新所述页面内容特征,其中,所述第三预设权重大于所述第四预设权重。3.根据权利要求2所述的方法,还包括:获取所述第四页面内容中的第五页面内容和第六页面内容,其中,所述第五页面内容的颜色和所述第五页面内容相应的背景颜色相同,并且其中,所述第六页面内容的颜色和所述第六页面内容相应的背景颜色不同;以及基于与所述第五页面内容相应的第五预设权重和与所述第六页面内容相应的第六预设权重,更新所述页面内容特征,其中,所述第五预设权重大于所述第六预设权重。4.根据权利要求1-3中任一项所述的方法,其中,所述页面内容包括下述中的至少一项:文本、链接、图片、音频和视频。5.一种作弊网页识别模型的训练方法,所述方法包括:获取样本数据集,其中,所述样本数据集中的每个样本数据包括样本网页的页面内容以及类别标签,其中,所述页面内容包括响应于触发操作而加载的第一页面内容以及默认加载的第二页面内容,并且其中,所述类别标签指示所述样本网页是否为作弊网页;初始化所述作弊网页识别模型的多个参数;以及对于每个样本数据,执行如下操作:基于与所述第一页面内容相应的第一预设权重和与所述第二页面内容相应的第二预设权重,对所述第一页面内容和所述第二页面内容进行加权处理,以获取所述样本网页的页面内容特征,其中,所述第一预设权重大于所述第二预设权重;将所述页面内容特征输入到所述作弊网页识别模型,以得到输出值,所述输出值为所述样本网页是否为作弊网页的识别结果;以及基于所述类别标签和所述输出值,调整所述作弊网页识别模型的多个参数。6.根据权利要求5所述的方法,其中,对于每个样本数据,所述第二页面内容包括具有非可视属性的第三页面内容和具有可视属性的第四页面内容,并且其中,所述获取所述样本网页的页面内容特征包括:基于与所述第三页面内容相应的第三预设权重和与所述第四页面内容相应的第四预设权重,更新所述页面内容特征,其中,所述第三预设权重大于所述第四预设权重。7.根据权利要求6所述的方法,其中,对于每个样本数据,所述第四页面内容包括第五页面内容和第六页面内容,其中,所述第五页面内容的颜色和所述第五页面内容相应的背
景颜色相同,其中,所述第六页面内容的颜色和所述第六页面内容相应的背景颜色不同,并且其中,所述获取所述样本网页的页面内容特征包括:基于与所述第五页面内容相应的第五预设权重和与所述第六页面内容相应的第六预设权重,更新所述页面内容特征,其中,所述第五预设权重大于所述第六预设权重。8.根据权利要求5-7中任一项所述的方法,其中,所述页面内容包括下述中的至少一项:文本、链接、图片、音频和视频。9.一种网页处理装置,所述装置包括:第一获取单元,被配置为获取网页的页面内容,其中,所述页面内容包括响应于触发操作而加载的第一页面内容以及默认加载的第二页面内容;第二获取单元,被配置为基于与所述第一页面内容相应的第一预设权重和与所述第二页面内容相应的第二预设权重,对所述第一页面内容和所述第二页面内容进行加权处理,以获取所述网页的页面内容特征,其中,所述第一预设权重大于所述第二预设权重;确定单元,被配置为基于所述页面内容特征,确定所述网页是否为作弊网页。10.根据权利要求9所述的装置,还包括:第三获取单元,被配置为获取所述第二页面内容中的第三页面内容和第四页面内容,其中,所述第三页面内容具有非可视属性,并且其中,所述第四页面内容具有可视属性;以及第一更新单元,被配置为基于与所述第三页面内容相应的第三预设权重和与所述第四页面内容相应的第四预设权重,更新所述页面内容特征,其中,所述第三预设权重大于所述第四预设权重。11.根据权利要求10所述的装置,还包括:第四获取单元,被配置为获取所述第四页面内容中的第五页面内容和第六页面内容,其中,所述第五页面内容的颜色和所述第五页面内容相应的背景颜色相同,并且其中,所述第六页面内容的颜色和所述第六页面内容相应的背景颜色不同;以及第二更新单元,被配置为基于与所述第五页面内容相应的第五预设权重和与所述第六页面内容相应的第六预设权重,更新所述页面内容特征,其中,所述第五预设权重大于所述第六预设权重。12.根据权利要求9-10中任一项所述的装置,其中,所述页面内容包括下述中的至少一项:文本、链接、图片、音频和视频。13.一种作弊网页识别模型的训练装置,所述装置包括:第五获取单元,被配置为获取样本数据集,其中,所述样本数据集中的每个样本数据包括样本网页的页面内容以及类别标签,其中,所述页面内容包括响应于触发操作而加载的第一页面内容以及默认加载的第二页面内容,并且其中,所述类别标签指示所述样本网页是否为作弊网页;初始化单元,被配置为初始化所述作弊网页识别模型的多个参数;以及执行单元,被配置为对于每个样本数据,执行下述子单元的操作,其中,所述执行单元包括:获取子单元,被配置为基于与所述第一页面内容相应的第一预设权重和与所述第二页面内容相应的第二预设权重,对所述第一页面内容和所述第二页面内容进行加权处理,以
获取所述样本网页的页面内容特征,其中,所述第一预设权重大于所述第二预设权重;输入子单元,被配置为将所述页面内容特征输入到所述作弊网页识别模型,以得到输出值,所述输出值为所述样本网页是否为作弊网页的识别结果;以及调整子单元,被配置为基于所述类别标签和所述输出值,调整所述作弊网页识别模型的多个参数。14.根据权利要求13所述的装置,其中,对于每个样本数据,所述第二页面内容包括具有非可视属性的第三页面内容和具有可视属性的第四页面内容,并且其中,所述获取子单元包括:第一更新模块,被配置为基于与所述第三页面内容相应的第三预设权重和与所述第四页面内容相应的第四预设权重,更新所述页面内容特征,其中,所述第三预设权重大于所述第四预设权重。15.根据权利要求14所述的装置,其中,对于每个样本数据,所述第四页面内容包括第五页面内容和第六页面内容,其中,所述第五页面内容的颜色和所述第五页面内容相应的背景颜色相同,其中,所述第六页面内容的颜色和所述第六页面内容相应的背景颜色不同,并且其中,所述获取子单元包括:第二更新模块,被配置为基于与所述第五页面内容相应的第五预设权重和与所述第六页面内容相应的第六预设权重,更新所述页面内容特征,其中,所述第五预设权重大于所述第六预设权重。16.根据权利要求13-15中任一项所述的装置,其中,所述页面内容包括下述中的至少一项:文本、链接、图片、音频和视频。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4或5-8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4或5-8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-4或5-8中任一项所述的方法。

技术总结
本公开提供了一种网页处理方法、装置、电子设备以及存储介质,涉及计算机技术领域,尤其涉及计算机网络技术、搜索引擎技术和人工智能技术领域。实现方案为:获取网页的页面内容;基于与第一页面内容相应的第一预设权重和与第二页面内容相应的第二预设权重,对第一页面内容和第二页面内容进行加权处理,以获取网页的页面内容特征;以及基于页面内容特征,确定网页是否为作弊网页。网页是否为作弊网页。网页是否为作弊网页。


技术研发人员:刘伟 张博 林赛群
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.12.27
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献