一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向网页图文数据的广告分析方法及系统与流程

2022-11-15 23:49:42 来源:中国专利 TAG:

技术特征:
1.一种面向网页图文数据的广告分析方法,其特征在于:其包括以下步骤:s1)对待分析网页图文数据进行解析处理,提取得到纯文本信息,同时分解成粗体部分、正文部分、图片url链接部分和视频url链接部分;s2)根据图片url链接部分中的图片url链接下载图片,基于ocr技术对下载的图片进行图片文字识别,获得图片文字信息;s3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的二分类广告鉴别模型中进行是否为广告的鉴别,若鉴别为广告,则执行步骤s4),若鉴别为非广告,则发送至数据保存模块进行数据保存;s4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的多分类广告分类模型中进行行业分类预测,确定该广告的行业分类;s5)将该广告的行业分类中预设的品牌词逐个分别在图片文字信息、粗体部分的粗体文本信息和正文部分的正文文本信息这三个维度中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;s6)将鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词分别发送至数据保存模块进行数据保存,供查询功能模块调用并展示。2.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述解析处理的方法,其包括以下步骤:s1.1)将待分析网页图文数据中的所有js脚本、样式信息、图片url链接和视频url链接进行剔除处理,提取得到纯文本信息;s1.2)将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,分别进行提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接。3.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述图片文字识别的方法为:基于ocr技术,将下载的图片输入到开源ocr模型中,获得图片文字信息。4.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述基于机器学习算法的二分类广告鉴别模型的建立方法,其包括以下步骤:s3.1)收集大量网页图文数据进行是否为广告的标注,得到广告标注数据,若为广告,则标注为1,若为非广告,则标注为0;s3.2)对标注为1的广告标注数据中具有广告属性的特征短语进行提取并去重,得到含有n个特征短语的特征短语集合,其中,n为大于0的自然数;s3.3)通过机器学习算法对广告标注数据进行训练,不断优化每个特征短语对应的权重参数去拟合真实值与预测值,最终得到一个二分类广告鉴别模型。5.根据权利要求4所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述是否为广告的鉴别方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到二分类广告鉴别模型中,利用特征短语集合中的n个特征短语对向量进行逐个扫描并标记,将扫描到存在相应特征短语的位置标记为1,否则标记为0,得到含n个标记的n维向量;再将视频url链接部分是否存在视频url链接作为第n 1个位置的标记,若存在视频url链接,则第n 1个位置标记为1,否则标记为0,得到n 1维向量;二位分类广告鉴别模型根据n 1维向量中每个值及其所对应位置的权重参数鉴别是否为广告。
6.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤4)中所述基于机器学习算法的多分类广告分类模型的建立方法,其包括以下步骤:s4.1)收集大量标注好行业分类的网页图文数据,得到行业标注数据,对其行业分类的关键特征词进行切词并输入到卡方检验算法中,设定关键特征词的数量为m,得到包含m个关键特征词的关键特征词集合,其中,m为大于0的自然数;s4.2)通过机器学习算法对行业标注数据进行训练,不断优化每个关键特征词对应的权重参数去拟合真实值与预测值,最终得到一个多分类广告分类模型。7.根据权利要求6所述的面向网页图文数据的广告分析方法,其特征在于:步骤4)中所述行业分类预测的方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到多分类广告分类模型中,利用关键特征词集合中的m个关键特征词对向量进行逐个扫描并标记,将扫描到存在相应关键特征词的位置标记为1,否则标记为0,得到含m个标记的m维向量;多分类广告分类模型根据m维向量中每个值及其所对应位置的权重参数确定该广告的行业分类。8.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤5)中所述品牌词匹配和选取的方法,其包括以下步骤:s5.1)针对多分类广告分类模型中的每个行业分类建立相应的品牌词库,在品牌词库内预设品牌词;s5.2)将该广告对应行业分类的品牌词库中各品牌词逐个在图片文字信息中进行品牌词匹配,将匹配成功的品牌词列入第一维度列表;s5.3)将该广告对应行业分类的品牌词库中各品牌词逐个在粗体部分的粗体文本信息中进行品牌词匹配,将匹配成功的品牌词列入第二维度列表;s5.4)将该广告对应行业分类的品牌词库中各品牌词逐个在正文部分的正文文本信息中进行品牌词匹配,将匹配成功的品牌词列入第三维度列表;s5.5)统计该广告对应行业分类的品牌词库中各品牌词出现的维度数、次数以及位置权重;s5.6)过滤维度数小于1的品牌词后,判断由第一维度列表、第二维度列表和第三维度列表中品牌词构成的品牌集合是否为空,若是为空,则不选取任何品牌词作为该广告的品牌词,否则执行步骤s5.7);s5.7)判断品牌集合中品牌词的数量是否等于1,若是,则选取该品牌词作为该广告的品牌词,否则执行步骤s5.8);s5.8)判断品牌集合中各品牌词的维度数是否相同,若是,则执行步骤s5.9),否则选取维度数最大的品牌词作为该广告的品牌词;s5.9)判断品牌集合中各品牌词的次数是否相同,若是,则选取位置权重最高的品牌词作为该广告的品牌词,否则选取次数最多的品牌词作为该广告的品牌词;其中,第一维度列表、第二维度列表和第三维度列表中品牌词的位置权重从高到低设置。9.一种面向网页图文数据的广告分析系统,其特征在于,所述广告分析系统包括:网页节点解析模块,用于剔除待分析网页图文数据中冗余信息,提取得到纯文本信息,同时将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,并分别提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接;
图片文字识别模块,用于对从图片url链接下载的图片基于ocr技术进行图片文字识别,获得图片文字信息;广告鉴别模块,用于建立基于机器学习算法的二分类广告鉴别模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中鉴别是否为广告;广告分类模块,用于建立基于机器学习算法的多分类广告分类模型,并将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中行业分类预测,确定该广告的行业分类;广告品牌识别模块,用于建立多分类广告分类模型中的每个行业分类相应的品牌词库,并将该广告对应行业分类的品牌词库中各品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息这三个维度中进行品牌词匹配,综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;数据保存模块,用于保存鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词;查询功能模块,设有查询窗口用于调用数据保存模块中保存的数据,并进行展示。

技术总结
本发明涉及一种面向网页图文数据的广告分析方法,其包括以下步骤:S1)对待分析网页图文数据进行解析处理;S2)下载图片url链接对应图片,基于OCR技术进行图片文字识别;S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到二分类广告鉴别模型中进行是否为广告的鉴别;S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到多分类广告分类模型中进行行业分类预测,确定该广告的行业分类;S5)将该广告行业分类中预设的品牌词逐个分别在图片文字信息、粗体文本信息和正文文本信息中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重进行选取,确定该广告的品牌词;S6)进行数据保存以供查询功能模块调用并展示。功能模块调用并展示。功能模块调用并展示。


技术研发人员:李在灼 姜豪 胡长春
受保护的技术使用者:福州果集信息科技有限公司
技术研发日:2021.04.25
技术公布日:2022/11/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献