一种在线广告成人违规内容检测方法、装置及电子设备与流程

2022-12-13 19:50:22 来源：中国专利 TAG：

1.本发明涉及电商技术领域，具体而言，涉及一种在线广告成人违规内容检测方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.在线广告投放活动中，广告平台对广告内容都有一定的审核，以满足法律法规、社会道德等要求。由于广告主对广告平台规则的不了解，以及广告平台审核规则存在模糊性，使新上架的广告常常因为各种原因遭到广告平台的下架，给广告主造成损失。
3.成人违规内容指的是，广告主投放的广告标题、文字、图片、视频等含色情、暴露、性暗示、低俗交友等内容，导致投放的广告违反所在国家或地区的法律法规，造成被广告平台下架的后果。
4.在实现本发明的过程中，发明人发现现有技术中至少存在如下技术需求：
5.1、使广告主投放的广告顺利通过广告平台的审核，提高广告的投放效率；
6.2、避免广告内容包含投放所在国家或地区不允许的成人色情内容，引发法律风险；
7.3、降低广告被广告平台下架的概率，避免投放中断。
8.现有技术中尚无针对在线广告的成人违规内容进行审核的技术方案。

技术实现要素：

9.为解决现有存在的技术问题，本发明实施例提供一种在线广告成人违规内容检测方法、装置、电子设备及计算机可读存储介质。
10.第一方面，本发明实施例提供了一种在线广告成人违规内容检测方法，包括：
11.自待检测的在线广告中分别获得文本违规分值s1、图片违规分值 s2和视频违规分值s3；
12.分别计算所述图片违规分值s2和所述视频违规分值s3的阈值平均值，根据所述阈值平均值获得所述在线广告图片和视频的综合违规值v4；
13.根据所述文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；
14.根据所述违规总分值s4判定所述在线广告的内容是否违规。
15.第二方面，本发明实施例提供了一种在线广告成人违规内容检测装置，包括：
16.分值获得模块，用于自待检测的在线广告中分别获得文本违规分值s1、图片违规分值s2和视频违规分值s3；
17.综合违规模块，用于分别计算所述图片违规分值s2和所述视频违规分值s3的阈值平均值，根据所述阈值平均值获得所述在线广告图片和视频的综合违规值v4；
18.总分值输出模块，用于根据所述文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；
19.违规判定模块，用于根据所述违规总分值s4判定所述在线广告的内容是否违规。
20.第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现如上所述的在线广告成人违规内容检测方法中的步骤。
21.第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的在线广告成人违规内容检测方法中的步骤。
22.本发明实施例提供的方法、装置、电子设备及计算机可读存储介质，分别从广告文本、广告图片、广告视频等维度，通过获得文本违规分值、图片违规分值、视频违规分值，根据图片违规分值和视频违规分值得到综合违规分值，进而根据综合违规分值和文本违规分值得到违规总分值，最后根据违规总分值判定在线广告的内容是否违规。
附图说明
23.为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
24.图1示出了本发明实施例所提供的一种在线广告成人违规内容检测方法的流程图；
25.图2示出了本发明实施例的多层lstm神经网络模型结构示意图；
26.图3示出了本发明实施例的efficientnet图片分类算法模型结构示意图；
27.图4示出了本发明实施例的movinets视频分类算法模型结构示意图；
28.图5示出了本发明实施例步骤s703中视频违规分值等于0.2的示意图；
29.图6示出了本发明实施例步骤s703中视频违规分值等于0.82的示意图；
30.图7示出了本发明实施例所提供的另一种在线广告成人违规内容检测装置的结构示意图；
31.图8示出了本发明实施例所提供的一种在线广告成人违规内容检测电子设备的结构示意图。
具体实施方式
32.所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。
33.上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、闪存(flash memory)、光纤、光盘只读存储器(cd-rom)、光存储器件、磁存储器件或以上任意组合。在本发明实施例
中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。
34.上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(radio frequency， rf)或者以上任意合适的组合。
35.可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：java、smalltalk、c ，还包括常规的过程式程序设计语言，例如：c语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(lan)或广域网(wan)，可以连接到用户计算机，也可以连接到外部计算机。
36.下面将参照本发明实施例的方法、装置、电子设备及计算机可读存储介质的流程图和/或方框图描述本发明实施例。
37.应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
38.也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和 /或方框图中的方框规定的功能/操作的指令装置产品。
39.也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
40.下面结合本发明实施例中的附图对本发明实施例进行描述。
41.图1示出了本发明实施例所提供的一种在线广告成人违规内容检测方法的流程图。如图1所示，该方法包括：
42.步骤s10：收集在线广告中涉及成人违规内容的违规文字和不涉及成人违规内容的正常文字，人工标注数据；
43.步骤s101：自数据库中筛选出被广告平台判定为涉及成人违规内容的违规广告，将该违规广告的标题和内容拼接在一起，作为整体广告文本；
44.步骤s103：将上述整体广告文本进行清洗和预处理，去除异常字符、表情符号，做拼写检查并修正；
45.步骤s105：进行人工核查，根据人工经验确保广告文本涉及成人违规内容，将涉及成人违规内容的广告文本作为正样本；
46.步骤s107：自数据库中随机筛选正常投放的广告，按照上述步骤s101-s105的步骤处理该正常文本，将不涉及成人违规内容的正常文本作为负样本；
47.步骤s20：使用多层lstm神经网络模型，训练文本分类模型，如图2所示；具体包括：
48.步骤s201：将上述步骤s101-步骤s107标注的样本数据整理成如下格式，保存至本地：
49.文本1_xxxxxxx，违规
50.文本2_yyyyyyy，不违规
51.文本3_zzzzzzz，违规
52.……
53.步骤s203：在本发明实施例中，使用python中的keras库建立lstm分类模型，用于文本分类。原始文本数据集为thucnews的一个子集。
54.例如：一共包含10类数据，切分为3个数据集：训练集、验证集和测试集，进行训练与测试。本次一共使用了10个分类，每个分类 6500条数据。
55.数据集划分如下：
56.训练集:5000*10
57.验证集:500*10
58.测试集:1000*10
59.步骤s205：导入所需要的库和模块，读取数据集；
60.在本发明实施例中，该数据集已进行了处理，每个数据集包含4 列数据，其中第1列为标签数据，第2列为新闻的原文数据，第3列为经过分词、去停用词等操作，并使用空格连接的分词后数据，第4 列为对应词组的个数。
61.步骤s207：查看数据集的基本情况，发现数据集包括体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技、财经等类型；
62.可以发现最小长度的词组长为4，最大长度为9083，其中长度的平均数为300，长度的中位数为226；接下来对数据集的标签数据进行编码，首先是labelencoder()编码，然后是进行onehotencoder() 编码。
63.步骤s209：使用tokenizer对词组进行编码，使用 tok.texts_to_sequences()将数据转化为序列，并使用 sequence.pad_sequences()将每个序列调整为相同的长度；
64.步骤s211：建立lstm模型并训练，模型建立好之后，开始进行训练，接着使用训练好的模型对测试集进行预测并评价模型的好坏；
65.步骤s30：将关键字输入文本分类器模型，输出文本违规分值；
66.步骤s301：收集整理与成人内容相关的关键字、关键短语，如常见色情敏感词汇等；
67.步骤s303：将关键字、关键短语输入文本分类器模型，经过综合判断输出文本违规分值s1，具体包括：
68.步骤s3031：如果检测文本包括关键字，则输出文本违规分值 s1＝1.0；
69.步骤s3033：若检测文本不包含关键字，则使用上述步骤s201至步骤s211中所述的文本分类器进行打分，使用常用的深度学习框架读取步骤s203中保存的模型文件进入内存，函数输入一句完整的文本，输出模型的分值s1(0《s1《1.0)，作为文本违规分值s1；
70.步骤s40：收集在线广告中涉及成人违规内容的违规图片和不涉及成人违规内容的正常图片，人工标注数据；
71.步骤s401：自数据库中筛选出被广告平台认定为涉及成人违规内容的违规广告，选取其包含的图片，经人工核查涉及成人违规内容，将其作为正样本；
72.步骤s403：自数据库中随机筛选正常投放的广告，将其中的正常图片筛选出来，作为负样本；
73.步骤s405：根据正样本，选择合适的对应负样本；
74.例如：正样本选择过于暴露的内衣模特，负样本选择正常的内衣模特；正样本选择带有性暗示的挑逗性的交友图片，负样本选择正常交友图片。
75.步骤s50：使用标注数据，训练图片分类算法，检测含有成人违规内容的图片，输出图片违规分值s2；
76.步骤s501：根据步骤s401至步骤s405中的标注数据，使用 efficientnet图片分类算法，训练图片分类器；如图3所示，具体包括：
77.步骤s5011：将广告平台上的图片保存在本地，使用另外的csv文件记录各个图片是否违规，格式如下：
78.文本1_硬盘路径，违规
79.文本2_硬盘路径，不违规
80.……
81.步骤s5013：使用常用的深度学习框架和开源的图像分类算法，将步骤s5011中的格式图片输入，转化成向量，再输入训练参数，执行训练，得到模型的二进制文件并保存；
82.步骤s503：使用常用的深度学习框架读取步骤s5013中保存的模型文件，读取其中的图片并转换成向量，输入模型，输出模型的分值 s2(0《s2《1.0)，作为图片违规分值s2；
83.步骤s505：如果图片违规分值s2高于图片设定阈值h2，认定该图片文件涉及成人违规内容；否则，认定该图片文件不涉及成人违规内容，图片设定阈值h2由训练数据集反复调试测定；
84.步骤s60：收集在线广告中涉及成人违规内容的违规视频和不涉及成人违规内容的正常视频，人工标注数据；
85.步骤s601：自数据库中筛选出被广告平台认定为涉及成人违规内容的违规广告，选取其包含的视频，经人工核查涉及成人违规内容，将其作为正样本；
86.步骤s603：自数据库中随机筛选正常投放的广告，将其中的正常视频筛选出来，作为负样本；
87.步骤s605：根据正样本，选择合适的对应负样本；
88.例如：正样本选择带有挑逗或性暗示的主播聊天视频，负样本则选择正常内容的主播聊天视频。
89.步骤s70：使用标注数据，训练视频分类算法，检测含有成人内容的视频，输出视频违规分值s3；
90.步骤s701：根据步骤s601至步骤s605中的标注数据，使用 movinets视频分类算法，训练视频分类器；如图4所示，具体包括：
91.步骤s7011：将广告平台上的视频保存在本地，使用另外的csv文件记录各个视频是否违规，格式如下：
92.文本1_硬盘路径，违规
93.文本2_硬盘路径，不违规
94.……
95.步骤s7013：使用常用的深度学习框架和开源的视频分类算法，将步骤s7011中的格式视频输入，转化成向量，再输入训练参数，执行训练，得到模型的二进制文件并保存；
96.步骤s703：使用训练完毕的视频分类器，对待检测的广告视频进行打分，输出视频违规分值s3，如图5和图6所示；
97.步骤s705：如果视频违规分值s3高于视频设定阈值h3，认定该视频文件涉及成人违规内容；否则，认定该视频文件不涉及成人违规内容，视频设定阈值h3由训练数据集反复调试测定；
98.步骤s707：去除前5％的头部帧，去除后5％的尾部帧，以避免在线广告视频中的前后无关内容插入，影响检测效果；例如：广告标语、广告淡入淡出效果等；
99.步骤s709：经过实验，找出合适的参数，将视频帧总数控制在10
‑ꢀ
20帧以内，以提高效率，降低计算开销；
100.步骤s80：根据上述在线广告的文本、图片、视频的涉及成人违规内容的检测步骤，分别获得待检测的在线广告的文本违规分值s1、图片违规分值s2和视频违规分值s3，计算获得待检测的在线广告的违规总分值s4，判定在线广告的内容是否违规；具体包括：
101.步骤s801：获得待检测的在线广告的图片违规分值s2，筛选出图片违规分值都在图片设定阈值h2之上的所有违规图片，计算所有违规图片的算术平均值作为图片的阈值平均值v2；如果图片违规分值都在图片设定阈值h2之下，则对在先广告的所有图片计算算术平均值作为图片的阈值平均值v2；
102.步骤s803：获得待检测的在线广告的视频违规分值s3，筛选出视频违规分值都在视频设定阈值h3之上的所有违规视频，计算所有违规视频的算术平均值作为视频的阈值平均值v3；如果所有视频的视频违规分值都在视频设定阈值h3之下，则对在先广告的所有视频计算视频违规分值的算术平均值作为视频的阈值平均值v3；
103.步骤s805：按照如下规则计算在线广告图片和视频的综合违规值 v4；
104.如果v2》h2且v3》h3，则v4＝2*(v2*v3)/(v2 v3)；
105.如果v2》h2且v3《h3，则v4＝v2；
106.如果v2《h2且v3》h3，则v4＝v3；
107.否则，v4＝(v2 v3)/2；
108.步骤s807：根据文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；具体包括：
109.步骤s8071：判定所述文本违规分值s1是否大于文本设定阈值 h1；
110.步骤s8073：如果所述文本违规分值s1大于所述文本设定阈值 h1，所述违规总分值s4等于sqrt(s1*v4)，其中sqrt是开平方根操作；
111.步骤s8075：如果所述文本违规分值s1小于等于文本设定阈值 h1，则违规总分值s4等于综合违规值v4；
112.步骤s809：如果违规总分值s4高于违规设定阈值h4，认定该待测的在线广告涉及成人违规内容，否则认定该在线广告不涉及成人违规内容，违规设定阈值h4由训练数据集上反复调试测定。
113.针对现有的在线广告无法进行涉成人违规内容审核的问题，本发明实施例的在线广告成人违规内容检测方法，分别从广告文本、广告图片、广告视频等维度，通过获得文本违规分值、图片违规分值、视频违规分值，根据图片违规分值和视频违规分值得到综合违规分值，进而根据综合违规分值和文本违规分值得到违规总分值，最后根据违规总分值判定在线广告的内容是否违规。
114.本发明实施例的在线广告成人违规内容检测方法，结合了文本违规分值、图片违规分值、视频违规分值等多个角度，提高了涉及成人违规内容在线广告的识别准确率，提高了广告主在广告平台上投放广告的投放效率，避免了投放广告涉及的法律风险。
115.本发明实施例的在线广告成人违规内容检测方法，在步骤s10、 s40和s60中分别采用了正样本和负样本相互映照进行机器学习构建网络模型的步骤，有利于提高各分类器的性能，提高样本分类的准确性。
116.上文结合图1至图6，详细描述了根据本发明实施例的在线广告成人违规内容检测方法，下面将结合图1至图6，详细描述根据本发明实施例的在线广告成人违规内容检测装置。
117.图7示出了本发明实施例所提供的一种在线广告成人违规内容检测装置的结构示意图。如图7所示，该在线广告成人违规内容检测装置包括：
118.分值获得模块10，用于自待检测的在线广告中分别获得文本违规分值s1、图片违规分值s2和视频违规分值s3；
119.综合违规模块20，用于分别计算所述图片违规分值s2和所述视频违规分值s3的阈值平均值，根据所述阈值平均值获得所述在线广告图片和视频的综合违规值v4；
120.总分值输出模块30，用于根据所述文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；
121.违规判定模块40，用于根据所述违规总分值s4判定所述在线广告的内容是否违规。
122.其中，所述总分值输出模块30具体包括：
123.阈值判定子模块31，用于判定所述文本违规分值s1是否大于文本设定阈值h1；
124.分值输出子模块32，用于如果所述文本违规分值s1大于所述文本设定阈值h1，所述违规总分值s4等于sqrt(s1*v4)，其中sqrt 是开平方根操作；
125.如果所述文本违规分值s1小于等于所述文本设定阈值h1，所述违规总分值s4等于所述综合违规值v4。
126.其中，所述综合违规模块20具体包括：
127.图片违规子模块21，用于对所述在线广告中的图片违规分值s2 在图片设定阈值h2以上的图片计算其图片违规分值s2的平均值，作为所述图片的阈值平均值v2；
128.如果所有图片违规分值s2都在所述图片设定阈值h2之下，将所有图片违规分值s2的平均值作为所述图片的阈值平均值v2；
129.视频违规子模块22，用于对所述在线广告中的视频违规分值s3 在视频设定阈值h3以上的视频计算其视频违规分值s3的平均值，作为所述视频的阈值平均值v3；
130.如果所有视频违规分值s3都在所述视频设定阈值h3之下，将所述视频违规分值s3的平均值作为所述视频的阈值平均值v3。
131.其中，所述综合违规模块具体还包括：
132.违规值获得子模块23，用于实现以下功能：
133.如果v2》h2且v3》h3，则v4＝2*(v2*v3)/(v2 v3)；
134.如果v2》h2且v3《h3，则v4＝v2；
135.如果v2《h2且v3》h3，则v4＝v3；
136.否则，v4＝(v2 v3)/2。
137.针对现有的在线广告无法进行涉成人违规内容审核的问题，本发明实施例的在线广告成人违规内容检测装置，分别从广告文本、广告图片、广告视频等维度，通过获得文本违规分值、图片违规分值、视频违规分值，根据图片违规分值和视频违规分值得到综合违规分值，进而根据综合违规分值和文本违规分值得到违规总分值，最后根据违规总分值判定在线广告的内容是否违规。
138.本发明实施例的在线广告成人违规内容检测装置，结合了文本违规分值、图片违规分值、视频违规分值等多个角度，提高了涉及成人违规内容在线广告的识别准确率，提高了广告主在广告平台上投放广告的投放效率，避免了投放广告涉及的法律风险。
139.本发明实施例的在线广告成人违规内容检测装置，采用了正样本和负样本相互映照进行机器学习构建网络模型的步骤，有利于提高各分类器的性能，提高样本分类的准确性。
140.此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述在线广告成人违规内容检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
141.具体的，参见图8所示，本发明实施例还提供了一种电子设备，该电子设备包括总线111、处理器112、收发器113、总线接口114、存储器115和用户接口116。
142.在本发明实施例中，该电子设备还包括：存储在存储器115上并可在处理器112上运行的计算机程序，计算机程序被处理器112执行时实现以下步骤：
143.自待检测的在线广告中分别获得文本违规分值s1、图片违规分值 s2和视频违规分值s3；
144.分别计算所述图片违规分值s2和所述视频违规分值s3的阈值平均值，根据所述阈值平均值获得所述在线广告图片和视频的综合违规值v4；
145.根据所述文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；
146.根据所述违规总分值s4判定所述在线广告的内容是否违规。
147.可选地，计算机程序被处理器112执行时还可实现以下步骤：
148.判定所述文本违规分值s1是否大于文本设定阈值h1；
149.如果所述文本违规分值s1大于所述文本设定阈值h1，所述违规总分值s4等于sqrt(s1*v4)，其中sqrt是开平方根操作；
150.如果所述文本违规分值s1小于等于所述文本设定阈值h1，所述违规总分值s4等于所述综合违规值v4。
151.可选地，计算机程序被处理器112执行时还可实现以下步骤：
152.对所述在线广告中的图片违规分值s2在图片设定阈值h2以上的图片计算其图片违规分值s2的平均值，作为所述图片的阈值平均值 v2；
153.如果所有图片违规分值s2都在所述图片设定阈值h2之下，将所有图片违规分值s2的平均值作为所述图片的阈值平均值v2；
154.对所述在线广告中的视频违规分值s3在视频设定阈值h3以上的视频计算其视频违规分值s3的平均值，作为所述视频的阈值平均值 v3；
155.如果所有视频违规分值s3都在所述视频设定阈值h3之下，将所述视频违规分值s3的平均值作为所述视频的阈值平均值v3。
156.可选地，计算机程序被处理器112执行时还可实现以下步骤：
157.如果v2》h2且v3》h3，则v4＝2*(v2*v3)/(v2 v3)；
158.如果v2》h2且v3《h3，则v4＝v2；
159.如果v2《h2且v3》h3，则v4＝v3；
160.否则，v4＝(v2 v3)/2。
161.收发器113，用于在处理器112的控制下接收和发送数据。
162.在图8中，总线架构(用总线111来代表)，总线111可以包括任意数量互联的总线和桥，总线111将包括由处理器112代表的一个或多个处理器与存储器115代表的存储器的各种电路连接在一起。
163.总线111表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(accelerate graphical port，agp)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(industry standard architecture，isa) 总线、微通道体系结构(micro channel architecture，mca)总线、扩展isa(enhanced isa，eisa)总线、视频电子标准协会(videoelectronics standards association，vesa)、外围部件互连 (peripheral component interconnect，pci)总线。
164.处理器112可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(central processing unit，cpu)、网络处理器(networkprocessor，np)、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)、复杂可编程逻辑器件(complex programmable logic device，cpld)、可编程逻辑阵列(programmable logic array，pla)、微控制单元 (microcontroller unit，mcu)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。
165.处理器112可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，ram)、闪存(flash memory)、只读存储器(read-only memory，rom)、可编程只读存储器 (programmable rom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、寄存器等本领域公知的可读存
储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
166.总线111还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口114在总线111和收发器113之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。
167.收发器113可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器113从其他设备接收外部数据，收发器113用于将处理器112处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口116，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
168.应理解，在本发明实施例中，存储器75可进一步包括相对于处理器112远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hocnetwork)、内联网(intranet)、外联网(extranet)、虚拟专用网(vpn)、局域网(lan)、无线局域网(wlan)、广域网(wan)、无线广域网 (wwan)、城域网(man)、互联网(internet)、公共交换电话网(pstn)、普通老式电话业务网(pots)、蜂窝电话网、无线网络、无线保真(wi
‑ꢀ
fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(gsm)系统、码分多址(cdma)系统、全球微波互联接入(wimax)系统、通用分组无线业务(gprs)系统、宽带码分多址(wcdma)系统、长期演进(lte)系统、lte频分双工(fdd)系统、lte时分双工(tdd)系统、先进长期演进(lte
‑ꢀ
a)系统、通用移动通信(umts)系统、增强移动宽带(enhance mobilebroadband，embb)系统、海量机器类通信(massive machine type ofcommunication，mmtc)系统、超可靠低时延通信(ultra reliable lowlatency communications，urllc)系统等。
169.应理解，本发明实施例中的存储器115可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器 (erasable prom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存(flash memory)。
170.易失性存储器包括：随机存取存储器(random access memory， ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如：静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本发明实施例描述的电子设备的存储器115包括但不限于上述和任意其他适合类型的存储器。
171.在本发明实施例中，存储器115存储了操作系统1151和应用程序 1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。
172.具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：
媒体播放器(media player)、浏览器(browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
173.此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述在线广告成人违规内容检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
174.具体而言，计算机程序被处理器执行时可实现以下步骤：
175.自待检测的在线广告中分别获得文本违规分值s1、图片违规分值 s2和视频违规分值s3；
176.分别计算所述图片违规分值s2和所述视频违规分值s3的阈值平均值，根据所述阈值平均值获得所述在线广告图片和视频的综合违规值v4；
177.根据所述文本违规分值s1与所述综合违规值v4输出所述在线广告的违规总分值s4；
178.根据所述违规总分值s4判定所述在线广告的内容是否违规。
179.可选地，计算机程序被处理器执行时还可实现以下步骤：
180.判定所述文本违规分值s1是否大于文本设定阈值h1；
181.如果所述文本违规分值s1大于所述文本设定阈值h1，所述违规总分值s4等于sqrt(s1*v4)，其中sqrt是开平方根操作；
182.如果所述文本违规分值s1小于等于所述文本设定阈值h1，所述违规总分值s4等于所述综合违规值v4。
183.可选地，计算机程序被处理器执行时还可实现以下步骤：
184.对所述在线广告中的图片违规分值s2在图片设定阈值h2以上的图片计算其图片违规分值s2的平均值，作为所述图片的阈值平均值 v2；
185.如果所有图片违规分值s2都在所述图片设定阈值h2之下，将所有图片违规分值s2的平均值作为所述图片的阈值平均值v2；
186.对所述在线广告中的视频违规分值s3在视频设定阈值h3以上的视频计算其视频违规分值s3的平均值，作为所述视频的阈值平均值 v3；
187.如果所有视频违规分值s3都在所述视频设定阈值h3之下，将所述视频违规分值s3的平均值作为所述视频的阈值平均值v3。
188.可选地，计算机程序被处理器执行时还可实现以下步骤：
189.如果v2》h2且v3》h3，则v4＝2*(v2*v3)/(v2 v3)；
190.如果v2》h2且v3《h3，则v4＝v2；
191.如果v2《h2且v3》h3，则v4＝v3；
192.否则，v4＝(v2 v3)/2。
193.计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、非易失性随机存取存储器
(nvram)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
194.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
195.本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或二者的结合来实现，为了清楚说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序指令。所述计算机程序指令包括：汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，例如：smalltalk、c 以及过程式编程语言，例如：c语言或类似的编程语言。
196.在计算机上加载和执行所述计算机程序指令时，全部或部分的产生按照本发明实施例所述的流程或功能，所述计算机可以是通过计算机、专用计算机、计算机网络或其他可编辑装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如：所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、双绞线、光纤、数字用户线路(digital subscriber line，dsl))或无线 (例如：红外、无线、微波)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、磁盘、磁带)、光介质(例如：光盘)或半导体介质(例如：固态硬盘 (solid state drive，ssd))等。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。
197.所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述本发明方法实施例中的对应过程，在此不再赘述。
198.在本技术所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。
199.所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
200.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
201.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
202.以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于朴素贝叶斯模型的文本语种识别方法和装置

一种在线广告成人违规内容检测方法、装置及电子设备与流程

相关文献

最热文献