一种基于BERT算法的网页广告营销文本识别方法及系统与流程

2022-03-23 08:13:02 来源：中国专利 TAG：

一种基于bert算法的网页广告营销文本识别方法及系统
技术领域
1.本发明涉及网页广告营销文本处理领域，具体涉及一种基于bert算法的网页广告营销文本识别方法及系统。

背景技术：

2.互联网促进了社会的发展和进度，与此同时也为各式各样的广告营销文本的传播提供了巨大的便利，这些充斥在互联网上的广告营销文本越来越危害着大众正常的社会活动和健康的价值观，尤其对青少年的身心健康成长不利，自动识别互联网上传播的各类有害网页亟待解决。

技术实现要素：

3.针对现有技术的不足，本发明提供了一种基于bert算法的网页广告营销文本识别方法，其特征在于，包括：
4.采集网页原始数据获取网页初始待识别文本集合；
5.利用所述网页初始待识别文本集合获取网页广告营销文本识别结果。
6.优选的，所述采集网页原始数据获取网页初始待识别文本集合包括：
7.采集网页原始数据后，对所述网页原始数据基于html协议进行处理，得到网页初始待识别文本集合。
8.进一步的，所述对网页原始数据基于html协议进行处理包括：
9.对网页原始数据基于html协议划分网页原始文本数据功能种类；
10.对所述网页原始文本数据功能种类中各网页原始数据基于html协议去除网页相关标签信息，得到网页基础文本分散语句数据；
11.利用所述网页基础文本分散语句数据进行拼接处理得到网页基础文本完整语句数据后，建立集合。
12.优选的，所述利用网页初始待识别文本集合获取网页广告营销文本识别结果包括：
13.利用网页初始待识别文本集合带入预先训练的网页广告营销信息识别模型，得到网页广告营销信息识别结果。
14.进一步的，所述网页广告营销信息识别模型的训练包括：
15.采集正常网页文本数据与网页广告营销文本数据作为样本集合；
16.将所述样本集合按比例划分为训练集、评估集与测试集；
17.以训练集为输入，以所述训练集对应的识别结果为输出，基于bert算法增加最上层分类全连接层进行训练得到网页广告营销信息初始识别模型；
18.将评估集带入网页广告营销信息初始识别模型，得到网页广告营销信息初始识别结果，根据所述网页广告营销信息初始识别结果判断网页广告营销信息初始识别模型的识别率是否高于相邻上一次网页广告营销信息初始识别模型的识别率，若是，保留此次网页
广告营销信息初始识别模型，否则，放弃保留；
19.将测试集带入所述网页广告营销信息初始识别模型得到网页广告营销信息初始识别模型测试结果；
20.根据所述网页广告营销信息初始识别模型测试结果对网页广告营销信息初始识别模型进行调整得到网页广告营销信息识别模型。
21.一种基于bert算法的网页广告营销文本识别方法，其特征在于，还包括：
22.利用网页广告营销信息识别模型结果中错误的识别结果得到模型识别错误结果集合；
23.将模型识别错误结果集合划分为错误结果训练集、错误结果评估集与错误结果测试集；
24.以错误结果训练集为输入，以所述错误结果训练集对应的识别结果为输出，带入网页广告营销信息识别模型进行训练；
25.将错误结果评估集带入网页广告营销信息识别模型，得到网页广告营销信息识别结果，根据所述网页广告营销信息识别结果判断网页广告营销信息识别模型的识别率是否高于相邻上一次网页广告营销信息识别模型的识别率，若是，保留此次网页广告营销信息识别模型，否则，放弃保留；
26.将错误结果测试集带入所述网页广告营销信息识别模型得到网页广告营销信息识别模型测试结果；
27.根据所述网页广告营销信息识别模型测试结果对网页广告营销信息识别模型进行调整。
28.基于同一发明构思，本发明还提供了一种基于bert算法的网页广告营销文本识别系统，其特征在于，包括：
29.采集模块，用于采集网页原始数据获取网页初始待识别文本集合；
30.获取模块，用于利用所述网页初始待识别文本集合获取网页广告营销文本识别结果。
31.与最接近的现有技术相比，本发明具有的有益效果：
32.利用对网页结构的解析分隔网页内容达到准确提取有效的网页广告营销文本，同时还利用已标记的广告营销文本样本库和成熟的bert算法得到广告营销文本判断模型，并利用广告营销文本判断模型实现网页广告营销文本内容识别，实现广告营销文本识别；此外还通过识别结果的人工校正结果对广告营销文本判断模型进行训练更新，进一步提升广告营销文本判断模型的准确性。
附图说明
33.图1是本发明提供的一种基于bert算法的网页广告营销文本识别方法流程图；
34.图2是本发明提供的一种基于bert算法的网页广告营销文本识别系统流程图；
35.图3是本发明提供的一种基于bert算法的网页广告营销文本识别方法具体应用流程图；
36.图4是本发明提供的一种基于bert算法的网页广告营销文本识别系统具体应用流程图。
具体实施方式
37.下面结合附图对本发明的具体实施方式作进一步的详细说明。
38.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
39.实施例1：
40.本发明提供了一种基于bert算法的网页广告营销文本识别方法，如图1所示，包括：
41.步骤1采集网页原始数据获取网页初始待识别文本集合；
42.步骤2：利用所述网页初始待识别文本集合获取网页广告营销文本识别结果。
43.步骤1具体包括：
44.1-1：采集网页原始数据后，对所述网页原始数据基于html协议进行处理，得到网页初始待识别文本集合。
45.步骤1-1具体包括：
46.1-1-1：对网页原始数据基于html协议划分网页原始文本数据功能种类；
47.1-1-2：对所述网页原始文本数据功能种类中各网页原始数据基于html协议去除网页相关标签信息，得到网页基础文本分散语句数据；
48.1-1-3：利用所述网页基础文本分散语句数据进行拼接处理得到网页基础文本完整语句数据后，建立集合。
49.步骤2具体包括：
50.2-1：利用网页初始待识别文本集合带入预先训练的网页广告营销信息识别模型，得到网页广告营销信息识别结果。
51.步骤2-1具体包括：
52.2-1-1：采集正常网页文本数据与网页广告营销文本数据作为样本集合；
53.2-1-2：将所述样本集合按比例划分为训练集、评估集与测试集；
54.2-1-3：以训练集为输入，以所述训练集对应的识别结果为输出，基于bert算法增加最上层分类全连接层进行训练得到网页广告营销信息初始识别模型；
55.2-1-4：将评估集带入网页广告营销信息初始识别模型，得到网页广告营销信息初始识别结果，根据所述网页广告营销信息初始识别结果判断网页广告营销信息初始识别模型的识别率是否高于相邻上一次网页广告营销信息初始识别模型的识别率，若是，保留此次网页广告营销信息初始识别模型，否则，放弃保留；
56.2-1-5：将测试集带入所述网页广告营销信息初始识别模型得到网页广告营销信息初始识别模型测试结果；
57.2-1-6：根据所述网页广告营销信息初始识别模型测试结果对网页广告营销信息初始识别模型进行调整得到网页广告营销信息识别模型。
58.一种基于bert算法的网页广告营销文本识别方法，其特征在于，还包括：
59.利用网页广告营销信息识别模型结果中错误的识别结果得到模型识别错误结果集合；
60.利用模型识别错误结果集合划分为错误结果训练集、错误结果评估集与错误结果测试集；
61.以错误结果训练集为输入，以所述错误结果训练集对应的识别结果为输出，带入网页广告营销信息识别模型进行训练；
62.将错误结果评估集带入网页广告营销信息识别模型，得到网页广告营销信息识别结果，根据所述网页广告营销信息识别结果判断网页广告营销信息识别模型的识别率是否高于相邻上一次网页广告营销信息识别模型的识别率，若是，保留此次网页广告营销信息识别模型，否则，放弃保留；
63.将错误结果测试集带入所述网页广告营销信息识别模型得到网页广告营销信息识别模型测试结果；
64.根据所述网页广告营销信息识别模型测试结果对网页广告营销信息识别模型进行调整。
65.实施例2：
66.一种基于bert算法的网页广告营销文本识别系统，如图2所示，包括：
67.采集模块，用于采集网页原始数据获取网页初始待识别文本集合；
68.获取模块，用于利用所述网页初始待识别文本集合获取网页广告营销文本识别结果。
69.实施例3：
70.一种基于bert算法的网页广告营销文本识别方法具体应用流程，如图3所示，包括：
71.步骤1：使用网络爬虫爬取网页原始内容，得到初始文本；
72.步骤2：基于html协议对步骤1获取的初始文本进行文本整理，得到待识别文本集合；
73.步骤3：将步骤2得到的待识别文本集合输入到基于bert中文预训练模型训练得到的广告营销信息识别模型中进行广告营销文本识别，得到识别结果；
74.步骤4：对步骤3得到的识别结果进行人工验证，并基于广告营销识别样本更新广告营销信息识别模型。
75.具体的，步骤1具体包括：
76.步骤1.1：获取待识别网页的域名地址，得到域名地址集合；
77.步骤1.2：使用网络爬虫爬取步骤1.1得到的域名地址集合，并基于广度优选搜索策略，对读取的域名地址信息所对应的网页进行逐一爬取，得到初始文本。
78.具体的，步骤2具体包括：
79.步骤2.1：基于html协议，将步骤1中得到的原始文本按照功能划分为不同的区域，得到不同区域的文本内容；
80.步骤2.2：去除步骤2.1中不同区域的文本内容中与html协议有关的标签信息，得到符合汉语语言相关的文本内容；
81.步骤2.3：根据前后关联性对步骤2.2中得到的符合汉语语言相关的文本内容进行拼接、分割，得到规范的文本句子；
82.步骤2.4：将同一网页中得到的文本句子组合成一个集合，得到待识别文本集合。
83.具体的，步骤3中的广告营销信息识别模型的训练包括以下步骤：
84.步骤3.1：收集具有标记的正常文本样本和广告营销文本样本，组成样本集合；
85.步骤3.2：将步骤3.1中的样本集合分成训练集、评估集和测试集；
86.步骤3.3：加载bert中文预训练模型，在预训练模型的最上层增加分类全连接层，组合得到训练模型；
87.步骤3.4：分别采用训练集、评估集和测试集作为步骤3.3中训练模型的输入对训练模型进行训练学习、评估、测试和调整，得到广告营销信息识别模型。
88.具体的，步骤4具体包括：
89.步骤4.1：对步骤3得到的识别结果进行人工验证，并得到识别结果中识别错误的文本；
90.步骤4.2：为步骤4.1中识别错误的文本创建标记，得到新的训练样本；
91.步骤4.3：使用步骤4.2中得到的训练样本对步骤3中的广告营销信息识别模型进行学习训练，更新广告营销信息识别模型。
92.实施例4：
93.一种基于bert算法的网页广告营销文本识别系统具体应用流程，如图4所示，包括：
94.文本采集模块，用于使用网络爬虫爬取网页原始内容，得到初始文本；
95.文本筛选模块，用于基于html协议对文本采集模块获取的初始文本进行文本整理，得到待识别文本集合；
96.文本识别模块，用于将文本筛选模块得到的待识别文本输入到基于bert中文预训练模型训练得到的广告营销信息识别模型中进行广告营销文本识别，得到识别结果；
97.模型更新模块，用于对文本识别模块得到的识别结果进行人工验证，并基于广告营销识别样本更新广告营销信息识别模型。
98.进一步的，所述文本采集模块包括：
99.网页信息采集器，用于获取网页地址并通过http协议访问获取该网页地址，以获取网页内容；
100.网页分析器，用于解析所述网页内容，并将网页内容中的链接地址发送至网页地址管理器，还用于将网页内容转换为初始文本；
101.网页地址管理器，用于从网页地址库中获取网页地址集并传递至信息采集器，还用于获取网页分析器中提取的网页地址并存储至网页地址库中。
102.具体的，所述网页信息采集器为一个网页爬取蜘蛛，处于网络爬虫系统的底层，是网络爬虫系统与外接互联网信息进行交互的接口部分。网页信息采集器主要目的是通过访问互联网获取网页的页面信息，具体的，网络信息采集器从网页地址集合出发，通过http协议请求，采用广度优先遍历算法搜索并下载网页页面信息，得到页面内容。
103.所述网页分析器的主要功能是解析网页信息采集器获取的页面内容，具体的可分为两个方面：一方面是提取页面内容中提取有效链接地址，并将其发送至网页地址管理器，另一方面在于将页面内容转换成文本格式，从而得到初始文本。
104.网页地址管理器的主要功能是管理网页地址。一方面网页地址管理器从网页地址库中获取网页地址集，并将它们依次交给信息采集器；另一方面网页地址管理器从信息采
集器中获得提取的新的链接地址，并将这些地址保存到网页地址库中。
105.此外，文本采集模块还包括url过滤器和网页地址库，网页地址库用于存储网页地址， url过滤器用于过滤网页地址库中重复的网页地址，避免网页采集器重复访问。
106.其中，所述文本筛选模块包括：
107.内容过滤模块，用于获取初始文本，并过滤掉初始文本中的标签信息、渲染信息和脚本信息，得到有效文本；
108.内容分类模块，用于根据网页定义规则对得到的有效文本进行内容划分，得到网页正文内容；
109.内容整合模块，用于对网页正文内容进行整合，得到句子文本，所述句子文本的组合为待识别文本集合。
110.爬取到的网页原始内容包含大量的html标签元素、渲染信息、脚本等信息。这些信息对最终识别没有作用，需要将其进行去除。同时，网页中不同区域的的文本信息需要进行区分，并需要将文本信息根据前后的关联性将其进行组合和分割，这有助于后续模型识别效果。
111.具体的，内容过滤模块用于构建正则表达式，根据html协议规则，去除类似《divclass＝’age’》《/div》的标签元素信息，去除类似css的渲染信息，去除类似javascript语言的脚本信息，从而达到保留符合汉语语言规范的文本内容的目的，即得到有效文本。
112.内容分类模块用于根据通常网页定义规则，将网页内容划分为网页菜单内容、网页正文内容和网页注脚内容。其中，网页菜单内容主要是网页导航菜单，网页注脚内容通常是位于网页底部与网页备案有关的信息。
113.其中，所述文本识别模块包括：
114.模型识别单元，用于将待识别文本集合输入到广告营销信息识别模型中进行广告营销文本识别，得到广告营销文本和无害文本；
115.网页判定单元，用于根据网页中广告营销文本的数量占比与预设阈值的大小，判断网页是否为有害网页，得到包括广告营销文本、无害文本和判定结果的识别记过。
116.其中，所述模型更新模块包括：
117.人工分拣模块，用于显示识别结果以供人工分拣，以得到广告营销识别样本；
118.样本训练模块，用于基于广告营销识别样本对广告营销信息识别模型进行模型训练，得到更新后的广告营销信息识别模型。
119.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
120.本发明是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用
于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
121.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
122.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
123.最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：单据处理方法、装置、计算机设备和存储介质与流程

一种基于BERT算法的网页广告营销文本识别方法及系统与流程

相关文献

最热文献