一种获取目标主题数据信息的方法及装置与流程

2022-07-06 08:23:45 来源：中国专利 TAG：

1.本发明涉及网络信息技术领域，尤其涉及到一种获取目标主题数据信息的方法及装置。

背景技术：

2.在大数据时代背景下，信息数据呈现爆炸式增长，越来越多的数据从表层网络转入深层网络中，据brightplanet公司技术白皮书“the deep web-surfacingthe hiddenvalue
”ꢀ
介绍，深层网络中包含可访问公共信息量是表层网络中的400至500倍且包含更多有价值的信息资源。面对如此巨大的数据量运用深层网络爬虫将获得数据数量和质量远高于传统网络爬虫的数据，然而，由于现有的网络爬虫不具备文字语义的识别能力，会导致获取的数据遗漏部分相关数据，导致获取数据准确率低，获得的数据中参杂大量无用数据，造成计算机存储资源极大浪费、数据清洗工作量大幅增加。因此如何构建高效、精准且智能化的数据获取及处理方法已然成为大数据研究领域的首要问题。nlp自然语言是人工智能领域中的一个重要发展方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。从现有的理论和技术现状看，通用的、高质量的nlp系统，仍然是较长期的努力目标，但是针对一定应用，具有一定nlp能力的实用系统已经出现，如：多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。诸多例子是我们看到nlp自然语言同网络爬虫技术相结合的可能。鉴于此，如何实现网络爬虫的深层网络化、人工智能化，实现对数据的智能化识别，成本领域技术人员亟待解决的问题。

技术实现要素：

3.本发明实施例提供一种获取目标主题数据信息的方法及装置，用以解决现有技术中网络爬虫对数据的智能化识别的问题。
4.本发明第一个方面，提供了一种获取目标主题数据信息的方法，包括：
5.获取预建的url队列，所述url队列存放有待获取的目标主题数据的url链接；
6.从所述url队列中提取url链接，进入目标主题的网页抓取原始网络数据，所述原始网络数据包括主题数据、网页url和表单url；
7.判断网页是否包含ajax引用，若是，则运用深层网络爬虫基于nlp自然语言及相关度聚类算法，从包含表单url的网页中执行如下步骤：
8.根据采集的所述原始网络数据获取表单数据；对所述表单数据的特征标签进行提取、分类及标准化处理后获得表单数据的数据标签；基于nlp自然语言对所述表单数据及其数据标签作为语料源建立表单语料库，并根据以transformer为基础编译器的gpt预训练模型对所述表单语料库进行模型训练后获得表单gpt预训练模型；根据所述表单gpt 预训练模型从所述表单数据中筛选获得初筛表单数据；运用相关度聚类算法对所述初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息。
9.本发明第二个方面，提供了一种获取目标主题数据信息的装置，包括：
10.深层网络爬虫模块，所述深层网络爬虫模块包括网页信息数据解析器；
11.表单数据nlp处理模块和数据主题相关度聚类计算模块，所述表单数据nlp处理模块包括表单数据标签提取器、表单数据标签nlp语料库模块、无监督表单gpt预训练模块及表单数据提取器；
12.所述深层网络爬虫模块获取预建的所述url队列，所述url队列存放有待获取的目标主题数据的url链接；
13.所述网页信息数据解析器从所述url队列中提取url链接，进入目标主题的网页抓取原始网络数据，所述原始网络数据包括主题数据、网页url和表单url；判断网页是否包含ajax引用，若是，则运用深层网络爬虫基于nlp自然语言及相关度聚类算法，从包含表单url的网页中，通过所述深层网络爬虫模块根据采集的所述原始网络数据获取表单数据；所述表单数据标签提取器对所述表单数据的特征标签进行提取、分类及标准化处理后获得表单数据的数据标签；所述表单数据标签nlp语料库模块基于nlp自然语言对所述表单数据及其数据标签作为语料源建立表单语料库，并通过所述无监督表单gpt预训练模块根据以transformer为基础编译器的gpt预训练模型对所述表单语料库进行模型训练后获得表单gpt预训练模型；所述表单数据提取器根据所述表单gpt 预训练模型从所述表单数据中筛选获得初筛表单数据；所述数据主题相关度聚类计算模块运用相关度聚类算法对所述初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息。
14.本发明实施例的有益效果为：
15.本发明基于nlp自然语言及相关度聚类算法，针对不同的网络数据运用深层网络爬虫或表层网络爬虫从目标网页中定向获取目标主题相关的数据信息，不仅使得获取得数据数量和质量远高于传统网络爬虫的数据，而且，实现了网络爬虫的深层网络化、人工智能化，使得网络爬虫具备文字语义的识别能力，确保了所获数据完整性和准确率，同时清洗丢弃掉了数据中参杂的大量无用数据，由此构建了高效、精准且智能化的数据处理方法。
16.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
17.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
18.图1为本发明第一实施例提供的一种获取目标主题数据信息的方法的流程示意图；
19.图2为本发明第一实施例提供的深层网络爬虫获取目标主题数据信息的方法的流程示意图；
20.图3为图2中步骤s201的具体实施流程图；
21.图4为本发明第一实施例提供的表层网络爬虫获取目标主题数据信息的方法的流
程示意图；
22.图5为图4中步骤s302的具体实施流程图；
23.图6为本发明第一实施例提供的相关度聚类算法的流程示意图；
24.图7为本发明一实施例提供的一种获取目标主题数据信息的装置的结构示意图；
25.图8为是本发明一示例性实施例提供的一种获取目标主题数据信息的方法流程图；
26.图9为本发明一示例性实施例提供的获取女装数据的数据链接映射关系树状图。
27.图中：1-预处理模块，2-深层网络爬虫模块，3-页面数据主题nlp处理模块，4-表单数据nlp处理模块，5-数据主题相关度聚类计算模块，6-数据存储模块。
具体实施方式
28.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
29.在本发明第一实施例中，请参见图1-6，提供了一种获取目标主题数据信息的方法，包括如下步骤的方法：
30.步骤s101：获取预建的url队列，url队列存放有待获取的目标主题数据的url 链接。获取之前需将url队列进行初始化处理，对url进行排序、去重等处理。步骤 s102：从url队列中提取url链接，进入目标主题的网页抓取原始网络数据，原始网络数据包括主题数据、网页url和表单url。步骤s103：判断网页是否包含ajax引用，若是，则运用深层网络爬虫基于nlp自然语言及相关度聚类算法，从包含表单url 的网页中定向获取目标主题相关的数据信息；若否，则运用表层网络爬虫基于nlp自然语言及相关度聚类算法，从不包含表单url的网页中定向获取目标主题相关的数据信息。
31.步骤s103中运用深层网络爬虫基于nlp自然语言及相关度聚类算法，从包含表单 url的网页中定向获取目标主题相关的数据信息，包括：步骤s201：根据采集的原始网络数据获取表单数据；步骤s202：对表单数据的特征标签进行提取、分类及标准化处理后获得表单数据的数据标签；步骤s203：基于nlp自然语言对表单数据及其数据标签作为语料源建立表单语料库，并根据以transformer为基础编译器的gpt预训练模型对表单语料库进行模型训练后获得表单gpt预训练模型；步骤s204：根据表单gpt预训练模型从表单数据中筛选获得初筛表单数据；步骤s205：运用相关度聚类算法对初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息。
32.步骤s101中，获取预建的url队列时，还获取数据—链接字典，数据—链接字典为将数据作为键、链接作为值形成的键值对组成的字典集合。则步骤s201根据采集的原始网络数据获取表单数据，包括：步骤s2011：根据采集的原始网络数据建立主题数据和网页url、主题数据和表单url的键值对，键值对用于反应主题数据与超链接文本的树状关系映射结构；步骤s2012：对表单url进行可搜索性验证，保留可执行搜索的主题数据和表单url的键值对；步骤s2013：对经过可搜索性验证的表单url进行结构拆分和标准化处理；步骤s2014：将主题数据和经过结构拆分和标准化处理操作后的表单url构成的键值对进行填
充并存入数据—链接字典中，生成可查询的数据链形式的表单url队列；步骤s2015：根据结构拆分和标准化处理获得的拆分结果对表单url进行核心特征词的提取、表单控件的识别，并向表单url的各部分填充特征词生成可搜索表单url；步骤s2016：逐一提取表单url队列中的url获取表单数据，或逐一提取将可搜索表单url提交至服务器后返回的表单数据。
33.其中，步骤s2013对经过可搜索性验证的表单url进行结构拆分和标准化处理包括：将表单url的各组成部分按照标准链接格式进行特征词拆分，标准链接格式为 scheme://netloc/path；params？query#fragment，其中，scheme为传输协议、netloc为域名、 path为访问路径、params为参数、query为查询条件、fragment为页面定位锚点。
34.其次，步骤s101中获取预建的url队列时，还获取数据主题词列表，数据主题词列表为根据待获取的数据信息所属领域或已知关键字创建的名词列表，用于对表单gpt 预训练模型进行准确度调整。
35.步骤s103中，判断网页是否包含ajax引用，若否，则运用表层网络爬虫基于nlp 自然语言及相关度聚类算法，从不包含表单url的网页中执行如下步骤：步骤s301：对不包含表单url的网页进行页面数据解析后获取主题数据和网页url；步骤s302：基于nlp自然语言对主题数据和网页url进行主题数据过滤后获得初筛网页数据；步骤s303：运用相关度聚类算法对初筛网页数据进行相关度聚类计算后获得目标主题相关的数据信息。
36.步骤s302中，基于nlp自然语言对主题数据和网页url进行主题数据过滤后获得初筛网页数据，包括：步骤s3021：通过已有开源语料或主题数据所属特定领域的文本数据作为语料源构建主题预训练语料库；步骤s3022：对主题预训练语料库按预设的语料预处理规则进行数据清洗获得清洗后的文本数据；步骤s302：根据文本数据构建词带模型，对词带模型根据以transformer为基础编译器的bert预训练模型进行模型训练获得数据主题预训练模型；步骤s302：数据主题预训练模型根据数据主题词列表对主题数据和网页url进行语义识别并提取符合本次搜索目标的初筛网页数据。
37.具体地，步骤s302中根据文本数据构建词带模型包括：将每个词语或符号构建成集合，构建词向量将字、词语转换为向量矩阵的计算模型：
38.v＝v
t
vs v
p
39.式中v
t
表示词向量，vs表示块向量，v
p
表示位置向量；三种向量的大小均为n
×
e， n表示序列最大长度，e表示词向量维度；其中词向量v
t
表示为：v
t
＝e
t
·wt
，式中 w
t
∈r
/v/
·e表示可训练的词向量矩阵；|v|表示词表大小，e表示块向量维度；块向量vs表示为vs＝es·ws
，式中ws∈r
/s/
·e表示可训练的块向量矩阵,ws表示块数量，e表示块向量维度；位置变量v
p
表示为vs＝e
p
·wp
,式中w
p
∈rn·e表示可训练的位置向量矩阵，n 表示最大位置长度，e表示位置向量纬度。
40.具体地，步骤205中运用相关度聚类算法对初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息，或步骤303中运用相关度聚类算法对初筛网页数据进行相关度聚类计算后获得目标主题相关的数据信息，包括：
41.步骤401：对初筛表单数据或初筛网页数据进行聚类计算预处理并随机选取k个聚类中心，k为正整数，聚类计算预处理的处理内容包括数据聚类中心点标记、文本去标点、分级、归类及去重；
42.步骤402：采用欧氏距离法根据所选聚类中心计算初筛表单数据或初筛网页数据内每个其他表单数据或网页数据与所选聚类中心的距离后，再将各个聚类中心移动到它所在聚类的中心位置来重新计算各个聚类的聚类中心，该中心位置即为更新后的聚类中心的位置；更新聚类中心后再次计算每个表单数据或网页数据与聚类中心的距离直到获得满足聚类终止条件的相关度阈值，以对经过聚类计算的初筛表单数据或初筛网页数据中不符合相关度阀值的数据执行删除操作，使得获取的数据更加精准无杂质；
43.步骤403：对完成聚类计算的表单数据或网页数据依次按照数据主题、子数据主题、数据值、数据链接的顺序进行分级，对已完成分级的表单数据或网页数据进行归类统计、去除数据中的重复项后，对目标主题相关联的表单数据或网页数据进行关系映射重构，生成映射关系树状图表。
44.由此，本发明实施例基于nlp自然语言及相关度聚类算法，针对不同的网络数据运用深层网络爬虫或表层网络爬虫从目标网页中定向获取目标主题相关的数据信息，不仅使得获取得数据数量和质量远高于传统网络爬虫的数据，而且，实现了网络爬虫的深层网络化、人工智能化，使得网络爬虫具备文字语义的识别能力，确保了所获数据完整性和准确率，同时清洗丢弃掉了数据中参杂的大量无用数据，由此构建了高效、精准且智能化的数据处理方法。
45.请参见图7，本发明第二实施例提供了一种获取目标主题数据信息的装置，包括：
46.深层网络爬虫模块2、预处理模块1，深层网络爬虫模块2包括网页信息数据解析器。深层网络爬虫模块2获取预建的url队列，url队列存放有待获取的目标主题数据的 url链接，预处理模块1用于初始化url队列。深层网络爬虫模块2的网页信息数据解析器从url队列中提取url链接，进入目标主题的网页抓取原始网络数据，原始网络数据包括主题数据、网页url和表单url；判断网页是否包含ajax引用，若是，则运用深层网络爬虫基于nlp自然语言及相关度聚类算法，从包含表单url的网页中定向获取目标主题相关的数据信息；若否，则运用表层网络爬虫基于nlp自然语言及相关度聚类算法，从不包含表单url的网页中定向获取目标主题相关的数据信息。
47.进一步的，深层网络爬虫模块2获取预建的url队列时，还获取数据主题词列表，数据主题词列表为根据待获取的数据信息所属领域或已知关键字创建的名词列表，用于对表单gpt预训练模型进行准确度调整。
48.本发明提供的装置还包括目标数据主题预处理模块1，在利用深层网络爬虫模块2 获取目标主题相关的数据信息之前，首先要采用目标数据主题预处理模块1进行如下操作：s11：初始化数据主题词列表，根据需要获取的数据所属领域或已知相关关键字创建欲获取的数据的相关名词列表，用以同页面数据主题nlp自然语言处理模块3进行主题内容匹配，以确定本次数据爬取的主题、用以作为数据主题相关度聚类计算模块5进行关联度计算的关联参数。s12：初始化url队列，url队列用以存放爬虫程序获取的 url，并对url进行排序、去重处理。s13：初始化主题数据—表单url字典，用于创建主题与超链接文本的树状关系映射结构，形成数据(键)—表单url(值)对应的字典集合，该字典为可查询字典，由数据主题相关度聚类计算模块5对此字典的主题相关数据进行分类、分级、归类等操作，再经过数据存储模块6的关联数据清洗生成主题数据—表单url的树状关系映射的完整数据链。
49.本发明实施例提供的装置还包括表单数据nlp处理模块4和数据主题相关度聚类计算模块5，表单数据nlp处理模块4包括表单数据标签提取器、表单数据标签nlp语料库模块、无监督表单gpt预训练模块及表单数据提取器。则运用深层网络爬虫基于nlp 自然语言及相关度聚类算法，从包含表单url的网页中定向获取目标主题相关的数据信息，包括：
50.通过深层网络爬虫模块2根据采集的原始网络数据获取表单数据；表单数据标签提取器对表单数据的特征标签进行提取、分类及标准化处理后获得表单数据的数据标签；表单数据标签nlp语料库模块基于nlp自然语言对表单数据及其数据标签作为语料源建立表单语料库，并通过无监督表单gpt预训练模块根据以transformer为基础编译器的gpt预训练模型对表单语料库进行模型训练后获得表单gpt预训练模型，具体的，无监督表单gpt预训练模块，以12个transformer为基础编译器的gpt预训练模型的无监督预训练目标函数为
[0051][0052]
其中k是语料库中上下文窗口的大小，p为条件概率，θ为条件概率的参数，参数更新将采用退火策略的adam优化器的随机梯度下降的方式。
[0053]
输出分布为h0＝uwe w
p
[0054]
we表示标记的嵌入矩阵，w
p
是位置编码的嵌入矩阵。voc表示词汇表大小，pos表示最长的句子长度，dim表示embedding维度，则w
p
是一个pos
×
dim的矩阵，we是一个 voc
×
dim的矩阵。h0表示输入层，将h0依次传入模型的所有transformer解码器中最终获得hn，n为神经网络的层数表达式如下：
[0055][0056][0057]
根据完成的预训练模型和数据主题词列表对预训练模型进行有监督的微调。
[0058]
表单数据提取器根据表单gpt预训练模型从表单数据中筛选获得初筛表单数据，表单gpt预训练模型对表单数据提取器提取的表单数据进行特征标签和表单域作标准化处理，提取表单数据进行主题相关度聚类计算。数据主题相关度聚类计算模块5运用相关度聚类算法对初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息。
[0059]
深层网络爬虫模块2获取url队列时，还获取初始化后的数据—链接字典，数据— 链接字典为将数据作为键、链接作为值形成的键值对组成的字典集合。深层网络爬虫模块2还包括网页表单url验证器、表单url结构分类器、网页表单url队列生成器、表单url填充器及表单数据提取器，则深层网络爬虫模块2根据采集的原始网络数据获取表单数据包括：由网页信息数据解析器根据采集的原始网络数据建立主题数据和网页 url、主题数据和表单url的键值对，键值对用于反应主题数据与超链接文本的树状关系映射结构。网页表单url验证器对表单url进行可搜索性验证，保留可执行搜索的主题数据和表单url的键值对。表单url结构分类器对经过可搜索性验证的表单url 进行结构拆分和标准化处理。网页表单url队列生成器将主题数据和经过结构拆分和标准化处理操作后的表单url构成的键值对进行填充并存入数据—链接字典中，生成可查询的数据链形式的表单url队列。表单url填充器根据表单url结构分类器对表单 url进行结构拆分和标准化处理获得的拆分
结果对表单url进行核心特征词的提取、表单控件的识别，并向表单url的各部分填充特征词生成可搜索表单url。表单数据提取器逐一提取表单url队列中的url获取表单数据，或逐一提取将可搜索表单url提交至服务器后返回的表单数据。
[0060]
本发明实施例提供的装置还包括页面数据主题nlp处理模块3，网页信息数据解析器判断网页是否包含ajax引用，若否，则运用表层网络爬虫基于nlp自然语言及相关度聚类算法，对不包含表单url的网页进行页面数据解析后获取主题数据和网页url，并将主题数据和网页url传递至页面数据主题nlp处理模块3。页面数据主题nlp处理模块3基于nlp自然语言对主题数据和网页url进行主题数据过滤后获得初筛网页数据。由数据主题相关度聚类计算模块5运用相关度聚类算法对初筛网页数据进行相关度聚类计算后获得目标主题相关的数据信息。
[0061]
可选的，页面数据主题nlp处理模块3包括页面数据主题语料库构建模块、语料预处理模块、特征模型构建模块、页面数据主题nlp模型预训练模块及数据主题分类器，则页面数据主题nlp处理模块3基于nlp自然语言对主题数据和网页url进行主题数据过滤后获得初筛网页数据，包括：
[0062]
由页面数据主题语料库构建模块通过已有开源语料或主题数据所属特定领域的文本数据作为语料源构建主题预训练语料库。语料预处理模块对主题预训练语料库按预设的语料预处理规则进行数据清洗获得清洗后的文本数据。特征模型构建模块根据文本数据构建词带模型后，由页面数据主题nlp模型预训练模块对词带模型根据以transformer 为基础编译器的bert预训练模型，进行模型训练获得数据主题预训练模型。具体的，页面数据主题nlp模型预训练模块以12个transformer基础编译器进行堆叠组成bert 预训练模型，每个编码器依照s33进行向量构建其输出词向量作为下一个编码器的输入词向量，词向量序列进入编码器后，经过自注意力层使得编码器可以识别词向量序列中的其他单词；自注意力层的输出进入前馈神经网络，每一个前馈神经网络均与单词的输入位置相对应，每个前馈神经网络相互独立互不干扰；自注意力层使用多头机制，使得不同的注意力头所关注的部分不同，各注意力层进行残差连接，并执行层归一化操作，输入表示层：
[0063][0064]
v＝inputrepresentation(x)
[0065]
[cls]表示文本序列开始的特殊标记；[sep]表示文本序列之间的分隔标记。输入层v 借助自注意力机制经过l层transformer：
[0066][0067]
式中h
[l]
∈rn·d表示第l层transformer的隐含层输出，同时规定h
[0]
＝v，以保持上式的完备性。为了描述方便，略去层与层之间的标记并简化为：
[0068]
h＝transformer(v)
[0069]
式中h表示最后一层transformer的输出，即h
[l]
。通过上述方法最终得到文本的上下文语义表示h∈rn·d，其中d表示bert的隐含层维度。输出层通过一个全连接层预测输入文本的分类概率p∈r2。
[0070]
[0071]
b0∈r
|v|
表示全连接层的偏置。表示全连接层的权重。最终将输出每个单词增强语义的词向量传递给下一个编码器直至编码结束。
[0072]
数据主题分类器通过数据主题预训练模型根据数据主题词列表对主题数据和网页 url进行语义识别并提取符合本次搜索目标的初筛网页数据。即，根据完成的数据主题预训练模型和数据主题词列表对预训练模型进行有监督的微调，实现对页面数据的智能化语义理解和目标数据边界的界定，完成目标数据主题的确认并分类。
[0073]
该装置还包括数据主题相关度聚类计算模块5，则数据主题相关度聚类计算模块5 运用相关度聚类算法对初筛表单数据进行相关度聚类计算后获得目标主题相关的数据信息，或运用相关度聚类算法对初筛网页数据进行相关度聚类计算后获得目标主题相关的数据信息，具体包括如下步骤：
[0074]
1、采用数据主题相关度聚类计算模块5对初筛表单数据或初筛网页数据进行关联聚类数据清洗步骤：包括数据聚类中心点标记、文本去标点等；
[0075]
2、聚类计算时，对所获取的表单数据、表单url及网页信息数据同目标数据主题进行聚类计算，数据对象xi(x
i1
,x
i2
,
…
,x
ip
)
t
、xj(x
j1
,x
j2
,
…
,x
jp
)
t
[0076]
之间的距离用欧氏距离d(xi·
xj)表示如下：
[0077][0078]
更新计算聚类中心表示如下：
[0079][0080]
终止迭代计算公式如下：
[0081][0082]
其结果作为数据分类及数据取舍的依据；
[0083]
3、关联数据清洗，对经过步骤2关联度计算的表单数据和网页信息数据依照计算结果，依次按照数据主题、子数据主题、数据值、数据链接的顺序进行分级，对已完成分级的数据进行归类统计、去除数据中的重复项。
[0084]
4、无关数据过滤，对经过步骤1关联度计算的表单数据和网页信息数据中不符合相关度阀值的数据执行删除操作。
[0085]
5、数据关系映射，对目标数据主题的相关联表单数据和表单url、网页信息数据和网页url按照关联数据清洗后的结果进行关系映射重构，生成数据主题—子数据主题— 数据值，数据链接映射关系树状图表，如图9获取女装信息的数据链接映射关系树状图表所示。
[0086]
6、最后采用数据存储模块6对获取的数据进行存储：s61、数据分类存储，对同一目标数据主题下不同类型的相关数据实行分类存储。s62、数据分级存储，对目标数据主题、主题关联表单数据、主题关联url由高到底依次建立主从分级存储。s63、数据归类存
储，对同级数据进行统计归类。
[0087]
本发明实施例基于nlp自然语言及相关度聚类算法，针对不同的网络数据运用深层网络爬虫或表层网络爬虫从目标网页中定向获取目标主题相关的数据信息，不仅使得获取得数据数量和质量远高于传统网络爬虫的数据，而且，实现了网络爬虫的深层网络化、人工智能化，使得网络爬虫具备文字语义的识别能力，确保了所获数据完整性和准确率，同时清洗丢弃掉了数据中参杂的大量无用数据，由此构建了高效、精准且智能化的数据处理方法。
[0088]
为使本发明更加清楚明白，本发明第四实施例分别对运用深层网络爬虫和表层网络爬虫基于nlp自然语言及相关度聚类算法，从不同的网页中定向获取目标主题相关的数据信息时的具体实施案例。
[0089]
实施案例一：运用表层网络爬虫基于nlp自然语言及相关度聚类算法，从不包含表单url的网页中定向获取目标主题相关的数据信息，用于无表单数据的网页信息抓取和有表单数据的网页链接获取，其步骤如下：
[0090]
首先预处理模块1，分别初始化数据主题词列表、url队列和主题数据—链接字典，将初始化的url传递至s21网页信息数据解析器进行页面获取。s21网页信息数据解析器对获取的页面进行解析，并进行ajax引用判断，对不包含ajax引用的网页进行页面数据解析，将获取的数据和url链接传递至页面数据主题nlp处理模块3，进行主题数据过滤。
[0091]
页面数据主题nlp处理模块3在开始执行搜索操作前将先根据开源语料或目标数据所在领域文本数据作为语料源，通过语料预处理去除获取的网页文本数据中的特殊符号、表情符号、多余空白，文本字体统一成简体中文，通过正向最大匹配和crf方法结合的中文分词方法对语料进行分词，对文中频繁出现的语气词、助词、连词、介词等进行去停用词操作，标签化处理等数据清洗操作。清洗后的文本数据经特征模型构建成字或词语的矩阵形式的词带模型借助自注意力机制进过多层归一化操作实现模型训练，完成模型预训练的页面数据主题nlp处理模块3依据数据主题词表对已解析的页面数据进行语义识别从中提取符合本次搜索目标的数据，再由数据主题相关度聚类计算模块5对所获取的数据进行分类、聚合、去重、分级等。
[0092]
数据主题相关度聚类计算模块5首先执行关联聚类数据清洗流程，来对经过页面数据主题nlp处理模块3初筛的网页数据去除标点、随机选取k个聚类中心并设置最小误差m，聚类计算时，首先采用欧氏距离法根据所选聚类中心计算每个其他网页数据与聚类中心的距离。
[0093][0094]
再重新计算各个聚类的聚类中心(即将各个聚类中心移动到它所在聚类的中心位置)，该位置即为更新后的聚类中心的位置。更新聚类中心后再次计算每个网页数据与聚类中心的距离直到满足聚类终止条件：
化处理，完成处理的表单数据标签和数据将传递至表单数据标签nlp语料库模块作为下一次数据搜索的表单数据nlp处理的语料，无监督表单gpt预训练模型对新增的语料进行微调训练提高表单数据及标签特征的识别能力，表单数据提取器将根据无监督表单 gpt预训练模型对表单数据提取器中的数据进行选择性提取。所获数据传递至数据主题相关度聚类计算模块5。
[0105]
数据主题相关度聚类计算模块5对经过表单数据nlp处理模块4初筛的表单数据进行去除标点、随机选取k个聚类中心并设置最小误差m，聚类计算时，采用欧氏距离法根据所选聚类中心计算每个其他表单数据与聚类中心的距离。
[0106][0107]
再重新计算各个聚类的聚类中心(即将各个聚类中心移动到它所在聚类的中心位置)，该位置即为更新后的聚类中心的位置。更新聚类中心后再次计算每个网页数据与聚类中心的距离直到满足聚类终止条件：
[0108][0109]
对完成聚类计算的表单数据进行关联数据清洗，依次按照数据主题、子数据主题、数据值、数据链接的顺序进行分级，对已完成分级的数据进行归类统计、去除数据中的重复项。无关数据过滤将低于阀值表单数据抛弃，将完成聚类的网页信息数据和网页url 按照关联数据清洗后的结果进行关系映射重构如图9所示(图9中的省略号“......”用于对冗余内容进行省略，省略内容不影响本发明实施例的清楚完整性)。再由数据存储模块 6对所获数据进行分类、分级存储。
[0110]
数据存储模块6对每一次更新进来的数据按照相关度聚类计算的结果与历史数据进行分级分类存储，将新增的数据-链接字典数据存入数据-链接证据链数据库作为数据追溯证据使用，将新增的链接提取至url优先级队列作为下一次网页获取使用，将新增表单数据提取并清洗存入主题信息数据库作为数据分析使用。进一步地，判定url优先级队列是否为空，若为空则终止本次数据搜索，若不为空，则弹出下一个链接，执行下一轮数据搜索。
[0111]
终上所述，本发明提供了一种基于nlp自然语言学习的智能化深层网络爬虫自主搜索行为控制的方法，通过对相关目标数据领域、网页源代码以及网页表单语料的训练使爬虫程序具备一定的语义识别能力，根据一定的搜索主题，定向识别表单和网页中的数据并自动下载生成主题内容、目标数据和网页链接的分类、分级、归类的关系映射结构。进而实现网络爬虫针对特定主题在深层网络中定向数据获取。同现有技术相比，本发明的先进之处在于通过nlp自然语言技术以及相关度匹配算法完成深层网络爬虫的智能化，实现对目标数据的定向获取，建立关联性数据存储，为检索信息和数据分析提供了一种行之有效的方法。
[0112]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指控制用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0113]
上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种商标相似度识别方法、装置、电子设备及存储介质

一种获取目标主题数据信息的方法及装置与流程

相关文献

最热文献