一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网页数据爬取方法、装置及本地服务器与流程

2022-02-20 06:36:08 来源:中国专利 TAG:

技术特征:
1.一种网页数据爬取方法,其特征在于,所述方法包括:获取爬取配置信息,所述爬取配置信息包括下述至少一项:爬取周期、目标数据信息以及目标网页信息;所述目标数据信息包括:目标关键词;所述目标网页信息包括下述至少一项:目标网页的地址、目标网页的列表页地址以及目标网页详情页地址;根据所述爬取配置信息,爬取目标数据;将所述目标数据按照预设规则进行存储。2.根据权利要求1所述的网页数据爬取方法,其特征在于,所述根据所述爬取配置信息,爬取目标数据,包括:采用预设过滤算法以及已存储数据,对所述爬取配置信息进行过滤,获取过滤后的爬取配置信息;采用所述过滤后的爬取配置信息,爬取目标数据。3.根据权利要求2所述的网页数据爬取方法,其特征在于,若所述爬取配置信息包括:目标网页信息,所述采用预设过滤算法以及已存储数据,对所述爬取配置信息进行过滤,获取过滤后的爬取配置信息,包括:将所述目标网页信息通过所述预设过滤算法过滤重复的网页信息,得到过滤后的爬取配置信息;所述采用所述过滤后的爬取配置信息,爬取目标数据,包括:根据所述过滤后的爬取配置信息中的目标网页信息,访问所述目标网页的地址对应的目标网页;根据所述过滤后的爬取配置信息中的目标关键词、目标网页的列表页地址以及目标网页详情页地址,在所述目标网页中爬取所述目标数据。4.根据权利要求1所述的网页数据爬取方法,其特征在于,所述将所述目标数据按照预设规则进行存储,包括:将所述目标数据进行解析,得到网页解析内容,所述网页解析内容包括:所述目标数据中包含的对应各字段名的字段内容;根据预设模型以及所述字段名,将所述字段内容映射至已存数据中所匹配字段名的对应位置。5.根据权利要求4所述的网页数据爬取方法,其特征在于,所述根据预设模型以及所述字段名,将所述字段内容映射至已存数据中所匹配字段名的对应位置,包括:将所述网页解析内容中的字段内容与所述已存数据中的字段内容进行哈希值比较,若重复,则删除重复的网页解析内容,获取待存储的网页解析内容;根据预设模型以及所述字段名,将所述待存储的网页解析内容的所述字段内容映射至已存数据中所匹配字段名的对应位置。6.根据权利要求1所述的网页数据爬取方法,其特征在于,所述将所述目标数据按照预设规则进行存储之后,包括:根据业务需求,在存储的目标数据中进行查询,得到所述业务需求对应的业务所需数据。7.根据权利要求1所述的网页数据爬取方法,其特征在于,所述方法还包括:若所述爬取配置信息中对应的信息均被访问,则停止爬取目标数据。
8.一种网页数据爬取装置,其特征在于,所述装置包括:获取模块,用于获取爬取配置信息,所述爬取配置信息包括下述至少一项:爬取周期、目标数据信息以及目标网页信息;所述目标数据信息包括:目标关键词;所述目标网页信息包括下述至少一项:目标网页的地址、目标网页的列表页地址以及目标网页详情页地址;爬取模块,用于根据所述爬取配置信息,爬取目标数据;存储模块,用于将所述目标数据按照预设规则进行存储。9.一种本地服务器,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述本地服务器运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一所述网页数据爬取方法的步骤。10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述网页数据爬取方法的步骤。

技术总结
本申请的实施例提供了一种网页数据爬取方法、装置及本地服务器,涉及数据爬取技术领域。本申请首先获取爬取配置信息,所述爬取配置信息包括下述至少一项:爬取周期、目标数据信息以及目标网页信息;所述目标数据信息包括:目标关键词;所述目标网页信息包括下述至少一项:目标网页的地址、目标网页的列表页地址以及目标网页详情页地址;根据所述爬取配置信息,爬取目标数据;将所述目标数据按照预设规则进行存储。本申请能够对于不同的网页制定不同的爬取规则,实现快速、有选择地爬取网页的目标数据。的目标数据。的目标数据。


技术研发人员:王梓琳 张弓 郑睿博 骆庚 任颖 何高波 陈子申
受保护的技术使用者:中煤(西安)地下空间科技发展有限公司
技术研发日:2021.11.12
技术公布日:2022/1/11
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献