一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种监控预警爬虫数据源网站变更的方法与流程

2022-11-13 13:06:48 来源:中国专利 TAG:


1.本发明涉及监控预警爬虫数据源网站变更技术领域,具体为一种监控预警爬虫数据源网站变更的方法。


背景技术:

2.网络爬虫(简称爬虫)是一种抓取网页的程序,从数据源网站一个或若干初始网页的url(网址)开始,获取网页的内容,提取网页上url,通过这些url在获取其他网页内容,一直循环,直到获取完这个网站所有网址。
3.爬虫运行过程中,数据源网站网站失效,网络延时,网页变更,都会直接导致爬虫运行异常,抓取不到数据或者数据错位,通常我们都是在爬虫运行中或者运行后,根据异常一步步进行排查才找到原因,这是事中处理或者事后补救的方法,在数据源网站数量少的阶段比较适用。
4.但是,随着时间积累,爬虫的数据源网站已经从最开始的一个变成千甚至上万个,因为数据源网站变更的运行异常的问题也也会增多,会造成以下影响:
5.1.花费大量人力时间排查处理;
6.2.异常爬虫停止运行;
7.3.抓取存储的数据错误或者抓不到数据,异常处理后需要对数据重新清洗。
8.因此,需要设计一个监控预警爬虫数据源网站变更的方案,在事前预防,为此,我们提出一种监控预警爬虫数据源网站变更的方法。


技术实现要素:

9.鉴于上述和/或现有一种监控预警爬虫数据源网站变更的方法中存在的问题,提出了本发明。
10.因此,本发明的目的是提供一种监控预警爬虫数据源网站变更的方法,通过启动爬虫数据源监控预警系统,爬虫数据源监控预警系统请求一个url,在获取到网页内容后,进行三个模块的操作,获取需要的状态值结果后存储到mysql中,能够解决上述提出现有的问题。
11.为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
12.一种监控预警爬虫数据源网站变更的方法,其包括:以下操作步骤:
13.步骤a:在启动某个爬虫程序前,检测数据源网站相关状态;
14.s1:当请求url后,步骤a进行url有效状态的检验;
15.s2:当请求url后,步骤a进行网络延时状态的检验;
16.s3:当请求url后,步骤a进行网页内容表更校验;
17.s4:具体实例如下:
18.数据源网站的请求后的网页内容如图3;
19.s5:最终提起的数据为:医院和眼耳鼻喉科医院;
20.s6:若能取出数据则是网页内容状态为未变更,未取出,视网页内容状态为有变更;
21.步骤b:将状态写入mysql数据;
22.s1:执行步骤b时,会将步骤a中标记的url有效状态,网络延时状态,网页内容变更状态以及网站名称地址记录mysql数据库中,具体事例如图4
23.步骤c:判断数据源网站是否存在异常;
24.s1:执行步骤c时,取出mysql的记录,判断当前的数据源网站是否可以爬取;
25.s2:否则,通过发送邮件或发送短信的方式进行告警,在邮件中,将对应的网站状态记录发送给开发人员;
26.步骤d:当数据源网站状态出现异常时,进行异常报警。
27.作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤a检测数据源网站相关状态包括url有效状态,网络延时状态,网页内容变更状态。
28.作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤a的s1中,其具体规则如下:获取的状态码为200时,标记url有效状态为正常,反之则为异常,具体事例如图2所示。
29.作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤a的s2中,其具体规则如下:网络响应时长小于于15秒,标记网络延时状态正常,反之则为异常,网络响应时长=获取网页内容时间-发起请请求url时间。
30.作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤a的s3中,其具体规则如下:使用爬虫程序中提取页面信息的正则表达式规则对响应的网页内容进行提取,若能将所需的数据提取出来,标记网页内容状态为未变更,若提取出来,则标记网页内容变更状态为有变更。
31.作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤a的s4中设置的正则表达式:
32.《li》《a href="/[^/].*/"target="_blank"title="(.*)"》。。
[0033]
作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤c的s1中当数据源网站的url有效状态,网络延时状态,网页内容变更状态分别为正常,正常,未变更时,数据源网站可以爬取,调用爬虫程序。
[0034]
作为本发明所述的一种监控预警爬虫数据源网站变更的方法的一种优选方案,其中:所述步骤c的s2中具体内容如下:网站1不可以爬取,详情:网站的url有效状态-异常,网络延时状态-异常,网页内容变更状态-有变更。
[0035]
与现有技术相比:
[0036]
通过在启动某个爬虫程序前,先启动爬虫数据源监控预警系统,爬虫数据源监控预警系统请求一个url,在获取到网页内容后,进行三个模块的操作,1.对返回网页的状态码判断,2.返回网页的网络响应速度(请求url到获取网页的时间)判断,3.爬虫页面解析规则对返回网页解析结果的判断,获取需要的状态值结果后存储到mysql中,本发明在检测数据源网站异常时,会向开发者进行告警,若无异常才能调用后续的爬虫程序。
附图说明
[0037]
图1为本发明提供的操作流程图;
[0038]
图2为本发明提供的获取的状态码的具体事例图;
[0039]
图3为本发明提供的数据源网站的请求后的网页图;
[0040]
图4为本发明提供的网页内容变更状态的具体事例网页图。
具体实施方式
[0041]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
[0042]
本发明提供一种监控预警爬虫数据源网站变更的方法,请参阅图1-3,包括以下操作步骤:
[0043]
步骤a:在启动某个爬虫程序前,检测数据源网站相关状态;
[0044]
其中检测数据源网站相关状态包括url有效状态,网络延时状态,网页内容变更状态;
[0045]
s1:当请求url后,步骤a进行url有效状态的检验,其具体规则如下:获取的状态码为200时,标记url有效状态为正常,反之则为异常,具体事例如图2所示;
[0046]
s2:当请求url后,步骤a进行网络延时状态的检验,其具体规则如下:网络响应时长小于于15秒,标记网络延时状态正常,反之则为异常,网络响应时长=获取网页内容时间-发起请请求url时间;
[0047]
s3:当请求url后,步骤a进行网页内容表更校验,其具体规则如下:使用爬虫程序中提取页面信息的正则表达式规则对响应的网页内容进行提取,若能将所需的数据提取出来,标记网页内容状态为未变更,若提取出来,则标记网页内容变更状态为有变更;
[0048]
s4:具体实例如下:
[0049]
数据源网站的请求后的网页内容如图3,设置的正则表达式:
[0050]
《li》《a href="/[^/].*/"target="_blank"title="(.*)"》;
[0051]
s5:最终提起的数据为:医院和眼耳鼻喉科医院;
[0052]
s6:若能取出数据则是网页内容状态为未变更,未取出,视网页内容状态为有变更;
[0053]
步骤b:将状态写入mysql数据;
[0054]
s1:执行步骤b时,会将步骤a中标记的url有效状态,网络延时状态,网页内容变更状态以及网站名称地址记录mysql数据库中,具体事例如图4
[0055]
步骤c:判断数据源网站是否存在异常;
[0056]
s1:执行步骤c时,取出mysql的记录,判断当前的数据源网站是否可以爬取,当数据源网站的url有效状态,网络延时状态,网页内容变更状态分别为正常,正常,未变更时,数据源网站可以爬取,调用爬虫程序;
[0057]
s2:否则,通过发送邮件或发送短信的方式进行告警,在邮件中,将对应的网站状态记录发送给开发人员,具体内容如下:网站1不可以爬取,详情:网站的url有效状态-异常,网络延时状态-异常,网页内容变更状态-有变更;
[0058]
步骤d:当数据源网站状态出现异常时,进行异常报警;
[0059]
其中系统总体的工作运行过程为:在启动某个爬虫程序前,先启动爬虫数据源监控预警系统,爬虫数据源监控预警系统请求一个url,在获取到网页内容后,进行三个模块的操作,1.对返回网页的状态码判断,2.返回网页的网络响应速度(请求url到获取网页的时间)判断,3.爬虫页面解析规则对返回网页解析结果的判断,获取需要的状态值结果后存储到mysql中,本发明在检测数据源网站异常时,会向开发者进行告警,若无异常才能调用后续的爬虫程序。
[0060]
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献