一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种监控预警爬虫数据源网站变更的方法与流程

2022-11-12 12:29:48 来源:中国专利 TAG:

技术特征:
1.一种监控预警爬虫数据源网站变更的方法,其特征在于:包括以下操作步骤:步骤a:在启动某个爬虫程序前,检测数据源网站相关状态;s1:当请求url后,步骤a进行url有效状态的检验;s2:当请求url后,步骤a进行网络延时状态的检验;s3:当请求url后,步骤a进行网页内容表更校验;s4:具体实例如下:数据源网站的请求后的网页内容如图3;s5:最终提起的数据为:医院和眼耳鼻喉科医院;s6:若能取出数据则是网页内容状态为未变更,未取出,视网页内容状态为有变更;步骤b:将状态写入mysql数据;s1:执行步骤b时,会将步骤a中标记的url有效状态,网络延时状态,网页内容变更状态以及网站名称地址记录mysql数据库中,具体事例如图4步骤c:判断数据源网站是否存在异常;s1:执行步骤c时,取出mysql的记录,判断当前的数据源网站是否可以爬取;s2:否则,通过发送邮件或发送短信的方式进行告警,在邮件中,将对应的网站状态记录发送给开发人员;步骤d:当数据源网站状态出现异常时,进行异常报警。2.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤a检测数据源网站相关状态包括url有效状态,网络延时状态,网页内容变更状态。3.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤a的s1中,其具体规则如下:获取的状态码为200时,标记url有效状态为正常,反之则为异常,具体事例如图2所示。4.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤a的s2中,其具体规则如下:网络响应时长小于于15秒,标记网络延时状态正常,反之则为异常,网络响应时长=获取网页内容时间-发起请请求url时间。5.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤a的s3中,其具体规则如下:使用爬虫程序中提取页面信息的正则表达式规则对响应的网页内容进行提取,若能将所需的数据提取出来,标记网页内容状态为未变更,若提取出来,则标记网页内容变更状态为有变更。6.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤a的s4中设置的正则表达式:<li><a href="/[^/].*/"target="_blank"title="(.*)">。7.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤c的s1中当数据源网站的url有效状态,网络延时状态,网页内容变更状态分别为正常,正常,未变更时,数据源网站可以爬取,调用爬虫程序。8.根据权利要求1所述的一种监控预警爬虫数据源网站变更的方法,其特征在于,所述步骤c的s2中具体内容如下:网站1不可以爬取,详情:网站的url有效状态-异常,网络延时状态-异常,网页内容变更状态-有变更。

技术总结
本发明公开的属于监控预警爬虫数据源网站变更技术领域,具体为一种监控预警爬虫数据源网站变更的方法,包括以下操作步骤:步骤A:在启动某个爬虫程序前,检测数据源网站相关状态,S1:当请求URL后,步骤a进行URL有效状态的检验,S2:当请求URL后,步骤a进行网络延时状态的检验,S3:当请求URL后,步骤A进行网页内容表更校验,S4:具体实例如下:数据源网站的请求后的网页内容如图3,S5:最终提起的数据为:医院和眼耳鼻喉科医院,S6:若能取出数据则是网页内容状态为未变更,未取出,视网页内容状态为有变更,本发明在检测数据源网站异常时,会向开发者进行告警,若无异常才能调用后续的爬虫程序。程序。程序。


技术研发人员:李彦威 伍庭波 刘小庆
受保护的技术使用者:莱特车联网络科技(深圳)有限公司
技术研发日:2022.08.19
技术公布日:2022/11/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献