一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分布式网站IPv6支持度检测调度方法与流程

2022-12-10 00:14:10 来源:中国专利 TAG:

分布式网站ipv6支持度检测调度方法
技术领域
1.本发明涉及互联网爬虫的技术领域,特别是分布式网站ipv6支持度检测调度方法。


背景技术:

2.目前国家正在推行ipv6代际升迁,前提是需要获取网站ipv6支持度,需要获取网站一级链接、二级链接、三级链接ipv6支持情况,获取这些指标后,才能督促相关企业进行整改;
3.首先,获取网站一、二、三级链接支持情况,需要通过爬虫访问网站一、二、三级链接;
4.现有技术中通过一台爬虫服务器器请求一个被检测的网站一级链接,获取网站的二级链接,再一个一个下钻请求三级链接,最后把结果上报到数据库;
5.这种做法虽然能够简单获取到网站一、二、三级链接支持情况,但存在如下问题;
6.1、单台服务器器处理不了大量任务;2、单台服务器器,单个ip请求次数、频率太高,容易被识别为爬虫,触发反扒,导致检测结果不准确或者检测不了。
7.因此迫切地需要重新设计一种新的分布式网站ipv6支持度检测调度方法以解决上述问题。


技术实现要素:

8.本发明提供了分布式网站ipv6支持度检测调度方法,以解决上述背景技术中提出的技术问题。
9.本发明提供了分布式网站ipv6支持度检测调度方法,该分布式网站ipv6支持度检测调度方法包括以下步骤:s1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;s2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;s3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;s4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
10.可选地,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。
11.可选地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
12.可选地,在所述步骤s3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。
13.可选地,所述单位时间具体为30s。
14.可选地,所述步骤s3中任务调动的具体步骤为:
15.s31、所述任务调动服务器向所述数据库获取数据;
16.s32、所述爬虫服务器向所述任务调动服务器请求分配任务;
17.s33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;
18.s34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。
19.可选地,在所述步骤s34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。
20.可选地,在所述步骤s33中,所述任务调动服务器提取单个任务时,所述任务调动服务器对所述数据库内的单个待检测网站链接仅提取一个任务,以避免同一个所述爬虫服务器同时执行同个网站的多个任务。
21.可选地,所述爬虫服务器的cpu核心数为2-48核心。
22.可选地,所述爬虫服务器在执行任务时根据自身负载大小,产生服务器当前负载值,通过所述服务器当前负载值能够计算得出所述爬虫服务器同时可并行的任务,且计算公式为:(1-爬虫服务器当前负载值)*cpu核心数*2。
23.本发明的有益效果如下:
24.该分布式网站ipv6支持度检测调度方法包括以下步骤:s1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;s2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;s3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;s4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作,其中,本发明的分布式网站ipv6支持度检测调度方法能够降低反扒问题,提升检测准确度;同时爬虫服务器分布式爬取,大大提升了爬取效率,并且,能够基于负载、cpu核心数计算并行任务数,充分利用了服务器资源,避免低配置服务器压力过高,高配置服务器过于空闲,从而提高了对任务的处理效率。
附图说明
25.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
26.图1是本发明提供的分布式网站ipv6支持度检测调度方法的流程图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结
构。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
29.请参阅图1,本发明的分布式网站ipv6支持度检测调度方法包括以下步骤:s1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;s2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;s3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;s4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
30.其中,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险,进一步地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
31.在本实施例中,在所述步骤s3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。
32.其中,单位时间的最优数值为30s。
33.在本实施例中,所述步骤s3中任务调动的具体步骤为:
34.s31、所述任务调动服务器向所述数据库获取数据;
35.s32、所述爬虫服务器向所述任务调动服务器请求分配任务;
36.s33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;
37.s34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。
38.其中,在一具体的实施例中,若当前数据库有a、b、c、d 4个网站待检测,一个爬虫服务器可以获取2个任务执行,调度服务器会从网站a、网站b里各取一个链接,组成2个任务,返回给爬虫服务器,因此保证了爬虫服务器可以同时爬取这两个链接,避免相同的爬虫服务器同时执行同一个网站的多个任务。
39.其中,在所述步骤s34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。
40.在本实施例中,在所述步骤s33中,所述任务调动服务器提取单个任务时,所述任务调动服务器对所述数据库内的单个待检测网站链接仅提取一个任务,以避免同一个所述爬虫服务器同时执行同个网站的多个任务。
41.在另一实施例中,所述爬虫服务器的cpu核心数为2-48核心,并且,所述爬虫服务器在执行任务时根据自身负载大小,产生服务器当前负载值,通过所述服务器当前负载值能够计算得出所述爬虫服务器同时可并行的任务,且计算公式为:(1-爬虫服务器当前负载
值)*cpu核心数*2;
42.其中,在一具体的实施例中,若当一个48核心cpu爬虫服务器当前cpu平均负载为0.5,则当前可以获取(1-0.5)*48*2=48,从而得出可以并行执行的任务个数为48个。
43.该分布式网站ipv6支持度检测调度方法包括以下步骤:s1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;s2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;s3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;s4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作,其中,本发明的分布式网站ipv6支持度检测调度方法能够降低反扒问题,提升检测准确度;同时爬虫服务器分布式爬取,大大提升了爬取效率,并且,能够基于负载、cpu核心数计算并行任务数,充分利用了服务器资源,避免低配置服务器压力过高,高配置服务器过于空闲,从而提高了对任务的处理效率。
44.以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献