一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据采集资源量控制方法、装置、设备及存储介质与流程

2022-11-13 23:40:06 来源:中国专利 TAG:
1.本发明属于互联网信息
技术领域
:,具体涉及一种数据采集资源量控制方法、装置、设备及存储介质。
背景技术
::2.随着计算机技术的发展,以及经济、文化的信息化的逐渐加深,人们希望更快的获得重要事件的相关资讯。3.现有技术中,为了获取新鲜的资讯等数据,通常采用固定的资源获取指定网站中数据的方式获取热度较高的资讯数据。4.然而,发明人发现现有技术至少存在如下技术问题:由于各网站的数据会随时变化,所以采用固定的资源获取指定网站中的数据会导致获取的数据不是最新数据,存在时效性差的问题。技术实现要素:5.本技术提供一种数据采集资源量控制方法、装置、设备及存储介质,用以解决获取的数据时效性差的问题。6.第一方面,本发明提供一种数据采集资源量控制方法,包括:获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期;根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态;根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度;根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数;分配目标资源数的资源获取任一采集对象的数据。7.在一种可能的实现方式中,根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态,包括:将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值;若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态;若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态;若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。8.在一种可能的实现方式中,根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度,包括:根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度;将预设个数的历史采集周期确定为一个记录周期;将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第n个记录周期,其中n为正整数;将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第n 1个记录周期;将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量;将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度;将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度;将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。9.在一种可能的实现方式中,根据匹配的数据量、浏览量及采集数据量,计算任一采集对象的历史热度,采用的公式如下:式中,表示任一采集对象的历史热度,表示采集数据中匹配的数据量,表示采集数据的数据浏览量,表示采集数据量,a、b、c均表示常数,log表示取对数。10.在一种可能的实现方式中,根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数,包括:将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比;将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值;根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差;若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数;若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。11.在一种可能的实现方式中,根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差,采用的公式如下:式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,d、e、f、g均表示常数,log表示取对数。12.在一种可能的实现方式中,在以目标资源数的资源获取任一采集对象的数据之后,还包括:将新的历史采集周期与期望采集周期相减得到新的周期差值;若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据;若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤;若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。13.第二方面,本技术还提供了一种数据采集资源量控制装置,包括:第一获取模块,用于获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期;第一确定模块,用于根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态;计算模块,用于根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度;第二确定模块,用于根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数;第二获取模块,用于分配目标资源数的资源获取任一采集对象的数据。14.第三方面,本技术还提供了一种电子设备,包括:处理器,以及与处理器通信连接的存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,使得处理器执行如如第一方面描述的数据采集资源量控制方法。15.第四方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面描述的数据采集资源量控制方法。16.本技术提供的数据采集资源量控制方法、装置、设备及存储介质,通过获取采集对象的历史采集周期、分配资源数和采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,根据期望采集周期及至少一个历史采集周期,确定采集对象的采集状态,由匹配的数据量、浏览量、采集数据量、期望采集周期计算采集对象的综合热度,并根据采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,得到目标资源数,并分配目标资源数的资源获取任一采集对象的数据。由于采用了采集对象的采集状态、综合热度更新了获取采集对象的数据所使用的资源数,所以提高了获得的数据的时效性。附图说明17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。18.图1为本技术实施例提供的数据采集资源量控制方法的应用场景示意图;图2为本技术实施例提供的数据采集资源量控制方法的流程示意图;图3为本技术实施例提供的数据采集资源量控制装置的结构示意图;图4为本技术实施例提供的电子设备的结构示意图。具体实施方式19.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。20.随着计算机技术的快速发展,计算机计算能力逐渐增加,经济文化信息已可以通过互联网进行传播,人们希望通过互联网快速的获取热点信息。21.当前,现有技术中获取热点信息的方法,通常是采用固定的资源获取指定网站或接口的数据的方式获取热度较高的资讯数据。但是,发明人发现现有技术有以下技术问题:由于各网站或接口中的数据会随时变化,所以采用固定的资源获取资讯数据会导致获取的数据可能不是高热度的数据,造成得到的数据时效性差的问题。22.针对上述技术问题,发明人提出如下技术构思:通过采集对象的历史采集周期及期望采集周期,确定采集对象的采集状态,并计算采集对象的综合热度,由采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定采集对象的目标资源数,分配与目标资源数等量的资源获取采集对象的数据。23.本技术应用于对数据采集资源量控制的场景中。本技术的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。24.图1为本技术实施例提供的数据采集资源量控制方法的应用场景示意图。如图1,该场景中,包括:第一服务器101以及第二服务器102。25.服务器101及服务器102均可以是单独的服务器,也可以是由多个服务器组成的集群。服务器101与服务器102之间的连接方式可以是通讯连接。26.在具体实现过程中,第一服务器101用于从第二服务器102获取采集对象的数据,以及通过采集对象的历史采集周期及期望采集周期,确定采集对象的采集状态,并计算采集对象的综合热度,由采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定采集对象的目标资源数,分配与目标资源数等量的资源获取采集对象的数据。27.可以理解的是,本技术实施例示意的结构并不构成对数据采集资源量控制方法的具体限定。在本技术另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。28.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。29.图2为本技术实施例提供的数据采集资源量控制方法的流程示意图。本技术实施例的执行主体可以是图1中的服务器101,也可以是电脑和/或手机等,本实施例对此不作特别限制。如图2所示,该方法包括:s201:获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期。30.其中,采集网址得到的采集数据会被标记采集的时间或存储在有对应时间标记的文件夹中。由采集数据和对应的时间,可以得到预设时间内采集得到的数据,预设时间内采集得到的数据的数量为采集数据量。采集数据中与预设热点匹配的数据量可以是预先在所有采集数据中查找与预设热点匹配的数据,并结合采集数据对应的时间,得到预设时间内匹配的数据,将预设时间内匹配的数据的数量作为匹配的数据量。采集得到的数据浏览量,可以是采集目标对应的所有采集数据在预设时间内被浏览的次数,可以通过实时记录被浏览的次数,并将预设时间的结束时的浏览次数确定为第一浏次数,将预设时间的起始时的浏览次数确定为第二浏览次数,将第一浏次数减去第二浏览次数得到预设时间内被浏览的次数。各历史采集周期及本采集周期的分配资源数,可以是预先计算得到并储存在存储单元中的也可以是每个历史采集周期的开始时记录在存储单元中的,分配资源数可以是采集使用的资源数。31.在本步骤中,获取的数据都可以是采集数据时或采集数据中存储在表格中的,也可以是以其他格式存储的。获取任一采集对象对应的历史采集周期,可以是从存储单元中获取采集对象对应的历史采集时间,可以完整获取一次采集对象所使用的采集时间为一个历史采集周期。采集数据可以是采集得到的网址中的内容,例如:网址中的字符、图像、视频、音频等。本采集周期的分配资源数为上一次计算得到的目标资源数,在上一次计算得到目标资源数后,可以进行储存,储存时会将目标资源数与采集对象关联,读取采集对象对应的上一次计算得到的目标资源数就可以作为本采集周期的分配资源数。预设热点可以是由地点、时间、人物及事件中的一种或多种词汇组成的关键词逻辑表达式,与预设热点匹配的采集数据,可以是符合这个关键词逻辑表达式的采集数据,或可以由关键词逻辑表达式查询到的采集数据,相应地,采集数据中匹配的数据量可以是符合这个关键词逻辑表达式的数据量,或采集数据中可以由关键词逻辑表达式查询到的数据量。采集得到的数据可以输入独立的数据系统进行展示,并接收客户端的浏览,浏览的次数为数据浏览量,采集得到的数据浏览量,可以是采集对象对应的所有采集得到的数据的总浏览量。32.历史采集周期例如:上一次采集使用时间为5分钟,则上一历史采集周期为5分钟。本采集周期之前的第3个采集周期使用的时间为1小时,则本采集周期之前的第3个采集周期为1小时。预设时间例如一天、三天、一周、两周或一个月等。33.s202:根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态。34.在本步骤中,每个采集对象的期望采集周期都可以不同。在预设个数的采集周期内,若期望采集周期小于历史采集周期的平均值,且差值超过预设值,则将采集对象的状态确定为破线状态,若期望采集周期大于历史采集周期的平均值,且差值超过预设值,则将采集对象的状态确定为空闲状态。35.s203:根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度。36.在本步骤中,可以是将预设时间内的匹配的数据量、浏览量、采集数据量及期望采集周期输入预设公式得到任一采集对象的综合热度。37.具体地,可以是将预设时间内的匹配的数据量、浏览量及采集数据量输入第一预设公式,得到采集对象的历史热度。将新增数据量及期望采集周期数输入第二预设公式,得到实际热度。将历史热度及实际热度输入第三预设公式,得到综合热度。38.其中,采集数据量为一段时间(预设的时间段、至少一个采集周期或至少一个记录周期)内采集得到的数据量,新增数据量为两段时间采集得到的数据量的差。39.s204:根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数。40.在本步骤中,可以是将任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数输入预设的目标资源数计算公式,得到目标资源数。可以是周期性找到采集状态符合预设标准的采集对象,并改变其目标资源数。41.s205:分配目标资源数的资源获取任一采集对象的数据。42.在本步骤中,可以是调用数量为目标资源数的资源,获取上述任一采集对象的数据。43.从上述实施例的描述可知,本技术实施例通过获取采集对象的历史采集周期、分配资源数和采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,根据期望采集周期及至少一个历史采集周期,确定采集对象的采集状态,由匹配的数据量、浏览量、采集数据量、期望采集周期计算采集对象的综合热度,并根据采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,得到目标资源数,并分配目标资源数的资源获取任一采集对象的数据。由于采用了采集对象的采集状态、综合热度更新了获取采集对象的数据所使用的资源数,所以提高了获得的数据的时效性。44.在一种可能的实现方式中,上述步骤s202中,根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态,包括:s2021:将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值。45.在本步骤中,若只取一个历史采集周期,则历史采集周期的平均值就是这个历史采集周期的长度,若取至少两个历史采集周期,则平均值例如将2个、3个或5个等的历史采集周期取平均得到平均值。将得到的平均值减去期望采集周期,得到周期差值。本步骤采用的历史采集周期的数量可以是预设的。46.例如,当前取最近的2个历史采集周期分别为2分钟、3分钟,则平均值为2分30秒,期望采集周期为2分钟,则周期差值为30秒。当前取3个历史采集周期分别为1小时、2小时、1.5小时,则平均值为1.5小时,期望采集周期为2小时,则周期差值为-0.5小时。47.s2022:若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态。48.在本步骤中,周期差值与期望采集周期的比值可以是采用周期差值除以期望采集周期。第一预设值可以是小数、百分数等。49.例如,周期差值为30秒,期望采集周期为2分钟,则比值为25%,若第一预设值为20%,则采集状态确定为破线状态。50.其中,第一预设值还可以是0.19、24%等,本技术对此不作特殊限制。51.s2023:若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态。52.在本步骤中,第二预设值可以是上述第一预设值乘-1,也可以与上述第一预设值无关。53.例如,周期差值为-0.5小时,期望采集周期为2小时,则比值为-25%,若第二预设值为-20%,则将采集状态确定为空闲状态。其中第二预设值还可以是其他数值,例如-0.17、-15%等,本技术对此不作特殊限制。54.s2024:若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。55.在本步骤中,比值的计算方法与s2022、s2023类似,在这里不再赘述。56.例如,比值为2%,第一预设值为10%,第二预设值为-15%,则比值小于第一预设值且大于第二预设值,将对应的采集状态确定为正常状态。又例如,比值为-2%,第一预设值为5%,第二预设值为-10%,则比值小于第一预设值且大于第二预设值,将对应的采集状态确定为正常状态。57.从上述实施例的描述可知,本技术实施例通过将采集对象的预设个历史采集周期的平均值减去期望采集周期,得到周期差值,并将周期差值与第一预设值和第二预设之的大小作比较,在大于或等于第一预设值的情况下将采集状态确定为破线状态,在小于或等于第二预设值的情况下将采集状态确定为空闲状态,在大于第二预设值且小于第一预设值的情况下将采集状态确定为正常状态,实现了由历史采集周期的平均值及预设采集周期大小,得到采集对象的采集状态的效果,便于后续根据采集状态变更采集使用的资源数。58.在一种可能的实现方式中,在上述步骤s203中,根据预设时间内的匹配的数据量、浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度,包括:s2031:根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度。59.本步骤可以是将预设时间内匹配的数据量、数据浏览量及采集数据量输入预设的公式,得到任一采集对象的历史热度。60.在一种可能的实现方式中,本步骤采用的公式如下:式中,表示任一采集对象的历史热度,表示匹配的数据量,表示采集数据的数据浏览量,表示采集数据量,a、b、c均表示常数,log表示取对数。本公式可以是上述第一预设公式。61.s2032:将预设个数的历史采集周期确定为一个记录周期。62.在本步骤中,预设个数可以是3个,也可以是2个、5个等。63.s2033:将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第n个记录周期,其中n为正整数。64.其中,开始时可以是开始采集时,结束时可以是采集完成时,在记录周期开始时间对应的采集数据量可以为零,也可以为已有采集数据的数据量,由于在第一记录周期中进行了数据采集,结束时的采集数据量相对开始时的采集数据量会有所增加,从而通过将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量。65.例如,第一记录周期结束时的采集数据量为600条,第一记录周期开始时的采集数据量为500条,则第一记录周期的采集数据量为100条。又例如,第一记录周期结束时的采集数据量为30条,第一记录周期开始时的采集数据量为5条,则第一记录周期的采集数据量为25条。66.s2034:将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第n 1个记录周期。67.本步骤与上述步骤s2033类似,在这里不再赘述。68.s2035:将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量,其中第一记录周期为当前时间之前的第n个记录周期,第二记录周期为当前时间之前的第n 1个记录周期,其中n为正整数。新增数据量可以是记录周期的平均新增数据量。69.在本步骤中,第一记录周期可以是当前时间之前的第1个记录周期,即最接近当前时间的记录周期,也可以是其他的记录周期。采集数据量可以在数据库中查询得到。若第n个记录周期为最近的记录周期,则第n 1个记录周期为第n个记录周期的前一个记录周期。记录周期的数据量为历史采集周期的数据量的和,与当前采集周期的数据量无关。70.s2036:将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度。71.在本步骤中,可以是将平均新增数据量除以期望采集周期,得到数据增速,将增速取对数,得到实际热度。平均新增数据量可以是一个记录周期或几个记录周期内的平均新增数据量。72.本步骤采用的公式如下:其中,表示实际热度,log表示取对数,avg表示平均新增数据量,表示期望采集周期。本公式可以是上述第二预设公式。73.s2037:将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度。74.在本步骤中,可以是将历史热度输入预设的映射函数,得到映射历史热度,将实际热度输入预设的映射函数,得到映射实际热度。输入映射函数的还可以有所有采集目标对应的热度的最小值和热度的最大值,此时热度可以是历史热度也可以是实际热度。映射函数原理依据范围限定函数scale(hot,mintarget,maxtarget),将hot限定在mintarget和maxtarget之间,其中hot表示历史热度或实际热度,mintarget表示映射范围的最小值,maxtarget表示映射范围的最大值。75.其中映射函数如下:式中,表示映射历史热度或映射实际热度,表示历史热度或实际热度,表示所有历史热度或实际热度中的最大值,表示所有历史热度或实际热度中的最小值,h、i表示常数。历史热度或实际热度中的最大值或最小值,应与输入的历史热度或实际热度相对应。本公式可以是上述第三预设公式。76.在上述加权求和的公式中,h可表示映射范围的最小值,i可以表示映射范围的最大值。例如h取1,i取100。77.在一种可能的实现方式中,若采集对象没有历史热度,则按照预先标定的重要等级映射至固定范围,得到映射历史热度。78.例如,采集对象的等级可以分为1至5,5个等级,可以映射至20至100得到映射历史热度。等级1可以映射为20、等级2映射为40、等级3映射为60等,也可以是采用预设的函数关系,将等级输入函数,得到映射历史热度。79.s2038:将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。80.在本步骤中,可以是将映射历史热度与第一权重系数相乘,得到权重历史热度,将映射实际热度与第二权重系数相乘,得到权重实际热度,将权重历史热度与权重实际热度相加,得到综合热度。81.其中第一权重系数可以为0.4、0.35、0.3等,第二权重系数可以为0.6、0.65、0.7等,第一权重系数与第二权重系数的和可以为1。综合热度越高说明数据越重要、实时流量可能较高。82.在一种可能的实现方式中,将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度,采用的公式如下:其中,表示任一采集对象的综合热度,表示映射实际热度,表示映射历史热度,、表示权重系数。83.从上述实施例的描述可知,本技术实施例通过将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量,根据新增数据量及期望采集周期,得到实际热度,并将实际热度及历史热度映射后,确定了综合热度,可以综合考虑采集对象的历史热度和实际热度,使后续得到的目标资源数更加符合数据热度,从而增加数据时效性在一种可能的实现方式中,在上述步骤s204中,根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数,包括:s2041:将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比。84.在本步骤中,历史采集周期,可以是上述s2021中的历史采集周期的平均值,也可以是预设第x个历史采集周期。85.s2042:将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。86.上述s2041和s2042,可以是采用如下公式综合表示:式中,v表示超限热度值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期。87.s2043:根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差。88.在一种可能的实现方式中,本步骤采用的公式如下:式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,d、e、f、g均表示常数,log表示取对数。89.式中,d、e可依据系统资源和待抓取对象量级估算调整,d例如1,e例如10,f、g例如1,f、g也可以取相对或较小的数值,例如取二者较小值的百分之一、取二者较小值的十分之一等。90.在一种可能的实现方式中,计算得到资源数差后还可以取整。91.s2044:若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数。92.在本步骤中,例如,采集状态为破线状态,分配资源数为7,资源数差为2,则目标资源数为9。又例如,采集状态为破线状态,分配资源数为9,资源数差为3,则目标资源数为12。还例如,采集状态为破线状态,分配资源数为5,资源数差为1,则目标资源数为6。93.s2045:若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。94.在本步骤中,例如,采集状态为空闲状态,分配资源数为7,资源数差为2,则目标资源数为5。又例如,采集状态为破线状态,分配资源数为9,资源数差为3,则目标资源数为6。还例如,采集状态为破线状态,分配资源数为4,资源数差为1,则目标资源数为3。95.在一种可能的实现方式中,上述步骤s2041至s2045可以是周期性执行的。96.从上述实施例的描述可知,本技术实施例通过将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比,将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,计算得到资源数差,并根据采集对象的采集状态将分配资源数与资源数差相加或相减,得到任一采集对象的目标资源数,实现增加破线状态的采集对象使用的资源数,将综合热度高且超时严重的目标优先给予更多的资源分配调整,降低空闲状态的采集对象使用的资源数,将综合热度低且不会超时的目标优先给予更少的资源分配调整。97.在一种可能的实现方式中,在上述步骤s205,分配目标资源数的资源获取任一采集对象的数据之后,还包括:s206:将新的历史采集周期与期望采集周期相减得到新的周期差值。98.在本步骤中,新的历史采集周期可以是在采用目标资源数的资源获取数据时,获取一次使用的时间,也可以是多次采用目标资源数的资源获取数据的平均使用时间。99.s207:若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据。100.在本步骤中,预设比值例如10%、5%、0.02等,本技术对此不作特殊限制。得到固定资源数后,可以不再执行调整目标资源数的步骤。101.s208:若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤。102.在本步骤中,调整目标资源数的步骤可以是上述步骤s201至s205。可以在达到上述步骤s207的条件时停止重复执行步骤s201至s205。预设个周期内采集对象的新增数据量,可以是预设个周期中任一个周期的新增数据量,也可以是预设个周期的平均新增数据量。103.s209:若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。104.本步骤与上述步骤s208类似,在这里不再赘述。错误报告可以是文字报告,也可以是预设的提示信息。105.从上述实施例的描述可知,本技术实施例通过将新的历史采集周期与期望采集周期作差,得到周期差值,可以反应周期延长或缩短的变化量,在周期差值与期望周期的比值小于预设比值时,将目标资源数作为固定资源数,并在后续采用固定资源数的资源获取数据,若比值大于或等于预设比值,且预设个周期内新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤,若比值大于或等于预设比值,且新增数据量小于预设值,则输出错误报告。实现在目标资源数与采集对象匹配时,使用目标资源数的资源进行数据采集,采集对象的数据增加较多时,调整目标资源数,在采集对象的数据增加较少,但新的周期用时比原有的历史采集周期更长时,确定为出错,输出错误报告以提示用户进行人工排查。106.在一种可能的实现方式中,本技术的资源可以是线程,也可以是带宽、内存、处理器占用量等。本技术中的采集对象、综合热度、分配资源数、期望采集周期、平均新增数据量、历史采集周期和/或任务状态等,可以是以表格形式存储的,称为基线表,通过周期扫描基线表,进行目标资源数的调整,基线表例如表1。107.表1基线表(示意)图3为本技术实施例提供的数据采集资源量控制装置的结构示意图。如图3所示,数据采集资源量控制装置300,包括:第一获取模块301、第一确定模块302、计算模块303、第二确定模块304及第二获取模块305。108.第一获取模块301,用于获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期。109.第一确定模块302,用于根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态。110.计算模块303,用于根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度。111.第二确定模块304,用于根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数。112.第二获取模块305,用于分配目标资源数的资源获取任一采集对象的数据。113.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。114.在一种可能的实现方式中,第一确定模块302,具体用于将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值。若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态。若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态。若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。115.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。116.在一种可能的实现方式中,计算模块303,具体用于根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度。将预设个数的历史采集周期确定为一个记录周期。将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第n个记录周期,其中n为正整数。将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第n 1个记录周期;将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量。将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度。将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度。将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。117.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。118.在一种可能的实现方式中计算模块303,根据匹配的数据量、浏览量及采集数据量,计算任一采集对象的历史热度,采用的公式如下:式中,表示任一采集对象的历史热度,表示匹配的数据量,表示数据浏览量,表示采集数据量,a、b、c均表示常数,log表示取对数。119.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。120.在一种可能的实现方式中,第二确定模块304,具体用于将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比。将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差。若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数。若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。121.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。122.在一种可能的实现方式中,第二确定模块304,根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差,采用的公式如下:式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,d、e、f、g均表示常数,log表示取对数。123.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。124.在一种可能的实现方式中,数据采集资源量控制装置300,还包括:差值获取模块306、第三确定模块307、资源调整模块308及报告输出模块309。125.差值获取模块306,用于将新的历史采集周期与期望采集周期相减得到新的周期差值。126.第三确定模块307,用于若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据。127.资源调整模块308,用于若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤。128.报告输出模块309,用于若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。129.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。130.为了实现上述实施例,本技术实施例还提供了一种电子设备。131.参考图4,其示出了适于用来实现本技术实施例的电子设备400的结构示意图,该电子设备400可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(personaldigitalassistant,简称pda)、平板电脑(portableandroiddevice,简称pad)、便携式多媒体播放器(portablemediaplayer,简称pmp)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。132.如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(readonlymemory,简称rom)402中的程序或者从存储装置408加载到随机访问存储器(randomaccessmemory,简称ram)403中的程序而执行各种适当的动作和处理。在ram403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。133.通常,以下装置可以连接至i/o接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(liquidcrystaldisplay,简称lcd)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。134.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从rom402被安装。在该计算机程序被处理装置401执行时,执行本技术实施例的方法中限定的上述功能。135.需要说明的是,本技术上述的计算机可读存储介质可以是计算机可读信号介质或者计算机存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。136.上述计算机可读存储介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。137.上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。138.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(localareanetwork,简称lan)或广域网(wideareanetwork,简称wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。139.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。140.描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该模块本身的限定,例如,第一确定模块还可以被描述为“任一采集对象的采集状态确定模块”。141.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。142.本技术还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现上述任一实施例中的数据采集资源量控制方法的技术方案,其实现原理以及有益效果与数据采集资源量控制方法的实现原理及有益效果类似,可参见数据采集资源量控制方法的实现原理及有益效果,此处不再进行赘述。143.在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。144.本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的数据采集资源量控制方法的技术方案,其实现原理以及有益效果与数据采集资源量控制方法的实现原理及有益效果类似,可参见数据采集资源量控制方法的实现原理及有益效果,此处不再进行赘述。145.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。146.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本
技术领域
:中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。147.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。当前第1页12当前第1页12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献