一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息获取方法、装置、电子设备及存储介质与流程

2022-06-18 01:50:07 来源:中国专利 TAG:


1.本技术属于数据处理技术领域,尤其涉及一种信息获取方法、装置、电子设备及存储介质。


背景技术:

2.随着时代的不断发展,互联网已成为一个巨大的信息中心,众多机构、团体甚至个人均在互联网上建立了各种类型的网页,内容上包罗万象,积累的信息容量更是以几何指数爆发式增长。从互联网中搜集信息,不但是人们获取知识的重要途径,也是门户网页的新闻、行业资讯搜集以及竞争信息获取等工作的主要方法和手段。
3.但网上数据的增长速度已经远远超过硬件的发展速度,怎么合理利用现有资源去采集更多的数据,是一项不断探索的项目。在相关技术中,是将语料库中的每条数据分词,统计每个词的词频,然后将词频从高到低进行排序,将词频高的采集词多次采集,词频低的采集词少量采集;然而,只根据语料库中词频高的词语作为采集词,确定采集词的方式太片面,从而确定的采集词所采集的信息可能并不是必要的信息,造成采集资源的浪费。


技术实现要素:

4.本技术实施例的目的是提供一种信息获取方法、装置、电子设备及存储介质,以解决相关技术中对采集词进行采集时造成采集资源的浪费的问题,以提高资源的有效利用率。
5.第一方面,本技术实施例提供了一种信息获取方法,包括:
6.获取预设时段内已采集的信息集中每个第一信息的采集次数,所述第一信息为所述信息集中的任一信息;
7.根据所述采集次数,确定每个所述第一信息的权重值;
8.根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息;
9.根据每个所述第二信息对应的权重值确定每个所述第二信息的目标采集次数;
10.根据每个所述第二信息以及确定的每个第二信息的目标采集次数进行信息采集。
11.第二方面,本技术实施例提供了一种信息获取装置,包括:
12.获取模块,用于获取预设时段内已采集的信息集中每个第一信息的采集次数;
13.第一确定模块,用于根据所述采集次数,确定每个所述第一信息的权重值;
14.第二确定模块,用于根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息;
15.第三确定模块,用于根据每个所述第二信息对应的权重值确定每个所述第二信息的目标采集次数;
16.采集模块,用于根据每个所述第二信息以及确定的每个第二信息的目标采集次数进行信息采集。
17.第三方面,本技术实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
18.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
19.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
20.可以看出,在本技术实施例中,通过获取预设时段内已采集的信息集中每个第一信息的采集次数,所述第一信息为所述信息集中的任一信息,并根据采集次数确定每个第一信息的权重值,然后根据每个第一信息的权重值以及预设的信息采集个数,从信息集中获取至少一个第二信息,并根据每个第二信息对应的权重值确定每个第二信息的目标采集次数,根据每个第二信息以及确定的每个第二信息的目标采集次数进行信息采集,由于第一信息的权重值是由已采集的第一信息的采集次数确定,使得权重值能够反映已采集的第一信息的历史采集情况,从而使得通过权重值以及预设的信息采集个数确定第二信息时,能够确保在利用所确定的第二信息和对应的目标采集次数进行信息采集时,能够搜索到相关信息,实现了在采集资源固定,即信息采集个数固定的情况下,能够合理分配采集资源,实现了在有限的采集资源内采集更多相关的数据,避免了采集资源的浪费,提高了采集资源的利用率。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1为本技术实施例中信息获取方法的流程示意图;
23.图2为本技术实施例中另一信息获取方法的流程示意图;
24.图3为本技术实施例中信息获取装置的模块组成示意图;
25.图4为本技术实施例中电子设备的结构示意图。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
27.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
28.此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
31.具体的,在相关技术中,对网络数据进行采集过程中,为了不漏掉任何一个相关信息,都是利用采集的信息根据预设的时间间隔进行规律搜索,以实现获取到相关的所有信息。在具体实现方式中,在对采集词进行采集时,通常是将语料库中的每条数据分词,统计每个词的词频,然后将词频从高到低进行排序,将词频高的采集词多次采集,词频低的采集词少量采集,需要说明的是,语料库是预先根据对应的应用场景构建的语料集;词频是将语料中的每条数据分词,统计每个词出现的次数(在一条数据中出现即算为1次,出现多次仍旧算为1次,未出现不算次数);然而,只根据语料中词频高的词语作为采集词,确定采集词的方式太片面,从而确定的采集词所采集的信息可能并不是必要的信息,降低了采集资源的利用率。
32.针对此,本技术实施例通过获取预设时段内已采集的信息集中每个第一信息的采集次数,并根据采集次数,确定每个第一信息的权重值,然后根据每个第一信息的权重值以及预设的信息采集个数,从信息集中获取至少一个第二信息,并根据每个第二信息对应的权重值确定每个第二信息的目标采集次数,根据每个第二信息以及确定的每个第二信息的目标采集次数进行信息采集,由于权重值是由已采集的第一信息的采集次数得到,使得权重值能够反映已采集的第一信息的历史采集情况,从而使得通过权重值确定第二信息以及第二信息的目标采集次数时,能够确保利用第二信息以及对应的目标采集次数进行信息采集时,能够搜索到相关信息,实现了在采集资源固定,即信息采集个数固定的情况下,能够合理分配采集资源,实现了在有限的采集资源内采集更多的数据,避免了采集资源的浪费,提高了采集资源的有效利用率。
33.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的敏感词检测方法进行详细地说明。
34.如图1所示,为本技术实施例所提供的采集信息获取方法的步骤流程图,该方法的执行主体可以为服务器和/或终端装置,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是能够进行程序操作处理的服务器,如进行信息获取方法的服务器等。该方法包括:
35.步骤101:获取预设时段内已采集的信息集中每个第一信息的采集次数。
36.所述已采集的信息集包括已采集的信息所组成的集合,所述第一信息为所述信息集中的任一信息。即已采集的信息集中的第一信息是在历史时段已经采集过的信息。其中,第一信息可以包括采集过的信息中的词语、句子或者文本段落等。
37.预设时段可以为由用户设置的时段,例如可以为72小时或48小时等。
38.另外,具体的,每个第一信息的采集次数也可以称为应采集个数,指该第一信息在预设时段内应该被采集的次数或个数,本实施例中的每个第一信息的采集次数是指对对应第一信息执行采集的次数。
39.在本步骤中,可以获取预设时段内每个第一信息的采集次数,使得能够获知每个已采集的第一信息的采集情况。具体地,在获取第一信息的采集次数时,可以通过分析已采集的信息集中各个词出现的词频,得到对应词的采集次数。
40.步骤102:根据采集次数,确定每个第一信息的权重值。
41.具体的,在获取到每个第一信息的采集次数后,可以根据每个第一信息的采集次数,对应的确定该第一信息的权重值。
42.根据采集次数确定每个已采集的第一信息的权重值,使得所确定的权重值能够反映每个已采集的第一信息的采集情况,为合理分配采集资源提供了数据基础。
43.步骤103:根据每个第一信息的权重值以及预设的信息采集个数,从信息集中获取至少一个第二信息。
44.具体的,预设的信息采集个数可以由采集资源确定。例如,假设采集资源最多能够支撑一次对20个信息进行采集,则预设的信息采集个数可以为20个,即信息采集个数可以为采集资源所对应的最大信息采集个数,这样避免了所设定的信息采集个数超过采集资源的能力,即避免了所预设的信息采集个数的无效性。
45.步骤104:根据每个第二信息对应的权重值确定每个第二信息的目标采集次数。
46.需要说明的是,第二信息是用于在进行信息采集过程中作为关键词或者搜索词的,第二信息的目标采集次数也可以称为是第二信息的采集次数,也即是第二信息作为关键词进行搜索的次数。
47.此外,应理解的是,由于至少一个第二信息是从第一信息中确定得到的,因此在确定信息集中第一信息的权重值后,第二信息的权重值也就确定了,也即,第二信息的权重值为对应的第一信息的权重值。
48.每个第二信息的目标采集次数为在对第二信息作为关键词进行采集时,对应第二信息作为采集词的次数。也即,第二信息的目标采集次数为,在以对应的第二信息作为采集词进行信息采集时,该第二信息作为采集词的次数。在本实施例,根据第二信息的权重值来确定目标采集次数,可以理解的,第二信息的权重值越大,目标采集次数越多。
49.步骤105:根据每个第二信息以及确定的每个第二信息的目标采集次数进行对应的信息采集。
50.确定第二信息以及每个第二信息的目标采集次数后,根据对应的第二信息在预设的应用中进行信息采集。例如,在微博上进行信息采集时,输入第二信息(作为搜索词),进行信息采集,且根据确定的每个第二信息的采集次数,对应进行多次采集,进一步的,在对同一个第二信息进行采集时,可以根据预设时间间隔分别进行多次(目标采集次数)采集。
51.本实施例中,通过获取预设时段内已采集的信息集中每个第一信息的采集次数,并根据采集次数确定每个第一信息的权重值,然后根据每个第一信息的权重值以及预设的信息采集个数,从信息集中获取至少一个第二信息,并根据每个第二信息对应的权重值确定每个第二信息的目标采集次数,根据第二信息以及确定的每个第二信息的采集次数进行
对应的信息采集,由于第一信息的权重值是由已采集的第一信息的采集次数确定,使得权重值能够反映已采集的第一信息的历史采集情况,从而使得第一信息的权重值能够对第二信息以及第二信息的目标采集次数的确定提供参考,通过第一信息的权重值(即已采集的第一信息的历史采集情况)确定第二信息以及第二信息的目标采集次数,能够提高所确定的第二信息以及第二信息的目标采集次数的准确性,能够确保利用第二信息以及对应的目标采集次数进行信息采集时,能够搜索到相关信息,从而实现了在采集资源固定,即信息采集个数固定的情况下,能够合理分配采集资源,实现了在有限的采集资源内采集更多相关的数据,避免了采集资源的浪费,提高了采集资源的利用率。
52.此外,可选的,相关技术中按照语料库中词频高低,将词频高的采集词多次采集,词频低的采集词少量采集的采集方式,虽然有些词的词频较高,但词频高的词语可能不适合作为采集词,例如假设采集词a的词频较高,但采集词a为敏感词,在采集时该词会被网页屏蔽,采集词的有效性较差。
53.针对此,在获取已采集的信息集时,可以从网页数据中提取得到词语,并将提取到的词语作为已采集的信息集中的第一信息。例如假设从网页数据中提取得到词语b,则可以将词语b作为一个已采集的第一信息。这样,由于网页数据是经由搜索引擎搜索后已经呈现出来的,也就说明网页数据中的词语均为搜索引擎未屏蔽的词语,此时将网页中提取到的词语作为第一信息,也就避免了将搜索引擎会屏蔽的词语作为第一信息,相较于相关技术中将词频高的采集词多采集的采集方式而言,提高了所确定的第一信息的有效性。
54.在一种实现方式中,获取预设时段内已采集的信息集中每个第一信息的采集次数时,可以针对每个所述第一信息,获取第一时间值与第二时间值的第一比值,并将所述第一比值确定为所述第一信息的采集次数;
55.其中,所述第一时间值为所述预设时段所对应的时间值,所述第二时间值为所述第一信息所对应网页数据的发布时间与所述第一信息的采集时间的差值的绝对值。
56.即第一信息的采集次数可以通过下述公式计算得到:
57.n=t/|(t1-t2)|;
58.其中,n表示第一信息的采集次数,t表示预设时段所对应的时间值,例如预设时段为两天,t1表示第一信息所对应网页数据的发布时间,t2表示第一信息的采集时间。
59.需要说明的是,在大多数场景下,t1和t2所代表的两个时间点是比较接近的时间,即t的取值在大多时候要远远大于t1与t2的差值的绝对值,也就是所计算得到的n为大于1的数值;此时若所计算得到的n值不是正整数,则可以向下取整或向上取整,即将n向下取整或向上取整后的值作为第一信息的采集次数。例如在一个确定第一信息的采集次数的应用场景中,假设预设时段所对应的时间值t为48小时,第一信息所对应网页数据的发布时间t1为第k天12时30分整,第一信息的采集时间t2为第k天13时整,则n=t/|(t1-t2)|=96,即第一信息的采集次数为96次。
60.当然,在少数的场景下,t1和t2所代表的两个时间点间隔较大,t的取值可能会小于t1与t2的差值的绝对值,也就是所计算得到的n为小于1的数值;此时可以对所计算得到的n值向下取整或向上取整,即将n值向下取整或向上取整后得到第一信息的采集次数;或者,还可以在预设的信息采集个数大于预设个数时,确定n值为1,在预设的信息采集个数小于预设个数时,确定n值为0,对于这种应用场景,证明所用的搜索词搜索的信息并不多,可
以通过评估判断,是否对该搜索词减少搜索数量,或者不搜索。
61.具体的,由于网页数据的发布时间为真实的发布时间,代表着最真实的指标,本实施例以网页数据的发布时间为准计算第一信息的采集次数,使得能够计算得到当前最真实的第一信息的采集次数,从而使得能够保证所计算得到的采集次数的准确性,进而能够保证所确定的权重值的准确性。
62.可选的,第一信息所对应网页数据的发布时间可以为第一信息所对应网页数据中数据的最早发布时间。例如,假设对第一信息进行采集时采集到了10个数据,则可以获取该10个数据的发布时间,并筛选得到该10个数据中的最早发布时间。
63.当然,第一信息所对应网页数据的发布时间还可以为第一信息所对应网页数据中数据的平均发布时间。例如,假设对第一信息进行采集时采集到了10个数据,则可以获取该10个数据的发布时间,并将该10个数据的发布时间的平均值作为第一信息所对应网页数据的发布时间。
64.此外,在一种实现方式中,根据所述采集次数,确定每个所述第一信息的权重值时,可以获取所述信息集中每个第一信息所对应的采集次数之间的第二比值;将所述第二比值确定为所述信息集中每个第一信息之间的权重比例,并根据所述权重比例确定每个所述第一信息的权重值。
65.例如,假设预设时段为1小时,已采集的第一信息包括词语a和词语b。若计算得到词语a和词语b在1小时内的采集次数均为20次,词语a和词语b所对应的采集次数之间的第二比值为1:1,因此可以确定词语a和词语b的权重比例为1:1,此时则可以确定词语a和词语b的权重值均为0.5。
66.这样通过根据每个第一信息的采集次数之间的第二比值确定每个第一信息的权重值,实现了权重值大小与第一信息的采集次数之间的正相关,从而使得能够通过权重值反应每个已采集的第一信息的采集次数之间的比例关系,从而使得权重值能够反映已采集的第一信息的历史采集情况。
67.此外,在一种实现方式中,根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息时,可以包括如下步骤:
68.按照权重值由大到小的顺序,将权重值排序在前的n个第一信息确定为所述第二信息,其中所述信息采集个数越大,n的数值越大。
69.例如,作为一个示例,假设信息集中包括的第一信息有信息c1、信息c2、信息c3、信息c4和信息c5,其中信息c1的采集个数为20个,信息c2的采集个数为1个,信息c3的采集个数为1个,信息c4的采集个数为10个,信息c5的采集个数为8个,即信息c1、信息c2、信息c3、信息c4和信息c5的权重值比例依次为50%、2.5%、2.5%、25%、20%。此时若预设的信息采集个数为1个,则n的取值可以为1,即将权重值排序在前的1个第一信息确定为第二信息;若预设的信息采集个数为10,则可以将排序在前的3个第一信息确定为第二信息。
70.当然,在获取至少一个第二信息后,可以按照每个第二信息对应的权重值确定每个第二信息的目标采集次数,权重值越大,目标采集次数越大。
71.此外,在一种实现方式中,第一信息可以包括:用于搜索网页数据的搜索词、用于搜索网页数据的用户信息或用于搜索网页数据的地理位置信息。
72.可选的,用户信息可以包括用户账号或用户id等用于表征用户身份的信息。
73.具体的,在采用搜索词进行数据搜索时,显示一搜索页面,该搜索页面中显示包含搜索词的数据;在采用用户信息进行搜索时,显示一用户页面,该用户页面中显示该用户信息的最新数据;在采用地理位置信息进行搜索时,显示一地域页面,该地域页面中显示该地理位置信息所对应的最新数据。
74.这样,第一信息包括上述中的任意一项,实现了已采集的第一信息的属性多样化。
75.此外,在一种实现方式中,根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息之后,还可以包括如下步骤:
76.若所述至少一个第二信息包括用于搜索网页数据的至少一个用户信息,则按照所述至少一个用户信息所分别对应的资源分配优先级和/或待采集时间,确定每个所述用户信息所对应的采集资源分配比例;
77.按照所述采集资源分配比例,对每个所述用户信息所对应的搜索操作分配采集资源。
78.具体的,采集资源可以包括cpu、网络带宽、可使用的ip个数等。分配采集资源也就数对上述所述的cpu、网络带宽、可使用的ip个数等资源进行分配。
79.此外,具体的,用户信息的待采集时间可以按照一天24小时进行划分,可以对1天中24小时进行分段作为待采集时间,对分段的时间段进行资源分配。例如可以将一天内1点至7点作为一个待采集时间,将7点到第二天1点作为一个待采集时间。
80.在本实施例中,可以确定至少一个用户信息所分别对应的资源分配优先级、待采集时间、或者资源分配优先级和待采集时间,并基于此确定每个用户信息所对应的采集资源分配比例,使得能够按照该采集资源分配比例,对每个用户信息分配采集资源,即采集资源的分配与用户信息的资源分配优先级和/或待采集时间相关,从而使得采集资源的分配更具合理性,避免了采集资源的浪费。
81.可选的,在确定每个所述用户信息所对应的采集资源分配比例之前,可以按照每个用户信息所对应用户的最后一条信息的发布时间,确定每个所述用户信息的资源分配优先级;其中,所述最后一条信息的发布时间距离当前时间越近,所述资源分配优先级越高。
82.具体的,最后一条信息的发布时间距离当前时间越近,说明该用户信息所对应用户发布信息的频率越频繁,则应该为该用户信息所对应用户分配更多的采集资源,即该用户信息的资源分配优先级越高,保证了资源分配优先级的合理性。
83.此外,具体的,还可以若最后一条信息的发布时间在第一预设时段范围内,则确定该用户信息的资源分配优先级为第一优先级,若最后一条信息的发布时间在第二预设时段范围内,则确定该用户信息的资源分配优先级为第二优先级,若最后一条信息的发布时间在第三预设时段范围内,则确定该用户信息的资源分配优先级为第三优先级;其中,第三优先级、第二优先级、第一优先级依次增高,且第一预设时段、第二预设时段、第三预设时段与当前时间的距离依次增大。
84.例如,作为一个示例,假设用户a最后一条信息的发布时间为3天内,用户b最后一条信息的发布时间为:3天《发布信息时间《1个月,用户c最后一条信息的发布时间为:1个月《发布信息时间《6个月,则可以确定用户c、用户b和用户a的资源分配优先级依次增高。
85.此时,用户a、用户b和用户c的采集资源分配情况可以如下表所示:
[0086][0087][0088]
这样,通过上述方式保证了采集资源的分配合理性。
[0089]
下面通过图2对本技术的具体过程进行介绍说明。如图2所示,该方法包括如下步骤:
[0090]
步骤201:获取预设时段内已采集的信息集中每个第一信息的采集次数。
[0091]
具体的,每个第一信息的采集次数可以通过下述公式计算得到:
[0092]
n=t/|(t1-t2)|;
[0093]
其中,n表示第一信息的采集次数,t表示预设时段所对应的时间值,例如预设时段为两天,t1表示第一信息所对应网页数据的发布时间,t2表示第一信息的采集时间。
[0094]
需要说明的是,在大多数场景下,t1和t2所代表的两个时间点是比较接近的时间,即t的取值在大多时候要大于t1与t2的差值的绝对值,也就是所计算得到的n为大于1的数值;当然在少数的场景下,t1和t2所代表的两个时间点间隔较大,t的取值可能会小于t1与t2的差值的绝对值,也就是所计算得到的n为小于1的数值;针对该两种场景可参见上述实施例的相关描述,在此不在对此进行赘述。
[0095]
步骤202:根据采集次数,确定每个第一信息的权重值。
[0096]
具体的,在该过程中,可以获取信息集中每个第一信息所对应的采集次数之间的第二比值,并将所述第二比值确定为信息集中每个第一信息之间的权重比例,并根据该权重比例确定每个第一信息的权重值;这使得所确定的权重值能够反映每个第一信息的采集次数的多少,为合理分配采集资源提供了数据基础。
[0097]
步骤203:根据每个第一信息的权重值以及预设的信息采集个数,获取第二信息。
[0098]
具体的,在该步骤中,针对每个第一信息,可以按照权重值由大到小的顺序,将权重值排序在前的n个第一信息确定为第二信息,其中信息采集个数越大,n的数值越大。
[0099]
步骤204:根据每个第二信息对应的权重值确定每个第二信息的目标采集个数,并根据每个第二信息以及确定的每个第二信息的目标采集次数进行信息采集。
[0100]
具体的,在该步骤中,第二信息的权重值越大,目标采集次数越大。
[0101]
需要说明的是,在本实施例中,还可以周期性更新权重值,并按照最新更新的权重值进行第二信息的确定。当然,权重值的确定可以参考上述实施例。
[0102]
此外,可选的,若第二信息为用于搜索网页数据的至少一个用户信息,还可以通过如下方式分配采集资源:
[0103]
首先,若用户在第一预设时段范围内发布过信息,则将该用户放在高频率队列中,若用户在第二预设时段范围内发布过信息,则将该用户放在低频率队列中,若用户在第三预设时段范围内发布过信息,则将该用户放在遍历队列中;其中,第一预设时段、第二预设
时段、第三预设时段与当前时间的距离依次增大。例如,第一预设时段为3天内,第二预设时段为3天至1个月,第三预设时段为1个月至6个月。
[0104]
然后,通过下述表格进行采集资源的分配:
[0105][0106]
具体的,在上述表格中,假设时段的全部资源为1,则高低频率队列在第一天的7点到第二天的1点,占用全部的资源进行采集,其比例为9:1;在第二天的1点到第二天的7点,是活跃用户非常少的时段,则可以降低高低频率队列的资源比例,即总共占0.5,提高了遍历队列的资源比例到0.5。
[0107]
这样,本实施例通过获取预设时段内已采集的信息集中每个第一信息的采集次数,并根据采集次数,确定每个第一信息的权重值,然后根据每个第一信息的权重值以及预设的信息采集个数,从信息集中获取至少一个第二信息,并确定第二信息所对应的目标采集次数,由于权重值是由已采集的第一信息的采集次数得到,使得权重值能够反映已采集的第一信息的采集情况,从而使得通过权重值确定每个第二信息以及目标采集次数时,能够保证所确定的第二信息和目标采集次数的准确性,实现了在采集资源固定,即信息采集个数固定的情况下,能够合理分配采集资源,实现了在有限的采集资源内采集更多的数据,避免了采集资源的浪费,提高了采集资源的利用率。
[0108]
需要说明的是,本技术实施例提供的信息获取方法,执行主体可以为信息获取装置,或者该信息获取装置中的用于执行信息获取方法的控制模块。本技术实施例中以信息获取装置执行信息获取方法为例,说明本技术实施例提供的信息获取装置。
[0109]
如图3所示,该装置包括:
[0110]
获取模块301,用于获取预设时段内已采集的信息集中每个第一信息的采集次数,所述第一信息为所述信息集中的任一信息;
[0111]
第一确定模块302,用于根据所述采集次数,确定每个所述第一信息的权重值;
[0112]
第二确定模块303,用于根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息;
[0113]
第三确定模块304,用于根据每个所述第二信息对应的权重值确定每个所述第二信息的目标采集次数;
[0114]
采集模块305,用于根据每个所述第二信息以及确定的每个第二信息的目标采集次数进行信息采集。
[0115]
在一种实现方式中,获取模块301用于,针对每个所述第一信息,获取第一时间值与第二时间值的第一比值,并将所述第一比值确定为所述第一信息的采集次数;其中,所述第一时间值为所述预设时段所对应的时间值,所述第二时间值为所述第一信息所对应网页
数据的发布时间与所述第一信息的采集时间的差值的绝对值。
[0116]
在一种实现方式中,所述第一确定模块302用于,获取所述信息集中每个第一信息所对应的采集次数之间的第二比值;将所述第二比值确定为所述信息集中每个第一信息之间的权重比例,并根据所述权重比例确定每个所述第一信息的权重值。
[0117]
在一种实现方式中,所述第二确定模块303用于,按照权重值由大到小的顺序,将权重值排序在前的n个第一信息确定为所述第二信息,其中所述信息采集个数越大,n的数值越大。
[0118]
在一种实现方式中,所述第一信息包括:用于搜索网页数据的搜索词、用于搜索网页数据的用户信息或用于搜索网页数据的地理位置信息。
[0119]
在一种实现方式中,所述第二确定模块303还用于,若所述至少一个第二信息包括用于搜索网页数据的至少一个用户信息,则按照所述至少一个用户信息所分别对应的资源分配优先级和/或待采集时间,确定每个所述用户信息所对应的采集资源分配比例;按照所述采集资源分配比例,对每个所述用户信息所对应的搜索操作分配采集资源。
[0120]
在一种实现方式中,所述第二确定模块303还用于,按照每个用户信息所对应用户的最后一条信息的发布时间,确定每个所述用户信息的资源分配优先级;其中,所述最后一条信息的发布时间距离当前时间越近,所述资源分配优先级越高。
[0121]
在此需要说明的是,上述实施例提供的信息获取装置能够实现上述信息获取方法实施例的所有方法步骤及有益效果,为避免重复,在此不再对本实施例中与上述方法实施例中的相同方法步骤以及有益效果进行赘述。
[0122]
对应上述实施例提供的信息获取方法,基于相同的技术构思,本技术实施例还提供了一种电子设备,该电子设备用于执行上述的信息获取方法,图4为实现本技术各个实施例的一种电子设备的结构示意图。电子设备可因配置或性能不同而产生比较大的差异,可以包括处理器(processor)410、通信接口(communications interface)520、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序,以执行下述步骤:
[0123]
获取预设时段内已采集的信息集中每个第一信息的采集次数;
[0124]
根据所述采集次数,确定每个所述第一信息的权重值;
[0125]
根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息;
[0126]
根据每个所述第二信息对应的权重值确定每个所述第二信息的目标采集次数;
[0127]
根据每个所述第二信息以及确定的每个第二信息的目标采集次数进行信息采集。
[0128]
在一种实现方式中,所述获取预设时段内已采集的信息集中每个第一信息的采集次数,包括:针对每个所述第一信息,获取第一时间值与第二时间值的第一比值,并将所述第一比值确定为所述第一信息的采集次数;其中,所述第一时间值为所述预设时段所对应的时间值,所述第二时间值为所述第一信息所对应网页数据的发布时间与所述第一信息的采集时间的差值的绝对值。
[0129]
在一种实现方式中,所述根据所述采集次数,确定每个所述第一信息的权重值,包括:获取所述信息集中每个第一信息所对应的采集次数之间的第二比值;将所述第二比值
确定为所述信息集中每个第一信息之间的权重比例,并根据所述权重比例确定每个所述第一信息的权重值。
[0130]
在一种实现方式中,所述根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息,包括:按照权重值由大到小的顺序,将权重值排序在前的n个第一信息确定为所述第二信息,其中所述信息采集个数越大,n的数值越大。
[0131]
在一种实现方式中,所述第一信息包括:用于搜索网页数据的搜索词、用于搜索网页数据的用户信息或用于搜索网页数据的地理位置信息。
[0132]
在一种实现方式中,所述根据每个所述第一信息的权重值以及预设的信息采集个数,从所述信息集中获取至少一个第二信息之后,还包括:若所述至少一个第二信息包括用于搜索网页数据的至少一个用户信息,则按照所述至少一个用户信息所分别对应的资源分配优先级和/或待采集时间,确定每个所述用户信息所对应的采集资源分配比例;按照所述采集资源分配比例,对每个所述用户信息所对应的搜索操作分配采集资源。
[0133]
在一种实现方式中,所述按照所述至少一个用户信息所分别对应的资源分配优先级和/或待采集时间,确定每个所述用户信息所对应的采集资源分配比例之前,还包括:按照每个用户信息所对应用户的最后一条信息的发布时间,确定每个所述用户信息的资源分配优先级;其中,所述最后一条信息的发布时间距离当前时间越近,所述资源分配优先级越高。
[0134]
本技术实施例还提供一种可读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现上述信息获取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0135]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0136]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述敏感词检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0137]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0138]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0139]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0140]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献