一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息采集方法、装置和电子设备与流程

2021-11-15 18:19:00 来源:中国专利 TAG:


1.本发明涉及数据库技术领域,尤其是涉及一种信息采集方法、装置和电子设备。


背景技术:

2.数据库查询优化中的统计信息是描述数据库中数据表的元数据信息的集合,通常包括行级别的统计信息和列级别的统计信息,是创建高质量的查询路径的基础。通常利用查询优化器,基于统计信息创建高质量的查询路径;所以,统计信息的合理程度通常会关系到查询路径的准确性,进而影响查询效率。相关技术中,通常先设置需要统计的目标属性,再基于这些目标属性采集目标属性对应的统计信息,这种方式中的目标属性相对固定,易导致采集的统计信息中无用信息过多,影响查询优化器的查询效率,同时占用过多的网络带宽和内存。


技术实现要素:

3.有鉴于此,本发明的目的在于提供一种信息采集方法,以提高查询优化器的查询效率,同时减少网络带宽和内存的占用。
4.第一方面,本发明实施例提供了一种信息采集方法,包括:统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中,目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;采集目标数据单元对应的统计信息。
5.进一步的,根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元的步骤,包括:从至少一个数据单元的访问频率中确定大于或等于预设阈值的目标访问频率;将目标访问频率对应的数据单元,确定为需要采集统计信息的目标数据单元。
6.进一步的,采集目标数据单元对应的统计信息的步骤,包括:根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息;其中,统计信息包括:目标数据文件中数据单元的元数据。
7.进一步的,采集目标数据单元对应的统计信息的步骤,包括:如果目标数据文件中包括新增数据单元,采集新增数据单元对应的统计信息,以及目标数据单元对应的统计信息。
8.进一步的,采集新增数据单元对应的统计信息,以及目标数据单元对应的统计信息的步骤,包括:根据新增数据单元包括的数据属性和数据属性对应的数据内容,采集新增数据单元对应的统计信息;根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息。
9.进一步的,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率的步骤之前,方法还包括:采集指定的数据属性对应的数据单元的初始统计信息;将初
始统计信息保存至目标内存。
10.进一步的,采集目标数据单元对应的统计信息的步骤之后,方法还包括:将目标内存中的初始统计信息更新为目标数据单元对应的统计信息。
11.进一步的,数据单元包括目标数据文件的数据行或者数据列。
12.第二方面,本发明实施例提供了一种信息采集装置,包括:访问频率统计模块,用于统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中,目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;目标数据单元确定模块,用于根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;统计信息采集模块,用于采集目标数据单元对应的统计信息。
13.第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现第一方面任一项的信息采集方法。
14.第四方面,本发明实施例提供了一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现第一方面任一项的信息采集方法。
15.本发明实施例带来了以下有益效果:
16.本发明提供了一种信息采集方法、装置和电子设备,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中的目标数据文件包括至少一个数据单元;数据单元包括数据属性和数据属性对应的数据内容;根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;采集目标数据单元对应的统计信息。该方式中,根据目标数据文件中每个数据单元在一段时间内的访问频率,确定实际需要采集统计信息的目标数据单元,进而采集目标数据单元对应的统计信息,能够根据实际情况采集统计信息,避免了统计信息中无用信息过多的问题,提高了查询优化器的查询效率,同时降低了网络带宽和内存的占用。
17.本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
18.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
19.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1为本发明实施例提供的一种信息采集方法的流程图;
21.图2为本发明实施例提供的另一种信息采集方法的流程图;
22.图3为本发明实施例提供的一种信息采集装置的结构示意图;
23.图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.数据库查询优化中的统计信息是描述数据库中数据表的元数据信息的集合,是创建高质量的查询路径的基础。通常利用查询优化器,基于统计信息创建高质量的查询路径;一般情况下,统计信息越详细得到的查询路径越准确;但是,如果统计信息过多也会降低查询效率;所以,统计信息的合理程度通常会关系到查询路径的准确性,进而影响查询效率。相关技术中,通常都是预先设置需要统计的目标属性,再基于这些目标属性采集目标属性对应的统计信息。这种方式中的目标属性相对固定,易导致采集的统计信息中无用信息过多,影响查询优化器的查询效率,同时占用过多的网络带宽和内存。基于此,本发明实施例提供的一种信息采集方法、装置和电子设备,该技术可以于各种数据库,尤其可以应用于关系型数据库和分布式数据库。
26.为便于对本实施例进行理解,首先对本发明实施例所公开的一种信息采集方法进行详细介绍,如图1所示,该方法包括如下步骤:
27.步骤s102,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中,目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;
28.上述预设时间段可以根据实际需要进行设置,比如,一小时、两小时等。上述目标数据文件通常是指目标数据库中的数据表;上述数据单元可以是目标数据文件中的数据行或者数据列;上述访问频率可以是用户针对数据单元的读和写的操作。通常目标数据文件中包括有至少一个数据单元,即数据表中包括有多个数据行或者数据列。上述数据属性通常是指数据单元的字段名称;数据属性对应的数据内容通常是指该字段名称包含的数据。比如,目标数据文件包括三个数据单元,每个数据单元包括的数据属性分别为“id”、“name”、“age”,其中,“id”数据属性对应的数据内容分别为“001”、“002”、“003”等,“name”数据属性对应的数据内容分别为“张三”、“李四”、“赵杰”等,“age”数据属性对应的数据内容分别为“21”、“26”、“28”等。
29.具体的,实时统计用户执行的查询语句,如果查询语句中包含目标数据文件中的数据单元,则统计该数据单元被访问了一次,直到预设时间段后,统计针对目标数据文件中所有数据单元的访问次数,然后计算每个数据单元的访问频率。比如,目标数据文件t1,其中有数据列a,b,c,d,四个数据列,即上述数据单元。统计用户执行的查询语句,如果用户执行的查询语句为select a,b,c from t1,则认为目标数据文件t1中的列a,b,c被访问了一次,d没有被访问。实时统计到预设时间段后,统计一次各列的访问次数之和,即可以计算出各列的访问频率,即上述每个数据单元的访问频率。
30.步骤s104,根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;
31.上述统计信息通常是指查询优化器的统计信息,也可以理解为索引信息,或者元数据信息。通常情况下,需要采集统计信息的数据单元都是预先设置好的,一般包括目标数据文件中当前的所有数据单元。但是,当目标数据文件中的一些数据单元不会频繁被读写时,可以先不采集这些数据单元对应的统计信息,以减少内存的占用和系统资源,同时可以提高查询效率。具体的,可以根据每个数据单元的访问频率,将访问频率较高的数据单元确定为目标数据单元;还可以将访问频率不为零的数据单元确定为目标数据单元;还可以将访问频率与预设的阈值进行比较,大于阈值的访问频率对应的数据单元确定为目标数据单元。
32.步骤s106,采集目标数据单元对应的统计信息。
33.如果目标数据单元为数据列,数据列对应的统计信息通常包括数据列的唯一值个数、值的区间分布、最大值、最小值、空值个数、非空值个数、不同值个数等。如果目标数据单元为数据行,数据行对应的统计信息通常包括行的总数、行的平均长度、表在磁盘中占用了多少页等。具体通过程序,即一个专门的线程,根据目标数据单元中的数据属性和数据属性对应的数据内容采集统计信息。
34.本发明提供了一种信息采集方法,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中的目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;采集目标数据单元对应的统计信息。该方式中,根据目标数据文件中每个数据单元在一段时间内的访问频率,确定实际需要采集统计信息的目标数据单元,进而采集目标数据单元对应的统计信息,能够根据实际情况采集统计信息,避免了统计信息中无用信息过多的问题,提高了查询优化器的查询效率,同时降低了网络带宽和内存的占用。
35.本发明实施例还提供了另一种信息采集方法,本实施例在上述实施例的基础上实现,本实施例重点描述根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元的步骤的具体实现过程(通过步骤s204

s206实现),如图2所示,具体包括:
36.步骤s202,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中,目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;
37.步骤s204,从至少一个数据单元的访问频率中确定大于或等于预设阈值的目标访问频率;
38.步骤s206,将目标访问频率对应的数据单元,确定为需要采集统计信息的目标数据单元;
39.上述预设阈值可以根据实际需要进行设置,比如20%。具体的,当统计得到目标数据文件中每个数据单元的访问频率后,将每个数据单元的访问频率与预设阈值进行比较,确定大于或等于预设阈值的目标访问频率。然后将目标访问频率对应的数据单元,确定为需要采集统计信息的目标数据单元;其他低于预设阈值的访问频率对应的数据单元,就不会采集其对应的统计信息。
40.步骤s208,采集目标数据单元对应的统计信息。
41.一种可能的实施方式:根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息;其中,统计信息包括:目标数据文件中数据单元的元数据。
42.上述元数据可以是描述数据单元中数据属性对应的数据内容的数据,对数据内容及信息资源的描述性信息。比如,根据目标数据单元包括的数据属性和数据属性对应的数据内容,统计数据属性对应的数据内容中的唯一值个数、数据的区间分布、最大值、最小值等信息。
43.上述方式中,可以根据实际的数据单元的访问情况,准确的采集目标数据文件中访问频繁的数据单元对应的统计信息。相比于基于目标属性采集固定的数据单元对应的统计信息的方式,避免了采集的统计信息中无用信息过多的问题,提高了查询优化器的查询效率,同时降低了网络带宽、内存和系统资源的占用。
44.上述步骤s208另一种可能的实施方式中,如果目标数据产生了更新,比如增加或更改了数据,通常在采集统计信息之前,提前设置好目标属性,比如,数据表包括“id”、“name”、“age”三个属性,预先设置的目标属性可以是“id”、“name”;没有设置“age”这个属性;或者,原始数据表只有“id”和“name”两个属性,此时预先设置的目标属性是“id”和“name”,如果后续添加了“age”这个属性,因为表结构会变更,增加或者减少表结构,所以基于固定的目标属性采集目标属性对应的统计信息,会导致采集的统计信息不准确,影响查询路径的准确度。基于此,采集目标数据单元对应的统计信息的步骤包括:
45.如果目标数据文件中包括新增数据单元,采集新增数据单元对应的统计信息,以及目标数据单元对应的统计信息。
46.通常在每次采集目标数据单元对应的统计信息之前,还会判断目标数据文件中的数据单元是否发生变更,如果新增了数据单元,不仅需要采集目标数据单元对应的统计信息,还需要采集新增数据单元对应的统计信息,以保证统计信息的完善度。当然,如果目标数据文件中的删除了某一个数据单元,在采集目标数据单元对应的统计信息时,由于已经删除的该数据单元,所以自适应的不采集已经删除的数据单元对应的统计信息。
47.具体的,根据新增数据单元包括的数据属性和数据属性对应的数据内容,采集新增数据单元对应的统计信息;根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息。
48.上述方式中,不仅能够根据数据单元实际的被访问频率,只采集当前访问频率较高的数据单元对应的统计信息,还能够实时根据目标数据文件中新增的数据单元,采集最新的统计信息,保证了统计信息的实时性,同时避免了统计信息中无用信息,提高了查询效率和查询优化器的查询速度。
49.本发明实施例还提供了另一种信息采集方法,本实施例在上述实施例的基础上实现,本实施例重点描述统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率的步骤之前的步骤的具体实现过程,具体包括:
50.采集指定的数据属性对应的数据单元的初始统计信息;将初始统计信息保存至目标内存。
51.由于统计针对目标数据文件中的数据单元的访问频率,需要经过预设时间段,因此,为了保证查询优化器能够在程序刚开始阶段,使用统计信息创建查询路径,还可以在程
序刚开始运行阶段,先根据指定的数据属性,采集指定的数据属性对应的数据单元的初始统计信息,比如,指定的数据属性为“id”,“name”,则可以直接采集“id”,“name”对应的数据单元的初始统计信息。该初始统计信息通常包括“id”列和“name”列的唯一值个数、最大值、最小值等。
52.然后将初始统计信息保存至目标内存,以使程序在统计数据单元的访问频率时,能够先采用内存中的初始统计信息创建查询路径,以保证数据库能够正常提供服务。
53.另外,采集目标数据单元对应的统计信息的步骤之后,可以将目标内存中的初始统计信息更新为目标数据单元对应的统计信息。
54.将目标内存中的初始统计信息更新为目标数据单元对应的统计信息,可以使内存中实时保存的是最新的统计信息,且是根据实际采集的统计信息。通常在将目标内存中的初始统计信息更新为目标数据单元对应的统计信息之后,还会继续执行前述采集的步骤,继续统计预设时间段内,数据单元的访问频率,确定目标数据单元,然后采集目标数据单元对应的统计信息,最后将目标内存中的统计信息更新为新采集的统计信息。以保证内存中的统计信息的实时性。
55.对应前述的方法实施例,本发明实施例提供了一种信息采集装置,如图3所示,该装置包括:
56.访问频率统计模块31,用于统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中,目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;
57.目标数据单元确定模块32,用于根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;
58.统计信息采集模块33,用于采集目标数据单元对应的统计信息。
59.本发明提供了一种信息采集装置,统计预设时间段内,针对目标数据文件中的至少一个数据单元的访问频率;其中的目标数据文件包括至少一个数据单元;数据单元包括:数据属性和数据属性对应的数据内容;根据至少一个数据单元的访问频率,从至少一个数据单元中确定需要采集统计信息的目标数据单元;采集目标数据单元对应的统计信息。该方式中,根据目标数据文件中每个数据单元在一段时间内的访问频率,确定实际需要采集统计信息的目标数据单元,进而采集目标数据单元对应的统计信息,能够根据实际情况采集统计信息,避免了统计信息中无用信息过多的问题,提高了查询优化器的查询效率,同时降低了网络带宽和内存的占用。
60.进一步的,上述目标数据单元确定模块,还用于:从至少一个数据单元的访问频率中确定大于或等于预设阈值的目标访问频率;将目标访问频率对应的数据单元,确定为需要采集统计信息的目标数据单元。
61.进一步的,上述统计信息采集模块,还用于:根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息;其中,统计信息包括:目标数据文件中数据单元的元数据。
62.进一步的,上述统计信息采集模块,还用于:如果目标数据文件中包括新增数据单元,采集新增数据单元对应的统计信息,以及目标数据单元对应的统计信息。
63.进一步的,上述统计信息采集模块,还用于:根据新增数据单元包括的数据属性和
数据属性对应的数据内容,采集新增数据单元对应的统计信息;根据目标数据单元包括的数据属性和数据属性对应的数据内容,采集目标数据单元对应的统计信息。
64.进一步的,上述装置还包括:初始统计信息采集模块,用于采集指定的数据属性对应的数据单元的初始统计信息;初始统计信息保存模块,用于将初始统计信息保存至目标内存。
65.进一步的,上述装置还包括:统计信息更新模块,用于将目标内存中的初始统计信息更新为目标数据单元对应的统计信息。
66.进一步的,上述数据单元包括目标数据文件的数据行或者数据列。
67.本发明实施例提供的信息采集装置,与上述实施例提供的信息采集方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
68.本实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述信息采集方法。
69.参见图4所示,该电子设备包括处理器100和存储器101,该存储器101存储有能够被处理器100执行的机器可执行指令,该处理器100执行机器可执行指令以实现上述信息采集方法。
70.进一步地,图4所示的电子设备还包括总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接。
71.其中,存储器101可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non

volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
72.处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field

programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成前述实施例的方法的步骤。
73.本发明实施例还提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述信息采集方法。
74.本发明实施例所提供的信息采集方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
75.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
76.另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
77.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
78.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
79.最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献