一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多特征值的文件信息处理方法与系统与流程

2022-04-27 11:57:05 来源:中国专利 TAG:


1.本发明属于文件信息处理技术领域,尤其涉及一种基于多特征值的文件信息处理方法与系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.虚拟化移动办公逐渐成为政务移动办公领域的主要应用模式,pc端传统的轻量级数据缓存和查询方式已经无法满足可能会产生大量数据的应用程序对数据缓存和处理的需求。文件作为最常见的信息处理单元,随着用户使用频率的增加,文件量会越来越大。发明人发现,现有的文件缓存和过滤技术存在支撑数据量较小,缓存占用内存较多,以及查询性能消耗较大等技术问题。


技术实现要素:

4.为了解决上述背景技术中存在的技术问题,本发明提供一种基于多特征值的文件信息处理方法与系统,其将复杂信息抽象化,节省缓存空间,使pc端应用程序可以在有限的内存空间下缓存更多的信息。
5.为了实现上述目的,本发明采用如下技术方案:
6.本发明的第一个方面提供一种基于多特征值的文件信息处理方法,其包括:
7.获取各个待处理元素本身、属性及其对应特征值,并将这些信息组合,构成各个元素多特征待集;其中,所述元素为文件信息;
8.利用预设哈希函数对各个所述元素多特征待集中的多特征值分别进行哈希运算,得到各个元素的哈希值集合;
9.将每个元素的哈希值集合内的所有哈希值进行分组拆分,每一组哈希值映射到初始化多维位向量中的一维位向量,以实现对文件信息的缓存处理。
10.作为一种实施方式,初始化的多维位向量中的各位向量位置为0。
11.作为一种实施方式,每一组哈希值映射到初始化多维位向量中的一维位向量的对应位置标记为1。
12.作为一种实施方式,所述基于多特征值的文件信息处理方法,还包括:
13.接收待查询元素相关信息,将待查询元素的特征值基于所述预设哈希函数进行哈希计算,得到对应哈希集合,进而将其内的哈希值进行拆分;
14.根据拆分后对应维的位向量所对应的哈希位置是否为1来判断待查询元素是否存在。
15.作为一种实施方式,若待查询元素的所有的哈希值对应维的位向量组的哈希位置的值都是1,则待查询元素存在;否则,待查询元素不存在。
16.本发明的第二个方面提供一种基于多特征值的文件信息处理系统,其包括:
17.多特征待集构建模块,其用于获取各个待处理元素本身、属性及其对应特征值,并将这些信息组合,构成各个元素多特征待集;其中,所述元素为文件信息;
18.哈希值集合计算模块,其用于利用预设哈希函数对各个所述元素多特征待集中的多特征值分别进行哈希运算,得到各个元素的哈希值集合;
19.哈希值拆分映射模块,其用于将每个元素的哈希值集合内的所有哈希值进行分组拆分,每一组哈希值映射到初始化多维位向量中的一维位向量,以实现对文件信息的缓存处理。
20.作为一种实施方式,初始化的多维位向量中的各位向量位置为0。
21.作为一种实施方式,每一组哈希值映射到初始化多维位向量中的一维位向量的对应位置标记为1。
22.作为一种实施方式,所述基于多特征值的文件信息处理系统,还包括:
23.元素查询模块,其用于:
24.接收待查询元素相关信息,将待查询元素的特征值基于所述预设哈希函数进行哈希计算,得到对应哈希集合,进而将其内的哈希值进行拆分;
25.根据拆分后对应维的位向量所对应的哈希位置是否为1来判断待查询元素是否存在。
26.本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于多特征值的文件信息处理方法中的步骤。
27.本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于多特征值的文件信息处理方法中的步骤。
28.与现有技术相比,本发明的有益效果是:
29.(1)本发明通过多维位向量和多个特征哈希值拆分存储的方式,将复杂信息抽象化,节省了缓存空间,使pc端应用程序可以在有限的内存空间下缓存更多的信息。
30.(2)本发明可以根据业务需求选择设定属性的查询,将一个元素的多个哈希值拆分存储到多个位向量中,减小了不同元素的存储位置完全相同的可能性,进而降低了假阳性的发生概率。
31.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
32.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
33.图1是应用本发明实施例的基于多特征值的文件信息处理方法的示例性应用环境的系统架构的示意图;
34.图2是本发明实施例的基于多特征值的文件信息处理方法流程图;
35.图3是本发明实施例的根据元素特征集定义多维位向量集并进行初始化;
36.图4是本发明实施例的哈希值集合拆分映射;
37.图5是本发明实施例的一个基于多特征值的文件信息处理系统结构示意图;
38.图6是本发明实施例的另一个基于多特征值的文件信息处理系统结构示意图;
39.图7是本发明实施例的电子设备结构示意图。
具体实施方式
40.下面结合附图与实施例对本发明作进一步说明。
41.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
42.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
43.图1示出了可以应用本发明实施例的基于多特征值的文件信息处理方法的示例性应用环境的系统架构的示意图。
44.如图1所示,系统架构100可以包括电子设备101和/或电子设备102,网络103和服务器104。网络103用以在电子设备101、电子设备102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。电子设备101和电子设备102,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的电子设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备、网络和服务器。比如服务器104可以是多个服务器组成的服务器集群等。
45.本发明实施例所提供的基于多特征值的文件信息处理方法一般由服务器104执行,相应地,基于多特征值的文件信息缓存和过滤徐婷可以设置于服务器104中。但本领域技术人员容易理解的是,本发明实施例所提供的基于多特征值的文件信息处理方法也可以由电子设备101或电子设备102执行。
46.实施例一
47.如图2所示,本实施例提供了一种基于多特征值的文件信息处理方法,其包括:
48.s101:获取各个待处理元素本身、属性及其对应特征值,并将这些信息组合,构成各个元素多特征待集;其中,所述元素为文件信息。
49.此处需要说明的是,文件信息可以为文档文件或是应用程序等。
50.在步骤s101中的属性及特征值包括但不限于文档文件的存储路径、修改时间等,应用程序的存储路径、后缀、签名信息等。
51.其中,每个元素的特征数为d(例如文件内容md5值、文件路径前缀等)。
52.s102:利用预设哈希函数对各个所述元素多特征待集中的多特征值分别进行哈希运算,得到各个元素的哈希值集合。
53.例如:利用k个哈希函数对待处理元素的多个特征值分别进行哈希运算,得到元素的哈希值集合s={hv1,hv2,...,hvdk}。其中,k为大于或等于1的正整数,其数量与特征值的数量对应。
54.s103:将每个元素的哈希值集合内的所有哈希值进行分组拆分,每一组哈希值映
射到初始化多维位向量中的一维位向量,以实现对文件信息的缓存处理。
55.在具体实施过程中,初始化的多维位向量中的各位向量位置为0。每一组哈希值映射到初始化多维位向量中的一维位向量的对应位置标记为1。
56.将这个哈希值集合进行拆分映射,dk个哈希值拆分成l组,每一组哈希值映射到一个位向量的hvk位置上(相应位置标记为1);如图3所示,将多特征值和哈希拆分融合到一起,如图4所示,来达到降低误判率,节省缓存空间的目的。其中,l的数量即定义的位向量个数,至少2组,可根据待处理元素的数量级进行扩充。
57.在一个或多个实施例中,所述基于多特征值的文件信息处理方法,还包括:
58.s201:接收待查询元素相关信息,将待查询元素的特征值基于所述预设哈希函数进行哈希计算,得到对应哈希集合,进而将其内的哈希值进行拆分;
59.s202:根据拆分后对应维的位向量所对应的哈希位置是否为1来判断待查询元素是否存在。
60.在步骤s202中,若待查询元素的所有的哈希值对应维的位向量组的哈希位置的值都是1,则待查询元素存在;否则,待查询元素不存在。
61.若有任意一个哈希值对应的位置的值是0,则该查询元素肯定不存在。
62.实施例二
63.如图5所示,本实施例提供了一种基于多特征值的文件信息处理系统,其具体包括如下模块:
64.多特征待集构建模块301,其用于获取各个待处理元素本身、属性及其对应特征值,并将这些信息组合,构成各个元素多特征待集;其中,所述元素为文件信息;
65.哈希值集合计算模块302,其用于利用预设哈希函数对各个所述元素多特征待集中的多特征值分别进行哈希运算,得到各个元素的哈希值集合;
66.哈希值拆分映射模块303,其用于将每个元素的哈希值集合内的所有哈希值进行分组拆分,每一组哈希值映射到初始化多维位向量中的一维位向量,以实现对文件信息的缓存处理。
67.在具体实施过程中,初始化的多维位向量中的各位向量位置为0。
68.每一组哈希值映射到初始化多维位向量中的一维位向量的对应位置标记为1。
69.在一个或多个实施例中,如图6所示,在图5的基础上,所述基于多特征值的文件信息处理系统,还包括:
70.元素查询模块4,其用于:
71.接收待查询元素相关信息,将待查询元素的特征值基于所述预设哈希函数进行哈希计算,得到对应哈希集合,进而将其内的哈希值进行拆分;
72.根据拆分后对应维的位向量所对应的哈希位置是否为1来判断待查询元素是否存在。
73.若待查询元素的所有的哈希值对应维的位向量组的哈希位置的值都是1,则待查询元素存在;否则,待查询元素不存在。
74.此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
75.实施例三
76.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于多特征值的文件信息处理方法中的步骤。
77.实施例四
78.本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于多特征值的文件信息处理方法中的步骤。
79.参照图7,本实施例中电子设备的一种结构示意图。需要说明的是,图7示出的电子设备500仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
80.如图7所示,电子设备500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有系统操作所需的各种程序和数据。中央处理单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
81.以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(lan)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
82.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本技术的装置中限定的各种功能。
83.本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
84.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献