一种衍生数据的去重方法与流程

2022-04-09 07:46:40 来源：中国专利 TAG：

1.本发明涉及计算机安全技术领域，具体涉及一种衍生数据的去重方法。

背景技术：

2.随着计算机技术的发展，电子文档在现实生活中很常见，大多数办公会采用无纸化办公，文档类的文件直接在手机或者电能上看，而且携带方便，不再需要带大量的书籍，但是在一些文档中存在大量的重复文件，从而导致了存储空间的浪费，在一些文件中还存在恶意文件，恶意文件在被我们解析的过程中会无限制的占用存储空间，在查看文件或者处理文件时带来了很多麻烦。
3.在当前处理衍生数据重复的方法中，不断对文件进行拆解获取重复文件，但是重复文件的数量多，或者恶意文件在不断的占用存储空间时，降低了检测重复文件的效率，会花费大量的时间，当拆解时间达到预设时间时会停止对文件的拆解，从而导致了恶意文件检测不到，若文件嵌套的层数多，以指数形式上升的文件数量相当庞大，从而浪费了巨大的空间资源。

技术实现要素：

4.针对上述技术问题，本发明采用的技术方案为：
5.一种衍生数据的去重方法，包括如下步骤：
6.s100、对目标资源包进行处理，获取目标资源包对应的初始文件列表a＝{a1，a2，
……
，am}，ai是指第i个初始文件，i＝1
……
m，m为初始文件数量；
7.s200、获取ai对应的格式且根据ai对应的格式，获取ai对应的衍生文件列表ai'＝{a
i1
，a
i2
，
……
，a
in
}，其中，a
ij
是指第j个衍生文件，j＝1
……
n，n为衍生文件数量；
8.s300、获取a
ij
对应的标识向量(a
1ij
，a
2ij
，
……
，a
sij
)，其中，a
rij
是指a
ij
对应的标识向量中第r个bit值，r＝1
……
s，s为标识向量的bit位数量；
9.s400、基于a
ij
对应的标识向量与关键标识集中任一关键标识向量，获取a
ij
对应的相似度列表f
ij
＝(f
1ij
，f
2ij
，
……
，f
zij
)，f
xij
是指a
ij
对应的标识向量与第x个关键标识向量对应的相似度，x＝1
……
z，z＝n-1；
10.s500、根据f
xij
，获取ai对应的第一类衍生文件和ai对应的第二类衍生文件且对a
ij
对应的第一类衍生文件和a
ij
对应的第二类衍生文件分别处理；
11.s600、重复s200-s500步骤，直到ai对应的数据结构中任一层级的所有衍生文件均为第二类衍生文件，获取ai对应的目标结构树。
12.本发明与现有技术相比具有明显的优点和有益效果，借由上述技术方案，本发明提供的一种衍生数据的去重方法可达到相当的技术进步性及实用性，并且具有广泛的利用价值，其至少具有下列优点：
13.本发明提供了一种衍生数据的去重方法，通过对结构树中每一层级中任一衍生文件和其他衍生文件之间的相似度，确定出衍生文件是否需要进一步拆分，能够避免文件拆
分出大量重复的衍生文件的情况，影响到存储空间的使用，降低了空间使用效率。
14.同时，通过数据处理到结构树中任一层级时所需的总时间，确定文件是否进一步拆分，避免因衍生文件量较多，占据更多的资源，提高数据处理效果，使得满足更多文件的处理。
15.此外，通过衍生文件相似度判断能够对重复衍生文件进行统计，一方面避免数据的遗漏且直接反映文件的特征性，便于识别恶意文件，例如，当重复衍生文件较多时，可以认为该衍生文件为恶意文件，另一方面，通过计数总量对数据拆分系统进行监控，及时提醒异常情况。
16.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。
附图说明
17.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本发明实施例提供的一种衍生数据的去重方法的流程图。
19.图2为本发明实施例提供的另一种衍生数据的去重方法的流程图。
具体实施方式
20.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.如图1所示，本实施例提供一种衍生数据的去重方法，包括如下步骤：
22.s100、对目标资源包进行处理，获取目标资源包对应的初始文件列表a＝{a1，a2，
……
，am}，ai是指第i个初始文件，i＝1
……
m，m为初始文件数量。
23.具体地，在s100步骤中的目标资源包的处理方式为拆分处理；优选地，在s100步骤中获取所述目标资源包的格式且根据所述目标资源包的格式，拆分出m个初始文件，本领域技术人员采取现有任一的资源包拆分方法，在此不再赘述。
24.具体地，所述目标资源包是指包括若干个文件的数据包，例如，所述目标资源包，包括脚本文件、mail文件、pe文件、加密文件、压缩包等。
25.s200、获取ai对应的格式且根据ai对应的格式，获取ai对应的衍生文件列表ai'＝{a
i1
，a
i2
，
……
，a
in
}，其中，a
ij
是指第j个衍生文件，j＝1
……
n，n为衍生文件数量。
26.具体地，获取ai对应的衍生文件可以参照s100步骤，在此不再赘述。
27.s300、获取a
ij
对应的标识向量(a
1ij
，a
2ij
，
……
，a
sij
)，其中，a
rij
是指a
ij
对应的标识向量中第r个bit值，r＝1
……
s，s为标识向量的bit位数量。
28.具体地，在s300步骤中所述标识向量是通过对a
ij
对应的标识进行hash编码化处理
获取的。
29.s400、基于a
ij
对应的标识向量与关键标识集中任一关键标识向量，获取a
ij
对应的相似度列表f
ij
＝(f
1ij
，f
2ij
，
……
，f
zij
)，f
xij
是指a
ij
对应的标识向量与第x个关键标识向量对应的相似度，x＝1
……
z，z＝n-1。
30.具体地，所述关键标识向量是指ai'中除a
ij
之外的其他任一衍生文件对应标识向量。
31.具体地，在s400步骤中还包括如下步骤：
32.获取关键标识集bi＝{b1，b2，
……
，bz}，第x个关键标识向量b
x
＝(b
x1
，b
x2
，
……
，b
xz
)，b
xr
是指第x个关键标识向量中第r个bit值；
33.根据a
ij
对应的标识向量和b
x
，获取f
xij
，本领域技术人员可以采取现有技术中任一相似度获取方法，在此不再赘述。
34.优选地，f
xij
符合如下条件：
[0035][0036]
s500、根据f
xij
，获取ai对应的第一类衍生文件和ai对应的第二类衍生文件且对a
ij
对应的第一类衍生文件和a
ij
对应的第二类衍生文件分别处理。
[0037]
具体地，在s500步骤中还包括如下步骤：
[0038]
s501、遍历f
ij
且当每一f
xij
≠0时，将a
ij
为ai对应的第一类衍生文件；
[0039]
s503、遍历f
ij
且当任一f
xij
＝0时，获取f
xij
对应的衍生文件且将每一f
xij
对应的衍生文件作为ai对应的第二类衍生文件。
[0040]
具体地，在s503步骤中a
ij
本身为ai对应的第一类衍生文件。
[0041]
s505、当ai对应的衍生文件为ai对应的第一类衍生文件时，对ai对应的第一类衍生文件执行s200-s500步骤；
[0042]
s507、当ai对应的衍生文件为ai对应的第二类衍生文件时，对ai对应的第二类衍生文件停止衍生；能够对重复的衍生文件进行停止衍生，避免对重复的衍生文件进行拆解，导致存在大量的数据占用存储空间，降低了存储空间的使用率。
[0043]
s600、重复s200-s500步骤，直到ai对应的数据结构中任一层级的所有衍生文件均为第二类衍生文件，获取ai对应的目标结构树。
[0044]
具体地，ai对应的结构树包括：ai为根节点和ai对应的衍生文件作为叶子节点。
[0045]
在一个具体的实施例中，如图2所示，所述还包括如下步骤：
[0046]
s1、遍历f
ij
且当任一f
xij
＝0时，将f
xij
＝0的衍生文件的总数量作为aij对应的计数值c
ij
，可以理解为：每一f
xij
＝0时，在a
ij
对应的当前计数值上加1，即c
ij
符合如下条件：
[0047]cij
＝c
ij
1。
[0048]
具体地，f
ij
可以参照s100-s500步骤，在此不再赘述。
[0049]
s2、基于所有c
ij
，获取a对应的总计数值c0，c0符合如下条件：
[0050][0051]
具体地，a
ij
对应的计数值的起始计数值为0。
[0052]
s3、当c0大于预设的计数阈值时，反馈提示指令至管理员。
[0053]
上述实施例能够对重复的文件进行统计，一方面避免数据的遗漏且直接反映文件的特征性，便于识别恶意文件，例如，当重复衍生文件较多时，可以认为该衍生文件为恶意文件，另一方面，通过计数总量对数据拆分系统进行监控，及时提醒异常情况。
[0054]
在另一个具体的实施例中，所述还包括如下步骤：
[0055]
获取ai的结构树对应的时间列表t＝(t1，t2，
……
，t
p
)，其中，tq是指ai的结构树中第q层级的数据处理时间，q＝1
……
p，p为ai的结构树中层级数。
[0056]
具体地，tq符合如下条件：
[0057][0057]
是指在ai的结构树中第q层级中第g个衍生文件的去重时间，可以理解为，判断第g个衍生文件为ai对应的第一类衍生文件还是ai对应的第二类衍生文件所需的时间。
[0058]
根据t，获取ai对应的目标时间ty符合如下条件：
[0059]
ty＝t1 t2
……
ty，y＝1
……
q。
[0060]
当ty大于预设的时间阈值t0时，对ai的衍生文件停止衍生；本领域技术人员可以根据需求设置t0，在此不再赘述。
[0061]
上述实施例能够避免因衍生文件量较多，占据更多的资源，提高数据处理效果，使得满足更多文件的处理。
[0062]
本实施例提供了一种衍生数据的去重方法，通过对结构树中每一层级中任一衍生文件和其他衍生文件之间的相似度，确定出衍生文件是否需要进一步拆分，能够避免文件拆分出大量重复的衍生文件情况，影响到存储空间的使用，降低了空间使用效率；
[0063]
同时，通过数据处理到结构树中任一层级时所需的总时间，能够确定文件是否进一步拆分，避免因衍生文件量较多，占据更多的资源，提高数据处理效果，使得满足更多文件的处理。
[0064]
此外，通过衍生文件相似度判断是够为重复衍生文件且重复衍生文件进行统计，一方面避免数据的遗漏且直接反映文件的特征性，便于识别恶意文件，例如，当重复衍生文件较多时，可以认为该衍生文件为恶意文件，另一方面，通过计数总量对数据拆分系统进行监控，及时提醒异常情况。
[0065]
本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
[0066]
本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。
[0067]
以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种针对扫描文档的信息提取和结构化方法与流程

一种衍生数据的去重方法与流程

相关文献

最热文献