一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多裁剪策略和深度卷积生成对抗网络的恶意软件检测和家族分类方法

2023-01-15 10:53:43 来源:中国专利 TAG:


1.本发明涉及一种基于多裁剪策略和深度卷积生成对抗网络的恶意软件检测和家族分类方法,属于网络安全技术领域。


背景技术:

2.恶意软件是软件形式的常见网络攻击类型;恶意软件家族包括加密矿工、病毒、勒索软件、蠕虫和间谍软件等多种类型,其共同目标是信息或身份盗窃、间谍活动和服务中断。在新冠病毒流行的这几年,微软报告了16个不同等级的恶意行为,他们针对商业和学术机构窃取与疫苗相关的研究知识。av-test数据显示在2021年1月报告了超过10亿个受感染文件。随着检测恶意软件的方法越来越智能化,恶意软件开发人员广泛使用混淆、加密等技术来逃避反恶意软件的检测,使得恶意软件呈现出来多样化和多态化。因此为了避免恶意软件入侵计算机系统,造成破坏,研究者需要提出更为有效的恶意软件检测和分类方法。
3.在恶意软件检测与分类领域,目前主要使用的是以机器学习为代表的方法来分类,通过将原始二进文件样本可视化为图片,从而把恶意软件问题转化为图片分类问题,并且取得了很好的分类精度。但这些方法没有考虑模型的开销以及合适的策略去处理恶意软件检测和分类领域中样本不足和样本不平衡的问题,并且对于恶意软件的变体样本,传统的机器学习方法检测和分类准确率差。


技术实现要素:

4.本发明所要解决的技术问题是提供一种基于多裁剪策略和深度卷积生成对抗网络的恶意软件检测和家族分类方法,有效解决恶意软件检测和分类过程中数据不足和数据不平衡的问题,检测和分类新的恶意软件变体的准确率变得更高,极大减少了模型训练过程中的硬件开销。
5.本发明采用如下技术方案:
6.本发明一种基于多裁剪策略和深度卷积生成对抗网络的恶意软件检测和家族分类方法,采用如下步骤:
7.步骤一.将恶意软件彩色图像x放入多裁剪模块中生成恶意软件局部图像xj;多裁剪模块即为多裁剪策略;
8.步骤二.搭建基于深度卷积生成对抗网络的恶意软件检测和家族分类模型;
9.步骤三.训练恶意软件检测和家族分类模型;所述恶意软件检测和家族分类模型包括生成器g、打分判别器d1和分类判别器d2;
10.步骤四、利用保存的分类判别器d2对恶意软件进行检测和分类。
11.本发明步骤一中利用多裁剪模块生成恶意软件局部图像xj的步骤如下:
12.s101.将恶意软件彩色图像x的亮度、对比度、饱和度和明度的值设置为原来的1/2;
13.s102.分别从每一个恶意软件彩色图像x的左上角、左下角、右上角、右下角和中心截取64
×
64像素大小的5张恶意软件局部图像xj。
14.本发明步骤二中基于深度卷积生成对抗网络构造了生成器g、打分判别器d1和分类判别器d2,其中分类判别器d2在训练过程中使用打分判别器d1和生成器g的对抗损失函数和分类判别器d2对输入图像的交叉熵损失函数来更新参数,并在对抗损失函数收敛后对分类判别器d2的平均池化层进行微调。
15.本发明步骤三中训练分类判别器d2的具体步骤如下:
16.4.2.1).将原始的恶意软件局部图像xj和生成器g生成的假图像x
fake
以及它们的真实标签t(xj)和t(x
fake
)作为输入一并传递给分类判别器d2中,并计算分类判别器d2的损失函数,其公式如下:
[0017][0018]
公式(1)中:x
fake
为生成器g生成的假图像,t(x
fake
)表示生成器g生成的假图像的伪标签,t(xj)表示恶意软件局部图像的真实标签,表示分类判别器d2的恶意软件检测和家族分类模型参数,表示分类判别器d2对于x
fake
的预测标签结果,表示分类判别器d2对于xj预测标签结果,entropy(a,b)表示a与b的交叉熵损失函数,即分类判别器d2对于给定的样本的真实标签和预测的标签的损失,β为训练的权重,表示打分判别器d1和生成器g的对抗损失函数,μ表示损失所占的权重比例;
[0019]
4.2.2).当打分判别器d1和生成器g的对抗损失函数收敛时,对分类判别器d2的最后一层平局池化层进行微调,并将平局池化层前面的所有层进行冻结,并采用如下公式更新分类判别器d2:
[0020][0021]
公式(2)中:表示第i次迭代后得到的分类判别器d2的参数,表示第i 1次迭代后得到的分类判别器d2的参数,为分类判别器d2的学习率,为损失函数关于参数的梯度。
[0022]
本发明步骤三中训练打分判别器d1的具体步骤如下:
[0023]
4.1.1).将恶意软件局部图像xj和生成器g生成的假图像x
fake
作为样本传递给打分判别器d1,用打分判别器d1来判断样本的真假,若样本为恶意软件局部图像xj,则为真,标签为1;若样本为生成器g生成的假样本,则为假,标签为0;将恶意软件局部图像xj和生成器g生成的假图像x
fake
作为输入传递给打分判别器d1,打分判别器d1的损失函数公式为:
[0024][0025]
公式(3)中:p
data
(xj)为原始的恶意软件局部图像xj的数据分布,p
data
(x
fake
)为生成
器g生成的假图像x
fake
的数据分布,e是对表达式求数学期望,表示打分判别器d1对于原始的恶意软件局部图像xj的预测结果,表示打分判别器d1对于生成器g生成的假图像x
fake
的预测结果,表示打分判别器d1的模型参数;
[0026]
4.1.2).更新打分判别器d1的操作,采用如下公式:
[0027][0028]
公式(4)中:表示第i次迭代后得到的打分判别器d1的参数,表示第i 1次迭代后得到的打分判别器d1的参数,为打分判别器d1的学习率,为损失函数关于参数的梯度。
[0029]
本发明步骤三中训练训练生成器g的具体步骤如下:
[0030]
4.3.1).将打分判别器d1对于生成器g生成的假图像x
fake
的预测结果返回给生成器g,生成器g关于打分判别器d1的对抗损失函数公式为:
[0031][0032]
公式(5)中:表示判别器d1对于生成的假图像x
fake
的预测结果,表示打分判别器d1的恶意软件检测和家族分类模型参数;
[0033]
4.3.2).更新生成器g的操作,采用如下公式:
[0034][0035]
公式(6)中:表示第i次迭代后得到的生成器g的参数,表示第i 1次迭代后得到的生成器g的参数,为生成器g的学习率,为损失函数l关于参数的梯度。
[0036]
采用上述方案所取得的技术效果在于:
[0037]
1.本发明结合多裁剪策略和深度卷积生成对抗网络进行恶意软件检测和家族分类,为恶意软件检测和家族分类提供了可靠的工具,该方法在减少特征工程的同时有效解决了恶意软件检测和家族分类中样本不足和样本不平衡的问题,并且它提高了恶意软件变体的检测和分类的准确率,更好的保证网络的安全。
[0038]
2.本发明利用多裁剪模块获得恶意软件的局部图像,这样既能结合恶意软件全局和局部多尺度关键信息,也能解决数据不足和数据不平衡的问题。
[0039]
3.本发明在深度卷积生成对抗网络的基础上构建了包括生成器g、打分判别器d1和分类判别器d2,其中分类判别器d2在训练过程中使用打分判别器d1和生成器g的对抗损失函数和分类判别器d2对输入图像的交叉熵损失函数来更新参数,并在对抗损失函数收敛后对分类判别器d2的平均池化层进行微调;这样能提高恶意软件检测和家族分类模型参数的利用率,提高对恶意软件检测和分类的准确率。
附图说明
[0040]
附图1为本发明的流程图;
具体实施方式
[0041]
下面结合附图对本发明作进一步详细描述;
[0042]
如图1所示,本发明涉及一种基于多裁剪策略和深度卷积生成对抗网络的恶意软件检测与家族分类的方法,包括以下步骤:
[0043]
步骤一.将恶意软件转化成彩色图像,采用的具体步骤如下:
[0044]
1.1).下载微软big2015数据集,其中包含恶意软件的.asm文件和.byte文件,本发明主要基于微软big2015中的.byte文件来进行恶意软件检测和分类;
[0045]
1.2).删除.byte文件的特殊字符,如多余的“空格”和“?”;
[0046]
1.3).将big2015的.byte文件转化成字节数组,放到内存缓冲区中,从内容缓冲区生成彩色图像x(利用cv2.imdecode工具);
[0047]
1.4).将生成的big2015彩色图像数据集按照7∶3的比例划分为训练集和验证集,其中训练集中有共有7822个恶意软件图像,验证集中有3046个恶意软件图像;
[0048]
步骤二、将步骤一生成的恶意软件彩色图像x传入多裁剪模块中生成恶意软件局部图像xj,具体采用的步骤如下:
[0049]
2.1).将恶意软件彩色局部图像的亮度、对比度、饱和度和明度的值都设置为原来的1/2;
[0050]
2.1).将每一个真实恶意软件彩色图像x,分别从它的左上角、左下角、右上角、右下角、和中心位置等5个位置,截取出64
×
64像素大小的恶意软件局部图像,即为每一个恶意软件彩色图像变成了5张恶意软件局部图像xj;
[0051]
步骤三.搭建基于深度卷积生成对抗网络的恶意软件检测和家族分类模型,恶意软件检测和家族分类模型包括生成器g、打分判别器d1和分类判别器d2;
[0052]
3.1).搭建生成器g;所述生成器g的恶意软件检测和家族分类模型结构如下:
[0053]
4x4convtranspose bn relu 4x4convtranspose bn relu 4x4convtranspose bn relu 4x4convtranspose bn relu 4x4convtranspose tanh;
[0054]
3.2).搭建打分判别器d1;所述分类判别器d1的恶意软件检测和家族分类模型结构如下:
[0055]
4x4conv leakyrelu 4x4conv bn leakyrelu 4x4conv bn leakyrelu 4x4conv bn leakyrelu 4x4conv sigmoid;
[0056]
3.3)搭建分类判别器d2;所述分类判别器d2的恶意软件检测和家族分类模型结构如下:
[0057]
4x4conv leakyrelu 4x4conv bn leakyrelu 4x4conv bn leakyrelu 4x4conv bn leakyrelu 4x4conv leakyrelu 4x4avgpool;
[0058]
步骤四.用步骤一划分的big2015的训练集来训练生成器g、打分判别器d1和分类判别器d2;
[0059]
4.1).训练打分判别器d1具体步骤如下:
[0060]
4.1.1).将恶意软件局部图像xj和生成器g生成的假图像x
fake
作为样本传递给打分
判别器d1,用打分判别器d1来判断样本的真假,若样本为恶意软件局部图像xj,则为真,标签为1;若样本为生成器g生成的假样本,则为假,标签为0;将恶意软件局部图像xj和c生成的假图像x
fake
作为输入传递给打分判别器d1,打分判别器d1的损失函数公式为:
[0061][0062]
公式(3)中:p
data
(xj)为原始恶意软件局部图片xj的数据分布,p
data
(x
fake
)为生成器g生成的假图像样本x
fake
的数据分布,e是对表达式求数学期望,表示打分判别器d1对于原始的恶意软件局部图像xj的预测结果,表示打分判别器d1对于生成器g生成的假图像x
fake
的预测结果,表示打分判别器d1的恶意软件检测和家族分类模型参数;
[0063]
4.1.2).更新打分判别器d1的操作采用如下公式:
[0064][0065]
公式(4)中:表示第i次迭代后得到的打分判别器d1的参数,表示第i 1次迭代后得到的打分判别器d1的参数,为打分判别器d1的学习率,为损失函数关于参数的梯度。
[0066]
4.2).训练分类判别器d2的具体步骤如下:
[0067]
4.2.1).将原始的恶意软件的局部图像xj和生成器g生成的假图像x
fake
以及它们的真实标签t(xj)和t(x
fake
)作为输入一并传递给分类判别器d2中,并计算分类判别器d2的损失函数,其公式如下:
[0068][0069]
公式(1)中:x
fake
为生成器g生成的假图像,t(x
fake
)表示生成器g生成的假图像的伪标签,t(xj)表示恶意软件局部图像的真实标签,表示分类判别器d2的恶意软件检测和家族分类模型参数,表示分类判别器d2对于x
fake
的预测标签结果,表示分类判别器d2对于xj预测标签结果,entropy(a,b)表示a与b的交叉熵损失函数,即分类判别器d2对于给定的样本的真实标签和预测的标签的损失,β为训练的权重,表示打分判别器d1和生成器g的对抗损失函数,μ表示损失所占的权重比例;
[0070]
4.2.2).当打分判别器d1和生成器g的对抗损失函数收敛时,对分类判别器d2的最后一层平局池化层进行微调,并将平局池化层前面的所有层进行冻结,并采用如下公式更新分类判别器d2:
[0071]
[0072]
公式(2)中:表示第i次迭代后得到的分类判别器d2的参数,表示第i 1次迭代后得到的分类判别器d2的参数,为分类判别器d2的学习率,为损失函数关于参数的梯度。
[0073]
4.3训练生成器g具体步骤如下:
[0074]
4.3.1).将打分判别器d1对于生成器g生成的假图像x
fake
的预测结果返回给生成器g,生成器g关于打分判别器d1的对抗损失函数公式为:
[0075][0076]
公式(5)中:表示判别器d1对于生成的假图像x
fake
的预测结果,表示打分判别器d1的恶意软件检测和家族分类模型参数;
[0077]
4.3.2).更新生成器g的操作采用如下公式:
[0078][0079]
公式(6)中:表示第i次迭代后得到的生成器g的参数,表示第i 1次迭代后得到的生成器g的参数,为生成器g的学习率,为损失函数l关于参数的梯度;
[0080]
4.4).在训练生成器g、打分判别器d1和分类判别器d2过程中的总的目标函数为:
[0081][0082]
公式(7)中:为打分判别器d1的损失函数,为分类判别器d2的分类损失函数,为生成器g和打分判别器d1的损失函数。
[0083]
步骤五、如果损失函数已经收敛,则停止训练执行步骤六,否则重复步骤四;
[0084]
步骤六、保存训练好的分类判别器d2;
[0085]
步骤七、将步骤一划分的big2015的验证集输入到保存的分类判别器d2中,验证对恶意软件检测和分类的效果。
[0086]
本发明利用多裁剪模块获得恶意软件彩色局部图像,并且基于深度卷积生成对抗网络构造了生成器g、打分判别器d1和分类判别器d2,有效解决了恶意软件检测和分类过程中数据不足和数据不平衡的问题,极大减少了恶意软件检测和家族分类模型训练过程中的硬件开销;其中分类判别器d2在训练过程中使用打分判别器d1和生成器g的对抗损失函数和分类判别器d2对输入图像的交叉熵损失函数来更新参数,并在对抗损失函数收敛后对分类判别器d2的平均池化层进行微调,提高了恶意软件检测和家族分类模型参数的利用率,提高了恶意软件变体的检测和分类的准确率。
[0087]
最后说明的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保
护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献