一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程与流程

2022-10-29 00:41:20 来源:中国专利 TAG:

一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程
一、技术领域
1.本发明涉及网络空间安全防御技术领域,特别是涉及一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程。
二、

背景技术:

2.近年来,网络犯罪造成了严重的经济损失,已成为一种新型网络安全威胁
1.。网络犯罪的趋利化,促使攻击者不断革新攻击理念、创新攻击方式,竭力占据攻防博弈技术优势。隐遁勒索病毒攻击就是在此背景下出现并迅速发展起来的一种新型恶意网络攻击,极具危害性与破坏力
[2,3]
。据美国sonicwall最新发布的《2020年威胁报告》
[4]
:2020年勒索病毒攻击激增62%,已成网络犯罪的首选工具,且未来的勒索病毒攻击技术将呈现更加隐蔽、更加复杂的发展趋势。
[0003]
近期,美国最大燃油运输管道商colonial pipeline公司遭受darkside勒索病毒攻击,输送业务被迫暂停,美国多州和华盛顿特区进入紧急状态。欧洲能源技术供应商volue公司遭勒索病毒攻击,业务系统被迫关闭。目前,我国尤其是沿海经济强省区域已成为勒索病毒攻击的重灾区,且每个人都是目标,人人都将无法幸免。
[0004]
所谓隐遁勒索病毒攻击
[5]
,是指利用隐遁技术,通过伪装或修饰攻击痕迹,规避或阻碍安全系统检测与取证,进而悄无声息地劫持数据资源(加密文件、窃取数据、拒绝访问、锁定屏幕等)、敲诈勒索赎金、维持长期隐蔽的一种新型恶意网络攻击。勒索病毒已成网络毒瘤,是企业与个人挥之不去、防不胜防的网络安全梦魇。频繁而惨烈的勒索病毒攻击,昭示了勒索病毒攻击研究的欠账。由于隐遁勒索病毒攻击手法隐蔽复杂,攻击后果简单粗暴,传统被动防御系统难以检测与防范。因此,从隐遁勒索病毒攻击的危害性、惨烈性及对防御的脆弱性来看,对隐遁勒索病毒攻击进行主动防御技术研究,是国家网络安全战略的核心需求,已是大势所趋、势在必行。
[0005]
为有效防御隐遁勒索病毒攻击,已有研究者提出了基于人工智能的检测方法。2011年nataraj等
[6]
通过将恶意代码二进制文件转换为灰度图,并发现同族恶意代码图像具有相似的纹理特征,通过机器学习方法比较恶意代码灰度图像的gist纹理特征,实现恶意代码分类。2019年,hsiao等
[7]
提出基于孪生网络的恶意代码图像分类方法;2020年,zhu等
[8]
提出基于孪生网络的安卓恶意软件分类方法。尽管这些方法开创了利用恶意代码图像并应用孪生网络来进行智能检测识别的研究新思路,但仍存在如下问题:(1)这些方法均基于标准数据集进行训练与测试,但对于隐遁勒索病毒而言,既无标准数据集,其样本也难以获取;(2)将恶意代码二进制数据转换为灰度图而非包含更多细节信息的rgb彩色图,导致用于检测识别的特征信息不完整;(3)仅以静态代码数据构建rgb彩色图,没有考虑融合其动态行为数据,导致图像的时空特征不完整,检测识别鲁棒性不好。上述因素影响了基于恶意代码图像的智能分类方法在隐遁勒索病毒检测中准确性与有效性。
三、

技术实现要素:

[0006]
针对当前安全防御方法应对隐遁勒索病毒攻击不力的安全困境,本发明所要解决的技术问题是提供一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程,可推广至其他恶意隐遁攻击检测及分类。尽管隐遁勒索病毒全程无文件落地,但由冯
·
诺依曼计算体系可知,所有运行于cpu中的进程与数据都需通过内存周转与存储,隐遁勒索病毒也不例外。由于内存是所有运行进程和数据必经之地,守着内存并进行内存取证就像扼住所有进行和数据的咽喉。此外,系统api调用序列易被钩挂而改变其行为序列,但更底层的irp序列却无法钩挂。因此,通过对隐遁勒索病毒样本进行内存数据转储与内核irp监控,将转储出的静态二进制数据与动态irp行为数据融合,并将融合后的数据转换为包含时空特征信息的rgb图像,再利用孪生卷积神经网络进行图像分类识别,将为隐遁勒索病毒检测提供有力支持。
[0007]
本发明解决其技术问题所采用的技术方案是:提供一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程,包括以下步骤:
[0008]
(1)获取并分析隐遁勒索病毒样本的内存镜像数据,并进行内存镜像数据冗余预处理;
[0009]
(2)内核监控隐遁勒索病毒irp动作序列;
[0010]
(3)将预处理后的内存镜像数据与irp序列数据进行数据融合,并将融合后的数据转换为rgb彩色图像;
[0011]
(4)将rgb彩色图像归档至同类隐遁勒索病毒图像库中,并从图像库中随机选择图像对,且对它们打标签以形成正样本对和负样本对,准备训练与测试数据集;
[0012]
(5)将成对的隐遁勒索病毒图像数据及标签输入孪生卷积神经网络,训练并测试模型,最终输出隐遁勒索病毒类别判断结果。
[0013]
所述步骤(1)具体为:
[0014]

.获取隐遁勒索病毒内存镜像数据。从virustotal下载隐遁勒索病毒样本,运行下载的隐遁勒索病毒样本,并借助procdump或dumpit等内存转储工具获取该隐遁勒索病毒的内存镜像数据。
[0015]

.分析隐遁勒索病毒内存镜像数据,并对内存镜像数据中的连续冗余字节(0x00字节或0xff 字节)进行删除处理。
[0016]
所述步骤(2)具体为:
[0017]
利用irptrace监控并捕获隐遁勒索病毒运行时所发出的irp(i/o request packets)行为序列。
[0018]
所述步骤(3)具体为:
[0019]

.将步骤(1)预处理后的隐遁勒索病毒内存镜像数据与步骤(2)捕获得到的irp序列数据进行数据融合成一维数据。
[0020]

.采用分段方式将一维数据转换为二维数据:假设一维数据长度为l,将其转换为宽度和高度均为的二维图像数据。
[0021]

.将二维图像数据的每个二进制字节(8位)转换为对应的十进制数(0-255),并将其作为图像的r通道,将整个图像的局部熵值作为g通道,将每个二进制字节的信息熵值作为b通道,并依此构建隐遁勒索病毒的rgb彩色图像。
[0022]
所述步骤(4)具体为:
[0023]

.将步骤(3)所产生的隐遁勒索病毒rgb彩色图像归档至同类隐遁勒索病毒图像库文件夹中。
[0024]

.从图像库同类文件夹中随机选择图像对,为它们打上标签1(正样本对),共10000个正样本对。
[0025]

.从图像库不同类文件夹中随机选择图像对,为它们打上标签0(负样本对),共10000个负样本对。
[0026]

.将上述生成的正样本对与负样本对拼接成完整的训练与测试数据,并将数据划分为80%的训练数据和20%的测试数据。
[0027]
所述步骤(5)具体为:
[0028]

.构建孪生神经网络。孪生神经网络的2个分支网络都采用预训练好的经典vgg-19卷积神经网络,用于提取隐遁勒索病毒图像特征。
[0029]

.构建孪生网络分类器。在上述构建的2个分支网络后面,采用2个全连接层、contrastive
ꢀ‑
loss损失函数、欧氏距离及rms prop优化来构建孪生网络分类器。
[0030]

.将步骤(4)产生的训练数据输入孪生神经网络,训练并测试模型,最终输出隐遁勒索病毒类别判断结果。
[0031]
(二)技术方案
[0032]
本发明的技术方案如图1所示(请见说明书附图)。
[0033]
(三)有益效果
[0034]
由于采用了上述的技术方案,本发明与现有技术相比较,具有以下的优点和积极效果:
[0035]
(1)在图像视觉分析方面,本发明能生成隐遁勒索病毒内存数据和irp序列数据的rgb彩色图像,可从视觉感知上使同类的隐遁勒索病毒在图像上具有相似性,不同类的隐遁勒索病毒则具有明显的不同。
[0036]
(2)在rgb彩色图像分析方面,能通过二进制数据和irp数据融合的十进制灰度值(r通道)反映功能模块的实际位置,通过信息熵(b通道)反映出所采用的功能模块复杂程度,通过图像局部熵(g通道)反映出相似功能模块的位置变化程度,为分类识别隐遁勒索病毒提供更丰富的特征支持。
[0037]
(3)在隐遁勒索病毒样本分析方面,本发明通过rgb彩色图像使安全分析人员利用视觉分析隐遁勒索病毒,极大地降低了分析难度,提升了分析便捷度。
[0038]
(4)在隐遁勒索病毒数据获取方面,本发明通过内存转储获取隐遁勒索病毒样本的内存镜像数据,通过内核监控获取其irp序列数据,可有效解决隐遁勒索病毒样本数据难以获取的问题,使病毒样本数据获取方式多元化。
[0039]
(5)在隐遁勒索病毒数据集类型平衡方面,本发明利用从孪生神经网络学习小样本数据集中随机选择正样本对、负样本对,既扩展了病毒样本的训练与测试数据集,又消除了因病毒样本类型不平衡性而带来的过拟合问题。
[0040]
(6)在分类识别方面,本发明构建基于隐遁勒索病毒样本rgb彩色图像并利用基于vgg-19的孪生卷积神经网络提取图像特征,并采用2个全连接层、contrastive-loss损失函数、欧氏距离及rms prop优化来分类识别,充分利用像素点位置、信息熵和局部熵等图像三
维结构特征,可使分类特征更具体、检测识别更准确。
四、附图说明
[0041]
图1为本发明流程图。
[0042]
图2为基于rgb图像特征的孪生卷积神经网络。
[0043]
图3为隐遁勒索病毒样本类别及数量。
[0044]
图4为notpetya家族的3个隐遁勒索病毒的rgb图像。
[0045]
图5为随机选择的10类隐遁勒索病毒的rgb彩色图像。
五、具体实施方式
[0046]
下面将结合具体实施案例,进一步阐述本发明内容。这些实施案例仅用于说明本发明而不用于限制本发明的范围。此外,在阅读本发明涉及的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0047]
本发明的实施方式涉及一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程,如图1所示。
[0048]
第一,在虚拟环境vmware平台中运行隐遁勒索病毒样本,并通过内存取证获取其内存镜像数据。具体而言,通过内存转储工具procdump或dumpit将内存数据转储为dmp文件,并对转储的dmp文件进行冗余处理,删除其中连续的填充字节(0x00字节或0xff字节)。
[0049]
第二,捕获该隐遁勒索病毒运行过程中所产生的irp行为序列数据。具体而言,通过irptrace捕获该隐遁勒索病毒进程所产生的irp行为序列。
[0050]
第三,将经过冗余处理后的内存转储dmp文件和irp行为序列文件进行数据融合,并将融合后的一维数据转换为二维数据,即假设一维数据长度为l,则将其转换为宽度和高度均为的二维图像数据;在此基础上,开始生成该隐遁勒索病毒的rgb彩色图像,即将二维图像数据的每个二进制字节(8位)转换为对应的十进制数(0-255),并将其作为图像的r通道,将整个图像的局部熵值作为g通道,将每个二进制字节的信息熵值作为b通道,并依此构建出rgb彩色图像。最后所得的rgb图像充分包含该隐遁勒索病毒的局部特征和全局特征、时间特征和空间特征,为隐遁勒索病毒分类识别提供充分的特征图像支持。
[0051]
第四,对所获得的隐遁勒索病毒的rgb彩色图像进行归档,将同一家族的隐遁勒索病毒归为同一文件夹中,以便后续的正样本对和负样本对选择。
[0052]
第五,从归档的图像库随机选择正样本对和负样本对以构建训练与测试数据集。具体而言,从同一文件夹中随机选择2张图像组成正样本对,从不同文件中随机选择2张图像组成负样本对。通过这样不断构建正样本对和负样本对数据集,为后续训练和测试提供数据集支持。
[0053]
第六,采用基于预训练后的vgg-19卷积神经网络来作为孪生网络两个分支,以提取输入的图像特征。并在其后采用2个全连接层、contrastive-loss损失函数、欧氏距离及rms prop优化来构建分类器,以对隐遁勒索病毒进行分类识别。
[0054]
最后,将数据集划分为训练集和测试集,分别占比为80%和20%。将该数据集输入前面所构建的孪生卷积神经网络,训练并测试模型,并借助召回率recall、准确率
precision、f1分数f1-score、auc等指标来评估本方法的有效性。
[0055]
下面通过具体实施案例来详细说明本发明。用于验证本发明检测准确率的样本是从virustotal官方网站下载的10类1024个以kaspersky规则命名的隐遁勒索病毒样本,且确保各类别存数量上的不均衡性 (如图3所示)。
[0056]
实施案例1
[0057]
一种基于孪生网络元学习的隐遁勒索病毒分类识别方法与流程,具体为:
[0058]
步骤1:在虚拟平台vmware中逐个运行下载的隐遁勒索病毒样本,通过内存转储工具procdump或 dumpit将内存镜像数据转储为dmp文件,并对转储的dmp文件进行冗余处理,删除其中连续的填充字节 (0x00字节或0xff字节)。以隐遁勒索病毒notpetya样本为例,在执行该病毒样本后,通过内存转储与冗余处理后将内存镜像数据保存为notpetya.dmp文件。对于下载的1024个隐遁勒索病毒样本均采取相同的操作处理,最终得到1024个dmp文件。
[0059]
步骤2:在运行隐遁勒索病毒样本同时,利用工具irptrace捕获该隐遁勒索病毒进程所产生的irp行为序列。以隐遁勒索病毒notpetya样本为例,在执行该病毒样本同时,通过irptrace捕获该进程所产生的irp行为序列,并将该irp行为序列存储为notpetya.irp文件。
[0060]
步骤3:用十六进制编辑器winhex打开步骤1所得的文件,再将步骤2所得的文件拼接其后,完成内存转储文件和irp行为序列文件的融合。然后,将融合后数据转换为二维图像数据,并在此基础上将每个二进制字节(8位)转换为对应的十进制数(0-255),将其作为图像的r通道,将整个图像的局部熵值作为g通道,将每个二进制字节的信息熵值作为b通道,依此构建出该隐遁勒索病毒的rgb彩色图像。通过这种方法产生的同类隐遁勒索病毒的rgb图像具有较高的相似度(如图4所示)。不同类的隐遁勒索病毒的rgb图像相似度明显,图5为随机从10种类型中选择的隐遁勒索病毒rgb彩色图像。
[0061]
步骤4:将10类1024个隐遁勒索病毒全部转换为相应的rgb彩色图像,并将同一家族的隐遁勒索病毒图像拷贝至同一文件夹中,以便后续的正样本对和负样本对选择。
[0062]
步骤5:从已归档的10个rgb图像文件夹中随机选择正样本对和负样本对,来构建孪生卷积神经网络的训练与测试数据集。具体而言,从同一文件夹中随机选择2张图像组成正样本对,从不同文件中随机选择2张图像组成负样本对。通过这种方法可构建出庞大的正样本对和负样本对的数据集,为后续孪生卷积神经网络的训练和测试提供充分的数据集支持。
[0063]
步骤6:基于预训练后的vgg-19卷积神经网络来作为孪生网络两个分支,以提取输入的rgb图像特征。在其后采用2个全连接层、contrastive-loss损失函数、欧氏距离及rms prop优化来构建分类器,以对输入的隐遁勒索病毒rgb图像进行分类识别。
[0064]
步骤7:将数据集划分为训练集和测试集,分别占比为80%和20%。将该数据集输入前面所构建的孪生卷积神经网络,训练并测试模型,并借助召回率recall、准确率precision、f1分数f1-score、auc等指标来评估本方法的有效性。
[0065]
为验证本发明的有效性,将经典的图像识别模型alexnet、vgg-19、inception应用于同一数据集进行对比实验检测,实验结果如表1所示。通过对比实验数据可知,本发明所提出的方法在隐遁勒索病毒分类识别的精确率、召回率、f1分数和auc等方面均取得较优结
果。
[0066]
表1测试结果及比较
[0067][0068][0069][0070][0071][0072]
参考文献:
[0073]
1.melandph,bayoumyy,sindreg.theransomware-as-a-serviceeconomywithinthedarknet[j].computers&security,2020,92:101-110.
[0074]
2.sehatbakhshn,nazaria,alamm,etal.remote:robustexternalmalwaredetectionframeworkbyusingelectromagneticsignals[j].ieeetransactionsoncomputers,2019,(99):18-38.
[0075]
3.carbonblack.theransomwareeconomy[r],https://www.carbonblack.com/wp-content/uploads/2017/10/carbon-black-ransomware-economy-report-101117.pdf,2018.
[0076]
4.sonicwallcompany.sonicwallcyberthreatreport[r],https://www.sonicwall.com/2021-cyber-threat-report/,2021.
[0077]
5.stevemansfield-devine.filelessattacks:compromisingtargetswithoutmalware[j].networksecurity,2017,4:7-11.
[0078]
6.natarajl,karthikeyans,jacobg,etal.malwareimages:visualizationandautomaticclassification[c].proceedingsofthe8thinternationalsymposiumonvisualizationforcybersecurity,2011.
[0079]
7.shou-chinghsiao,da-yukao,zi-yuanliu,raylintso.malwareimageclassificationusingone-shotlearningwithsiamesenetworks,procediacomputerscience,2019,159:1863-1871.
[0080]
8.jinjingzhu,julianjang-jaccard,amardeepsingh,paulawatters,seyitcamtepe.task-awaremetalearning-basedsiameseneuralnetworkforclassifyingobfuscatedmalware.https://arxiv.org/abs/2110.13409。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献