一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习的恶意代码检测方法与流程

2022-07-02 06:08:42 来源:中国专利 TAG:


1.本发明涉及信息安全技术,尤其涉及一种基于机器学习的恶意代码检测方法。


背景技术:

2.大数据信息时代我们有了足不出户便可购物的手机网上商城;彰显个性与分享生活的多元化社交网络app;便捷生活每一处的打车、点餐、导航、租借应用等app软件。但是这些便捷的软件系统后台也提取了用户海量的个人信息,才能做到对我们的人性化服务,与此同时,用户的个人信息安全也受到严峻挑战。并且随着人类智能工业技术水平稳步提升,智能终端设备的外观、材料、功能等日益多元化,以及众多硬件技术指标都达到了较高水准,因而智能终端设备的普及率迅速增加。著名的数据预测公司graner预测到2019年年底,全球将有40亿部电脑、平板电脑以及智能手机使用android系统,这将使其成为了一个占主导地位的智能终端平台,抢占整个智能终端市场约三分之二的份额。但是由于android系统的开放性,它也成为了众多恶意代码开发者的活跃地盘。由于恶意代码的数量和种类越来越多,加上代码混淆、代码变异、加密等技术的兴起,使得恶意代码检测变得越来越困难。一种名为wannacry的“蠕虫”勒索病毒肆虐全球,使全球很多高等院校、科研机构、银行以及证券机构均受到严重攻击,带来了全球性的互联网灾难。wannacry勒索病毒是继“灰鸽子”和“熊猫烧香”以来,影响力最大的病毒之一。更有些威胁性较大的恶意代码,甚至是利用了系统的漏洞,来实施恶意攻击。例如前段时间席卷全球的“永恒之蓝”勒索病毒,就是利用了计算机网络通信端口的漏洞。
3.所以,人工智能大数据时代,人们的生活因为有了互联网技术、有了数据分享、有了云计算而变得更加的智能便捷,但是个人的信息安全将面临严峻的挑战。因此研究一种检测未知恶意代码的技术显得尤为重要。


技术实现要素:

4.本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于机器学习的恶意代码检测方法。
5.本发明解决其技术问题所采用的技术方案是:一种基于机器学习的恶意代码检测方法,包括以下步骤:
6.1)采用基于静态分析的特征提取手段,根据android系统app的apk样本提取特征;
7.具体过程如下:(静态分析特征提取技术opng)
8.1.1)由apktool apk编译工具对apk样本文件进行反编译;
9.1.2)采用基于n-gram的算法对反编译获取的smali文件特征数据提取特征向量;
10.2)特征数据处理;将特征向量构成tzhd-mat样本库;
11.2.1)特征动作列向量转换为矩阵形式,即将样本特征数据列向量x=(x1,x2,x3,...xn)
t
转化为m
×
n格式的矩阵;
12.2.2)采用svd奇异值矩阵降维算法,将原始m
×
n维tzhd-mat矩阵压缩为6
×
6维
tzhd-mat矩阵;
13.2.3)将6
×
6维tzhd-mat特征矩阵转化为tzhd-mat灰度值图片,即样本特征灰度值图片;
14.2.4)将样本特征灰度值图片作为apk样本的tzhd-mat图像,构成tzhd-mat样本库;
15.3)模型训练;
16.以matlab环境为平台,训练和调试深度学习神经网络参数以及随机森林算法决策树;
17.具体过程为:
18.将apk样本tzhd-mat灰度值图片作为训练集,对卷积神经网络进行迭代训练、调优网络参数,当最终正确分类识别率达到了0.99或迭代次数超过设定次数时停止迭代。
19.按上述方案,所述步骤1.2)中提取特征向量为结合dalvikcodes的指令特征进行n-gram处理,获得静态分析特征。
20.按上述方案,所述步骤3)中卷积神经网络为caffe深度学习框架下的卷积神经网络。
21.按上述方案,所述步骤3)中网络参数包括学习率。
22.本发明产生的有益效果是:
23.本发明方法和传统的经典机器学习算法相比,显著地提高了检测效率和模型可靠性。
附图说明
24.下面将结合附图及实施例对本发明作进一步说明,附图中:
25.图1是本发明实施例的方法流程图。
具体实施方式
26.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
27.如图1所示,一种基于机器学习的恶意代码检测方法,包括以下步骤:
28.1)采用基于静态分析的特征提取手段,根据android系统app的apk样本提取特征;
29.具体过程如下:
30.1.1)由apktool apk编译工具对apk样本文件进行反编译;
31.1.2)采用基于n-gram的算法对反编译获取的smali文件特征数据提取特征向量;
32.在采用静态分析特征集提取特征向量时,为提高特征集的细粒度,根据n-gram在恶意代码检测的应用,并结合dalvikcodes的指令特征,采用静态分析特征提取技术opng(opcode-n-gram);
33.2)特征数据处理,将特征向量构成tzhd-mat样本库;
34.2.1)特征动作列向量转换为矩阵形式,即将样本特征数据列向量x=(x1,x2,x3,...xn)
t
转化为m
×
n格式的矩阵;
35.2.2)采用svd奇异值矩阵降维算法,将原始m
×
n维tzhd-mat矩阵压缩为6
×
6维
tzhd-mat矩阵;
36.步骤2.1)-2.2),针对原始tzhd-mat图像检测效果不佳的特点,采用svd奇异值矩阵降维算法,将原始60
×
35维tzhd-mat矩阵压缩为6
×
6维tzhd-mat矩阵,消除了冗余信息造成的不良影响,更好体现了数据的核心特征,不仅提高了样本的训练速度,还提高了最终模型的检测精度;
37.2.3)将6
×
6维tzhd-mat特征矩阵转化为tzhd-mat灰度值图片,即样本特征灰度值图片;
38.2.4)将样本特征灰度值图片作为apk样本的tzhd-mat图像,构成tzhd-mat样本库;
39.3)模型训练;
40.以matlab环境为平台,将apk样本tzhd-mat灰度值图片作为训练集输入,训练和调试深度学习神经网络参数以及随机森林算法决策树;
41.具体过程为:
42.将apk样本tzhd-mat灰度值图片作为训练集,对卷积神经网络进行迭代训练、调优网络参数,采用随机森林算法决策树进行分类,当最终正确分类识别率达到了0.99或迭代次数超过设定次数时停止迭代,网络参数包括学习率和动量。
43.利用caffe深度学习框架下的卷积神经网络在图像分类识别领域高效率的特点,将大量的apk样本tzhd-mat图片对卷积神经网络进行迭代训练、调优网络参数、最后采用随机森林算法决策树进行识别,最终正确识别率达到了0.99。
44.应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献