技术特征:
1.一种比特币挖矿僵尸网络流量的快速识别方法,其特征在于,包括如下步骤:
(1)搜集用于模型训练的比特币挖矿僵尸网络流量和正常网络通信流量;
(2)根据分析的正常和挖矿的两种模式,从原始数据中选择合适的特征种类,接着通过对比分析选择出合适的特征数量,确定特征的种类和数量之后从原始数据中提取训练和测试数据;
(3)进行机器学习的模型训练,使用测试集对获得的模型进行测试评估。
2.根据权利要求1所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,步骤(1)搜集用于模型训练的比特币挖矿僵尸网络流量和正常网络通信流量;具体包括如下子步骤:
(1.1)根据安全厂商报告获取比特币挖矿僵尸网络病毒md5特征码;
(1.2)登录virussahre网站,根据获取到的病毒md5码搜索获取病毒样本;
(1.3)登录virustotal网站,根据获取到的病毒md5码搜索病毒样本运行所需环境;
(1.4)在主机端安装vmware软件,安装Ubuntu和Windows10两种操作系统,根据之前获取的信息设置系统环境保证病毒样本顺利运行;
(1.5)将vmware虚拟机网络连接方式设置为桥接模式,在虚拟机内使用命令查看当前系统对应ip地址;
(1.6)启动Wireshark流量采集应用开始进行正常流量数据采集;
(1.7)使用常见应用进行包括但不限于网页访问、文件下载,文件上传等操作;
(1.8)设定采集时间,完成采集后以pcap文件的形式存储当前采集的正常流量数据文件;
(1.9)在虚拟机中运行挖矿僵尸网络病毒样本;
(1.10)设定采集时间,完成采集后以pcap文件形式存储当前采集的挖矿僵尸网络流量;
(1.11)重复(1.9)~(1.10)两步,搜集多种系统下的多类别的比特币挖矿僵尸网络病毒流量。
3.根据权利要求1所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,步骤(2)具体包括如下子步骤:
(2.1)首先构建正常和挖矿两种流量的模式,分析对比得到所需特征种类;
(2.2)然后使用步骤(1)中采集的数据通过对比随机森林、K近邻、朴素贝叶斯等算法模型的准确率等参数,选择使用准确率最高的随机森林算法,接着使用随机森林算法进行对比分析获取特征的数目;
(2.3)使用随机森林的feature_importance来进行特征重要性的评估,其中feature_importance原理为使用基尼指数对特征重要性进行评分;
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征选取从中提取训练数据,生成机器学习训练文件。
4.根据权利要求3所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,所述步骤
(2.3)中合适的可用特征如下表所示:
5.根据权利要求1所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,所述步骤(3)具体包括如下子步骤:
(3.1)将提取的数据按照8:2的比例划分为训练集和测试集;
(3.2)使用交叉验证和网格搜素对随机森林的参数进行选择,使用训练集对模型进行训练;
(3.3)使用测试集进行验证,得到最后的检测准确率等模型评估结果。
技术总结
本发明提出了一种比特币挖矿僵尸网络流量的快速识别方法,识别框架分为三个部分,第一部分为模拟环境的构造,具体内容为搜集对应挖矿僵尸网络病毒样本,确定样本所需要的运行环境,在虚拟机上设置病毒样本所需环境,运行病毒样本,获取其产生的流量;第二部分为特征的提取,具体内容为经过模式比对、数据分析等操作获取合适的特征,使用挖矿病毒流量和正常流量来构建流量数据训练集;第三部分为识别模型的生成和验证,具体内容为划分测试集和训练集,在训练集上使用交叉验证和网格搜索方法对随机森林算法进行参数的选择,获取对应的训练模型后在测试集上对训练模型进行验证操作。
技术研发人员:胡晓艳;舒卓卓;程光;吴桦;龚俭;
受保护的技术使用者:东南大学;
技术研发日:2021.05.05
技术公布日:2021.10.19
本文用于企业家、创业者技术爱好者查询,结果仅供参考。