一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网络空间中恶意域名自动化检测方法与流程

2022-03-02 01:34:48 来源:中国专利 TAG:


1.本发明涉及恶意域名检测技术,具体涉及一种网络空间中恶意域名自动化检测方法。


背景技术:

2.目前,随着信息网络的蓬勃发展,互联网规模不断扩大,互联网应用深入到生活的方方面面,互联网成为了推动社会进步和经济发展的巨大动力。尤其是近年来,智能手机的广泛普及,让人类的生活与互联网紧密相连。但互联网在带给广大公众跨越时空、快速便捷和互动交流的同时,也给网络攻击、网络犯罪、信息泄漏、窥探隐私提供了可能。近年来网络犯罪活动猖獗,犯罪手段多样化,僵尸网络以他传播最广,效率最高,隐蔽性最强的优势,已经成为网络犯罪最常见的手段。因此时下恶意域名检测成为了网络安全研究的热点,其对保障网络安全,净化网络环境具有重要意义。
3.恶意域名也叫恶意网站,是指该网站利用浏览器或者应用软件的漏洞,嵌入恶意代码,在用户不知情的情况下,对用户的机器进行篡改或破坏的网站。对于弹出插件或提示用户是否将其设为首页的网站,因为需要用户确认,则不被定义为恶意域名。对于内容不合法、不健康的网站,如果它并未对用户的机器进行篡改或破坏,也不被定义为恶意域名。但是对于仿冒其他网站比如银行网站、电子商务网站的,虽然未对用户的机器进行篡改或破坏,但是也被定义为恶意域名。
4.目前对恶意域名检测的研究,首先前人只是提出了几种检测方法,没有形成自动化的系统,检测效果不佳。其次目前研究大部分针对国外域名,没有完整的针对中国区的方法。然而核心主干网络的监控不够导致恶意域名泛滥,网络环境受到污染。因此,如何快速准确的分析并检测出恶意域名已经成为了一个亟待解决的问题。
5.域名解析服务(dns)是互联网体系结构中重要的基础服务之一,通过dns将抽象的ip地址映射为易于记忆的域名,可使互联网用户更加方便地访问各种网络资源。由于dns自身缺少恶意行为检测能力,所以常常被利用进行各种恶意活动。目前很多流行的僵尸网络,如conficker、kraken和torpig等采用了“domain flux”的域名解析技术来增强其命令控制服务器的稳定性和隐蔽性。
6.现行的恶意域名检测技术大体上可以分为三类,分别是基于终端程序样本检测,基于网络流量内容检测,以及基于dns流量特征检测。基于dns流量特征检测又可以归纳为两个方面:第一方面的研究是基于一组机器进行静态分析来判断它们是否受到感染;另一方面的研究是基于恶意域名的动态检测,判断是否有恶意的行为。


技术实现要素:

7.本发明的主要目的在于提供一种网络空间中恶意域名自动化检测方法。
8.本发明采用的技术方案是:一种网络空间中恶意域名自动化检测方法,包括:数据采集,用于网络空间中恶意域名的数据采集;分类特征提取算法,用于针对英文和中文的词
法特征的不同,分析并创新性地提出了对于中文域名特有的特征。
9.进一步地,所述分类特征提取算法包括:通过数据预处理得到最初的待检测域名集合,并分别提取每个域名的5个静态特征;将域名集的特征向量送入训练好的svm分类器中,通过分类器的分类,可以得到一个可疑的域名集;计算每个域名的访问峰值活跃度,若峰值活跃度小于某阈值,则判断该域名为非恶意域名,得到非恶意域名集合1,若活跃度大于阈值1,则转入第4步计算;设置子域名个数阈值为50;计算二级域名下子域名集合k-l散度,得到可疑域名集和非恶意域名集合2,将可疑域名集送入第6步计算;计算所有子域名的ttl值并判断ttl是否大于某阈值,若大于某阈值则将域名加入非恶意域名集合2,若小于某阈值则得到最终的恶意域名集合;六个步骤结束后得到最终恶意域名集合里的域名被判断为恶意域名,得到的非恶意域名集合1和非恶意域名集合2里的域名被判断为非恶意域名。
10.本发明的优点:本发明提出基于dns的僵尸网络域名检测特征,即二级域名的双字母分布特征、域名字符长度特征、顶级域名特征、拼音词法特征与数字字母分布特征,并采用组分析方式,加入域名动态特征ttl,k-l散度分析以及域名访问活跃度等动态特征,设计开发恶意域名自动化检测系统,通过动态设定阈值对待测域名进行筛选,根据我校真实的网络dns 数据内容对这五条特征进行测试,对测试结果及各条特征的特性进行分析总结,进而改进恶意域名特征库,从而提升恶意域名检测效率,最终保障网络的安全访问。
11.除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
12.构成本技术的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
13.图1是本发明的网络空间中恶意域名自动化检测方法流程图。
具体实施方式
14.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
15.参考图1,一种网络空间中恶意域名自动化检测方法,包括:数据采集,用于网络空间中恶意域名的数据采集;分类特征提取算法,用于针对英文和中文的词法特征的不同,分析并创新性地提出了对于中文域名特有的特征。
16.其中,数据采集为,首先引入交互式数据包处理程序scapy,然后调用其中的sniff函数对网络数据流量中53号端口进行嗅探,然后将解析类型不为"not-implemented"的dns解析记录按照相应的格式存入数据库中;分类特征提取算法为,针对英文和中文的词法特征的不同,分析并创新性地提出了对于中文域名特有的特征。特征提取是个反复循环的过程,一开始不断寻找基线特征,用分类算法计算并评价分类器,如果结果不能达到预期,则需要加入新的特征或去掉对结果有干扰的特征以达到训练最优化分类器的目的,最后提出六个适合域名检测的静态特征。
17.分类特征提取算法包括:通过数据预处理得到最初的待检测域名集合,并分别提
取每个域名的5个静态特征;将域名集的特征向量送入训练好的svm分类器中,通过分类器的分类,可以得到一个可疑的域名集;计算每个域名的访问峰值活跃度,若峰值活跃度小于某阈值,则判断该域名为非恶意域名,得到非恶意域名集合1,若活跃度大于阈值1,则转入第4步计算;由于k-l散度为组特征,需要二级域名下的子域名达到一定个数才能进行计算,因此先对二级域名的子域名进行计算,个数大于某阈值时转入第5步,小于某阈值时转入第6步。在本系统中,设置其子域名个数阈值为50;计算二级域名下子域名集合k-l散度,得到可疑域名集和非恶意域名集合2,将可疑域名集送入第6步计算;计算所有子域名的ttl值并判断ttl是否大于某阈值,若大于某阈值则将域名加入非恶意域名集合2,若小于某阈值则得到最终的恶意域名集合;六个步骤结束后得到最终恶意域名集合里的域名被判断为恶意域名,得到的非恶意域名集合1和非恶意域名集合2里的域名被判断为非恶意域名。
18.本发明提出了相关工作中的一些方法,目前国内外大部分研究主要是对国外的一些域名进行分析,但国内很多域名采用汉语拼音的缩写或拼音缩写与数字结合的方式,并且英文与汉语拼音存在语义和字母组成的区别,所以现有的检测方法运用于国内恶意域名检测效果不佳,国内域名与dga算法生成域名在字符组成分布上十分相似,如果只通过域名的字符构成特征进行检测,存在较高的误报率。为了解决这些问题,本发明提出了单独的二元组分析方法:一般认为,一个词组的首字母和最末尾的字母是有一定含义的,在进行二元组分析时,分别在首端和末端加上了

^’和

$’;本文采用组分析方式,加入域名动态特征ttl和k-l散度分析,通过动态设定阈值对待测域名进行筛选。通过在传统方法上的综合、改进和创新,最终运用于中国区域域名的检测结果有较好的检测率和较低的误报率。
19.本发明基于真实数据,对原数据流量拆包解析出dns数据并提取出所有访问域名,将所有域名中的三级和四级域名去除,仅保留二级域名与顶级域名。通过对isp的dns服务器进行长期监测与分析,发现感染主机为获取c&.c服务器的ip地址,在域名请求行为上具有明显的组行为特征,并基于国内域名特点提出中文韵母特征,利用这些特征,通过svm分类器对筛选出的非重复域名集合进行模型训练,有效提取出可能的恶意域名集合,再根据域名动态特征进行筛选,进一步增加了准确率并降低了误报率和漏报率。
20.基于以上背景,本发明通过分析近期真实的网络流量,发现在5分钟时间内,共发现了945539个不同的ip进行域名请求,累计访问了23740个不同的域名,共计大约有200万条dns解析记录。毫无疑问,这么大的数据量,人工无法针对这一棘手的问题,本发明同时提出开发基于全校园网的恶意域名自动化检测系统,用于分析dns流量来检测域名是否是恶意域名。首先搜集整理的恶意和非恶意域名的数据库对分类器进行训练,然后用提供的dns全流量数据进行测试,测试时先将获取的dns数据包解析并利用白名单进行过滤,接着将过滤后的域名送入模型进行分类,再根据域名动态特征,即域名访问ttl值,kl散度,域名访问峰值活跃度进行筛选,进一步增加了准确率并降低了误报率和漏报率。最后通过比较漏报率和误报率进行分析。通过大量搜集资料,提取出恶意域名区别于合法域名的特征,并整理成一个全面的数据库。
21.通过单独研究特征的方式,分析了各个特征对于检测恶意域名的能力。提取了双字母分数、二级域名字符长度、顶级域名种类、拼音词法与数字字母混淆分布等五个静态域名的词法特征;并提取了域名生存时间(time-to-live,ttl),k-l散度与域名访问峰值活跃度等域名动态特征。并用准确率、误报率和漏报率三个指标和roc曲线来评价模型的好坏。
22.创新点:提出基于dns的僵尸网络域名检测特征,设计开发恶意域名自动化检测系统,实现实时全流量监测和自动分析。
23.主要研究内容:1、首先通过大量实验分析对比域名的静态特征和动态特征,找到能较好的描述我校网络恶意域名的5个域名静态分布特征和3个域名动态筛选特征;2、提出域名检测自动化架构,实现了在核心网络对大规模的僵尸网络状态进行实时的监控;3、整理出一个全面的数据库用于本发明的自动化检测系统,包括权威的合法域名和大量各类型的恶意域名;4、系统检测适用于大数据,系统搭建在网络端口,可实现实时全流量监测和自动分析。
24.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献