一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于特征融合的电网信息系统网络攻击检测方法及装置与流程

2022-10-26 08:56:33 来源:中国专利 TAG:


1.本发明属于电力信息安全领域,具体涉及一种基于特征融合的电网信息系统网络攻击检测方法及装置。


背景技术:

2.随着电力数据化建设的不断推进,信息技术的引入在给电力系统带来便捷的同时,也带了大量的问题,其显著缺点之一是网络安全问题。电力网络信息安全目标是必须采取预防措施来保护电网的机密性、完整性和可用性的信息。机密性是指只有经过授权的人员才能访问电力信息系统信息。如果网络攻击者随意得到这部分信息,其可以滥用这些信息作出不可挽回的破坏。完整性是为防止数据受到未经授权的更改和破坏,维护和确保保障电力系统数据的真实完整。可用性是保护信息系统免受故障,信息必须在需要时及时提供给电网中的授权方,而不会影响安全性。智能电网应用程序中的典型网络攻击主要针对机密性、完整性和可用性信息中的一个或多个。因此,准确识别电网中的漏洞和网络安全威胁,有效制定策略保护电网的机密性、完整性和可用性的信息,对于保障电网系统的平稳运行具有重大的意义。
3.电力信息网络庞大的网络规模导致网络攻击和漏洞的数量增加。尽管目前遇到的网络犯罪多种多样,但统一资源定位器(uniform resource locator,url)一直充当“网关”角色,将受感染电网用户与恶意代理联系起来。这部分恶意url伪装成正常的网站和帐户,在点击它们之前,潜在的受害者很难判断一个url是恶意的还是良性的。因此,提前检测恶意url是保护易受攻击的用户免受网络攻击的一项不可或缺的任务。
4.为了检测恶意网址,主流浏览器普遍采用网址黑名单,防止用户访问恶意网站。基于黑名单的解决方案需要维护一个巨大的黑名单,通过查找该黑名单来确定一个url是否是良性的。基于黑名单的解决方案容易实施,但在面对用户生成内容的爆炸式增长时,维护最新的黑名单变得十分困难,同时构建大规模的黑名单需要付出巨大的努力,投入大量的人力,时间消耗巨大。为了自动检测恶意url,许多研究通过特征工程来构建知识库,并利用经典的机器学习算法,包括支持向量机、决策树、随机森林和朴素贝叶斯等来检测恶意url。然而,基于机器学习的解决方案严重依赖特征工程。由于攻击者也会随着时间的推移不断调整他们的策略,使得一些学习信息无效,因此基于短生命周期训练数据集训练的模型对于新兴的恶意url效果不佳。最近,包括卷积神经网络(cnn,convolutional neural network)和循环神经网络(rnn,recurrent neural network)在内的深度神经网络(dnn,deep neural network)越来越受欢迎,并在众多分类任务中实现了最先进的性能。然而,现有的基于dnn的url分类任务解决方案通常将url视为文本数据,在token级别学习url的深度表示,并直接应用深度学习模型,而不考虑url的独特模式。生命周期短、动态随着不同的混淆策略而变化等独特性的恶意url对电力网络信息安全防御检测带来了极大的影响,如何突破现有的解决方案有效针对电网恶意url攻击特性进行检测是一个亟需解决的问题。


技术实现要素:

5.发明目的:本发明的目的是提供一种基于特征融合的电网信息系统网络攻击检测方法及装置,实现电力系统中遇到的生命周期短、动态随着不同的混淆策略而变化等特性的恶意url有效检测。
6.技术方案:一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:
7.对样本url数据进行数据预处理,包括去除重复样本、数据修剪、格式化,所述数据修剪去除指定条件的符号和字符,所述格式化将数据分为两列,修剪后的url放置在第一列中,url的标签放置在第二列中,其中标签标记了url是否恶意;
8.基于预处理后的url数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;
9.基于预处理后的url数据,执行token提取以从url中获取tokens,通过word2vec学习url tokens的向量表示,利用时间卷积网络学习urltokens向量之间的距离依赖关系,所述距离依赖关系称为结构特征;
10.利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的url数据进行识别,基于特征融合的识别结果完成恶意url的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。
11.进一步地,所述数据修剪包括:
12.对于提取文本特征的数据修剪,针对url数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对url长度进行标准化操作,所述标准化操作包括将url长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充;
13.对于提取结构特征的数据修剪,针对url数据集,删除最后一个#后面的连续字符串,并删除最后一个?后面的顺序字符串。
14.进一步地,执行token提取以从url中获取tokens包括:
15.按/的位置将url分成四个块:协议、域、路径和文件,第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分,利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上,其中协议部分的每个token都放在大括号{}中,域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号《》中,文件部分中的标记用方括号[]。
[0016]
进一步地,所述利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括:
[0017][0018]
其中ω0是模型偏差;ωi∈r是对特征变量xi的权重建模;表征变量xi和xj之间的成对交互,k表示隐向量长度;n代表样本的特征数量;v
i,f
表示xi的辅助向量,表示向量xi在对应域fj的辅助向量,为向量xj在对应域fi的辅助向量。
[0019]
进一步地,所述利用时间卷积网络学习url tokens向量之间的距离依赖关系包
括:
[0020]
时间卷积网络输入层将token向量化的数据作为模型的输入,时间卷积网络由多个残差模块堆叠而成,负责提取对应的序列的时序特征,每个残差模块有一个输入,称为x,两个输出,均为高维张量,一个表示该模块所提取出的特征h
t
,一个表示该模块输出的残差r
t
,每个残差模块由4个一维卷积层conv0、conv1、conv2、conv3组成:第一个卷积层conv对输入做初步处理,输出为c0;第二个卷积层conv1的输入为c0,输出经过dropout后选择使用sigmoid函数激活,称之c1,第三个卷积层的输入为c0,输出经过dropout后选择使用tanh函数激活,称之为c2,c1和c2的输入需要考虑tcn的扩张卷积参数d,并在逐元素相乘后输入conv3,其输出即为h
t
,h
t
与模块输入x相加后即得到另一个输出r
t

[0021]
进一步地,所述自定进度学习策略包括:
[0022]
给定数据集d={(x1,y1),...,(xn,yn)},其中xi∈rm表示d中第i个url的特征,yi是第i个url的对应类,由文本分量引起的基本事实yi和估计标签之间的损失用表示,结构分量的损失用表示,其中是指第i个样本的深度分量的预测结果;
[0023]
自定进度学习策略共同训练双线性因子分解机模型和时间卷积网络模型模型的参数w并通过最小化如下等式来学习潜在的权重变量v=[v1,....,vn]:
[0024][0025]
其中参数λ控制学习率,lw是指用逻辑损失量化的文本部分的损失;ld表示由交叉熵损失测量的深层结构损失。
[0026]
一种基于特征融合的电网信息系统网络攻击检测装置,包括:
[0027]
预处理模块,对样本url数据进行数据预处理,包括去除重复样本、数据修剪、格式化,所述数据修剪去除指定条件的符号和字符,所述格式化将数据分为两列,修剪后的url放置在第一列中,url的标签放置在第二列中,其中标签标记了url是否恶意;
[0028]
文本特征提取模块,基于预处理后的url数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;
[0029]
结构特征提取模块,基于预处理后的url数据,执行token提取以从url中获取tokens,通过word2vec学习url tokens的向量表示,利用时间卷积网络学习urltokens向量之间的距离依赖关系,所述距离依赖关系称为结构特征;
[0030]
特征融合模块,利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的url数据进行识别,基于特征融合的识别结果完成恶意url的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。
[0031]
本发明还提供一种计算机设备,包括:
[0032]
一个或多个处理器;
[0033]
存储器;以及
[0034]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的基于特征融合
的电网信息系统网络攻击检测方法的步骤。
[0035]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于特征融合的电网信息系统网络攻击检测方法的步骤。
[0036]
有益效果:本发明综合考虑url的文本特征和结构特征,针对文本特征通过双线性因子分解机(ffm)算法有效来学习文本特征之间的潜在交互;对于深层结构特征,考虑恶意url中不同位置的标记具有不同的功能,引入位置嵌入进行标记向量化,以减少url标记的歧义,同时,利用时间卷积网络(tcn)来学习url标记之间的长距离依赖关系,有效完善了特征完整性。在提取文本特征和结构特征后,通过自定进度学习策略有效地协同训练两个分支,确保模型适用于简单和多样化的样本,最后基于融合特征有效完成恶意url的检测。本发明对于解决电力系统中遇到的生命周期短、动态随着不同的混淆策略而变化等特性的恶意url检测问题提供了有效手段。
附图说明
[0037]
图1是本发明的攻击检测方法整体示意图;
[0038]
图2是本发明示例url分解示意图;
[0039]
图3是本发明的时间卷积神经网络示意图。
具体实施方式
[0040]
下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
[0041]
本发明要解决的技术问题是与以往主要关注词汇特征的研究不同,提出如何融合包括文本特征(统计特征、词汇特征)和深层结构特征在内的异构特征,旨在为恶意url的检测提供可解释的模型。参照图1,在数据预处理后,一部分是表征提取文本特征(词汇特征和统计特征)的语义处理分支,并利用双线性因子分解机学习特征之间的潜在交互;而另一部分则是采用位置嵌入和时间卷积网络来学习url的深层结构特征的空间处理分支;然后引入自定进度学习策略(spld),有效地协同训练两个分支,给出对恶意url的检测结果。通常而言,基于学习模型的处理方法包括模型的训练阶段和应用阶段,在训练阶段,使用训练数据集对模型进行训练,在应用阶段,使用训练好的模型对实际产生的数据进行预测。两个阶段的具体处理过程类似,为了描述的简洁和清楚,下面描述中针对本发明的方法的训练过程做出具体说明。在训练完成后,利用训练好的模型进行应用是显而易见的。
[0042]
结合图1,本发明提出的基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:
[0043]
步骤s1,对样本url数据进行数据预处理。
[0044]
url指定web资源的位置并提供检索相应internet信息的机制。通常一个url包括四部分:协议、域名、路径和文件。协议部分指示应该使用哪个协议来访问域中指定的信息。域名允许用户通过记住一组简单的单词或其他字符而不是一长串数字来访问网站。域名由两部分组成:顶级域和子域。子域与顶级域一起形成一个完全限定的域名,可用于访问该网站。路径是从服务器根目录到文件的子目录列表。对于文件部分,它通常是指资源的名称,有时还包括参数列表。
[0045]
本发明实施例中通过电力网络检测系统统计一年运营中遇到的网络攻击的url数据进行合成,用作训练数据。对于合成的数据集进行数据预处理,包括:去除重复样本、数据修剪、格式化。
[0046]
去除重复样本之后,对于url数据集的数据修剪主要分为两部分:一部分是用于提取url文本特征的数据修剪,另一部分是用于提取url结构特征的数据修剪。
[0047]
对于提取文本特征的数据修剪,针对url数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计。通过删除低频特殊字符、对url长度进行标准化等操作保证每个url都提供有用信息,有效降低url复杂度。通过统计发现第45个索引之后的字符出现频率很低,进而将该索引之后的字符从url中删除,对url中文本特征信息的影响可以忽略不计。针对每个url的长度的不一致问题,基于本文统计数据集中url的平均长度为45,进而对每个url的长度进行标准化。比45长部分被截断,短部分用零填充,以保证每个url的长度相同。
[0048]
对于提取结构特征的数据修剪,针对大规模的url数据集,按照以下规则进行数据筛选:1)删除最后一个#后面的连续字符串,因为url中的#是网页的一部分,不会发送到服务器端。2)删除最后一个?后面的顺序字符串,因为?一般在url中表示web浏览器不应使用缓存的信息。
[0049]
接下来,进行数据格式化以标记修剪后的样本。具体来说,数据集被格式化为两列。修剪后的url放置在第一列中,url的标签放置在第二列中,标签标记了url是否恶意。经过数据预处理,得到了最终url实例数据集,选取其中的4/5作为训练数据集。
[0050]
步骤s2,提取文本特征,文本特征包括词汇特征和统计特征,利用双线性因子分解机学习文本特征之间的潜在交互。
[0051]
首先,对训练数据集中每个url实例进行特征工程,提取包括词汇特征和统计特征在内的大量特征,然后构建特征向量。
[0052]
对于特征工程,本发明使用词汇特征和url统计特征来表征文本特征。词汇特征主要通过字符串处理函数匹配得到,对于统计特征基于编辑距离算法进行计算得到。针对url统计特征,本发明通过构建token名词库,用来对token进行相似度计算,在对待检测url进行token提取处理后,基于编辑距离算法得到统计特征的取值。关于token提取的具体方法在步骤s3中结合结构特征的提取中描述。
[0053]
给定一个url数据集首先为每个url实例提取文本特征向量xi={x1,...,x
p
},其中xi是p维特征向量;yi是样本si的标签信息。对于该向量的目标是找到一个具有yi的最大似然估计的映射函数
[0054]
上述url的文本特征可能不是独立且极其稀疏的。同时面对基于机器的分类算法,条件独立性假设指出,在给定条件变量的情况下,特征彼此条件独立。特征之间的独立性假设非常强,但其对于url文本特征几乎不成立。由于上述文本特征可能不是独立且极其稀疏的,本发明应用分解机(fm)来学习文本特征之间的高阶潜在交互。
[0055]
一个2阶fm模型可以表示为如下等式(1),其中ω0是模型偏差;ωi∈r是对特征变量xi的权重建模;表征变量xi和xj之间的成对交互,如式(2)所示,式
中,k表示隐向量长度;n代表样本的特征数量;v
i,f
表示xi的辅助向量。fm不需要对特征进行独立假设,可以用来对特征之间的交互进行建模。其次,fm使用分解参数化而不是像svm中的密集参数化对所有嵌套变量交互进行建模。这确保了fm在o(kn)中具有线性时间复杂度。通过使用fm通过挖掘特征之间的成对交互来削弱特征独立性的严格假设。对于分类任务,fm模型是通过最小化交叉熵损失来训练的,如等式(3)所示。其中pi是预测的概率分布,yi是指预测结果。
[0056][0057][0058]
其中ffm(field-aware factorization machines)则是将隐向量又进一步细化,比起fm每个特征只对应一个隐向量,ffm中每个特征都对应着多个隐向量。跟不同的特征交叉使用不同的隐向量来计算对应交叉项的参数。显然,这样每个特征都带有更多隐向量的ffm比起每个特征都只带有一个隐向量的fm有更多的参数,模型的拟合能力就更强。ffm的特征交叉如式(4)所示,其中表示向量xi在对应域fj的辅助向量,为向量xj在对应域fi的辅助向量。
[0059][0060]
步骤s3,在数据预处理之后,执行token提取以从url中获取tokens,通过word2vec学习url tokens的向量表示,利用时间卷积网络提取学习urltokens向量之间的距离依赖关系。
[0061]
url表示旨在构建一个特征图来表征url实例,url表示可以从不同的角度进行表征。url的文本特征主要包括url的长度、分隔符的频率、特殊字符等。词汇特征只关注token的共现,而忽略了token的位置信息。从一个数据集中提取的文本特征在应用于其他数据集时可能会引入偏差,这最终会导致训练模型的性能有偏差。故而本发明提出了除了从url的文本模式进行文本特征的提取,还需要从url的结构模式进行特征提取。url的结构信息的忽略可能导致token的模糊,无法区分token的细微差别。对于一个url中的两部分:域部分和路径部分,相同的token位于不同的部分有不同的含义,位于域部分中的是特定网站的标识符,可能指示一个给定url的托管位置,而路径部分中的则代表的是相对路径。
[0062]
根据先前的研究,恶意url更有可能在路径级别包含知名域tokens,以欺骗潜在用户点击链接。为了强调token位置对恶意url检测的影响,进而引入了url的位置嵌入。为了评估位置嵌入对减少歧义的效果,本发明比较了没有位置嵌入的标记向量的差异。在url中,com、web、www、login、chase等就是典型的token。具体来说,首先选择出现在域部分和路
径部分中的前10个最常见的token。然后,对于每个token,分别检索每个token出现在域部分和路径部分中时最相似的token。当token com出现在domain部分时,与com最相似的tokens包括nocovernightclubs、elitetv等。当token com出现在路径部分时,其和mazarbhai、gatto和willowsoul等最为相似。对于token paypal,它与domain部分中的webo、maxfocus、ttwschool和freesexwebcams的相似度最高。虽然它在路径部分显示出与webtvhd、iessay的高度关联。显然,随着特定token位置的变化,两组相似token明显不同。同时,本发明比较了出现在url不同部分时的token相似度。token www在不同部分呈现时的表示向量相似度较低。这表明出现在不同部分的token应被视为两个token以避免标记歧义。基于上述分析可知,urltoken是位置敏感的,不应直接视为文本序列。进而为了最小化不同上下文中的token模糊性,本发明通过考虑url部分的功能,使用位置嵌入将位置信息嵌入到token向量化中。
[0063]
具体位置嵌入的实现过程包括如下步骤:
[0064]
在数据预处理之后,执行token提取以从url中获取tokens。
[0065]
首先,按/的位置将url分成四个块:协议、域、路径和文件。第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分。为了克服token歧义问题,利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上。
[0066]
举例而言,参照图2,一个url被分解成四个块,每个块里面有多个卡盘,为每个卡盘执行对齐策略以最小化标记模糊性。对齐是将tokens定位在带有不同类型括号的不同卡盘上,这样才能保证url token的唯一性。具体来说,协议部分的每个token都放在大括号{}中;而域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号《》中,文件部分中的标记用方括号[]。
[0067]
分块后的顺序字符串由一组分隔符分割,这些分隔符定义在a={/,\,:,.,#,@,?,=}中。为了最大限度地减少信息丢失,本发明引入了特殊的标记,包括slash,equal,dot,hyphen,hash,dash,at,mark,colon来代替a中定义的特殊分隔符。如图2所示,通过英文字符代替分隔符。对这四个块里面的token进行划分。
[0068]
在token提取之后,生成的token序列被送到word2vec模型中,将词嵌入到低维向量空间中。
[0069]
对于深层结构特征,本发明用分隔符分割每个url实例ai。标记分离后,原始的url ai可以表示为token序列ai=[ai:,....,:an],其中a1表示一个token,n表示修剪后的url中token的数量。在token提取之后,生成的token序列被馈送到word2vec模型中。word2vec是一个广泛应用于自然语言处理中的两层神经网络,其将单词嵌入到低维向量空间中,其中向量空间中基于上下文靠近的向量具有相似的含义,而彼此远离的词向量具有不同的含义意义。遵循word2vec的思想来学习url tokens的向量表示,以捕获url tokens之间的句法和语义关系。在实践中,使用skip-gram模型来训练url tokens的矢量化表示。
[0070]
鉴于不同位置的标记具有不同的功能特征,通过url表示的位置嵌入来减少标记的歧义。与将url视为文本数据的方法不同,url表示的位置嵌入利用url的结构模式并根据其结构功能区分标记。给定一个要训练的模型,使用位置嵌入来学习tokens的向量化,使用位置嵌入训练的模型易于快速收敛,这对于在大规模数据集上以较低的训练成本和较少的
计算量进行模型训练至关重要。
[0071]
在token向量化之后,修剪后的url可以表示为ai=[ai:,....,:an]
τ
,其中ui是第i个token的向量化表示。对于这部分向量,接下来的目标是找到一个接近基本事实yi的目标函数。
[0072]
大约25%的恶意url托管在受信任的域上,因为受信任的域不太可能引起怀疑并且更难阻止。为了解决这个问题,token的依赖性将有助于恶意检测。预处理后的url可以看成是一系列的文本序列,但是深度学习模型不能直接接收原始文本序列作为输入,只能处理数值张量。因此,如何将url中包含的信息编码为数值表达式,是模型识别和检测的重要前提。通常是通过word embedding进行编码。本发明中充分考虑url中token位置的重要性,通过位置嵌入主要是把数据向量化转化为深度学习模型可以接受的输入数据。
[0073]
对于深度学习模型的考虑,cnn不能编码时间序列信息,并且感受野小;在时间和空间复杂度方面,rnn无法保留具有巨大训练消耗的长距离依赖性。因此,本发明选择时间神经网络(tcn)来学习url结构之间的关联。tcn模型属于卷积神经网络模型中的一种,其本质是针对时间序列问题特殊改造的一维cnn模型,进而利用tcn来学习urltoken之间的远距离依赖。tcn的通用框架由三个组件组成:因果卷积、膨胀卷积和残差连接。因果卷积仅取决于当前和过去的输入值。形式上,因果卷积操作是一个映射函数f(x
(1)
,...,x
(t)
)
→y(t)
,满足y
(t)
仅依赖于x
(1)
,...,x
(t)
的因果约束,而不是任何“未来”输入x
(t 1)
,...,x
(t n)
。为了构建更深的网络,tcn中引入了如图3所示的残差块,以增加网络深度以提高网络表达能力,通过残差块中的跳跃连接有助于保持梯度的范数并导致稳定的反向传播。首先,tcn修复了梯度消失和梯度爆炸的问题,并且在训练过程中不需要时间反向传播。其次,tcn中的膨胀卷积使得感受野随着网络的深度呈指数增长,这使得构建更深的神经网络成为可能。第三,tcn比rnn具有更高的并行度,这使得它们的训练和部署在计算上更可行。此外,tcn能够通过使用时间卷积过滤器、池化和上采样的层次结构从顺序输入中学习长距离依赖性。
[0074]
根据本发明的实施方式,输入层将token向量化的数据作为模型的输入,tcn由多个残差模块堆叠而成,负责提取对应的序列的时序特征。每个残差模块有一个输入,称为x,两个输出,均为高维张量,一个表示该模块所提取出的特征h
t
,一个表示该模块输出的残差r
t
。每个残差模块由4个一维卷积层conv0、conv1、conv2、conv3组成:第一个卷积层conv0对输入做初步处理,输出为c0;第二个卷积层conv1的输入为c0,输出经过dropout后选择使用sigmoid函数激活,称之c1。第三个卷积层的输入为c0,输出经过dropout后选择使用tanh函数激活,称之为c2,c1和c2的输入需要考虑tcn的扩张卷积参数d,并在逐元素相乘后输入conv3,其输出即为h
t
。h
t
与模块输入x相加后即得到另一个输出r
t

[0075]
考虑到一个tcn层可由多个残差模块组成,因此在将多个残差模块堆叠时,要求第k-1个残差模块的输出r
tk-1
作为第k个残差模块的输入;全部模块的输出h
t
相加,并经过relu函数激活后作为tcn的输出y
t

[0076]
步骤s4,在提取文本特征和深层结构特征后,引入协同训练策略,同时拟合词汇特征和深层结构特征。为了实现这一目标,本发明将具有多样性的自定进度学习应用于两个分支的协同训练,以提高鲁棒性和效率。
[0077]
为了融合词汇特征和结构特征,本发明引入了多元化的自定进度学习策略来衡量不同特征对恶意url检测的重要性。给定训练数据集d={(x1,y1),...,(xn,yn)},其中xi∈rm表示d中第i个url的特征,yi是第i个url的对应类。由文本分量引起的基本事实yi和估计标签之间的损失用表示。类似地,结构分量的损失用表示;其中是指第i个样本的深度分量的预测结果。为了融合语义特征和结构特征,自定进度学习策略旨在共同训练宽和深模型的参数w并通过最小化等式(5)来学习潜在的权重变量v=[v1,....,vn]。其中,宽模型指的是文本的双线性因子分解机模型,深模型指的是时间卷积网络模型。
[0078][0079]
自步学习从选取最简单的数据子集开始,逐渐加入复杂的数据,从而减少熵值,训练出潜在的权重参数。通过在损失函数中引入权重变量来表示样本是否被选择。
[0080]
在等式(5)中参数λ控制学习率。lw是指用逻辑损失量化的文本部分的损失;ld表示由交叉熵损失测量的深层结构损失。spl的目标是与负l1范数正则化器一起最小化加权训练损失。本发明应用了迭代双凸优化策略,求解方程(5)。当v是固定的时,方程(5)可以被视为一种标准的监督学习目标函数,以最小的损失学习参数w。
[0081]
对于给定的w,全局最优可以由公式(6)计算。其中vi是一个门联合,用于控制是否应根据其容易程度在训练数据集中选择一个样本。
[0082][0083]
为了进一步考虑url样本的多样性,经过训练的模型可能会因使用不同样本的显着性能差异而产生偏差。为此,进一步可以使用具有多样性的自定进度学习(spld),通过方程式来表示(7)。
[0084][0085]
不同于等式(5),还有一个正则化项是在方程式(7)中引入,其中指的是多样性项,b是训练期间的分区数。spld战略能够控制选择多少简单样本,并且也平衡了不同样本之间的多样性分区。
[0086]
为了提高待训练模型的鲁棒性,本发明使用自定进度的学习策略来平衡样本的容易性和多样性。一般来说,融合策略可以表述为公式中定义的损失函数中的正则化项(4)和(6)。正则化项可以应用于不同的任务,以平衡样本的简单性和多样性。
[0087]
作为对比,公式(5)中主要就是用到协同训练算法这个半监督学习方法,但是该方法鲁棒性和效率欠佳,通过公式(7)引入了自步学习进行优化。在本发明的协同训练方法中,两个分类器分别是基于文本特征双线性ffm和基于结构特征的tcn分类器。
[0088]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0089]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献