一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的恶意PDF文件对抗样本生成方法

2022-08-27 01:03:54 来源:中国专利 TAG:

基于深度强化学习的恶意pdf文件对抗样本生成方法
技术领域
1.本发明涉及信息系统安全技术领域,更具体地说涉及一种基于深度强化学习的恶意pdf文件对抗样本生成方法。


背景技术:

2.机器学习技术已经被广泛地应用于信息系统安全领域中,包括网络入侵地检测,伪造人脸地检测,以及恶意软件地检测。随着机器学习技术地发展,恶意软件检测地鲁棒性稳步提高,目前非可执行文件(如pdf文档)已越来越多地被用作恶意攻击的载体。非可执行文件与可执行文件相对,是指不由计算机直接运行的文件,包括文档、图像、音视频等。pdf文档传播广泛,且其结构精妙而容易隐藏恶意负载,因此恶意pdf文档带来的安全威胁越来越严峻。根据赛门铁克在2019年发布的互联网安全威胁报告,pdf和微软office文件一类的非可执行文件几乎占据所有恶意电子邮件附件的一半。因此,恶意pdf文件对网络安全威胁的现状亟待解决。
3.虽然机器学习检测器在检测恶意pdf文件任务中表现出色,但值得注意的是,基于学习的检测系统容易受到对抗样本的攻击。对抗样本是指添加细微的干扰所形成的输入样本,用以误导检测系统以高置信度给出一个错误的分类结果。对抗样本攻击所带来的风险使得伪装后的恶意pdf文件难以被发现,从而显著降低机器学习检测器的有效性。因此,机器学习检测方法的鲁棒性有待提高,实现这一目标的方法之一是通过在模型训练过程中加入对抗样本来强化模型的泛化能力。为了暴露机器学习检测器的弱点并进一步提升恶意pdf检测器的鲁棒性,一种高效的对抗样本生成方法需要被研发。
4.对抗样本生成技术可以根据生成技术分为启发式(heuristic-based)和基于优化(optimization-based)的两类方法。启发式生成技术以模仿攻击为代表,其尝试修改恶意样本的特征向量,使其尽可能地接近良性样本。该方法需要对目标检测系统的特征集合以及良性样本的特征具有较高程度的先验知识,不适用于现实场景中。基于优化的方法(如遗传算法等)对恶意样本进行随机修改,易使样本原有的恶意功能丧失,且随机搜索策略使得生成样本效率低,算法计算开销较大。此外,恶意样本具有持续进化的特性,因此会导致训练后的对抗样本生成模型面对持续进化的恶意样本与检测器出现性能退化的问题。


技术实现要素:

5.为了克服上述现有技术中存在地缺陷,本发明提供了一种基于深度强化学习的恶意pdf文件对抗样本生成方法,本发明的发明目的其一,为了在生成pdf对抗样本的生成效率上取得突破,需要有一种新的修改动作选择算法,选择最优的修改动作而不是进行随机修改,同时解决随机修改策略对原有恶意性功能破坏的问题;其二,为了在增强对抗样本生成模型的可持续性上取得突破,需要采用轻量化更新方式使其对进化后的恶意样本与检测器进行增量学习,有效克服性能退化的问题。本发明基于强化学习的pdf对抗样本生成方法使用强化学习模型从已有的探索经验中形成快速寻找下一个最佳修改动作的策略,根据检
测器返回的分类结果选择合适的修改动作执行黑盒攻击,而不依赖于对检测器特征集合的先验知识,克服了启发式算法的缺陷并在实际情景下具有可行性。同时,通过自动寻找最优修改动作修改给定的pdf文件,生成可逃逸检测器检测的对抗样本,并采用离线训练与在线微调的方式轻量化更新生成模型,使得模型保持对不断进化的pdf恶意软件和检测器的有效性,从而暴露检测器缺陷、提高机器学习检测器的鲁棒性。
6.为了解决上述现有技术中存在的问题,本发明是通过下述技术方案实现的。
7.本发明提供了一种基于深度强化学习的恶意pdf文件对抗样本生成方法,该方法包括以下步骤:
8.s1、获取并形成恶意pdf文件样本集和良性pdf文件样本集,选定用于检测恶意pdf文件的基于机器学习算法的目标检测器模型,对所收集的恶意pdf文件样本和良性pdf文件样本进行特征提取,并用提取到的特征训练恶意pdf文件检测器;
9.s2、构建智能体、定义强化学习动作空间与状态空间、确定奖励机制;初始化采用的深度强化学习模型类型与其超参数;
10.s3、初始化经验回放池、随机初始化决策网络与目标网络的权值,将总进行步数与总获得奖励置为零,启动深度强化学习训练;在训练过程中,强化学习的智能体与环境反复交互多轮;
11.每一轮交互开始前,环境自身对其部分参数进行重新初始化操作,包括重新从恶意pdf文件样本集中选取一个未被选择的恶意pdf文件样本,并将其转化未初始观测状态,并将本轮交互获得的奖励、本轮交互的动作步数初始化为零;
12.智能体与环境交互时,智能体根据当前样本结构得到当前观测的状态,然后根据其当前观测到的状态,从所搭建的动作空间中选择一个修改动作对pdf样本进行修改,修改将体现在状态的变化中;
13.s4、将智能体当前所观测到的状态输入到自身决策网络,从决策网络返回智能体下一步应该执行的操作;智能体遵循ε-greedy策略,以一定概率选择决策网络输出的最佳动作或随机动作,并执行本次操作;将智能体修改后的pdf样本输入到s1步骤训练得到的恶意pdf文件检测器中,从该恶意pdf文件检测器中得到分类结果,将分类结果作为本次动作的奖励,并由环境返回智能体下一状态;
14.将本轮交互中,每一训练步中智能体的当前状态、动作、奖励以及采取动作后的下一状态作为一个四元组加入经验回放池中供更新决策网络参数使用;
15.将经验回放池中的所有经验作为离线数据进行存储,供s11步骤使用;
16.s5、开始经验回放过程后,每一训练步均从优先经验回放池中按优先级选取一定数量的经验更新智能体的决策网络,每隔若干训练步将决策网络权值复制到目标网络中;
17.s6、当智能体采取修改后使得pdf样本被恶意pdf文件检测器分类为良性pdf文件,或达到每轮交互的最大修改次数时,结束本轮交互,该pdf样本即为该轮交互生成的对抗样本;每轮交互结束时,对生成的对抗样本是否保留由恶意功能进行检测;
18.s7、每间隔一定训练步数,对目前的决策网络性能进行一次测试,在测试过程中从恶意pdf文件样本集中随机选取一批样本作为输入,记录成功生成对抗样本占所有样本的比例,将该比例作为逃逸成功率;
19.s8、重复步骤s3步骤至s7步骤,从s1步骤的恶意pdf文件样本集中随机选取不同的
恶意pdf文件样本,直到达到指定交互轮次;
20.s9、取在多轮交互中获得最高逃逸成功率的决策网络作为最终选取的最优自动生成对抗样本的修改动作选择网络;
21.s10、使用进化的恶意pdf文件样本重新训练恶意pdf文件检测器,并将其作为目标检测器重新集成入模型框架中;
22.s11、使用s4步骤存储的离线数据,初始化经验回放池,初始化环境参数,启动强化学习训练过程;使用上述s10步骤中的进化的恶意pdf文件样本作为训练集,从中随机选取不同的pdf样本,进行深度强化学习训练,且训练所用的决策网络为s9步骤中确定最优自动生成对抗样本的修改动作选择网络,将智能体与环境互动所生成的在线经验与所述离线数据融合,并用其微调智能体决策网络,达到指定交互轮次,获得对进化的恶意样本保持有效性的对抗样本生成模型。
23.进一步的,s1步骤中,恶意pdf文件样本和良性pdf文件样本数据来源于互联网中的可公开获取的contagio数据集,共包含9000个良性pdf样本与10982个恶意pdf样本。
24.进一步的,s10步骤中使用的进化的恶意pdf文件来源于virustotal提供的2017年至2021年共11241个恶意样本。
25.更进一步的,s1步骤中选定的用于检测恶意pdf文件的基于机器学习算法的目标检测器模型是pdfrate。
26.进一步的,对所收集的恶意pdf文件样本和良性pdf文件样本进行特征提取,具体是指,利用pdfrate提供的特征提取工具提取pdf样本中的metadata以及结构特征,将所有提取出来的特征进行特征向量化并进行存储。
27.用提取到的特征训练恶意pdf文件检测器,具体是指:从contagio数据集中选取5000个良性样本与5000个恶意样本作为原始样本集,将原始样本集按照8:2的比例划分为训练集和验证集,将从训练集中提取得到的特征向量作为训练输入以训练恶意pdf文件检测器,使用验证集对训练结果进行验证,验证得超过99%的真阳性率和低于0.2%的假阳性率,说明恶意pdf文件检测器有优秀的检测准确率。
28.进一步的,s2步骤中定义强化学习动作空间,具体是指:智能体的动作是对pdf样本不同的修改方式,包括以下五类动作:
29.meta:修改pdf文件中的元数据,包含文件的一般描述性信息,如文件的标题、作者和创建日期;
30.if:在pdf文件中插入一种新的字体类型,它定义了特定字符集的字形;
31.ir:在pdf文件中插入矩形标注,用于描述页面上各种对象的位置和边界;
32.ioas:插入对象和流对象。一个对象以关键字“obj”开始,以“endobj”结束;而流对象以“stream”关键字开始,以“endstream”关键字结束;该动作通过插入关键词和随机内容进行;
33.mid:修改pdf文件的标识符,即拥有两个32位字符串组成的独特id字段。
34.进一步的,s2步骤中,奖励定义为使用智能体修改后生成的样本是否能逃逸检测器的检测,具体来说,如果进行某一修改动作后样本被分类为良性,则智能体获得固定的奖励,否则奖励值为零。
35.进一步的,s2步骤中,环境定义为将pdf文件被映射到内存中所转换成为的特征集
的形式,代表当前智能体所能观察到的pdf文件的状态。
36.进一步的,s3步骤中,经验回放池用于存储每一次智能体探索环境过程中当前状态、动作、奖励以及采取动作后的下一个状态的四元组。优先经验回放池通过计算每一次经验的时序差分误差决定经验的优先级,该误差越高,意味着我们当前的q函数离目标的q函数差距较大大,应该多进行更新,也对应优先级跟高。优先经验回放池具有以下作用:其一,用于减少决策网络训练样本的关联性,提高数据利用率,提高神经网络的训练效率;其二,用于更新决策网络;其三,为回访池中的样本分配权重,使得能给模型带来更大增益的样本优先被选取学习。
37.进一步的,s3步骤中,动作选择方式遵循ε-greedy策略,主要有两种模式,分别为探索模式和利用模式;在探索模式下,随机选择一个修改动作;在利用模式下,智能体的决策网络将会结合以当前状态为输入,选择一个具有最高价值的修改动作。
38.动作选择方式中,每次选择有ε的概率进行探索,有1-ε的概率进行利用,ε的计算方式为:
[0039][0040]
其中,n是当前交互的轮次,m是总交互轮次,系数0.9限制了探索概率的下限。
[0041]
进一步的,在s4步骤中,智能体的决策网络是由输入层、两层隐藏层、输出层组成的神经网络。决策网络的输入是观测得到的样本状态,输出是一个表示每一个动作价值的向量。同时,本方法的智能体中包含两个网络,一个为决策网络,另一个为目标网络,决策网络与目标网络的模型结构与初始参数均一致,区别在于:决策网络用于预测动作,而目标网络作为目标在一段时间内的权值参数是固定不变的,一定的交互轮次后将当前决策网络的权值参数同步到目标网络中,目标网络负责在训练过程中暂时固定q值,从而学习过程更加稳定,。
[0042]
进一步的,在步骤s5中,经验回放池与决策网络的超参数设置为:
[0043]
单次输入网络的最小样本数量为32个;
[0044]
折扣系数gamma=0.99;
[0045]
目标网络的更新间隔为100步更新一次;
[0046]
采用优先经验回放机制,经验回放池的大小为5,000;
[0047]
开始采用优先经验回放机制的时机为算法执行了1,000步以后。
[0048]
进一步的,在步骤s6中,每一轮最大的修改步数设定为30步,检验修改后pdf样本是否保留恶意功能的工具是cuckoo sandbox,在沙箱环境中运行pdf文件并检验其恶意行为。
[0049]
进一步的,在步骤s7中,每经过500步训练步数执行一次测试轮,在测试轮结束后保存每一轮的逃逸成功率以及决策网络的参数。
[0050]
进一步的,在步骤s11中,重新将经验回放池与决策网络的超参数设置为:
[0051]
1)单次输入网络的最小样本数量为32个;
[0052]
2)目标网络的更新间隔为100步更新一次;
[0053]
3)折扣系数gamma=0.99;
[0054]
4)采用优先经验回放机制,经验回放池的大小为6,000;
[0055]
5)开始采用优先经验回放机制的时机为算法执行了100步以后。
[0056]
与现有技术相比,本发明所带来的有益的技术效果表现在:
[0057]
1、本方法避免了对pdf样本的随机修改导致的生成效率低下以及对原有恶意功能的破坏的问题,通过从强化学习过程中获得的经验训练决策网络使得在每次修改时选取最优动作,且设计的修改动作仅涉及对pdf文件中与恶意功能无关的部分进行内容插入,因此不会导致恶意功能被破坏,故对生成的pdf样本在沙箱中检验这一步骤在每轮中仅需执行一次。保证高逃逸成功率的同时极大程度地减小随机动作搜索所带来的不必要的计算开销,提升对抗样本生成效率。
[0058]
2、本方法仅使用检测器的二元分类结果作为奖励指导对修改动作的价值评估,与目标检测器无关,因此使得修改操作不依赖于目标检测器的先验知识,可用于真实环境中执行黑盒攻击;且对动作空间稍加改动即可适用于生成如恶意安卓软件、恶意pe文件等其他类别的对抗样本,是一种通用的对抗样本生成方法。
[0059]
3、本方法使用离线预训练与在线微调的二阶段训练方式训练对抗样本生成模型,避免了从零开始训练的效率低下性,保证了对抗样本生成模型对进化的恶意样本与检测器具有可持续性,同时提升了微调决策网络的效率。
[0060]
4、本发明通过收集到的进化恶意pdf样本训练恶意pdf检测器,并将其作为目标检测器重新集成入模型框架中,再使用进化的恶意pdf样本作为强化学习模型的训练集,使得强化学习模型能够针对进化的恶意样本与检测器进行微调。目的在于提升模型的可持续性。
附图说明
[0061]
图1是基于深度强化学习的恶意非可执行文件对抗样本生成框架图,其中包括强化学习环境的搭建和智能体与环境互动并更新决策网络的总流程。
[0062]
图2是包含离线预训练与在线微调的两阶段训练流程图。
[0063]
图3是pdf文件一般格式以及五种修改动作对pdf文件的修改示例。
[0064]
图4是使用本方法(evaderl)生成的对抗样本经过目标检测器检测所得的置信度分布图。
[0065]
图5是使用本方法(evaderl)生成500个对抗样本的总时间开销与其他方法的对比图。
具体实施方式
[0066]
下面将结合具体实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0067]
作为本发明一种实施方式,参照说明书附图1和附图2所示,本实施例公开了一种基于深度学习的恶意pdf文件对抗样本生成方法,该方法包括以下步骤:
[0068]
s1、获取并形成恶意pdf文件样本集和良性pdf文件样本集,选定用于检测恶意pdf文件的基于机器学习算法的目标检测器模型,对所收集的恶意pdf文件样本和良性pdf文件
样本进行特征提取,并用提取到的特征训练恶意pdf文件检测器。
[0069]
在本实施例中,作为本实施例的一种实施方式,上述s1步骤中恶意pdf文件样本和良性pdf文件样本数据来源于互联网中的可公开获取的contagio数据集,共包含9000个良性pdf样本与10982个恶意pdf样本。
[0070]
作为本实施例的又一种实施方式,s1步骤中选定的用于检测恶意pdf文件的基于机器学习算法的目标检测器模型是pdfrate。
[0071]
进一步的,对所收集的恶意pdf文件样本和良性pdf文件样本进行特征提取,具体是指,利用pdfrate提供的特征提取工具提取pdf样本中的metadata以及结构特征,将所有提取出来的特征进行特征向量化并进行存储。
[0072]
作为本实施例的又一种实施方式,用提取到的特征训练恶意pdf文件检测器,具体是指:从contagio数据集中选取5000个良性样本与5000个恶意样本作为原始样本集,将原始样本集按照8:2的比例划分为训练集和验证集,将从训练集中提取得到的特征向量作为训练输入以训练恶意pdf文件检测器,使用验证集对训练结果进行验证,验证得超过99%的真阳性率和低于0.2%的假阳性率,说明恶意pdf文件检测器有优秀的检测准确率。
[0073]
s2、构建智能体、定义强化学习动作空间与状态空间、确定奖励机制;初始化采用的深度强化学习模型类型与其超参数。
[0074]
作为本实施例的一种实施方式,如图3所示,s2步骤中定义强化学习动作空间,具体是指:智能体的动作是对pdf样本不同的修改方式,包括以下五类动作:
[0075]
meta:修改pdf文件中的元数据,包含文件的一般描述性信息,如文件的标题、作者和创建日期;
[0076]
if:在pdf文件中插入一种新的字体类型,它定义了特定字符集的字形;
[0077]
ir:在pdf文件中插入矩形标注,用于描述页面上各种对象的位置和边界;
[0078]
ioas:插入对象和流对象。一个对象以关键字“obj”开始,以“endobj”结束;而流对象以“stream”关键字开始,以“endstream”关键字结束;该动作通过插入关键词和随机内容进行;
[0079]
mid:修改pdf文件的标识符,即拥有两个32位字符串组成的独特id字段。
[0080]
作为本实施例的又一种实施方式,s2步骤中,奖励定义为使用智能体修改后生成的样本是否能逃逸检测器的检测,具体来说,如果进行某一修改动作后样本被分类为良性,则智能体获得固定的奖励,否则奖励值为零。
[0081]
作为本实施例的又一种实施方式,s2步骤中,环境定义为将pdf文件被映射到内存中所转换成为的特征集的形式,代表当前智能体所能观察到的pdf文件的状态。
[0082]
s3、初始化经验回放池、随机初始化决策网络与目标网络的权值,将总进行步数与总获得奖励置为零,启动深度强化学习训练;在训练过程中,强化学习的智能体与环境反复交互多轮;
[0083]
每一轮交互开始前,环境自身对其部分参数进行重新初始化操作,包括重新从恶意pdf文件样本集中选取一个未被选择的恶意pdf文件样本,并将其转化未初始观测状态,并将本轮交互获得的奖励、本轮交互的动作步数初始化为零;
[0084]
智能体与环境交互时,智能体根据当前样本结构得到当前观测的状态,然后根据其当前观测到的状态,从所搭建的动作空间中选择一个修改动作对pdf样本进行修改,修改
将体现在状态的变化中。
[0085]
作为本实施例的一种实施方式,s3步骤中,经验回放池用于存储每一次智能体探索环境过程中当前状态、动作、奖励以及采取动作后的下一个状态的四元组。优先经验回放池通过计算每一次经验的时序差分误差决定经验的优先级,该误差越高,意味着我们当前的q函数离目标的q函数差距较大大,应该多进行更新,也对应优先级跟高。优先经验回放池具有以下作用:其一,用于减少决策网络训练样本的关联性,提高数据利用率,提高神经网络的训练效率;其二,用于更新决策网络;其三,为回访池中的样本分配权重,使得能给模型带来更大增益的样本优先被选取学习。
[0086]
作为本实施例的又一种实施方式,s3步骤中,动作选择方式遵循ε-greedy策略,主要有两种模式,分别为探索模式和利用模式;在探索模式下,随机选择一个修改动作;在利用模式下,智能体的决策网络将会结合以当前状态为输入,选择一个具有最高价值的修改动作。
[0087]
动作选择方式中,每次选择有ε的概率进行探索,有1-ε的概率进行利用,ε的计算方式为:
[0088][0089]
其中,n是当前交互的轮次,m是总交互轮次,系数0.9限制了探索概率的下限。
[0090]
s4、将智能体当前所观测到的状态输入到自身决策网络,从决策网络返回智能体下一步应该执行的操作;智能体遵循ε-greedy策略,以一定概率选择决策网络输出的最佳动作或随机动作,并执行本次操作;将智能体修改后的pdf样本输入到s1步骤训练得到的恶意pdf文件检测器中,从该恶意pdf文件检测器中得到分类结果,将分类结果作为本次动作的奖励,并由环境返回智能体下一状态;
[0091]
将本轮交互中,每一训练步中智能体的当前状态、动作、奖励以及采取动作后的下一状态作为一个四元组加入经验回放池中供更新决策网络参数使用;将经验回放池中的所有经验作为离线数据进行存储,供s11步骤使用(在s11步骤中,为了在新数据集上快速微调决策网络参数,以之前训练得到的经验(离线数据)初始化经验回放池,使得仅通过少量在线交互就可以完成对网络参数的微调,避免了从零开始训练的低效性)。
[0092]
作为本实施例的一种实施方式,智能体的决策网络是由输入层、两层隐藏层、输出层组成的神经网络。决策网络的输入是观测得到的样本状态,输出是一个表示每一个动作价值的向量。同时,本方法的智能体中包含两个网络,一个为决策网络,另一个为目标网络,决策网络与目标网络的模型结构与初始参数均一致,区别在于:决策网络用于预测动作,而目标网络作为目标在一段时间内的权值参数是固定不变的,一定的交互轮次后将当前决策网络的权值参数同步到目标网络中,目标网络负责在训练过程中暂时固定q值,从而学习过程更加稳定。
[0093]
s5、开始经验回放过程后,每一训练步均从优先经验回放池中按优先级选取一定数量的经验更新智能体的决策网络,每隔若干训练步将决策网络权值复制到目标网络中。
[0094]
作为本实施例的一种实施方式,在s5步骤中,所述的优先级,使用的是优先经验回放算法,计算td-error,td-error大的优先级高,如果td-error比较大,意味着我们当前的q函数离目标的q函数差距还很大,应该多进行更新,因此用td-error来衡量经验的价值。
[0095]
作为本实施例的一种实施方式,在s5步骤中,按优先级选取一定数量的经验更新智能体的决策网络中的“更新”是使用梯度下降、反向传播等方法更新网络参数,并使用adam优化器进行优化,此为自动过程。
[0096]
进一步的,在步骤s5中,经验回放池与决策网络的超参数设置为:
[0097]
单次输入网络的最小样本数量为32个;
[0098]
折扣系数gamma=0.99;
[0099]
目标网络的更新间隔为100步更新一次;
[0100]
采用优先经验回放机制,经验回放池的大小为5,000;
[0101]
开始采用优先经验回放机制的时机为算法执行了1,000步以后。
[0102]
s6、当智能体采取修改后使得pdf样本被恶意pdf文件检测器分类为良性pdf文件,或达到每轮交互的最大修改次数时,结束本轮交互,该pdf样本即为该轮交互生成的对抗样本;每轮交互结束时,对生成的对抗样本是否保留由恶意功能进行检测。
[0103]
作为本实施例的一种实施方式,在步骤s6中,每一轮最大的修改步数设定为30步,检验修改后pdf样本是否保留恶意功能的工具是cuckoo sandbox,在沙箱环境中运行pdf文件并检验其恶意行为。
[0104]
s7、每间隔一定训练步数,对目前的决策网络性能进行一次测试,在测试过程中从恶意pdf文件样本集中随机选取一批样本作为输入,记录成功生成对抗样本占所有样本的比例,将该比例作为逃逸成功率。
[0105]
作为本实施例的一种实施方式,在步骤s7中,每经过500步训练步数执行一次测试轮,在测试轮结束后保存每一轮的逃逸成功率以及决策网络的参数。
[0106]
进一步的,在步骤s11中,重新将经验回放池与决策网络的超参数设置为:
[0107]
1)单次输入网络的最小样本数量为32个;
[0108]
2)目标网络的更新间隔为100步更新一次;
[0109]
3)折扣系数gamma=0.99;
[0110]
4)采用优先经验回放机制,经验回放池的大小为6,000;
[0111]
5)开始采用优先经验回放机制的时机为算法执行了100步以后。
[0112]
s8、重复步骤s3步骤至s7步骤,从s1步骤的恶意pdf文件样本集中随机选取不同的恶意pdf文件样本,直到达到指定交互轮次。
[0113]
s9、取在多轮交互中获得最高逃逸成功率的决策网络作为最终选取的最优自动生成对抗样本的修改动作选择网络。
[0114]
s10、使用进化的恶意pdf文件样本重新训练恶意pdf文件检测器,并将其作为目标检测器重新集成入模型框架中。
[0115]
s11、使用s4步骤存储的离线数据,初始化经验回放池,初始化环境参数,启动强化学习训练过程;使用上述s10步骤中的进化的恶意pdf文件样本作为训练集,从中随机选取不同的pdf样本,进行深度强化学习训练,且训练所用的决策网络为s9步骤中确定最优自动生成对抗样本的修改动作选择网络,将智能体与环境互动所生成的在线经验与所述离线数据融合,并用其微调智能体决策网络,达到指定交互轮次,获得对进化的恶意样本保持有效性的对抗样本生成模型。
[0116]
在s11步骤中,为了在新数据集上快速微调决策网络参数,以之前训练得到的经验
(离线数据)初始化经验回放池,使得仅通过少量在线交互就可以完成对网络参数的微调,避免了从零开始训练的低效性。
[0117]
如图4和图5所示,图4为使用本方法(evaderl)生成的对抗样本经过目标检测器检测所得的置信度分布图。本方法避免了对pdf样本的随机修改导致的生成效率低下以及对原有恶意功能的破坏的问题,通过从强化学习过程中获得的经验训练决策网络使得在每次修改时选取最优动作,且设计的修改动作仅涉及对pdf文件中与恶意功能无关的部分进行内容插入,因此不会导致恶意功能被破坏,故对生成的pdf样本在沙箱中检验这一步骤在每轮中仅需执行一次。保证高逃逸成功率的同时极大程度地减小随机动作搜索所带来的不必要的计算开销,提升对抗样本生成效率。
[0118]
图5是使用本方法(evaderl)生成500个对抗样本的总时间开销与其他方法的对比图。本方法使用离线预训练与在线微调的二阶段训练方式训练对抗样本生成模型,避免了从零开始训练的效率低下性,保证了对抗样本生成模型对进化的恶意样本与检测器具有可持续性,同时提升了微调决策网络的效率。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献